論文の概要: TikArt: Aperture-Guided Observation for Fine-Grained Visual Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.14482v1
- Date: Mon, 16 Feb 2026 05:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.164755
- Title: TikArt: Aperture-Guided Observation for Fine-Grained Visual Reasoning via Reinforcement Learning
- Title(参考訳): TikArt:強化学習による細粒度視覚推論のための開口ガイド観察
- Authors: Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao,
- Abstract要約: 本稿では,関心領域の意思決定プロセスとして視覚言語推論を取り入れた開口誘導エージェントTikArtを紹介する。
TikArtはThink-Aperture-Observeループに従っており、言語生成と2つのアパーチャアクションの交互に行われる。
すべてのアクションの後、モデルは明示的な観察を生成し、局所的な視覚的手がかりを永続的な言語記憶に変換する必要がある。
- 参考スコア(独自算出の注目度): 6.656456191281567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address fine-grained visual reasoning in multimodal large language models (MLLMs), where key evidence may reside in tiny objects, cluttered regions, or subtle markings that are lost under a single global image encoding. We introduce TikArt (Thinking Aperture), an aperture-guided agent that casts multi-step vision-language reasoning as a decision process over regions of interest. TikArt follows a Think-Aperture-Observe loop, alternating between language generation and two aperture actions: Zoom extracts rectangular crops, while Segment invokes SAM2 to obtain mask-based crops for irregular targets. After every action, the model must produce an explicit observation, turning local visual cues into persistent linguistic memory. Built on Qwen3-VL-8B, TikArt optimizes its reasoning policy with AGRPO, a GRPO-style reinforcement learning algorithm with a two-stage curriculum: it warms up segmentation actions and then jointly optimizes visual math, fine-grained VQA, and segmentation, using rewards that couple task success with purposeful aperture use. Experiments on V*, HR-Bench-4K/8K, MME-RealWorld-Lite, MMStar, RefCOCO, and ReasonSeg show consistent gains over the backbone and yield interpretable aperture trajectories for high-resolution reasoning.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)では,小さなオブジェクトや散在する領域,あるいは1つのグローバルな画像符号化で失われる微妙なマーキングに重要な証拠が存在する可能性がある。
関心領域の意思決定プロセスとして多段階の視覚言語推論を行う開口誘導エージェントであるTikArt(Thinking Aperture)を紹介する。
TikArtはThink-Aperture-Observeループに従い、言語生成と2つのアパーチャアクションを交互に行う:Zoomは長方形の作物を抽出し、SegmentはSAM2を呼び出して不規則なターゲットのためにマスクベースの作物を得る。
すべてのアクションの後、モデルは明示的な観察を生成し、局所的な視覚的手がかりを永続的な言語記憶に変換する必要がある。
Qwen3-VL-8B上に構築されたTikArtは、GRPOスタイルの強化学習アルゴリズムであるAGRPOで推論ポリシーを最適化する。これは2段階のカリキュラムで、セグメンテーションアクションをウォームアップし、視覚数学、微細なVQA、セグメンテーションを共同で最適化する。
V*, HR-Bench-4K/8K, MME-RealWorld-Lite, MMStar, RefCOCO, ReasonSegの実験では, 背骨に対して一貫した利得を示し, 高分解能推論のための解釈可能な開口軌道が得られた。
関連論文リスト
- IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation [44.89730606641666]
IBISAgentはビジョン中心の多段階意思決定プロセスとしてセグメンテーションを再構築する。
IBISAgentは、クローズドソースとオープンソース両方のSOTAメソッドを一貫して上回っている。
すべてのデータセット、コード、トレーニングされたモデルが公開されます。
論文 参考訳(メタデータ) (2026-01-06T14:37:50Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-10-21T03:24:12Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [56.001484215308075]
本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-28T19:00:03Z) - ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration [39.2654025469784]
我々は,視覚レベルの推論に適した訓練不要でモデルに依存しない木探索アルゴリズムZoom Eyeを提案する。
このアルゴリズムにより、MLLMは、タスク関連視覚的エビデンスを探索するために、ルートから葉ノードへナビゲートすることで、人間の様のズーム動作をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-25T02:15:30Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - Fine-Grained Visual Prompting [35.032567257651515]
Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
RefCOCO+ testAサブセットで最大12.5%改善され、平均マージンが3.0%から4.6%向上した。
論文 参考訳(メタデータ) (2023-06-07T11:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。