論文の概要: VisRL: Intention-Driven Visual Perception via Reinforced Reasoning
- arxiv url: http://arxiv.org/abs/2503.07523v1
- Date: Mon, 10 Mar 2025 16:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:12.922574
- Title: VisRL: Intention-Driven Visual Perception via Reinforced Reasoning
- Title(参考訳): VisRL:強化推論による意図駆動型視覚知覚
- Authors: Zhangquan Chen, Xufang Luo, Dongsheng Li,
- Abstract要約: 本稿では、意図駆動型視覚知覚の問題に強化学習(RL)を適用した最初のフレームワークであるVisRLを提案する。
中間焦点選択を試行錯誤によって最適化した内部決定として扱うことにより,コストのかかる領域アノテーションの必要性を解消する。
我々の実験は、VisRLが強いベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 22.907814548315468
- License:
- Abstract: Visual understanding is inherently intention-driven - humans selectively focus on different regions of a scene based on their goals. Recent advances in large multimodal models (LMMs) enable flexible expression of such intentions through natural language, allowing queries to guide visual reasoning processes. Frameworks like Visual Chain-of-Thought have demonstrated the benefit of incorporating explicit reasoning steps, where the model predicts a focus region before answering a query. However, existing approaches rely heavily on supervised training with annotated intermediate bounding boxes, which severely limits scalability due to the combinatorial explosion of intention-region pairs. To overcome this limitation, we propose VisRL, the first framework that applies reinforcement learning (RL) to the problem of intention-driven visual perception. VisRL optimizes the entire visual reasoning process using only reward signals. By treating intermediate focus selection as a internal decision optimized through trial-and-error, our method eliminates the need for costly region annotations while aligning more closely with how humans learn to perceive the world. Extensive experiments across multiple benchmarks show that VisRL consistently outperforms strong baselines, demonstrating both its effectiveness and its strong generalization across different LMMs. Our code is available at this [URL](https://github.com/zhangquanchen/VisRL).
- Abstract(参考訳): 視覚的理解は本質的に意図的であり、人間は目的に基づいてシーンの異なる領域に選択的に集中する。
大規模マルチモーダルモデル(LMM)の最近の進歩は、自然言語を通してそのような意図を柔軟に表現し、クエリーが視覚的推論プロセスを導くことを可能にする。
Visual Chain-of-Thoughtのようなフレームワークは、クエリに応答する前にフォーカス領域を予測する明示的な推論ステップを組み込むことのメリットを実証している。
しかし、既存のアプローチは、アノテートされた中間有界箱による教師あり訓練に大きく依存しており、これは意図領域ペアの組合せ爆発によるスケーラビリティを著しく制限している。
この制限を克服するために、意図的視覚知覚の問題に強化学習(RL)を適用した最初のフレームワークであるVisRLを提案する。
VisRLは報酬信号のみを使用して視覚的推論プロセス全体を最適化する。
中間焦点選択を、試行錯誤によって最適化された内部決定として扱うことにより、我々は、人間が世界を理解する方法とより密に連携しながら、コストのかかる領域アノテーションの必要性を解消する。
複数のベンチマークにわたる大規模な実験により、VisRLは強いベースラインを一貫して上回り、その有効性と異なるLMMにわたる強力な一般化を証明している。
私たちのコードは、この[URL](https://github.com/zhangquanchen/VisRL)で利用可能です。
関連論文リスト
- Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文 参考訳(メタデータ) (2024-03-06T02:01:38Z) - Language-Guided Diffusion Model for Visual Grounding [33.714789952452094]
既存のアプローチは、そのような視覚的テキスト推論を1ステップで完了させる。
本稿では,ビジュアルグラウンドディングのための言語誘導拡散フレームワークLG-DVGを提案する。
広範に使用されている5つのデータセットの実験は、視覚的グラウンドリングの優れた性能、つまり、モーダルなアライメントタスクを生成的手法で検証した。
論文 参考訳(メタデータ) (2023-08-18T14:54:13Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。