Fugu-MT 論文翻訳(概要): Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning

論文の概要: Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.20272v1
Date: Mon, 26 May 2025 17:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:20.364762
Title: Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning
Title（参考訳）: Ground-R1:強化学習による接地型視覚推論のインセンティブ化
Authors: Meng Cao, Haoze Zhao, Can Zhang, Xiaojun Chang, Ian Reid, Xiaodan Liang,
Abstract要約: Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
参考スコア（独自算出の注目度）: 96.01617809845396
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (LVLMs) have demonstrated impressive general capabilities across a wide range of multi-modal tasks. However, the reasoning processes of LVLMs often suffer from unreliable outputs and limited interpretability. To address this, grounded visual reasoning has emerged as a promising paradigm that enforces responses anchored on salient visual evidence regions. However, existing approaches typically rely on costly supervision such as bounding box annotations, chain-of-thought rationale or external tool calls, limiting their scalability. In this work, we propose Ground-R1, a reinforcement learning framework that enables grounded visual reasoning without requiring explicit evidence or rationale annotations. Ground-R1 consists of a grounding phase that generates evidence region rollouts based on format constraints, and an answering phase that produces responses guided by both answer correctness and format adherence rewards. Extensive experiments across multiple visual reasoning benchmarks manifest that Ground-R1 achieves superior performance and exhibits emergent cognitive behaviors such as uncertainty awareness, spatial perception, and iterative refinement, offering a scalable and interpretable alternative to existing approaches.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにまたがる印象的な汎用能力を実証している。しかし、LVLMの推論過程は信頼できない出力と限定的な解釈可能性に悩まされることが多い。これを解決するために、視覚的推論は、有能な視覚的証拠領域に固定された応答を強制する有望なパラダイムとして登場した。しかしながら、既存のアプローチは一般的に、ボックスアノテーションのバウンディングやチェーン・オブ・プリート、外部ツールコールといったコストのかかる監視に依存し、スケーラビリティを制限します。本研究では,明示的なエビデンスや合理化アノテーションを必要とせず,基礎的な視覚的推論を可能にする強化学習フレームワークであるGround-R1を提案する。 Ground-R1は、フォーマット制約に基づいてエビデンス領域のロールアウトを生成する接地フェーズと、応答の正しさと形式順守報酬の両方によってガイドされる応答を生成する応答フェーズから構成される。複数の視覚的推論ベンチマークの広範な実験により、Ground-R1は優れた性能を達成し、不確実性認識、空間認識、反復的改善などの創発的な認知行動を示し、既存のアプローチに代わるスケーラブルで解釈可能な代替手段を提供する。

関連論文リスト

CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。 CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-02-24T15:01:30Z)
MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions [42.03378622674476]
視覚領域の反射によるマルチモーダル反復推論のためのMIRRORフレームワークを提案する。ビジュアルリフレクションをコアメカニズムとして埋め込むことで、MIRRORはドラフト、批評、地域ベースの検証、リビジョンを含むクローズドループプロセスとして定式化される。一般的な視覚言語ベンチマークと代表的な視覚言語推論ベンチマークの両方の実験は、MIRRORが正確性を改善し、視覚幻覚を減らすことを示している。
論文参考訳（メタデータ） (2026-02-21T07:56:59Z)
Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。 ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。複数のベンチマーク実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2026-01-08T06:57:03Z)
BARE: Towards Bias-Aware and Reasoning-Enhanced One-Tower Visual Grounding [30.694164546429928]
本稿では,1towerビジュアルグラウンドティングのためのバイアス認識および推論強化フレームワークであるBAREを提案する。 BAREは最先端の性能を達成し,既存手法と比較して計算効率が優れていることを示す。
論文参考訳（メタデータ） (2026-01-04T13:30:06Z)
A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文参考訳（メタデータ） (2025-07-08T17:29:07Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-05T02:28:07Z)
The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。 CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文参考訳（メタデータ） (2025-04-07T13:51:06Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-03-13T17:56:05Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文参考訳（メタデータ） (2024-07-16T06:32:45Z)
Learning Interpretable Policies in Hindsight-Observable POMDPs through Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。 PSRLの中心は、教師なし学習と教師なし学習の融合である。 PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-14T16:23:23Z)
Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文参考訳（メタデータ） (2023-09-07T14:12:31Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。