論文の概要: VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.06373v1
- Date: Sat, 06 Dec 2025 09:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.32912
- Title: VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
- Title(参考訳): VG-Refiner: エージェント強化学習によるグラウンドド推論のツールリファイン化を目指して
- Authors: Yuji Wang, Wenlong Liu, Jingxuan Niu, Haoji Zhang, Yansong Tang,
- Abstract要約: VG-Refinerは、ツール修正のための最初のフレームワークである。
2段階の思考再考機構を導入し、モデルがツールフィードバックを明示的に分析し、応答できるようにする。
我々は,基準基準の参照と推論における精度と補正能力の大幅な向上を実現した。
- 参考スコア(独自算出の注目度): 35.49623258104176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tool-integrated visual reasoning (TiVR) has demonstrated great potential in enhancing multimodal problem-solving. However, existing TiVR paradigms mainly focus on integrating various visual tools through reinforcement learning, while neglecting to design effective response mechanisms for handling unreliable or erroneous tool outputs. This limitation is particularly pronounced in referring and grounding tasks, where inaccurate detection tool predictions often mislead TiVR models into generating hallucinated reasoning. To address this issue, we propose the VG-Refiner, the first framework aiming at the tool-refined referring grounded reasoning. Technically, we introduce a two-stage think-rethink mechanism that enables the model to explicitly analyze and respond to tool feedback, along with a refinement reward that encourages effective correction in response to poor tool results. In addition, we propose two new metrics and establish fair evaluation protocols to systematically measure the refinement ability of current models. We adopt a small amount of task-specific data to enhance the refinement capability of VG-Refiner, achieving a significant improvement in accuracy and correction ability on referring and reasoning grounding benchmarks while preserving the general capabilities of the pretrained model.
- Abstract(参考訳): ツール統合視覚推論(TiVR)は、マルチモーダル問題解決の強化に大きな可能性を示している。
しかし、既存のTiVRパラダイムは主に強化学習を通じて様々なビジュアルツールを統合することに焦点を当て、信頼性の低いツール出力や間違ったツールアウトプットを扱うための効果的な応答メカニズムを設計することを無視している。
この制限は特に参照および接地タスクにおいて顕著であり、不正確な検出ツール予測はTiVRモデルを誤解して幻覚的推論を生成する。
この問題に対処するため,ツール修正による基礎推論を目的とした最初のフレームワークであるVG-Refinerを提案する。
技術的には、モデルがツールフィードバックを明示的に分析し、応答することを可能にする2段階の思考再考機構と、ツール結果の粗悪さに対応する効果的な修正を促す改善報酬を導入する。
さらに、2つの新しい指標を提案し、現在のモデルの洗練能力を体系的に測定するための公正な評価プロトコルを確立する。
我々は,VG-Refinerの精細化能力を高めるために少数のタスク固有データを採用し,事前訓練されたモデルの汎用能力を保ちながら,ベンチマークの参照と推論における精度と補正能力の大幅な向上を実現した。
関連論文リスト
- ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.7657839292775]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。
ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。
その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-12-04T18:59:52Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Enhancing Relation Extraction via Supervised Rationale Verification and Feedback [12.687458877141934]
本稿では,関係抽出のための新しいフィードバックフレームワークを提案する。
合理性を検証するための合理性スーパーバイザを提供し、初期予測を正すためのフィードバックとして再選択されたデモを提供する。
提案手法は既存手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-12-10T08:18:29Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。