論文の概要: ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
- arxiv url: http://arxiv.org/abs/2512.05111v1
- Date: Thu, 04 Dec 2025 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.338998
- Title: ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
- Title(参考訳): ARM-Thinker:エージェントツールとビジュアル推論によるマルチモーダル生成リワードモデルの強化
- Authors: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang,
- Abstract要約: ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。
ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。
その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 103.7657839292775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.
- Abstract(参考訳): リワードモデルは視覚言語システムを人間の好みに合わせるために重要であるが、現在のアプローチでは幻覚、弱い視覚的接地、検証ツールの使用ができず、複雑なマルチモーダル推論タスクの信頼性が制限されている。
ARM-Thinkerは、外部ツール(例えば、画像トリミング、ドキュメントページ検索)を自律的に実行し、検証可能な証拠で判断し、静的な非インタラクティブな報酬スコアを置き換える、A} のマルチモーダル・リワードモデルである。
これにより、モデルが詳細な視覚的詳細を検証し、相互参照の複数ページのエビデンスを検証し、既存の報酬モデルにはない推論クレームを検証できる。
ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。
エージェント報酬モデルを評価するために,詳細なビジュアルグラウンド(画像レベルツール),マルチページ文書理解(検索ツール),インストラクションフォロー(テキストレベル検証)の3つのベンチマークからなるARMBench-VLを導入する。
ARM-Thinkerは、報酬モデリングベンチマークの平均改善率は+16.2%、ツール使用タスクは+9.6%、マルチモーダル数学と論理推論ベンチマークのベースラインを上回っている。
その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
関連論文リスト
- CoSineVerifier: Tool-Augmented Answer Verification for Computation-Oriented Scientific Questions [32.14674040685995]
本稿では,外部ルーリックを利用して正確な計算と記号の単純化を行うツール拡張検証器モデルを提案する。
STEM科目、一般QA、長文推論タスクで行った実験は、モデルの強力な一般化を示している。
論文 参考訳(メタデータ) (2025-12-01T03:08:43Z) - TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning [30.018325742295243]
OpenAI o3は問題解決のためにイメージを変換するツールを作成、運用することができる。
ビジュアル検索のテストは、ローカライズやトリミングといった基本的な操作のみであり、より複雑で動的で、ツールに依存した推論に関する洞察はほとんど提供されない。
エージェント思考とイメージを13種類のタスクで評価するための総合的なベンチマークである textbfTIR-Bench を紹介する。
論文 参考訳(メタデータ) (2025-11-03T18:40:17Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。