論文の概要: Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents
- arxiv url: http://arxiv.org/abs/2506.21252v1
- Date: Thu, 26 Jun 2025 13:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.101035
- Title: Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents
- Title(参考訳): Agent-RewardBench: 実世界のマルチモーダルエージェントの知覚・計画・安全性を考慮したリワードモデリングのための統一ベンチマークを目指して
- Authors: Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: マルチモーダルエージェントは、Webナビゲーションやインテリジェンスといった現実世界のタスクにおいて、約束を示す。
外部からのフィードバックが不足しているため、これらのエージェントは自己補正と一般化に苦しむ。
エージェントの報酬モデルをどのように選択するかは明らかになっていない。
- 参考スコア(独自算出の注目度): 19.015202590038996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Multimodal Large Language Models (MLLMs) advance, multimodal agents show promise in real-world tasks like web navigation and embodied intelligence. However, due to limitations in a lack of external feedback, these agents struggle with self-correction and generalization. A promising approach is to use reward models as external feedback, but there is no clear on how to select reward models for agents. Thus, there is an urgent need to build a reward bench targeted at agents. To address these challenges, we propose Agent-RewardBench, a benchmark designed to evaluate reward modeling ability in MLLMs. The benchmark is characterized by three key features: (1) Multiple dimensions and real-world agent scenarios evaluation. It covers perception, planning, and safety with 7 scenarios; (2) Step-level reward evaluation. It allows for the assessment of agent capabilities at the individual steps of a task, providing a more granular view of performance during the planning process; and (3) Appropriately difficulty and high-quality. We carefully sample from 10 diverse models, difficulty control to maintain task challenges, and manual verification to ensure the integrity of the data. Experiments demonstrate that even state-of-the-art multimodal models show limited performance, highlighting the need for specialized training in agent reward modeling. Code is available at github.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)が進むにつれて、マルチモーダルエージェントはWebナビゲーションやインテリジェンスといった現実世界のタスクにおいて、将来性を示す。
しかし、外部からのフィードバックが不足しているため、これらのエージェントは自己補正と一般化に苦しむ。
有望なアプローチは報酬モデルを外部からのフィードバックとして使用することだが、エージェントに対して報酬モデルを選択する方法については明らかになっていない。
したがって、エージェントをターゲットにした報酬ベンチを構築する必要がある。
これらの課題に対処するために,MLLMにおける報酬モデリング能力を評価するためのベンチマークであるAgent-RewardBenchを提案する。
このベンチマークは、(1)複数の次元と実世界のエージェントシナリオの評価の3つの重要な特徴によって特徴づけられる。
認識、計画、安全性を7つのシナリオでカバーします。
タスクの個々のステップにおけるエージェント能力の評価を可能にし、計画プロセスにおけるパフォーマンスのより詳細なビューを提供する。
10の多様なモデルから注意深くサンプルを採取し、タスクの課題を維持するのに難易度制御を行い、データの完全性を保証するために手動検証を行いました。
実験により、最先端のマルチモーダルモデルでさえ限られた性能を示しており、エージェント報酬モデリングにおける特別なトレーニングの必要性を強調している。
コードはgithubで入手できる。
関連論文リスト
- Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - AgentRM: Enhancing Agent Generalization with Reward Modeling [78.52623118224385]
報酬モデルを微調整して政策モデルを導くことは、政策モデルを直接微調整するよりも、より堅牢であることがわかった。
本稿では,効率的なテスト時間探索のためのポリシーモデルを導出するために,一般化可能な報酬モデルであるAgentRMを提案する。
論文 参考訳(メタデータ) (2025-02-25T17:58:02Z) - Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。
我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。
Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T01:48:13Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。