論文の概要: EQA-RM: A Generative Embodied Reward Model with Test-time Scaling
- arxiv url: http://arxiv.org/abs/2506.10389v1
- Date: Thu, 12 Jun 2025 06:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.603876
- Title: EQA-RM: A Generative Embodied Reward Model with Test-time Scaling
- Title(参考訳): EQA-RM:テストタイムスケーリングを備えた生成的身体的リワードモデル
- Authors: Yuhang Chen, Zhen Tan, Tianlong Chen,
- Abstract要約: EQA-RM(Embodied Question Answering, EQA)に特化して構築された新規なマルチモーダル報酬モデルについて紹介する。
EQA-RMの生成特性は、単純なスカラー以外に、解釈可能で構造化された報酬フィードバックを提供する
EQARewardBenchは、標準化されたEQA報酬モデルアセスメントのためのOpenEQA上に構築された新しいベンチマークである。
- 参考スコア(独自算出の注目度): 43.79542068802909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward Models (RMs), vital for large model alignment, are underexplored for complex embodied tasks like Embodied Question Answering (EQA) where nuanced evaluation of agents' spatial, temporal, and logical understanding is critical yet not considered by generic approaches. We introduce EQA-RM, a novel generative multimodal reward model specifically architected for EQA, trained via our innovative Contrastive Group Relative Policy Optimization (C-GRPO) strategy to learn fine-grained behavioral distinctions. The generative nature of EQA-RM provides interpretable, structured reward feedback (beyond simple scalars), uniquely enabling test-time scaling to dynamically adjust evaluation granularity, from concise scores to detailed critiques of reasoning and grounding, at inference without retraining. Concurrently, we introduce EQARewardBench, a new benchmark built on OpenEQA for standardized EQA reward model assessment. Demonstrating high sample efficiency, EQA-RM (fine-tuning Qwen2-VL-2B-Instruct) achieves 61.9\% accuracy on EQA-RM-Bench with only 700 samples, outperforming strong proprietary baselines, including Gemini-2.5-Flash, GPT-4o, Claude-3.5-Haiku, and open-sourced state-of-the-art models such as RoVRM and VisualPRM. The code and dataset can be found here https://github.com/UNITES-Lab/EQA-RM.
- Abstract(参考訳): 大規模なモデルアライメントに不可欠なReward Models (RM) は、エージェントの空間的、時間的、論理的理解のニュアンス評価が重要であり、一般的なアプローチでは考慮されていない、Embodied Question Answering (EQA) のような複雑な具体的タスクに対して過小評価されている。
EQA-RMは、EQA用に特別に設計された新しい生成的マルチモーダル報酬モデルであり、我々の革新的なContrastive Group Relative Policy Optimization(C-GRPO)戦略を通じて訓練され、きめ細かい振る舞いの区別を学習する。
EQA-RMの生成特性は、解釈可能で構造化された報酬フィードバック(単純なスカラーの他に)を提供し、簡潔なスコアから推論やグラウンドの詳細な批評まで、推論なしに、テスト時間スケーリングを動的に評価粒度を動的に調整することを可能にする。
同時に、標準化されたEQA報酬モデル評価のためのOpenEQA上に構築された新しいベンチマークであるEQARewardBenchを紹介する。
EQA-RM (fine-tuning Qwen2-VL-2B-Instruct)は700サンプルのみでEQA-RM-Bench上で61.9\%の精度を達成し、Gemini-2.5-Flash、GPT-4o、Claude-3.5-Haiku、RoVRMやVisualPRMといったオープンソースの最先端モデルよりも優れている。
コードとデータセットはhttps://github.com/UNITES-Lab/EQA-RMで確認できる。
関連論文リスト
- Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets [9.785129730843435]
知識グラフから適応的なQAデータセットを生成するスケーラブルなフレームワークであるDynamic-KGQAを紹介する。
固定ベンチマークとは異なり、Dynamic-KGQAは、基盤となるディストリビューションを保持しながら、実行毎に新しいデータセットバリアントを生成する。
Dynamic-KGQAは、KGQAモデルのトレーニングと評価を容易にするコンパクトでセマンティックなコヒーレントなサブグラフを生成する。
論文 参考訳(メタデータ) (2025-03-06T23:58:01Z) - Towards Robust Extractive Question Answering Models: Rethinking the Training Methodology [0.34530027457862006]
従来の研究によると、既存のモデルは、答えがつかない質問を含むEQAデータセットでトレーニングされた場合、ロバスト性の著しい欠如を示している。
提案手法は,EQA問題に対する新たな損失関数を含み,多数のEQAデータセットに存在する暗黙の仮定に挑戦する。
本モデルでは,2種類の敵攻撃に対するロバスト性が有意に向上し,デフォルトモデルに比べて性能は3分の1程度低下した。
論文 参考訳(メタデータ) (2024-09-29T20:35:57Z) - Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Learning Answer Generation using Supervision from Automatic Question
Answering Evaluators [98.9267570170737]
我々は、自動QA評価モデル(GAVA)の監督を用いたGenQAのための新しいトレーニングパラダイムを提案する。
提案手法を2つの学術的, 1つの産業的データセット上で評価し, 過去の技術状況に対して, 回答精度を大幅に向上させた。
論文 参考訳(メタデータ) (2023-05-24T16:57:04Z) - Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Degraded Reference Image Quality Assessment [23.871178105179883]
劣化参照IQA(DR IQA)と呼ばれる新しいパラダイムの確立に向けた最初の試みの1つを行う。
具体的には、DR IQAのアーキテクチャをレイアウトし、構成の選択を示す6ビットコードを導入する。
DR IQA専用の最初の大規模データベースを構築し,公開する。
論文 参考訳(メタデータ) (2021-10-28T05:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。