論文の概要: Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program
- arxiv url: http://arxiv.org/abs/2504.06606v1
- Date: Wed, 09 Apr 2025 06:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:28.857949
- Title: Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program
- Title(参考訳): 視覚プログラムによるマルチモーダルCoTリワードモデルのベンチマーク
- Authors: Minghe Gao, Xuqi Liu, Zhongqi Yue, Yang Wu, Shuang Chen, Juncheng Li, Siliang Tang, Fei Wu, Tat-Seng Chua, Yueting Zhuang,
- Abstract要約: ステップレベルの多次元Chain-of-Thought(CoT)報酬モデルを自動的に学習する新しい手法であるSVIPを提案する。
視覚的なタスクを解決するためのコードを生成し、コードブロックの分析をトレーニングサンプルとしてCoTステップの評価に変換する。
SVIP-Rewardは、トレーニングや推論時間スケーリングにおけるMLLMのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 96.79600297158271
- License:
- Abstract: Recent advancements in reward signal usage for Large Language Models (LLMs) are remarkable. However, significant challenges exist when transitioning reward signal to the multimodal domain, including labor-intensive annotations, over-reliance on one-step rewards, and inadequate evaluation. To address these issues, we propose SVIP, a novel approach to train a step-level multi-dimensional Chain-of-Thought~(CoT) reward model automatically. It generates code for solving visual tasks and transforms the analysis of code blocks into the evaluation of CoT step as training samples. Then, we train SVIP-Reward model using a multi-head attention mechanism called TriAtt-CoT. The advantages of SVIP-Reward are evident throughout the entire process of MLLM. We also introduce a benchmark for CoT reward model training and testing. Experimental results demonstrate that SVIP-Reward improves MLLM performance across training and inference-time scaling, yielding better results on benchmarks while reducing hallucinations and enhancing reasoning ability.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の報酬信号利用の進歩は顕著である。
しかし、労働集約アノテーション、ワンステップ報酬への過度依存、不適切な評価など、報酬信号をマルチモーダル領域に移行する際には、大きな課題が存在する。
これらの問題に対処するために,ステップレベルの多次元Chain-of-Thought~(CoT)報酬モデルを自動的に学習する新しい手法であるSVIPを提案する。
視覚的なタスクを解決するためのコードを生成し、コードブロックの分析をトレーニングサンプルとしてCoTステップの評価に変換する。
次に,TriAtt-CoTと呼ばれるマルチヘッドアテンション機構を用いてSVIP-Rewardモデルを訓練する。
SVIP-Rewardの利点はMLLMの全プロセスを通して明らかである。
また、CoT報酬モデルトレーニングとテストのためのベンチマークも導入しています。
実験結果から,SVIP-Rewardはトレーニングや推論時間スケーリングにおけるMLLM性能を向上し,幻覚の低減と推論能力の向上を図った。
関連論文リスト
- Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models [6.472081755630166]
報酬の線形集約がいかにいくつかの脆弱性を示すかを示す。
本稿では,効用関数の経済理論にインスパイアされた報酬関数の変換を提案する。
Inada-transformationsでトレーニングしたモデルは、有害度を低くしながら、より有用であることを示す。
論文 参考訳(メタデータ) (2025-01-08T19:03:17Z) - Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。