論文の概要: MUSIC: MUlti-Step Instruction Contrast for Multi-Turn Reward Models
- arxiv url: http://arxiv.org/abs/2512.24693v1
- Date: Wed, 31 Dec 2025 07:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.598844
- Title: MUSIC: MUlti-Step Instruction Contrast for Multi-Turn Reward Models
- Title(参考訳): MUSIC:マルチターンリワードモデルのためのMUlti-Step命令コントラスト
- Authors: Wenzhe Li, Shujian Zhang, Wenxuan Zhou, John Lambert, Chi Jin, Andrew Hard, Rajiv Mathews, Lun Wang,
- Abstract要約: マルチターン報酬モデル(RM)は、費用対人評価に代わるスケーラブルな代替手段を提供する。
教師なしデータ拡張戦略である textbfMUlti-textbfStep textbfInstruction textbfContrast (MUSIC) を提案する。
- 参考スコア(独自算出の注目度): 41.87144324845279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the quality of multi-turn conversations is crucial for developing capable Large Language Models (LLMs), yet remains a significant challenge, often requiring costly human evaluation. Multi-turn reward models (RMs) offer a scalable alternative and can provide valuable signals for guiding LLM training. While recent work has advanced multi-turn \textit{training} techniques, effective automated \textit{evaluation} specifically for multi-turn interactions lags behind. We observe that standard preference datasets, typically contrasting responses based only on the final conversational turn, provide insufficient signal to capture the nuances of multi-turn interactions. Instead, we find that incorporating contrasts spanning \textit{multiple} turns is critical for building robust multi-turn RMs. Motivated by this finding, we propose \textbf{MU}lti-\textbf{S}tep \textbf{I}nstruction \textbf{C}ontrast (MUSIC), an unsupervised data augmentation strategy that synthesizes contrastive conversation pairs exhibiting differences across multiple turns. Leveraging MUSIC on the Skywork preference dataset, we train a multi-turn RM based on the Gemma-2-9B-Instruct model. Empirical results demonstrate that our MUSIC-augmented RM outperforms baseline methods, achieving higher alignment with judgments from advanced proprietary LLM judges on multi-turn conversations, crucially, without compromising performance on standard single-turn RM benchmarks.
- Abstract(参考訳): マルチターン会話の質を評価することは、有能なLarge Language Models(LLM)を開発する上で重要であるが、それでも大きな課題であり、しばしば人的評価を必要とする。
マルチターン報酬モデル(RM)はスケーラブルな代替手段を提供し、LLMトレーニングの指導に有用な信号を提供する。
最近の研究では、マルチターン \textit{evaluation} 技術が進歩しているが、特に後方のマルチターンインタラクションラグに有効に自動化された \textit{evaluation} が提案されている。
通常の嗜好データセットは、通常、最終会話のターンのみに基づいて応答を対比し、マルチターンインタラクションのニュアンスを捉えるのに不十分な信号を与える。
代わりに、textit{multiple} ターンにまたがるコントラストを組み込むことは、堅牢なマルチターンRMを構築する上で重要である。
この発見を動機として,複数回にまたがる違いを示す対照的な会話対を合成する非教師付きデータ拡張戦略である, {textbf{MU}lti-\textbf{S}tep \textbf{I}nstruction \textbf{C}ontrast (MUSIC)を提案する。
Skywork の選好データセットに MUSIC を活用することで,Gemma-2-9B-Instruct モデルに基づいてマルチターンRM を訓練する。
実験結果から,MUSICにより拡張されたRMは,標準単ターンRMベンチマークの性能を損なうことなく,多ターン会話における先進的LLM審査員の判断と高い整合性が得られることを示した。
関連論文リスト
- AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。
本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。
我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文 参考訳(メタデータ) (2025-12-18T07:01:47Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - BaseReward: A Strong Baseline for Multimodal Reward Model [34.80724853211918]
マルチモーダル報酬モデリングのための強力で効率的なベースラインである textbfBaseReward を導入する。
この結果から,BaseRewardはMM-RLHF-Reward Bench,VL-Reward Bench,Multimodal Reward Benchなどの主要なベンチマーク上で新たなSOTAを確立していることがわかった。
静的ベンチマーク以外の実用性を検証するために,BaseRewardを実世界の強化学習パイプラインに統合する。
論文 参考訳(メタデータ) (2025-09-19T16:25:26Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation [50.92800625083123]
大規模言語モデル(textbfLLMs)は現実世界の対話アプリケーションで広く採用されている。
MARS-Benchはプレイバイプレイのテキストコメンタリーから構築され、リアルな対話を特徴とする。
MARS-Bench の実験では、クローズドソース LLM がオープンソース代替よりも大幅に優れていることも明らかにされている。
論文 参考訳(メタデータ) (2025-05-27T10:28:04Z) - ReviewInstruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language Models [9.660334829409253]
マルチターン対話データを生成する既存の方法は、命令の多様性と品質の両方を保証するために苦労している。
Ask-Respond-Review」プロセスを通じて複数回会話を合成する新しいフレームワークであるReview-Instructを提案する。
論文 参考訳(メタデータ) (2025-05-16T08:59:07Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models [31.81567038783558]
マルチモーダル・リワードモデル(MM-RM)は,大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。
MM-RMは、不動の突発的相関に依存するため、アウト・オブ・ディストリビューションデータへの一般化に苦慮することが多い。
本稿では,この問題を動的にトレーニングサンプルを再重み付けすることで軽減する,ショートカット対応MM-RM学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-05T02:37:41Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。