論文の概要: Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future
- arxiv url: http://arxiv.org/abs/2508.06026v1
- Date: Fri, 08 Aug 2025 05:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.08675
- Title: Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future
- Title(参考訳): 時間的自己回帰言語モデル:過去未来を通したチョーゼンの解離
- Authors: Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang,
- Abstract要約: 自己回帰言語モデル(Self-Rewarding Language Models)は、LLM-as-a-Judgeプロンプトを通じて、大きな言語モデル(LLM)が応答を生成し、独自の出力を評価するアーキテクチャを提案する。
本研究では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号を持続するテキストbf自己回帰言語モデルを提案する。
- 参考スコア(独自算出の注目度): 38.1810626252963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Rewarding Language Models propose an architecture in which the Large Language Models(LLMs) both generates responses and evaluates its own outputs via LLM-as-a-Judge prompting, dynamically improving its generative capabilities through iterative Direct Preference Optimization (DPO). However, our analysis reveals a critical limitation in existing Self-Rewarding paradigms: the synchronized improvement of chosen and rejected responses progressively narrows the representational difference between contrasting samples, undermining effective preference learning. We propose \textbf{Temporal Self-Rewarding Language Models} that strategically coordinate past, present, and future model generations to sustain learning signals. Our dual-phase framework introduces: (1) \textit{Anchored Rejection} - fixing rejected responses using the past initial model's outputs and (2) \textit{Future-Guided Chosen} - dynamically curating chosen samples using next-generation model predictions. Extensive experiments across three model families (Llama, Qwen, Mistral) and different model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained with our method compared to Self-Rewarding using same computation resources. For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our method also demonstrates superior out-of-distribution generalization across mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code generation (HumanEval) tasks, even though we do not specifically collect such training data.
- Abstract(参考訳): 自己回帰言語モデル(英語版)は、LLM-as-a-Judgeによる応答生成と独自の出力評価を同時に行うアーキテクチャを提案し、反復的直接選好最適化(DPO)を通じて生成能力を動的に改善する。
しかし,本分析では,既存の自己回帰パラダイムの限界が明らかにされている。選択された応答と拒否された応答の同期化は,コントラスト標本間の表現的差異を徐々に狭め,効果的な選好学習を損なう。
本稿では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号の持続性を維持するための,‘textbf{Temporal Self-Rewarding Language Models’を提案する。
当社の2相フレームワークでは,(1) \textit{Anchored Rejection},(2) \textit{Future-Guided Chosen},(2) \textit{Future-Guided Chosen} – 選択したサンプルを次世代モデル予測を用いて動的にキュレートする。
3つのモデルファミリ(Llama, Qwen, Mistral)と異なるモデルサイズ(Llama3B/8B/70B)にまたがる広範囲な実験により,同じ計算資源を用いた自己回帰と比較して,本手法を訓練した場合の大幅な改善が示された。
例えば、Llama3.1-8BはAlpacaEval 2.0で29.44勝率に達し、自己回帰ベースライン(19.69)を9.75で上回っている。
また,本手法は,数学的推論 (GSM8K) や知識に基づくQA (ARC, TruthfulQA) やコード生成 (HumanEval) といったタスクにまたがって,そのようなトレーニングデータを特に収集していない場合でも,優れた分布の一般化を示す。
関連論文リスト
- Self-Correcting Code Generation Using Small Language Models [11.4397549365277]
自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。
マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。
1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-29T04:04:44Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。
この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。
モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文 参考訳(メタデータ) (2024-05-15T13:35:43Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。