Fugu-MT 論文翻訳(概要): Distributionally Robust Token Optimization in RLHF

論文の概要: Distributionally Robust Token Optimization in RLHF

arxiv url: http://arxiv.org/abs/2604.08577v1
Date: Fri, 27 Mar 2026 21:36:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-19 19:09:11.452198
Title: Distributionally Robust Token Optimization in RLHF
Title（参考訳）: RLHFにおける分布ロバストなトークン最適化
Authors: Yeping Jin, Jiaming Hu, Ioannis Ch. Paschalidis,
Abstract要約: 大きな言語モデル(LLM)は、トレーニングされ、微調整されたデータに対応するプロンプトに正しく応答する傾向がある。単語、形式、言語の小さなシフトは、特に多段階の推論問題において、驚くほど大きな失敗を引き起こす可能性がある。本稿では,トークンレベルの人間フィードバックからの強化学習と分散ロバスト最適化を組み合わせた分散ロバストトークン最適化手法を提案する。
参考スコア（独自算出の注目度）: 5.00213782531351
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) tend to respond correctly to prompts that align to the data they were trained and fine-tuned on. Yet, small shifts in wording, format, or language can trigger surprisingly large failures, especially on multi-step reasoning problems. To address this problem, we propose a Distributionally Robust Token Optimization (DRTO) approach, which combines token-level Reinforcement Learning from Human Feedback (RLHF) with Distributionally Robust Optimization (DRO). DRTO bounds worst case token-wise rewards by constructing an f-divergence ambiguity set over a loss minibatch, leading to a theoretical robustness. Empirically, DRTO enhances consistency under distribution shifts in mathematical reasoning benchmarks, achieving 9.17\% improvement on GSM8K and 2.49% improvement on MathQA.
Abstract（参考訳）: 大きな言語モデル(LLM)は、トレーニングされ、微調整されたデータに対応するプロンプトに正しく応答する傾向があります。しかし、ワード、フォーマット、言語の変化は、特に多段階の推論問題において、驚くほど大きな失敗を引き起こす可能性がある。この問題を解決するために,トークンレベルのReinforcement Learning from Human Feedback(RLHF)と分散ロバスト最適化(DRO)を組み合わせた分布ロバストトークン最適化(DRTO)手法を提案する。 DRTOは、損失最小バッチ上に設定されたf偏差あいまい性を構築することにより、最悪の場合のトークンワイド報酬を制限し、理論的な堅牢性をもたらす。実験的に、DRTOは数学的推論ベンチマークの分散シフトの下で一貫性を高め、GSM8Kで9.17\%、MathQAで2.49%改善した。

関連論文リスト

Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-09T06:57:15Z)
Hard Negative Sample-Augmented DPO Post-Training for Small Language Models [4.425580048633862]
本稿では,現実的な計算予算下での構造化エラーを対象とする,軽量で実用的なポストトレーニングパイプラインを提案する。本研究では,候補解を6次元の誤差プロファイルに分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを提案する。実験により、検証対象の重み付きDPOは、バニラSFTや未重み付きDPOよりも目標となる改善をもたらすことが示された。
論文参考訳（メタデータ） (2025-12-17T06:15:52Z)
Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文参考訳（メタデータ） (2025-06-11T05:33:56Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文参考訳（メタデータ） (2025-04-29T14:58:43Z)
DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。 Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文参考訳（メタデータ） (2022-08-29T18:01:42Z)
Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文参考訳（メタデータ） (2020-04-11T03:50:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。