論文の概要: ShiQ: Bringing back Bellman to LLMs
- arxiv url: http://arxiv.org/abs/2505.11081v1
- Date: Fri, 16 May 2025 10:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.663252
- Title: ShiQ: Bringing back Bellman to LLMs
- Title(参考訳): ShiQ: Bellman を LLM に戻す
- Authors: Pierre Clavier, Nathan Grinsztajn, Raphael Avalos, Yannis Flet-Berliac, Irem Ergun, Omar D. Domingues, Eugene Tarassov, Olivier Pietquin, Pierre H. Richemond, Florian Strub, Matthieu Geist,
- Abstract要約: 実装が簡単でありながら、非政治的でトークンに関する学習をサポートする実用的なアルゴリズムである ShiQ for Shifted-Q を構築します。
合成データと実世界のベンチマーク(UltraFeedbackやBFCL-V3など)でShiQを評価し、シングルターンLLMとマルチターンLLMの両方での有効性を実証した。
- 参考スコア(独自算出の注目度): 37.70964838115103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fine-tuning of pre-trained large language models (LLMs) using reinforcement learning (RL) is generally formulated as direct policy optimization. This approach was naturally favored as it efficiently improves a pretrained LLM, seen as an initial policy. Another RL paradigm, Q-learning methods, has received far less attention in the LLM community while demonstrating major success in various non-LLM RL tasks. In particular, Q-learning effectiveness comes from its sample efficiency and ability to learn offline, which is particularly valuable given the high computational cost of sampling with LLMs. However, naively applying a Q-learning-style update to the model's logits is ineffective due to the specificity of LLMs. Our core contribution is to derive theoretically grounded loss functions from Bellman equations to adapt Q-learning methods to LLMs. To do so, we carefully adapt insights from the RL literature to account for LLM-specific characteristics, ensuring that the logits become reliable Q-value estimates. We then use this loss to build a practical algorithm, ShiQ for Shifted-Q, that supports off-policy, token-wise learning while remaining simple to implement. Finally, we evaluate ShiQ on both synthetic data and real-world benchmarks, e.g., UltraFeedback and BFCL-V3, demonstrating its effectiveness in both single-turn and multi-turn LLM settings
- Abstract(参考訳): 強化学習(RL)を用いた事前学習された大規模言語モデル(LLM)の微調整は、一般に直接ポリシー最適化として定式化される。
このアプローチは、初期方針と見なされる事前訓練されたLLMを効率よく改善するため、自然に好まれていた。
もう1つのRLパラダイムであるQ-learningメソッドは、LLM以外のRLタスクにおいて大きな成功を示しながら、LLMコミュニティにおいてはるかに注目を集めている。
特に、Q-ラーニングの有効性は、サンプル効率とオフライン学習能力に起因している。
しかし、LLMの特異性のため、Qラーニングスタイルの更新をモデルロジットに鼻で適用することは効果がない。
我々の中心となる貢献は、ベルマン方程式から理論的に基底化された損失関数を導出し、Q-ラーニング法をLLMに適応させることである。
そこで我々は,LL文献からの洞察をLLM特有の特徴に反映し,ロジットが信頼性の高いQ値推定値となることを保証する。
次に、この損失を利用して、実践的なアルゴリズムであるShifted-QのShiQを構築します。
最後に、合成データと実世界のベンチマーク、例えばUltraFeedbackとBFCL-V3でShiQを評価し、シングルターンLLMとマルチターンLLMの両方での有効性を実証した。
関連論文リスト
- A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation [35.014856057848036]
我々は、事前訓練された大規模言語モデル(LLM)を新しい人間の好みでカスタマイズすることを検討する。
新しい好みをカスタマイズするための残差Q-関数を近似するアダプタモジュールを導入したので、我々のメソッド Q-Adapter を命名する。
DSPデータセットとHH-RLHFデータセットのLlama-3.1モデルに基づく実験は、Q-Adapterの優れた効果を示している。
論文 参考訳(メタデータ) (2024-07-04T11:42:36Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。