論文の概要: A Bi-objective Perspective on Controllable Language Models: Reward
Dropout Improves Off-policy Control Performance
- arxiv url: http://arxiv.org/abs/2310.04483v1
- Date: Fri, 6 Oct 2023 12:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:09:47.113196
- Title: A Bi-objective Perspective on Controllable Language Models: Reward
Dropout Improves Off-policy Control Performance
- Title(参考訳): 制御可能な言語モデルに関する二目的的視点:Reward Dropoutによる外部制御性能の向上
- Authors: Changhun Lee and Chiehyeon Lim
- Abstract要約: 本稿では,CLM(Controllable Language Models)の理論的側面を客観的な最適化の観点から検討する。
我々はCLMを、報酬と可能性の目標を同時に最大化する必要がある、政治的でないRL問題だと考えている。
- 参考スコア(独自算出の注目度): 7.479948090364416
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the theoretical aspects of CLMs (Controllable Language Models) from
a bi-objective optimization perspective. Specifically, we consider the CLMs as
an off-policy RL problem that requires simultaneously maximizing the reward and
likelihood objectives. Our main contribution consists of three parts. First, we
establish the theoretical foundations of CLM by presenting reward upper bound
and Pareto improvement/optimality conditions. Second, we analyze conditions
that improve and violate Pareto optimality itself, respectively. Finally, we
propose Reward Dropout, a simple yet powerful method to guarantee policy
improvement based on a Pareto improvement condition. Our theoretical outcomes
are supported by not only deductive proofs but also empirical results. The
performance of Reward Dropout was evaluated on five CLM benchmark datasets, and
it turns out that the Reward Dropout significantly improves the performance of
CLMs.
- Abstract(参考訳): 本稿では,CLM(Controllable Language Models)の理論的側面を客観的な最適化の観点から検討する。
具体的には、CLMを、報酬と可能性の最大化を同時に要求する、政治的でないRL問題とみなす。
私たちの主な貢献は3つの部分からなる。
まず, 報酬の上限とパレート改善/最適化条件を提示することにより, clm の理論的基礎を確立する。
第2に,Paretoの最適性自体を改善および侵害する条件をそれぞれ分析する。
最後に,パレート改善条件に基づく政策改善を保証するシンプルかつ強力な手法である報酬ドロップアウトを提案する。
我々の理論的な結果は推論的証明だけでなく経験的結果によっても支持されている。
報酬ドロップアウトのパフォーマンスは5つのclmベンチマークデータセットで評価され、報酬ドロップアウトがclmのパフォーマンスを大幅に改善することが判明した。
関連論文リスト
- Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - LLM Alignment as Retriever Optimization: An Information Retrieval Perspective [44.26715637344781]
大規模言語モデル(LLM)は、推論、コーディング、コミュニケーションの能力を備えた人工知能に革命をもたらした。
我々の研究は、確立された情報検索(IR)の原則に基づいて、LCMアライメントのための新しい直接最適化手法を導入する。
本稿では,LLMアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LarPO)を提案する。
論文 参考訳(メタデータ) (2025-02-06T01:22:06Z) - Robust Federated Finetuning of LLMs via Alternating Optimization of LoRA [14.789886179102425]
BERT-Efficient Fine-Tuning (PEFT) 法では、ローランド適応 (LoRA) は計算と通信のコストを削減し、フェデレーショントレーニングを最適化する。
ファインチューンなLoRAアダプタに交互に最適化を施した,フェデレートされたフレームワークであるRoLoRAを提案する。
論文 参考訳(メタデータ) (2025-02-03T19:02:00Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-04T17:56:41Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。