論文の概要: Few-shot In-Context Preference Learning Using Large Language Models
- arxiv url: http://arxiv.org/abs/2410.17233v1
- Date: Tue, 22 Oct 2024 17:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:52.441191
- Title: Few-shot In-Context Preference Learning Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたインテクスト推論学習
- Authors: Chao Yu, Hong Lu, Jiaxuan Gao, Qixin Tan, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky,
- Abstract要約: 報酬関数の設計は強化学習の中核的な要素である。
報酬を学ぶことは、しばしばタトゥーラ・ラサを学ぶため、非常に非効率である。
In-Context Preference Learning (ICPL) を提案する。
- 参考スコア(独自算出の注目度): 15.84585737510038
- License:
- Abstract: Designing reward functions is a core component of reinforcement learning but can be challenging for truly complex behavior. Reinforcement Learning from Human Feedback (RLHF) has been used to alleviate this challenge by replacing a hand-coded reward function with a reward function learned from preferences. However, it can be exceedingly inefficient to learn these rewards as they are often learned tabula rasa. We investigate whether Large Language Models (LLMs) can reduce this query inefficiency by converting an iterative series of human preferences into code representing the rewards. We propose In-Context Preference Learning (ICPL), a method that uses the grounding of an LLM to accelerate learning reward functions from preferences. ICPL takes the environment context and task description, synthesizes a set of reward functions, and then repeatedly updates the reward functions using human rankings of videos of the resultant policies. Using synthetic preferences, we demonstrate that ICPL is orders of magnitude more efficient than RLHF and is even competitive with methods that use ground-truth reward functions instead of preferences. Finally, we perform a series of human preference-learning trials and observe that ICPL extends beyond synthetic settings and can work effectively with humans-in-the-loop. Additional information and videos are provided at https://sites.google.com/view/few-shot-icpl/home.
- Abstract(参考訳): 報酬関数の設計は強化学習の中核的な要素であるが、真に複雑な振る舞いには困難である。
Reinforcement Learning from Human Feedback (RLHF) は、手書きの報酬関数を好みから学習した報酬関数に置き換えることで、この課題を軽減するために使用されている。
しかし、しばしばタトゥーラ・ラサを習うことから、これらの報酬を学ぶことは極めて非効率である。
本研究では,Large Language Models (LLMs) が,人間の嗜好の反復を報酬を表すコードに変換することで,このクエリ非効率性を低減できるかどうかを検討する。
そこで本研究では,LLMのグラウンド化を利用して,好みから学習報酬関数を高速化するICPL(In-Context Preference Learning)を提案する。
ICPLは環境コンテキストとタスク記述を取り込み、報酬関数のセットを合成し、その結果のポリシーのビデオの人間のランキングを使って報酬関数を更新する。
合成選好を用いて、ICPLはRLHFよりも桁違いに効率的であることを示し、選好の代わりに地道報酬関数を用いる手法と競合することを示した。
最後に、人間の嗜好学習の一連の試行を行い、ICPLが合成設定を超えて拡張され、ループ内の人間と効果的に連携できることを観察する。
追加情報とビデオはhttps://sites.google.com/view/few-shot-icpl/home.comで公開されている。
関連論文リスト
- MAPLE: A Framework for Active Preference Learning Guided by Large Language Models [9.37268652939886]
大規模言語モデルに基づくベイズ的能動的嗜好学習のためのフレームワークであるMAPLEを紹介する。
以上の結果から,MAPLEは学習過程を加速し,質問に答える能力を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T05:55:14Z) - Real-Time Personalization for LLM-based Recommendation with Customized In-Context Learning [57.28766250993726]
この研究は、モデル更新なしに動的なユーザ関心に適応することを検討する。
既存のLarge Language Model (LLM)ベースのレコメンダは、レコメンデーションチューニング中にコンテキスト内学習能力を失うことが多い。
本稿では,レコメンデーション固有のインコンテキスト学習をリアルタイムレコメンデーションにカスタマイズするRecICLを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:48:36Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。