論文の概要: Sample-Efficient Alignment for LLMs
- arxiv url: http://arxiv.org/abs/2411.01493v1
- Date: Sun, 03 Nov 2024 09:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:23.797737
- Title: Sample-Efficient Alignment for LLMs
- Title(参考訳): LLM用試料高能率アライメント
- Authors: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin,
- Abstract要約: 本研究では,大規模言語モデル (LLM) と人選好を協調させる手法について検討した。
我々はトンプソンサンプリングに基づく統一アルゴリズムを導入し、2つの異なるLCMアライメントシナリオでその応用を強調した。
その結果,SEAはオラクルの嗜好と高いサンプル効率の整合性を達成し,近年のLCMの活発な探査方法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 29.477421976548015
- License:
- Abstract: We study methods for efficiently aligning large language models (LLMs) with human preferences given budgeted online feedback. We first formulate the LLM alignment problem in the frame of contextual dueling bandits. This formulation, subsuming recent paradigms such as online RLHF and online DPO, inherently quests for sample-efficient algorithms that incorporate online active exploration. Leveraging insights from bandit theory, we introduce a unified algorithm based on Thompson sampling and highlight its applications in two distinct LLM alignment scenarios. The practical agent that efficiently implements this algorithm, named SEA (Sample-Efficient Alignment), is empirically validated through extensive experiments across three model scales (1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The results demonstrate that SEA achieves highly sample-efficient alignment with oracle's preferences, outperforming recent active exploration methods for LLMs. Additionally, we release the implementation of SEA together with an efficient codebase designed for online alignment of LLMs, aiming to accelerate future research in this field.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) と人選好を協調させる手法について検討した。
まず,LLMアライメント問題を文脈的デュエルバンドのフレームで定式化する。
この定式化は、オンラインRLHFやオンラインDPOといった最近のパラダイムを仮定し、オンラインのアクティブな探索を取り入れたサンプリング効率の高いアルゴリズムを本質的に求めている。
バンドイット理論からの洞察を活用して、トンプソンサンプリングに基づく統一アルゴリズムを導入し、2つの異なるLCMアライメントシナリオでその応用を強調した。
このアルゴリズムを効率的に実装する実践的エージェントであるSEA(Sample-Efficient Alignment)は、3つのモデルスケール(1B, 2.8B, 6.9B)と3つの選好学習アルゴリズム(DPO, IPO, SLiC)にわたる広範な実験を通じて実証的に検証される。
その結果,SEAはオラクルの嗜好と高い試料効率の整合性を達成し,近年のLCMの活発な探査方法よりも優れていることがわかった。
また,この分野での今後の研究を加速することを目的とした,LLMのオンラインアライメントを目的とした効率的なコードベースとともに,SEAの実装もリリースしている。
関連論文リスト
- Sequential Large Language Model-Based Hyper-Parameter Optimization [0.0]
本研究では,Large Language Models (LLMs)を活用する革新的なフレームワークSLLMBOを紹介する。
SLLMBOは、最近の完全にLLMベースの手法の制限に対処することにより、より堅牢な最適化を実現する。
ベンチマークでは、GPT-3.5-turbo、GPT-4o、Claude-Sonnet-3.5、Gemini-1.5-flashを含む複数のLCMを評価している。
論文 参考訳(メタデータ) (2024-10-27T00:50:30Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
本稿では LLM-Assisted Online Learning Algorithm (LOLA) を紹介する。
LOLAは、LLM(Large Language Models)と適応的な実験を統合し、コンテンツ配信を最適化する。
Upworthyデータに対する数値実験により、LOLAは標準A/B試験法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-03T07:56:58Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。
この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文 参考訳(メタデータ) (2024-02-02T06:29:34Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - Large Language Models are Not Stable Recommender Systems [45.941176155464824]
大規模言語モデル(LLM)における探索的研究の導入と位置バイアスの一貫したパターンの発見について述べる。
本稿では,2段階パイプラインを含むベイズ確率的フレームワークSTELLA(Stable LLM for Recommendation)を提案する。
我々のフレームワークは、既存のパターン情報を利用してLCMの不安定性を校正し、レコメンデーション性能を向上させることができる。
論文 参考訳(メタデータ) (2023-12-25T14:54:33Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。