論文の概要: Efficient Model-agnostic Alignment via Bayesian Persuasion
- arxiv url: http://arxiv.org/abs/2405.18718v1
- Date: Wed, 29 May 2024 02:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:04:06.775518
- Title: Efficient Model-agnostic Alignment via Bayesian Persuasion
- Title(参考訳): ベイジアンパースケーションによる効率的なモデル非依存アライメント
- Authors: Fengshuo Bai, Mingzhi Wang, Zhaowei Zhang, Boyuan Chen, Yinda Xu, Ying Wen, Yaodong Yang,
- Abstract要約: 本稿では,モデル非依存かつ軽量なベイズ型説得アライメントフレームワークを提案する。
説得プロセスでは、小さなモデル(アドバイザ)が情報項目(すなわち状態)を観察し、大きなモデル(Receiver)を説得して、改善された応答を引き出す。
GPT-2は様々なモデルの性能を大幅に向上させ,数学的推論能力の平均16.1%,コード生成能力は13.7%向上した。
- 参考スコア(独自算出の注目度): 13.42367964190663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advancements in large language models (LLMs), alignment has emerged as an effective technique for keeping LLMs consensus with human intent. Current methods primarily involve direct training through Supervised Fine-tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), both of which require substantial computational resources and extensive ground truth data. This paper explores an efficient method for aligning black-box large models using smaller models, introducing a model-agnostic and lightweight Bayesian Persuasion Alignment framework. We formalize this problem as an optimization of the signaling strategy from the small model's perspective. In the persuasion process, the small model (Advisor) observes the information item (i.e., state) and persuades large models (Receiver) to elicit improved responses. The Receiver then generates a response based on the input, the signal from the Advisor, and its updated belief about the information item. Through training using our framework, we demonstrate that the Advisor can significantly enhance the performance of various Receivers across a range of tasks. We theoretically analyze our persuasion framework and provide an upper bound on the Advisor's regret, confirming its effectiveness in learning the optimal signaling strategy. Our Empirical results demonstrates that GPT-2 can significantly improve the performance of various models, achieving an average enhancement of 16.1% in mathematical reasoning ability and 13.7% in code generation. We hope our work can provide an initial step toward rethinking the alignment framework from the Bayesian Persuasion perspective.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の進歩により,LLMと人間の意図との合意を維持するための効果的な手法としてアライメントが出現している。
現在の手法は、主に監視ファインチューニング(SFT)や人間からのフィードバックからの強化学習(RLHF)を通じて直接訓練される。
本稿では,より小さなモデルを用いてブラックボックスの大規模モデルをコーディネートする効率的な手法について検討し,モデルに依存しない軽量ベイズパーステンションアライメントフレームワークを提案する。
我々はこの問題を,小型モデルの観点からの信号処理戦略の最適化として定式化する。
説得プロセスでは、小さなモデル(アドバイザ)が情報項目(すなわち状態)を観察し、大きなモデル(Receiver)を説得して、改善された応答を引き出す。
その後、受信者は、入力、アドバイザからの信号、および情報項目に関する更新された信念に基づいて応答を生成する。
筆者らは,本フレームワークを用いてトレーニングを行うことで,様々なタスクにおいて,各種受信者の性能を大幅に向上させることができることを示した。
理論的には,我々の説得の枠組みを解析し,助言者の後悔に上限を与え,最適なシグナル伝達戦略を学習する上での有効性を確認した。
実験の結果, GPT-2は様々なモデルの性能を著しく向上し, 数学的推論能力は16.1%, コード生成能力は13.7%向上した。
ベイズパーステンションの観点からアライメントフレームワークを再考するための最初のステップを、私たちの作業が提供してくれることを願っています。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
Reinforcement Learning from Human Feedback (RLHF)のような最先端技術は、しばしば2つの段階から構成される。
1)教師付き微調整(SFT)では,人間の実演データからモデルを微調整する。
2)選好学習では,選好データを用いて報奨モデルを学習し,そのモデルを微調整する強化学習ステップで活用する。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。
本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T07:47:55Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Fast Multi-Step Critiquing for VAE-based Recommender Systems [27.207067974031805]
M&Ms-VAEは、提案と説明のための新しい変分オートエンコーダです。
モデルを弱い監督スキームでトレーニングし、完全および部分的に観察された変数をシミュレートします。
次に、訓練されたM&Ms-VAEモデルの一般化能力を利用して、ユーザの好みと批判を個別に埋め込む。
論文 参考訳(メタデータ) (2021-05-03T12:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。