論文の概要: BPO: Towards Balanced Preference Optimization between Knowledge Breadth and Depth in Alignment
- arxiv url: http://arxiv.org/abs/2411.10914v1
- Date: Sat, 16 Nov 2024 23:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:59.343733
- Title: BPO: Towards Balanced Preference Optimization between Knowledge Breadth and Depth in Alignment
- Title(参考訳): BPO:アライメントにおける知識ブレンドと深さのバランスの取れた選好最適化を目指して
- Authors: Sizhe Wang, Yongqi Tong, Hengyuan Zhang, Dawei Li, Xin Zhang, Tianlong Chen,
- Abstract要約: 本稿では,知識源の包括性と深さを測定する知識幅と知識深度の概念を紹介する。
本稿では,各サンプルの知識深度を動的に増大させるため,バランス優先最適化(BPO)を提案する。
BPOは、知識の有用性がサンプルによって異なるという観察によって動機付けられ、知識深度をカスタマイズした学習を必要とする。
- 参考スコア(独自算出の注目度): 32.095601071459136
- License:
- Abstract: Reinforcement Learning with Human Feedback (RLHF) is the key to the success of large language models (LLMs) in recent years. In this work, we first introduce the concepts of knowledge breadth and knowledge depth, which measure the comprehensiveness and depth of an LLM or knowledge source respectively. We reveal that the imbalance in the number of prompts and responses can lead to a potential disparity in breadth and depth learning within alignment tuning datasets by showing that even a simple uniform method for balancing the number of instructions and responses can lead to significant improvements. Building on this, we further propose Balanced Preference Optimization (BPO), designed to dynamically augment the knowledge depth of each sample. BPO is motivated by the observation that the usefulness of knowledge varies across samples, necessitating tailored learning of knowledge depth. To achieve this, we introduce gradient-based clustering, estimating the knowledge informativeness and usefulness of each augmented sample based on the model's optimization direction. Our experimental results across various benchmarks demonstrate that BPO outperforms other baseline methods in alignment tuning while maintaining training efficiency. Furthermore, we conduct a detailed analysis of each component of BPO, providing guidelines for future research in preference data optimization.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の成功の鍵は,RLHF(Reinforcement Learning with Human Feedback)である。
本研究ではまず,LLMの包括性と深度をそれぞれ測定する知識幅と知識深度の概念を紹介する。
我々は,指示数と応答数の不均衡がアライメント調整データセットにおける幅と深度学習の潜在的な相違をもたらすことを明らかにし,命令数と応答数のバランスをとる単純な一様手法でさえ,大幅な改善をもたらすことを示した。
これに基づいて,各サンプルの知識深度を動的に増強するバランスド・パラメータ最適化(BPO)を提案する。
BPOは、知識の有用性がサンプルによって異なるという観察によって動機付けられ、知識深度をカスタマイズした学習を必要とする。
これを実現するために,モデルの最適化方向に基づいて,各追加サンプルの知識情報と有用性を推定し,勾配に基づくクラスタリングを導入する。
各種ベンチマークによる実験結果から,BPOはトレーニング効率を保ちながらアライメントチューニングにおいて,他のベースライン手法よりも優れていることが示された。
さらに,BPOの各コンポーネントについて詳細な分析を行い,今後の嗜好データ最適化研究のガイドラインを提供する。
関連論文リスト
- TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models [33.504700578933424]
低サンプリング効率は強化学習(RL)の持続的課題である
環境の背景知識を抽出するために,大規模言語モデルを利用するフレームワークを導入する。
実験により, 下流タスクのスペクトルにおいて, サンプル効率が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-07-04T14:33:47Z) - Knowledge Editing in Language Models via Adapted Direct Preference Optimization [50.616875565173274]
大きな言語モデル(LLM)は、時間とともに時代遅れになる可能性がある。
知識編集は、高価なリトレーニングを必要としないウェイトアップデートを使用して、この課題を克服することを目的としている。
論文 参考訳(メタデータ) (2024-06-14T11:02:21Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。
このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。
実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - Advancing Deep Active Learning & Data Subset Selection: Unifying
Principles with Information-Theory Intuitions [3.0539022029583953]
本論文は,ディープラーニングモデルのラベルとトレーニング効率を向上させることにより,ディープラーニングの実践性を高めることを目的とする。
本稿では,情報理論の原理に基づくデータサブセット選択手法,特にアクティブラーニングとアクティブサンプリングについて検討する。
論文 参考訳(メタデータ) (2024-01-09T01:41:36Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Leveraging Angular Information Between Feature and Classifier for
Long-tailed Learning: A Prediction Reformulation Approach [90.77858044524544]
分類器の重みを再バランスすることなく、包含角度で認識確率を再構成する。
予測形式再構成の性能向上に着想を得て, この角度予測の異なる特性について検討する。
CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。
論文 参考訳(メタデータ) (2022-12-03T07:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。