論文の概要: Is Free Self-Alignment Possible?
- arxiv url: http://arxiv.org/abs/2406.03642v1
- Date: Wed, 5 Jun 2024 22:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 18:55:13.497501
- Title: Is Free Self-Alignment Possible?
- Title(参考訳): 自由な自己アライメントは可能か?
- Authors: Dyah Adila, Changho Shin, Yijing Zhang, Frederic Sala,
- Abstract要約: AlignEZは、自己生成の好みデータと表現編集を使って、ほぼ無償でアライメントを提供する新しいアプローチである。
実験の結果、このほぼ無償の手順は、ベーストレーニング済みモデルとチューニング済みモデルの間のギャップを平均31.6%狭めることが判明した。
- 参考スコア(独自算出の注目度): 12.436528089142698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning pretrained language models (LMs) is a complex and resource-intensive process, often requiring access to large amounts of ground-truth preference data and substantial compute. Are these costs necessary? That is, it is possible to align using only inherent model knowledge and without additional training? We tackle this challenge with AlignEZ, a novel approach that uses (1) self-generated preference data and (2) representation editing to provide nearly cost-free alignment. During inference, AlignEZ modifies LM representations to reduce undesirable and boost desirable components using subspaces identified via self-generated preference pairs. Our experiments reveal that this nearly cost-free procedure significantly narrows the gap between base pretrained and tuned models by an average of 31.6%, observed across six datasets and three model architectures. Additionally, we explore the potential of using AlignEZ as a means of expediting more expensive alignment procedures. Our experiments show that AlignEZ improves DPO models tuned only using a small subset of ground-truth preference data. Lastly, we study the conditions under which improvement using AlignEZ is feasible, providing valuable insights into its effectiveness.
- Abstract(参考訳): 事前訓練された言語モデル (LM) の調整は複雑で資源集約的なプロセスであり、多くの場合、大量の地上の好みデータと相当量の計算データにアクセスする必要がある。
これらのコストは必要ですか?
つまり、本質的なモデル知識のみを使用して、追加のトレーニングなしで整列することが可能か?
AlignEZは(1)自己生成の好みデータと(2)表現の編集を利用して、ほぼ費用がかからないアライメントを提供する手法である。
推論中、AlignEZはLM表現を変更して望ましくないコンポーネントを減らし、自己生成された選好ペアによって特定される部分空間を用いて望ましいコンポーネントを増強する。
実験の結果、このほぼ無償の手順は、6つのデータセットと3つのモデルアーキテクチャで観測されるベーストレーニング済みモデルとチューニング済みモデルの間のギャップを平均31.6%削減することがわかった。
さらに、より高価なアライメント手順を高速化する手段としてAlignEZを使用する可能性についても検討する。
実験の結果、AlignEZ は、少量の地味嗜好データのみを用いて調整された DPO モデルを改善することがわかった。
最後に,AlignEZによる改善が実現可能な条件について検討し,その有効性について貴重な知見を提供する。
関連論文リスト
- SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins [30.767203592231496]
SeRA(Self-Reviewing and Alignment)は、既存のDAAと簡単に組み合わせられる費用効率が高く効果的な手法である。
SeRAは,(1)暗黙の報酬マージンを用いたサンプル選択,(2)暗黙の報酬を用いた選好ブートストラッピング,の2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-10-12T04:17:28Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。