論文の概要: Is Free Self-Alignment Possible?
- arxiv url: http://arxiv.org/abs/2406.03642v1
- Date: Wed, 5 Jun 2024 22:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-07 18:55:13.497501
- Title: Is Free Self-Alignment Possible?
- Title(参考訳): 自由な自己アライメントは可能か?
- Authors: Dyah Adila, Changho Shin, Yijing Zhang, Frederic Sala,
- Abstract要約: AlignEZは、自己生成の好みデータと表現編集を使って、ほぼ無償でアライメントを提供する新しいアプローチである。
実験の結果、このほぼ無償の手順は、ベーストレーニング済みモデルとチューニング済みモデルの間のギャップを平均31.6%狭めることが判明した。
- 参考スコア(独自算出の注目度): 12.436528089142698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning pretrained language models (LMs) is a complex and resource-intensive process, often requiring access to large amounts of ground-truth preference data and substantial compute. Are these costs necessary? That is, it is possible to align using only inherent model knowledge and without additional training? We tackle this challenge with AlignEZ, a novel approach that uses (1) self-generated preference data and (2) representation editing to provide nearly cost-free alignment. During inference, AlignEZ modifies LM representations to reduce undesirable and boost desirable components using subspaces identified via self-generated preference pairs. Our experiments reveal that this nearly cost-free procedure significantly narrows the gap between base pretrained and tuned models by an average of 31.6%, observed across six datasets and three model architectures. Additionally, we explore the potential of using AlignEZ as a means of expediting more expensive alignment procedures. Our experiments show that AlignEZ improves DPO models tuned only using a small subset of ground-truth preference data. Lastly, we study the conditions under which improvement using AlignEZ is feasible, providing valuable insights into its effectiveness.
- Abstract(参考訳): 事前訓練された言語モデル (LM) の調整は複雑で資源集約的なプロセスであり、多くの場合、大量の地上の好みデータと相当量の計算データにアクセスする必要がある。
これらのコストは必要ですか?
つまり、本質的なモデル知識のみを使用して、追加のトレーニングなしで整列することが可能か?
AlignEZは(1)自己生成の好みデータと(2)表現の編集を利用して、ほぼ費用がかからないアライメントを提供する手法である。
推論中、AlignEZはLM表現を変更して望ましくないコンポーネントを減らし、自己生成された選好ペアによって特定される部分空間を用いて望ましいコンポーネントを増強する。
実験の結果、このほぼ無償の手順は、6つのデータセットと3つのモデルアーキテクチャで観測されるベーストレーニング済みモデルとチューニング済みモデルの間のギャップを平均31.6%削減することがわかった。
さらに、より高価なアライメント手順を高速化する手段としてAlignEZを使用する可能性についても検討する。
実験の結果、AlignEZ は、少量の地味嗜好データのみを用いて調整された DPO モデルを改善することがわかった。
最後に,AlignEZによる改善が実現可能な条件について検討し,その有効性について貴重な知見を提供する。
関連論文リスト
- It Helps to Take a Second Opinion: Teaching Smaller LLMs to Deliberate Mutually via Selective Rationale Optimisation [20.784944581469205]
COALITIONは、同じSLMの2つの変種間の相互作用を容易にするトレーニング可能なフレームワークである。
エンドタスクに最適化された合理性を生成するように訓練する。
我々のアブレーション研究は、2つの変種間の相互通信が、理論を自己定義するために単一のモデルを使用するよりも優れていることを示した。
論文 参考訳(メタデータ) (2025-03-04T10:17:29Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins [30.767203592231496]
SeRA(Self-Reviewing and Alignment)は、既存のDAAと簡単に組み合わせられる費用効率が高く効果的な手法である。
SeRAは,(1)暗黙の報酬マージンを用いたサンプル選択,(2)暗黙の報酬を用いた選好ブートストラッピング,の2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-10-12T04:17:28Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。