論文の概要: Alignment-Aware Decoding
- arxiv url: http://arxiv.org/abs/2509.26169v1
- Date: Tue, 30 Sep 2025 12:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.13169
- Title: Alignment-Aware Decoding
- Title(参考訳): アライメント対応デコード
- Authors: Frédéric Berdoz, Luca A. Lanzendörfer, René Caky, Roger Wattenhofer,
- Abstract要約: モデルアライメントを直接推論する手法であるアライメント・アウェア・デコーディング(AAD)を導入する。
AADは、様々なアライメントベンチマークとモデルスケールで、一貫して強力なベースラインを上回ります。
データ制約のある設定では、AADは高品質な合成データを生成し、標準デコードでのアライメントを改善する。
- 参考スコア(独自算出の注目度): 35.61634772862795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment of large language models remains a central challenge in natural language processing. Preference optimization has emerged as a popular and effective method for improving alignment, typically through training-time or prompt-based interventions. In this paper, we introduce alignment-aware decoding (AAD), a method to enhance model alignment directly at inference. Theoretically, AAD can be interpreted as implicit reward optimization, yet it requires no specialized training beyond the standard DPO setup. Empirically, AAD consistently outperforms strong baselines across diverse alignment benchmarks and model scales. Moreover, in data-constrained settings, AAD can produce high-quality synthetic data to improve alignment under standard decoding, providing a practical solution when labeled data is limited.
- Abstract(参考訳): 大規模言語モデルのアライメントは、自然言語処理において依然として中心的な課題である。
優先最適化は、トレーニング時間やプロンプトベースの介入を通じて、アライメントを改善するための一般的で効果的な方法として登場した。
本稿では,モデルアライメントを直接推論する手法であるアライメント・アウェア・デコーディング(AAD)を提案する。
理論的には、AADは暗黙の報酬最適化と解釈できるが、標準的なDPO設定以外の特別な訓練は必要ない。
経験的に、AADはさまざまなアライメントベンチマークとモデルスケールで、一貫して強力なベースラインを上回ります。
さらに、データ制約設定では、AADは高品質な合成データを生成し、標準的な復号化の下でアライメントを改善することができ、ラベル付きデータが制限された場合に実用的な解決策を提供する。
関連論文リスト
- Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Revisiting Deep Subspace Alignment for Unsupervised Domain Adaptation [42.16718847243166]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインへの知識の転送と適応を目的としている。
伝統的に、部分空間に基づく手法はこの問題に対する重要な解のクラスを形成する。
本稿では,UDAにおける部分空間アライメントの利用を再検討し,一貫した一般化をもたらす新しい適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-05T20:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。