論文の概要: Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding
- arxiv url: http://arxiv.org/abs/2506.07434v1
- Date: Mon, 09 Jun 2025 05:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.810211
- Title: Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding
- Title(参考訳): Weak-to-Strongデコーディングによる低リソースの優先度アライメント
- Authors: Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang,
- Abstract要約: 大規模言語モデル(LLM)は、攻撃的、偽り、あるいは無意味なコンテンツを生成するのを避けるために、人間の好みと整合する必要がある。
本稿では,ベースモデルのアライメント能力を高めるための新しいフレームワークであるWak-to-Strong Decoding (WSD)を提案する。
我々はまた、ドラフトモデルとして小さなPilot-3Bを微調整するための新しいデータセットGenAlignerも収集しています。
- 参考スコア(独自算出の注目度): 26.416630784362525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) require alignment with human preferences to avoid generating offensive, false, or meaningless content. Recently, low-resource methods for LLM alignment have been popular, while still facing challenges in obtaining both high-quality and aligned content. Motivated by the observation that the difficulty of generating aligned responses is concentrated at the beginning of decoding, we propose a novel framework, Weak-to-Strong Decoding (WSD), to enhance the alignment ability of base models by the guidance of a small aligned model. The small model first drafts well-aligned beginnings, followed by the large base model to continue the rest, controlled by a well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign, to fine-tune a small-sized Pilot-3B as the draft model, which effectively enhances different base models under the WSD framework to outperform all baseline methods, while avoiding degradation on downstream tasks, termed as the alignment tax. Extensive experiments are further conducted to examine the impact of different settings and time efficiency, as well as analyses on the intrinsic mechanisms of WSD in depth.
- Abstract(参考訳): 大規模言語モデル(LLM)は、攻撃的、偽り、あるいは無意味なコンテンツを生成するのを避けるために、人間の好みと整合する必要がある。
近年,LLMアライメントのための低リソース手法が普及しているが,高品質なコンテンツとアライメントの両面での課題に直面している。
整列応答生成の難しさが復号化の初期段階に集中していることに感銘を受けて,我々は,小さな整列モデルの誘導によりベースモデルの整列性を高めるための新しいフレームワークであるWeak-to-Strong Decoding (WSD)を提案する。
小型モデルの最初のドラフトは順調に始まり、続いて大きなベースモデルが残りを継続し、よく設計されたオートスウィッチ機構によって制御される。
我々はまた、新しいデータセットGenerAlignを収集し、小さなPilot-3Bをドラフトモデルとして微調整し、WSDフレームワークの下で異なるベースモデルを効果的に強化し、全てのベースラインメソッドを上回り、アライメント税と呼ばれる下流タスクの劣化を回避します。
さらに, 異なる設定と時間効率の影響, およびWSDの深い内在的メカニズムの解析について検討した。
関連論文リスト
- Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment [70.87096576708898]
本稿では,ゼロショットモデルの微調整を行うフレームワークであるStarFTを提案する。
StarFTはウォーターバードグループのシフトシナリオにおいて、それぞれ14.30%、平均精度を3.02%向上させる。
論文 参考訳(メタデータ) (2025-05-19T15:15:35Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation [20.67671141789497]
主観駆動型生成のための最初のVARに基づくアプローチを提案する。
我々は,言語ドリフトを軽減するため,複雑性を低減し,事前蒸留を行うための選択的層チューニングを導入する。
提案手法は, 様々な指標において拡散ベースラインを著しく上回り, その実用性を実証する。
論文 参考訳(メタデータ) (2025-04-03T14:12:55Z) - Directional Gradient Projection for Robust Fine-Tuning of Foundation Models [25.04763038570959]
ディディショナル・グラディエント・プロジェクション(DiGraP)は、グラデーションからブリッジの正規化や多目的最適化に至るまでの方向性情報を階層的に学習可能な手法である。
まず,画像分類による視覚質問回答 (VQA) ベンチマークの分析により,一様・多モードのギャップを埋める。
実験結果から,DiGraPは画像分類やVQAタスクにおいて,識別的,生成的バックボーンで既存のベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-02-21T19:31:55Z) - Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。
FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。
我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文 参考訳(メタデータ) (2024-08-28T06:28:01Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。