論文の概要: SDA: Steering-Driven Distribution Alignment for Open LLMs without Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.16324v1
- Date: Thu, 20 Nov 2025 13:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.628223
- Title: SDA: Steering-Driven Distribution Alignment for Open LLMs without Fine-Tuning
- Title(参考訳): SDA: ファインチューニングのないオープンLLMのためのステアリング駆動型分散アライメント
- Authors: Wei Xia, Zhi-Hong Deng,
- Abstract要約: 大規模言語モデル(LLM)は、多様なタスク、ユーザの好み、実践シナリオにまたがって堅牢なパフォーマンスを提供すると期待されている。
推論中にモデル動作を効果的かつ効率的に調整することは、重要な要件であり、非自明な技術的努力である。
SDA(Steering-Driven Distribution Alignment)は、オープンソースのLCMのためのトレーニングフリーでモデルに依存しないアライメントフレームワークである。
- 参考スコア(独自算出の注目度): 14.018180437323961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of large language models (LLMs), their deployment in real-world applications has become increasingly widespread. LLMs are expected to deliver robust performance across diverse tasks, user preferences, and practical scenarios. However, as demands grow, ensuring that LLMs produce responses aligned with human intent remains a foundational challenge. In particular, aligning model behavior effectively and efficiently during inference, without costly retraining or extensive supervision, is both a critical requirement and a non-trivial technical endeavor. To address the challenge, we propose SDA (Steering-Driven Distribution Alignment), a training-free and model-agnostic alignment framework designed for open-source LLMs. SDA dynamically redistributes model output probabilities based on user-defined alignment instructions, enhancing alignment between model behavior and human intents without fine-tuning. The method is lightweight, resource-efficient, and compatible with a wide range of open-source LLMs. It can function independently during inference or be integrated with training-based alignment strategies. Moreover, SDA supports personalized preference alignment, enabling flexible control over the model response behavior. Empirical results demonstrate that SDA consistently improves alignment performance across 8 open-source LLMs with varying scales and diverse origins, evaluated on three key alignment dimensions, helpfulness, harmlessness, and honesty (3H). Specifically, SDA achieves average gains of 64.4% in helpfulness, 30% in honesty and 11.5% in harmlessness across the tested models, indicating its effectiveness and generalization across diverse models and application scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、現実世界のアプリケーションへの展開がますます広まりつつある。
LLMは多様なタスク、ユーザの好み、実践シナリオにまたがって堅牢なパフォーマンスを提供すると期待されている。
しかし、需要が増加するにつれて、LLMが人間の意図に沿う応答を確実にするというのは、基礎的な課題である。
特に、推論中のモデルの振舞いを効果的かつ効率的に調整し、コストのかかる再訓練や広範囲の監督なしに行うことは、重要な要件であり、非自明な技術的努力である。
この課題に対処するために、オープンソースのLCM向けに設計されたトレーニングフリーでモデルに依存しないアライメントフレームワークであるSDA(Steering-Driven Distribution Alignment)を提案する。
SDAは、ユーザ定義のアライメント命令に基づいて、モデル出力の確率を動的に再分配し、微調整なしでモデル動作と人間の意図のアライメントを強化する。
この手法は軽量で資源効率が高く、幅広いオープンソースLLMと互換性がある。
推論中に独立して機能するか、トレーニングベースのアライメント戦略に統合することができる。
さらに、SDAはパーソナライズされた嗜好アライメントをサポートし、モデル応答の振る舞いを柔軟に制御できる。
実験結果から,SDAは,3つの重要なアライメント次元,有用性,無害性,誠実性(3H)で評価し,異なるスケールと多様な起源を持つ8つのオープンソースLCMのアライメント性能を一貫して向上することを示した。
具体的には、SDAは64.4%の利便性、30%の正直さ、11.5%の無害さをテストモデル全体で達成し、その有効性と様々なモデルやアプリケーションシナリオにおける一般化を示している。
関連論文リスト
- Wisdom and Delusion of LLM Ensembles for Code Generation and Repair [45.969630994412846]
3つのソフトウェアエンジニアリングベンチマークで10個の大規模言語モデルと3つのLLMのアンサンブルを比較した。
アンサンブルのパフォーマンスの理論的上限は、最高のシングルモデルよりも83%高いことが判明した。
多様性に基づく戦略は、この理論ポテンシャルの最大95%を実現し、小さな2モデルアンサンブルでも有効であることを示す。
論文 参考訳(メタデータ) (2025-10-24T14:39:23Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - A Large Language Model for Feasible and Diverse Population Synthesis [0.6581049960856515]
ベイズネットワーク(BN)から派生したトポロジ的順序付けにより自己回帰生成過程を明示的に制御する大規模言語モデル(LLM)の微調整法を提案する。
提案手法は、DGM(Deep Generative Model)で観測される80%よりもはるかに高い約95%の実現可能性を実現する。
これにより、メガシティの人口を合成するなど、大規模アプリケーションにとってコスト効率が高くスケーラブルなアプローチが実現される。
論文 参考訳(メタデータ) (2025-05-07T07:50:12Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。