論文の概要: Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19700v1
- Date: Mon, 26 May 2025 08:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.299624
- Title: Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models
- Title(参考訳): 大規模言語モデルからのデタッチアライメントモジュールへの重要度サンプリングの活用
- Authors: Yi Liu, Dianqing Liu, Mingye Zhu, Junbo Guo, Yongdong Zhang, Zhendong Mao,
- Abstract要約: 伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 50.19188692497892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of large language models (LLMs) across industries has increased the demand for high-quality and customizable outputs. However, traditional alignment methods often require retraining large pretrained models, making it difficult to quickly adapt and optimize LLMs for diverse applications. To address this limitation, we propose a novel \textit{Residual Alignment Model} (\textit{RAM}) that formalizes the alignment process as a type of importance sampling. In this framework, the unaligned upstream model serves as the proposal distribution, while the alignment process is framed as secondary sampling based on an autoregressive alignment module that acts as an estimator of the importance weights. This design enables a natural detachment of the alignment module from the target aligned model, improving flexibility and scalability. Based on this model, we derive an efficient sequence-level training strategy for the alignment module, which operates independently of the proposal module. Additionally, we develop a resampling algorithm with iterative token-level decoding to address the common first-token latency issue in comparable methods. Experimental evaluations on two leading open-source LLMs across diverse tasks, including instruction following, domain adaptation, and preference optimization, demonstrate that our approach consistently outperforms baseline models.
- Abstract(参考訳): 産業にまたがる大規模言語モデル(LLM)の普及により、高品質でカスタマイズ可能なアウトプットの需要が高まっている。
しかし、従来のアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要があるため、多様なアプリケーションに迅速にLLMを適応させ最適化することは困難である。
この制限に対処するために、アライメントプロセスを重要サンプリングの一種として形式化する新しい \textit{Residual Alignment Model} (\textit{RAM}) を提案する。
このフレームワークでは、アライメントプロセスは、重要度の推定器として機能する自己回帰アライメントモジュールに基づいて二次サンプリングとしてフレーム化される。
この設計により、アライメントモジュールを対象のアライメントモデルから自然な分離が可能となり、柔軟性とスケーラビリティが向上する。
このモデルに基づいて,提案モジュールとは独立に動作するアライメントモジュールに対して,効率的なシーケンスレベルのトレーニング戦略を導出する。
さらに,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
命令追従,ドメイン適応,選好最適化など,多種多様なタスクにまたがる2つの主要なオープンソース LLM の実験的評価は,我々のアプローチがベースラインモデルより一貫して優れていることを実証している。
関連論文リスト
- DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Inference time LLM alignment in single and multidomain preference spectrum [16.849200702288307]
優先次元の符号化表現を学習する推論時間モデルアライメント手法を提案する。
これらの表現は、モデル編集のように、アライメントモデルからベースモデルのサブトラクションによって計算される。
好みの次元は様々なレベルにまたがることができるが、ここでは3つの専門領域にわたる3つの段階的な応答レベルに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-24T23:31:39Z) - Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。