論文の概要: LLMdoctor: Token-Level Flow-Guided Preference Optimization for Efficient Test-Time Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.10416v1
- Date: Thu, 15 Jan 2026 14:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.159632
- Title: LLMdoctor: Token-Level Flow-Guided Preference Optimization for Efficient Test-Time Alignment of Large Language Models
- Title(参考訳): LLMdoctor:大規模言語モデルの効率的なテスト時間アライメントのためのToken-Level Flow-Guided Preference Optimization
- Authors: Tiesunlong Shen, Rui Mao, Jin Wang, Heming Sun, Jian Zhang, Xuejie Zhang, Erik Cambria,
- Abstract要約: 本稿では、効率的なテスト時間アライメントのための新しいフレームワークであるLSMdoctorを紹介する。
トークンレベルの報酬取得とトークンレベルのフロー誘導優先最適化を統合している。
既存のテスト時間アライメントメソッドよりも大幅に優れており、DPOのような完全な微調整アプローチのパフォーマンスよりも優れています。
- 参考スコア(独自算出の注目度): 46.04641228781916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) with human preferences is critical, yet traditional fine-tuning methods are computationally expensive and inflexible. While test-time alignment offers a promising alternative, existing approaches often rely on distorted trajectory-level signals or inefficient sampling, fundamentally capping performance and failing to preserve the generative diversity of the base model. This paper introduces LLMdoctor, a novel framework for efficient test-time alignment that operates via a patient-doctor paradigm. It integrates token-level reward acquisition with token-level flow-guided preference optimization (TFPO) to steer a large, frozen patient LLM with a smaller, specialized doctor model. Unlike conventional methods that rely on trajectory-level rewards, LLMdoctor first extracts fine-grained, token-level preference signals from the patient model's behavioral variations. These signals then guide the training of the doctor model via TFPO, which establishes flow consistency across all subtrajectories, enabling precise token-by-token alignment while inherently preserving generation diversity. Extensive experiments demonstrate that LLMdoctor significantly outperforms existing test-time alignment methods and even surpasses the performance of full fine-tuning approaches like DPO.
- Abstract(参考訳): 人間の好みに合わせた大規模言語モデル(LLM)の調整は重要であるが、従来の微調整手法は計算コストが高く、柔軟性がない。
テストタイムアライメントは有望な代替手段であるが、既存のアプローチは歪んだ軌道レベルの信号や非効率なサンプリングに依存し、性能を根本的に落とし、ベースモデルの生成的多様性を維持できない。
本稿では,患者-医師パラダイムを介して動作する,効率的なテスト時間アライメントのための新しいフレームワークであるLSMdoctorを紹介する。
トークンレベルの報酬獲得とトークンレベルのフロー誘導優先最適化(TFPO)を統合して、より小型の専門的な医師モデルで、大きな凍結患者LLMを操る。
トラジェクトリレベルの報酬に依存する従来の方法とは異なり、LSMdoctorはまず患者モデルの行動変化からきめ細かいトークンレベルの選好信号を抽出する。
これらの信号は、TFPOを通じて医師モデルのトレーニングをガイドし、全てのサブトラジェクトリ間のフロー一貫性を確立し、本質的に世代多様性を保ちながら正確なトークン・バイ・トーケンアライメントを可能にする。
大規模な実験では、LLMdoctorは既存のテスト時間アライメント手法よりも大幅に優れており、DPOのような完全な微調整手法よりも優れていることが示されている。
関連論文リスト
- PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。
PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。
我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文 参考訳(メタデータ) (2025-07-26T21:46:32Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。
本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文 参考訳(メタデータ) (2025-07-01T23:30:15Z) - Test-Time Learning for Large Language Models [33.11605667376906]
大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。
LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。
TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-27T02:18:59Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。