論文の概要: Pref-CTRL: Preference Driven LLM Alignment using Representation Editing
- arxiv url: http://arxiv.org/abs/2604.23543v1
- Date: Sun, 26 Apr 2026 05:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.421466
- Title: Pref-CTRL: Preference Driven LLM Alignment using Representation Editing
- Title(参考訳): Pref-CTRL:表現編集を用いた参照駆動型LLMアライメント
- Authors: Imranul Ashrafi, Inigo Jauregi Unanue, Massimo Piccardi,
- Abstract要約: テストタイムアライメントメソッドは、推論時に微調整された大規模言語モデル(LLM)に代わる有望な手段を提供する。
本稿では,嗜好データの構造をよりよく反映するための多目的値関数であるPref-CTRLを提案する。
提案手法は,2つのベンチマークデータセット上でのRE-Controlよりも優れ,ドメイン外のデータセットをより一般化した。
- 参考スコア(独自算出の注目度): 5.327210719701061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time alignment methods offer a promising alternative to fine-tuning by steering the outputs of large language models (LLMs) at inference time with lightweight interventions on their internal representations. Recently, a prominent and effective approach, RE-Control (Kong et al., 2024), has proposed leveraging an external value function trained over the LLM's hidden states to guide generation via gradient-based editing. While effective, this method overlooks a key characteristic of alignment tasks, i.e. that they are typically formulated as learning from human preferences between candidate responses. To address this, in this paper we propose a novel preference-based training framework, Pref-CTRL, that uses a multi-objective value function to better reflect the structure of preference data. Our approach has outperformed RE-Control on two benchmark datasets and showed greater generalization on out-of-domain datasets. Our source code is available at https://github.com/UTS-nlPUG/pref-ctrl.
- Abstract(参考訳): テストタイムアライメント手法は,大規模な言語モデル(LLM)の出力を,内部表現への軽量な介入で推論時に制御することで,微調整に代わる有望な手段を提供する。
近年,RE-Control (Kong et al , 2024) という顕著かつ効果的な手法が提案されている。
有効ではあるが、この手法はアライメントタスクの重要な特徴を見落としている。
そこで本研究では,多目的値関数を用いて嗜好データの構造をよりよく反映する,新しい嗜好ベーストレーニングフレームワークPref-CTRLを提案する。
提案手法は,2つのベンチマークデータセット上でのRE-Controlよりも優れ,ドメイン外のデータセットをより一般化した。
ソースコードはhttps://github.com/UTS-nlPUG/pref-ctrl.comで公開されています。
関連論文リスト
- Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。
本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。
本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文 参考訳(メタデータ) (2025-01-22T14:15:46Z) - Preference-Guided Reflective Sampling for Aligning Language Models [27.69410513313001]
反復データ生成とモデル再訓練は、大きな言語モデル(LLM)を人間の好みに効果的に合わせることができる。
本研究では,PRS(Preference-Guided Reflective Smpling)を提案する。
ランダムサンプリングとは異なり、PSSはより効率的なサンプリングを可能にするためにツリーベースの生成フレームワークを使用している。
PRSは、反復的なオフラインRLトレーニングに適用した場合、高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-22T07:18:46Z) - Aligning Large Language Models with Representation Editing: A Control Perspective [38.71496554018039]
人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。
プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。
表現編集によるLLMの整合性を提案する。
論文 参考訳(メタデータ) (2024-06-10T01:21:31Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - Towards Universal Sequence Representation Learning for Recommender
Systems [98.02154164251846]
我々はUniSRecという新しいユニバーサルシーケンス表現学習手法を提案する。
提案手法は、項目の関連記述テキストを用いて、異なる推薦シナリオ間で転送可能な表現を学習する。
我々のアプローチは、パラメータ効率のよい方法で、新しいレコメンデーションドメインやプラットフォームに効果的に移行できます。
論文 参考訳(メタデータ) (2022-06-13T07:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。