Fugu-MT 論文翻訳(概要): Aligning Large Language Models with Representation Editing: A Control Perspective

論文の概要: Aligning Large Language Models with Representation Editing: A Control Perspective

arxiv url: http://arxiv.org/abs/2406.05954v3
Date: Fri, 01 Nov 2024 17:46:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.411026
Title: Aligning Large Language Models with Representation Editing: A Control Perspective
Title（参考訳）: 表現編集による大規模言語モデルの調整:制御の観点から
Authors: Lingkai Kong, Haorui Wang, Wenhao Mu, Yuanqi Du, Yuchen Zhuang, Yifei Zhou, Yue Song, Rongzhi Zhang, Kai Wang, Chao Zhang,
Abstract要約: 人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。表現編集によるLLMの整合性を提案する。
参考スコア（独自算出の注目度）: 38.71496554018039
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Aligning large language models (LLMs) with human objectives is crucial for real-world applications. However, fine-tuning LLMs for alignment often suffers from unstable training and requires substantial computing resources. Test-time alignment techniques, such as prompting and guided decoding, do not modify the underlying model, and their performance remains dependent on the original model's capabilities. To address these challenges, we propose aligning LLMs through representation editing. The core of our method is to view a pre-trained autoregressive LLM as a discrete-time stochastic dynamical system. To achieve alignment for specific objectives, we introduce external control signals into the state space of this language dynamical system. We train a value function directly on the hidden states according to the Bellman equation, enabling gradient-based optimization to obtain the optimal control signals at test time. Our experiments demonstrate that our method outperforms existing test-time alignment techniques while requiring significantly fewer resources compared to fine-tuning methods. Our code is available at https://github.com/Lingkai-Kong/RE-Control.
Abstract（参考訳）: 大規模言語モデル(LLM)を人間の目的に合わせることは、現実世界のアプリケーションには不可欠である。しかし、アライメントのための微調整 LLM は不安定なトレーニングに悩まされ、かなりの計算資源を必要とする。プロンプトやガイドデコーディングのようなテスト時のアライメント技術は、基礎となるモデルを変更せず、その性能は元のモデルの性能に依存している。これらの課題に対処するために,表現編集によるLLMの整合性を提案する。本手法の核となるのは,事前学習した自己回帰型LDMを離散時間確率力学系として見ることである。この言語力学系の状態空間に外部制御信号を導入する。我々はベルマン方程式に従って隠蔽状態の値関数を直接訓練し、勾配に基づく最適化によりテスト時に最適な制御信号が得られるようにした。実験の結果,本手法は既存のテスト時間アライメント手法より優れており,微調整法に比べて資源の削減が著しく少ないことがわかった。私たちのコードはhttps://github.com/Lingkai-Kong/RE-Control.comで公開されています。

関連論文リスト

Test-Time Computing for Referring Multimodal Large Language Models [143.49848714354698]
そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
論文参考訳（メタデータ） (2026-02-23T04:42:10Z)
BLIP-FusePPO: A Vision-Language Deep Reinforcement Learning Framework for Lane Keeping in Autonomous Vehicles [0.0]
自律車線維持(LK)のためのマルチモーダル強化学習(RL)のための新しいフレームワークを提案する。提案手法により,エージェントは周囲を認識し,理解しやすい運転ルールを学習することができる。セマンティックアライメント、LK精度、障害物回避、速度制御を含むハイブリッド報酬関数は、学習をより効率的で一般化しやすいものにするのに役立つ。
論文参考訳（メタデータ） (2025-10-25T17:27:08Z)
Controlling Multimodal LLMs via Reward-guided Decoding [17.5544679985101]
マルチモーダル大言語モデル (MLLM) の適応性について, 制御復号化による検討を行った。本手法では,視覚的接地のための報酬モデルを構築し,MLLMの復号プロセスのガイドに使用する。本手法を標準対象幻覚ベンチマークで評価し,MLLMの推論に対する制御性について検討した。
論文参考訳（メタデータ） (2025-08-15T17:29:06Z)
Inference-Time Intervention in Large Language Models for Reliable Requirement Verification [2.3759432635713895]
推論時間介入技術は微調整に代わる有望な手段である。我々は、介入が通常時間を要する要求検証プロセスを自動化するためのきめ細かい制御を可能にする方法を実証する。提案手法は, ベースラインモデルと微調整手法の両方において, 頑健で信頼性の高い出力を実現する。
論文参考訳（メタデータ） (2025-03-18T10:49:36Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Fine-tuning LLMs for Autonomous Spacecraft Control: A Case Study Using Kerbal Space Program [42.87968485876435]
本研究は、自律型宇宙船制御における微調整大型言語モデル(LLM)の利用について検討する。これらのモデルが、言語ベースの入力と出力を用いて、宇宙船を効果的に制御する方法を実証する。
論文参考訳（メタデータ） (2024-08-16T11:43:31Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。 Language-based VAD (LAVAD)を提案する。
論文参考訳（メタデータ） (2024-04-01T09:34:55Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文参考訳（メタデータ） (2024-02-05T06:12:29Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。