Fugu-MT 論文翻訳(概要): Command-V: Pasting LLM Behaviors via Activation Profiles

論文の概要: Command-V: Pasting LLM Behaviors via Activation Profiles

arxiv url: http://arxiv.org/abs/2506.19140v1
Date: Mon, 23 Jun 2025 21:21:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.396144
Title: Command-V: Pasting LLM Behaviors via Activation Profiles
Title（参考訳）: Command-V: アクティベーションプロファイルによるLCM挙動のペースト
Authors: Barry Wang, Avi Schwarzschild, Alexander Robey, Ali Payani, Charles Fleming, Mingjie Sun, Daphne Ippolito,
Abstract要約: Command-Vはバックプロパゲーションフリーな行動伝達法である。既存の残留活性化アダプタをドナーモデルからコピーし、その効果を受信モデルに貼り付ける。
参考スコア（独自算出の注目度）: 67.07238260037839
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrofitting large language models (LLMs) with new behaviors typically requires full finetuning or distillation-costly steps that must be repeated for every architecture. In this work, we introduce Command-V, a backpropagation-free behavior transfer method that copies an existing residual activation adapter from a donor model and pastes its effect into a recipient model. Command-V profiles layer activations on a small prompt set, derives linear converters between corresponding layers, and applies the donor intervention in the recipient's activation space. This process does not require access to the original training data and needs minimal compute. In three case studies-safety-refusal enhancement, jailbreak facilitation, and automatic chain-of-thought reasoning--Command-V matches or exceeds the performance of direct finetuning while using orders of magnitude less compute. Our code and data are accessible at https://github.com/GithuBarry/Command-V/.
Abstract（参考訳）: 大規模言語モデル(LLM)を新しい振る舞いで再適合させるには、通常、すべてのアーキテクチャで繰り返されなければならない完全な微調整または蒸留コストのかかるステップが必要となる。本稿では,既存の残効活性化アダプタをドナーモデルからコピーし,その効果を受信者モデルに貼り付ける,バックプロパゲーションフリーな行動伝達手法であるCommand-Vを紹介する。コマンド-Vプロファイルは、小さなプロンプトセット上でのアクティベートを行い、対応するレイヤ間の線形コンバータを導出し、受信者のアクティベーション空間にドナー介入を適用する。このプロセスは、元のトレーニングデータにアクセスする必要はなく、最小限の計算を必要とする。セーフティ・リファインメント、ジェイルブレイク・ファシリテーション、自動連鎖推論の3つのケースでは、Command-V は計算量を大幅に減らしながら直接微調整の性能に適合する。私たちのコードとデータはhttps://github.com/GithuBarry/Command-V/でアクセスできます。

関連論文リスト

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control [0.0]
本稿では,Prompt-Tuningでよく見られる埋没崩壊現象が,モデルの最終性能に与える影響について検討する。以上の結果から, 先行は調整した埋め込みの位置に強く影響し, モデルが活性化空間の異なる部分からの埋め込みを効果的に扱えることが示唆された。
論文参考訳（メタデータ） (2024-12-24T18:18:52Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning [38.63187494867502]
CtRL-Simは、リターン条件付きオフライン強化学習(RL)を利用して、リアクティブで制御可能なトラフィックエージェントを効率的に生成する手法である。 CtRL-Simは,エージェントの挙動を詳細に制御しながら,現実的な安全クリティカルシナリオを生成可能であることを示す。
論文参考訳（メタデータ） (2024-03-29T02:10:19Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Steering Language Models With Activation Engineering [40.04138190785384]
アクティベーションエンジニアリングを導入し、モデル出力を制御(またはステア)するためにアクティベーションの推論時間を変更する。 LLaMA-3 や OPT などのモデルを用いて, 負対正の感情変化と解毒を行う。 ActAddは、ターゲット外のタスクのパフォーマンスを維持しながら、高レベルの出力特性(トピックや感情など)を推論時間で制御する。
論文参考訳（メタデータ） (2023-08-20T12:21:05Z)
MobileTL: On-device Transfer Learning with Inverted Residual Blocks [14.305834934988185]
Inverted Residual Blocks (IRB) を用いたモデル転送学習手法であるMobileTLを提案する。 MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。提案手法は,MobileNetV2 と V3 IRB のメモリ使用量をそれぞれ 46% と 53% に削減する。
論文参考訳（メタデータ） (2022-12-05T23:07:55Z)
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文参考訳（メタデータ） (2022-11-20T21:57:10Z)
Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。 TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文参考訳（メタデータ） (2022-11-18T15:09:03Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。