論文の概要: Universal Activation Verbalizer: A Unified Framework for Cross-Model Activation Explanation
- arxiv url: http://arxiv.org/abs/2605.25903v1
- Date: Mon, 25 May 2026 14:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.335677
- Title: Universal Activation Verbalizer: A Unified Framework for Cross-Model Activation Explanation
- Title(参考訳): Universal Activation Verbalizer: クロスモデルアクティベーション記述のための統一フレームワーク
- Authors: Haiyan Zhao, Zirui He, Guanchu Wang, Ali Payani, Yingcong Li, Mengnan Du,
- Abstract要約: Universal Activation Verbalizer (UAV)は、共有デコーダを使用して異種ドナーモデルのアクティベーションを説明するフレームワークである。
UAVは、デコーダの埋め込み空間でドナーアクティベーションをソフトトークンに変換する軽量アダプタを学習する。
- 参考スコア(独自算出の注目度): 46.737874359693734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation verbalization explains hidden representations in natural language, but existing methods are mostly limited to self-explanation, where each model explains only its own activations. We introduce Universal Activation Verbalizer (UAV), a framework that uses a shared decoder to explain activations from heterogeneous donor models. UAV learns a lightweight adapter that converts donor activations into soft tokens in decoder's embedding space, and further supports adapter-only transfer by reusing a frozen decoder-side LoRA while training only a new adapter for another donor. Across classification, fact retrieval, and gist summarization, UAV remains competitive with strong self-explanation baselines while enabling cross-model verbalization across model families and scales. Ablations show that decoder-side tuning mainly improves task behavior, whereas the adapter provides the activation-grounded factual and semantic information needed for faithful explanations.
- Abstract(参考訳): アクティベーションの動詞化は自然言語で隠された表現を説明するが、既存の手法は主に自己説明に限られており、各モデルはそれぞれのアクティベーションのみを説明する。
異種ドナーモデルからのアクティベーションを説明するために共有デコーダを使用するフレームワークであるUniversal Activation Verbalizer (UAV)を紹介する。
UAVは、ドナーアクティベーションをデコーダの埋め込みスペースのソフトトークンに変換する軽量アダプタを学び、凍結したデコーダサイドのLoRAを再利用し、他のドナー向けの新しいアダプタのみをトレーニングすることで、アダプタのみの転送をサポートする。
分類、事実検索、要旨の要約などを通じて、UAVは強力な自己説明ベースラインと競合する一方で、モデルファミリやスケールをまたいだクロスモデル言語化を実現している。
アブレーションはデコーダ側のチューニングが主にタスクの振る舞いを改善するのに対して、アダプタは忠実な説明に必要なアクティベートされた事実と意味情報を提供する。
関連論文リスト
- Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - Command-V: Pasting LLM Behaviors via Activation Profiles [67.07238260037839]
Command-Vはバックプロパゲーションフリーな行動伝達法である。
既存の残留活性化アダプタをドナーモデルからコピーし、その効果を受信モデルに貼り付ける。
論文 参考訳(メタデータ) (2025-06-23T21:21:49Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Is Semantic Communications Secure? A Tale of Multi-Domain Adversarial
Attacks [70.51799606279883]
セマンティック・コミュニケーションのためのディープ・ニューラル・ネットワーク(DNN)に対するテスト・タイム・アタックを導入する。
再建損失が低い場合でも,伝達情報のセマンティクスを変更可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。