論文の概要: Surgical Activation Steering via Generative Causal Mediation
- arxiv url: http://arxiv.org/abs/2602.16080v1
- Date: Tue, 17 Feb 2026 23:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.464861
- Title: Surgical Activation Steering via Generative Causal Mediation
- Title(参考訳): 偽薬投与による外科的アクティベーションステアリング
- Authors: Aruna Sankaranarayanan, Amir Zur, Atticus Geiger, Dylan Hadfield-Menell,
- Abstract要約: 本稿では,GCM(Generative Causal Mediation)を導入し,対照的な長文応答から二項概念を導出する。
GCMは、長文の応答で表される概念をうまくローカライズし、相関プローブベースのベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 15.241981553894709
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Where should we intervene in a language model (LM) to control behaviors that are diffused across many tokens of a long-form response? We introduce Generative Causal Mediation (GCM), a procedure for selecting model components, e.g., attention heads, to steer a binary concept (e.g., talk in verse vs. talk in prose) from contrastive long-form responses. In GCM, we first construct a dataset of contrasting inputs and responses. Then, we quantify how individual model components mediate the contrastive concept and select the strongest mediators for steering. We evaluate GCM on three tasks--refusal, sycophancy, and style transfer--across three language models. GCM successfully localizes concepts expressed in long-form responses and consistently outperforms correlational probe-based baselines when steering with a sparse set of attention heads. Together, these results demonstrate that GCM provides an effective approach for localizing and controlling the long-form responses of LMs.
- Abstract(参考訳): 長文応答の多くのトークンに散在する振る舞いを制御するために、言語モデル(LM)にどこに介入すべきか?
本稿では,モデルコンポーネントの選択手順である生成因果メディエーション(GCM)を導入し,コントラストのある長文応答から二項概念(例えば,韻文での会話と韻文での会話)を操る手法を提案する。
GCMでは、まずコントラスト入力と応答のデータセットを構築する。
次に、各モデルコンポーネントがコントラストの概念をどのように仲介するかを定量化し、ステアリングのための最強のメディエータを選択する。
我々は,3つの言語モデルにまたがって,GCMを3つのタスク – 拒絶,梅毒,スタイル転送 – で評価する。
GCMは、長めの応答で表される概念をローカライズし、スパースなアテンションヘッドで操るとき、相関プローブベースのベースラインを一貫して上回ります。
これらの結果から, GCM は LM の長周期応答の局所化と制御に有効な手法であることが示された。
関連論文リスト
- Guided Decoding and Its Critical Role in Retrieval-Augmented Generation [0.0]
Retrieval-Augmented Generation (RAG)システムにおける重要な課題は、幻覚を最小化しながら出力が期待されるフォーマットと一致することを保証することである。
本研究では, RAGシステムにおける誘導復号化の役割について, Outlines, XGrammar, LM Format Enforcerの3つの手法を比較した。
論文 参考訳(メタデータ) (2025-09-08T12:51:40Z) - PDC-Net: Pattern Divide-and-Conquer Network for Pelvic Radiation Injury Segmentation [42.073820114256826]
PRIセグメンテーションのためのPattern Divide-and-Conquer Network (PDC-Net)を提案する。
コアとなる考え方は、さまざまなネットワークモジュールを使用して、さまざまなローカルパターンとグローバルパターンを“分割”することだ。
骨盤内放射線損傷の最初の大規模データセットについて検討した。
論文 参考訳(メタデータ) (2025-06-21T13:25:19Z) - Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension [46.07415235144545]
一般参照表現(GREC)の課題に対処する。
既存のRECメソッドは、GRECで遭遇した複雑なケースを扱う際の課題に直面している。
階層的アライメント強化型適応グラウンドネットワーク(HieA2G)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:57:59Z) - CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。
コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。
対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文 参考訳(メタデータ) (2024-10-30T15:06:32Z) - Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Cross-Modal Progressive Comprehension for Referring Segmentation [89.58118962086851]
人間の行動を効果的に模倣するクロスモーダルプログレッシブ(CMPC)スキーム。
画像データの場合、CMPC-Iモジュールはまずエンティティと属性の単語を使用して、式によって考慮される可能性のあるすべての関連エンティティを知覚します。
ビデオデータの場合、CMPC-VモジュールはCMPC-Iに基づくアクションワードをさらに活用し、時間グラフ推論によるアクションキューと一致する正しいエンティティを強調します。
論文 参考訳(メタデータ) (2021-05-15T08:55:51Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Diversifying Task-oriented Dialogue Response Generation with Prototype
Guided Paraphrasing [52.71007876803418]
タスク指向対話システム(TDS)における既存の対話応答生成(DRG)方法は、テンプレートベースとコーパスベースという2つのカテゴリに分類される。
我々はP2-Netと呼ばれるプロトタイプベースのパラフレーズニューラルネットワークを提案し、精度と多様性の両面で応答の質を高めることを目的としている。
論文 参考訳(メタデータ) (2020-08-07T22:25:36Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。