論文の概要: Cross-Family Universality of Behavioral Axes via Anchor-Projected Representations
- arxiv url: http://arxiv.org/abs/2605.09875v1
- Date: Mon, 11 May 2026 02:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.468028
- Title: Cross-Family Universality of Behavioral Axes via Anchor-Projected Representations
- Title(参考訳): アンカー投影表現による行動軸のクロスファミリック普遍性
- Authors: Su-Hyeon Kim, Yo-Sub Han,
- Abstract要約: 異なる家系の大規模言語モデルは、異なる隠された次元、トークン化器、訓練手順を使用する。
本稿では,各モデルからの隠れ表現を共有アンカー座標空間にマッピングするアンカー投影フレームワークを提案する。
ACSのLlama-Qwen-Mistral-Phi(LQMP)クラスタに同軸方向が密に一致していることが判明した。
- 参考スコア(独自算出の注目度): 8.041250483194434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models from different families use different hidden dimensions, tokenizers, and training procedures, making behavioral directions difficult to compare or transfer across models. We introduce an anchor-projection framework that maps hidden representations from each model into a shared anchor coordinate space (ACS). Behavioral directions extracted from source models are projected into ACS and averaged into a canonical direction. For a new model, the canonical direction is reconstructed into its native hidden space using only anchor activations, without fine-tuning or target-specific direction extraction. We evaluate five instruction-tuned model families and ten behavioral axes. We find that same-axis directions align tightly across the Llama-Qwen-Mistral-Phi (LQMP) cluster in ACS. This shared structure transfers to downstream tasks. For the aligned LQMP cluster, held-out targets achieve (0.83) ten-way detection accuracy and (0.95) mean binary AUROC, while canonical steering induces refusal-rate shifts of up to +0.46% under distribution shift. Sensitivity analyses show that two source models and small anchor pools already suffice to approximate transferable directions. Overall, ACS provides a novel perspective on cross-family interpretability, revealing that representation-level transfer remains robust across model families.
- Abstract(参考訳): 異なる家系の大規模言語モデルは、異なる隠された次元、トークン化器、訓練手順を使用し、モデル間での行動方向の比較や転送が困難になる。
本稿では,各モデルからの隠れ表現を共有アンカー座標空間(ACS)にマッピングするアンカー投影フレームワークを提案する。
ソースモデルから抽出された行動方向をALSに投影し、標準方向へ平均化する。
新しいモデルでは、標準方向をアンカーアクティベーションのみを用いて、微調整や目標固有の方向抽出を行わずに、ネイティブな隠れ空間に再構成する。
5つのモデルファミリーと10つの行動軸を評価した。
ACSのLlama-Qwen-Mistral-Phi(LQMP)クラスタに同軸方向が密に一致していることが判明した。
この共有構造は下流タスクに転送される。
整列LQMPクラスタでは、ホールドアウトターゲットは10ウェイ検出精度(0.83)、バイナリAUROC(0.95)、カノニカルステアリング(canonical steering)は最大で+0.46%の遅延レートシフトを誘導する。
感度解析は、2つのソースモデルと小さなアンカープールが既に伝達可能な方向を近似するのに十分であることを示している。
全体として、ACSは、モデルファミリ間の表現レベルの転送が堅牢であることを明らかにする、クロスファミリーの解釈可能性に関する新しい視点を提供する。
関連論文リスト
- CRAFT: Forgetting-Aware Intervention-Based Adaptation for Continual Learning [7.180013165859104]
CRAFTは、モデルの重み付けの更新を避ける継続的学習フレームワークである。
まず、各タスクを出力分布のばらつきに基づいて、類似したタスクのグループにルーティングする。
すると、KL(Kullback-Leibler)の偏差をグループの先行状態に対して微調整する。
最後に、更新されたタスクの介入を同じKL信号を使用して共有表現にマージする。
論文 参考訳(メタデータ) (2026-05-07T06:24:13Z) - ATLAS: Constitution-Conditioned Latent Geometry and Redistribution Across Language Models and Neural Perturbation Data [0.0]
構成条件付きポストトレーニングは、モデルが学習した表現幾何学の構造化摂動として分析することができる。
グラフ, モデル, 基板間の構成による隠れ状態構造をトレースする, 幾何学第一のプログラムATLASを紹介する。
論文 参考訳(メタデータ) (2026-04-19T23:26:02Z) - Concept Heterogeneity-aware Representation Steering [6.247724933679344]
Representation steeringは、推論時に内部アクティベーションに介入することで、大きな言語モデル(LLM)の振る舞いを制御するメカニズムを提供する。
既存のほとんどの手法は単一のグローバルな操舵方向に依存しており、典型的には対照的なデータセットよりも差分で得られる。
本研究では、最適輸送(OT)のレンズによる表現ステアリングを視認し、標準差分ステアリングが2つの非モダルガウス分布間のOTマップと暗黙的に対応していることに注意する。
論文 参考訳(メタデータ) (2026-02-13T11:07:23Z) - Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - Learning Cross-view Geo-localization Embeddings via Dynamic Weighted
Decorrelation Regularization [52.493240055559916]
クロスビュージオローカライゼーションは、ドローンプラットフォームと衛星プラットフォームという2つのプラットフォームから撮影された同じ位置の画像を見つけることを目的としている。
既存の手法は、通常、特徴空間内の他のものとの埋め込み距離を最適化することに焦点を当てる。
本稿では、低冗長性も重要であり、モデルがより多様なパターンをマイニングする動機となっていると論じる。
論文 参考訳(メタデータ) (2022-11-10T02:13:10Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z) - From Anchor Generation to Distribution Alignment: Learning a
Discriminative Embedding Space for Zero-Shot Recognition [46.47620562161315]
ゼロショット学習(ZSL)では、分類されるサンプルは通常、属性などのサイド情報テンプレートに投影される。
我々は,DAGDA(Distriminative Anchor Generation and Distribution Alignment Model)と呼ばれる新しいフレームワークを提案する。
まず, 拡散型グラフ畳み込みネットワークを用いて, クラス情報と側情報の相互作用を明示的にモデル化し, 識別的アンカーを生成する手法を提案する。
第二に、アンカー空間におけるサンプルと対応するアンカーとをさらに整合させるため、細粒度に分布を洗練させることを目的として、意味的関係正則化を導入する。
論文 参考訳(メタデータ) (2020-02-10T05:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。