論文の概要: Seed-Induced Uniqueness in Transformer Models: Subspace Alignment Governs Subliminal Transfer
- arxiv url: http://arxiv.org/abs/2511.01023v1
- Date: Sun, 02 Nov 2025 17:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.034
- Title: Seed-Induced Uniqueness in Transformer Models: Subspace Alignment Governs Subliminal Transfer
- Title(参考訳): 変圧器モデルにおける種子誘起特異性:部分空間配位ゲーバーのサブリミナル転送
- Authors: Ayşe Selin Okatan, Mustafa İlhan Akbaş, Laxima Niure Kandel, Berker Peköz,
- Abstract要約: 教師が生徒が線形に復号化できる隠された特徴を埋め込むトランスフォーマーモデルにおけるサブリミナルトランスファーの分析を行う。
伝達強度は特性識別部分空間内のアライメントに比例する。
- 参考スコア(独自算出の注目度): 0.3805935148497361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We analyze subliminal transfer in Transformer models, where a teacher embeds hidden traits that can be linearly decoded by a student without degrading main-task performance. Prior work often attributes transferability to global representational similarity, typically quantified with Centered Kernel Alignment (CKA). Using synthetic corpora with disentangled public and private labels, we distill students under matched and independent random initializations. We find that transfer strength hinges on alignment within a trait-discriminative subspace: same-seed students inherit this alignment and show higher leakage {\tau \approx} 0.24, whereas different-seed students -- despite global CKA > 0.9 -- exhibit substantially reduced excess accuracy {\tau \approx} 0.12 - 0.13. We formalize this with subspace-level CKA diagnostic and residualized probes, showing that leakage tracks alignment within the trait-discriminative subspace rather than global representational similarity. Security controls (projection penalty, adversarial reversal, right-for-the-wrong-reasons regularization) reduce leakage in same-base models without impairing public-task fidelity. These results establish seed-induced uniqueness as a resilience property and argue for subspace-aware diagnostics for secure multi-model deployments.
- Abstract(参考訳): 教師がメインタスク性能を劣化させることなく、生徒が線形に復号できる隠された特徴を埋め込むトランスフォーマーモデルにおけるサブリミナルトランスファーの分析を行う。
以前の研究は、典型的にはCKA(Centered Kernel Alignment)で定量化される、大域的表現的類似性への転送可能性にしばしば寄与する。
公立および私設のラベルを乱した合成コーパスを用いて、一致したランダムな初期化と独立なランダムな初期化の下で学生を蒸留する。
同種学生はこのアライメントを継承し,より高いリーク率を示すのに対し,グローバルCKA > 0.9 であるにもかかわらず,異種学生は著しく過剰な精度を低下させる。
サブスペースレベルのCKA診断および残留化プローブを用いてこれを定式化し、大域的な表現的類似性ではなく、特性識別的部分空間内におけるリークトラックのアライメントを示す。
セキュリティコントロール(プロジェクションペナルティ、逆転、逆転、逆転規則化)は、パブリックタスクの忠実性を損なうことなく、同じベースモデルのリークを減らす。
これらの結果は、弾力性として種による独特性を確立し、セキュアなマルチモデルデプロイメントのためのサブスペース認識診断を主張する。
関連論文リスト
- Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-26T00:04:24Z) - Invariant Anomaly Detection under Distribution Shifts: A Causal
Perspective [6.845698872290768]
異常検出(AD、Anomaly Detection)は、異常なサンプルを識別する機械学習タスクである。
分散シフトの制約の下では、トレーニングサンプルとテストサンプルが同じ分布から引き出されるという仮定が崩壊する。
我々は,異常検出モデルのレジリエンスを,異なる種類の分布シフトに高めようとしている。
論文 参考訳(メタデータ) (2023-12-21T23:20:47Z) - Beyond Instance Discrimination: Relation-aware Contrastive
Self-supervised Learning [75.46664770669949]
本稿では,関係認識型コントラスト型自己教師型学習(ReCo)をインスタンス関係に統合するために提案する。
当社のReCoは、常に顕著なパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2022-11-02T03:25:28Z) - Contrastive Learning Approach for Semi-Supervised Seismic Facies
Identification Using High-Confidence Representations [7.636880727970561]
本研究では, ラベルなしデータの特徴を用いた半教師付き耐震フェーシ同定手法を提案する。
我々は,SEAM AI と Netherlands F3 の2つの公的な地震探査実験を行い,提案モデルは F3 のアノテーションの 1% しか使用せず,90 以上のIOU スコアを達成している。
論文 参考訳(メタデータ) (2022-10-10T15:36:05Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z) - Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions
Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。
wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。
新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文 参考訳(メタデータ) (2020-12-08T02:26:03Z) - From Anchor Generation to Distribution Alignment: Learning a
Discriminative Embedding Space for Zero-Shot Recognition [46.47620562161315]
ゼロショット学習(ZSL)では、分類されるサンプルは通常、属性などのサイド情報テンプレートに投影される。
我々は,DAGDA(Distriminative Anchor Generation and Distribution Alignment Model)と呼ばれる新しいフレームワークを提案する。
まず, 拡散型グラフ畳み込みネットワークを用いて, クラス情報と側情報の相互作用を明示的にモデル化し, 識別的アンカーを生成する手法を提案する。
第二に、アンカー空間におけるサンプルと対応するアンカーとをさらに整合させるため、細粒度に分布を洗練させることを目的として、意味的関係正則化を導入する。
論文 参考訳(メタデータ) (2020-02-10T05:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。