論文の概要: Training-Free Spectral Fingerprints of Voice Processing in Transformers
- arxiv url: http://arxiv.org/abs/2510.19131v1
- Date: Tue, 21 Oct 2025 23:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.828509
- Title: Training-Free Spectral Fingerprints of Voice Processing in Transformers
- Title(参考訳): 変圧器における音声処理の訓練不要なスペクトルフィンガープリント
- Authors: Valentin Noël,
- Abstract要約: 異なる変換器アーキテクチャが、異なる接続パターンを介して同一の言語計算を実装していることを示す。
注意誘導トークングラフ上でのグラフ信号処理を用いて、20言語と3つのモデルファミリ間の接続性の変化を追跡する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different transformer architectures implement identical linguistic computations via distinct connectivity patterns, yielding model imprinted ``computational fingerprints'' detectable through spectral analysis. Using graph signal processing on attention induced token graphs, we track changes in algebraic connectivity (Fiedler value, $\Delta\lambda_2$) under voice alternation across 20 languages and three model families, with a prespecified early window (layers 2--5). Our analysis uncovers clear architectural signatures: Phi-3-Mini shows a dramatic English specific early layer disruption ($\overline{\Delta\lambda_2}_{[2,5]}\!\approx\!-0.446$) while effects in 19 other languages are minimal, consistent with public documentation that positions the model primarily for English use. Qwen2.5-7B displays small, distributed shifts that are largest for morphologically rich languages, and LLaMA-3.2-1B exhibits systematic but muted responses. These spectral signatures correlate strongly with behavioral differences (Phi-3: $r=-0.976$) and are modulated by targeted attention head ablations, linking the effect to early attention structure and confirming functional relevance. Taken together, the findings are consistent with the view that training emphasis can leave detectable computational imprints: specialized processing strategies that manifest as measurable connectivity patterns during syntactic transformations. Beyond voice alternation, the framework differentiates reasoning modes, indicating utility as a simple, training free diagnostic for revealing architectural biases and supporting model reliability analysis.
- Abstract(参考訳): 異なるトランスフォーマーアーキテクチャは、異なる接続パターンを介して同一の言語計算を実装し、スペクトル分析により「計算指紋」とインプリントされたモデルを生成する。
注意誘導トークングラフ上でのグラフ信号処理を用いて,20言語と3つのモデルファミリ間の音声交替下での代数的接続(Fiedler値,$\Delta\lambda_2$)の変化を,予め指定された初期ウィンドウ(2〜5層)で追跡する。
Phi-3-Miniは、劇的なイングランド固有の初期層破壊(\overline{\Delta\lambda_2}_{[2,5]}\!
\approx\!
-0.446$) 他の19の言語における効果は最小限であり、主に英語使用のためにモデルを配置する公開文書と一致している。
Qwen2.5-7Bは、形態学的に豊かな言語で最大規模の小さな分散シフトを示し、LLaMA-3.2-1Bは体系的だがミュートされた応答を示す。
これらのスペクトルシグネチャは行動の違い(Phi-3: $r=-0.976$)と強く相関し、標的の注意頭アブリゲーションによって変調され、その効果を早期の注意構造にリンクし、機能的関連性を確認する。
同時に、これらの知見は、トレーニングの重点が検出可能な計算インプリントを残すことができるという見解と一致している: 構文変換中に測定可能な接続パターンとして表される特殊な処理戦略。
音声のリフレクション以外にも、このフレームワークは推論モードを区別し、アーキテクチャのバイアスを明らかにし、モデルの信頼性分析をサポートするための、シンプルな、トレーニングなしの診断として有用であることを示す。
関連論文リスト
- A Graph Signal Processing Framework for Hallucination Detection in Large Language Models [0.0]
事実記述は低周波収束と一貫した「エネルギー山」の挙動を示すが,幻覚型は異なる特徴を示す。
スペクトルシグネチャを用いた単純な検出器は、パープレキシティベースのベースラインに対して 88.75% の精度を達成する。
これらの結果は、スペクトル幾何学が推論パターンや誤りの振る舞いを捉え、大きな言語モデルで検出するためのフレームワークを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-10-21T22:35:48Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Interference Matrix: Quantifying Cross-Lingual Interference in Transformer Encoders [55.749883010057545]
可能な全ての言語対上で,小さなBERT様のモデルを訓練し,評価することにより,干渉行列を構築する。
分析の結果,言語間の干渉は非対称であり,そのパターンが従来の言語特性と一致しないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-04T10:02:19Z) - Tokenizing Single-Channel EEG with Time-Frequency Motif Learning [16.732494632599934]
本稿では,新しいトークン化フレームワークであるFM-Tokenizerを提案する。
単一チャネルのEEG信号から時間周波数モチーフの語彙を学び、それらを離散トークンにエンコードする。
信号形式, チャネル構成, 記録装置, タスクの事前学習データと異なる耳-EEG睡眠ステージング実験により, トークン化装置がベースラインを14%上回ることを示す。
論文 参考訳(メタデータ) (2025-02-22T03:32:36Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Graph Attention Networks for Speaker Verification [43.01058120303278]
本研究は,グラフアテンションネットワークを用いた話者検証のための新しいバックエンドフレームワークを提案する。
まず、セグメントワイド話者埋め込みを用いてグラフを構築し、それらをグラフアテンションネットワークに入力する。
残りの接続を持つグラフ注意層を数層に分割した後、各ノードはアフィン変換を用いて一次元空間に投影される。
論文 参考訳(メタデータ) (2020-10-22T09:08:02Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。