論文の概要: Where Does Authorship Signal Emerge in Encoder-Based Language Models?
- arxiv url: http://arxiv.org/abs/2605.19908v2
- Date: Mon, 25 May 2026 18:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.768654
- Title: Where Does Authorship Signal Emerge in Encoder-Based Language Models?
- Title(参考訳): エンコーダに基づく言語モデルにおけるオーサシップシグナルの創出
- Authors: Francis Kulumba, Guillaume Vimont, Laurent Romary, Florian Cafiero,
- Abstract要約: オーサシップ属性モデルは、スコアリング機構によってパフォーマンスが4倍になる可能性がある。
このギャップを説明するために、機械的解釈可能性ツールを使用します。
- 参考スコア(独自算出の注目度): 1.3755046181215131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship attribution models fine-tuned with the same pretrained encoder, data, and loss can differ four-fold in performance depending only on their scoring mechanism. We use mechanistic interpretability tools to explain this gap. Stylistic features such as word length, punctuation density, and function-word frequency are similarly available at every layer in every model we probe, including an off-the-shelf control encoder, suggesting that the gap is not explained by their linear readability. Instead, causal intervention shows that the scorer appears to determine where the encoder consolidates authorship signal. Mean pooling forces consolidation by early to mid layers, while late interaction defers it to later layers. We further derive this difference from the gradient structure of each scorer, and training dynamics reveal distinct learning trajectories that follow from that difference.
- Abstract(参考訳): オーサシップ属性モデルは同じトレーニング済みエンコーダで微調整され、データと損失は、スコアリング機構にのみ依存するパフォーマンスで4倍の違いがある。
このギャップを説明するために、機械的解釈可能性ツールを使用します。
単語長,句読点密度,関数語頻度などの立体的特徴は,市販の制御エンコーダを含む各モデルの各層でも同様に利用可能であり,そのギャップは線形可読性によって説明されないことを示唆している。
その代わり、因果的介入は、スコアラーがエンコーダがオーサシップ信号を統合する場所を決定するように見えることを示している。
平均プーリングは、初期層から中層への統合を強要する一方、後期層への相互作用は後層へのデフェクトである。
さらに,各スコアの勾配構造からこの差を導出し,その差に追従する学習軌跡を学習力学で明らかにする。
関連論文リスト
- OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - LAYA: Layer-wise Attention Aggregation for Interpretable Depth-Aware Neural Networks [6.1253918397972]
本稿では、出力層の役割を再考し、注意を通して内部表現を動的に集約する新しい出力ヘッドであるLAYAを紹介する。
ビジョンと言語ベンチマークの実験では、LAYAは標準出力ヘッドの性能と一貫して一致または改善している。
これらの解釈可能性信号は、外部のポストホックな説明なしに、モデルの計算から直接現れる。
論文 参考訳(メタデータ) (2025-11-16T18:22:02Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Continuous Sign Language Recognition Using Intra-inter Gloss Attention [0.0]
本研究では,手話認識研究において,インター・グロス・アテンション・モジュール(inter-inter gloss attention module)と呼ばれる新しいモジュールを導入する。
グロス内注目モジュールでは、動画を等サイズのチャンクに分割し、各チャンク内に自己注意機構を適用する。
PHOENIX-2014ベンチマークデータセットの実験結果から,本手法が手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2024-06-26T13:21:08Z) - Deep Convolutional Autoencoders as Generic Feature Extractors in
Seismological Applications [0.0]
地震学的な異なる用途のために,オートエンコーダを特徴抽出器として用いるという考え方を評価するためのテストを開発した。
これらのテストでは、大量の地震波形に基づいて、未完成または未完成のオートエンコーダを訓練する。
オートエンコーダの特徴抽出手法は,特定の条件下でのみ良好に機能する可能性がある。
論文 参考訳(メタデータ) (2021-10-22T14:22:07Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Layer-Wise Multi-View Learning for Neural Machine Translation [45.679212203943194]
従来のニューラルネットワーク翻訳は、最上位のエンコーダ層のコンテキスト表現に限られている。
この問題を解決するために,レイヤワイドな多視点学習を提案する。
提案手法は,複数の強いベースラインに対して安定した改善をもたらす。
論文 参考訳(メタデータ) (2020-11-03T05:06:37Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。