論文の概要: Prototype Transformer: Towards Language Model Architectures Interpretable by Design
- arxiv url: http://arxiv.org/abs/2602.11852v1
- Date: Thu, 12 Feb 2026 11:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.793185
- Title: Prototype Transformer: Towards Language Model Architectures Interpretable by Design
- Title(参考訳): プロトタイプトランス:設計で解釈可能な言語モデルアーキテクチャを目指して
- Authors: Yordan Yordanov, Matteo Forasassi, Bayar Menzat, Ruizhi Wang, Chang Qi, Markus Kaltenberger, Amine M'Charrak, Tommaso Salvatori, Thomas Lukasiewicz,
- Abstract要約: 本稿では,プロトタイプをベースとした自己回帰型LMアーキテクチャであるPrototype Transformer(ProtoT)を紹介する。
ProtoTは入力シーケンスとプロトタイプ間の双方向通信によって動作する。
モデルの推論を解釈し、その振る舞いをターゲットとした編集を可能にする。
- 参考スコア(独自算出の注目度): 37.30649990861446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While state-of-the-art language models (LMs) surpass the vast majority of humans in certain domains, their reasoning remains largely opaque, undermining trust in their output. Furthermore, while autoregressive LMs can output explicit reasoning, their true reasoning process is opaque, which introduces risks like deception and hallucination. In this work, we introduce the Prototype Transformer (ProtoT) -- an autoregressive LM architecture based on prototypes (parameter vectors), posed as an alternative to the standard self-attention-based transformers. ProtoT works by means of two-way communication between the input sequence and the prototypes, and we show that this leads to the prototypes automatically capturing nameable concepts (e.g. "woman") during training. They provide the potential to interpret the model's reasoning and allow for targeted edits of its behavior. Furthermore, by design, the prototypes create communication channels that aggregate contextual information at different time scales, aiding interpretability. In terms of computation scalability, ProtoT scales linearly with sequence length vs the quadratic scalability of SOTA self-attention transformers. Compared to baselines, ProtoT scales well with model and data size, and performs well on text generation and downstream tasks (GLUE). ProtoT exhibits robustness to input perturbations on par or better than some baselines, but differs from them by providing interpretable pathways showing how robustness and sensitivity arises. Reaching close to the performance of state-of-the-art architectures, ProtoT paves the way to creating well-performing autoregressive LMs interpretable by design.
- Abstract(参考訳): 最先端の言語モデル(LM)は特定の領域の大多数の人間を追い越すが、その推論はほとんど不透明であり、出力に対する信頼を損なう。
さらに、自己回帰的LMは明示的な推論を出力できるが、その真の推論プロセスは不透明であり、騙しや幻覚のようなリスクをもたらす。
本稿では,プロトタイプ(パラメータベクトル)に基づく自己回帰型LMアーキテクチャであるPrototype Transformer(ProtoT)を紹介する。
ProtoTは入力シーケンスとプロトタイプ間の双方向通信によって動作し、これがトレーニング中に名前付き概念(例えば「女性」)を自動的にキャプチャするプロトタイプに繋がることを示す。
それらはモデルの推論を解釈し、その振る舞いをターゲットとした編集を可能にする。
さらに、設計により、プロトタイプは、異なる時間スケールでコンテキスト情報を集約し、解釈可能性を支援する通信チャネルを作成する。
計算スケーラビリティの面では、ProtoTはシーケンス長とSOTA自己注意変換器の二次スケーラビリティとを線形にスケールする。
ベースラインと比較して、ProtoTはモデルやデータサイズによく対応し、テキスト生成やダウンストリームタスク(GLUE)でうまく機能する。
ProtoTは、いくつかのベースラインよりも小さいかそれ以上の入力摂動に対して堅牢性を示すが、それらと異なるのは、堅牢性と感受性の出現を示す解釈可能な経路を提供することである。
最先端のアーキテクチャの性能に近づき、ProtoTは、優れたパフォーマンスの自己回帰型LMを設計によって解釈する道を開く。
関連論文リスト
- Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。
自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。
提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文 参考訳(メタデータ) (2025-05-04T21:47:18Z) - Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。
モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文 参考訳(メタデータ) (2024-10-16T03:33:40Z) - The Mysterious Case of Neuron 1512: Injectable Realignment Architectures Reveal Internal Characteristics of Meta's Llama 2 Model [3.838217057990932]
Injectable Realignment Model (IRM)は、言語モデルの解釈可能性と説明可能性に対する新しいアプローチである。
ニューラルプログラミングインタフェースに関する以前の研究に触発された私たちは、感情に基づくアライメントを誘導するために、小さなネットワーク(IRM)を構築してトレーニングします。
訓練されたIRMの出力の分析では、興味深いパターンが明らかになっている。
論文 参考訳(メタデータ) (2024-07-04T04:05:19Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Categorical Traffic Transformer: Interpretable and Diverse Behavior
Prediction with Tokenized Latent [17.14501241048221]
本稿では、連続的な軌道予測とトークン化されたカテゴリー予測の両方を出力する交通モデルであるカテゴリー交通変換器(CTT)を提案する。
CTTの最も顕著な特徴は、完全に解釈可能な潜伏空間であり、基底真理から潜伏変数を直接監督することができる。
その結果、CTTは、予測精度でSOTAを叩きながら意味のある異なる潜伏モードで条件付けられた多様な振る舞いを生成できる。
論文 参考訳(メタデータ) (2023-11-30T07:25:24Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。