論文の概要: Language Models are Injective and Hence Invertible
- arxiv url: http://arxiv.org/abs/2510.15511v3
- Date: Tue, 21 Oct 2025 14:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.619685
- Title: Language Models are Injective and Hence Invertible
- Title(参考訳): 言語モデルはインジェクティブであり、従って非可逆である
- Authors: Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodolà,
- Abstract要約: 非線型活性化や正規化のようなトランスフォーマー成分は本質的に非単射である。
数学的には、離散的な入力シーケンスを対応する連続表現のシーケンスにマッピングするトランスフォーマー言語モデルがインジェクティブであることが証明される。
隠れアクティベーションから正確な入力テキストを有効かつ効率的に再構築する最初のアルゴリズムであるSipItを紹介する。
- 参考スコア(独自算出の注目度): 26.862644074381844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.
- Abstract(参考訳): 非線形アクティベーションや正規化のようなトランスフォーマーコンポーネントは本質的に非インジェクティブであり、異なる入力が同じ出力にマップされ、モデルの表現からの入力の正確な回復を防ぐことができることを示唆している。
本稿では,この考え方に挑戦する。
まず、離散的な入力シーケンスを連続表現のシーケンスにマッピングするトランスフォーマー言語モデルが、初期化時に確立され、訓練中に保持される特性であるインジェクティブであり、従って損失のないことを数学的に証明する。
第二に、この結果は6つの最先端言語モデルにおける数十億の衝突試験を通じて実証的に確認し、衝突を観測しない。
第3に、私たちは、隠れたアクティベーションから正確な入力テキストを有効かつ効率的に再構築し、線形時間保証を確立し、実際に正確な可逆性を実証する最初のアルゴリズムであるSipItを導入する。
全体として、我々の研究は、インジェクティビティを言語モデルの基本的で活用可能な特性として確立し、透明性、解釈可能性、安全なデプロイメントに直接影響します。
関連論文リスト
- Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - BBScoreV2: Learning Time-Evolution and Latent Alignment from Stochastic Representation [23.765789561546715]
自動回帰生成モデルは、特に長いテキストシーケンスのモデリングと評価において、様々な言語タスクにおいて重要な役割を果たす。
本研究では、変換器をベースとしたモデル埋め込みをプロセスに組み込むことで、元来の順序のないモデル出力から順序付けられた潜在表現が得られることを観察する。
BBVScore2は,BBV2の有効性に対する直感的かつ定量的な支援を提供する。
論文 参考訳(メタデータ) (2024-05-28T02:33:38Z) - Prototype Generation: Robust Feature Visualisation for Data Independent
Interpretability [1.223779595809275]
プロトタイプ生成は、画像分類モデルのモデルに依存しない、データに依存しない解釈可能性のための、より厳密でより堅牢な特徴可視化形式である。
我々は、不自然な内部活性化のため、特徴可視化アルゴリズムが信頼できないという以前の主張に対抗して、自然な活性化経路をもたらすインプットを生成する能力を示す。
論文 参考訳(メタデータ) (2023-09-29T11:16:06Z) - Token-wise Decomposition of Autoregressive Language Model Hidden States
for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。
次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文 参考訳(メタデータ) (2023-05-17T23:55:32Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。