論文の概要: From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
- arxiv url: http://arxiv.org/abs/2509.06938v1
- Date: Mon, 08 Sep 2025 17:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.2993
- Title: From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
- Title(参考訳): 騒音からナラティブへ:変圧器における幻覚の起源の追跡
- Authors: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok,
- Abstract要約: トランスモデルの出力における幻覚は、トランス層活性化に埋め込まれた概念パターンから確実に予測できる。
この洞察の収集は、AIモデルと人間の価値の整合性、AIの安全性、潜在的な敵攻撃に対する攻撃面の開放に直ちに影響する。
- 参考スコア(独自算出の注目度): 4.857288562417505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As generative AI systems become competent and democratized in science, business, and government, deeper insight into their failure modes now poses an acute need. The occasional volatility in their behavior, such as the propensity of transformer models to hallucinate, impedes trust and adoption of emerging AI solutions in high-stakes areas. In the present work, we establish how and when hallucinations arise in pre-trained transformer models through concept representations captured by sparse autoencoders, under scenarios with experimentally controlled uncertainty in the input space. Our systematic experiments reveal that the number of semantic concepts used by the transformer model grows as the input information becomes increasingly unstructured. In the face of growing uncertainty in the input space, the transformer model becomes prone to activate coherent yet input-insensitive semantic features, leading to hallucinated output. At its extreme, for pure-noise inputs, we identify a wide variety of robustly triggered and meaningful concepts in the intermediate activations of pre-trained transformer models, whose functional integrity we confirm through targeted steering. We also show that hallucinations in the output of a transformer model can be reliably predicted from the concept patterns embedded in transformer layer activations. This collection of insights on transformer internal processing mechanics has immediate consequences for aligning AI models with human values, AI safety, opening the attack surface for potential adversarial attacks, and providing a basis for automatic quantification of a model's hallucination risk.
- Abstract(参考訳): 生成的AIシステムが科学、ビジネス、政府に適任で民主化されるにつれて、その障害モードに関する深い洞察が、現在、深刻なニーズをもたらしている。
トランスフォーマーモデルの幻覚への適合性、信頼の妨げ、ハイテイクな領域における新興AIソリューションの採用など、彼らの行動における時折のボラティリティが低下する。
本研究では,入力空間における不確実性を実験的に制御したシナリオの下で,スパースオートエンコーダによって捕捉された概念表現を用いて,事前学習されたトランスフォーマモデルに幻覚が生じるか,いつどのように発生するかを確立する。
システム実験により,入力情報の非構造化が進むにつれて,トランスフォーマーモデルで使用される意味概念の数が増加することが明らかとなった。
入力空間における不確実性の増加に直面して、トランスフォーマーモデルはコヒーレントで入力非感受性なセマンティック特徴を活性化しやすくなり、幻覚出力をもたらす。
極端に、純粋雑音入力に対しては、事前学習されたトランスフォーマーモデルの中間活性化において、多種多様な頑健で有意義な概念を同定し、その機能的整合性は、対象のステアリングを通して確認する。
また、トランス層活性化に埋め込まれた概念パターンから、トランスモデルの出力における幻覚を確実に予測できることを示す。
このトランスフォーマー内部処理機構に関する洞察の収集は、AIモデルと人間の値の整合性、AI安全性、潜在的な敵攻撃に対する攻撃面の開放、モデルの幻覚リスクの自動定量化の基盤を提供するための直接的な結果をもたらす。
関連論文リスト
- Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers [0.0]
大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
論文 参考訳(メタデータ) (2025-07-12T21:29:49Z) - Differential Gated Self-Attention [6.884675991203353]
マルチヘッド差分ゲーテッド・セルフアテンションは、ヘッドごとの入力依存ゲーティングを学習し、注意雑音を動的に抑制する。
筆者らの貢献は, 側方抑制を基礎とした自己保持のための新たな入力依存型ゲーティング機構, (ii) 生物学的コントラスト増強と自己保持理論の原理的合成, (iii) 耐雑音性およびクロスドメイン適用性を示す総合的な実験である。
論文 参考訳(メタデータ) (2025-05-29T22:52:56Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Exploring Latent Pathways: Enhancing the Interpretability of Autonomous Driving with a Variational Autoencoder [79.70947339175572]
バイオインスパイアされたニューラルサーキットポリシーモデルが革新的な制御モジュールとして登場した。
我々は、変分オートエンコーダとニューラルネットワークポリシーコントローラを統合することで、飛躍的に前進する。
本研究は,変分オートエンコーダへのアーキテクチャシフトに加えて,自動潜時摂動ツールを導入する。
論文 参考訳(メタデータ) (2024-04-02T09:05:47Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。