論文の概要: Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
- arxiv url: http://arxiv.org/abs/2411.14257v1
- Date: Thu, 21 Nov 2024 16:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:47.181276
- Title: Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
- Title(参考訳): このエンティティは知っているか?言語モデルにおける知識の認識と幻覚
- Authors: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda,
- Abstract要約: 大規模言語モデルにおける幻覚は広範な問題であるが、モデルが幻覚化するかどうかのメカニズムは理解されていない。
スパースオートエンコーダを解釈可能性ツールとして使用することにより,これらのメカニズムの重要な部分はエンティティ認識であることがわかった。
疎いオートエンコーダがベースモデルで訓練されているにもかかわらず、これらの方向がチャットモデルの拒否行動に因果的影響があることを実証する。
- 参考スコア(独自算出の注目度): 3.2228389319506006
- License:
- Abstract: Hallucinations in large language models are a widespread problem, yet the mechanisms behind whether models will hallucinate are poorly understood, limiting our ability to solve this problem. Using sparse autoencoders as an interpretability tool, we discover that a key part of these mechanisms is entity recognition, where the model detects if an entity is one it can recall facts about. Sparse autoencoders uncover meaningful directions in the representation space, these detect whether the model recognizes an entity, e.g. detecting it doesn't know about an athlete or a movie. This suggests that models can have self-knowledge: internal representations about their own capabilities. These directions are causally relevant: capable of steering the model to refuse to answer questions about known entities, or to hallucinate attributes of unknown entities when it would otherwise refuse. We demonstrate that despite the sparse autoencoders being trained on the base model, these directions have a causal effect on the chat model's refusal behavior, suggesting that chat finetuning has repurposed this existing mechanism. Furthermore, we provide an initial exploration into the mechanistic role of these directions in the model, finding that they disrupt the attention of downstream heads that typically move entity attributes to the final token.
- Abstract(参考訳): 大規模言語モデルにおける幻覚は広範な問題であるが、モデルが幻覚を弱めるかどうかのメカニズムは理解されていないため、この問題を解く能力は制限されている。
スパースオートエンコーダを解釈可能性ツールとして使用することにより、これらのメカニズムの重要な部分がエンティティ認識であることに気付き、モデルがエンティティが事実を思い出すことができるかどうかを検出する。
スパースオートエンコーダは、表現空間における意味のある方向を明らかにし、モデルが実体を認識しているかどうかを検知する。
これはモデルが自己知識を持つことができることを示唆している。
これらの方向は因果関係があり、モデルが既知のエンティティに関する質問に答えることを拒否したり、そうでない場合、未知のエンティティの属性を幻覚させることができる。
これらの方向が, チャットモデルの拒絶行動に因果的影響があることを実証し, チャットの微調整が既存のメカニズムを再利用したことを示唆した。
さらに、モデルにおけるこれらの方向の機械的役割についての最初の調査を行い、通常はエンティティ属性を最終トークンに移動する下流ヘッドの注意を乱すことを発見した。
関連論文リスト
- Implementing engrams from a machine learning perspective: the relevance of a latent space [0.0]
これまでの研究では、脳内のエングラムを、リカレントニューラルネットワーク上でのオートエンコーダとして生物学的に実装することを提案した。
本稿では,これらのオートエンコーダにおける潜伏空間の関連性について述べる。
論文 参考訳(メタデータ) (2024-07-23T16:24:29Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Meanings and Feelings of Large Language Models: Observability of Latent States in Generative AI [65.04274914674771]
アメリカ心理学会(APA)によると、現在のLarge Language Models(LLM)は「フィーリング」ができない。
我々の分析は、モデルがユーザに見えない非自明な計算を実行できるようにする可能性のある設計に光を当てている。
論文 参考訳(メタデータ) (2024-05-22T23:18:58Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Explanatory models in neuroscience: Part 1 -- taking mechanistic
abstraction seriously [8.477619837043214]
批判者は、ニューラルネットワークモデルが脳の機能を照らすことができないことを心配している。
ある種のニューラルネットワークモデルは、実際には力学モデルのよい例である、と我々は主張する。
論文 参考訳(メタデータ) (2021-04-03T22:17:40Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Facts as Experts: Adaptable and Interpretable Neural Memory over
Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。
このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-07-02T03:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。