論文の概要: Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis
- arxiv url: http://arxiv.org/abs/2505.14406v2
- Date: Wed, 21 May 2025 02:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.361839
- Title: Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis
- Title(参考訳): Pierce the Mist, Greet the Sky:Decipher Knowledge Overshadowing via Knowledge Circuit Analysis
- Authors: Haoming Huang, Yibo Yan, Jiahao Huo, Xin Zou, Xinfeng Li, Kun Wang, Xuming Hu,
- Abstract要約: PhantomCircuitは知識の共有を分析・検出するフレームワークである。
注目の頭脳の内部動作を識別し、競合する知識経路がオーバーシャドーイング現象にどのように貢献するかを追跡する。
この幻覚に関する新たな洞察を提供し、その潜在的な緩和のための新しい方法論のレンズを研究コミュニティに提供する。
- 参考スコア(独自算出の注目度): 16.09030077622416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), despite their remarkable capabilities, are hampered by hallucinations. A particularly challenging variant, knowledge overshadowing, occurs when one piece of activated knowledge inadvertently masks another relevant piece, leading to erroneous outputs even with high-quality training data. Current understanding of overshadowing is largely confined to inference-time observations, lacking deep insights into its origins and internal mechanisms during model training. Therefore, we introduce PhantomCircuit, a novel framework designed to comprehensively analyze and detect knowledge overshadowing. By innovatively employing knowledge circuit analysis, PhantomCircuit dissects the internal workings of attention heads, tracing how competing knowledge pathways contribute to the overshadowing phenomenon and its evolution throughout the training process. Extensive experiments demonstrate PhantomCircuit's effectiveness in identifying such instances, offering novel insights into this elusive hallucination and providing the research community with a new methodological lens for its potential mitigation.
- Abstract(参考訳): 大きな言語モデル(LLM)はその顕著な能力にもかかわらず、幻覚によって妨げられている。
特に挑戦的な変種である知識のオーバーシャドーイング(英語版)は、ある活性化された知識が必然的に別の関連する部分を隠蔽し、高品質なトレーニングデータでさえ誤った出力をもたらすときに起こる。
オーバーシェードイングの現在の理解は、主に推論時の観測に限られており、モデルトレーニング中のその起源と内部メカニズムに関する深い洞察が欠如している。
そこで我々は,知識のシェードイングを包括的に分析し,検出する新しいフレームワークPhantomCircuitを紹介した。
PhantomCircuitは、知識回路分析を革新的に活用することによって、注目の頭の内部動作を識別し、競合する知識経路が、トレーニングプロセス全体を通して、オーバーシェーディング現象とその進化にどのように貢献するかを追跡する。
広範囲にわたる実験は、PhantomCircuitがそのような例を識別し、この幻覚に関する新たな洞察を提供し、その潜在的な緩和のための新しい方法論のレンズを研究コミュニティに提供することを実証している。
関連論文リスト
- How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training [92.88889953768455]
大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。
知識記憶と処理を容易にする計算サブグラフを同定する。
論文 参考訳(メタデータ) (2025-02-16T16:55:43Z) - Explaining Deep Neural Networks by Leveraging Intrinsic Methods [0.9790236766474201]
この論文はeXplainable AIの分野に貢献し、ディープニューラルネットワークの解釈可能性の向上に重点を置いている。
中心となる貢献は、これらのネットワークをより解釈しやすくすることを目的とした新しい技術の導入である。
第2に、この研究は、訓練された深層ニューラルネットワーク内のニューロンに関する新しい研究を掘り下げ、その活性化値に関連する見過ごされた現象に光を当てた。
論文 参考訳(メタデータ) (2024-07-17T01:20:17Z) - Knowledge Circuits in Pretrained Transformers [47.342682123081204]
現代の大言語モデルが知識をいかに保存するかという内部的な研究は、長い間、研究者の間で激しい関心と調査の対象となっていた。
本稿では,言語モデルのグラフを掘り下げて,特定の知識を明確にするための知識回路を明らかにする。
これらの知識回路に対する現在の知識編集技術の影響を評価し,これらの編集手法の機能や制約についてより深い知見を提供する。
論文 参考訳(メタデータ) (2024-05-28T08:56:33Z) - Does the Generator Mind its Contexts? An Analysis of Generative Model
Faithfulness under Context Transfer [42.081311699224585]
本研究は,文脈知識に根ざした情報を生成するための知識増強ジェネレータについて紹介する。
我々の目的は、文脈的知識が変化した際のパラメトリック記憶から生じる幻覚の存在を探ることである。
論文 参考訳(メタデータ) (2024-02-22T12:26:07Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。