論文の概要: Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis
- arxiv url: http://arxiv.org/abs/2505.14406v1
- Date: Tue, 20 May 2025 14:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.347764
- Title: Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis
- Title(参考訳): Pierce the Mist, Greet the Sky:Decipher Knowledge Overshadowing via Knowledge Circuit Analysis
- Authors: Haoming Huang, Yibo Yan, Jiahao Huo, Xin Zou, Xinfeng Li, Kun Wang, Xuming Hu,
- Abstract要約: PhantomCircuitは知識の共有を分析・検出するフレームワークである。
注目の頭脳の内部動作を識別し、競合する知識経路がオーバーシャドーイング現象にどのように貢献するかを追跡する。
この幻覚に関する新たな洞察を提供し、その潜在的な緩和のための新しい方法論のレンズを研究コミュニティに提供する。
- 参考スコア(独自算出の注目度): 16.09030077622416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), despite their remarkable capabilities, are hampered by hallucinations. A particularly challenging variant, knowledge overshadowing, occurs when one piece of activated knowledge inadvertently masks another relevant piece, leading to erroneous outputs even with high-quality training data. Current understanding of overshadowing is largely confined to inference-time observations, lacking deep insights into its origins and internal mechanisms during model training. Therefore, we introduce PhantomCircuit, a novel framework designed to comprehensively analyze and detect knowledge overshadowing. By innovatively employing knowledge circuit analysis, PhantomCircuit dissects the internal workings of attention heads, tracing how competing knowledge pathways contribute to the overshadowing phenomenon and its evolution throughout the training process. Extensive experiments demonstrate PhantomCircuit's effectiveness in identifying such instances, offering novel insights into this elusive hallucination and providing the research community with a new methodological lens for its potential mitigation.
- Abstract(参考訳): 大きな言語モデル(LLM)はその顕著な能力にもかかわらず、幻覚によって妨げられている。
特に挑戦的な変種である知識のオーバーシャドーイング(英語版)は、ある活性化された知識が必然的に別の関連する部分を隠蔽し、高品質なトレーニングデータでさえ誤った出力をもたらすときに起こる。
オーバーシェードイングの現在の理解は、主に推論時の観測に限られており、モデルトレーニング中のその起源と内部メカニズムに関する深い洞察が欠如している。
そこで我々は,知識のシェードイングを包括的に分析し,検出する新しいフレームワークPhantomCircuitを紹介した。
PhantomCircuitは、知識回路分析を革新的に活用することによって、注目の頭の内部動作を識別し、競合する知識経路が、トレーニングプロセス全体を通して、オーバーシェーディング現象とその進化にどのように貢献するかを追跡する。
広範囲にわたる実験は、PhantomCircuitがそのような例を識別し、この幻覚に関する新たな洞察を提供し、その潜在的な緩和のための新しい方法論のレンズを研究コミュニティに提供することを実証している。
関連論文リスト
- How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training [92.88889953768455]
大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。
知識記憶と処理を容易にする計算サブグラフを同定する。
論文 参考訳(メタデータ) (2025-02-16T16:55:43Z) - Knowledge Circuits in Pretrained Transformers [47.342682123081204]
現代の大言語モデルが知識をいかに保存するかという内部的な研究は、長い間、研究者の間で激しい関心と調査の対象となっていた。
本稿では,言語モデルのグラフを掘り下げて,特定の知識を明確にするための知識回路を明らかにする。
これらの知識回路に対する現在の知識編集技術の影響を評価し,これらの編集手法の機能や制約についてより深い知見を提供する。
論文 参考訳(メタデータ) (2024-05-28T08:56:33Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。