論文の概要: Improve Decoding Factuality by Token-wise Cross Layer Entropy of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.03199v1
- Date: Wed, 05 Feb 2025 14:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:56.889312
- Title: Improve Decoding Factuality by Token-wise Cross Layer Entropy of Large Language Models
- Title(参考訳): 大規模言語モデルのトークンワイドクロス層エントロピーによる復号性の向上
- Authors: Jialiang Wu, Yi Shen, Sijia Liu, Yi Tang, Sen Song, Xiaoyi Wang, Longjun Cai,
- Abstract要約: 本稿では,余分な訓練を必要とせずに幻覚を緩和するEntropy eNhanced Decoding (END)を提案する。
ENDは、堅牢なQA精度を維持しつつ、生成したコンテンツの真しさと情報性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 18.13555776945599
- License:
- Abstract: Despite their impressive capacities, Large language models (LLMs) often struggle with the hallucination issue of generating inaccurate or fabricated content even when they possess correct knowledge. In this paper, we extend the exploration of the correlation between hidden-state prediction changes and output factuality into a deeper, token-wise level. Based on the insights , we propose cross-layer Entropy eNhanced Decoding (END), a decoding method that mitigates hallucinations without requiring extra training. END leverages inner probability changes across layers to individually quantify the factual knowledge required for each candidate token, and adjusts the final predicting distribution to prioritize tokens with higher factuality. Experiments on both hallucination and QA benchmarks demonstrate that END significantly enhances the truthfulness and informativeness of generated content while maintaining robust QA accuracy. Moreover, our work provides a deeper perspective on understanding the correlations between inherent knowledge and output factuality.
- Abstract(参考訳): 印象的な能力にもかかわらず、Large Language Model (LLMs) は、正しい知識を持っていたとしても、不正確または製造されたコンテンツを生成するという幻覚の問題に苦慮することが多い。
本稿では,隠蔽状態の予測変化と実際の出力との相関関係を,より深く,トークン的なレベルに拡張する。
これらの知見に基づいて,余分な訓練を必要とせずに幻覚を緩和するエントロピーeNhanced Decoding(END)を提案する。
ENDは層間の内部確率変化を活用して、各候補トークンに必要な事実知識を個別に定量化し、最終的な予測分布を調整することにより、より高い事実性を持つトークンを優先順位付けする。
幻覚とQAベンチマークの両方の実験により、ENDは、堅牢なQA精度を維持しながら、生成したコンテンツの真しさと情報性を大幅に向上することが示された。
さらに,本研究は,本質的な知識とアウトプットの事実性との相関について,より深い視点を提供する。
関連論文リスト
- From Uncertainty to Trust: Enhancing Reliability in Vision-Language Models with Uncertainty-Guided Dropout Decoding [6.115580421973011]
大規模視覚言語モデル(LVLM)は多モーダルタスクにおいて顕著な能力を示すが、視覚入力を誤解釈する傾向があり、幻覚や信頼できない出力をもたらすことが多い。
本稿では,視覚的トークンの不確実性を定量化し,不確実なトークンを選択的にマスクしてデコードを改善する新しい推論時間手法であるDropout Decodingを提案する。
CHAIR, THRONE, MMBenchなどのベンチマークによる評価では、Dropout Decodingはオブジェクト幻覚(OH)を大幅に低減し、LVLM出力の信頼性と品質を向上させる。
論文 参考訳(メタデータ) (2024-12-09T13:21:07Z) - Maintaining Informative Coherence: Migrating Hallucinations in Large Language Models via Absorbing Markov Chains [6.920249042435973]
大規模言語モデル(LLM)は、テキスト生成、翻訳、要約のための強力なツールである。
LLMは、文脈情報の忠実さとコヒーレンスを維持するのに失敗する幻覚症状に悩まされることが多い。
本稿では,マルコフ連鎖を吸収し,文脈情報の重要性を定量化する新しい復号手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T04:51:18Z) - Knowledge Graph-Enhanced Large Language Models via Path Selection [58.228392005755026]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションで前例のない性能を示している。
LLMは実際に不正確な出力、すなわち幻覚の問題を発生させることが知られている。
上記の問題に対処する3段階の原理的フレームワークKELPを提案する。
論文 参考訳(メタデータ) (2024-06-19T21:45:20Z) - Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval [14.58181631462891]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
幻覚への感受性は、医療などの重要な分野への展開に重大な課題をもたらす。
我々は,LLMの応答の事実性を高めるために,自己精製強化知識グラフ検索法(Re-KGR)を提案する。
論文 参考訳(メタデータ) (2024-05-10T15:40:50Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - CARE: Certifiably Robust Learning with Reasoning via Variational
Inference [26.210129662748862]
推論パイプライン(CARE)を用いた頑健な学習を提案する。
CAREは、最先端のベースラインに比べて、かなり高い信頼性のロバスト性を達成する。
さらに,CAREの実証的ロバスト性および知識統合の有効性を示すために,異なるアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-09-12T07:15:52Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。