論文の概要: Decoding Memories: An Efficient Pipeline for Self-Consistency Hallucination Detection
- arxiv url: http://arxiv.org/abs/2508.21228v1
- Date: Thu, 28 Aug 2025 21:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.882245
- Title: Decoding Memories: An Efficient Pipeline for Self-Consistency Hallucination Detection
- Title(参考訳): Decoding Memories: 自己整合性幻覚検出のための効率的なパイプライン
- Authors: Weizhi Gao, Xiaorui Liu, Feiyi Wang, Dan Lu, Junqi Yin,
- Abstract要約: 選択的推論と復号化により生成を高速化する新しいデコードメモリパイプライン(DMP)を提案する。
提案手法は,AUROC性能を犠牲にすることなく,最大3倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 17.792828844969033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance in both research and real-world applications, but they still struggle with hallucination. Existing hallucination detection methods often perform poorly on sentence-level generation or rely heavily on domain-specific knowledge. While self-consistency approaches help address these limitations, they incur high computational costs due to repeated generation. In this paper, we conduct the first study on identifying redundancy in self-consistency methods, manifested as shared prefix tokens across generations, and observe that non-exact-answer tokens contribute minimally to the semantic content. Based on these insights, we propose a novel Decoding Memory Pipeline (DMP) that accelerates generation through selective inference and annealed decoding. Being orthogonal to the model, dataset, decoding strategy, and self-consistency baseline, our DMP consistently improves the efficiency of multi-response generation and holds promise for extension to alignment and reasoning tasks. Extensive experiments show that our method achieves up to a 3x speedup without sacrificing AUROC performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、研究と実世界のアプリケーションの両方で顕著な性能を示しているが、幻覚に苦戦している。
既存の幻覚検出手法は、文レベルの生成やドメイン固有の知識に大きく依存することが多い。
自己整合性アプローチはこれらの制限に対処するのに役立つが、繰り返し発生するため計算コストが高い。
本稿では,複数世代にわたって共有プレフィックストークンとして現れる自己整合性手法の冗長性を識別する最初の研究を行い,非存在応答トークンが意味的内容に最小限に寄与することを観察する。
これらの知見に基づき、選択的推論とアニールデコードにより生成を高速化する新しいデコードメモリパイプライン(DMP)を提案する。
モデル,データセット,デコード戦略,自己整合性ベースラインに直交するDMPは,マルチレスポンス生成の効率を一貫して改善し,アライメントと推論タスクの拡張を約束する。
実験の結果,AUROC性能を犠牲にすることなく,最大3倍の高速化を実現することができた。
関連論文リスト
- ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - Monitoring Decoding: Mitigating Hallucination via Evaluating the Factuality of Partial Response during Generation [9.137042895376343]
大規模な言語モデルは幻覚に影響を受けやすいため、真に正しくない内容を生成する。
このようなリスクを軽減する既存の方法は、しばしば複数の全世代をサンプリングすることに依存する。
生成プロセスを動的に監視する新しいフレームワークであるモニタリングデコーディングを導入する。
論文 参考訳(メタデータ) (2025-03-05T01:51:03Z) - Improving Factuality with Explicit Working Memory [68.39261790277615]
大規模な言語モデルは、幻覚として知られる、事実的に不正確なコンテンツを生成することができる。
EWE(Explicit Working Memory)は、外部リソースからのリアルタイムフィードバックを受信するワーキングメモリを統合することで、長文テキスト生成における事実性を高める新しい手法である。
論文 参考訳(メタデータ) (2024-12-24T00:55:59Z) - Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。