論文の概要: Token-Guard: Towards Token-Level Hallucination Control via Self-Checking Decoding
- arxiv url: http://arxiv.org/abs/2601.21969v2
- Date: Fri, 30 Jan 2026 02:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.412226
- Title: Token-Guard: Towards Token-Level Hallucination Control via Self-Checking Decoding
- Title(参考訳): Token-Guard:自己チェッキングデコーディングによるToken-Level幻覚制御を目指して
- Authors: Yifan Zhu, Huiqiang Rong, Haoran Luo,
- Abstract要約: Token-Guardは自己チェックデコードに基づくトークンレベルの幻覚制御手法である。
HALUデータセットの実験では、Token-Guardは幻覚を大幅に減らし、生成精度を向上させる。
- 参考スコア(独自算出の注目度): 8.629393350514972
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) often hallucinate, generating content inconsistent with the input. Retrieval-Augmented Generation (RAG) and Reinforcement Learning with Human Feedback (RLHF) can mitigate hallucinations but require resource-intensive retrieval or large-scale fine-tuning. Decoding-based methods are lighter yet lack explicit hallucination control. To address this, we present Token-Guard, a token-level hallucination control method based on self-checking decoding. Token-Guard performs internal verification at each reasoning step to detect hallucinated tokens before they propagate. Candidate fragments are further evaluated in a latent space with explicit hallucination risk scoring, while iterative pruning and regeneration dynamically correct detected errors. Experiments on HALU datasets show Token-Guard substantially reduces hallucinations and improves generation accuracy, offering a scalable, modular solution for reliable LLM outputs. Our code is publicly available.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば幻覚を起こし、入力と矛盾するコンテンツを生成する。
Retrieval-Augmented Generation (RAG) と Reinforcement Learning with Human Feedback (RLHF) は幻覚を緩和するが、リソース集約的な検索や大規模な微調整を必要とする。
復号法はより軽いが、明確な幻覚制御を欠いている。
そこで本稿ではトークンレベルの幻覚制御手法であるToken-Guardを提案する。
Token-Guardは各推論ステップで内部検証を行い、伝播する前に幻覚トークンを検出する。
候補フラグメントは、明示的な幻覚リスクスコアで潜在空間でさらに評価され、反復的プルーニングと再生は、動的に検出されたエラーを補正する。
HALUデータセットの実験では、Token-Guardは幻覚を大幅に減らし、生成精度を向上し、信頼性の高いLCM出力のためのスケーラブルでモジュール化されたソリューションを提供する。
私たちのコードは公開されています。
関連論文リスト
- Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - DHI: Leveraging Diverse Hallucination Induction for Enhanced Contrastive Factuality Control in Large Language Models [33.2779808039684]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる不正確な情報や偽造情報を生成する。
DHI(Diverse Hallucination induction)は,事前の注釈付きデータに頼らずにより広い範囲の幻覚を生成する新しい学習フレームワークである。
DHIは、複数の幻覚ベンチマークにまたがる他のコントラストなデコーディングベースのアプローチよりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-01-03T10:55:41Z) - Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation [38.43656456659151]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な性能を達成した。
彼らはまだ幻覚に悩まされており、視覚的な入力と矛盾するテキストを生成し、現実世界のアプリケーションに重大なリスクを及ぼしている。
LVLM における幻覚を緩和するために,SAE 由来の潜伏方向に基づくプラグアンドプレイ方式である SAE Latent Directions (SSL) を用いたステアリング LVLM を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:45:45Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。