論文の概要: DSCC-HS: A Dynamic Self-Reinforcing Framework for Hallucination Suppression in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.13702v1
- Date: Wed, 17 Sep 2025 05:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.723944
- Title: DSCC-HS: A Dynamic Self-Reinforcing Framework for Hallucination Suppression in Large Language Models
- Title(参考訳): DSCC-HS:大規模言語モデルにおける幻覚抑制のための動的自己強化フレームワーク
- Authors: Xiao Zheng,
- Abstract要約: 自己回帰復号時に介入する新規なプロアクティブフレームワークである,幻覚抑制のための動的自己強化(DAct-HS)*を紹介する。
二重プロセス認知理論にインスパイアされたDSCC-HSは、FAP(Factual Alignment Proxy)とHDP(Halucination Detection Proxy)として敵対的な役割を訓練されたコンパクトプロキシモデルを使用する。
TruthfulQAとBioGENの実験は、DSCC-HSが最先端の性能を発揮することを示している。
- 参考スコア(独自算出の注目度): 12.08774492186046
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Model (LLM) hallucination is a significant barrier to their reliable deployment. Current methods like Retrieval-Augmented Generation (RAG) are often reactive. We introduce **Dynamic Self-reinforcing Calibration for Hallucination Suppression (DSCC-HS)**, a novel, proactive framework that intervenes during autoregressive decoding. Inspired by dual-process cognitive theory, DSCC-HS uses a compact proxy model, trained in adversarial roles as a Factual Alignment Proxy (FAP) and a Hallucination Detection Proxy (HDP). During inference, these proxies dynamically steer a large target model by injecting a real-time steering vector, which is the difference between FAP and HDP logits, at each decoding step. This plug-and-play approach requires no modification to the target model. Our experiments on TruthfulQA and BioGEN show DSCC-HS achieves state-of-the-art performance. On TruthfulQA, it reached a 99.2% Factual Consistency Rate (FCR). On the long-form BioGEN benchmark, it attained the highest FActScore of 46.50. These results validate DSCC-HS as a principled and efficient solution for enhancing LLM factuality.
- Abstract(参考訳): 大きな言語モデル(LLM)の幻覚は、信頼性の高いデプロイメントにとって重要な障壁である。
Retrieval-Augmented Generation (RAG)のような現在の手法は、しばしば反応性がある。
本稿では, 自己回帰復号時に介入する新規なプロアクティブフレームワークである, 覚醒抑制のための動的自己強化校正法(DSCC-HS)*を紹介する。
二重プロセス認知理論にインスパイアされたDSCC-HSは、FAP(Factual Alignment Proxy)とHDP(Halucination Detection Proxy)として、敵対的な役割で訓練された、コンパクトなプロキシモデルを使用する。
推論中、これらのプロキシは、各デコードステップでFAPとHDPログの違いであるリアルタイムステアリングベクトルを注入することで、大きなターゲットモデルを動的に操る。
このプラグイン・アンド・プレイのアプローチでは、ターゲットモデルを変更する必要はない。
TruthfulQA と BioGEN を用いた実験により,DSCC-HS は最先端の性能を発揮することが示された。
TruthfulQAでは、FCR(Factual Consistency Rate)が99.2%に達した。
長めのBioGENベンチマークでは、FActScoreは46.50で最高となった。
これらの結果は, DSCC-HS を LLM の事実性を高めるための原理的かつ効率的なソリューションとして評価した。
関連論文リスト
- The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [58.559544190947584]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Decoding Memories: An Efficient Pipeline for Self-Consistency Hallucination Detection [17.792828844969033]
選択的推論と復号化により生成を高速化する新しいデコードメモリパイプライン(DMP)を提案する。
提案手法は,AUROC性能を犠牲にすることなく,最大3倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-08-28T21:39:53Z) - CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts [67.48102304531734]
我々は,連続ニュアンスシフトベンチマークであるCNS-Benchを導入し,連続かつ現実的なニュアンスシフトのための画像分類器の堅牢性を定量化する。
本稿では,従来の手法よりも優れたフィルタリング機構を提案し,生成モデルによる信頼性の高いベンチマークを可能にする。
論文 参考訳(メタデータ) (2025-07-23T16:15:48Z) - Shaking to Reveal: Perturbation-Based Detection of LLM Hallucinations [25.18901449626428]
自己評価として知られる幻覚を検出するための広く採用されている戦略は、その答えの事実的正確さを推定するために、モデル自身の出力信頼度に依存する。
中間表現における摂動感度を解析することにより自己評価を改善する新しいフレームワークSSPを提案する。
SSPは幻覚検出ベンチマークの範囲で先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:44:28Z) - The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - DSVD: Dynamic Self-Verify Decoding for Faithful Generation in Large Language Models [31.15459303576494]
本稿では,動的自己検証復号法(DSVD)を提案する。リアルタイム幻覚検出と効率的な誤り訂正により生成信頼性を向上させる新しい復号法である。
私たちの研究は、生成中のリアルタイムの自己検証が、実用的なデプロイ性を犠牲にすることなく、より信頼できる言語モデルへの実行可能なパスを提供することを証明しています。
論文 参考訳(メタデータ) (2025-03-05T03:45:50Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Distributional Inclusion Hypothesis and Quantifications: Probing for
Hypernymy in Functional Distributional Semantics [50.363809539842386]
関数分布意味論(FDS)は、真理条件関数による単語の意味をモデル化する。
FDSモデルは分布包含仮説(DIH)に厳格に従う制限されたコーパスのクラスでハイパーネミーを学ぶことを示す。
論文 参考訳(メタデータ) (2023-09-15T11:28:52Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。