論文の概要: Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination
- arxiv url: http://arxiv.org/abs/2603.17504v1
- Date: Wed, 18 Mar 2026 09:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.591195
- Title: Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination
- Title(参考訳): 大規模言語モデルにおける認識的湿度の誘導:幻覚の軽減を目的としたSFTアプローチ
- Authors: Cem Uluoglakci, Tugba Taskaya Temizel,
- Abstract要約: 大型言語モデル(LLM)は、しばしば幻覚を起こし、流動性はあるが誤った情報を生成する。
謙虚さを通じてモデルを教えるために、$textitHypoTermInstruct$を導入します。
我々の研究は、目標とする高品質なSFTデータ学習メタ認知スキルが幻覚を効果的に減少させることを示した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) often hallucinate, producing fluent but false information, partly because supervised fine-tuning (SFT) implicitly rewards always responding. We introduce $\textit{HypoTermInstruct}$, an SFT dataset (31,487 responses for 11,151 questions) designed to teach models epistemological humility-the ability to recognize the limits of their own knowledge and admit uncertainty. This is achieved through questions about non-existent "hypothetical" terms. We also release $\textit{HypoTermQA-Enhanced}$, a benchmark for hallucination tendency strengthened through multiple validations. We conducted 800 controlled LoRA SFT runs across $\textit{Llama3.1-8B}$ and $\textit{Gemma3-4B}$ (base and instruct), testing 100 fine-tuning configurations with paired controls. Our results demonstrate that replacing generic instruction data with $\textit{HypoTermInstruct}$ significantly improves the HypoTerm Score (median increases of 0.19% to 25.91%) and FactScore (+0.39% to +0.86%), while maintaining stable performance on MMLU (minimal decreases of 0.26% to 0.35%). Our work demonstrates that targeted, high-quality SFT data teaching meta-cognitive skills can effectively reduce hallucination without preference/RL pipelines, providing mechanistic insights and a practical path toward more reliable AI systems.
- Abstract(参考訳): 大規模言語モデル (LLM) は、しばしば幻覚を呈し、流れるが偽の情報を生成する。
我々は,SFTデータセットである$\textit{HypoTermInstruct}$(11,151の質問に対して31,487の回答)を導入する。
これは、存在しない「仮説的」用語に関する質問によって達成される。
我々はまた、複数の検証によって強化された幻覚傾向のベンチマークである$\textit{HypoTermQA-Enhanced}$をリリースした。
我々は、$\textit{Llama3.1-8B}$と$\textit{Gemma3-4B}$(ベースとインストラクション)で800の制御されたLoRA SFTを実行し、ペア化されたコントロールで100の微調整構成をテストした。
以上の結果から,ジェネリック命令データを$\textit{HypoTermInstruct}$に置き換えることで,MMLU(0.26%から0.35%)の安定性能を維持しつつ,仮条件スコア(0.19%から25.91%)とFactScore(+0.39%から+0.86%)を大幅に改善できることが示されている。
我々の研究は、ターゲティングされた高品質なSFTデータ学習メタ認知スキルが、好み/RLパイプラインなしで幻覚を効果的に軽減し、機械的な洞察とより信頼性の高いAIシステムへの実践的な道筋を提供することを示した。
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - LLMs Can Get "Brain Rot"! [68.08198331505695]
ジャンクウェブテキストへの連続曝露は、大規模言語モデル(LLM)の持続的認知低下を誘導する
実Twitter/Xコーパスで制御された実験を行い、ジャンクと逆制御されたデータセットを構築します。
その結果、データ品質がLLM能力の崩壊の原因であることを示す重要な多視点的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-15T13:28:49Z) - Real-time nonlinear inversion of magnetic resonance elastography with operator learning [0.06797079068199119]
oNLIフレームワークは、NLIに匹敵する空間精度を持つエラストグラムのリアルタイムMREインバージョン(30,000倍高速化)を可能にする。
MRE文学におけるソフト事前正規化に類似した構造的事前機構が,空間的精度を向上させるために組み込まれている。
論文 参考訳(メタデータ) (2025-10-03T08:55:40Z) - HalluDetect: Detecting, Mitigating, and Benchmarking Hallucinations in Conversational Systems in the Legal Domain [28.691566712713808]
大規模言語モデル(LLM)は、業界で広く使われているが、幻覚の傾向が強く、重要なアプリケーションにおける信頼性を制限している。
本研究は,LLaMA 3.1 8B Instructを用いて構築したコンシューマーグリーバンスチャットボットの幻覚低減について述べる。
LLMに基づく幻覚検出システムであるHaluDetectを開発し、F1スコアは68.92%、ベースライン検出器は22.47%向上した。
論文 参考訳(メタデータ) (2025-09-15T06:23:36Z) - The Hallucination Tax of Reinforcement Finetuning [11.558277688244354]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための標準アプローチとなっている。
我々は, RFT の批判的副作用について検討し, 幻覚税とはすなわち, モデルが幻覚応答を確実に生成する原因となる拒絶行動の悪化について述べる。
以上の結果から,標準RFTトレーニングはモデル拒絶率を80%以上削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-20T06:36:45Z) - Balancing Truthfulness and Informativeness with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクション微調整(IFT)は、大きな言語モデル(LLM)の知性を高めるが、その真偽を減少させる可能性がある。
本稿では,IFTデータセットにおける不慣れな知識がLLMの真偽にどのように悪影響を及ぼすかを実証的に示す。
この問題に対処するために、新しいIFTパラダイムである$UNIT_cut$と$UNIT_ref$を導入します。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。