論文の概要: Hallucination, Monofacts, and Miscalibration: An Empirical Investigation
- arxiv url: http://arxiv.org/abs/2502.08666v2
- Date: Thu, 15 May 2025 19:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.183537
- Title: Hallucination, Monofacts, and Miscalibration: An Empirical Investigation
- Title(参考訳): 幻覚, モノファクト, ミススキャリブレーション : 実証的研究
- Authors: Miranda Muqing Miao, Michael Kearns,
- Abstract要約: 大規模言語モデルにおける有能な事実は、モノファクトレートによって決定される統計的下界に従う。
古典的なn-gramモデルと微調整エンコーダ・デコーダ変換器におけるこの3方向関係に関する最初の実証的研究を示す。
- 参考スコア(独自算出の注目度): 2.3278261859840104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinated facts in large language models (LLMs) have recently been shown to obey a statistical lower bound determined by the monofact rate (related to the classical Good-Turing missing mass estimator) minus model miscalibration (Kalai & Vempala, 2024). We present the first empirical investigation of this three-way relationship in classical n-gram models and fine-tuned encoder-decoder Transformers. By generating training data from Pareto distributions with varying shape parameters, we systematically control the monofact rates and establish its positive relationship with hallucination. To bridge theory and practice, we derive an empirical analog of the hallucination bound by replacing the population miscalibration term (Section 2.1) with an empirical bin-wise KL divergence and confirm its practical viability. We then introduce selective upweighting -- a simple yet effective technique that strategically repeats as little as 5% of training examples -- to deliberately inject miscalibration into the model. This intervention reduces hallucination by up to 40%, challenging universal deduplication policies. Our experiments reveal a critical trade-off: selective upweighting maintains pre-injection levels of accuracy while substantially reducing hallucination, whereas standard training gradually improves accuracy but fails to address persistently high hallucination, indicating an inherent tension in optimization objectives.
- Abstract(参考訳): 大規模言語モデル(LLMs)における有能な事実は、最近、モノファクト率(古典的グッドチューリング欠落質量推定器)によって決定される統計的下限に従うことが示されている(Kalai & Vempala, 2024)。
古典的なn-gramモデルと微調整エンコーダ・デコーダ変換器におけるこの3方向関係に関する最初の実証的研究を示す。
形状パラメータの異なるPareto分布からトレーニングデータを生成することにより,モノファクト率を体系的に制御し,幻覚との正の関係を確立する。
理論と実践を橋渡しするために,集団の誤校正項 (Section 2.1) を経験的双対KL分岐に置き換えて幻覚の実証的な類似を導出し,その実用性を確認する。
次に、モデルの誤校正を意図的に注入するために、選択的なアップウェイト(選択的なアップウェイト)、すなわち、戦略的に5%のトレーニング例を繰り返す、シンプルで効果的なテクニックを導入します。
この介入は幻覚を最大40%減らし、普遍的な重複解消政策に挑戦する。
選択的アップウェイトは幻覚を著しく減少させる一方、標準トレーニングは徐々に精度を向上させるが、持続的に高い幻覚に対処できず、最適化目標に固有の緊張感を示す。
関連論文リスト
- Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。
まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。
本稿では,実証的リスク最小化法(DEM)を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training [7.726825072908519]
本研究では,学習過程と幻覚の出現との関係について検討する。
感性低下(Sensitivity Dropout, SenD)は, 覚醒の軽減を目的としたトレーニングプロトコルである。
さらに,従来のEigenScoreを2倍の速度で近似する,教師なし幻覚検出尺度であるEfficient EigenScore(EES)を開発した。
論文 参考訳(メタデータ) (2024-10-20T18:18:23Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Delving into Semantic Scale Imbalance [45.30062061215943]
クラスの特徴的多様性を測定するために使用されるクラスの意味的スケールを定義し,定量化する。
本稿では、一般的な損失改善スキームと動的再重み付けトレーニングフレームワークを含む意味尺度バランス学習を提案する。
総合的な実験により、動的セマンティック・スケール・バランス・ラーニングにより、大規模で長い尾を持つ非長い尾を持つ自然および医学的なデータセットにおいて、モデルが優れたパフォーマンスを発揮することが示されている。
論文 参考訳(メタデータ) (2022-12-30T09:40:09Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - Bayesian Sampling Bias Correction: Training with the Right Loss Function [0.0]
我々は、サンプリングバイアスの存在下でモデルを訓練するために損失関数の族を導出する。
例えば、病理の頻度がトレーニングデータセットのサンプリングレートと異なる場合や、マシンラーニングの実践者がトレーニングデータセットを再バランスする場合などだ。
論文 参考訳(メタデータ) (2020-06-24T15:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。