論文の概要: PretrainRL: Alleviating Factuality Hallucination of Large Language Models at the Beginning
- arxiv url: http://arxiv.org/abs/2602.01875v1
- Date: Mon, 02 Feb 2026 09:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.05231
- Title: PretrainRL: Alleviating Factuality Hallucination of Large Language Models at the Beginning
- Title(参考訳): PretrainRL: 開始時の大規模言語モデルのファクチュアリティ幻覚を軽減する
- Authors: Langming Liu, Kangtao Lv, Haibin Chen, Weidong Zhang, Yejing Wang, Shilei Liu, Xin Tong, Yujin Yuan, Yongwei Wang, Wenbo Su, Bo Zheng,
- Abstract要約: 大きな言語モデル(LLM)は、検証可能な偽文を生成する事実の幻覚に悩まされる。
モデルに"I don't know"やポストホックな知識編集を教えるような最近のアプローチは、問題を回避するか、破滅的な忘れに直面する。
我々は,強化学習を事前学習フェーズに統合し,事実知識を統合する新しいフレームワークであるtextbfPretrainRLを提案する。
- 参考スコア(独自算出の注目度): 26.987675974131957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), despite their powerful capabilities, suffer from factual hallucinations where they generate verifiable falsehoods. We identify a root of this issue: the imbalanced data distribution in the pretraining corpus, which leads to a state of "low-probability truth" and "high-probability falsehood". Recent approaches, such as teaching models to say "I don't know" or post-hoc knowledge editing, either evade the problem or face catastrophic forgetting. To address this issue from its root, we propose \textbf{PretrainRL}, a novel framework that integrates reinforcement learning into the pretraining phase to consolidate factual knowledge. The core principle of PretrainRL is "\textbf{debiasing then learning}." It actively reshapes the model's probability distribution by down-weighting high-probability falsehoods, thereby making "room" for low-probability truths to be learned effectively. To enable this, we design an efficient negative sampling strategy to discover these high-probability falsehoods and introduce novel metrics to evaluate the model's probabilistic state concerning factual knowledge. Extensive experiments on three public benchmarks demonstrate that PretrainRL significantly alleviates factual hallucinations and outperforms state-of-the-art methods.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その強力な能力にもかかわらず、検証可能な偽りを生成する事実の幻覚に悩まされる。
この問題の根源は、事前学習コーパスにおける不均衡なデータ分布であり、「低確率の真理」と「高確率の虚偽」の状態につながる。
モデルに"I don't know"やポストホックな知識編集を教えるような最近のアプローチは、問題を回避するか、破滅的な忘れに直面する。
この問題を根本から解決するために,強化学習を事前学習フェーズに統合し,事実知識を統合化するための新しいフレームワークである \textbf{PretrainRL} を提案する。
PretrainRL の基本原理は "\textbf{debiasing then learning}" である。
「高確率の虚偽を下げてモデルの確率分布を積極的に評価し、低確率の真理を効果的に学べるようにした。」
これを実現するため,我々は,これらの高い確率的虚偽を発見するための効率的なネガティブサンプリング戦略を設計し,事実知識に関するモデルの確率的状態を評価するための新しい指標を導入する。
3つの公開ベンチマークの大規模な実験は、PretrainRLが事実の幻覚を著しく軽減し、最先端の手法より優れていることを示した。
関連論文リスト
- Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。
現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。
Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文 参考訳(メタデータ) (2025-08-06T15:51:02Z) - Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文 参考訳(メタデータ) (2023-05-09T22:49:55Z) - What Makes Pre-trained Language Models Better Zero-shot Learners? [12.164678440185007]
ゼロショットシナリオでの迅速な学習の現在の方法は、十分な人間の注釈付きデータを持つ開発セットに依存している。
ゼロショットテキスト分類における妥当なプロンプトテンプレートのスクリーニング方法を提案する。
実験により,本手法は実写ゼロショット設定における予測性能の向上につながることが示された。
論文 参考訳(メタデータ) (2022-09-30T03:28:19Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。