論文の概要: Exploring the Generalizability of Factual Hallucination Mitigation via Enhancing Precise Knowledge Utilization
- arxiv url: http://arxiv.org/abs/2502.19127v2
- Date: Mon, 26 May 2025 07:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.472314
- Title: Exploring the Generalizability of Factual Hallucination Mitigation via Enhancing Precise Knowledge Utilization
- Title(参考訳): 精密知識活用の促進によるファクチュアル・ハロシン化緩和の一般化可能性を探る
- Authors: Siyuan Zhang, Yichi Zhang, Yinpeng Dong, Hang Su,
- Abstract要約: PKUEは、正確で単純な事実質問に対する自己生成応答のモデルを微調整する。
大規模な実験により、PKUEはLLM全体の性能を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 37.59724553583446
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) often struggle to align their responses with objective facts, resulting in the issue of factual hallucinations, which can be difficult to detect and mislead users without relevant knowledge. Although post-training techniques have been employed to mitigate the issue, existing methods usually suffer from poor generalization and trade-offs in different capabilities. In this paper, we propose to address it by directly augmenting LLM's fundamental ability to precisely leverage its knowledge and introduce PKUE, which fine-tunes the model on self-generated responses to precise and simple factual questions through preference optimization. Furthermore, we construct FactualBench, a comprehensive and precise factual QA dataset containing 181k Chinese data spanning 21 domains, to facilitate both evaluation and training. Extensive experiments demonstrate that PKUE significantly improves LLM overall performance, with consistent enhancement across factual tasks of various forms, general tasks beyond factuality, and tasks in a different language.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば客観的な事実と反応を一致させるのに苦労し、結果として事実の幻覚の問題を引き起こす。
ポストトレーニングのテクニックは問題を緩和するために使われてきたが、既存の手法は通常、様々な能力で一般化とトレードオフの欠如に悩まされている。
本稿では,LLMの知識を的確に活用する基本的な能力を直接強化し,PKUEを導入し,好みの最適化を通じて,自己生成応答のモデルを精密かつ単純な事実質問に微調整する手法を提案する。
さらに、21のドメインにまたがる181万の中国語データを含む総合的かつ正確な事実QAデータセットであるFactualBenchを構築し、評価とトレーニングの両方を容易にする。
広範囲な実験により、PKUEはLLM全体の性能を著しく改善し、様々な形式の現実的タスク、事実性を超えた一般的なタスク、異なる言語のタスクを一貫した拡張を実現している。
関連論文リスト
- AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification [25.27444694706659]
AskToActは、クエリとそのツール呼び出しソリューション間の構造マッピングを利用する。
私たちの重要な洞察は、ツールパラメータが明示的なユーザ意図を自然に表現していることです。
クエリから重要なパラメータを体系的に取り除き,それらを根拠として保持することにより,高品質なトレーニングデータの自動構築を可能にする。
論文 参考訳(メタデータ) (2025-03-03T12:55:49Z) - Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。
本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。
我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-16T14:28:33Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models [11.453585039783901]
LEAF: Fact-Checkingによって強化された学習と評価は、大規模言語モデル(LLM)の現実的信頼性を高めるために設計された新しいアプローチである。
最初の戦略であるFact-Check-Then-RAGは、ファクトチェック結果を取り入れて、モデルパラメータを更新せずに検索プロセスをガイドすることによって、検索精度を向上させる。
第2の戦略であるLearning from Fact-Checks via Self-Trainingは、ファクトチェックされた応答の監督された微調整(SFT)や、ファクトチェックをランキングメカニズムとして適用するSimple Preference Optimization(SimPO)である。
論文 参考訳(メタデータ) (2024-10-31T00:18:05Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
よりシンプルで知識集約的なタスクでは記憶が大きな役割を担い、一方、一般化はより困難で推論に基づくタスクでは鍵となる。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。