論文の概要: Is Factuality Enhancement a Free Lunch For LLMs? Better Factuality Can Lead to Worse Context-Faithfulness
- arxiv url: http://arxiv.org/abs/2404.00216v2
- Date: Fri, 04 Oct 2024 03:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:17.727344
- Title: Is Factuality Enhancement a Free Lunch For LLMs? Better Factuality Can Lead to Worse Context-Faithfulness
- Title(参考訳): ファクチュアリティの強化はLLMのフリーランチか? より優れたファクチュアリティは文脈-フェクトフルネスを悪化させるか
- Authors: Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei, Junfeng Fang, Hongcheng Gao, Shiyu Ni, Xueqi Cheng,
- Abstract要約: 我々は、現在の事実性向上手法は、大規模言語モデル(LLM)の文脈忠実性を著しく損なう可能性があると論じている。
実験の結果、これらの手法は事実の正確性に矛盾する改善をもたらす可能性があるが、文脈不信感の低下も引き起こすことが明らかとなった。
- 参考スコア(独自算出の注目度): 39.74642729786543
- License:
- Abstract: As the modern tools of choice for text understanding and generation, large language models (LLMs) are expected to accurately output answers by leveraging the input context. This requires LLMs to possess both context-faithfulness and factual accuracy. Extensive efforts have been made to enable better outputs from LLMs by mitigating hallucinations through factuality enhancement methods. However, they also pose risks of hindering context-faithfulness, as factuality enhancement can lead LLMs to become overly confident in their parametric knowledge, causing them to overlook the relevant input context. In this work, we argue that current factuality enhancement methods can significantly undermine the context-faithfulness of LLMs. We first revisit the current factuality enhancement methods and evaluate their effectiveness in enhancing factual accuracy. Next, we evaluate their performance on knowledge editing tasks to assess the potential impact on context-faithfulness. The experimental results reveal that while these methods may yield inconsistent improvements in factual accuracy, they also cause a more severe decline in context-faithfulness, with the largest decrease reaching a striking 69.7\%. To explain these declines, we analyze the hidden states and logit distributions for the tokens representing new knowledge and parametric knowledge respectively, highlighting the limitations of current approaches. Our finding highlights the complex trade-offs inherent in enhancing LLMs. Therefore, we recommend that more research on LLMs' factuality enhancement make efforts to reduce the sacrifice of context-faithfulness.
- Abstract(参考訳): テキストの理解と生成に最適な現代ツールとして,入力コンテキストを活用することで,大規模言語モデル(LLM)が正確に回答を出力することが期待されている。
これにより、LLMは文脈の忠実さと事実の正確さの両方を持つ必要がある。
実効性向上手法により幻覚を緩和し, LLM からより良い出力を得られるよう, 広範囲な努力がなされている。
しかし、事実性の向上はLLMのパラメトリックな知識に過度に自信を持つようになり、関連する入力コンテキストを見落としてしまうため、文脈不信感を阻害するリスクも生じる。
本研究では,現在の現実性向上手法がLLMの文脈忠実性を著しく損なう可能性があることを論じる。
まず、現在の事実性向上手法を再検討し、事実性向上における有効性を評価する。
次に,知識編集タスクの性能評価を行い,文脈信頼度に対する潜在的影響を評価する。
実験の結果、これらの手法は現実の精度で矛盾する改善をもたらすが、文脈の忠実度はより厳しく低下し、最大の減少率は69.7\%に達することが判明した。
これらの減少を説明するために、新しい知識とパラメトリック知識を表すトークンの隠蔽状態とロジット分布を分析し、現在のアプローチの限界を強調した。
我々の発見は、LLMの強化に固有の複雑なトレードオフを浮き彫りにしている。
したがって、LLMの事実性向上に関するさらなる研究は、文脈忠実性の犠牲を減らす努力をすることを推奨する。
関連論文リスト
- Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクションファインチューニング(IFT)は大規模言語モデル(LLM)の有用性を高める
IFT は LLM に対して、事前訓練中に十分にカバーされていない長い尾の知識で応答を生成し、不明瞭なタスクに一般化する際には、より情報に富むが、より真実に乏しい回答をもたらす。
我々はこのトレードオフに対処するための新しいIFTパラダイムである$textbfUNIT$を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。
知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。
提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文 参考訳(メタデータ) (2024-12-16T14:14:27Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Truth-Aware Context Selection: Mitigating Hallucinations of Large Language Models Being Misled by Untruthful Contexts [31.769428095250912]
大規模言語モデル(LLM)は、ユーザや知識強化ツールが提供する非現実的なコンテキストによって容易に誤解される。
本稿では,入力から非現実的コンテキストを適応的に認識し,マスクするために,TACS(Trath-Aware Context Selection)を提案する。
TACSは,非現実的な文脈を効果的にフィルタリングし,誤解を招く情報を提示した場合のLLMの応答の全体的な品質を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T11:40:44Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。