論文の概要: Is Factuality Enhancement a Free Lunch For LLMs? Better Factuality Can Lead to Worse Context-Faithfulness
- arxiv url: http://arxiv.org/abs/2404.00216v2
- Date: Fri, 04 Oct 2024 03:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:17.727344
- Title: Is Factuality Enhancement a Free Lunch For LLMs? Better Factuality Can Lead to Worse Context-Faithfulness
- Title(参考訳): ファクチュアリティの強化はLLMのフリーランチか? より優れたファクチュアリティは文脈-フェクトフルネスを悪化させるか
- Authors: Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei, Junfeng Fang, Hongcheng Gao, Shiyu Ni, Xueqi Cheng,
- Abstract要約: 我々は、現在の事実性向上手法は、大規模言語モデル(LLM)の文脈忠実性を著しく損なう可能性があると論じている。
実験の結果、これらの手法は事実の正確性に矛盾する改善をもたらす可能性があるが、文脈不信感の低下も引き起こすことが明らかとなった。
- 参考スコア(独自算出の注目度): 39.74642729786543
- License:
- Abstract: As the modern tools of choice for text understanding and generation, large language models (LLMs) are expected to accurately output answers by leveraging the input context. This requires LLMs to possess both context-faithfulness and factual accuracy. Extensive efforts have been made to enable better outputs from LLMs by mitigating hallucinations through factuality enhancement methods. However, they also pose risks of hindering context-faithfulness, as factuality enhancement can lead LLMs to become overly confident in their parametric knowledge, causing them to overlook the relevant input context. In this work, we argue that current factuality enhancement methods can significantly undermine the context-faithfulness of LLMs. We first revisit the current factuality enhancement methods and evaluate their effectiveness in enhancing factual accuracy. Next, we evaluate their performance on knowledge editing tasks to assess the potential impact on context-faithfulness. The experimental results reveal that while these methods may yield inconsistent improvements in factual accuracy, they also cause a more severe decline in context-faithfulness, with the largest decrease reaching a striking 69.7\%. To explain these declines, we analyze the hidden states and logit distributions for the tokens representing new knowledge and parametric knowledge respectively, highlighting the limitations of current approaches. Our finding highlights the complex trade-offs inherent in enhancing LLMs. Therefore, we recommend that more research on LLMs' factuality enhancement make efforts to reduce the sacrifice of context-faithfulness.
- Abstract(参考訳): テキストの理解と生成に最適な現代ツールとして,入力コンテキストを活用することで,大規模言語モデル(LLM)が正確に回答を出力することが期待されている。
これにより、LLMは文脈の忠実さと事実の正確さの両方を持つ必要がある。
実効性向上手法により幻覚を緩和し, LLM からより良い出力を得られるよう, 広範囲な努力がなされている。
しかし、事実性の向上はLLMのパラメトリックな知識に過度に自信を持つようになり、関連する入力コンテキストを見落としてしまうため、文脈不信感を阻害するリスクも生じる。
本研究では,現在の現実性向上手法がLLMの文脈忠実性を著しく損なう可能性があることを論じる。
まず、現在の事実性向上手法を再検討し、事実性向上における有効性を評価する。
次に,知識編集タスクの性能評価を行い,文脈信頼度に対する潜在的影響を評価する。
実験の結果、これらの手法は現実の精度で矛盾する改善をもたらすが、文脈の忠実度はより厳しく低下し、最大の減少率は69.7\%に達することが判明した。
これらの減少を説明するために、新しい知識とパラメトリック知識を表すトークンの隠蔽状態とロジット分布を分析し、現在のアプローチの限界を強調した。
我々の発見は、LLMの強化に固有の複雑なトレードオフを浮き彫りにしている。
したがって、LLMの事実性向上に関するさらなる研究は、文脈忠実性の犠牲を減らす努力をすることを推奨する。
関連論文リスト
- PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations [22.011216436252845]
本稿では,大言語モデルの知識能力を探索するツールキットPertEvalを紹介する。
PertEvalは、静的ベンチマークからオンザフライテストサンプルを生成するために、人間のような再配置技術を採用している。
我々の発見は、より堅牢で真に理解できるLSMを前進させる洞察を与えてくれる。
論文 参考訳(メタデータ) (2024-05-30T06:38:32Z) - Truth-Aware Context Selection: Mitigating Hallucinations of Large Language Models Being Misled by Untruthful Contexts [31.769428095250912]
大規模言語モデル(LLM)は、ユーザや知識強化ツールが提供する非現実的なコンテキストによって容易に誤解される。
本稿では,入力から非現実的コンテキストを適応的に認識し,マスクするために,TACS(Trath-Aware Context Selection)を提案する。
TACSは,非現実的な文脈を効果的にフィルタリングし,誤解を招く情報を提示した場合のLLMの応答の全体的な品質を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T11:40:44Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。