論文の概要: Is Factuality Decoding a Free Lunch for LLMs? Evaluation on Knowledge Editing Benchmark
- arxiv url: http://arxiv.org/abs/2404.00216v1
- Date: Sat, 30 Mar 2024 02:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 06:46:13.632996
- Title: Is Factuality Decoding a Free Lunch for LLMs? Evaluation on Knowledge Editing Benchmark
- Title(参考訳): LLM用フリーランチはファクチュアリティデコーディングか?知識編集ベンチマークによる評価
- Authors: Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei, Xueqi Cheng,
- Abstract要約: 大規模言語モデル(LLM)の急速な開発により、より人間的な方法で現実的な知識を伝達することができる。
事実の復号化によるLLMの修正により, 事実の幻覚を減らそうとする努力が盛んに行われている。
しかし、モデルが既知の事実を過度に確信させるため、知識更新を妨げるリスクもある。
- 参考スコア(独自算出の注目度): 43.486543309365416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large language models (LLMs) enables them to convey factual knowledge in a more human-like fashion. Extensive efforts have been made to reduce factual hallucinations by modifying LLMs with factuality decoding. However, they also pose risks of hindering knowledge updates, as they make models overly confident in known facts. In this work, we first revisite the current factuality decoding methods and verified their effectiveness in enhancing factual accuracy. Subsequently, we conduct further evaluation of several strong factuality decoding methods on the knowledge editing benchmark. All these decoding methods significantly diminish the performance of llama2 models compared to their original decoding, with the largest decrease being a staggering 81.3\%. This further indicates that the current existing decoding methods still cannot perfectly address the factual hallucinations, as they overlook the importance of preserving the flexibility for knowledge editing. Therefore, our work suggests that research into factual alignment should simultaneously focus on the effectiveness of knowledge editing.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発により、より人間的な方法で現実的な知識を伝達することができる。
事実の復号化によるLLMの修正により, 事実の幻覚を減らそうとする努力が盛んに行われている。
しかし、モデルが既知の事実を過度に確信させるため、知識更新を妨げるリスクもある。
本研究では,まず,現在の実写復号法を再検討し,実写精度を高める上での有効性を検証した。
その後、知識編集ベンチマークにおいて、いくつかの強い事実性復号法についてさらなる評価を行う。
これらの復号法は、元々の復号法に比べてラマ2モデルの性能を著しく低下させ、最大の減算は81.3\%であった。
このことは、既存の復号法が知識編集の柔軟性を維持することの重要性を見落としているため、事実の幻覚を完全には解決できないことを示している。
そこで本研究では,事実整合性の研究を同時に,知識編集の有効性に着目することが示唆された。
関連論文リスト
- Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクションファインチューニング(IFT)は大規模言語モデル(LLM)の有用性を高める
IFT は LLM に対して、事前訓練中に十分にカバーされていない長い尾の知識で応答を生成し、不明瞭なタスクに一般化する際には、より情報に富むが、より真実に乏しい回答をもたらす。
我々はこのトレードオフに対処するための新しいIFTパラダイムである$textbfUNIT$を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。
知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。
提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文 参考訳(メタデータ) (2024-12-16T14:14:27Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Truth-Aware Context Selection: Mitigating Hallucinations of Large Language Models Being Misled by Untruthful Contexts [31.769428095250912]
大規模言語モデル(LLM)は、ユーザや知識強化ツールが提供する非現実的なコンテキストによって容易に誤解される。
本稿では,入力から非現実的コンテキストを適応的に認識し,マスクするために,TACS(Trath-Aware Context Selection)を提案する。
TACSは,非現実的な文脈を効果的にフィルタリングし,誤解を招く情報を提示した場合のLLMの応答の全体的な品質を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T11:40:44Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。