論文の概要: Is Factuality Decoding a Free Lunch for LLMs? Evaluation on Knowledge Editing Benchmark
- arxiv url: http://arxiv.org/abs/2404.00216v1
- Date: Sat, 30 Mar 2024 02:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 06:46:13.632996
- Title: Is Factuality Decoding a Free Lunch for LLMs? Evaluation on Knowledge Editing Benchmark
- Title(参考訳): LLM用フリーランチはファクチュアリティデコーディングか?知識編集ベンチマークによる評価
- Authors: Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei, Xueqi Cheng,
- Abstract要約: 大規模言語モデル(LLM)の急速な開発により、より人間的な方法で現実的な知識を伝達することができる。
事実の復号化によるLLMの修正により, 事実の幻覚を減らそうとする努力が盛んに行われている。
しかし、モデルが既知の事実を過度に確信させるため、知識更新を妨げるリスクもある。
- 参考スコア(独自算出の注目度): 43.486543309365416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large language models (LLMs) enables them to convey factual knowledge in a more human-like fashion. Extensive efforts have been made to reduce factual hallucinations by modifying LLMs with factuality decoding. However, they also pose risks of hindering knowledge updates, as they make models overly confident in known facts. In this work, we first revisite the current factuality decoding methods and verified their effectiveness in enhancing factual accuracy. Subsequently, we conduct further evaluation of several strong factuality decoding methods on the knowledge editing benchmark. All these decoding methods significantly diminish the performance of llama2 models compared to their original decoding, with the largest decrease being a staggering 81.3\%. This further indicates that the current existing decoding methods still cannot perfectly address the factual hallucinations, as they overlook the importance of preserving the flexibility for knowledge editing. Therefore, our work suggests that research into factual alignment should simultaneously focus on the effectiveness of knowledge editing.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発により、より人間的な方法で現実的な知識を伝達することができる。
事実の復号化によるLLMの修正により, 事実の幻覚を減らそうとする努力が盛んに行われている。
しかし、モデルが既知の事実を過度に確信させるため、知識更新を妨げるリスクもある。
本研究では,まず,現在の実写復号法を再検討し,実写精度を高める上での有効性を検証した。
その後、知識編集ベンチマークにおいて、いくつかの強い事実性復号法についてさらなる評価を行う。
これらの復号法は、元々の復号法に比べてラマ2モデルの性能を著しく低下させ、最大の減算は81.3\%であった。
このことは、既存の復号法が知識編集の柔軟性を維持することの重要性を見落としているため、事実の幻覚を完全には解決できないことを示している。
そこで本研究では,事実整合性の研究を同時に,知識編集の有効性に着目することが示唆された。
関連論文リスト
- Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning [30.554641380670315]
本稿では,生涯学習における編集効率と推論効率を向上させるために,ContInuous Prompt lEarning法であるRECIPEを紹介する。
RECIPEはまず、知識文をLLMの入力クエリの埋め込みにプレフィックスした、短くて情報的な連続的なプロンプトに変換する。
さらに、動的しきい値を計算するために仲介役として機能する知識センチネル(KS)を統合する。
我々のレトリバーとプロンプトエンコーダは、信頼性、一般性、局所性といった編集特性を達成するために共同で訓練されている。
論文 参考訳(メタデータ) (2024-05-06T08:52:11Z) - Editing Factual Knowledge and Explanatory Ability of Medical Large
Language Models [95.4008873587564]
モデル編集は、特定の知識に基づいて大きな言語モデル(LLM)の振る舞いを正確に修正することを目的としている。
LLMの幻覚や時代遅れの問題の解決に有効であることが証明されている。
本稿では,2つのモデル編集研究を提案し,それらを医療領域で検証する。
論文 参考訳(メタデータ) (2024-02-28T06:40:57Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [104.70586870701922]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Unveiling the Pitfalls of Knowledge Editing for Large Language Models [41.83423510576848]
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。
本稿では,大規模言語モデルの知識編集に伴う潜在的な落とし穴について検討する。
実験結果は、知識編集が意図しない結果の影を必然的に落としてしまうことを鮮明に示している。
論文 参考訳(メタデータ) (2023-10-03T15:10:46Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。