論文の概要: ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM
- arxiv url: http://arxiv.org/abs/2408.12076v1
- Date: Thu, 22 Aug 2024 02:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 15:33:26.005597
- Title: ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM
- Title(参考訳): ConflictBank: LLMにおける知識衝突の影響を評価するベンチマーク
- Authors: Zhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng,
- Abstract要約: 大規模言語モデル (LLM) は、多くの分野にわたって顕著な進歩を遂げてきたが、知識紛争の重大な問題は研究されることはめったにない。
我々は3つの側面から知識衝突を評価するために開発された最初の総合ベンチマークであるConflictBankを紹介する。
本研究は, 誤情報, 時間的相違, 意味的相違から生じる対立を慎重に分析し, 4つのモデルファミリーと12個のLLMインスタンスに分類した。
- 参考スコア(独自算出の注目度): 36.332500824079844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved impressive advancements across numerous disciplines, yet the critical issue of knowledge conflicts, a major source of hallucinations, has rarely been studied. Only a few research explored the conflicts between the inherent knowledge of LLMs and the retrieved contextual knowledge. However, a thorough assessment of knowledge conflict in LLMs is still missing. Motivated by this research gap, we present ConflictBank, the first comprehensive benchmark developed to systematically evaluate knowledge conflicts from three aspects: (i) conflicts encountered in retrieved knowledge, (ii) conflicts within the models' encoded knowledge, and (iii) the interplay between these conflict forms. Our investigation delves into four model families and twelve LLM instances, meticulously analyzing conflicts stemming from misinformation, temporal discrepancies, and semantic divergences. Based on our proposed novel construction framework, we create 7,453,853 claim-evidence pairs and 553,117 QA pairs. We present numerous findings on model scale, conflict causes, and conflict types. We hope our ConflictBank benchmark will help the community better understand model behavior in conflicts and develop more reliable LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な分野にわたって顕著な進歩を遂げてきたが、幻覚の主要な原因である知識紛争の重大な問題は研究されることはめったにない。
LLMの本質的な知識と得られた文脈的知識の相違を調査する研究はごくわずかである。
しかし、LLMにおける知識紛争の徹底的な評価はいまだに欠落している。
この研究ギャップによって動機づけられたConflictBankは、3つの側面から知識衝突を体系的に評価するために開発された最初の総合的なベンチマークである。
一 回収された知識に遭遇する紛争
(二 模型の符号化知識内の紛争、及び
(三)これらの対立形態の相互作用
本研究は, 誤情報, 時間的相違, 意味的相違から生じる対立を慎重に分析し, 4つのモデルファミリーと12個のLLMインスタンスに分類した。
提案する新規構築フレームワークに基づいて,7,453,853個のクレーム-エビデンス対と53,117個のQA対を生成する。
モデルスケール,紛争原因,紛争タイプに関する多くの知見を提示する。
ConflictBankのベンチマークは、コミュニティが紛争のモデル行動をよりよく理解し、より信頼性の高いLCMを開発するのに役立つことを願っています。
関連論文リスト
- Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding [15.828455477224516]
マルチモーダルタスクとして、文書理解には知覚能力と認知能力の両方を持つモデルが必要である。
本稿では,認知と知覚の対立を認知と知覚の対立(C&P)として定義する。
本稿では,C&Pの知識紛争を軽減するために,マルチモーダル知識一貫性ファインタニング(Multimodal Knowledge Consistency Fine-tuning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T11:28:50Z) - Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - Knowledge Conflicts for LLMs: A Survey [24.731074825915833]
調査では、コンテキストメモリ、コンテキスト間、メモリ内コンフリクトの3つのカテゴリに焦点が当てられている。
これらの対立は、大規模言語モデルの信頼性と性能に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-03-13T08:02:23Z) - Resolving Knowledge Conflicts in Large Language Models [46.903549751371415]
大規模言語モデル(LLM)はしばしば知識の衝突に遭遇する。
知識衝突が発生した場合のLLMのデシラタとは何か,既存のLLMがそれを満たすのかを問う。
文脈知識の矛盾をシミュレートする評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。