論文の概要: Who's Who: Large Language Models Meet Knowledge Conflicts in Practice
- arxiv url: http://arxiv.org/abs/2410.15737v1
- Date: Mon, 21 Oct 2024 07:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:23.080470
- Title: Who's Who: Large Language Models Meet Knowledge Conflicts in Practice
- Title(参考訳): 大規模言語モデルが実践上の知識衝突に遭遇するのは誰だ?
- Authors: Quang Hieu Pham, Hoang Ngo, Anh Tuan Luu, Dat Quoc Nguyen,
- Abstract要約: 我々は、知識衝突状況におけるモデルの振る舞いを調べるためのベンチマークデータセットWhoQAを紹介する。
我々は、同じ名前のエンティティ間で共通の性質を問うことで対立を誘発し、その結果、最大8つの独特な答えが得られた。
実験の結果,WhoQA質問の単純さにもかかわらず,知識の矛盾はRAG設定におけるLLMの性能を著しく低下させることがわかった。
- 参考スコア(独自算出の注目度): 28.48156432356721
- License:
- Abstract: Retrieval-augmented generation (RAG) methods are viable solutions for addressing the static memory limits of pre-trained language models. Nevertheless, encountering conflicting sources of information within the retrieval context is an inevitable practical challenge. In such situations, the language models are recommended to transparently inform users about the conflicts rather than autonomously deciding what to present based on their inherent biases. To analyze how current large language models (LLMs) align with our recommendation, we introduce WhoQA, a public benchmark dataset to examine model's behavior in knowledge conflict situations. We induce conflicts by asking about a common property among entities having the same name, resulting in questions with up to 8 distinctive answers. WhoQA evaluation set includes 5K questions across 13 Wikidata property types and 150K Wikipedia entities. Our experiments show that despite the simplicity of WhoQA questions, knowledge conflicts significantly degrades LLMs' performance in RAG settings.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) メソッドは、事前訓練された言語モデルの静的メモリ制限に対処するための実行可能なソリューションである。
それでも、検索コンテキスト内で矛盾する情報ソースに遭遇することは避けられない現実的な課題である。
このような状況下では、言語モデルは、固有のバイアスに基づいて何を提示すべきかを自律的に決定するのではなく、ユーザに紛争について透過的に通知することが推奨される。
我々は,現在の大規模言語モデル (LLM) が我々の推奨とどのように一致しているかを分析するために,知識衝突状況におけるモデルの振る舞いを調べるための公開ベンチマークデータセットであるWhoQAを紹介した。
我々は、同じ名前のエンティティの間で共通の性質を問うことで対立を誘発し、その結果、最大8つの独特な答えが得られた。
WhoQA評価セットには、13のWikidataプロパティタイプと150KのWikipediaエンティティの5K質問が含まれている。
実験の結果,WhoQA質問の単純さにもかかわらず,知識の矛盾はRAG設定におけるLLMの性能を著しく低下させることがわかった。
関連論文リスト
- Open Domain Question Answering with Conflicting Contexts [55.739842087655774]
あいまいでオープンなドメインの質問の25%は、Google Searchを使って検索すると、コンフリクトのあるコンテキストにつながります。
我々はアノテータに正しい回答の選択についての説明を依頼する。
論文 参考訳(メタデータ) (2024-10-16T07:24:28Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation [19.907074685082]
Retrieval-Augmented Generationは、大規模言語モデルの様々な制限に対処する有望なソリューションを提供する。
現在の研究は、しばしばウィキペディアのような一般的な知識ソースを使って、常識的な問題を解決するモデルの能力を評価している。
対話型RAGの能力を含むRAGモデルに必要な6つの能力を特定した。
論文 参考訳(メタデータ) (2024-06-09T05:33:51Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - Rich Knowledge Sources Bring Complex Knowledge Conflicts: Recalibrating
Models to Reflect Conflicting Evidence [37.18100697469402]
パラメトリックな知識が一つの答えを示し、異なる節が異なる答えを示す知識衝突をシミュレートする。
検索性能は、どのソースモデルが依存しているかに大きな影響を与え、現在のモデルは、主にパフォーマンスの低い知識に依存している。
我々は,複数の矛盾する解答候補が提示された場合,モデルが一つの解答を提示することを妨げる新たなキャリブレーション研究を提案する。
論文 参考訳(メタデータ) (2022-10-25T01:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。