論文の概要: COMPKE: Complex Question Answering under Knowledge Editing
- arxiv url: http://arxiv.org/abs/2506.00829v2
- Date: Tue, 03 Jun 2025 16:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.685839
- Title: COMPKE: Complex Question Answering under Knowledge Editing
- Title(参考訳): CompKE:知識編集における複雑な質問回答
- Authors: Keyuan Cheng, Zijian Kan, Zhixian He, Zhuoran Zhang, Muhammad Asif Ali, Ke Xu, Lijie Hu, Di Wang,
- Abstract要約: 現在のベンチマークでは、主にマルチホップ質問応答を使用して、新しく注入された知識や更新された知識を評価し分析している。
我々は,現実の状況を反映した11,924の複雑な質問を含む,知識編集下での複合質問回答(CompKE: Complex Question Answering)という新しいベンチマークを導入する。
我々は4つの知識編集手法をCompKE上で広範囲に評価し、その効果が異なるモデルで顕著に異なることを示した。
- 参考スコア(独自算出の注目度): 10.447078471142044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Editing, which efficiently modifies the knowledge in large language models, has gathered great attention. Current benchmarks primarily use multi-hop question answering to assess and analyze newly injected or updated knowledge. However, we argue that these benchmarks fail to effectively evaluate how well the updated models apply this knowledge in real-life scenarios, particularly when questions require complex reasoning, involving one-to-many relationships or multi-step logical intersections. To fill in this gap, we introduce a new benchmark, COMPKE: Complex Question Answering under Knowledge Editing, which includes 11,924 complex questions that reflect real-life situations. We conduct an extensive evaluation of four knowledge editing methods on COMPKE, revealing that their effectiveness varies notably across different models. For instance, MeLLo attains an accuracy of 39.47 on GPT-4O-MINI, but this drops sharply to 3.83 on QWEN2.5-3B. We further investigate the underlying causes of these disparities from both methodological and model-specific perspectives. The datasets are available at https://github.com/kzjkzj666/CompKE.
- Abstract(参考訳): 大規模言語モデルの知識を効率的に修正する知識編集が注目されている。
現在のベンチマークでは、主にマルチホップ質問応答を使用して、新しく注入された知識や更新された知識を評価し分析している。
しかし、これらのベンチマークは、特に1対多の関係や複数ステップの論理的交叉を含む複雑な推論を必要とする場合、更新されたモデルがこの知識を現実のシナリオでいかに効果的に適用するかを効果的に評価できないと論じる。
このギャップを埋めるために、我々は、現実世界の状況を反映した11,924の複雑な質問を含む、知識編集下での複合質問回答という新しいベンチマーク「CompKE: Complex Question Answering」を導入する。
我々は4つの知識編集手法をCompKE上で広範囲に評価し、その効果が異なるモデルで顕著に異なることを示した。
例えば、メガロはGPT-4O-MINIで39.47の精度を得るが、QWEN2.5-3Bで3.83に急降下する。
さらに,これらの相違の原因について,方法論的視点とモデル特異的視点の両方から検討する。
データセットはhttps://github.com/kzjkj666/CompKEで公開されている。
関連論文リスト
- MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge [24.66666826440994]
MINTQAは、マルチホップ推論における大規模言語モデルの能力を評価するベンチマークである。
MINTQAは、新しい知識を評価するための10,479対の質問応答ペアと、長い知識を評価するための17,887対の質問応答ペアからなる。
MINTQA上での22の最先端LCMの体系的評価により,複雑な知識ベースクエリを扱う能力に重大な制限があることが判明した。
論文 参考訳(メタデータ) (2024-12-22T14:17:12Z) - Establishing Knowledge Preference in Language Models [80.70632813935644]
言語モデルは事前学習を通じて大量の事実知識を符号化することが知られている。
このような知識はユーザーからの要求に応えるには不十分かもしれない。
進行中のイベントに関する質問に答える場合には、最新のニュース記事を使って回答を更新する必要がある。
ある事実がモデルで編集されると、更新された事実はモデルによって学習されたすべての事前知識をオーバーライドする。
論文 参考訳(メタデータ) (2024-07-17T23:16:11Z) - Leveraging Logical Rules in Knowledge Editing: A Cherry on the Top [12.982138813457812]
知識編集(KE)におけるマルチホップ質問回答(MQA)は,大規模言語モデル(LLM)において重要な課題である
本稿では, RULE-KE をベースとした知識編集フレームワーク RULE-KE を提案する。
既存のデータセットと新しいデータセットを用いた実験的評価では、RULE-KEはパラメータベースのソリューションとメモリベースのソリューションの両方のパフォーマンスを、それぞれ92%と112.9%に向上させる。
論文 参考訳(メタデータ) (2024-05-24T11:30:00Z) - Retrieval-enhanced Knowledge Editing in Language Models for Multi-Hop Question Answering [47.199078631274745]
大規模言語モデル(LLM)は質問応答タスクの習熟度を示しているが、しばしばリアルタイム知識の統合に苦慮している。
マルチホップ質問応答のためのRetrieval-Augmented Model Editing (RAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T17:47:19Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - What Does My QA Model Know? Devising Controlled Probes using Expert
Knowledge [36.13528043657398]
我々は,現在最先端のQAモデルが,単語定義や一般的な分類学的推論に関する一般的な知識を持っているかどうかを検討する。
さまざまなタイプの専門家の知識からデータセットを自動的に構築するための方法論を使用します。
評価の結果,変圧器を用いたQAモデルはすでにある種の構造的語彙的知識を認識できないことが確認された。
論文 参考訳(メタデータ) (2019-12-31T15:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。