論文の概要: MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language
- arxiv url: http://arxiv.org/abs/2409.12257v1
- Date: Wed, 18 Sep 2024 18:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 15:38:21.270097
- Title: MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language
- Title(参考訳): MQA-KEAL:アラビア語の知識編集によるマルチホップ質問回答
- Authors: Muhammad Asif Ali, Nawal Daftardar, Mutayyaba Waheed, Jianbin Qin, Di Wang,
- Abstract要約: アラビア語(MQA-KEAL)の知識編集に基づくマルチホップ質問回答を提案する。
MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。
また,KE による MQA の厳密な性能評価のための MQA-AEVAL も提案した。
- 参考スコア(独自算出の注目度): 7.488965571323756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant capabilities across numerous application domains. A key challenge is to keep these models updated with latest available information, which limits the true potential of these models for the end-applications. Although, there have been numerous attempts for LLMs Knowledge Editing (KE), i.e., to edit the LLMs prior knowledge and in turn test it via Multi-hop Question Answering (MQA), yet so far these studies are primarily focused on English language. To bridge this gap, in this paper we propose: Multi-hop Questioning Answering under Knowledge Editing for Arabic Language (MQA-KEAL). MQA-KEAL stores knowledge edits as structured knowledge units in the external memory. In order to solve multi-hop question, it first uses task-decomposition to decompose the question into smaller sub-problems. Later for each sub-problem, it iteratively queries the external memory and/or target LLM in order to generate the final response. In addition, we also contribute MQUAKE-AR (Arabic translation of English benchmark MQUAKE), as well as a new benchmark MQA-AEVAL for rigorous performance evaluation of MQA under KE for Arabic language. Experimentation evaluation reveals MQA-KEAL outperforms the baseline models by a significant margin.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのアプリケーションドメインにまたがる重要な機能を示している。
重要な課題は、これらのモデルを最新の利用可能な情報で更新し続けることである。
しかし、LLMs Knowledge Editing (KE)、すなわち、LLMsの事前の知識を編集し、Multi-hop Question Answering (MQA)を介してそれをテストしようとする試みは数多くあるが、これらの研究は主に英語に焦点を当てている。
このギャップを埋めるために、本稿では、アラビア語の知識編集におけるマルチホップ質問回答(MQA-KEAL)を提案する。
MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。
マルチホップ問題を解くために、まずタスク分解を用いて、より小さなサブプロブレムに分解する。
その後、各サブプロブレムに対して、最終応答を生成するために、外部メモリおよび/またはターゲットLDMを反復的にクエリする。
さらに, MQUAKE-AR(英語ベンチマークMQUAKEのアラビア語翻訳)や, KE による MQA の厳密な性能評価のための MQA-AEVAL も提案する。
実験の結果、MQA-KEALはベースラインモデルよりも大きなマージンで優れていることが判明した。
関連論文リスト
- Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Multi-hop Question Answering under Temporal Knowledge Editing [9.356343796845662]
知識編集(KE)におけるマルチホップ質問応答(MQA)は,大規模言語モデルの時代において大きな注目を集めている。
KEの下でのMQAの既存のモデルは、明示的な時間的コンテキストを含む質問を扱う場合、パフォーマンスが劣っている。
TEMPoral knowLEdge augmented Multi-hop Question Answering (TEMPLE-MQA) を提案する。
論文 参考訳(メタデータ) (2024-03-30T23:22:51Z) - Retrieval-enhanced Knowledge Editing in Language Models for Multi-Hop Question Answering [47.199078631274745]
大規模言語モデル(LLM)は質問応答タスクの習熟度を示しているが、しばしばリアルタイム知識の統合に苦慮している。
マルチホップ質問応答のためのRetrieval-Augmented Model Editing (RAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T17:47:19Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - PokeMQA: Programmable knowledge editing for Multi-hop Question Answering [46.80110170981976]
マルチホップ質問応答(MQA)は、マシンの理解と推論能力を評価する上で難しいタスクの1つである。
マルチホップ質問回答(MQA)のためのフレームワーク、Programmable Knowledge Editorを提案する。
具体的には、LLMの動作を外部のコンフリクト信号に応じて変調する訓練可能なスコープ検出器と相互作用しながら、知識強化されたマルチホップ質問を分解するよう促す。
論文 参考訳(メタデータ) (2023-12-23T08:32:13Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions [75.21713251369225]
編集されたモデルが正しい解答を行うかどうかを評価するマルチホップ質問を含むベンチマークMQuAKEを提案する。
本稿では,メモリベースのアプローチであるMeLLoを提案する。これは,編集された事実に整合した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。
論文 参考訳(メタデータ) (2023-05-24T06:48:41Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。