論文の概要: Automatic Question-Answer Generation for Long-Tail Knowledge
- arxiv url: http://arxiv.org/abs/2403.01382v1
- Date: Sun, 3 Mar 2024 03:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:46:53.434745
- Title: Automatic Question-Answer Generation for Long-Tail Knowledge
- Title(参考訳): ロングテール知識のための質問応答自動生成
- Authors: Rohan Kumar, Youngmin Kim, Sunitha Ravi, Haitian Sun, Christos
Faloutsos, Ruslan Salakhutdinov, Minji Yoon
- Abstract要約: テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
- 参考スコア(独自算出の注目度): 65.11554185687258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained Large Language Models (LLMs) have gained significant attention for
addressing open-domain Question Answering (QA). While they exhibit high
accuracy in answering questions related to common knowledge, LLMs encounter
difficulties in learning about uncommon long-tail knowledge (tail entities).
Since manually constructing QA datasets demands substantial human resources,
the types of existing QA datasets are limited, leaving us with a scarcity of
datasets to study the performance of LLMs on tail entities. In this paper, we
propose an automatic approach to generate specialized QA datasets for tail
entities and present the associated research challenges. We conduct extensive
experiments by employing pretrained LLMs on our newly generated long-tail QA
datasets, comparing their performance with and without external resources
including Wikipedia and Wikidata knowledge graphs.
- Abstract(参考訳): 事前訓練された大規模言語モデル (LLM) は、オープンドメイン質問回答 (QA) に対処するために大きな注目を集めている。
共通知識に関する質問に対して高い精度で答える一方で、LLMは珍しいロングテール知識(テールエンティティ)について学ぶのに困難に直面する。
手動でQAデータセットを構築するには、かなりの人的リソースを必要とするため、既存のQAデータセットの種類は限られており、テールエンティティ上でのLLMのパフォーマンスを研究するためのデータセットが不足しています。
本稿では、テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案し、関連する研究課題を示す。
我々は、新たに生成された長尾QAデータセットに事前学習されたLLMを用いて、ウィキペディアやウィキデータ知識グラフを含む外部リソースとの性能を比較し、広範な実験を行う。
関連論文リスト
- DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Long-Tailed Question Answering in an Open World [46.67715607552547]
我々は、Long-Tailed QA (OLTQA) を、長い尾の分散データから学習するものとして定義する。
OLTQAモデルを提案し,頭,尾,目立たないタスク間の知識共有を促進する。
大規模なOLTQAデータセットでは、我々のモデルは一貫して最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-11T04:28:58Z) - Large Language Models Struggle to Learn Long-Tail Knowledge [39.01608375863687]
本研究では,大規模言語モデルが記憶する知識と,Webから抽出した事前学習データセットの情報との関係について検討する。
特に、事実に基づく質問に答える言語モデルの能力は、事前学習中にその質問に関連する文書がいくつ見られたかに関係していることを示す。
論文 参考訳(メタデータ) (2022-11-15T18:49:27Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。