論文の概要: Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering
- arxiv url: http://arxiv.org/abs/2305.13691v2
- Date: Mon, 12 Feb 2024 20:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 20:09:55.222436
- Title: Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering
- Title(参考訳): Open Domain Multi-Hop Question AnsweringのためのFew-Shotデータ合成
- Authors: Mingda Chen, Xilun Chen, Wen-tau Yih
- Abstract要約: オープンドメインのマルチホップ質問応答のためのほとんどショットラーニングは、大言語モデルの非コンテキストラーニング能力に依存している。
そこで本研究では,10組未満のアノテート質問応答対を必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.86455734818704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning for open domain multi-hop question answering typically
relies on the incontext learning capability of large language models (LLMs).
While powerful, these LLMs usually contain tens or hundreds of billions of
parameters, making them rather inefficient at inference time. To improve
performance of smaller language models, we propose a data synthesis framework
for multi-hop question answering that requires less than 10 human annotated
question answer pairs. Our framework depends only on rich, naturally-occurring
relationships among documents and is built upon the data generation functions
parameterized by LLMs and prompts. We synthesize millions of multi-hop
questions and claims to finetune language models, evaluated on popular
benchmarks for multi-hop question answering and fact verification. Empirically,
our approach improves model performance significantly, allowing the finetuned
models to be competitive with GPT-3.5 based approaches while being almost
one-third the size in parameter count.
- Abstract(参考訳): オープンドメインのマルチホップ質問応答のためのほとんどショット学習は、大言語モデル(LLM)の非コンテキスト学習能力に依存している。
強力ではあるが、これらのLSMは通常数十億から数百億のパラメータを含み、推論時にかなり非効率である。
より小さな言語モデルの性能向上のために,10個未満の注釈付き質問応答ペアを必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。
我々のフレームワークは文書間のリッチで自然な関係にのみ依存しており、LLMとプロンプトによってパラメータ化されたデータ生成関数に基づいて構築されている。
我々は、何百万ものマルチホップ質問を合成し、言語モデルを微調整し、マルチホップ質問応答と事実検証のための一般的なベンチマークで評価する。
実験により,本手法はモデル性能を著しく向上させ,パラメータカウントの約3分の1の大きさでGPT-3.5ベースの手法と競合する。
関連論文リスト
- Prompting-based Synthetic Data Generation for Few-Shot Question Answering [23.97949073816028]
大規模言語モデルを用いることで,複数データセットにおける質問応答性能が向上することを示す。
言語モデルには、一般的な事前学習/微調整スキームを超えて使える貴重なタスク非依存の知識が含まれていることを示唆する。
論文 参考訳(メタデータ) (2024-05-15T13:36:43Z) - FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models [37.34801677290571]
FanOutQA(ファンアウトQA)は、ウィキペディアによる高品質な質問応答ペアと人間による注釈付き分解のデータセットである。
GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化します。
論文 参考訳(メタデータ) (2024-02-21T20:30:45Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Self-prompted Chain-of-Thought on Large Language Models for Open-domain
Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。
大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。
高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文 参考訳(メタデータ) (2023-10-20T14:51:10Z) - Multimodal Multi-Hop Question Answering Through a Conversation Between
Tools and Efficiently Finetuned Large Language Models [20.52053559484399]
我々は、複雑なマルチホップ質問に答えるために、ツールと相互作用する分割・クエリ戦略を採用する。
LLMの推論能力を高めるため,チャットGPTにツール間相互作用型分割・クエリーデータセットを生成する。
提案手法の有効性を評価するため,最近導入された2つの複雑な質問応答データセットについて評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:22:22Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。