論文の概要: Question: How do Large Language Models perform on the Question Answering tasks? Answer:
- arxiv url: http://arxiv.org/abs/2412.12893v1
- Date: Tue, 17 Dec 2024 13:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:29.060604
- Title: Question: How do Large Language Models perform on the Question Answering tasks? Answer:
- Title(参考訳): 質問:大規模言語モデルは質問応答タスクでどのように機能するか?
- Authors: Kevin Fischer, Darren Fürst, Sebastian Steindl, Jakob Lindner, Ulrich Schäfer,
- Abstract要約: 大型言語モデル(LLM)は、少数ショットまたはゼロショットプロンプト技術を用いることで、これらのタスクを明示的にトレーニングする必要なしに、様々なNLPタスクに対して有望な結果を示している。
スタンフォード質問回答データセット 2.0 (SQuAD2) 上で、小型の微調整モデルとアウト・オブ・ザ・ボックスの命令追従 LLM の総合的な性能比較を提案する。
以上の結果から, より小型で細調整されたモデルでは, 細調整されたタスクにおいて, 現状のSOTA(State-Of-The-Art) LLMよりも優れていることがわかったが, 最新のSOTAモデルでは, このギャップを埋めることができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have been showing promising results for various NLP-tasks without the explicit need to be trained for these tasks by using few-shot or zero-shot prompting techniques. A common NLP-task is question-answering (QA). In this study, we propose a comprehensive performance comparison between smaller fine-tuned models and out-of-the-box instruction-following LLMs on the Stanford Question Answering Dataset 2.0 (SQuAD2), specifically when using a single-inference prompting technique. Since the dataset contains unanswerable questions, previous work used a double inference method. We propose a prompting style which aims to elicit the same ability without the need for double inference, saving compute time and resources. Furthermore, we investigate their generalization capabilities by comparing their performance on similar but different QA datasets, without fine-tuning neither model, emulating real-world uses where the context and questions asked may differ from the original training distribution, for example swapping Wikipedia for news articles. Our results show that smaller, fine-tuned models outperform current State-Of-The-Art (SOTA) LLMs on the fine-tuned task, but recent SOTA models are able to close this gap on the out-of-distribution test and even outperform the fine-tuned models on 3 of the 5 tested QA datasets.
- Abstract(参考訳): 大型言語モデル(LLM)は、少数ショットまたはゼロショットプロンプト技術を用いることで、これらのタスクを明示的にトレーニングする必要なしに、様々なNLPタスクに対して有望な結果を示している。
一般的なNLPタスクはQA(QA)である。
本研究では,SQuAD2(Stanford Question Answering Dataset 2.0)において,小型の微調整モデルとアウト・オブ・ザ・ボックスの命令追従LLMの総合的な性能比較を行った。
データセットには解決不可能な質問が含まれているため、以前の作業では二重推論手法を使用していた。
計算時間と資源を節約し、二重推論を必要とせず、同じ能力を引き出すプロンプト方式を提案する。
さらに、類似の異なるQAデータセットの性能を比較することで、どちらのモデルも微調整せず、質問されたコンテキストや質問が、例えばWikipediaをニュース記事に置き換えるなど、元のトレーニングディストリビューションと異なる可能性がある実世界のユースケースをエミュレートすることで、それらの一般化能力を検証した。
以上の結果から, 細粒度モデルでは, 細粒度モデルでは現状の State-Of-The-Art (SOTA) LLM よりも優れていたが, 最新のSOTAモデルでは, 分布外試験におけるギャップを埋めることができ, また, 5つのテストされたQAデータセットのうち3つでは細粒度モデルよりも優れていた。
関連論文リスト
- One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering [31.025439143093585]
VLM(Vision-Language Models)は、Webスケールのマルチモーダルデータセットを活用することで、VQA(Visual Question Answering)タスクにおいて大きな可能性を秘めている。
これらのモデルは、新しいタスクに適応する際に破滅的な忘れ物のために、継続的な学習に苦しむことが多い。
本稿では,外部モデルに頼るのではなく,VLMの言語生成能力を活用した最初のデータフリー手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T16:04:59Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。