論文の概要: Investigating Answerability of LLMs for Long-Form Question Answering
- arxiv url: http://arxiv.org/abs/2309.08210v1
- Date: Fri, 15 Sep 2023 07:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:33:36.825126
- Title: Investigating Answerability of LLMs for Long-Form Question Answering
- Title(参考訳): 長文質問応答におけるllmの応答性の検討
- Authors: Meghana Moorthy Bhat, Rui Meng, Ye Liu, Yingbo Zhou and Semih Yavuz
- Abstract要約: 実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
- 参考スコア(独自算出の注目度): 35.41413072729483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As we embark on a new era of LLMs, it becomes increasingly crucial to
understand their capabilities, limitations, and differences. Toward making
further progress in this direction, we strive to build a deeper understanding
of the gaps between massive LLMs (e.g., ChatGPT) and smaller yet effective
open-source LLMs and their distilled counterparts. To this end, we specifically
focus on long-form question answering (LFQA) because it has several practical
and impactful applications (e.g., troubleshooting, customer service, etc.) yet
is still understudied and challenging for LLMs. We propose a
question-generation method from abstractive summaries and show that generating
follow-up questions from summaries of long documents can create a challenging
setting for LLMs to reason and infer from long contexts. Our experimental
results confirm that: (1) our proposed method of generating questions from
abstractive summaries pose a challenging setup for LLMs and shows performance
gaps between LLMs like ChatGPT and open-source LLMs (Alpaca, Llama) (2)
open-source LLMs exhibit decreased reliance on context for generated questions
from the original document, but their generation capabilities drop
significantly on generated questions from summaries -- especially for longer
contexts (>1024 tokens)
- Abstract(参考訳): LLMの新しい時代に乗り出すにつれ、その能力、限界、差異を理解することがますます重要になってきています。
この方向をさらに進めるために,我々は,大規模なllm(chatgptなど)と,小型かつ効率的なオープンソースのllmとその蒸留液とのギャップをより深く理解することに努める。
この目的のために、我々は長文質問応答(LFQA)に特に焦点を合わせています。なぜなら、LLMには実用的で影響力のあるアプリケーション(トラブルシューティング、カスタマーサービスなど)がいくつかあるからですが、まだ検討が進んでおり、挑戦的です。
本稿では,要約要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成すると,llmが長い文脈から推論し推論するための困難な設定となることを示す。
実験結果から,(1)抽象要約から質問を生成する手法は,LCMにとって困難な設定であり,ChatGPTやオープンソースLSM(Alpaca, Llama)のようなLCM間の性能差を示す。(2)オープンソースLSMは,原文書から生成された質問に対する文脈依存度を低下させるが,その生成能力は要約から生成された質問に対して著しく低下する(>1024トークン)。
関連論文リスト
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Blinded by Generated Contexts: How Language Models Merge Generated and
Retrieved Contexts for Open-Domain QA? [47.93015109262758]
本稿では,Large Language Models (LLM) が生成および検索コンテキストをどのように統合するかを検討する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for
Themselves [63.33254282051988]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection
Method [37.61193254658253]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。