論文の概要: Researchy Questions: A Dataset of Multi-Perspective, Decompositional
Questions for LLM Web Agents
- arxiv url: http://arxiv.org/abs/2402.17896v1
- Date: Tue, 27 Feb 2024 21:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:04:12.980162
- Title: Researchy Questions: A Dataset of Multi-Perspective, Decompositional
Questions for LLM Web Agents
- Title(参考訳): 研究課題:LLM Webエージェントのための多目的分解質問のデータセット
- Authors: Corby Rosset, Ho-Lam Chung, Guanghui Qin, Ethan C. Chau, Zhuo Feng,
Ahmed Awadallah, Jennifer Neville, Nikhil Rao
- Abstract要約: 我々は,検索エンジンクエリのデータセットであるResearchy Questionsを紹介した。
クリックやセッションの長さといったシグナルによって,これらの質問に多くの労力が費やされていることを,私たちは示しています。
また、サブクエストへの分解のようなスロー思考の解答技術は、直接解答するよりも有益であることを示す。
- 参考スコア(独自算出の注目度): 22.023543164141504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing question answering (QA) datasets are no longer challenging to most
powerful Large Language Models (LLMs). Traditional QA benchmarks like TriviaQA,
NaturalQuestions, ELI5 and HotpotQA mainly study ``known unknowns'' with clear
indications of both what information is missing, and how to find it to answer
the question. Hence, good performance on these benchmarks provides a false
sense of security. A yet unmet need of the NLP community is a bank of
non-factoid, multi-perspective questions involving a great deal of unclear
information needs, i.e. ``unknown uknowns''. We claim we can find such
questions in search engine logs, which is surprising because most
question-intent queries are indeed factoid. We present Researchy Questions, a
dataset of search engine queries tediously filtered to be non-factoid,
``decompositional'' and multi-perspective. We show that users spend a lot of
``effort'' on these questions in terms of signals like clicks and session
length, and that they are also challenging for GPT-4. We also show that ``slow
thinking'' answering techniques, like decomposition into sub-questions shows
benefit over answering directly. We release $\sim$ 100k Researchy Questions,
along with the Clueweb22 URLs that were clicked.
- Abstract(参考訳): 既存の質問応答(QA)データセットは、ほとんどの強力な大規模言語モデル(LLM)にとってもはや困難ではない。
TriviaQA、NaturalQuestions、ELI5、HotpotQAといった従来のQAベンチマークは、主に「未知の未知」について、何が欠けているのか、どのように答えるかを明確に示して研究している。
したがって、これらのベンチマークでの優れたパフォーマンスは、誤ったセキュリティ感覚をもたらします。
NLPコミュニティのまだ未成熟なニーズは、多くの未知の情報要求、すなわち ''未知の未知' を含む、非ファクトイドで多面的な疑問の銀行である。
私たちは、そのような質問は検索エンジンのログで見つけることができると主張している。
本稿では,非ファクト型,`decompositional',マルチパースペクティブな検索クエリのデータセットであるresearchy questionsを提案する。
ユーザがこれらの質問に対してクリックやセッション長などの信号で‘effort’をたくさん使い、また、GPT-4にも挑戦していることを示す。
サブクエストへの分解など,‘スロー思考’の回答テクニックは,直接回答するよりもメリットがあることを示す。
クリックしたClueweb22URLとともに、$\sim$ 100k Researchy Questionsをリリースしました。
関連論文リスト
- Which questions should I answer? Salience Prediction of Inquisitive Questions [118.097974193544]
非常に健全な質問は、同じ記事で経験的に答えられる可能性が高いことを示す。
質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。
論文 参考訳(メタデータ) (2024-04-16T21:33:05Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。