論文の概要: Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies
- arxiv url: http://arxiv.org/abs/2101.02235v1
- Date: Wed, 6 Jan 2021 19:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 02:37:05.507995
- Title: Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies
- Title(参考訳): アリストテレスはラップトップを使ったか?
暗黙的推論戦略を用いた質問応答ベンチマーク
- Authors: Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, Jonathan
Berant
- Abstract要約: StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
- 参考スコア(独自算出の注目度): 78.68534915690404
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A key limitation in current datasets for multi-hop reasoning is that the
required steps for answering the question are mentioned in it explicitly. In
this work, we introduce StrategyQA, a question answering (QA) benchmark where
the required reasoning steps are implicit in the question, and should be
inferred using a strategy. A fundamental challenge in this setup is how to
elicit such creative questions from crowdsourcing workers, while covering a
broad range of potential strategies. We propose a data collection procedure
that combines term-based priming to inspire annotators, careful control over
the annotator population, and adversarial filtering for eliminating reasoning
shortcuts. Moreover, we annotate each question with (1) a decomposition into
reasoning steps for answering it, and (2) Wikipedia paragraphs that contain the
answers to each step. Overall, StrategyQA includes 2,780 examples, each
consisting of a strategy question, its decomposition, and evidence paragraphs.
Analysis shows that questions in StrategyQA are short, topic-diverse, and cover
a wide range of strategies. Empirically, we show that humans perform well (87%)
on this task, while our best baseline reaches an accuracy of $\sim$66%.
- Abstract(参考訳): マルチホップ推論の現在のデータセットにおける重要な制限は、質問に答えるために必要なステップが明示的に記述されていることである。
本研究では,必要な推論ステップが暗黙的であり,戦略を用いて推測されるべきである,質問応答(QA)ベンチマークであるStrategyQAを紹介する。
このセットアップの根本的な課題は、幅広い潜在的な戦略をカバーしながら、クラウドソーシングワーカーからこのような創造的な質問を引き出す方法である。
本稿では,用語ベースのプライミングを組み合わせてアノテータを刺激し,アノテータの個体群を慎重に制御するデータ収集手法を提案する。
さらに,(1) 回答のための推論ステップへの分解,(2) それぞれのステップに対する回答を含むウィキペディアの段落について,各質問に注釈を付ける。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
分析によると、StrategyQAの質問は短く、トピックの多様性があり、幅広い戦略をカバーする。
経験的に、このタスクで人間は良く(87%)、最良のベースラインは$\sim$66%の精度に達する。
関連論文リスト
- Question-Analysis Prompting Improves LLM Performance in Reasoning Tasks [3.741953084205603]
質問分析プロンプティング(QAP)と呼ばれる新しいプロンプト戦略を提案する。
算術データセット GSM8K, AQuA, SAT および常識データセット StrategyQA を用いて, GPT 3.5 Turbo と GPT 4 Turbo でQAPを評価した。
QAPはテストの75%で常にトップ2のプロンプトにランクインしている。
論文 参考訳(メタデータ) (2024-07-04T04:19:50Z) - Paths to Equilibrium in Games [6.812247730094933]
我々は、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす戦略の列について研究する。
我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-03-26T19:58:39Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - On the Evaluation of Answer-Agnostic Paragraph-level Multi-Question
Generation [57.630606799713526]
本研究は,所定の段落から有意な質問の集合を予測するタスクについて,その解答の事前知識を伴わずに検討する。
まず、ハンガリーのアルゴリズムを用いて、提案したペアをスコア付けする前に、予測された質問を参照に割り当てることにより、参照の集合に対して予測された質問の集合を評価する新しい手法を提案する。
第2に,事前学習したseq2seqモデルを用いて,与えられた段落に関連する質問の集合を生成し,選択するための異なる戦略を比較した。
論文 参考訳(メタデータ) (2022-03-09T00:55:54Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - Adaptive Information Seeking for Open-Domain Question Answering [61.39330982757494]
本稿では,オープンドメイン質問応答,すなわちAISOに対する適応型情報探索手法を提案する。
学習方針によると、AISOは適切な検索行動を選択し、各ステップで行方不明の証拠を探すことができる。
AISOは、検索と回答の評価の両方の観点から、事前定義された戦略で全てのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2021-09-14T15:08:13Z) - Coarse-grained decomposition and fine-grained interaction for multi-hop
question answering [5.88731657602706]
多くの複雑なクエリはマルチホップ推論を必要とする。
Bi-DAFは通常、複雑な質問における単語の表面意味論のみをキャプチャする。
マルチホップ回答のための新しいモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-01-15T06:56:34Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。