論文の概要: STREET: A Multi-Task Structured Reasoning and Explanation Benchmark
- arxiv url: http://arxiv.org/abs/2302.06729v1
- Date: Mon, 13 Feb 2023 22:34:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 16:56:20.520289
- Title: STREET: A Multi-Task Structured Reasoning and Explanation Benchmark
- Title(参考訳): STREET:マルチタスク構造化推論と説明ベンチマーク
- Authors: Danilo Ribeiro, Shen Wang, Xiaofei Ma, Henry Zhu, Rui Dong, Deguang
Kong, Juliette Burger, Anjelica Ramos, William Wang, Zhiheng Huang, George
Karypis, Bing Xiang, Dan Roth
- Abstract要約: マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
- 参考スコア(独自算出の注目度): 56.555662318619135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce STREET, a unified multi-task and multi-domain natural language
reasoning and explanation benchmark. Unlike most existing question-answering
(QA) datasets, we expect models to not only answer questions, but also produce
step-by-step structured explanations describing how premises in the question
are used to produce intermediate conclusions that can prove the correctness of
a certain answer. We perform extensive evaluation with popular language models
such as few-shot prompting GPT-3 and fine-tuned T5. We find that these models
still lag behind human performance when producing such structured reasoning
steps. We believe this work will provide a way for the community to better
train and test systems on multi-step reasoning and explanations in natural
language.
- Abstract(参考訳): マルチタスクとマルチドメインの自然言語推論と説明ベンチマークであるSTREETを紹介する。
既存のQAデータセットとは異なり、モデルでは質問に答えるだけでなく、ある回答の正しさを証明できる中間的な結論を生成するために、質問の前提がどのように使われているかを記述する、ステップバイステップの構造化された説明が期待されている。
GPT-3や微調整T5などの人気言語モデルを用いて広範に評価を行う。
これらのモデルは、そのような構造化された推論ステップを生成する際に、人間のパフォーマンスに遅れがあることがわかりました。
この取り組みは、自然言語による多段階推論と説明のシステムを、コミュニティがより良く訓練し、テストするための方法を提供すると信じています。
関連論文リスト
- STOC-TOT: Stochastic Tree-of-Thought with Constrained Decoding for Complex Reasoning in Multi-Hop Question Answering [8.525847131940031]
マルチホップ質問応答(MHQA)は、複雑な質問に答えるために複数の通路から情報を検索し統合するモデルを必要とする。
近年のシステムでは、大規模言語モデルのパワーを活用し、証拠検索と推論のプロンプトを統合している。
MHQAの制約付き復号法であるSTOC-TOTを提案する。
論文 参考訳(メタデータ) (2024-07-04T07:17:53Z) - Leveraging Structured Information for Explainable Multi-hop Question
Answering and Reasoning [14.219239732584368]
本研究では,マルチホップ質問応答のための抽出された意味構造(グラフ)の構築と活用について検討する。
実験結果と人的評価の結果から、我々のフレームワークはより忠実な推論連鎖を生成し、2つのベンチマークデータセットのQA性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-07T05:32:39Z) - Explainable Verbal Reasoner Plus (EVR+): A Natural Language Reasoning
Framework that Supports Diverse Compositional Reasoning [41.99368317059466]
本稿では,言語モデルの合成推論能力を高めるための推論フレームワークであるExplainable Verbal Reasoner Plus(EVR+)を提案する。
私たちのフレームワークは、ネストループや異なるタイプの再帰といった、より多様な推論をサポートします。
その結果,5つのタスクにおける言語モデルの合成一般化性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-28T19:27:26Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。
中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。
多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文 参考訳(メタデータ) (2022-10-03T05:33:27Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。