論文の概要: StepGame: A New Benchmark for Robust Multi-Hop Spatial Reasoning in
Texts
- arxiv url: http://arxiv.org/abs/2204.08292v1
- Date: Mon, 18 Apr 2022 12:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 13:23:17.739937
- Title: StepGame: A New Benchmark for Robust Multi-Hop Spatial Reasoning in
Texts
- Title(参考訳): stepgame:テキスト中のロバストなマルチホップ空間推論のための新しいベンチマーク
- Authors: Zhengxiang Shi, Qiang Zhang, Aldo Lipani
- Abstract要約: 本稿では,テキストにおけるマルチホップ空間推論のためのSteepGameと呼ばれる質問応答データセットを提案する。
また,空間推論タスクに特化したメモリ拡張ニューラルネットワーク(TP-MANN)を提案する。
- 参考スコア(独自算出の注目度): 12.254118455438535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inferring spatial relations in natural language is a crucial ability an
intelligent system should possess. The bAbI dataset tries to capture tasks
relevant to this domain (task 17 and 19). However, these tasks have several
limitations. Most importantly, they are limited to fixed expressions, they are
limited in the number of reasoning steps required to solve them, and they fail
to test the robustness of models to input that contains irrelevant or redundant
information. In this paper, we present a new Question-Answering dataset called
StepGame for robust multi-hop spatial reasoning in texts. Our experiments
demonstrate that state-of-the-art models on the bAbI dataset struggle on the
StepGame dataset. Moreover, we propose a Tensor-Product based Memory-Augmented
Neural Network (TP-MANN) specialized for spatial reasoning tasks. Experimental
results on both datasets show that our model outperforms all the baselines with
superior generalization and robustness performance.
- Abstract(参考訳): 自然言語における空間関係の推測は知的システムが持つべき重要な能力である。
bAbIデータセットは、このドメインに関連するタスク(タスク17と19)をキャプチャしようとします。
しかし、これらのタスクにはいくつかの制限がある。
最も重要なことは、それらは固定表現に限られており、解決に必要な推論ステップの数に制限されており、無関係または冗長な情報を含む入力に対するモデルの堅牢性をテストするのに失敗している。
本稿では,テキストにおけるマルチホップ空間推論のための質問応答データセットStepGameを提案する。
我々の実験は、bAbIデータセット上の最先端モデルがStepGameデータセット上で苦労していることを示しています。
さらに,空間推論タスクに特化したテンソル生成型メモリ拡張ニューラルネットワーク(TP-MANN)を提案する。
両データセットの実験結果から,我々のモデルは,より優れた一般化とロバスト性性能で全てのベースラインを上回ります。
関連論文リスト
- Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning [10.810615375345511]
本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。
ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。
実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-04-12T21:37:18Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。