論文の概要: SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2104.05832v1
- Date: Mon, 12 Apr 2021 21:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:48:13.061449
- Title: SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning
- Title(参考訳): SpartQA : 空間推論のためのテキスト質問回答ベンチマーク
- Authors: Roshanak Mirzaee, Hossein Rajaby Faghihi, Qiang Ning, Parisa
Kordjmashidi
- Abstract要約: 本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。
ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。
実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 10.810615375345511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a question-answering (QA) benchmark for spatial reasoning
on natural language text which contains more realistic spatial phenomena not
covered by prior work and is challenging for state-of-the-art language models
(LM). We propose a distant supervision method to improve on this task.
Specifically, we design grammar and reasoning rules to automatically generate a
spatial description of visual scenes and corresponding QA pairs. Experiments
show that further pretraining LMs on these automatically generated data
significantly improves LMs' capability on spatial understanding, which in turn
helps to better solve two external datasets, bAbI, and boolQ. We hope that this
work can foster investigations into more sophisticated models for spatial
reasoning over text.
- Abstract(参考訳): 本稿では,従来の作業でカバーされていないより現実的な空間現象を含む自然言語テキスト上での空間推論のための質問応答(QA)ベンチマークを提案する。
我々は,この課題を改善するための遠隔監視手法を提案する。
具体的には、視覚シーンと対応するQAペアの空間的記述を自動的に生成する文法と推論ルールを設計する。
実験により、これらの自動生成データに対するさらなる事前学習は、空間的理解におけるLMの能力を大幅に向上することを示し、それによって2つの外部データセットであるbAbIとboolQの解決に役立ちます。
この研究が、テキストによる空間的推論のためのより洗練されたモデルの調査を促進することを願っている。
関連論文リスト
- How Can Large Language Models Understand Spatial-Temporal Data? [13.91368776140489]
本稿では,時空間予測に大規模言語モデルを活用する革新的なアプローチSTG-LLMを紹介する。
1 STG-Tokenizer: この空間時間グラフトークンは、複雑なグラフデータを、空間的および時間的関係の両方を捉える簡潔なトークンに変換する; 2) STG-Adapter: 線形符号化層と復号層からなるこの最小限のアダプタは、トークン化されたデータとLCMの理解のギャップを埋める。
論文 参考訳(メタデータ) (2024-01-25T14:03:15Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [98.76021956492697]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft
Reasoning [68.45550068277441]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Transfer Learning with Synthetic Corpora for Spatial Role Labeling and
Reasoning [15.082041039434365]
複数の空間言語処理タスクに2つの新しいデータリソースを提供する。
空間質問応答(SQA)と空間ロールラベリング(SpRL)の伝達学習のために、第1のデータセットを合成する。
第2のデータセットは、SPRLアノテーションを備えた既存のコーパス上に構築された人間生成の質問を備えた現実世界のSQAデータセットである。
論文 参考訳(メタデータ) (2022-10-30T21:23:34Z) - Toward 3D Spatial Reasoning for Human-like Text-based Visual Question
Answering [23.083935053799145]
テキストベースのビジュアル質問回答(TextVQA)は,複数のシーンテキストを用いた画像に関する質問に対して,適切な回答を生成することを目的としている。
我々は,キーオブジェクトの文脈的知識を捉えるために,人間のような空間的推論プロセスに3次元幾何学的情報を導入する。
本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-21T12:49:14Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - StepGame: A New Benchmark for Robust Multi-Hop Spatial Reasoning in
Texts [12.254118455438535]
本稿では,テキストにおけるマルチホップ空間推論のためのSteepGameと呼ばれる質問応答データセットを提案する。
また,空間推論タスクに特化したメモリ拡張ニューラルネットワーク(TP-MANN)を提案する。
論文 参考訳(メタデータ) (2022-04-18T12:46:46Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z) - Robust and Interpretable Grounding of Spatial References with Relation
Networks [40.42540299023808]
自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。
近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。
我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
論文 参考訳(メタデータ) (2020-05-02T04:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。