論文の概要: SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2104.05832v1
- Date: Mon, 12 Apr 2021 21:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:48:13.061449
- Title: SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning
- Title(参考訳): SpartQA : 空間推論のためのテキスト質問回答ベンチマーク
- Authors: Roshanak Mirzaee, Hossein Rajaby Faghihi, Qiang Ning, Parisa
Kordjmashidi
- Abstract要約: 本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。
ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。
実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 10.810615375345511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a question-answering (QA) benchmark for spatial reasoning
on natural language text which contains more realistic spatial phenomena not
covered by prior work and is challenging for state-of-the-art language models
(LM). We propose a distant supervision method to improve on this task.
Specifically, we design grammar and reasoning rules to automatically generate a
spatial description of visual scenes and corresponding QA pairs. Experiments
show that further pretraining LMs on these automatically generated data
significantly improves LMs' capability on spatial understanding, which in turn
helps to better solve two external datasets, bAbI, and boolQ. We hope that this
work can foster investigations into more sophisticated models for spatial
reasoning over text.
- Abstract(参考訳): 本稿では,従来の作業でカバーされていないより現実的な空間現象を含む自然言語テキスト上での空間推論のための質問応答(QA)ベンチマークを提案する。
我々は,この課題を改善するための遠隔監視手法を提案する。
具体的には、視覚シーンと対応するQAペアの空間的記述を自動的に生成する文法と推論ルールを設計する。
実験により、これらの自動生成データに対するさらなる事前学習は、空間的理解におけるLMの能力を大幅に向上することを示し、それによって2つの外部データセットであるbAbIとboolQの解決に役立ちます。
この研究が、テキストによる空間的推論のためのより洗練されたモデルの調査を促進することを願っている。
関連論文リスト
- Large Vision-Language Models for Remote Sensing Visual Question Answering [0.0]
リモートセンシング視覚質問回答(RSVQA)は、複雑な衛星画像の自然言語質問への答えを解釈する難しいタスクである。
伝統的なアプローチは、しばしば別々の視覚特徴抽出器と言語処理モデルに依存しており、計算集約的で、オープンエンドの質問を扱う能力に制限がある。
RSVQAプロセスの合理化にLVLM(Large Vision-Language Model)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-16T18:32:38Z) - IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization [59.06663981902496]
クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。
本稿では,LLMを用いたQFSモデル,Longthy Document Summarization,およびクエリ-LLMアライメントの2つの重要な特徴について検討する。
これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。
論文 参考訳(メタデータ) (2024-07-15T07:14:56Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - How Can Large Language Models Understand Spatial-Temporal Data? [12.968952073740796]
本稿では,時空間予測に大規模言語モデルを活用する革新的なアプローチSTG-LLMを紹介する。
1 STG-Tokenizer: この空間時間グラフトークンは、複雑なグラフデータを、空間的および時間的関係の両方を捉える簡潔なトークンに変換する; 2) STG-Adapter: 線形符号化層と復号層からなるこの最小限のアダプタは、トークン化されたデータとLCMの理解のギャップを埋める。
論文 参考訳(メタデータ) (2024-01-25T14:03:15Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Toward 3D Spatial Reasoning for Human-like Text-based Visual Question
Answering [23.083935053799145]
テキストベースのビジュアル質問回答(TextVQA)は,複数のシーンテキストを用いた画像に関する質問に対して,適切な回答を生成することを目的としている。
我々は,キーオブジェクトの文脈的知識を捉えるために,人間のような空間的推論プロセスに3次元幾何学的情報を導入する。
本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-21T12:49:14Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Robust and Interpretable Grounding of Spatial References with Relation
Networks [40.42540299023808]
自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。
近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。
我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
論文 参考訳(メタデータ) (2020-05-02T04:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。