Fugu-MT 論文翻訳(概要): SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning

論文の概要: SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning

arxiv url: http://arxiv.org/abs/2104.05832v1
Date: Mon, 12 Apr 2021 21:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-14 13:48:13.061449
Title: SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning
Title（参考訳）: SpartQA : 空間推論のためのテキスト質問回答ベンチマーク
Authors: Roshanak Mirzaee, Hossein Rajaby Faghihi, Qiang Ning, Parisa Kordjmashidi
Abstract要約: 本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
参考スコア（独自算出の注目度）: 10.810615375345511
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a question-answering (QA) benchmark for spatial reasoning on natural language text which contains more realistic spatial phenomena not covered by prior work and is challenging for state-of-the-art language models (LM). We propose a distant supervision method to improve on this task. Specifically, we design grammar and reasoning rules to automatically generate a spatial description of visual scenes and corresponding QA pairs. Experiments show that further pretraining LMs on these automatically generated data significantly improves LMs' capability on spatial understanding, which in turn helps to better solve two external datasets, bAbI, and boolQ. We hope that this work can foster investigations into more sophisticated models for spatial reasoning over text.
Abstract（参考訳）: 本稿では,従来の作業でカバーされていないより現実的な空間現象を含む自然言語テキスト上での空間推論のための質問応答(QA)ベンチマークを提案する。我々は,この課題を改善するための遠隔監視手法を提案する。具体的には、視覚シーンと対応するQAペアの空間的記述を自動的に生成する文法と推論ルールを設計する。実験により、これらの自動生成データに対するさらなる事前学習は、空間的理解におけるLMの能力を大幅に向上することを示し、それによって2つの外部データセットであるbAbIとboolQの解決に役立ちます。この研究が、テキストによる空間的推論のためのより洗練されたモデルの調査を促進することを願っている。

関連論文リスト

Enhancing Spatial Reasoning through Visual and Textual Thinking [45.0026939683271]
空間的推論タスクは,2次元空間と3次元空間の空間的関係を推論することを目的としている。近年,視覚言語モデル (VLM) は急速に発展してきたが,空間推論の課題に苦戦している。視覚的思考とテキスト思考を同時に行うことによって空間的推論を向上させる手法を提案する。
論文参考訳（メタデータ） (2025-07-28T05:24:54Z)
Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文参考訳（メタデータ） (2025-06-04T07:36:33Z)
SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文参考訳（メタデータ） (2025-06-02T06:58:43Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文参考訳（メタデータ） (2025-03-23T13:18:17Z)
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文参考訳（メタデータ） (2025-03-14T05:06:07Z)
Large Vision-Language Models for Remote Sensing Visual Question Answering [0.0]
リモートセンシング視覚質問回答(RSVQA)は、複雑な衛星画像の自然言語質問への答えを解釈する難しいタスクである。伝統的なアプローチは、しばしば別々の視覚特徴抽出器と言語処理モデルに依存しており、計算集約的で、オープンエンドの質問を扱う能力に制限がある。 RSVQAプロセスの合理化にLVLM(Large Vision-Language Model)を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-16T18:32:38Z)
IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization [59.06663981902496]
クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。本稿では,LLMを用いたQFSモデル,Longthy Document Summarization,およびクエリ-LLMアライメントの2つの重要な特徴について検討する。これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。
論文参考訳（メタデータ） (2024-07-15T07:14:56Z)
Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文参考訳（メタデータ） (2024-07-08T09:03:12Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
How Can Large Language Models Understand Spatial-Temporal Data? [12.968952073740796]
本稿では,時空間予測に大規模言語モデルを活用する革新的なアプローチSTG-LLMを紹介する。 1 STG-Tokenizer: この空間時間グラフトークンは、複雑なグラフデータを、空間的および時間的関係の両方を捉える簡潔なトークンに変換する; 2) STG-Adapter: 線形符号化層と復号層からなるこの最小限のアダプタは、トークン化されたデータとLCMの理解のギャップを埋める。
論文参考訳（メタデータ） (2024-01-25T14:03:15Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文参考訳（メタデータ） (2023-10-16T16:42:01Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering [23.083935053799145]
テキストベースのビジュアル質問回答(TextVQA)は,複数のシーンテキストを用いた画像に関する質問に対して,適切な回答を生成することを目的としている。我々は,キーオブジェクトの文脈的知識を捉えるために,人間のような空間的推論プロセスに3次元幾何学的情報を導入する。本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-09-21T12:49:14Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
Robust and Interpretable Grounding of Spatial References with Relation Networks [40.42540299023808]
自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
論文参考訳（メタデータ） (2020-05-02T04:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。