論文の概要: Toward 3D Spatial Reasoning for Human-like Text-based Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2209.10326v1
- Date: Wed, 21 Sep 2022 12:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 17:12:11.971780
- Title: Toward 3D Spatial Reasoning for Human-like Text-based Visual Question
Answering
- Title(参考訳): 人間ライクなテキストに基づく視覚的質問応答のための3次元空間推論
- Authors: Hao Li, Jinfa Huang, Peng Jin, Guoli Song, Qi Wu, Jie Chen
- Abstract要約: テキストベースのビジュアル質問回答(TextVQA)は,複数のシーンテキストを用いた画像に関する質問に対して,適切な回答を生成することを目的としている。
我々は,キーオブジェクトの文脈的知識を捉えるために,人間のような空間的推論プロセスに3次元幾何学的情報を導入する。
本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 23.083935053799145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based Visual Question Answering~(TextVQA) aims to produce correct
answers for given questions about the images with multiple scene texts. In most
cases, the texts naturally attach to the surface of the objects. Therefore,
spatial reasoning between texts and objects is crucial in TextVQA. However,
existing approaches are constrained within 2D spatial information learned from
the input images and rely on transformer-based architectures to reason
implicitly during the fusion process. Under this setting, these 2D spatial
reasoning approaches cannot distinguish the fine-grain spatial relations
between visual objects and scene texts on the same image plane, thereby
impairing the interpretability and performance of TextVQA models. In this
paper, we introduce 3D geometric information into a human-like spatial
reasoning process to capture the contextual knowledge of key objects
step-by-step. %we formulate a human-like spatial reasoning process by
introducing 3D geometric information for capturing key objects' contextual
knowledge. To enhance the model's understanding of 3D spatial relationships,
Specifically, (i)~we propose a relation prediction module for accurately
locating the region of interest of critical objects; (ii)~we design a
depth-aware attention calibration module for calibrating the OCR tokens'
attention according to critical objects. Extensive experiments show that our
method achieves state-of-the-art performance on TextVQA and ST-VQA datasets.
More encouragingly, our model surpasses others by clear margins of 5.7\% and
12.1\% on questions that involve spatial reasoning in TextVQA and ST-VQA valid
split. Besides, we also verify the generalizability of our model on the
text-based image captioning task.
- Abstract(参考訳): テキストベースのVisual Question Answering~(TextVQA)は、複数のシーンテキストによる画像に関する所定の質問に対する正しい回答を作成することを目的としている。
ほとんどの場合、テキストは自然にオブジェクトの表面に取り付けられます。
そのため、テキストとオブジェクト間の空間的推論はTextVQAでは不可欠である。
しかし、既存のアプローチは入力画像から学んだ2次元空間情報内に制約があり、融合過程中に暗黙的に推論するためにトランスフォーマーベースのアーキテクチャに依存している。
このような2次元空間推論手法では、同一画像平面上の視覚物体とシーンテキスト間の微細な空間関係を区別できないため、textvqaモデルの解釈性と性能が損なわれる。
本稿では,人間の空間的推論プロセスに3次元幾何学情報を導入して,重要対象の文脈知識を段階的に捉える。
%は,キーオブジェクトの文脈的知識を捉えるために3次元幾何学的情報を導入することにより,人間のような空間的推論過程を定式化する。
モデルによる3次元空間的関係の理解を高めること。
(i)→重要対象の関心領域を正確に特定するための関係予測モジュールを提案する。
(ii)-我々は,ocrトークンの注目度を臨界物体に応じて校正するための深さ対応注意校正モジュールを設計した。
本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。
さらに,本モデルでは,テキストVQAとST-VQAの有効分割における空間的推論に関わる質問に対して,5.7\%と12.1\%の明確なマージンで他より優れている。
また,テキストベースの画像キャプションタスクにおいて,モデルの一般化可能性を検証する。
関連論文リスト
- Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning [10.810615375345511]
本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。
ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。
実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-04-12T21:37:18Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。