論文の概要: VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images
- arxiv url: http://arxiv.org/abs/2405.03852v1
- Date: Mon, 6 May 2024 20:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 16:07:44.146955
- Title: VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images
- Title(参考訳): VSA4VQA: ベクトル記号型アーキテクチャを自然画像の視覚的質問応答に拡張する
- Authors: Anna Penzkofer, Lei Shi, Andreas Bulling,
- Abstract要約: 視覚質問応答(VQA)のための自然なイメージの心的表現を実装したVSAの4D実装であるVSA4VQAを提案する。
本手法は,超次元ベクトル空間にオブジェクトをエンコードするセマンティックポインタアーキテクチャ(SPA)に基づいている。
提案手法をGQAベンチマークデータセット上で評価し,自然画像のエンコードを効果的に行い,ゼロショットVQAのための最先端のディープラーニング手法と競合する性能が得られることを示す。
- 参考スコア(独自算出の注目度): 10.180115984765582
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While Vector Symbolic Architectures (VSAs) are promising for modelling spatial cognition, their application is currently limited to artificially generated images and simple spatial queries. We propose VSA4VQA - a novel 4D implementation of VSAs that implements a mental representation of natural images for the challenging task of Visual Question Answering (VQA). VSA4VQA is the first model to scale a VSA to complex spatial queries. Our method is based on the Semantic Pointer Architecture (SPA) to encode objects in a hyperdimensional vector space. To encode natural images, we extend the SPA to include dimensions for object's width and height in addition to their spatial location. To perform spatial queries we further introduce learned spatial query masks and integrate a pre-trained vision-language model for answering attribute-related questions. We evaluate our method on the GQA benchmark dataset and show that it can effectively encode natural images, achieving competitive performance to state-of-the-art deep learning methods for zero-shot VQA.
- Abstract(参考訳): ベクトル記号アーキテクチャ(VSAs)は空間認識のモデル化を約束しているが、現在は人工的に生成された画像と単純な空間クエリに限られている。
視覚質問応答(VQA)の課題に対して,自然画像の心的表現を実装したVSAの4D実装であるVSA4VQAを提案する。
VSA4VQAは、VSAを複雑な空間クエリに拡張する最初のモデルである。
本手法は,超次元ベクトル空間にオブジェクトをエンコードするセマンティックポインタアーキテクチャ(SPA)に基づいている。
自然画像をエンコードするために,SPAは空間的位置に加えて,物体の幅と高さの次元を含むように拡張する。
空間問合せを行うために,学習された空間問合せマスクを導入し,属性関連質問に応答するための事前学習された視覚言語モデルを統合する。
提案手法をGQAベンチマークデータセット上で評価し,自然画像のエンコードを効果的に行い,ゼロショットVQAのための最先端のディープラーニング手法と競合する性能が得られることを示す。
関連論文リスト
- Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial
Images [18.075338835513993]
我々は,1024×1024ピクセルと1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。
航空画像に対するVQAモデルの理解能力を評価するため,HRVQAにおける関連手法の評価を行った。
本手法は,従来の最先端手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-01-23T14:36:38Z) - Toward 3D Spatial Reasoning for Human-like Text-based Visual Question
Answering [23.083935053799145]
テキストベースのビジュアル質問回答(TextVQA)は,複数のシーンテキストを用いた画像に関する質問に対して,適切な回答を生成することを目的としている。
我々は,キーオブジェクトの文脈的知識を捉えるために,人間のような空間的推論プロセスに3次元幾何学的情報を導入する。
本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-21T12:49:14Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - SimVQA: Exploring Simulated Environments for Visual Question Answering [15.030013924109118]
視覚空間と言語空間を完全に制御するために,合成コンピュータ生成データを用いて検討する。
我々は、実世界のVQAベンチマークにおける合成データの効果を定量化し、実際のデータに一般化する結果を生成する。
VQAモデルをよりドメイン不変にするために、トレーニング中にオブジェクトレベルの機能をランダムに切り替える機能スワッピング(F-SWAP)を提案する。
論文 参考訳(メタデータ) (2022-03-31T17:44:27Z) - Barlow constrained optimization for Visual Question Answering [105.3372546782068]
本稿では,バーロウ理論(COB)を用いたVQAモデルの新たな正規化,制約付き最適化を提案する。
我々のモデルは、解答と画像+クエストを、本質的に同じ意味情報である2つの異なる視点として考える、解答埋め込み空間と結合空間を整合させる。
最先端のGEモデルに基づく場合、VQAの精度はVQA-CP v2データセットとVQA v2データセットでそれぞれ1.4%向上する。
論文 参考訳(メタデータ) (2022-03-07T21:27:40Z) - SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning [10.810615375345511]
本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。
ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。
実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-04-12T21:37:18Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。