論文の概要: Visual Question Answering on 360{\deg} Images
- arxiv url: http://arxiv.org/abs/2001.03339v1
- Date: Fri, 10 Jan 2020 08:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:02:50.586488
- Title: Visual Question Answering on 360{\deg} Images
- Title(参考訳): 360{\deg}画像における視覚的質問応答
- Authors: Shih-Han Chou, Wei-Lun Chao, Wei-Sheng Lai, Min Sun, Ming-Hsuan Yang
- Abstract要約: VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
- 参考スコア(独自算出の注目度): 96.00046925811515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce VQA 360, a novel task of visual question answering
on 360 images. Unlike a normal field-of-view image, a 360 image captures the
entire visual content around the optical center of a camera, demanding more
sophisticated spatial understanding and reasoning. To address this problem, we
collect the first VQA 360 dataset, containing around 17,000 real-world
image-question-answer triplets for a variety of question types. We then study
two different VQA models on VQA 360, including one conventional model that
takes an equirectangular image (with intrinsic distortion) as input and one
dedicated model that first projects a 360 image onto cubemaps and subsequently
aggregates the information from multiple spatial resolutions. We demonstrate
that the cubemap-based model with multi-level fusion and attention diffusion
performs favorably against other variants and the equirectangular-based models.
Nevertheless, the gap between the humans' and machines' performance reveals the
need for more advanced VQA 360 algorithms. We, therefore, expect our dataset
and studies to serve as the benchmark for future development in this
challenging task. Dataset, code, and pre-trained models are available online.
- Abstract(参考訳): 本稿では,360 画像上で視覚的質問応答を行う新しいタスクである VQA 360 を紹介する。
通常の視野画像とは異なり、360度画像はカメラの光学中心周辺の視覚コンテンツをキャプチャし、より洗練された空間理解と推論を要求する。
この問題に対処するために、我々はVQA 360の最初のデータセットを収集し、様々な質問タイプのための17,000の現実世界の画像検索用トリプルを含む。
次に,vqa 360上の2つのvqaモデルについて検討した。入力として等角像(内在的歪みを伴う)を取る従来モデルと,まずキューブマップに360画像を投影し,その後に複数の空間分解能から情報を集約する専用モデルである。
マルチレベル融合およびアテンション拡散を伴う立方体マップモデルが他の変種や等方形モデルに対して好適に動作することを示す。
それでも、人間と機械の性能のギャップは、より高度なVQA 360アルゴリズムの必要性を明らかにしている。
したがって、我々のデータセットと研究がこの挑戦的なタスクにおける将来の開発のためのベンチマークになることを期待しています。
データセット、コード、事前訓練されたモデルはオンラインで入手できる。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - ST360IQ: No-Reference Omnidirectional Image Quality Assessment with
Spherical Vision Transformers [17.48330099000856]
ノン参照360画像品質評価法を提案する。
提案手法は,全方位画像の品質と人間の知覚画像品質の相関関係を推定する。
論文 参考訳(メタデータ) (2023-03-13T07:48:46Z) - HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial
Images [18.075338835513993]
我々は,1024×1024ピクセルと1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。
航空画像に対するVQAモデルの理解能力を評価するため,HRVQAにおける関連手法の評価を行った。
本手法は,従来の最先端手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-01-23T14:36:38Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - Blind VQA on 360{\deg} Video via Progressively Learning from Pixels,
Frames and Video [66.57045901742922]
360度ビデオにおけるブラインド視覚品質評価(BVQA)は,没入型マルチメディアシステムの最適化において重要な役割を担っている。
本稿では,球面映像品質に対する人間の知覚の進歩的パラダイムを考察する。
画素,フレーム,ビデオから段階的に学習することで,360度ビデオのための新しいBVQA手法(ProVQA)を提案する。
論文 参考訳(メタデータ) (2021-11-18T03:45:13Z) - Adaptive Hypergraph Convolutional Network for No-Reference 360-degree
Image Quality Assessment [21.23871001977444]
NR 360IQA(No-Reference 360-degree Image Quality Assessment)では,GCN(Graph Convolutional Network)の性能が向上した。
AHGCN と表記される NR 360IQA の適応型ハイパーグラフ畳み込みネットワークを提案する。
提案手法は,最先端の完全参照モデルと非参照IQAモデルに対して明らかな優位性を有する。
論文 参考訳(メタデータ) (2021-05-19T14:02:48Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。