論文の概要: LiT-4-RSVQA: Lightweight Transformer-based Visual Question Answering in
Remote Sensing
- arxiv url: http://arxiv.org/abs/2306.00758v2
- Date: Fri, 2 Jun 2023 08:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 11:13:48.813609
- Title: LiT-4-RSVQA: Lightweight Transformer-based Visual Question Answering in
Remote Sensing
- Title(参考訳): LiT-4-RSVQA:軽量トランスフォーマーを用いたリモートセンシングにおける視覚質問応答
- Authors: Leonard Hackel (1,3), Kai Norman Clasen (1), Mahdyar Ravanbakhsh (2),
Beg\"um Demir (1,3) ((1) Technische Universit\"at Berlin, (2) Zalando SE
Berlin, (3) Berlin Institute for the Foundations of Learning and Data)
- Abstract要約: RS(LiT-4-RSVQA)アーキテクチャにおいて、効率的な軽量トランスフォーマーベースのVQAを提案する。
提案したLiT-4-RSVQAアーキテクチャは,VQAの精度を向上するとともに,ハードウェアの計算要求を大幅に低減する。
- 参考スコア(独自算出の注目度): 1.462730735143614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) methods in remote sensing (RS) aim to answer
natural language questions with respect to an RS image. Most of the existing
methods require a large amount of computational resources, which limits their
application in operational scenarios in RS. To address this issue, in this
paper we present an effective lightweight transformer-based VQA in RS
(LiT-4-RSVQA) architecture for efficient and accurate VQA in RS. Our
architecture consists of: i) a lightweight text encoder module; ii) a
lightweight image encoder module; iii) a fusion module; and iv) a
classification module. The experimental results obtained on a VQA benchmark
dataset demonstrate that our proposed LiT-4-RSVQA architecture provides
accurate VQA results while significantly reducing the computational
requirements on the executing hardware. Our code is publicly available at
https://git.tu-berlin.de/rsim/lit4rsvqa.
- Abstract(参考訳): リモートセンシング(rs)におけるvqa(visual question answering)メソッドは、rs画像に対して自然言語質問に答えることを目的としている。
既存の手法の多くは大量の計算資源を必要としており、RSの運用シナリオでの応用を制限する。
そこで本稿では, RS における効率よく正確な VQA を実現するために, RS (LiT-4-RSVQA) アーキテクチャにおいて, 効率的な軽量トランスフォーマーベースの VQA を提案する。
私たちのアーキテクチャは
一 軽量テキストエンコーダモジュール
二 軽量画像エンコーダモジュール
三 融合モジュール、及び
iv) 分類モジュール。
提案したLiT-4-RSVQAアーキテクチャは,VQAの精度を向上するとともに,ハードウェアの計算要求を大幅に低減する。
私たちのコードはhttps://git.tu-berlin.de/rsim/lit4rsvqaで公開しています。
関連論文リスト
- Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering [12.399738382728653]
視覚的質問応答(VQA)とは、視覚的な入力に基づいて、自然言語の質問に対して正確な回答を提供するタスクである。
本稿ではPVQAモデルのための新しいプロンプトフレームワークであるPraamidCoderを紹介する。
我々の手法は最先端のPVQAモデルと比較して、GQAデータセットで少なくとも0.5%、VQAv2データセットで1.4%、NLVR2データセットで2.9%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-30T05:36:43Z) - VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images [10.180115984765582]
視覚質問応答(VQA)のための自然なイメージの心的表現を実装したVSAの4D実装であるVSA4VQAを提案する。
本手法は,超次元ベクトル空間にオブジェクトをエンコードするセマンティックポインタアーキテクチャ(SPA)に基づいている。
提案手法をGQAベンチマークデータセット上で評価し,自然画像のエンコードを効果的に行い,ゼロショットVQAのための最先端のディープラーニング手法と競合する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-06T20:59:45Z) - VQA4CIR: Boosting Composed Image Retrieval with Visual Question
Answering [68.47402250389685]
この作業は、CIRのパフォーマンスを高めるために、Visual Question Answering(VQA)の視点を提供する。
結果として生じるVQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。
実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T15:56:08Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Q-DETR: An Efficient Low-Bit Quantized Detection Transformer [50.00784028552792]
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。
情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。
本研究では,教師情報を蒸留所要の機能に効果的に転送し,条件情報エントロピーを最小化する,フォアグラウンド対応クエリマッチング手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:05:14Z) - Multi-Modal Fusion Transformer for Visual Question Answering in Remote
Sensing [1.491109220586182]
VQAは、ユーザがRS画像の内容に関する自由形式の質問を定式化し、ジェネリック情報を抽出することを可能にする。
現在の融合アプローチの多くは、合同表現学習の代わりに、その融合加群におけるモダリティ固有の表現を使用する。
この問題を解決するために,マルチモーダルトランスを用いたアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T09:20:33Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。
CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。
パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2022-07-21T07:50:50Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。