論文の概要: From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data
- arxiv url: http://arxiv.org/abs/2205.03147v1
- Date: Fri, 6 May 2022 11:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:23:58.013225
- Title: From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data
- Title(参考訳): 簡単からハードへ:遠隔センシングデータに基づく視覚質問応答のための言語指導カリキュラムの学習
- Authors: Zhenghang Yuan, Lichao Mou, Qi Wang, and Xiao Xiang Zhu
- Abstract要約: リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
- 参考スコア(独自算出の注目度): 27.160303686163164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) for remote sensing scene has great potential
in intelligent human-computer interaction system. Although VQA in computer
vision has been widely researched, VQA for remote sensing data (RSVQA) is still
in its infancy. There are two characteristics that need to be specially
considered for the RSVQA task. 1) No object annotations are available in RSVQA
datasets, which makes it difficult for models to exploit informative region
representation; 2) There are questions with clearly different difficulty levels
for each image in the RSVQA task. Directly training a model with questions in a
random order may confuse the model and limit the performance. To address these
two problems, in this paper, a multi-level visual feature learning method is
proposed to jointly extract language-guided holistic and regional image
features. Besides, a self-paced curriculum learning (SPCL)-based VQA model is
developed to train networks with samples in an easy-to-hard way. To be more
specific, a language-guided SPCL method with a soft weighting strategy is
explored in this work. The proposed model is evaluated on three public
datasets, and extensive experimental results show that the proposed RSVQA
framework can achieve promising performance.
- Abstract(参考訳): リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
コンピュータビジョンのVQAは広く研究されているが、リモートセンシングデータ(RSVQA)のVQAはまだ初期段階である。
RSVQAタスクには,特に考慮すべき特徴が2つある。
1) RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
2) rsvqaタスクでは,画像毎に難易度が明確に異なる質問が存在する。
ランダムな順序の質問でモデルを直接トレーニングすると、モデルが混乱し、パフォーマンスが制限される可能性がある。
本稿では,これら2つの問題に対処するため,言語誘導型全体像と地域像を共同抽出する多段階視覚特徴学習手法を提案する。
さらに, 自己評価型カリキュラム学習(SPCL)に基づくVQAモデルを開発し, サンプルを用いたネットワークのトレーニングを行う。
より具体的には,ソフトな重み付け戦略を持つ言語誘導型SPCL法について検討した。
提案手法を3つの公開データセットで評価し,その実験結果から提案したRSVQAフレームワークが有望な性能を実現することを示す。
関連論文リスト
- Large Vision-Language Models for Remote Sensing Visual Question Answering [0.0]
リモートセンシング視覚質問回答(RSVQA)は、複雑な衛星画像の自然言語質問への答えを解釈する難しいタスクである。
伝統的なアプローチは、しばしば別々の視覚特徴抽出器と言語処理モデルに依存しており、計算集約的で、オープンエンドの質問を扱う能力に制限がある。
RSVQAプロセスの合理化にLVLM(Large Vision-Language Model)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-16T18:32:38Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Multilingual Augmentation for Robust Visual Question Answering in Remote
Sensing Images [19.99615698375829]
多様な質問テンプレートや単語に対して頑健なRSVQAモデルをトレーニングするための対照的な学習戦略を提案する。
実験の結果,提案手法はRSVQAモデルのロバスト性向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-04-07T21:06:58Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - How to find a good image-text embedding for remote sensing visual
question answering? [41.0510495281302]
視覚的質問応答(VQA)がリモートセンシングに導入され、オーバーヘッド画像から情報を取り出すことが可能になった。
遠隔センシングにおけるVQAの文脈における3つの異なる融合手法について検討し,モデルの複雑さに関する精度の利得を解析した。
論文 参考訳(メタデータ) (2021-09-24T09:48:28Z) - RSVQA: Visual Question Answering for Remote Sensing Data [6.473307489370171]
本稿では,リモートセンシングデータ(RSVQA)における視覚的質問応答の課題を紹介する。
自然言語で定式化された質問を使って画像と対話する。
データセットは(教師付きメソッドを使用して)トレーニングや、RSVQAタスクを解決するためのモデル評価に使用することができる。
論文 参考訳(メタデータ) (2020-03-16T17:09:31Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。