Fugu-MT 論文翻訳(概要): Knowledge-aware Visual Question Generation for Remote Sensing Images

論文の概要: Knowledge-aware Visual Question Generation for Remote Sensing Images

arxiv url: http://arxiv.org/abs/2602.19224v1
Date: Sun, 22 Feb 2026 15:18:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.540996
Title: Knowledge-aware Visual Question Generation for Remote Sensing Images
Title（参考訳）: リモートセンシング画像のための知識を考慮した視覚的質問生成
Authors: Siran Li, Li Mi, Javiera Castillo-Navarro, Devis Tuia,
Abstract要約: 知識認識型リモートセンシング視覚質問生成モデルKRSVQGを提案する。このモデルは、外部の知識ソースから3倍のイメージと関連する知識を入力として取り出す。 2つのデータセットの結果は、KRSVQGが既存の手法より優れていることを示している。
参考スコア（独自算出の注目度）: 18.383561647568502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of remote sensing image archives, asking questions about images has become an effective way of gathering specific information or performing image retrieval. However, automatically generated image-based questions tend to be simplistic and template-based, which hinders the real deployment of question answering or visual dialogue systems. To enrich and diversify the questions, we propose a knowledge-aware remote sensing visual question generation model, KRSVQG, that incorporates external knowledge related to the image content to improve the quality and contextual understanding of the generated questions. The model takes an image and a related knowledge triplet from external knowledge sources as inputs and leverages image captioning as an intermediary representation to enhance the image grounding of the generated questions. To assess the performance of KRSVQG, we utilized two datasets that we manually annotated: NWPU-300 and TextRS-300. Results on these two datasets demonstrate that KRSVQG outperforms existing methods and leads to knowledge-enriched questions, grounded in both image and domain knowledge.
Abstract（参考訳）: リモートセンシング画像アーカイブの急速な発展に伴い、画像に関する質問は、特定の情報を収集したり、画像検索を行う効果的な方法となっている。しかし、自動生成された画像ベースの質問は単純化されテンプレートベースになりがちであり、質問応答や視覚対話システムの実際の展開を妨げる。質問の充実と多様化を図るため,画像コンテンツに関連する外部知識を取り入れた知識認識型リモートセンシング視覚質問生成モデルKRSVQGを提案する。モデルは、外部知識源からの画像と関連する知識を入力として取り出し、画像キャプションを中間表現として活用し、生成された質問の画像グラウンド化を強化する。 KRSVQGの性能を評価するために、手動で注釈付けした2つのデータセット、NWPU-300とTextRS-300を利用した。これらの2つのデータセットの結果から、KRSVQGは既存の手法よりも優れており、画像とドメインの知識の両方に根ざした知識に富んだ疑問をもたらすことが示されている。

関連論文リスト

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing [18.383561647568502]
知識認識型リモートセンシング視覚質問生成モデル(KRSVQG)を提案する。提案モデルでは,外部知識源からの知識三重項を組み込んで質問内容を広げる。 KRSVQGは、ビジョン言語による事前学習と微調整の戦略を利用して、低データ体制へのモデルの適応を可能にする。
論文参考訳（メタデータ） (2026-02-22T14:59:00Z)
RS-RAG: Bridging Remote Sensing Imagery and Comprehensive Knowledge with a Multi-Modal Dataset and Retrieval-Augmented Generation Model [16.343935641777268]
本稿では,2つの重要なコンポーネントから構成される新しいリモートセンシング検索・拡張生成(RS-RAG)フレームワークを提案する。 RS-RAGフレームワークは、画像および/またはテキストクエリに基づいて関連する知識を検索し、検索したコンテンツを知識拡張プロンプトに組み込む。我々は,画像キャプション,画像分類,視覚質問応答など3つの視覚言語課題に対するアプローチの有効性を検証した。
論文参考訳（メタデータ） (2025-04-07T12:13:43Z)
Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文参考訳（メタデータ） (2024-07-06T15:07:32Z)
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.074327344317116]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文参考訳（メタデータ） (2024-01-19T14:22:29Z)
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文参考訳（メタデータ） (2022-05-23T17:55:34Z)
K-VQG: Knowledge-aware Visual Question Generation for Common-sense Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文参考訳（メタデータ） (2022-03-15T13:38:10Z)
Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for Knowledge-based Visual Question Answering [18.926582410644375]
知識に基づく視覚的質問応答(VQA)は、エージェントが画像関連の質問に正しく答えることを必要とする視覚言語タスクである。動的知識メモリ強化多段階グラフ推論(DMMGR)という新しいモデルを提案する。我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。
論文参考訳（メタデータ） (2022-03-06T15:19:39Z)
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.639880603821446]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクを数ショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督された状態を超越している。
論文参考訳（メタデータ） (2021-09-10T17:51:06Z)
Contextualized Knowledge-aware Attentive Neural Network: Enhancing Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。 KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習するコンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文参考訳（メタデータ） (2021-04-12T05:52:20Z)
KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。知識表現と推論には2つのタイプがあります。まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文参考訳（メタデータ） (2020-12-20T20:13:02Z)
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文参考訳（メタデータ） (2020-12-14T00:33:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。