Fugu-MT 論文翻訳(概要): Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

論文の概要: Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

arxiv url: http://arxiv.org/abs/2602.19217v1
Date: Sun, 22 Feb 2026 14:59:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.536295
Title: Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing
Title（参考訳）: カメラ以外の質問:リモートセンシングのための視覚的質問生成における常識知識の統合
Authors: Siran Li, Li Mi, Javiera Castillo-Navarro, Devis Tuia,
Abstract要約: 知識認識型リモートセンシング視覚質問生成モデル(KRSVQG)を提案する。提案モデルでは,外部知識源からの知識三重項を組み込んで質問内容を広げる。 KRSVQGは、ビジョン言語による事前学習と微調整の戦略を利用して、低データ体制へのモデルの適応を可能にする。
参考スコア（独自算出の注目度）: 18.383561647568502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of remote sensing image archives, asking questions about images has become an effective way of gathering specific information or performing semantic image retrieval. However, current automatically generated questions tend to be simplistic and template-based, which hinders the deployment of question answering or visual dialogue systems for real-world applications. To enrich and diversify the questions with both image content and commonsense knowledge, we propose a Knowledge-aware Remote Sensing Visual Question Generation model (KRSVQG). The proposed model incorporates related knowledge triplets from external knowledge sources to broaden the question content, while employing image captioning as an intermediary representation to ground questions to the corresponding images. Moreover, KRSVQG utilizes a vision-language pre-training and fine-tuning strategy, enabling the model's adaptation to low data regimes. To evaluate the proposed KRSVQG model, we construct two knowledge-aware remote sensing visual question generation datasets: the NWPU-300 dataset and the TextRS-300 dataset. Evaluations, including metrics and human assessment, demonstrate that KRSVQG outperforms existing methods and leads to rich questions, grounded in both image and domain knowledge. As a key practice in vision-language research, knowledge-aware visual question generation advances the understanding of image content beyond pixels, facilitating the development of knowledge-enriched vision-language systems with vision-grounded human commonsense.
Abstract（参考訳）: リモートセンシング画像アーカイブの急速な発展に伴い、画像に関する質問は、特定の情報を収集したり、意味的な画像検索を行うための効果的な方法となっている。しかし、現在自動生成されている質問は単純化されテンプレートベースになりがちであり、現実のアプリケーションに対する質問応答や視覚対話システムの展開を妨げている。画像内容とコモンセンス知識の両方で質問を豊かかつ多角化するために,知識を意識したリモートセンシング視覚質問生成モデル(KRSVQG)を提案する。提案モデルでは,外部知識源からの知識三重項を組み込んで質問内容の拡大を図り,画像キャプションを中間表現として使用し,対応する画像に対して質問を下書きする。さらに、KRSVQGはビジョン言語による事前学習と微調整の戦略を利用して、低データレギュレータへのモデル適応を可能にする。提案したKRSVQGモデルを評価するために,NWPU-300データセットとTextRS-300データセットの2つの知識を考慮した視覚的質問生成データセットを構築した。メトリクスや人的評価を含む評価は、KRSVQGが既存の手法より優れており、画像とドメインの知識の両方に根ざした豊富な疑問をもたらすことを示している。視覚言語研究における重要な実践として、知識を意識した視覚的質問生成は、画像の内容がピクセルを超えて理解されるようになり、視覚を基盤とした人間の常識を持つ知識に富んだ視覚言語システムの開発が促進される。

関連論文リスト

Knowledge-aware Visual Question Generation for Remote Sensing Images [18.383561647568502]
知識認識型リモートセンシング視覚質問生成モデルKRSVQGを提案する。このモデルは、外部の知識ソースから3倍のイメージと関連する知識を入力として取り出す。 2つのデータセットの結果は、KRSVQGが既存の手法より優れていることを示している。
論文参考訳（メタデータ） (2026-02-22T15:18:01Z)
RS-RAG: Bridging Remote Sensing Imagery and Comprehensive Knowledge with a Multi-Modal Dataset and Retrieval-Augmented Generation Model [16.343935641777268]
本稿では,2つの重要なコンポーネントから構成される新しいリモートセンシング検索・拡張生成(RS-RAG)フレームワークを提案する。 RS-RAGフレームワークは、画像および/またはテキストクエリに基づいて関連する知識を検索し、検索したコンテンツを知識拡張プロンプトに組み込む。我々は,画像キャプション,画像分類,視覚質問応答など3つの視覚言語課題に対するアプローチの有効性を検証した。
論文参考訳（メタデータ） (2025-04-07T12:13:43Z)
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-23T10:33:28Z)
Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文参考訳（メタデータ） (2024-07-06T15:07:32Z)
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.074327344317116]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文参考訳（メタデータ） (2024-01-19T14:22:29Z)
REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文参考訳（メタデータ） (2022-06-02T17:59:56Z)
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文参考訳（メタデータ） (2022-05-23T17:55:34Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)
Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for Knowledge-based Visual Question Answering [18.926582410644375]
知識に基づく視覚的質問応答(VQA)は、エージェントが画像関連の質問に正しく答えることを必要とする視覚言語タスクである。動的知識メモリ強化多段階グラフ推論(DMMGR)という新しいモデルを提案する。我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。
論文参考訳（メタデータ） (2022-03-06T15:19:39Z)
Contextualized Knowledge-aware Attentive Neural Network: Enhancing Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。 KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習するコンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文参考訳（メタデータ） (2021-04-12T05:52:20Z)
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文参考訳（メタデータ） (2020-12-14T00:33:44Z)
Cross-modal Knowledge Reasoning for Knowledge-based Visual Question Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文参考訳（メタデータ） (2020-08-31T23:25:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。