論文の概要: Checkmate: interpretable and explainable RSVQA is the endgame
- arxiv url: http://arxiv.org/abs/2508.13086v1
- Date: Mon, 18 Aug 2025 16:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.49416
- Title: Checkmate: interpretable and explainable RSVQA is the endgame
- Title(参考訳): Checkmate: 解釈可能で説明可能なRSVQAはゲーム終了
- Authors: Lucrezia Tosato, Christel Tartini Chappuis, Syrielle Montariol, Flora Weissgerber, Sylvain Lobry, Devis Tuia,
- Abstract要約: 3'123'253質問を通じてバイアスを最小限に抑えるために,新しいRSVQAデータセットであるChessboardを導入する。
各回答は画像内の1つ以上の細胞にリンクされ、きめ細かい視覚的推論を可能にする。
そこで我々は,その決定に最も関係のある画像セルを識別する,Checkmateと呼ばれる説明可能な,解釈可能なモデルを開発した。
- 参考スコア(独自算出の注目度): 5.445304535169411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Visual Question Answering (RSVQA) presents unique challenges in ensuring that model decisions are both understandable and grounded in visual content. Current models often suffer from a lack of interpretability and explainability, as well as from biases in dataset distributions that lead to shortcut learning. In this work, we tackle these issues by introducing a novel RSVQA dataset, Chessboard, designed to minimize biases through 3'123'253 questions and a balanced answer distribution. Each answer is linked to one or more cells within the image, enabling fine-grained visual reasoning. Building on this dataset, we develop an explainable and interpretable model called Checkmate that identifies the image cells most relevant to its decisions. Through extensive experiments across multiple model architectures, we show that our approach improves transparency and supports more trustworthy decision-making in RSVQA systems.
- Abstract(参考訳): リモートセンシング ビジュアル質問回答(RSVQA)は、モデル決定が理解可能であり、ビジュアルコンテンツに基礎を置いていることを保証するという、ユニークな課題を提示します。
現在のモデルは、解釈可能性と説明可能性の欠如や、ショートカット学習につながるデータセット分布のバイアスに悩まされることが多い。
本研究では,3'123'253質問とバランスの取れた回答分布を通じてバイアスを最小限に抑えるために,新しいRSVQAデータセットであるChessboardを導入することで,これらの課題に対処する。
各回答は画像内の1つ以上の細胞にリンクされ、きめ細かい視覚的推論を可能にする。
このデータセットに基づいて、我々はCheckmateと呼ばれる説明可能な解釈可能なモデルを構築し、その決定に最も関係のある画像セルを識別する。
複数のモデルアーキテクチャにわたる広範な実験を通じて、我々のアプローチは透明性を改善し、RSVQAシステムにおいてより信頼性の高い意思決定をサポートすることを示す。
関連論文リスト
- Multimodal Rationales for Explainable Visual Question Answering [12.893224628061516]
VQA(Visual Question Answering)は、画像の内容に関する質問に対する回答を予測するための課題である。
MRVQAと呼ばれる新しいモデルを提案し、予測された回答をサポートするために視覚的およびテキスト的根拠を提供する。
MRVQAは、新たな合理的な生成を通じて、新しい最先端の結果を達成し、モデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-02-06T11:07:05Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Multilingual Augmentation for Robust Visual Question Answering in Remote
Sensing Images [19.99615698375829]
多様な質問テンプレートや単語に対して頑健なRSVQAモデルをトレーニングするための対照的な学習戦略を提案する。
実験の結果,提案手法はRSVQAモデルのロバスト性向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-04-07T21:06:58Z) - Barlow constrained optimization for Visual Question Answering [105.3372546782068]
本稿では,バーロウ理論(COB)を用いたVQAモデルの新たな正規化,制約付き最適化を提案する。
我々のモデルは、解答と画像+クエストを、本質的に同じ意味情報である2つの異なる視点として考える、解答埋め込み空間と結合空間を整合させる。
最先端のGEモデルに基づく場合、VQAの精度はVQA-CP v2データセットとVQA v2データセットでそれぞれ1.4%向上する。
論文 参考訳(メタデータ) (2022-03-07T21:27:40Z) - Select, Substitute, Search: A New Benchmark for Knowledge-Augmented
Visual Question Answering [35.855792706139525]
テキストコーパス、知識グラフ、画像にまたがるマルチモーダルIRは、近年の関心事である。
驚くほど多くのクエリは、クロスモーダル情報を統合する能力を評価しません。
我々は新しいデータセットを構築し、OKVQA,viz., S3における重要な構造イディオムに挑戦する。
論文 参考訳(メタデータ) (2021-03-09T17:19:50Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。