論文の概要: Checkmate: interpretable and explainable RSVQA is the endgame
- arxiv url: http://arxiv.org/abs/2508.13086v1
- Date: Mon, 18 Aug 2025 16:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.49416
- Title: Checkmate: interpretable and explainable RSVQA is the endgame
- Title(参考訳): Checkmate: 解釈可能で説明可能なRSVQAはゲーム終了
- Authors: Lucrezia Tosato, Christel Tartini Chappuis, Syrielle Montariol, Flora Weissgerber, Sylvain Lobry, Devis Tuia,
- Abstract要約: 3'123'253質問を通じてバイアスを最小限に抑えるために,新しいRSVQAデータセットであるChessboardを導入する。
各回答は画像内の1つ以上の細胞にリンクされ、きめ細かい視覚的推論を可能にする。
そこで我々は,その決定に最も関係のある画像セルを識別する,Checkmateと呼ばれる説明可能な,解釈可能なモデルを開発した。
- 参考スコア(独自算出の注目度): 5.445304535169411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Visual Question Answering (RSVQA) presents unique challenges in ensuring that model decisions are both understandable and grounded in visual content. Current models often suffer from a lack of interpretability and explainability, as well as from biases in dataset distributions that lead to shortcut learning. In this work, we tackle these issues by introducing a novel RSVQA dataset, Chessboard, designed to minimize biases through 3'123'253 questions and a balanced answer distribution. Each answer is linked to one or more cells within the image, enabling fine-grained visual reasoning. Building on this dataset, we develop an explainable and interpretable model called Checkmate that identifies the image cells most relevant to its decisions. Through extensive experiments across multiple model architectures, we show that our approach improves transparency and supports more trustworthy decision-making in RSVQA systems.
- Abstract(参考訳): リモートセンシング ビジュアル質問回答(RSVQA)は、モデル決定が理解可能であり、ビジュアルコンテンツに基礎を置いていることを保証するという、ユニークな課題を提示します。
現在のモデルは、解釈可能性と説明可能性の欠如や、ショートカット学習につながるデータセット分布のバイアスに悩まされることが多い。
本研究では,3'123'253質問とバランスの取れた回答分布を通じてバイアスを最小限に抑えるために,新しいRSVQAデータセットであるChessboardを導入することで,これらの課題に対処する。
各回答は画像内の1つ以上の細胞にリンクされ、きめ細かい視覚的推論を可能にする。
このデータセットに基づいて、我々はCheckmateと呼ばれる説明可能な解釈可能なモデルを構築し、その決定に最も関係のある画像セルを識別する。
複数のモデルアーキテクチャにわたる広範な実験を通じて、我々のアプローチは透明性を改善し、RSVQAシステムにおいてより信頼性の高い意思決定をサポートすることを示す。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。