論文の概要: ReasonCD: A Multimodal Reasoning Large Model for Implicit Change-of-Interest Semantic Mining
- arxiv url: http://arxiv.org/abs/2512.19354v1
- Date: Mon, 22 Dec 2025 12:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.756903
- Title: ReasonCD: A Multimodal Reasoning Large Model for Implicit Change-of-Interest Semantic Mining
- Title(参考訳): ReasonCD: インシデント・オブ・インシデント・セマンティックマイニングのためのマルチモーダル推論大モデル
- Authors: Zhenyang Huang, Xiao Yu, Yi Zhang, Decheng Wang, Hang Ruan,
- Abstract要約: ユーザのCRoIを検出するためにセマンティックガイダンスを使用する方法は、CRoIの明示的なテキスト記述に依存している。
本稿では,ユーザの暗黙的なタスク意図をマイニング可能なマルチモーダル推論変更検出モデルReasonCDを提案する。
実験結果から,ReasonCDモデルは基本的な推論に基づく変化検出タスクに優れるだけでなく,人間の意思決定を支援するための推論プロセスも説明できることがわかった。
- 参考スコア(独自算出の注目度): 8.920164654015808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing image change detection is one of the fundamental tasks in remote sensing intelligent interpretation. Its core objective is to identify changes within change regions of interest (CRoI). Current multimodal large models encode rich human semantic knowledge, which is utilized for guidance in tasks such as remote sensing change detection. However, existing methods that use semantic guidance for detecting users' CRoI overly rely on explicit textual descriptions of CRoI, leading to the problem of near-complete performance failure when presented with implicit CRoI textual descriptions. This paper proposes a multimodal reasoning change detection model named ReasonCD, capable of mining users' implicit task intent. The model leverages the powerful reasoning capabilities of pre-trained large language models to mine users' implicit task intents and subsequently obtains different change detection results based on these intents. Experiments on public datasets demonstrate that the model achieves excellent change detection performance, with an F1 score of 92.1\% on the BCDD dataset. Furthermore, to validate its superior reasoning functionality, this paper annotates a subset of reasoning data based on the SECOND dataset. Experimental results show that the model not only excels at basic reasoning-based change detection tasks but can also explain the reasoning process to aid human decision-making.
- Abstract(参考訳): リモートセンシング画像変化検出は、リモートセンシングインテリジェンスにおける基本的な課題の1つである。
その中核となる目的は、関心の変化領域(CRoI)における変化を特定することである。
現在のマルチモーダル大モデルは、リモートセンシング変化検出などのタスクのガイダンスに使用される、豊富な人間の意味知識を符号化している。
しかし、ユーザのCRoIを検出するために意味的ガイダンスを使用する既存の手法では、CRoIの明示的なテキスト記述を過度に頼っているため、暗黙的なCRoIテキスト記述を提示した場合に、ほぼ完全なパフォーマンス障害が発生する。
本稿では,ユーザの暗黙的なタスク意図をマイニング可能なマルチモーダル推論変更検出モデルReasonCDを提案する。
このモデルは、訓練済みの大規模言語モデルの強力な推論能力を利用して、ユーザの暗黙のタスク意図をマイニングし、その後、これらの意図に基づいて異なる変更検出結果を得る。
公開データセットの実験では、BCDDデータセットのF1スコア92.1\%で、モデルが優れた変更検出性能を達成することが示されている。
さらに、その優れた推論機能を検証するために、SECONDデータセットに基づいた推論データのサブセットを注釈付けする。
実験結果から,本モデルは基本的推論に基づく変化検出タスクに優れるだけでなく,人間による意思決定を支援するための推論プロセスも説明できることがわかった。
関連論文リスト
- Adaptation Method for Misinformation Identification [8.581136866856255]
マルチモーダルフェイクニュース検出のためのアクティブドメイン適応(ADA)フレームワークであるADOSEを提案する。
ADOSEは、検出性能を改善するために、ターゲットサンプルの小さなサブセットを積極的に注釈付けする。
ADOSEは既存のADAメソッドを2.72%$sim$ 14.02%で上回り、我々のモデルの優位性を示している。
論文 参考訳(メタデータ) (2025-04-19T04:18:32Z) - Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。
人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文 参考訳(メタデータ) (2024-12-22T08:27:15Z) - Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Align, Perturb and Decouple: Toward Better Leverage of Difference
Information for RSI Change Detection [24.249552791014644]
変化検出は、リモートセンシング画像(RSI)解析において広く採用されている手法である。
そこで我々は,アライメント,摂動,デカップリングといった差分情報を完全に活用するための一連の操作を提案する。
論文 参考訳(メタデータ) (2023-05-30T03:39:53Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z) - DASNet: Dual attentive fully convolutional siamese networks for change
detection of high resolution satellite images [17.839181739760676]
研究の目的は、関心の変化情報を識別し、無関係な変更情報を干渉要因としてフィルタリングすることである。
近年、ディープラーニングの台頭により、変化検出のための新しいツールが提供され、目覚ましい結果が得られた。
我々は,高解像度画像における変化検出のための新しい手法,すなわち,二重注意型完全畳み込みシームズネットワーク(DASNet)を提案する。
論文 参考訳(メタデータ) (2020-03-07T16:57:10Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。