論文の概要: IFShip: Interpretable Fine-grained Ship Classification with Domain Knowledge-Enhanced Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.06631v2
- Date: Tue, 11 Mar 2025 12:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:39:43.286260
- Title: IFShip: Interpretable Fine-grained Ship Classification with Domain Knowledge-Enhanced Vision-Language Models
- Title(参考訳): IFShip:ドメイン知識強化ビジョンランゲージモデルによる船種分類の解釈
- Authors: Mingning Guo, Mengwei Wu, Yuxiang Shen, Haifeng Li, Chao Tao,
- Abstract要約: 現在、エンドツーエンドの解釈は、リモートセンシングきめ細かい船種分類(RS-FGSC)タスクを支配している。
本稿では,タスク固有の命令追従データセットを半自動構築するドメイン知識強化型CoTプロンプト生成機構を提案する。
IFShip は解釈可能性と分類精度の両方で最先端の FGSC アルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 3.5441557443102174
- License:
- Abstract: End-to-end interpretation currently dominates the remote sensing fine-grained ship classification (RS-FGSC) task. However, the inference process remains uninterpretable, leading to criticisms of these models as "black box" systems. To address this issue, we propose a domain knowledge-enhanced Chain-of-Thought (CoT) prompt generation mechanism, which is used to semi-automatically construct a task-specific instruction-following dataset, TITANIC-FGS. By training on TITANIC-FGS, we adapt general-domain vision-language models (VLMs) to the FGSC task, resulting in a model named IFShip. Building upon IFShip, we develop an FGSC visual chatbot that redefines the FGSC problem as a step-by-step reasoning task and conveys the reasoning process in natural language. Experimental results show that IFShip outperforms state-of-the-art FGSC algorithms in both interpretability and classification accuracy. Furthermore, compared to VLMs such as LLaVA and MiniGPT-4, IFShip demonstrates superior performance on the FGSC task. It provides an accurate chain of reasoning when fine-grained ship types are recognizable to the human eye and offers interpretable explanations when they are not.
- Abstract(参考訳): 現在、エンドツーエンドの解釈は、リモートセンシングきめ細かい船種分類(RS-FGSC)タスクを支配している。
しかし、推論プロセスはいまだ解釈不能であり、これらのモデルが「ブラックボックス」システムとして批判されている。
この問題に対処するために,タスク固有の命令追従データセットTITANIC-FGSを半自動構築するドメイン知識強化型Chain-of-Thought(CoT)プロンプト生成機構を提案する。
TITANIC-FGSのトレーニングにより、一般ドメインビジョン言語モデル(VLM)をFGSCタスクに適用し、IFShipと呼ばれるモデルを作成する。
IFShip上に構築したFGSCビジュアルチャットボットは,FGSC問題をステップバイステップ推論タスクとして再定義し,自然言語による推論処理を行う。
IFShipは,解釈可能性と分類精度の両方において,最先端のFGSCアルゴリズムより優れていることを示す。
さらに、LLaVAやMiniGPT-4のようなVLMと比較して、IFShipはFGSCタスクにおいて優れた性能を示す。
きめ細かい船種が人間の目で認識できる場合の正確な推論の連鎖を提供し、そうでない場合は解釈可能な説明を提供する。
関連論文リスト
- AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - SSF-PAN: Semantic Scene Flow-Based Perception for Autonomous Navigation in Traffic Scenarios [10.303368447554591]
提案したSSF-PANは、LiDARポイントクラウドベースのオブジェクト検出/ローカライゼーションとSLAMの機能を実現することができる。
SUScape-CARLAとKITTIデータセットおよびCARLAシミュレータを用いて検証されている。
実験結果から,提案手法はシーンフロー精度,移動物体検出精度,計算効率,自律走行効率の点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-28T07:15:39Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation [45.40828381049737]
本研究では,視覚言語ナビゲーション(VLN)タスクのための新しい評価フレームワークを提案する。
様々な命令カテゴリの現在のモデルをよりきめ細かいレベルで診断することを目的としている。
フレームワークはタスクの文脈自由文法(CFG)を中心に構成されている。
論文 参考訳(メタデータ) (2024-09-25T19:49:39Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - How could Neural Networks understand Programs? [67.4217527949013]
ソースコードにnlpプリトレーニング技術を直接適用するか、あるいはtheshelfによってモデルに機能を追加するかで、プログラムをより理解するためのモデルを構築するのは難しい。
本研究では,(1)操作セマンティクスの基本操作とよく一致する表現と(2)環境遷移の情報からなる情報から,モデルが学ぶべき新しいプログラムセマンティクス学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T12:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。