論文の概要: IFShip: Interpretable Fine-grained Ship Classification with Domain Knowledge-Enhanced Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.06631v2
- Date: Tue, 11 Mar 2025 12:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.230807
- Title: IFShip: Interpretable Fine-grained Ship Classification with Domain Knowledge-Enhanced Vision-Language Models
- Title(参考訳): IFShip:ドメイン知識強化ビジョンランゲージモデルによる船種分類の解釈
- Authors: Mingning Guo, Mengwei Wu, Yuxiang Shen, Haifeng Li, Chao Tao,
- Abstract要約: 現在、エンドツーエンドの解釈は、リモートセンシングきめ細かい船種分類(RS-FGSC)タスクを支配している。
本稿では,タスク固有の命令追従データセットを半自動構築するドメイン知識強化型CoTプロンプト生成機構を提案する。
IFShip は解釈可能性と分類精度の両方で最先端の FGSC アルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 3.5441557443102174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end interpretation currently dominates the remote sensing fine-grained ship classification (RS-FGSC) task. However, the inference process remains uninterpretable, leading to criticisms of these models as "black box" systems. To address this issue, we propose a domain knowledge-enhanced Chain-of-Thought (CoT) prompt generation mechanism, which is used to semi-automatically construct a task-specific instruction-following dataset, TITANIC-FGS. By training on TITANIC-FGS, we adapt general-domain vision-language models (VLMs) to the FGSC task, resulting in a model named IFShip. Building upon IFShip, we develop an FGSC visual chatbot that redefines the FGSC problem as a step-by-step reasoning task and conveys the reasoning process in natural language. Experimental results show that IFShip outperforms state-of-the-art FGSC algorithms in both interpretability and classification accuracy. Furthermore, compared to VLMs such as LLaVA and MiniGPT-4, IFShip demonstrates superior performance on the FGSC task. It provides an accurate chain of reasoning when fine-grained ship types are recognizable to the human eye and offers interpretable explanations when they are not.
- Abstract(参考訳): 現在、エンドツーエンドの解釈は、リモートセンシングきめ細かい船種分類(RS-FGSC)タスクを支配している。
しかし、推論プロセスはいまだ解釈不能であり、これらのモデルが「ブラックボックス」システムとして批判されている。
この問題に対処するために,タスク固有の命令追従データセットTITANIC-FGSを半自動構築するドメイン知識強化型Chain-of-Thought(CoT)プロンプト生成機構を提案する。
TITANIC-FGSのトレーニングにより、一般ドメインビジョン言語モデル(VLM)をFGSCタスクに適用し、IFShipと呼ばれるモデルを作成する。
IFShip上に構築したFGSCビジュアルチャットボットは,FGSC問題をステップバイステップ推論タスクとして再定義し,自然言語による推論処理を行う。
IFShipは,解釈可能性と分類精度の両方において,最先端のFGSCアルゴリズムより優れていることを示す。
さらに、LLaVAやMiniGPT-4のようなVLMと比較して、IFShipはFGSCタスクにおいて優れた性能を示す。
きめ細かい船種が人間の目で認識できる場合の正確な推論の連鎖を提供し、そうでない場合は解釈可能な説明を提供する。
関連論文リスト
- GFT: Gradient Focal Transformer [0.0]
本稿では,GFT(Gradient Focal Transformer)について紹介する。
GFTは、クラス識別機能を動的に優先順位付けするために、GALA(Gradient Attention Learning Alignment)メカニズムを統合している。
GFTは、FGVC Aircraft、Food-101、および93Mパラメータのデータセット上でSOTA精度を達成し、ViTベースの先進的なFGICモデルよりも効率良く性能を向上する。
論文 参考訳(メタデータ) (2025-04-14T03:49:06Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation [45.40828381049737]
本研究では,視覚言語ナビゲーション(VLN)タスクのための新しい評価フレームワークを提案する。
様々な命令カテゴリの現在のモデルをよりきめ細かいレベルで診断することを目的としている。
フレームワークはタスクの文脈自由文法(CFG)を中心に構成されている。
論文 参考訳(メタデータ) (2024-09-25T19:49:39Z) - On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery [0.0]
サイドスキャンソナー (SSS) 画像は海底の人工物体の分類においてユニークな課題を呈している。
本稿では、SSS画像のバイナリ分類タスクによく使用されるCNNアーキテクチャとともに、VTモデルの性能を厳格に比較する。
ViTベースのモデルは、f1スコア、精度、リコール、精度の指標で優れた分類性能を示す。
論文 参考訳(メタデータ) (2024-09-18T14:36:50Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Incremental Bootstrapping and Classification of Structured Scenes in a Fuzzy Ontology [3.0501524254444767]
構造化表現をブートストラップするロボットは、いくつかの知的なカテゴリーを分類する。
本稿では,構造化知識表現をクリップOWL-DLオントロジーでブートストラップするSITアルゴリズムを提案する。
ファジィSITは頑健であり, クリップな定式化の特性を保ち, ブートストラップ表現の強化を図っている。
論文 参考訳(メタデータ) (2024-04-17T20:51:13Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - GNNavi: Navigating the Information Flow in Large Language Models by Graph Neural Network [49.91919718254597]
大規模な言語モデル(LLM)は、デモによるプロンプトを使用すると、強いコンテキスト学習能力を示す。
プロンプトベースの微調整は、低データシナリオにおいて効果的な微調整法であることが証明されているが、計算資源に対する高い要求は、その実用性を制限する。
GNNaviはグラフニューラルネットワークレイヤを使用して、プロンプト処理中に情報フローの集約と分布を正確にガイドする。
論文 参考訳(メタデータ) (2024-02-18T21:13:05Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - How could Neural Networks understand Programs? [67.4217527949013]
ソースコードにnlpプリトレーニング技術を直接適用するか、あるいはtheshelfによってモデルに機能を追加するかで、プログラムをより理解するためのモデルを構築するのは難しい。
本研究では,(1)操作セマンティクスの基本操作とよく一致する表現と(2)環境遷移の情報からなる情報から,モデルが学ぶべき新しいプログラムセマンティクス学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T12:21:42Z) - Generalized Few-shot Semantic Segmentation [68.69434831359669]
本稿では,GFS-Seg(Generalized Few-Shot Semantic)と呼ばれる新しいベンチマークを導入する。
GFS-セグにおいて、先行する最先端の一般化が不足していることを示す最初の研究である。
本研究では,1)支援サンプルから共起前の知識を活用すること,2)各クエリ画像の内容に基づいて条件付き情報に動的に拡張することにより,性能を著しく向上するコンテキスト認識型プロトタイプ学習(CAPL)を提案する。
論文 参考訳(メタデータ) (2020-10-11T10:13:21Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。