論文の概要: IFShip: A Large Vision-Language Model for Interpretable Fine-grained Ship Classification via Domain Knowledge-Enhanced Instruction Tuning
- arxiv url: http://arxiv.org/abs/2408.06631v1
- Date: Tue, 13 Aug 2024 04:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:36:27.437997
- Title: IFShip: A Large Vision-Language Model for Interpretable Fine-grained Ship Classification via Domain Knowledge-Enhanced Instruction Tuning
- Title(参考訳): IFShip:ドメイン知識強化型インストラクションチューニングによる船種分類の解釈可能な大規模視覚言語モデル
- Authors: Mingning Guo, Mengwei Wu, Yuxiang Shen, Haifeng Li, Chao Tao,
- Abstract要約: そこで本研究では,船の粒度分類を行うための大規模視覚言語モデル (LVLM) IFShipを提案する。
従来の方法とは異なり、IFShipは自然言語でFGSCの推論過程を正確に伝達することで、解釈可能性を向上させる。
- 参考スコア(独自算出の注目度): 3.5441557443102174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end interpretation is currently the prevailing paradigm for remote sensing fine-grained ship classification (RS-FGSC) task. However, its inference process is uninterpretable, leading to criticism as a black box model. To address this issue, we propose a large vision-language model (LVLM) named IFShip for interpretable fine-grained ship classification. Unlike traditional methods, IFShip excels in interpretability by accurately conveying the reasoning process of FGSC in natural language. Specifically, we first design a domain knowledge-enhanced Chain-of-Thought (COT) prompt generation mechanism. This mechanism is used to semi-automatically construct a task-specific instruction-following dataset named TITANIC-FGS, which emulates human-like logical decision-making. We then train the IFShip model using task instructions tuned with the TITANIC-FGS dataset. Building on IFShip, we develop an FGSC visual chatbot that redefines the FGSC problem as a step-by-step reasoning task and conveys the reasoning process in natural language. Experimental results reveal that the proposed method surpasses state-of-the-art FGSC algorithms in both classification interpretability and accuracy. Moreover, compared to LVLMs like LLaVA and MiniGPT-4, our approach demonstrates superior expertise in the FGSC task. It provides an accurate chain of reasoning when fine-grained ship types are recognizable to the human eye and offers interpretable explanations when they are not.
- Abstract(参考訳): エンド・ツー・エンドの解釈は、現在、リモートセンシングきめ細かい船種分類(RS-FGSC)タスクにおいて広く使われているパラダイムである。
しかし、その推論プロセスは解釈不能であり、ブラックボックスモデルとして批判される。
この問題に対処するために, IFShip という名前の大型視覚言語モデル (LVLM) を提案する。
従来の方法とは異なり、IFShipは自然言語でFGSCの推論過程を正確に伝達することで、解釈可能性を向上させる。
具体的には、まずドメイン知識を付加したCOT(Chain-of-Thought)プロンプト生成機構を設計する。
このメカニズムは、人間のような論理的な意思決定をエミュレートするTITANIC-FGSというタスク固有の命令追従データセットを半自動で構築するために使用される。
次に、TITANIC-FGSデータセットをチューニングしたタスク命令を用いてIFShipモデルをトレーニングする。
IFShip上に構築したFGSCビジュアルチャットボットは,FGSC問題をステップバイステップ推論タスクとして再定義し,自然言語による推論処理を行う。
実験結果から,提案手法は最先端のFGSCアルゴリズムよりも,分類の解釈性と精度が優れていることがわかった。
さらに,LLaVAやMiniGPT-4のようなLVLMと比較して,FGSCタスクにおいて優れた専門知識を示す。
きめ細かい船種が人間の目で認識できる場合の正確な推論の連鎖を提供し、そうでない場合は解釈可能な説明を提供する。
関連論文リスト
- Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation [45.40828381049737]
本研究では,視覚言語ナビゲーション(VLN)タスクのための新しい評価フレームワークを提案する。
様々な命令カテゴリの現在のモデルをよりきめ細かいレベルで診断することを目的としている。
フレームワークはタスクの文脈自由文法(CFG)を中心に構成されている。
論文 参考訳(メタデータ) (2024-09-25T19:49:39Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - How could Neural Networks understand Programs? [67.4217527949013]
ソースコードにnlpプリトレーニング技術を直接適用するか、あるいはtheshelfによってモデルに機能を追加するかで、プログラムをより理解するためのモデルを構築するのは難しい。
本研究では,(1)操作セマンティクスの基本操作とよく一致する表現と(2)環境遷移の情報からなる情報から,モデルが学ぶべき新しいプログラムセマンティクス学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T12:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。