論文の概要: Phantom-Insight: Adaptive Multi-cue Fusion for Video Camouflaged Object Detection with Multimodal LLM
- arxiv url: http://arxiv.org/abs/2509.06422v1
- Date: Mon, 08 Sep 2025 08:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.0134
- Title: Phantom-Insight: Adaptive Multi-cue Fusion for Video Camouflaged Object Detection with Multimodal LLM
- Title(参考訳): Phantom-Insight:Multimodal LLMを用いたビデオカモフラージュ物体検出のための適応型マルチキューフュージョン
- Authors: Hua Zhang, Changjiang Luo, Ruoyu Chen,
- Abstract要約: 動的環境のため,ビデオカモフラージュ物体検出(VCOD)は困難である。
既存の手法では,(1)モデル凍結によるカモフラージュされたオブジェクトエッジの分離に苦慮するSAMベース手法,(2)MLLMベースの手法では,大きな言語モデルが前景と背景を融合することにより,オブジェクトの分離性が低下する,という2つの問題に直面している。
本稿では,SAMとMLLMに基づく新しいVCOD法であるPhantom-Insightを提案する。
- 参考スコア(独自算出の注目度): 5.817528321487845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video camouflaged object detection (VCOD) is challenging due to dynamic environments. Existing methods face two main issues: (1) SAM-based methods struggle to separate camouflaged object edges due to model freezing, and (2) MLLM-based methods suffer from poor object separability as large language models merge foreground and background. To address these issues, we propose a novel VCOD method based on SAM and MLLM, called Phantom-Insight. To enhance the separability of object edge details, we represent video sequences with temporal and spatial clues and perform feature fusion via LLM to increase information density. Next, multiple cues are generated through the dynamic foreground visual token scoring module and the prompt network to adaptively guide and fine-tune the SAM model, enabling it to adapt to subtle textures. To enhance the separability of objects and background, we propose a decoupled foreground-background learning strategy. By generating foreground and background cues separately and performing decoupled training, the visual token can effectively integrate foreground and background information independently, enabling SAM to more accurately segment camouflaged objects in the video. Experiments on the MoCA-Mask dataset show that Phantom-Insight achieves state-of-the-art performance across various metrics. Additionally, its ability to detect unseen camouflaged objects on the CAD2016 dataset highlights its strong generalization ability.
- Abstract(参考訳): 動的環境のため,ビデオカモフラージュ物体検出(VCOD)は困難である。
既存の手法では,(1)モデル凍結によるカモフラージュされたオブジェクトエッジの分離に苦慮するSAMベース手法,(2)MLLMベースの手法は,大きな言語モデルが前景と背景を融合するにつれ,オブジェクト分離性の低下に悩まされる。
これらの問題に対処するために,SAMとMLLMに基づく新しいVCOD法,Phantom-Insightを提案する。
対象のエッジの詳細の分離性を高めるため、時間的および空間的手がかりで映像シーケンスを表現し、LLMを介して特徴融合を行い、情報密度を高める。
次に、動的フォアグラウンド視覚トークンスコアリングモジュールとプロンプトネットワークを介して複数のキューを生成し、SAMモデルを適応的にガイドし、微調整し、微妙なテクスチャに適応できるようにする。
対象と背景の分離性を高めるために, 分離した前景学習戦略を提案する。
前景と背景の手がかりを別々に生成し、切り離し訓練を行うことにより、視覚トークンは、前景と背景情報を独立して統合することができ、SAMはビデオ内のより正確にカモフラージュされたオブジェクトを分割することができる。
MoCA-Maskデータセットの実験によると、Phantom-Insightはさまざまなメトリクスで最先端のパフォーマンスを実現している。
さらに、CAD2016データセットで見えないカモフラージュされたオブジェクトを検出する能力は、その強力な一般化能力を強調している。
関連論文リスト
- Object-Aware Video Matting with Cross-Frame Guidance [35.785998735049006]
我々は、異なるオブジェクトを知覚し、前景オブジェクトの協調認識とエッジ詳細の洗練を可能にする、トリマップフリーなオブジェクト認識ビデオマッチング(OAVM)フレームワークを提案する。
具体的には,OGCR(Object-Guided Correction and Refinement)モジュールを提案する。
また、逐次シナリオを多様化し、オブジェクト識別のためのネットワークの容量を高めるために、逐次フォアグラウンドマージ拡張戦略を設計する。
論文 参考訳(メタデータ) (2025-03-03T07:40:32Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection [10.04773536815808]
画像中の不明瞭な物体を見つける人間の振る舞いを模倣する,Multi-view Feature Fusion Network (MFFN) と呼ばれる行動に触発されたフレームワークを提案する。
MFFNは抽出したマルチビュー特徴を比較し、融合することにより、重要なエッジとセマンティック情報をキャプチャする。
提案手法は,同一データを用いたトレーニングにより,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-10-12T16:12:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。