Fugu-MT 論文翻訳(概要): Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection

論文の概要: Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection

arxiv url: http://arxiv.org/abs/2311.11273v2
Date: Tue, 30 Jul 2024 05:45:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 22:39:45.224801
Title: Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection
Title（参考訳）: 視覚知覚の連鎖:ゼロショットカモフラージュ物体検出のための多モード大言語モデルの調和
Authors: Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li,
Abstract要約: ゼロショットカモフラージ物体検出(COD)のための新しいマルチモーダルカモ知覚フレームワーク(MMCPF)を提案する。本研究では,現在のCOD手法を回避できるゼロショットMMCPFを提案する。本稿では,カモフラージュシーンにおけるMLLMの知覚能力を大幅に向上させる,CoVP (Chain of Visual Perception) と呼ばれる戦略的拡張を提案する。
参考スコア（独自算出の注目度）: 16.836026000473517
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we introduce a novel multimodal camo-perceptive framework (MMCPF) aimed at handling zero-shot Camouflaged Object Detection (COD) by leveraging the powerful capabilities of Multimodal Large Language Models (MLLMs). Recognizing the inherent limitations of current COD methodologies, which predominantly rely on supervised learning models demanding extensive and accurately annotated datasets, resulting in weak generalization, our research proposes a zero-shot MMCPF that circumvents these challenges. Although MLLMs hold significant potential for broad applications, their effectiveness in COD is hindered and they would make misinterpretations of camouflaged objects. To address this challenge, we further propose a strategic enhancement called the Chain of Visual Perception (CoVP), which significantly improves the perceptual capabilities of MLLMs in camouflaged scenes by leveraging both linguistic and visual cues more effectively. We validate the effectiveness of MMCPF on five widely used COD datasets, containing CAMO, COD10K, NC4K, MoCA-Mask and OVCamo. Experiments show that MMCPF can outperform all existing state-of-the-art zero-shot COD methods, and achieve competitive performance compared to weakly-supervised and fully-supervised methods, which demonstrates the potential of MMCPF. The Github link of this paper is \url{https://github.com/luckybird1994/MMCPF}.
Abstract（参考訳）: 本稿では,Multimodal Large Language Models(MLLM)の強力な機能を活用して,ゼロショットカモフラージュ物体検出(COD)の処理を目的とした,新しいマルチモーダルカモ知覚フレームワーク(MMCPF)を提案する。広範かつ正確に注釈付けされたデータセットを必要とする教師付き学習モデルに大きく依存する現在のCOD方法論の本質的な限界を認識し,その結果,これらの課題を回避できるゼロショットMMCPFを提案する。 MLLMは幅広い用途において大きな可能性を秘めているが、CODの有効性は妨げられ、カモフラージュされた物体の誤解釈が生じる。この課題に対処するために,我々はさらに,視覚知覚の連鎖 (CoVP) と呼ばれる戦略的な拡張を提案し,言語的・視覚的手がかりをより効果的に活用することにより,カモフラージュシーンにおけるMLLMの知覚能力を大幅に向上させる。 MMCPFがCAMO, COD10K, NC4K, MoCA-Mask, OVCamoを含む5種類のCODデータセットに対して有効であることを示す。実験により,MMCPFは既存のゼロショットCOD法よりも優れており,MMCPFの可能性を示す弱教師付きおよび完全教師付き手法と比較して競争性能が向上することが示された。この論文のGithubリンクは \url{https://github.com/luckybird 1994/MMCPF} である。

関連論文リスト

Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
ChatGPT Encounters Morphing Attack Detection: Zero-Shot MAD with Multi-Modal Large Language Models and General Vision Models [13.21801650767302]
顔認識システム(FRS)は、顔認識攻撃に対してますます脆弱になり、Morphing Detection(MAD)アルゴリズムの開発が進められている。 MADの重要な課題は、見つからないデータに対する限定的な一般化性と、実用的なアプリケーション環境において説明責任が欠如していることである。本研究は,Large Language Models (LLMs) を利用したゼロショット学習を用いたMADの新しいアプローチを探求する。
論文参考訳（メタデータ） (2025-03-13T22:53:24Z)
Chain-of-Sketch: Enabling Global Visual Reasoning [37.09634351533441]
グラフ、文字列、迷路、画像グリッドを含む、拡張されたグローバルなビジュアルデータセットを紹介します。大規模なビジョンモデルは、これらのタスクを効率的に学習するのに依然として苦労している。本稿では,この学習効率の低下を緩和するために,チェーン・オブ・スケッチ(CoS)と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-10-10T17:44:13Z)
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文参考訳（メタデータ） (2024-10-07T17:16:20Z)
SAM-COD: SAM-guided Unified Framework for Weakly-Supervised Camouflaged Object Detection [12.915303163650002]
カモフラージュされたオブジェクト検出(COD)手法の多くは、取得するのに時間と労力を要するマスクアノテーションに大きく依存している。既存の弱教師付きCODアプローチは、完全教師付き手法に比べて性能が著しく劣っている。我々は、任意の弱教師付きラベルをサポート可能な、SAM-CODと呼ばれる統合CODフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-20T11:49:27Z)
Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文参考訳（メタデータ） (2024-07-31T15:02:46Z)
CoFiNet: Unveiling Camouflaged Objects with Multi-Scale Finesse [46.79770062391987]
本稿では,CoFiNetというカモフラージュ物体検出手法を提案する。提案手法は,マルチスケールな特徴融合と抽出に重点を置いており,特にモデルのセグメンテーションの有効性に注目している。 CoFiNetは、すべてのデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-02-03T17:24:55Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Large Model Based Referring Camouflaged Object Detection [51.80619142347807]
Referring camouflaged object detection (Ref-COD)は、テキストまたはビジュアル参照にマッチした特定のcamouflaged objectを分割することを目的とした、最近提案された問題である。我々のモチベーションは、最近のMLLM(Multimodal Large Language Models)のセマンティックインテリジェンスと本質的な知識をフル活用して、この複雑なタスクを人間的な方法で分解することである。 MLKGと呼ばれるRef-CODのための大規模モデルベースマルチレベル知識誘導型マルチモーダル手法を提案する。
論文参考訳（メタデータ） (2023-11-28T13:45:09Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文参考訳（メタデータ） (2023-05-29T07:49:44Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。