論文の概要: ArgusCogito: Chain-of-Thought for Cross-Modal Synergy and Omnidirectional Reasoning in Camouflaged Object Segmentation
- arxiv url: http://arxiv.org/abs/2508.18050v1
- Date: Mon, 25 Aug 2025 14:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.806983
- Title: ArgusCogito: Chain-of-Thought for Cross-Modal Synergy and Omnidirectional Reasoning in Camouflaged Object Segmentation
- Title(参考訳): ArgusCogito:カモフラージュ対象セグメンテーションにおけるクロスモーダルシナジーと全方位共振の連鎖
- Authors: Jianwen Tan, Huiyao Zhang, Rui Xiong, Han Zhou, Hongfei Wang, Ye Li,
- Abstract要約: アルガスコギト(ArgusCogito)は、クロスモーダルおよび全方位推論を基盤としたゼロショット・チェーン・オブ・シントフレームワークである。
ArgusCogitoは、認知にインスパイアされた3つのステージ、Conjecture、Focus、Sculptingを編成する。
- 参考スコア(独自算出の注目度): 15.181040729088508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged Object Segmentation (COS) poses a significant challenge due to the intrinsic high similarity between targets and backgrounds, demanding models capable of profound holistic understanding beyond superficial cues. Prevailing methods, often limited by shallow feature representation, inadequate reasoning mechanisms, and weak cross-modal integration, struggle to achieve this depth of cognition, resulting in prevalent issues like incomplete target separation and imprecise segmentation. Inspired by the perceptual strategy of the Hundred-eyed Giant-emphasizing holistic observation, omnidirectional focus, and intensive scrutiny-we introduce ArgusCogito, a novel zero-shot, chain-of-thought framework underpinned by cross-modal synergy and omnidirectional reasoning within Vision-Language Models (VLMs). ArgusCogito orchestrates three cognitively-inspired stages: (1) Conjecture: Constructs a strong cognitive prior through global reasoning with cross-modal fusion (RGB, depth, semantic maps), enabling holistic scene understanding and enhanced target-background disambiguation. (2) Focus: Performs omnidirectional, attention-driven scanning and focused reasoning, guided by semantic priors from Conjecture, enabling precise target localization and region-of-interest refinement. (3) Sculpting: Progressively sculpts high-fidelity segmentation masks by integrating cross-modal information and iteratively generating dense positive/negative point prompts within focused regions, emulating Argus' intensive scrutiny. Extensive evaluations on four challenging COS benchmarks and three Medical Image Segmentation (MIS) benchmarks demonstrate that ArgusCogito achieves state-of-the-art (SOTA) performance, validating the framework's exceptional efficacy, superior generalization capability, and robustness.
- Abstract(参考訳): カモフラージュされたオブジェクトセグメンテーション(COS)は、ターゲットと背景の間に固有の高い類似性があり、表面的な手がかりを超えて深い全体的理解が可能なモデルを必要とするため、大きな課題を生んでいる。
一般的な手法は、浅い特徴表現、不十分な推論機構、弱いクロスモーダル統合によって制限され、この認識の深さを達成するのに苦慮し、不完全なターゲット分離や不正確なセグメンテーションといった問題を引き起こす。
視覚・言語モデル(VLM)内でのクロスモーダル・シナジーと全方位推論を基盤とした,新たなゼロショット・チェーン・オブ・シント・フレームワークであるArgusCogitoを紹介した。
アルガスコギトは、(1)意図:世界的推論(RGB、深さ、セマンティックマップ)を通じて強い認知を前に構築し、総合的なシーン理解と強化された目標背景の曖昧さを可能にする。
2)全方位的,注意駆動型走査型,集中型推論を,Conjecture のセマンティック先行によって誘導し,的確な位置決めと関心領域の洗練を可能にする。
(3)Sculpting:Argusの集中的な精査をエミュレートし、クロスモーダル情報を統合し、集中領域内で密接な正・負の点プロンプトを反復的に生成することにより、高忠実なセグメンテーションマスクを段階的に彫刻する。
4つの挑戦的なCOSベンチマークと3つのMISベンチマークの大規模な評価は、ArgusCogitoが最先端(SOTA)のパフォーマンスを達成し、フレームワークの異常な有効性、優れた一般化能力、堅牢性を検証していることを示している。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders [29.274913619777088]
本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。
我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。
DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-06-12T15:30:47Z) - Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis [9.561100210295699]
マルチモーダルアスペクトベース感性分析(MABSA)は,画像とテキストのペアから微細な情報を抽出する。
DASCOは、依存性解析ツリーを活用することでアスペクトレベルの感情推論を強化する、きめ細かいスコープ指向のフレームワークである。
2つのベンチマークデータセットの実験は、DASCOがMABSAで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-15T16:05:09Z) - BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation [58.14071520415005]
本稿では、スパースビュー設定における課題に対処するために、オブジェクトポーズ推定のための汎用RGBベースのアプローチを提案する。
これらの制約を克服するために、オブジェクトのポーズの中間表現としてオブジェクト境界ボックスのコーナーポイントを導入する。
3Dオブジェクトコーナーはスパース入力ビューから確実に復元でき、対象ビューの2Dコーナーポイントは、新しい参照ベースポイントデータセットによって推定される。
論文 参考訳(メタデータ) (2025-04-10T17:58:35Z) - Concept Guided Co-salient Object Detection [22.82243087156918]
ConceptCoSODは、高レベルのセマンティック知識を導入し、コ・サリエンシ検出を強化するコンセプトガイドフレームワークである。
入力画像グループから共有テキストベースの概念を抽出することにより、ConceptCoSODは検出プロセスをアンロックするセマンティックガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-21T12:47:12Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。