論文の概要: Camouflage-aware Image-Text Retrieval via Expert Collaboration
- arxiv url: http://arxiv.org/abs/2604.01251v1
- Date: Wed, 01 Apr 2026 01:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.575133
- Title: Camouflage-aware Image-Text Retrieval via Expert Collaboration
- Title(参考訳): 専門家コラボレーションによるカモフラージュ認識画像検索
- Authors: Yao Jiang, Zhongkuan Mao, Xuan Wu, Keren Fu, Qijun Zhao,
- Abstract要約: 我々は、カモフラージュ認識画像テキスト検索(CA-ITR)と呼ばれる新しいタスクを定式化する。
私たちはまず,専用のカモフラージュ画像テキスト検索データセット(CamoIT)を構築した。
- 参考スコア(独自算出の注目度): 22.74075378281881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camouflaged scene understanding (CSU) has attracted significant attention due to its broad practical implications. However, in this field, robust image-text cross-modal alignment remains under-explored, hindering deeper understanding of camouflaged scenarios and their related applications. To this end, we focus on the typical image-text retrieval task, and formulate a new task dubbed ``camouflage-aware image-text retrieval'' (CA-ITR). We first construct a dedicated camouflage image-text retrieval dataset (CamoIT), comprising $\sim$10.5K samples with multi-granularity textual annotations. Benchmark results conducted on CamoIT reveal the underlying challenges of CA-ITR for existing cutting-edge retrieval techniques, which are mainly caused by objects' camouflage properties as well as those complex image contents. As a solution, we propose a camouflage-expert collaborative network (CECNet), which features a dual-branch visual encoder: one branch captures holistic image representations, while the other incorporates a dedicated model to inject representations of camouflaged objects. A novel confidence-conditioned graph attention (C\textsuperscript{2}GA) mechanism is incorporated to exploit the complementarity across branches. Comparative experiments show that CECNet achieves $\sim$29% overall CA-ITR accuracy boost, surpassing seven representative retrieval models. The dataset and code will be available at https://github.com/jiangyao-scu/CA-ITR.
- Abstract(参考訳): カモフラージュシーン理解(CSU)は、その幅広い実践的意味から大きな注目を集めている。
しかし、この分野では、頑健な画像テキストのクロスモーダルアライメントは未探索のままであり、キャモフラージュされたシナリオとその関連アプリケーションに対する深い理解を妨げる。
そこで我々は,典型的な画像テキスト検索タスクに焦点をあて,'camouflage-aware image-text search' (CA-ITR)と呼ばれる新しいタスクを定式化する。
我々はまず,多粒度テキストアノテーションを用いた$\sim$10.5Kのサンプルからなる専用のカモフラージュ画像テキスト検索データセット(CamoIT)を構築した。
CamoIT上でのベンチマーク結果から,CA-ITRの既存の最先端検索技術における課題を明らかにした。
そこで本研究では,カモフラージュ・エキスパート協調ネットワーク (CECNet) を提案する。このネットワークは2分岐の視覚エンコーダを特徴とし,一方のブランチは全体像の表現をキャプチャし,他方のブランチはカモフラージュされたオブジェクトの表現を注入するための専用モデルを含む。
新しい自信条件付きグラフアテンション(C\textsuperscript{2}GA)機構が、枝間の相補性を利用するために組み込まれている。
比較実験によると、CECNetはCA-ITRの精度を7つの代表的な検索モデルを上回る29%の$\sim$を達成している。
データセットとコードはhttps://github.com/jiangyao-scu/CA-ITRで公開される。
関連論文リスト
- Unlocking Attributes' Contribution to Successful Camouflage: A Combined Textual and VisualAnalysis Strategy [27.251750465641305]
本研究は,カモフラージュ特性がカモフラージュパターンの有効性に与える影響を総合的に検討する。
カモフラージュされたオブジェクトとその属性コントリビューションを記述した最初のデータセットをコンパイルした。
我々は,Camouflaged Object Attribution(COS)タスクのためのテキスト情報と視覚情報を組み合わせた堅牢なフレームワークを開発した。
ACUMENは優れたパフォーマンスを示し、3つの広く使用されているデータセットで9つのリードメソッドを上回っている。
論文 参考訳(メタデータ) (2024-08-22T02:51:21Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Spatial-Semantic Collaborative Cropping for User Generated Content [32.490403964193014]
大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、世界中の人々に表示される。
以前の方法では、収穫された画像の美学を単に考慮しつつ、コンテンツの完全性を無視しているだけであり、これは収穫に不可欠である。
本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調作付けネットワーク(S2CNet)を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:25:12Z) - Camouflaged Object Detection with Feature Grafting and Distractor Aware [9.791590363932519]
そこで我々は,Camouflaged Object Detectionタスクを処理するために,FDNet(Feature Grafting and Distractor Aware Network)を提案する。
具体的には、CNNとTransformerを使ってマルチスケール画像を並列にエンコードする。
Distractor Aware Moduleは、CODタスクで考えられる2つの障害を明示的にモデル化して、粗いカモフラージュマップを洗練させるように設計されている。
論文 参考訳(メタデータ) (2023-07-08T09:37:08Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Semantically Self-Aligned Network for Text-to-Image Part-aware Person
Re-identification [78.45528514468836]
ReID(Text-to-image person re-identification)は、テキスト記述を用いて興味のある人物を含む画像を検索することを目的としている。
上記の問題に対処するために,Semantically Self-Aligned Network (SSAN)を提案する。
ICFG-PEDESという新しいデータベースを構築。
論文 参考訳(メタデータ) (2021-07-27T08:26:47Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。