論文の概要: Concept Guided Co-salient Object Detection
- arxiv url: http://arxiv.org/abs/2412.16609v2
- Date: Tue, 17 Jun 2025 13:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.070264
- Title: Concept Guided Co-salient Object Detection
- Title(参考訳): コンセプトガイドによる協調型物体検出
- Authors: Jiayi Zhu, Qing Guo, Felix Juefei-Xu, Yihao Huang, Yang Liu, Geguang Pu,
- Abstract要約: ConceptCoSODは、高レベルのセマンティック知識を導入し、コ・サリエンシ検出を強化するコンセプトガイドフレームワークである。
入力画像グループから共有テキストベースの概念を抽出することにより、ConceptCoSODは検出プロセスをアンロックするセマンティックガイダンスを提供する。
- 参考スコア(独自算出の注目度): 22.82243087156918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Co-salient object detection (Co-SOD) aims to identify common salient objects across a group of related images. While recent methods have made notable progress, they typically rely on low-level visual patterns and lack semantic priors, limiting their detection performance. We propose ConceptCoSOD, a concept-guided framework that introduces high-level semantic knowledge to enhance co-saliency detection. By extracting shared text-based concepts from the input image group, ConceptCoSOD provides semantic guidance that anchors the detection process. To further improve concept quality, we analyze the effect of diffusion timesteps and design a resampling strategy that selects more informative steps for learning robust concepts. This semantic prior, combined with the resampling-enhanced representation, enables accurate and consistent segmentation even in challenging visual conditions. Extensive experiments on three benchmark datasets and five corrupted settings demonstrate that ConceptCoSOD significantly outperforms existing methods in both accuracy and generalization.
- Abstract(参考訳): Co-SOD(Co-Salient Object Detection)は、関連画像群にまたがる一般的な正当性オブジェクトを識別することを目的としている。
最近の手法は顕著な進歩を遂げているが、一般的には低レベルな視覚パターンに依存しており、セマンティックな先行性に欠けており、検出性能が制限されている。
本研究では,概念誘導型フレームワークであるConceptCoSODを提案する。
入力画像グループから共有テキストベースの概念を抽出することにより、ConceptCoSODは検出プロセスをアンロックするセマンティックガイダンスを提供する。
概念の質をさらに向上するために,拡散時間の影響を分析し,ロバストな概念を学習するためのより情報的なステップを選択する再サンプリング戦略を設計する。
このセマンティック先行は、再サンプリング強化された表現と組み合わせて、挑戦的な視覚条件においても正確で一貫したセグメンテーションを可能にする。
3つのベンチマークデータセットと5つの破損した設定に関する大規模な実験は、ConceptCoSODが既存のメソッドを精度と一般化の両方で大幅に上回っていることを示している。
関連論文リスト
- SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Object Centric Concept Bottlenecks [22.074896812195437]
我々は、CBMの強みと事前学習されたオブジェクト指向基礎モデルを組み合わせたフレームワークである、オブジェクト指向概念ボトルネックス(OCB)を紹介する。
我々は、複雑な画像データセット上でOCBを評価し、フレームワークの主要なコンポーネントを分析するための包括的なアブレーション研究を行う。
その結果,OCBは従来のCBMよりも優れており,複雑な視覚的タスクに対して解釈可能な決定を行うことができることがわかった。
論文 参考訳(メタデータ) (2025-05-30T11:45:05Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。
この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - Concept Bottleneck with Visual Concept Filtering for Explainable Medical
Image Classification [16.849592713393896]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を中間目標として利用することにより、解釈可能な画像分類を可能にする。
視覚的アクティベーションスコアは,視覚的手がかりを含むか否かを測定する。
計算された視覚的アクティベーションスコアは、見えない概念をフィルタリングするために使用され、結果として視覚的に意味のある概念がセットされる。
論文 参考訳(メタデータ) (2023-08-23T05:04:01Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Re-thinking Co-Salient Object Detection [170.44471050548827]
Co-Salient Object Detection (CoSOD) は、画像群において共起するサルエントオブジェクトを検出することを目的としている。
既存のCoSODデータセットは、画像の各グループに類似した視覚的外観の有能なオブジェクトが含まれていると仮定して、深刻なデータバイアスを持つことが多い。
我々はCoSOD3kと呼ばれる新しいベンチマークを野生で導入し、大量の意味的コンテキストを必要とする。
論文 参考訳(メタデータ) (2020-07-07T12:20:51Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。