論文の概要: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- arxiv url: http://arxiv.org/abs/2507.01738v1
- Date: Wed, 02 Jul 2025 14:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.281846
- Title: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- Title(参考訳): DeRIS:Loopback Synergyによる画像セグメンテーションの強化のための認識と認知の分離
- Authors: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang,
- Abstract要約: RISを認知と認知という2つの重要な構成要素に分解する新しいフレームワークであるDeRISを提案する。
以上の結果から,従来のモデルでは知覚障害ではなく,マルチモーダル認知能力が不十分であることが示唆された。
本稿では,ターゲット存在判定に関連する長期分布問題に対処するため,単純な非参照型サンプル変換データ拡張を提案する。
- 参考スコア(独自算出の注目度): 15.729826041347144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- Abstract(参考訳): Referring Image Segmentation (RIS)は、自然言語表現に基づいた画像内のオブジェクトのセグメンテーションを目的とした課題である。
従来の研究は視覚-言語相互作用の改善と微粒化の達成に重点を置いてきたが、既存のRISフレームワークの基本的ボトルネックの体系的分析は未解明のままである。
このギャップを埋めるために、私たちは、RISを認知と認知という2つの重要な構成要素に分解する新しいフレームワークであるDeRISを提案する。
このモジュラ分解は、RIS性能を妨げる主要なボトルネックを体系的に解析するのに役立つ。
以上の結果から,従来のモデルでは知覚障害ではなく,マルチモーダル認知能力が不十分であることが示唆された。
これを軽減するために,認識モジュールと認識モジュールの相乗効果を高めるループバック・シナジー機構を提案する。
さらに,本研究では,一般シナリオにおけるターゲット存在判断に関連する長期分布問題に対処するため,単純な非参照型サンプル変換データ拡張を解析,導入する。
特に、DeRISは特別なアーキテクチャ変更を必要とせず、非参照シナリオとマルチ参照シナリオの両方に固有の適応性を示し、その汎用性を高めている。
コードとモデルはhttps://github.com/Dmmm1997/DeRISで公開されている。
関連論文リスト
- DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - A Lightweight Deep Exclusion Unfolding Network for Single Image Reflection Removal [68.0573194557999]
シングルイメージリフレクション除去(SIRR)は、標準的なブラインドソース分離問題である。
本稿ではSIRRのための新しいDeep Exclusion Unfolding Network(DExNet)を提案する。
DExNetは、単純な反復スパースと補助的特徴更新(i-SAFU)アルゴリズムの展開とパラメータ化によって構築される。
論文 参考訳(メタデータ) (2025-03-03T07:54:27Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Towards to Robust and Generalized Medical Image Segmentation Framework [17.24628770042803]
本稿では,ロバストな一般化セグメンテーションのための新しい2段階フレームワークを提案する。
特に、教師なしTile-wise AutoEncoder(T-AE)事前学習アーキテクチャは、意味のある表現を学ぶために作成される。
複数の胸部X線データセットに対する肺分画実験を行った。
論文 参考訳(メタデータ) (2021-08-09T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。