論文の概要: CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2405.15658v2
- Date: Mon, 25 Nov 2024 17:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:53.811016
- Title: CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation
- Title(参考訳): CoHD: 汎用参照式セグメンテーションのための数値対応階層型デコーディングフレームワーク
- Authors: Zhuoyan Luo, Yinghao Wu, Tianheng Cheng, Yong Liu, Yicheng Xiao, Hongfa Wang, Xiao-Ping Zhang, Yujiu Yang,
- Abstract要約: Generalized Referring Expression (GRES)は、複雑な多重/非ターゲットシナリオを含むことによって、古典的なRESの定式化を増幅する。
近年のアプローチでは、オブジェクト指向の識別により、よく認識されたRESフレームワークを直接拡張することで、GRESに対処している。
GRESのための textbfCounting-Aware textbfHierarchical textbfDecoding framework (CoHD) を提案する。
- 参考スコア(独自算出の注目度): 37.96005100341482
- License:
- Abstract: The newly proposed Generalized Referring Expression Segmentation (GRES) amplifies the formulation of classic RES by involving complex multiple/non-target scenarios. Recent approaches address GRES by directly extending the well-adopted RES frameworks with object-existence identification. However, these approaches tend to encode multi-granularity object information into a single representation, which makes it difficult to precisely represent comprehensive objects of different granularity. Moreover, the simple binary object-existence identification across all referent scenarios fails to specify their inherent differences, incurring ambiguity in object understanding. To tackle the above issues, we propose a \textbf{Co}unting-Aware \textbf{H}ierarchical \textbf{D}ecoding framework (CoHD) for GRES. By decoupling the intricate referring semantics into different granularity with a visual-linguistic hierarchy, and dynamic aggregating it with intra- and inter-selection, CoHD boosts multi-granularity comprehension with the reciprocal benefit of the hierarchical nature. Furthermore, we incorporate the counting ability by embodying multiple/single/non-target scenarios into count- and category-level supervision, facilitating comprehensive object perception. Experimental results on gRefCOCO, Ref-ZOM, R-RefCOCO, and RefCOCO benchmarks demonstrate the effectiveness and rationality of CoHD which outperforms state-of-the-art GRES methods by a remarkable margin. Code is available at \href{https://github.com/RobertLuo1/CoHD}{here}.
- Abstract(参考訳): 新たに提案されたGeneralized Referring Expression Segmentation (GRES)は、複雑な多重/非ターゲットシナリオを伴って古典RESの定式化を増幅する。
近年のアプローチでは、オブジェクト指向の識別により、よく認識されたRESフレームワークを直接拡張することで、GRESに対処している。
しかし、これらの手法は、多粒度オブジェクト情報を単一の表現に符号化する傾向があるため、異なる粒度の包括的オブジェクトを正確に表現することは困難である。
さらに、すべての参照シナリオにまたがる単純なバイナリオブジェクト存在識別は、その固有の違いを特定できず、オブジェクト理解の曖昧さを生じさせる。
上記の問題に対処するために、GRES 用の \textbf{Co}unting-Aware \textbf{H}ierarchical \textbf{D}ecoding framework (CoHD) を提案する。
複雑な参照セマンティクスを視覚言語的階層で異なる粒度に分解し、それを内部および間選択で動的に集約することにより、CoHDは階層的な性質の相互利益によって多粒度理解を促進する。
さらに,マルチ/シングル/非ターゲットシナリオをカウントレベルおよびカテゴリレベルの監視に具体化することにより,包括的オブジェクト認識を促進する。
gRefCOCO, Ref-ZOM, R-RefCOCO, RefCOCOベンチマークの実験結果は, 最先端のGRES法よりも優れたCoHDの有効性と合理性を示した。
コードは \href{https://github.com/RobertLuo1/CoHD}{here} で公開されている。
関連論文リスト
- Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension [46.07415235144545]
一般参照表現(GREC)の課題に対処する。
既存のRECメソッドは、GRECで遭遇した複雑なケースを扱う際の課題に直面している。
階層的アライメント強化型適応グラウンドネットワーク(HieA2G)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:57:59Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。