論文の概要: Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2501.01416v1
- Date: Thu, 02 Jan 2025 18:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:36.247886
- Title: Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension
- Title(参考訳): 一般化参照表現理解のための階層的アライメント強化適応グラウンドネットワーク
- Authors: Yaxian Wang, Henghui Ding, Shuting He, Xudong Jiang, Bifan Wei, Jun Liu,
- Abstract要約: 一般参照表現(GREC)の課題に対処する。
既存のRECメソッドは、GRECで遭遇した複雑なケースを扱う際の課題に直面している。
階層的アライメント強化型適応グラウンドネットワーク(HieA2G)を提案する。
- 参考スコア(独自算出の注目度): 46.07415235144545
- License:
- Abstract: In this work, we address the challenging task of Generalized Referring Expression Comprehension (GREC). Compared to the classic Referring Expression Comprehension (REC) that focuses on single-target expressions, GREC extends the scope to a more practical setting by further encompassing no-target and multi-target expressions. Existing REC methods face challenges in handling the complex cases encountered in GREC, primarily due to their fixed output and limitations in multi-modal representations. To address these issues, we propose a Hierarchical Alignment-enhanced Adaptive Grounding Network (HieA2G) for GREC, which can flexibly deal with various types of referring expressions. First, a Hierarchical Multi-modal Semantic Alignment (HMSA) module is proposed to incorporate three levels of alignments, including word-object, phrase-object, and text-image alignment. It enables hierarchical cross-modal interactions across multiple levels to achieve comprehensive and robust multi-modal understanding, greatly enhancing grounding ability for complex cases. Then, to address the varying number of target objects in GREC, we introduce an Adaptive Grounding Counter (AGC) to dynamically determine the number of output targets. Additionally, an auxiliary contrastive loss is employed in AGC to enhance object-counting ability by pulling in multi-modal features with the same counting and pushing away those with different counting. Extensive experimental results show that HieA2G achieves new state-of-the-art performance on the challenging GREC task and also the other 4 tasks, including REC, Phrase Grounding, Referring Expression Segmentation (RES), and Generalized Referring Expression Segmentation (GRES), demonstrating the remarkable superiority and generalizability of the proposed HieA2G.
- Abstract(参考訳): 本稿では,一般参照表現理解(GREC)の課題に対処する。
単一ターゲット表現に焦点を当てた古典的参照式理解(REC)と比較して、GRECは、ターゲットなしおよびマルチターゲット表現をさらに包含することで、より実用的な設定にまで範囲を広げる。
既存のRECメソッドは、GRECで遭遇した複雑なケースを扱う上で、主に、その固定出力とマルチモーダル表現の制限のために困難に直面している。
これらの問題に対処するために,GREC のための階層的アライメント強化適応接地ネットワーク (HieA2G) を提案する。
まず,単語オブジェクト,フレーズオブジェクト,テキストイメージアライメントという3段階のアライメントを組み込むために,階層型マルチモーダルセマンティックアライメント(HMSA)モジュールを提案する。
複数のレベルにわたる階層的相互モーダル相互作用を可能とし、包括的で堅牢なマルチモーダル理解を実現し、複雑なケースに対する基盤能力を大幅に向上させる。
そこで, GRECにおける対象オブジェクトの変動数に対処するため, 適応接地カウンタ(AGC)を導入し, 出力対象の数を動的に決定する。
さらに、AGCでは、同じカウントでマルチモーダル特徴を引き込み、異なるカウントでそれらをプッシュすることで、オブジェクトカウント能力を高めるために、補助的なコントラスト損失が採用されている。
大規模な実験結果から,HieA2Gは課題であるGRECタスクと,REC,Phrase Grounding,Referring Expression Segmentation (RES),Generalized Referring Expression Segmentation (GRES)を含む4つのタスクに対して,新たな最先端性能を実現し,提案したHieA2Gの顕著な優位性と一般化性を示した。
関連論文リスト
- Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation [37.96005100341482]
Generalized Referring Expression (GRES)は、複雑な多重/非ターゲットシナリオを含むことによって、古典的なRESの定式化を増幅する。
近年のアプローチでは、オブジェクト指向の識別により、よく認識されたRESフレームワークを直接拡張することで、GRESに対処している。
GRESのための textbfCounting-Aware textbfHierarchical textbfDecoding framework (CoHD) を提案する。
論文 参考訳(メタデータ) (2024-05-24T15:53:59Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised
Referring Expression Grounding [214.8003571700285]
Referring Expression Grounding (REG) は、言語表現によって記述されたイメージにおいて特定のターゲットをグラウンドすることを目的としている。
我々は、エンティティ強化適応再構築ネットワーク(EARN)を設計する。
EARNには、エンティティの強化、適応的な接地、協調的な再構築の3つのモジュールが含まれている。
論文 参考訳(メタデータ) (2022-07-18T05:30:45Z) - HS3: Learning with Proper Task Complexity in Hierarchically Supervised
Semantic Segmentation [81.87943324048756]
本稿では,タスクの複雑さによって意味のある表現を学習するためのセグメンテーションネットワークの中間層を監督するトレーニングスキームである階層的意味論(Hierarchically Supervised Semantic,HS3)を提案する。
提案するHS3-Fuseフレームワークはセグメンテーション予測をさらに改善し、2つの大きなセグメンテーションベンチマークであるNYUD-v2とCityscapesで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-03T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。