論文の概要: GREx: Generalized Referring Expression Segmentation, Comprehension, and Generation
- arxiv url: http://arxiv.org/abs/2601.05244v1
- Date: Thu, 08 Jan 2026 18:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.354007
- Title: GREx: Generalized Referring Expression Segmentation, Comprehension, and Generation
- Title(参考訳): GREx: 一般的な参照表現のセグメンテーション、理解、生成
- Authors: Henghui Ding, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang,
- Abstract要約: 本稿では、GRES(Generalized Referring Expression)、GREC(GREC)、GREG(Generation)という3つの新しいベンチマークを紹介する。
GRExは古典的なRExを拡張して、式が任意の数のオブジェクトを識別できるようにする。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含む最初の大規模GRExデータセットgRefCOCOを構築した。
- 参考スコア(独自算出の注目度): 99.51887959226735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Segmentation (RES) and Comprehension (REC) respectively segment and detect the object described by an expression, while Referring Expression Generation (REG) generates an expression for the selected object. Existing datasets and methods commonly support single-target expressions only, i.e., one expression refers to one object, not considering multi-target and no-target expressions. This greatly limits the real applications of REx (RES/REC/REG). This paper introduces three new benchmarks called Generalized Referring Expression Segmentation (GRES), Comprehension (GREC), and Generation (GREG), collectively denoted as GREx, which extend the classic REx to allow expressions to identify an arbitrary number of objects. We construct the first large-scale GREx dataset gRefCOCO that contains multi-target, no-target, and single-target expressions and their corresponding images with labeled targets. GREx and gRefCOCO are designed to be backward-compatible with REx, facilitating extensive experiments to study the performance gap of the existing REx methods on GREx tasks. One of the challenges of GRES/GREC is complex relationship modeling, for which we propose a baseline ReLA that adaptively divides the image into regions with sub-instance clues and explicitly models the region-region and region-language dependencies. The proposed ReLA achieves the state-of-the-art results on the both GRES and GREC tasks. The proposed gRefCOCO dataset and method are available at https://henghuiding.github.io/GREx.
- Abstract(参考訳): Referring Expression Segmentation(RES)とComprehension(REC)はそれぞれ、表現によって記述されたオブジェクトをセグメントし、検出し、Referring Expression Generation(REG)は、選択されたオブジェクトに対する式を生成する。
既存のデータセットやメソッドは、単一のターゲット表現のみを一般的にサポートしている。
これにより、REx(RES/REC/REG)の実際の応用は大幅に制限される。
本稿では、GRES(Generalized Referring Expression Segmentation)、GREC(Comprehension)、GREG(Generation)という3つの新しいベンチマークを紹介する。
我々は、マルチターゲット、ノーターゲット、シングルターゲット表現を含む最初の大規模GRExデータセットgRefCOCOと、ラベル付きターゲットを持つ対応する画像を構築する。
GRExとgRefCOCOはRexと後方互換性を持つように設計されており、GRExタスク上の既存のRExメソッドのパフォーマンスギャップを研究するための広範な実験を容易にする。
GRES/GRECの課題の1つは、複雑な関係モデリングであり、これは、イメージをサブインスタンスのヒントで領域に適応的に分割し、領域領域および領域言語依存を明示的にモデル化するベースラインReLAを提案する。
提案したReLAは、GRESとGRECの両方のタスクで最先端の結果を達成する。
提案されているgRefCOCOデータセットとメソッドはhttps://henghuiding.github.io/GRExで公開されている。
関連論文リスト
- SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images [49.52402091341301]
現在のモデルは単純な単一ターゲットのコマンドを解析できるが、複雑な地理空間シナリオで表されると失敗する。
総合的なトレーニングと評価のために構築された最初の大規模データセットであるLaSeRSを紹介する。
また,SegEarth-R2 は RS における包括的言語誘導セグメンテーションのために設計されたMLLM アーキテクチャである。
論文 参考訳(メタデータ) (2025-12-23T03:10:17Z) - ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval [125.19156877994612]
生成検索(GR)は、情報検索(IR)を文書識別子(ドシデント)の生成としてフレーミングすることによって再構成する
我々は、自然言語命令を利用して幅広いIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークであるtextscZeroGRを提案する。
具体的には、textscZeroGRは、3つのキーコンポーネントで構成されている: (i)不均一な文書を意味的に意味のあるドシデントに統一するLMベースのドシデントジェネレータ; (ii)自然言語タスク記述から様々なタイプのクエリを生成し、拡張する命令チューニングクエリジェネレータ。
論文 参考訳(メタデータ) (2025-10-12T03:04:24Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - GREC: Generalized Referring Expression Comprehension [52.83101289813662]
本研究は、GREC(Generalized Referring Expression)と呼ばれる新しいベンチマークを導入する。
このベンチマークは、任意の数のターゲットオブジェクトを記述する式を許可することで、古典的なRECを拡張している。
この目標を達成するため、私たちはgRefCOCOと呼ばれる最初の大規模GRECデータセットを構築しました。
論文 参考訳(メタデータ) (2023-08-30T17:58:50Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Advancing Referring Expression Segmentation Beyond Single Image [12.234097959235417]
GRES(Group-wise Referring Expression)という,より現実的で一般的な設定を提案する。
GRESは関連する画像のコレクションに拡張され、記述されたオブジェクトが入力された画像のサブセットに存在するようになる。
与えられた表現によって記述された対象オブジェクトの完全なグループワイドアノテーションを含むGRD(Grouped Referring)という,精巧にコンパイルされたデータセットを紹介した。
論文 参考訳(メタデータ) (2023-05-21T13:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。