論文の概要: GREC: Generalized Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2308.16182v2
- Date: Sun, 24 Dec 2023 15:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:53:06.248529
- Title: GREC: Generalized Referring Expression Comprehension
- Title(参考訳): GREC:一般参照式理解
- Authors: Shuting He, Henghui Ding, Chang Liu, Xudong Jiang
- Abstract要約: 本研究は、GREC(Generalized Referring Expression)と呼ばれる新しいベンチマークを導入する。
このベンチマークは、任意の数のターゲットオブジェクトを記述する式を許可することで、古典的なRECを拡張している。
この目標を達成するため、私たちはgRefCOCOと呼ばれる最初の大規模GRECデータセットを構築しました。
- 参考スコア(独自算出の注目度): 52.83101289813662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of Classic Referring Expression Comprehension (REC) is to
produce a bounding box corresponding to the object mentioned in a given textual
description. Commonly, existing datasets and techniques in classic REC are
tailored for expressions that pertain to a single target, meaning a sole
expression is linked to one specific object. Expressions that refer to multiple
targets or involve no specific target have not been taken into account. This
constraint hinders the practical applicability of REC. This study introduces a
new benchmark termed as Generalized Referring Expression Comprehension (GREC).
This benchmark extends the classic REC by permitting expressions to describe
any number of target objects. To achieve this goal, we have built the first
large-scale GREC dataset named gRefCOCO. This dataset encompasses a range of
expressions: those referring to multiple targets, expressions with no specific
target, and the single-target expressions. The design of GREC and gRefCOCO
ensures smooth compatibility with classic REC. The proposed gRefCOCO dataset, a
GREC method implementation code, and GREC evaluation code are available at
https://github.com/henghuiding/gRefCOCO.
- Abstract(参考訳): Classic Referring Expression Comprehension (REC) の目的は、与えられたテキスト記述にあるオブジェクトに対応するバウンディングボックスを作成することである。
一般的に、classic recの既存のデータセットやテクニックは、単一のターゲットに関連する式用に調整されており、単一の表現が1つの特定のオブジェクトにリンクされることを意味する。
複数のターゲットを参照したり、特定のターゲットを含まない表現は考慮されていない。
この制約はRECの実用性を妨げる。
本稿では、GREC(Generalized Referring Expression Comprehension)と呼ばれる新しいベンチマークを紹介する。
このベンチマークは、任意の数のターゲットオブジェクトを記述する式を許可することで、古典的なRECを拡張する。
この目標を達成するため、私たちはgRefCOCOと呼ばれる最初の大規模GRECデータセットを構築しました。
このデータセットは、複数のターゲットを参照する表現、特定のターゲットを持たない表現、単一ターゲット表現を含む。
GRECとgRefCOCOの設計は、従来のRECとのスムーズな互換性を保証する。
提案されているgRefCOCOデータセット、GRECメソッド実装コード、GREC評価コードはhttps://github.com/henghuiding/gRefCOCOで利用可能である。
関連論文リスト
- CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation [37.96005100341482]
Generalized Referring Expression (GRES)は、複雑な多重/非ターゲットシナリオを含むことによって、古典的なRESの定式化を増幅する。
近年のアプローチでは、オブジェクト指向の識別により、よく認識されたRESフレームワークを直接拡張することで、GRESに対処している。
GRESのための textbfCounting-Aware textbfHierarchical textbfDecoding framework (CoHD) を提案する。
論文 参考訳(メタデータ) (2024-05-24T15:53:59Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Whether you can locate or not? Interactive Referring Expression
Generation [12.148963878497243]
本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
IREGは、一般的な評価指標において、過去の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-08-19T10:53:32Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - Referring Expression Comprehension Using Language Adaptive Inference [15.09309604460633]
本稿では,動的推論のための表現モデルとRECモデルの適応性について検討する。
本稿では,参照表現に条件付きRECモデルから言語適応を抽出できるLanguage Adaptive Subnets (LADS) というフレームワークを提案する。
RefCOCO, RefCO+, RefCOCOg, Referit の実験により, 提案手法はより高速な推論速度と最先端手法に対する高精度な精度を実現することを示した。
論文 参考訳(メタデータ) (2023-06-06T07:58:59Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Learning Non-target Knowledge for Few-shot Semantic Segmentation [160.69431034807437]
本稿では,クエリ中のBG領域とDO領域を明示的にマイニングし,除去するための,NTRE(Non-Target Region Elimination)ネットワークという新しいフレームワークを提案する。
A BG Mining Module (BGMM) was proposed to extract the BG region through learning a general BG prototype。
クエリ機能からBGおよびDO情報を逐次フィルタリングするBG除去モジュールとDO除去モジュールを提案する。
論文 参考訳(メタデータ) (2022-05-10T13:52:48Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。