論文の概要: RESAnything: Attribute Prompting for Arbitrary Referring Segmentation
- arxiv url: http://arxiv.org/abs/2505.02867v1
- Date: Sat, 03 May 2025 15:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.049991
- Title: RESAnything: Attribute Prompting for Arbitrary Referring Segmentation
- Title(参考訳): ReSAnything: Atribute Prompting for Arbitrary Referring Segmentation (英語)
- Authors: Ruiqi Wang, Hao Zhang,
- Abstract要約: 任意の参照表現セグメンテーション(RES)のためのオープン語彙とゼロショット法を提案する。
私たちのモデルはRESAnythingと呼ばれ、Chain-of-Thoughts (CoT)推論を利用しています。
我々は、パートレベルの任意のRESソリューションを評価するために、3Kを慎重にキュレートしたRESインスタンスを提供するために、新しいベンチマークデータセットをコントリビュートします。
- 参考スコア(独自算出の注目度): 11.205928115216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an open-vocabulary and zero-shot method for arbitrary referring expression segmentation (RES), targeting input expressions that are more general than what prior works were designed to handle. Specifically, our inputs encompass both object- and part-level labels as well as implicit references pointing to properties or qualities of object/part function, design, style, material, etc. Our model, coined RESAnything, leverages Chain-of-Thoughts (CoT) reasoning, where the key idea is attribute prompting. We generate detailed descriptions of object/part attributes including shape, color, and location for potential segment proposals through systematic prompting of a large language model (LLM), where the proposals are produced by a foundational image segmentation model. Our approach encourages deep reasoning about object or part attributes related to function, style, design, etc., enabling the system to handle implicit queries without any part annotations for training or fine-tuning. As the first zero-shot and LLM-based RES method, RESAnything achieves clearly superior performance among zero-shot methods on traditional RES benchmarks and significantly outperforms existing methods on challenging scenarios involving implicit queries and complex part-level relations. Finally, we contribute a new benchmark dataset to offer ~3K carefully curated RES instances to assess part-level, arbitrary RES solutions.
- Abstract(参考訳): 任意の参照表現セグメンテーション(RES)のためのオープンボキャブラリとゼロショットの手法を提案する。
具体的には、インプットには、オブジェクトレベルラベルと部分レベルラベルの両方に加えて、オブジェクト/パーツ機能、デザイン、スタイル、マテリアルの特性や品質を示す暗黙の参照が含まれています。
私たちのモデルはRESAnythingと呼ばれ、属性プロンプトをキーとするChain-of-Thoughts(CoT)推論を活用しています。
我々は,大言語モデル (LLM) の体系的なプロンプトにより, 形状, 色, 位置などのオブジェクト/部分属性の詳細な記述を生成する。
私たちのアプローチでは、関数やスタイル、設計などに関連するオブジェクトや部分の属性に関する深い推論を奨励し、トレーニングや微調整のためのアノテーションなしで暗黙的なクエリを処理できるようにします。
最初のゼロショット法とLLMベースのRES法として、RESAnythingは従来のRESベンチマークにおけるゼロショット法よりも明らかに優れた性能を示し、暗黙のクエリや複雑な部分レベルの関係を含む挑戦的なシナリオにおいて、既存の手法よりも大幅に優れている。
最後に、パートレベルの任意のRESソリューションを評価するために、3K程度の慎重にキュレートされたRESインスタンスを提供するために、新しいベンチマークデータセットを提供します。
関連論文リスト
- LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。
属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。
我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Beyond Object Categories: Multi-Attribute Reference Understanding for Visual Grounding [10.04904999444546]
Referring Expression comprehensionは、自然言語記述に基づくオブジェクトのローカライゼーションを実現することを目的としている。
既存のRECアプローチは、オブジェクトカテゴリ記述と単一属性の意図記述によって制約される。
我々は、状態記述、導出意図、およびターゲット対象物を特定するための具体的ジェスチャーを統合する新しいフレームワークであるMulti-ref ECを提案する。
論文 参考訳(メタデータ) (2025-03-25T00:59:58Z) - One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。
私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。
我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2025-03-03T03:50:54Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner [16.280644319404946]
Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクである。
本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。
論文 参考訳(メタデータ) (2024-02-08T11:40:50Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。