論文の概要: SynRES: Towards Referring Expression Segmentation in the Wild via Synthetic Data
- arxiv url: http://arxiv.org/abs/2505.17695v1
- Date: Fri, 23 May 2025 10:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.983352
- Title: SynRES: Towards Referring Expression Segmentation in the Wild via Synthetic Data
- Title(参考訳): SynRES: 合成データによる野生における表現セグメンテーションの参照に向けて
- Authors: Dong-Hee Kim, Hyunjee Song, Donghyun Kim,
- Abstract要約: WildRESは、多様な属性を持つ長いクエリと、複数のターゲットに対する識別できないクエリを組み込んだ、新しいベンチマークである。
解析の結果,WildRESを用いた場合,現在のRESモデルでは性能が著しく低下していることが判明した。
この課題に対処するために、密集した合成学習データを生成する自動パイプラインであるSynRESを紹介する。
- 参考スコア(独自算出の注目度): 4.962252439662465
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the advances in Referring Expression Segmentation (RES) benchmarks, their evaluation protocols remain constrained, primarily focusing on either single targets with short queries (containing minimal attributes) or multiple targets from distinctly different queries on a single domain. This limitation significantly hinders the assessment of more complex reasoning capabilities in RES models. We introduce WildRES, a novel benchmark that incorporates long queries with diverse attributes and non-distinctive queries for multiple targets. This benchmark spans diverse application domains, including autonomous driving environments and robotic manipulation scenarios, thus enabling more rigorous evaluation of complex reasoning capabilities in real-world settings. Our analysis reveals that current RES models demonstrate substantial performance deterioration when evaluated on WildRES. To address this challenge, we introduce SynRES, an automated pipeline generating densely paired compositional synthetic training data through three innovations: (1) a dense caption-driven synthesis for attribute-rich image-mask-expression triplets, (2) reliable semantic alignment mechanisms rectifying caption-pseudo mask inconsistencies via Image-Text Aligned Grouping, and (3) domain-aware augmentations incorporating mosaic composition and superclass replacement to emphasize generalization ability and distinguishing attributes over object categories. Experimental results demonstrate that models trained with SynRES achieve state-of-the-art performance, improving gIoU by 2.0% on WildRES-ID and 3.8% on WildRES-DS. Code and datasets are available at https://github.com/UTLLab/SynRES.
- Abstract(参考訳): Referring Expression Segmentation (RES)ベンチマークの進歩にもかかわらず、その評価プロトコルは制約を保ち、主に短いクエリ(最小限の属性を含む)を持つ単一ターゲットか、ひとつのドメイン上の異なるクエリの複数のターゲットに重点を置いている。
この制限により、RESモデルにおけるより複雑な推論能力の評価が著しく妨げられる。
WildRESは、多様な属性を持つ長いクエリと、複数のターゲットに対する識別できないクエリを組み込んだ、新しいベンチマークである。
このベンチマークは、自律運転環境やロボット操作シナリオを含む多様なアプリケーション領域にまたがっており、現実の環境で複雑な推論能力をより厳格に評価することができる。
解析の結果,WildRESを用いた場合,現在のRESモデルでは性能が著しく低下していることが判明した。
この課題に対処するために,(1)属性リッチなイメージマスク表現三重項に対する高密度キャプション駆動合成,(2)画像テキストアラインド・グループ化によるキャプション・プシュードマスクの不整合の是正のための信頼性の高いセマンティックアライメント機構,(3)モザイク合成とスーパークラス置換を組み込んだドメイン認識強化,の3つの革新を通じて合成合成トレーニングデータを生成するSynRESを紹介した。
実験の結果,SynRESでトレーニングしたモデルは最先端の性能を達成でき,gIoUはWildRES-IDで2.0%,WildRES-DSで3.8%向上した。
コードとデータセットはhttps://github.com/UTLLab/SynRESで公開されている。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner [16.280644319404946]
Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクである。
本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。
論文 参考訳(メタデータ) (2024-02-08T11:40:50Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - AutoTriggER: Label-Efficient and Robust Named Entity Recognition with
Auxiliary Trigger Extraction [54.20039200180071]
我々は,エンティティトリガの自動生成と活用によるNER性能向上のための新しいフレームワークを提案する。
筆者らのフレームワークは,ポストホックな説明を活用して合理的な知識を生成し,埋め込み手法を用いてモデルの事前知識を強化する。
AutoTriggERは強力なラベル効率を示し、目に見えないエンティティを一般化し、RoBERTa-CRFベースラインを平均0.5F1ポイント上回る性能を持つ。
論文 参考訳(メタデータ) (2021-09-10T08:11:56Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。