Fugu-MT 論文翻訳(概要): Instance-Aware Generalized Referring Expression Segmentation

論文の概要: Instance-Aware Generalized Referring Expression Segmentation

arxiv url: http://arxiv.org/abs/2411.15087v1
Date: Fri, 22 Nov 2024 17:28:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.239933
Title: Instance-Aware Generalized Referring Expression Segmentation
Title（参考訳）: インスタンス対応一般化参照式セグメンテーション
Authors: E-Ro Nguyen, Hieu Le, Dimitris Samaras, Michael Ryoo,
Abstract要約: InstAlignは、セグメンテーションプロセスにオブジェクトレベルの推論を組み込むメソッドである。提案手法は最先端性能を著しく向上させ, 高精度かつ柔軟なGRESのための新しい標準を設定した。
参考スコア（独自算出の注目度）: 32.96760407482406
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recent works on Generalized Referring Expression Segmentation (GRES) struggle with handling complex expressions referring to multiple distinct objects. This is because these methods typically employ an end-to-end foreground-background segmentation and lack a mechanism to explicitly differentiate and associate different object instances to the text query. To this end, we propose InstAlign, a method that incorporates object-level reasoning into the segmentation process. Our model leverages both text and image inputs to extract a set of object-level tokens that capture both the semantic information in the input prompt and the objects within the image. By modeling the text-object alignment via instance-level supervision, each token uniquely represents an object segment in the image, while also aligning with relevant semantic information from the text. Extensive experiments on the gRefCOCO and Ref-ZOM benchmarks demonstrate that our method significantly advances state-of-the-art performance, setting a new standard for precise and flexible GRES.
Abstract（参考訳）: 一般化参照表現セグメンテーション(GRES)に関する最近の研究は、複数の異なるオブジェクトを参照する複雑な表現を扱うのに苦労している。これは、通常、これらのメソッドは、エンドツーエンドのフォアグラウンド-バックグラウンドセグメンテーションを使用し、異なるオブジェクトインスタンスをテキストクエリに明示的に識別し関連付けるメカニズムを欠いているためである。そこで本研究では,オブジェクトレベルの推論をセグメンテーションプロセスに組み込む手法であるInstAlignを提案する。本モデルでは,テキスト入力と画像入力の両方を利用して,入力プロンプト内の意味情報と画像内のオブジェクトの両方をキャプチャするオブジェクトレベルのトークンの集合を抽出する。インスタンスレベルの監督を通じてテキストオブジェクトのアライメントをモデル化することにより、各トークンは画像内のオブジェクトセグメントを独自に表現し、テキストから関連するセマンティック情報と整合する。 gRefCOCOとRef-ZOMベンチマークの大規模な実験により、我々の手法が最先端性能を大幅に向上し、正確で柔軟なGRESの新しい標準が設定された。

関連論文リスト

SimToken: A Simple Baseline for Referring Audio-Visual Segmentation [29.88252418748085]
Referring Audio-Visual (Ref-AVS) は、自然言語表現に基づいて、特定のオブジェクトをビデオに分割することを目的としている。このタスクは、クロスモーダル推論ときめ細かいオブジェクトローカライゼーションにおいて重要な課題を提起する。我々はSegment Anything Model(SAM)とMLLM(Multimodal large language model)を統合したSimTokenというフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-22T08:55:04Z)
Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2025-09-08T04:07:14Z)
Latent Expression Generation for Referring Image Segmentation and Grounding [13.611995923070426]
既存のほとんどのメソッドは単一のテキスト入力に依存しており、視覚領域で利用可能なリッチな情報のごく一部しか取得できない。このリッチ・ビジュアル・ディテールと粗雑なテキスト・キューのミスマッチは、類似したオブジェクトの誤識別につながる可能性がある。単一のテキスト入力から生成された複数の潜在表現を利用する新しい視覚的グラウンドディングフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-07T07:57:27Z)
Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2024-07-14T15:02:54Z)
Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。 CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文参考訳（メタデータ） (2023-09-02T20:53:42Z)
Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。 2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文参考訳（メタデータ） (2023-08-26T11:39:22Z)
Synthetic Instance Segmentation from Semantic Image Segmentation Masks [15.477053085267404]
我々は、Synthetic Instance(SISeg)と呼ばれる新しいパラダイムを提案する。 SISegインスタンスセグメンテーションの結果は、既存のセマンティックセグメンテーションモデルによって生成されたイメージマスクを活用する。言い換えれば、提案モデルは余分な人力や高い計算コストを必要としない。
論文参考訳（メタデータ） (2023-08-02T05:13:02Z)
Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。 HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文参考訳（メタデータ） (2023-07-03T06:02:15Z)
ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文参考訳（メタデータ） (2023-01-31T01:57:52Z)
Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文参考訳（メタデータ） (2022-12-06T21:42:05Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
Instance-Specific Feature Propagation for Referring Segmentation [28.58551450280675]
セグメンテーションの参照は、自然言語表現で示されるターゲットインスタンスのセグメンテーションマスクを生成することを目的としている。本稿では,特徴伝搬により興味の対象を同時に検出し,きめ細かいセグメンテーションマスクを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-26T07:08:14Z)
Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。私たちのフレームワークはシンプルですが驚くほど効果的です。
論文参考訳（メタデータ） (2021-03-30T12:25:27Z)
Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文参考訳（メタデータ） (2020-10-01T16:02:30Z)
Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文参考訳（メタデータ） (2020-07-20T12:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。