論文の概要: AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2602.22740v1
- Date: Thu, 26 Feb 2026 08:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.59465
- Title: AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation
- Title(参考訳): AMLRIS:画像セグメンテーションの参照のためのアライメント・アウェア・マスクドラーニング
- Authors: Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang,
- Abstract要約: Referring Image introduces (RIS)は、自然言語表現によって識別された画像にオブジェクトをセグメントすることを目的としている。
本稿では,AML(Alignment-Aware Masked Learning)を提案する。
このアプローチにより、RefCOCOデータセットの最先端のパフォーマンスが向上し、さまざまな説明やシナリオに対する堅牢性も向上する。
- 参考スコア(独自算出の注目度): 28.871630416634883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Segmentation (RIS) aims to segment an object in an image identified by a natural language expression. The paper introduces Alignment-Aware Masked Learning (AML), a training strategy to enhance RIS by explicitly estimating pixel-level vision-language alignment, filtering out poorly aligned regions during optimization, and focusing on trustworthy cues. This approach results in state-of-the-art performance on RefCOCO datasets and also enhances robustness to diverse descriptions and scenarios
- Abstract(参考訳): Referring Image Segmentation (RIS)は、自然言語表現によって識別された画像にオブジェクトをセグメントすることを目的としている。
本稿では,AML(Alignment-Aware Masked Learning)について紹介する。これは,画素レベルの視覚言語アライメントを明示的に推定し,最適化中に不整合領域をフィルタリングし,信頼性の高い手がかりに焦点を当てることで,RISを強化するためのトレーニング戦略である。
このアプローチにより、RefCOCOデータセットの最先端のパフォーマンスが向上し、さまざまな説明やシナリオに対する堅牢性が向上する。
関連論文リスト
- Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。
SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文 参考訳(メタデータ) (2025-05-25T17:42:53Z) - FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation [38.3201448852059]
Referring Image Code (RIS)は、画像内のオブジェクトの識別とセグメンテーションを含む高度な視覚認識タスクである。
我々はMasked Referring Image Code (MaskRIS)と呼ばれる新しいトレーニングフレームワークを提案する。
MaskRISは画像とテキストのマスキングの両方を使用し、次にContextual Learningを使用してマスキング戦略の利点を完全に活用する。
論文 参考訳(メタデータ) (2024-11-28T11:27:56Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。