論文の概要: Towards Motion-aware Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2603.17413v1
- Date: Wed, 18 Mar 2026 06:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.550746
- Title: Towards Motion-aware Referring Image Segmentation
- Title(参考訳): 画像セグメンテーションに基づく動き認識に向けて
- Authors: Chaeyun Kim, Seunghoon Yi, Yejin Kim, Yohan Jo, Joonseok Lee,
- Abstract要約: 原文から動き中心のフレーズを抽出する効率的なデータ拡張手法を提案する。
また,融合画像テキスト埋め込みを用いたMRaCL(Multimodal Radial Contrastive Learning)を提案する。
実験により,複数のRISモデルにまたがる動作中心クエリの性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 26.074329533044914
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring Image Segmentation (RIS) requires identifying objects from images based on textual descriptions. We observe that existing methods significantly underperform on motion-related queries compared to appearance-based ones. To address this, we first introduce an efficient data augmentation scheme that extracts motion-centric phrases from original captions, exposing models to more motion expressions without additional annotations. Second, since the same object can be described differently depending on the context, we propose Multimodal Radial Contrastive Learning (MRaCL), performed on fused image-text embeddings rather than unimodal representations. For comprehensive evaluation, we introduce a new test split focusing on motion-centric queries, and introduce a new benchmark called M-Bench, where objects are distinguished primarily by actions. Extensive experiments show our method substantially improves performance on motion-centric queries across multiple RIS models, maintaining competitive results on appearance-based descriptions. Codes are available at https://github.com/snuviplab/MRaCL
- Abstract(参考訳): 画像セグメンテーション(RIS)を参照するには、テキスト記述に基づいて画像からオブジェクトを識別する必要がある。
既存の手法は、外見に基づく手法に比べて、動作関連クエリでは著しく性能が劣っていることが観察された。
そこで我々はまず,従来のキャプションから動き中心のフレーズを抽出し,追加アノテーションを使わずにより多くの動き表現にモデルを公開する効率的なデータ拡張手法を提案する。
第2に、同じオブジェクトを文脈によって異なる記述が可能であるため、単項表現ではなく、融合した画像テキストの埋め込みを行うMRaCL(Multimodal Radial Contrastive Learning)を提案する。
総合的な評価のために、動き中心のクエリに焦点を当てた新しいテスト分割を導入し、M-Benchと呼ばれる新しいベンチマークを導入する。
大規模な実験により,複数のRISモデルにまたがる動き中心クエリの性能が大幅に向上し,外見に基づく記述の競合結果の維持が図られた。
コードはhttps://github.com/snuviplab/MRaCLで入手できる。
関連論文リスト
- OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。