論文の概要: InterRVOS: Interaction-aware Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2506.02356v1
- Date: Tue, 03 Jun 2025 01:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.189949
- Title: InterRVOS: Interaction-aware Referring Video Object Segmentation
- Title(参考訳): InterRVOS: ビデオオブジェクトセグメンテーションを参照するインタラクション対応
- Authors: Woojeong Jin, Seongchan Kim, Seungryong Kim,
- Abstract要約: ビデオオブジェクトのセグメンテーションの参照は、与えられた自然言語表現に対応するビデオ内のオブジェクトをセグメンテーションすることを目的としている。
包括的なビデオ理解では、オブジェクトの役割は、他のエンティティとの相互作用によって定義されることが多い。
本稿では,インタラクションに関わるアクターとターゲットエンティティのセグメンテーションを必要とする新しいタスクであるInterRVOSを紹介する。
- 参考スコア(独自算出の注目度): 37.53744746544299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation aims to segment the object in a video corresponding to a given natural language expression. While prior works have explored various referring scenarios, including motion-centric or multi-instance expressions, most approaches still focus on localizing a single target object in isolation. However, in comprehensive video understanding, an object's role is often defined by its interactions with other entities, which are largely overlooked in existing datasets and models. In this work, we introduce Interaction-aware referring video object sgementation (InterRVOS), a new task that requires segmenting both actor and target entities involved in an interaction. Each interactoin is described through a pair of complementary expressions from different semantic perspectives, enabling fine-grained modeling of inter-object relationships. To tackle this task, we propose InterRVOS-8K, the large-scale and automatically constructed dataset containing diverse interaction-aware expressions with corresponding masks, including challenging cases such as motion-only multi-instance expressions. We also present a baseline architecture, ReVIOSa, designed to handle actor-target segmentation from a single expression, achieving strong performance in both standard and interaction-focused settings. Furthermore, we introduce an actor-target-aware evalaution setting that enables a more targeted assessment of interaction understanding. Experimental results demonstrate that our approach outperforms prior methods in modeling complex object interactions for referring video object segmentation task, establishing a strong foundation for future research in interaction-centric video understanding. Our project page is available at \href{https://cvlab-kaist.github.io/InterRVOS}{https://cvlab-kaist.github.io/InterRVOS}.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションの参照は、与えられた自然言語表現に対応するビデオ内のオブジェクトをセグメンテーションすることを目的としている。
従来の研究では、動き中心やマルチインスタンス表現など、さまざまな参照シナリオが検討されてきたが、ほとんどのアプローチは、単一ターゲットオブジェクトを独立してローカライズすることに集中している。
しかしながら、包括的なビデオ理解では、オブジェクトの役割は、既存のデータセットやモデルでほとんど見過ごされる他のエンティティとの相互作用によって定義されることが多い。
本研究では,インタラクションに関わるアクターとターゲットエンティティのセグメンテーションを必要とする新しいタスクであるInterRVOS(Interactive-Aware Reference Video Object sgementation)を紹介する。
それぞれの相互作用は、異なる意味的な視点から一対の相補的な表現を通して記述され、オブジェクト間の関係のきめ細かいモデリングを可能にする。
この課題に対処するため,InterRVOS-8Kを提案する。InterRVOS-8Kは,動作のみのマルチインスタンス表現などの課題を含む,多様な対話対応表現を含む大規模かつ自動構築されたデータセットである。
また,1つの表現からアクターとターゲットのセグメンテーションを扱うためのベースラインアーキテクチャReVIOSaを提案する。
さらに,よりターゲットを絞った対話理解の評価を可能にするアクター・ターゲット・アウェア・エロージョン・セッティングを導入する。
実験により,本手法は,ビデオオブジェクト分割タスクを参照するための複雑なオブジェクトインタラクションをモデル化する従来の手法よりも優れており,インタラクション中心の映像理解における今後の研究の基盤となることが実証された。
プロジェクトページは \href{https://cvlab-kaist.github.io/InterRVOS}{https://cvlab-kaist.github.io/InterRVOS} で公開されている。
関連論文リスト
- RefCut: Interactive Segmentation with Reference Guidance [44.872055134890864]
RefCutは参照ベースのインタラクティブセグメンテーションフレームワークで、部分のあいまいさとオブジェクトのあいまいさに対処する。
私たちのコードは公開され、デモビデオはhttps://www.lin-zheng.com/refcut.comで公開されます。
論文 参考訳(メタデータ) (2025-03-22T17:14:20Z) - MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation [14.144097766150397]
MMR(Multi-target and Multi-granularity Reasoning)と呼ばれるデータセットを提案する。
MMRは194Kの複雑で暗黙的な命令で構成されており、マルチターゲット、オブジェクトレベル、そして部分レベルの側面を考慮に入れている。
本稿では,多目的,オブジェクトレベル,部分レベルの推論セグメンテーションのための,単純かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-18T04:23:09Z) - CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation [14.765419467710812]
エゴセントリック・インタラクティブ・ハンドオブジェクト・セグメンテーション(EgoIHOS)は補助システムにおける人間の行動を理解する上で重要である。
従来の手法では、視覚的特徴のみに基づいて、手とオブジェクトの相互作用を別個の意味圏として認識していた。
本稿では,2つの側面から手と物体の接触を強調するCaRe-Egoを提案する。
論文 参考訳(メタデータ) (2024-07-08T03:17:10Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。