論文の概要: InterRVOS: Interaction-aware Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2506.02356v3
- Date: Mon, 18 Aug 2025 07:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.009862
- Title: InterRVOS: Interaction-aware Referring Video Object Segmentation
- Title(参考訳): InterRVOS: ビデオオブジェクトセグメンテーションを参照するインタラクション対応
- Authors: Woojeong Jin, Seongchan Kim, Jaeho Lee, Seungryong Kim,
- Abstract要約: インタラクションのモデリングに焦点をあてた新しいタスクであるInterRVOS(Interaction-Aware Referring Video Object)を紹介する。
モデルはアクターとターゲットオブジェクトを別々に分割し、相互作用におけるそれらの非対称的な役割を反映する必要がある。
本稿では,127K以上のアノテート表現を持つ大規模データセットであるInterRVOS-127Kについて述べる。
- 参考スコア(独自算出の注目度): 44.55538737075162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) aims to segment objects in a video described by a natural language expression. However, most existing approaches focus on segmenting only the referred object (typically the actor), even when the expression clearly describes an interaction involving multiple objects with distinct roles. For instance, "A throwing B" implies a directional interaction, but standard RVOS segments only the actor (A), neglecting other involved target objects (B). In this paper, we introduce Interaction-aware Referring Video Object Segmentation (InterRVOS), a novel task that focuses on the modeling of interactions. It requires the model to segment the actor and target objects separately, reflecting their asymmetric roles in an interaction. This task formulation enables fine-grained understanding of object relationships, as many video events are defined by such relationships rather than individual objects. To support this task, we propose a new evaluation protocol that separately evaluates actor and target segmentation, enabling more accurate assessment of the model's ability to distinguish and segment actor and target roles. We also present InterRVOS-127K, a large-scale dataset with over 127K automatically annotated expressions, including interaction expressions annotated with distinct masks for actor and target objects. Furthermore, we develop ReVIOSa, an MLLM-based architecture that introduces interaction-aware special tokens and leverages an attention mask loss to enhance role-specific segmentation. Extensive experiments show that ReVIOSa not only outperforms existing baselines on our proposed InterRVOS-127K evaluation set, but also achieves strong performance on standard RVOS benchmarks. Our project page is available at: https://cvlab-kaist.github.io/InterRVOS.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、自然言語表現によって記述されたビデオ内のオブジェクトをセグメンテーションすることを目的としている。
しかしながら、既存のほとんどのアプローチは参照オブジェクト(典型的にはアクター)のみをセグメント化することに重点を置いている。
例えば、"A throw B"は方向性の相互作用を意味するが、標準的なRVOSセグメントはアクター(A)のみであり、他の関連するターゲットオブジェクト(B)を無視している。
本稿では,インタラクションのモデリングに焦点を当てた新しいタスクであるInterRVOS(Interference-Aware Referring Video Object Segmentation)を紹介する。
モデルはアクターとターゲットオブジェクトを別々に分割し、相互作用におけるそれらの非対称的な役割を反映する必要がある。
このタスクの定式化は、個々のオブジェクトではなく、そのような関係によって多くのビデオイベントが定義されるので、オブジェクトの関係のきめ細かい理解を可能にする。
この課題を支援するために,アクターとターゲットのセグメンテーションを別々に評価する新たな評価プロトコルを提案する。
また,127K以上のアノテート表現を持つ大規模データセットであるInterRVOS-127Kについて述べる。
さらに,MLLMをベースとして,対話対応の特別なトークンを導入し,アテンションマスクの損失を利用して役割特異的セグメンテーションを強化するアーキテクチャであるReVIOSaを開発した。
大規模な実験により、ReVIOSa は提案した InterRVOS-127K 評価セットで既存のベースラインを上回るだけでなく、標準 RVOS ベンチマークでも高い性能を発揮することが示された。
私たちのプロジェクトページは、https://cvlab-kaist.github.io/InterRVOS.com/で公開されています。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - RefCut: Interactive Segmentation with Reference Guidance [44.872055134890864]
RefCutは参照ベースのインタラクティブセグメンテーションフレームワークで、部分のあいまいさとオブジェクトのあいまいさに対処する。
私たちのコードは公開され、デモビデオはhttps://www.lin-zheng.com/refcut.comで公開されます。
論文 参考訳(メタデータ) (2025-03-22T17:14:20Z) - MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation [14.144097766150397]
MMR(Multi-target and Multi-granularity Reasoning)と呼ばれるデータセットを提案する。
MMRは194Kの複雑で暗黙的な命令で構成されており、マルチターゲット、オブジェクトレベル、そして部分レベルの側面を考慮に入れている。
本稿では,多目的,オブジェクトレベル,部分レベルの推論セグメンテーションのための,単純かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-18T04:23:09Z) - CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation [14.765419467710812]
エゴセントリック・インタラクティブ・ハンドオブジェクト・セグメンテーション(EgoIHOS)は補助システムにおける人間の行動を理解する上で重要である。
従来の手法では、視覚的特徴のみに基づいて、手とオブジェクトの相互作用を別個の意味圏として認識していた。
本稿では,2つの側面から手と物体の接触を強調するCaRe-Egoを提案する。
論文 参考訳(メタデータ) (2024-07-08T03:17:10Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。