論文の概要: ActionVOS: Actions as Prompts for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2407.07402v1
- Date: Wed, 10 Jul 2024 06:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:41:30.231480
- Title: ActionVOS: Actions as Prompts for Video Object Segmentation
- Title(参考訳): ActionVOS: ビデオオブジェクトセグメンテーションのプロンプトとしてのアクション
- Authors: Liangyang Ouyang, Ruicong Liu, Yifei Huang, Ryosuke Furuta, Yoichi Sato,
- Abstract要約: ActionVOSは、人間のアクションをキー言語プロンプトとして使用して、エゴセントリックなビデオの中でアクティブなオブジェクトのみをセグメンテーションすることを目的としている。
我々は、効率的なアクション誘導焦点損失を有する行動認識ラベルモジュールを開発した。
実験により、ActionVOSは不活性なオブジェクトのミスセグメンテーションを著しく減少させることが示された。
- 参考スコア(独自算出の注目度): 22.922260726461477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Delving into the realm of egocentric vision, the advancement of referring video object segmentation (RVOS) stands as pivotal in understanding human activities. However, existing RVOS task primarily relies on static attributes such as object names to segment target objects, posing challenges in distinguishing target objects from background objects and in identifying objects undergoing state changes. To address these problems, this work proposes a novel action-aware RVOS setting called ActionVOS, aiming at segmenting only active objects in egocentric videos using human actions as a key language prompt. This is because human actions precisely describe the behavior of humans, thereby helping to identify the objects truly involved in the interaction and to understand possible state changes. We also build a method tailored to work under this specific setting. Specifically, we develop an action-aware labeling module with an efficient action-guided focal loss. Such designs enable ActionVOS model to prioritize active objects with existing readily-available annotations. Experimental results on VISOR dataset reveal that ActionVOS significantly reduces the mis-segmentation of inactive objects, confirming that actions help the ActionVOS model understand objects' involvement. Further evaluations on VOST and VSCOS datasets show that the novel ActionVOS setting enhances segmentation performance when encountering challenging circumstances involving object state changes. We will make our implementation available at https://github.com/ut-vision/ActionVOS.
- Abstract(参考訳): エゴセントリックなビジョンの領域に足を踏み入れると、ビデオオブジェクトセグメンテーション(RVOS)の進歩は、人間の活動を理解する上で重要なものとなる。
しかし、既存のRVOSタスクは、主にターゲットオブジェクトをセグメント化するためのオブジェクト名のような静的属性に依存し、ターゲットオブジェクトをバックグラウンドオブジェクトと区別したり、状態変更中のオブジェクトを識別する際の課題を提起する。
これらの問題に対処するために、人間のアクションをキー言語プロンプトとして用いたエゴセントリックビデオにおいて、アクティブなオブジェクトのみをセグメンテーションすることを目的とした、アクション対応RVOSセッティングであるActionVOSを提案する。
これは、人間の行動が人間の振舞いを正確に記述しているためであり、それによって相互作用に本当に関わっている物体を識別し、可能な状態変化を理解するのに役立ちます。
私たちはまた、この特定の設定の下で機能するように調整されたメソッドを構築します。
具体的には、効率的な行動誘導焦点損失を有する行動認識ラベルモジュールを開発する。
このような設計により、ActionVOSモデルは、既存の利用可能なアノテーションでアクティブなオブジェクトを優先順位付けできる。
VISORデータセットの実験結果は、ActionVOSが不活性なオブジェクトのミスセグメンテーションを著しく減らし、ActionVOSモデルがオブジェクトの関与を理解するのに役立つことを確認している。
VOSTとVSCOSデータセットのさらなる評価により、新しいActionVOS設定は、オブジェクトの状態変化に伴う困難な状況に遭遇する際のセグメンテーション性能を向上させることが示されている。
実装はhttps://github.com/ut-vision/ActionVOS.comで公開します。
関連論文リスト
- Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文 参考訳(メタデータ) (2023-05-22T11:56:10Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - Object Priors for Classifying and Localizing Unseen Actions [45.91275361696107]
本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。
上述の3つのセマンティックオブジェクトプリエントを導入し、単語の埋め込みを通じてセマンティックマッチングを拡張する。
ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。
論文 参考訳(メタデータ) (2021-04-10T08:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。