論文の概要: SPOC: Spatially-Progressing Object State Change Segmentation in Video
- arxiv url: http://arxiv.org/abs/2503.11953v1
- Date: Sat, 15 Mar 2025 01:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:42.684097
- Title: SPOC: Spatially-Progressing Object State Change Segmentation in Video
- Title(参考訳): SPOC: ビデオ中のオブジェクトの状態変化セグメンテーションを空間的に進行させる
- Authors: Priyanka Mandikal, Tushar Nagarajan, Alex Stoken, Zihui Xue, Kristen Grauman,
- Abstract要約: 本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを紹介する。
目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。
本研究は,ロボットエージェントに役立てるために,活動進行の追跡に有用であることを示す。
- 参考スコア(独自算出の注目度): 52.65373395382122
- License:
- Abstract: Object state changes in video reveal critical information about human and agent activity. However, existing methods are limited to temporal localization of when the object is in its initial state (e.g., the unchopped avocado) versus when it has completed a state change (e.g., the chopped avocado), which limits applicability for any task requiring detailed information about the progress of the actions and its spatial localization. We propose to deepen the problem by introducing the spatially-progressing object state change segmentation task. The goal is to segment at the pixel-level those regions of an object that are actionable and those that are transformed. We introduce the first model to address this task, designing a VLM-based pseudo-labeling approach, state-change dynamics constraints, and a novel WhereToChange benchmark built on in-the-wild Internet videos. Experiments on two datasets validate both the challenge of the new task as well as the promise of our model for localizing exactly where and how fast objects are changing in video. We further demonstrate useful implications for tracking activity progress to benefit robotic agents. Project page: https://vision.cs.utexas.edu/projects/spoc-spatially-progressing-osc
- Abstract(参考訳): ビデオにおけるオブジェクトの状態の変化は、人間とエージェントの活動に関する重要な情報を明らかにする。
しかし、既存の手法は、オブジェクトが初期状態(例えば、切り刻まれていないアボカド)にあるときと、状態変化(例えば、切り刻まれたアボカド)を終えたときの時間的ローカライゼーションに限られており、アクションの進行と空間的ローカライゼーションに関する詳細な情報を必要とするタスクに対して適用性を制限する。
本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを導入することにより,問題をより深くすることを提案する。
目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。
本稿では、この課題に対処する最初のモデル、VLMベースの擬似ラベル手法、状態変化の動的制約、および、Wild Internetビデオ上に構築されたWhereToChangeベンチマークを紹介する。
2つのデータセットの実験は、新しいタスクの課題と、ビデオ内のオブジェクトがどれだけ速く変化しているかを正確にローカライズするためのモデルの約束の両方を検証する。
さらに,ロボットエージェントを有効活用するために,活動進行の追跡に有用であることを示す。
プロジェクトページ: https://vision.cs.utexas.edu/projects/spoc-spatially-progressing-osc
関連論文リスト
- ActionVOS: Actions as Prompts for Video Object Segmentation [22.922260726461477]
ActionVOSは、人間のアクションをキー言語プロンプトとして使用して、エゴセントリックなビデオの中でアクティブなオブジェクトのみをセグメンテーションすることを目的としている。
我々は、効率的なアクション誘導焦点損失を有する行動認識ラベルモジュールを開発した。
実験により、ActionVOSは不活性なオブジェクトのミスセグメンテーションを著しく減少させることが示された。
論文 参考訳(メタデータ) (2024-07-10T06:57:04Z) - Anticipating Object State Changes in Long Procedural Videos [0.8428703116072809]
提案するフレームワークは、近い将来に発生するオブジェクトの状態変化を、まだ見つからない人間の行動によって予測する。
これは、最近の視覚情報を表す学習された視覚機能と、過去のオブジェクトの状態変化とアクションを表す自然言語(NLP)機能を統合する。
提案手法は,映像理解システムの予測性能を高めるために,映像と言語的手がかりを統合する可能性も示している。
論文 参考訳(メタデータ) (2024-05-21T13:40:30Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Towards Improving Spatiotemporal Action Recognition in Videos [0.0]
最新鋭のリアルタイムオブジェクト検出器You Only Watch Once(YOWO)をモチーフに、その構造を変更して、アクション検出精度を高めることを目指しています。
ビデオにおけるYOWOの改善と不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-12-15T05:21:50Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。