論文の概要: Learning Object State Changes in Videos: An Open-World Perspective
- arxiv url: http://arxiv.org/abs/2312.11782v2
- Date: Wed, 3 Apr 2024 16:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:37:19.208266
- Title: Learning Object State Changes in Videos: An Open-World Perspective
- Title(参考訳): ビデオにおけるオブジェクトの状態変化の学習 : オープンワールドの視点から
- Authors: Zihui Xue, Kumar Ashutosh, Kristen Grauman,
- Abstract要約: 本稿では,オブジェクト状態変化問題に対する新しいオープンワールドの定式化について紹介する。
目標は、OSCの3つのステージ -- オブジェクトの初期状態、遷移状態、そして最終状態 -- を時間的にローカライズすることだ。
We present HowToChange, a first open-world benchmark for video OSC localization。
- 参考スコア(独自算出の注目度): 55.757614346710014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object State Changes (OSCs) are pivotal for video understanding. While humans can effortlessly generalize OSC understanding from familiar to unknown objects, current approaches are confined to a closed vocabulary. Addressing this gap, we introduce a novel open-world formulation for the video OSC problem. The goal is to temporally localize the three stages of an OSC -- the object's initial state, its transitioning state, and its end state -- whether or not the object has been observed during training. Towards this end, we develop VidOSC, a holistic learning approach that: (1) leverages text and vision-language models for supervisory signals to obviate manually labeling OSC training data, and (2) abstracts fine-grained shared state representations from objects to enhance generalization. Furthermore, we present HowToChange, the first open-world benchmark for video OSC localization, which offers an order of magnitude increase in the label space and annotation volume compared to the best existing benchmark. Experimental results demonstrate the efficacy of our approach, in both traditional closed-world and open-world scenarios.
- Abstract(参考訳): オブジェクト状態変化(OSC)は、ビデオ理解において重要な要素である。
人類はOSCの理解を慣れ親しんだものから未知のものまで徹底的に一般化することができるが、現在のアプローチは閉じた語彙に限られている。
このギャップに対処するため,ビデオOSC問題に新たなオープンワールドの定式化を導入する。
目標は、トレーニング中にオブジェクトが観察されたかどうかに関わらず、OSCの3つのステージ -- オブジェクトの初期状態、遷移状態、および最終状態 -- を時間的にローカライズすることだ。
この目的に向けて,1)OSCトレーニングデータを手作業でラベル付けする上で,テキストおよび視覚言語モデルを活用すること,(2)オブジェクトからの詳細な共有状態表現を抽象化して一般化を促進すること,という,総合的な学習手法であるVidOSCを開発した。
さらに,ビデオOSCローカライゼーションのための最初のオープンワールドベンチマークであるHowToChangeについて述べる。
実験により,従来のクローズドワールドシナリオとオープンワールドシナリオの両方において,我々のアプローチの有効性が示された。
関連論文リスト
- Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Anticipating Object State Changes [0.8428703116072809]
提案するフレームワークは、近い将来に発生するオブジェクトの状態変化を、まだ見つからない人間の行動によって予測する。
これは、最近の視覚情報を表す学習された視覚機能と、過去のオブジェクトの状態変化とアクションを表す自然言語(NLP)機能を統合する。
提案手法は,映像理解システムの予測性能を高めるために,映像と言語的手がかりを統合する可能性も示している。
論文 参考訳(メタデータ) (2024-05-21T13:40:30Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Unsupervised Open-Vocabulary Object Localization in Videos [118.32792460772332]
近年,映像表現学習と事前学習型視覚言語モデルの進歩により,自己教師付き映像オブジェクトのローカライゼーションが大幅に向上したことを示す。
そこで本稿では,まず,スロットアテンションを考慮したオブジェクト中心アプローチを用いてビデオ内のオブジェクトをローカライズし,得られたスロットにテキストを割り当てる手法を提案する。
論文 参考訳(メタデータ) (2023-09-18T15:20:13Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Open-World Weakly-Supervised Object Localization [26.531408294517416]
我々は、OWSOL(Open-World Weakly-Supervised Object Localization)と呼ばれる、新しい弱い教師付きオブジェクトローカライゼーションタスクを導入する。
本稿では、ラベル付きデータとラベルなしデータの両方を用いて、オブジェクトローカライゼーションのための完全なG-CAMを生成するコントラスト表現協調学習のパラダイムを提案する。
我々は、画像Net-1KとiNatLoc500という2つの広く使われているデータセットを再編成し、OWSOLの評価ベンチマークとしてOpenImages150を提案する。
論文 参考訳(メタデータ) (2023-04-17T13:31:59Z) - ActBERT: Learning Global-Local Video-Text Representations [74.29748531654474]
本稿では,未ラベルデータからの共同ビデオテキスト表現の自己教師型学習のための ActBERT を提案する。
我々はグローバルな行動情報を活用し、言語テキストと地域オブジェクト間の相互相互作用を触媒する。
ActBERTは最先端技術よりも優れており、ビデオテキスト表現学習においてその優位性を示している。
論文 参考訳(メタデータ) (2020-11-14T07:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。