論文の概要: Learning Object State Changes in Videos: An Open-World Perspective
- arxiv url: http://arxiv.org/abs/2312.11782v1
- Date: Tue, 19 Dec 2023 01:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:22:28.622962
- Title: Learning Object State Changes in Videos: An Open-World Perspective
- Title(参考訳): ビデオでオブジェクトの状態変化を学ぶ: オープンワールドの視点から
- Authors: Zihui Xue, Kumar Ashutosh, Kristen Grauman
- Abstract要約: 本稿では,オブジェクト状態変化問題に対する新しいオープンワールドの定式化について紹介する。
目標は、OSCの3つのステージ -- オブジェクトの初期状態、遷移状態、そして最終状態 -- を時間的にローカライズすることだ。
We present HowToChange, a first open-world benchmark for video OSC localization。
- 参考スコア(独自算出の注目度): 62.66597078360625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object State Changes (OSCs) are pivotal for video understanding. While humans
can effortlessly generalize OSC understanding from familiar to unknown objects,
current approaches are confined to a closed vocabulary. Addressing this gap, we
introduce a novel open-world formulation for the video OSC problem. The goal is
to temporally localize the three stages of an OSC -- the object's initial
state, its transitioning state, and its end state -- whether or not the object
has been observed during training. Towards this end, we develop VidOSC, a
holistic learning approach that: (1) leverages text and vision-language models
for supervisory signals to obviate manually labeling OSC training data, and (2)
abstracts fine-grained shared state representations from objects to enhance
generalization. Furthermore, we present HowToChange, the first open-world
benchmark for video OSC localization, which offers an order of magnitude
increase in the label space and annotation volume compared to the best existing
benchmark. Experimental results demonstrate the efficacy of our approach, in
both traditional closed-world and open-world scenarios.
- Abstract(参考訳): オブジェクト状態変化(OSC)は、ビデオ理解において重要な要素である。
人間は未知の物体へのosc理解を無力に一般化することができるが、現在のアプローチは閉じた語彙に限定されている。
このギャップに対処し,ビデオosc問題に対する新しいオープンワールド定式化を提案する。
目標は、トレーニング中にオブジェクトが観察されたかどうかに関わらず、OSCの3つのステージ -- オブジェクトの初期状態、遷移状態、および最終状態 -- を時間的にローカライズすることだ。
この目的に向けて,(1)oscトレーニングデータの手作業によるラベル付けを回避し,(2)オブジェクトからのきめ細かい共有状態表現を抽象化し,一般化を促進する,総合的な学習手法であるvidoscを開発した。
さらに,ビデオOSCローカライゼーションのための最初のオープンワールドベンチマークであるHowToChangeについて述べる。
実験により,従来のクローズドワールドシナリオとオープンワールドシナリオの両方において,我々のアプローチの有効性が示された。
関連論文リスト
- OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - LaViP:Language-Grounded Visual Prompts [27.57227844809257]
下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。
言語統合に乗じて、視覚エンコーダの入力を調整するためのパラメータ効率の戦略を考案する。
我々のアルゴリズムはブラックボックスのシナリオでも動作可能であり、モデルのパラメータへのアクセスが制約された状況において適応性を示す。
論文 参考訳(メタデータ) (2023-12-18T05:50:10Z) - Unsupervised Open-Vocabulary Object Localization in Videos [120.97719398272919]
近年,映像表現学習と事前学習型視覚言語モデルの進歩により,自己教師付き映像オブジェクトのローカライゼーションが大幅に向上したことを示す。
本稿では、まず、スロットアテンションアプローチを用いてビデオ内のオブジェクトをローカライズし、得られたスロットにテキストを割り当てる手法を提案する。
論文 参考訳(メタデータ) (2023-09-18T15:20:13Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Open-World Weakly-Supervised Object Localization [26.531408294517416]
我々は、OWSOL(Open-World Weakly-Supervised Object Localization)と呼ばれる、新しい弱い教師付きオブジェクトローカライゼーションタスクを導入する。
本稿では、ラベル付きデータとラベルなしデータの両方を用いて、オブジェクトローカライゼーションのための完全なG-CAMを生成するコントラスト表現協調学習のパラダイムを提案する。
我々は、画像Net-1KとiNatLoc500という2つの広く使われているデータセットを再編成し、OWSOLの評価ベンチマークとしてOpenImages150を提案する。
論文 参考訳(メタデータ) (2023-04-17T13:31:59Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - ActBERT: Learning Global-Local Video-Text Representations [74.29748531654474]
本稿では,未ラベルデータからの共同ビデオテキスト表現の自己教師型学習のための ActBERT を提案する。
我々はグローバルな行動情報を活用し、言語テキストと地域オブジェクト間の相互相互作用を触媒する。
ActBERTは最先端技術よりも優れており、ビデオテキスト表現学習においてその優位性を示している。
論文 参考訳(メタデータ) (2020-11-14T07:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。