論文の概要: Look for the Change: Learning Object States and State-Modifying Actions
from Untrimmed Web Videos
- arxiv url: http://arxiv.org/abs/2203.11637v1
- Date: Tue, 22 Mar 2022 11:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 14:13:46.897822
- Title: Look for the Change: Learning Object States and State-Modifying Actions
from Untrimmed Web Videos
- Title(参考訳): 変化を探る:未編集のWebビデオからオブジェクト状態と状態修正アクションを学ぶ
- Authors: Tom\'a\v{s} Sou\v{c}ek, Jean-Baptiste Alayrac, Antoine Miech, Ivan
Laptev, Josef Sivic
- Abstract要約: 人間の行動は、しばしば「リンゴを切る」や「コーヒーを飲む」といった対象状態の変化を引き起こす。
我々は、対応する対象状態とともに、状態修正動作を協調学習するための自己教師型モデルを開発する。
本モデルでは,ノイズ適応重み付けモジュールを少数の注釈付静止画像で教師する。
- 参考スコア(独自算出の注目度): 55.60442251060871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human actions often induce changes of object states such as "cutting an
apple", "cleaning shoes" or "pouring coffee". In this paper, we seek to
temporally localize object states (e.g. "empty" and "full" cup) together with
the corresponding state-modifying actions ("pouring coffee") in long uncurated
videos with minimal supervision. The contributions of this work are threefold.
First, we develop a self-supervised model for jointly learning state-modifying
actions together with the corresponding object states from an uncurated set of
videos from the Internet. The model is self-supervised by the causal ordering
signal, i.e. initial object state $\rightarrow$ manipulating action
$\rightarrow$ end state. Second, to cope with noisy uncurated training data,
our model incorporates a noise adaptive weighting module supervised by a small
number of annotated still images, that allows to efficiently filter out
irrelevant videos during training. Third, we collect a new dataset with more
than 2600 hours of video and 34 thousand changes of object states, and manually
annotate a part of this data to validate our approach. Our results demonstrate
substantial improvements over prior work in both action and object
state-recognition in video.
- Abstract(参考訳): 人間の行動は、しばしば「リンゴを切る」、「クリーニングシューズ」、または「ポウイングコーヒー」といった物体の状態の変化を引き起こす。
本稿では,オブジェクトの状態(例えば「空」や「フル」カップ」など)と対応する状態修飾アクション(「コーヒーを浸す」)を,最小限の監督で長い未調整ビデオで時間的ローカライズすることを目指す。
この作品の貢献は3倍である。
まず,インターネット上の未作成の映像から,対応する対象状態と協調して状態修正動作を学習する自己教師付きモデルを開発した。
このモデルは、因果順序付け信号、すなわち初期オブジェクト状態 $\rightarrow$ 操作アクション $\rightarrow$ エンド状態によって自己監視される。
第二に、ノイズのない未処理のトレーニングデータに対処するために、少数の注釈付静止画像によって教師されるノイズ適応重み付けモジュールを組み込むことにより、トレーニング中に無関係な映像を効率的にフィルタリングすることができる。
第三に、2600時間以上のビデオと34万回のオブジェクト状態の変化を持つ新しいデータセットを収集し、このデータの一部を手動でアノテートしてアプローチを検証する。
ビデオにおける動作状態認識とオブジェクト状態認識の両面で,先行作業よりも大幅に改善した。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Towards Improving Spatiotemporal Action Recognition in Videos [0.0]
最新鋭のリアルタイムオブジェクト検出器You Only Watch Once(YOWO)をモチーフに、その構造を変更して、アクション検出精度を高めることを目指しています。
ビデオにおけるYOWOの改善と不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-12-15T05:21:50Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。