論文の概要: Multi-Task Learning of Object State Changes from Uncurated Videos
- arxiv url: http://arxiv.org/abs/2211.13500v1
- Date: Thu, 24 Nov 2022 09:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:38:38.941119
- Title: Multi-Task Learning of Object State Changes from Uncurated Videos
- Title(参考訳): 未修正映像からの物体状態変化のマルチタスク学習
- Authors: Tom\'a\v{s} Sou\v{c}ek and Jean-Baptiste Alayrac and Antoine Miech and
Ivan Laptev and Josef Sivic
- Abstract要約: 我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
- 参考スコア(独自算出の注目度): 55.60442251060871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to learn to temporally localize object state changes and the
corresponding state-modifying actions by observing people interacting with
objects in long uncurated web videos. We introduce three principal
contributions. First, we explore alternative multi-task network architectures
and identify a model that enables efficient joint learning of multiple object
states and actions such as pouring water and pouring coffee. Second, we design
a multi-task self-supervised learning procedure that exploits different types
of constraints between objects and state-modifying actions enabling end-to-end
training of a model for temporal localization of object states and actions in
videos from only noisy video-level supervision. Third, we report results on the
large-scale ChangeIt and COIN datasets containing tens of thousands of long
(un)curated web videos depicting various interactions such as hole drilling,
cream whisking, or paper plane folding. We show that our multi-task model
achieves a relative improvement of 40% over the prior single-task methods and
significantly outperforms both image-based and video-based zero-shot models for
this problem. We also test our method on long egocentric videos of the
EPIC-KITCHENS and the Ego4D datasets in a zero-shot setup demonstrating the
robustness of our learned model.
- Abstract(参考訳): 長時間の未処理ウェブビデオでオブジェクトと対話する人々を観察することにより、オブジェクトの状態変化とそれに対応する状態修正行動の時間的局所化を目指す。
主な貢献は3つある。
まず、代替のマルチタスクネットワークアーキテクチャを探求し、複数のオブジェクトの状態と、水を注いだりコーヒーを注いだりといったアクションの効率的な共同学習を可能にするモデルを特定する。
第2に,オブジェクト間の制約の異なるタイプと状態修飾動作を活用するマルチタスク自己教師付き学習手順をデザインし,ノイズの多いビデオレベルの監視のみから,対象状態と動作の時間的局所化のためのモデルのエンドツーエンドトレーニングを実現する。
第3に, 穴あけ, クリームウイスキー, 紙面の折り畳みなど, 様々な相互作用を描写した何万本ものウェブビデオを含む大規模なChangeItおよびCOINデータセットについて報告する。
マルチタスクモデルは,従来のシングルタスク法に比べて40%の相対的改善を達成し,画像ベースおよびビデオベースのゼロショットモデルを大きく上回っていることを示す。
また、EPIC-KITCHENSとEgo4Dデータセットの長い自我中心のビデオをゼロショットでテストし、学習モデルの堅牢性を実証した。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文 参考訳(メタデータ) (2022-09-27T17:57:13Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Look for the Change: Learning Object States and State-Modifying Actions
from Untrimmed Web Videos [55.60442251060871]
人間の行動は、しばしば「リンゴを切る」や「コーヒーを飲む」といった対象状態の変化を引き起こす。
我々は、対応する対象状態とともに、状態修正動作を協調学習するための自己教師型モデルを開発する。
本モデルでは,ノイズ適応重み付けモジュールを少数の注釈付静止画像で教師する。
論文 参考訳(メタデータ) (2022-03-22T11:45:10Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。