論文の概要: Self-Supervision by Prediction for Object Discovery in Videos
- arxiv url: http://arxiv.org/abs/2103.05669v1
- Date: Tue, 9 Mar 2021 19:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 15:04:55.140019
- Title: Self-Supervision by Prediction for Object Discovery in Videos
- Title(参考訳): 映像中の物体発見予測による自己スーパービジョン
- Authors: Beril Besbinar, Pascal Frossard
- Abstract要約: 本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
- 参考スコア(独自算出の注目度): 62.87145010885044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their irresistible success, deep learning algorithms still heavily
rely on annotated data. On the other hand, unsupervised settings pose many
challenges, especially about determining the right inductive bias in diverse
scenarios. One scalable solution is to make the model generate the supervision
for itself by leveraging some part of the input data, which is known as
self-supervised learning. In this paper, we use the prediction task as
self-supervision and build a novel object-centric model for image sequence
representation. In addition to disentangling the notion of objects and the
motion dynamics, our compositional structure explicitly handles occlusion and
inpaints inferred objects and background for the composition of the predicted
frame. With the aid of auxiliary loss functions that promote spatially and
temporally consistent object representations, our self-supervised framework can
be trained without the help of any manual annotation or pretrained network.
Initial experiments confirm that the proposed pipeline is a promising step
towards object-centric video prediction.
- Abstract(参考訳): その耐え難い成功にもかかわらず、ディープラーニングアルゴリズムはまだ注釈付きデータに大きく依存しています。
一方、監視されていない設定は、特に多様なシナリオにおける適切な誘導バイアスを決定することについて、多くの課題を引き起こします。
スケーラブルなソリューションの1つは、自己監視学習と呼ばれる入力データの一部を活用して、モデルが自身で監視を生成することです。
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
物体の概念と運動ダイナミクスを解き放つことに加えて、私たちの構成構造は、予測されたフレームの組成のための推測されたオブジェクトと背景の閉塞と描画を明示的に処理します。
空間的および時間的に一貫したオブジェクト表現を促進する補助的損失関数の支援により、手作業によるアノテーションや事前学習されたネットワークの助けなしに、自己教師付きフレームワークをトレーニングできる。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - Learning Invariant World State Representations with Predictive Coding [1.8963850600275547]
我々は,新しい予測型コーディングベースアーキテクチャと,完全教師付き・自己教師型学習手法を開発した。
我々は,新しい合成データセットを用いて,モデルのロバスト性を評価する。
論文 参考訳(メタデータ) (2022-07-06T21:08:30Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。