論文の概要: Learning Temporal Dynamics from Cycles in Narrated Video
- arxiv url: http://arxiv.org/abs/2101.02337v1
- Date: Thu, 7 Jan 2021 02:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:47:17.428958
- Title: Learning Temporal Dynamics from Cycles in Narrated Video
- Title(参考訳): ナレーションビデオにおけるサイクルからの時間ダイナミクスの学習
- Authors: Dave Epstein, Jiajun Wu, Cordelia Schmid, Chen Sun
- Abstract要約: 時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
- 参考スコア(独自算出の注目度): 85.89096034281694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to model how the world changes as time elapses has proven a
challenging problem for the computer vision community. We propose a
self-supervised solution to this problem using temporal cycle consistency
jointly in vision and language, training on narrated video. Our model learns
modality-agnostic functions to predict forward and backward in time, which must
undo each other when composed. This constraint leads to the discovery of
high-level transitions between moments in time, since such transitions are
easily inverted and shared across modalities. We justify the design of our
model with an ablation study on different configurations of the cycle
consistency problem. We then show qualitatively and quantitatively that our
approach yields a meaningful, high-level model of the future and past. We apply
the learned dynamics model without further training to various tasks, such as
predicting future action and temporally ordering sets of images.
- Abstract(参考訳): 時間経過とともに世界がどう変化するかをモデル化することを学ぶことは、コンピュータビジョンコミュニティにとって難しい問題となっている。
本稿では,視覚と言語を併用した時間周期一貫性を用いた自己教師型手法を提案する。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
この制約は、モーダル間で容易に逆転し共有されるため、時間内のモーメント間のハイレベルな遷移の発見につながる。
我々は,サイクル整合性問題の異なる構成に関するアブレーション研究により,モデルの設計を正当化する。
そして、我々のアプローチが未来と過去の意味のある高レベルモデルをもたらすことを質的に定量的に示す。
将来の行動予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
関連論文リスト
- Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation [48.071162716120334]
入力のマルチモーダルな性質がモデルの学習力学に与える影響について検討する。
本研究の目的は, モダリティ対応型特徴蒸留 (MAFED) 方式を提案することである。
論文 参考訳(メタデータ) (2024-06-27T16:12:57Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - On the Dynamics of Learning Time-Aware Behavior with Recurrent Neural
Networks [2.294014185517203]
隠れ時間変数に依存する教師付き学習タスクのファミリーを導入する。
我々は、長期記憶に対する時間認識の必要性を強調する時間的フリップフロップをエミュレートするためにRNNを訓練する。
これらのRNNは、遷移規則の周期を時間変調する周期軌道を切り替えることを学ぶ。
論文 参考訳(メタデータ) (2023-06-12T14:01:30Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。