Fugu-MT 論文翻訳(概要): Learning Temporal Dynamics from Cycles in Narrated Video

論文の概要: Learning Temporal Dynamics from Cycles in Narrated Video

arxiv url: http://arxiv.org/abs/2101.02337v1
Date: Thu, 7 Jan 2021 02:41:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-10 13:47:17.428958
Title: Learning Temporal Dynamics from Cycles in Narrated Video
Title（参考訳）: ナレーションビデオにおけるサイクルからの時間ダイナミクスの学習
Authors: Dave Epstein, Jiajun Wu, Cordelia Schmid, Chen Sun
Abstract要約: 時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
参考スコア（独自算出の注目度）: 85.89096034281694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning to model how the world changes as time elapses has proven a challenging problem for the computer vision community. We propose a self-supervised solution to this problem using temporal cycle consistency jointly in vision and language, training on narrated video. Our model learns modality-agnostic functions to predict forward and backward in time, which must undo each other when composed. This constraint leads to the discovery of high-level transitions between moments in time, since such transitions are easily inverted and shared across modalities. We justify the design of our model with an ablation study on different configurations of the cycle consistency problem. We then show qualitatively and quantitatively that our approach yields a meaningful, high-level model of the future and past. We apply the learned dynamics model without further training to various tasks, such as predicting future action and temporally ordering sets of images.
Abstract（参考訳）: 時間経過とともに世界がどう変化するかをモデル化することを学ぶことは、コンピュータビジョンコミュニティにとって難しい問題となっている。本稿では,視覚と言語を併用した時間周期一貫性を用いた自己教師型手法を提案する。私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。この制約は、モーダル間で容易に逆転し共有されるため、時間内のモーメント間のハイレベルな遷移の発見につながる。我々は,サイクル整合性問題の異なる構成に関するアブレーション研究により,モデルの設計を正当化する。そして、我々のアプローチが未来と過去の意味のある高レベルモデルをもたらすことを質的に定量的に示す。将来の行動予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。

関連論文リスト

Bisecle: Binding and Separation in Continual Learning for Video Language Understanding [11.710573955384511]
海馬における高速な結合とパターン分離機構に着想を得たビデオ言語連続学習のためのBisecleを提案する。 Bisecleは、いくつかのVideoQAベンチマークにおいて、忘れを緩和し、クロスタスクの一般化を強化する。
論文参考訳（メタデータ） (2025-07-01T06:28:57Z)
Harnessing Vision Models for Time Series Analysis: A Survey [72.09716244582684]
本研究は, 時系列解析におけるLLMよりも視覚モデルの方が優れていることを示す。既存の方法の包括的かつ詳細な概要を提供し、詳細な分類学の双対的な見解を提供する。このフレームワークに関わる前処理と後処理のステップにおける課題に対処する。
論文参考訳（メタデータ） (2025-02-13T00:42:11Z)
Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation [48.071162716120334]
入力のマルチモーダルな性質がモデルの学習力学に与える影響について検討する。本研究の目的は, モダリティ対応型特徴蒸留 (MAFED) 方式を提案することである。
論文参考訳（メタデータ） (2024-06-27T16:12:57Z)
Neural Persistence Dynamics [8.197801260302642]
時間発展する点雲のトポロジにおける力学を学習する問題を考察する。提案したモデル - $textitNeural Persistence Dynamics$ - は、パラメータ回帰タスクの多種多様なセットで最先端のパフォーマンスを大幅に上回る。
論文参考訳（メタデータ） (2024-05-24T17:20:18Z)
OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文参考訳（メタデータ） (2023-06-20T03:02:14Z)
Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。 TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文参考訳（メタデータ） (2021-12-07T09:27:56Z)
Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。 1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文参考訳（メタデータ） (2021-09-07T19:03:33Z)
Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文参考訳（メタデータ） (2021-06-15T17:45:32Z)
Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文参考訳（メタデータ） (2021-05-13T17:59:50Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)
Unsupervised Video Decomposition using Spatio-temporal Iterative Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。色情報のないモデルでも精度が高いことを示す。本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-06-25T22:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。