Fugu-MT 論文翻訳(概要): Exploiting Inductive Biases in Video Modeling through Neural CDEs

論文の概要: Exploiting Inductive Biases in Video Modeling through Neural CDEs

arxiv url: http://arxiv.org/abs/2311.04986v1
Date: Wed, 8 Nov 2023 19:04:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 16:56:32.832833
Title: Exploiting Inductive Biases in Video Modeling through Neural CDEs
Title（参考訳）: ニューラルCDEによるビデオモデリングにおける誘導バイアスの爆発
Authors: Johnathan Chiu, Samuel Duffield, Max Hunter-Gordon, Kaelan Donatella, Max Aifer, Andi Gu
Abstract要約: 制御微分方程式(CDE)を利用したビデオモデリングの新しい手法を提案する。連続的なU-Netアーキテクチャにつながる様々な解像度でCDEを適用します。映像やマスクの伝搬タスクの最先端モデルに対する競合性能を実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel approach to video modeling that leverages controlled differential equations (CDEs) to address key challenges in video tasks, notably video interpolation and mask propagation. We apply CDEs at varying resolutions leading to a continuous-time U-Net architecture. Unlike traditional methods, our approach does not require explicit optical flow learning, and instead makes use of the inherent continuous-time features of CDEs to produce a highly expressive video model. We demonstrate competitive performance against state-of-the-art models for video interpolation and mask propagation tasks.
Abstract（参考訳）: 本稿では,制御微分方程式(CDE)を利用したビデオモデリングに新たなアプローチを導入し,特に映像補間とマスク伝搬の課題に対処する。我々は、連続時間u-netアーキテクチャにつながる様々な解像度でcdesを適用する。従来の手法とは異なり、このアプローチでは明示的なオプティカルフロー学習は必要とせず、cdesの固有の連続時間特徴を利用して高度に表現力のあるビデオモデルを作成する。映像補間およびマスク伝搬タスクにおける最先端モデルに対する競合性能を示す。

関連論文リスト

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。 MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文参考訳（メタデータ） (2024-12-24T18:51:19Z)
DIVD: Deblurring with Improved Video Diffusion Model [8.816046910904488]
拡散モデルとビデオ拡散モデルは、画像生成やビデオ生成の分野で優れている。本稿では,ビデオデブロアリングに特化してビデオ拡散モデルを提案する。我々のモデルは既存のモデルより優れており、様々な知覚的指標について最先端の結果が得られる。
論文参考訳（メタデータ） (2024-12-01T11:39:02Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach [29.753974393652356]
フレーム対応ビデオ拡散モデル(FVDM)を提案する。我々のアプローチでは、各フレームが独立したノイズスケジュールに従うことができ、モデルのキャパシティを高めて、きめ細かい時間依存性を捉えることができる。実験により、FVDMは映像生成品質において最先端の手法よりも優れ、拡張タスクにも優れることが示された。
論文参考訳（メタデータ） (2024-10-04T05:47:39Z)
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing [3.6344789837383145]
我々は,高品質な自然な標準画像を生成する前に,ハイブリッドな変形場と拡散を統合したビデオ編集フレームワークであるNaRCanを提案する。提案手法は,グローバルな動きをモデル化するためにホモグラフィを使用し,局所的な残留変形を捉えるために多層パーセプトロン(MLP)を用いる。提案手法は,様々なビデオ編集タスクにおいて既存の手法よりも優れ,一貫性と高品質な編集ビデオシーケンスを生成する。
論文参考訳（メタデータ） (2024-06-10T17:59:46Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。 LLM-grounded Video Diffusion (LVD)を紹介する。以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文参考訳（メタデータ） (2023-09-29T17:54:46Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文参考訳（メタデータ） (2023-04-06T17:59:56Z)
Exploiting Temporal Coherence for Multi-modal Video Categorization [24.61762520189921]
本稿では,マルチモーダルアプローチによる映像分類の問題に焦点をあてる。我々は,新しい時間的コヒーレンスに基づく正規化手法を開発し,異なるタイプのモデルに適用した。本研究では,時間的コヒーレンスによるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
論文参考訳（メタデータ） (2020-02-07T06:42:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。