論文の概要: Semantic Frame Interpolation
- arxiv url: http://arxiv.org/abs/2507.05173v1
- Date: Mon, 07 Jul 2025 16:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.515631
- Title: Semantic Frame Interpolation
- Title(参考訳): 意味的フレーム補間
- Authors: Yijia Hong, Jiangning Zhang, Ran Yi, Yuji Wang, Weijian Cao, Xiaobin Hu, Zhucun Xue, Yabiao Wang, Chengjie Wang, Lizhuang Ma,
- Abstract要約: 従来のフレームタスクは、主に少数のフレーム、テキストコントロールなし、第1フレームと第2フレームの最小差のシナリオに焦点を当てていた。
最近のコミュニティ開発者は、フレーム・ツー・フレーム機能を実現するために、Wanによって表現された大きなビデオモデルを利用している。
本稿では、まず、上記の2つの設定を網羅し、複数のフレームレートでの推論をサポートする、学術的定義の観点から、新しい実用的意味フレーム補間(SFI)タスクを提案する。
- 参考スコア(独自算出の注目度): 66.81586538775366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating intermediate video content of varying lengths based on given first and last frames, along with text prompt information, offers significant research and application potential. However, traditional frame interpolation tasks primarily focus on scenarios with a small number of frames, no text control, and minimal differences between the first and last frames. Recent community developers have utilized large video models represented by Wan to endow frame-to-frame capabilities. However, these models can only generate a fixed number of frames and often fail to produce satisfactory results for certain frame lengths, while this setting lacks a clear official definition and a well-established benchmark. In this paper, we first propose a new practical Semantic Frame Interpolation (SFI) task from the perspective of academic definition, which covers the above two settings and supports inference at multiple frame rates. To achieve this goal, we propose a novel SemFi model building upon Wan2.1, which incorporates a Mixture-of-LoRA module to ensure the generation of high-consistency content that aligns with control conditions across various frame length limitations. Furthermore, we propose SFI-300K, the first general-purpose dataset and benchmark specifically designed for SFI. To support this, we collect and process data from the perspective of SFI, carefully designing evaluation metrics and methods to assess the model's performance across multiple dimensions, encompassing image and video, and various aspects, including consistency and diversity. Through extensive experiments on SFI-300K, we demonstrate that our method is particularly well-suited to meet the requirements of the SFI task.
- Abstract(参考訳): テキストプロンプト情報とともに、与えられた第1フレームと最終フレームに基づいて、様々な長さの中間映像コンテンツを生成することは、重要な研究と応用の可能性を提供する。
しかし、従来のフレーム補間タスクは、主に少数のフレーム、テキスト制御なし、第1フレームと第2フレームの最小差のシナリオに焦点を当てている。
最近のコミュニティ開発者は、フレーム・ツー・フレーム機能を実現するために、Wanによって表現された大きなビデオモデルを利用している。
しかし、これらのモデルは固定数のフレームしか生成できないため、特定のフレーム長に対して満足な結果が得られないことが多いが、この設定には明確な公式定義と十分に確立されたベンチマークが欠けている。
本稿では、まず、上記の2つの設定を網羅し、複数のフレームレートでの推論をサポートする学術的定義の観点から、新しい実用的な意味フレーム補間(SFI)タスクを提案する。
この目的を達成するために,Wan2.1 上に構築された新しい SemFi モデルを提案する。このモデルには,様々なフレーム長制限の制御条件に整合した高一貫性コンテンツの生成を保証するために,Mixture-of-LoRA モジュールが組み込まれている。
さらに,SFI用に設計された最初の汎用データセットとベンチマークであるSFI-300Kを提案する。
これをサポートするため、我々はSFIの観点からデータを収集・処理し、複数の次元にわたるモデルの性能評価のための評価指標と手法を慎重に設計し、画像と映像を包含し、一貫性や多様性を含む様々な側面について検討する。
SFI-300Kの広範な実験を通して,本手法はSFIタスクの要件を満たすのに特に適していることを示す。
関連論文リスト
- Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields [39.214857326425204]
ビデオフレーム補間 (VFI) は連続的な入力フレーム間の中間映像フレームを生成することを目的としている。
クロスモーダルな非対称な双方向運動場推定を行うイベントベースVFIフレームワークを提案する。
提案手法は, 各種データセット上での最先端VFI法よりも高い性能向上を示す。
論文 参考訳(メタデータ) (2025-02-19T13:40:43Z) - Poseidon: A ViT-based Architecture for Multi-Frame Pose Estimation with Adaptive Frame Weighting and Multi-Scale Feature Fusion [43.59385149982744]
単一フレームのポーズ推定は大きな進歩を遂げているが、複雑な連続的な動きを理解するために時間的ダイナミクスを捉えるのに失敗することが多い。
時間情報を統合することでViTPoseモデルを拡張する新しい多フレームポーズ推定アーキテクチャであるPoseidonを提案する。
提案手法は,PoseTrack21とPoseTrack18データセットの最先端性能を実現し,それぞれ88.3と87.8のmAPスコアを得た。
論文 参考訳(メタデータ) (2025-01-14T21:34:34Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation [11.611045114232187]
最近の方法では、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。
フローベースビデオフレーム作成(VFI)により、より仮想的なカメラビューを合成しようと試みる。
多フレーム推論では、MaryDepthのような明示的な幾何ベースのメソッドで発生する動的オブジェクトの問題を横取りするために、機能融合パラダイムに戻ります。
シングルフレームとマルチフレームの奥行きを双方向に接続するために,Mono-ViFIという自己教師型学習フレームワークを構築した。
論文 参考訳(メタデータ) (2024-07-19T08:51:51Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Transframer: Arbitrary Frame Prediction with Generative Models [21.322137081404904]
本稿では,確率的フレーム予測に基づく画像モデリングと視覚タスクのための汎用フレームワークを提案する。
このフレームワークをTransframerと呼ぶアーキテクチャと組み合わせて、U-NetとTransformerコンポーネントを使ってアノテーション付きコンテキストフレームを条件付けします。
論文 参考訳(メタデータ) (2022-03-17T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。