論文の概要: Anchoring and Rescaling Attention for Semantically Coherent Inbetweening
- arxiv url: http://arxiv.org/abs/2603.17651v1
- Date: Wed, 18 Mar 2026 12:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.688348
- Title: Anchoring and Rescaling Attention for Semantically Coherent Inbetweening
- Title(参考訳): セマンティック・コヒーレント・インテツウィーニングにおけるアンコリングと再スケーリング注意
- Authors: Tae Eun Choi, Sumin Shim, Junhyeok Kim, Seong Jae Hwang,
- Abstract要約: 生成的内在性(GI)は、シーケンスの最初の段階と最後の段階の間に現実的な中間フレームを合成しようとする。
我々は、Keyframe-anchored Attention Biasを通じて、各中間フレームにパスとテキストから意味的および時間的ガイダンスを与えます。
Rescaled Temporal RoPEとのフレーム一貫性も向上しています。
- 参考スコア(独自算出の注目度): 9.061831090604324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative inbetweening (GI) seeks to synthesize realistic intermediate frames between the first and last keyframes beyond mere interpolation. As sequences become sparser and motions larger, previous GI models struggle with inconsistent frames with unstable pacing and semantic misalignment. Since GI involves fixed endpoints and numerous plausible paths, this task requires additional guidance gained from the keyframes and text to specify the intended path. Thus, we give semantic and temporal guidance from the keyframes and text onto each intermediate frame through Keyframe-anchored Attention Bias. We also better enforce frame consistency with Rescaled Temporal RoPE, which allows self-attention to attend to keyframes more faithfully. TGI-Bench, the first benchmark specifically designed for text-conditioned GI evaluation, enables challenge-targeted evaluation to analyze GI models. Without additional training, our method achieves state-of-the-art frame consistency, semantic fidelity, and pace stability for both short and long sequences across diverse challenges.
- Abstract(参考訳): 生成的内在性(GI)は、単なる補間を超えた第1と第2の鍵フレーム間の現実的な中間フレームの合成を目指している。
シーケンスがスペーサーになり、動きが大きくなるにつれて、従来のGIモデルは不安定なペーシングとセマンティックなミスアライメントを持つ一貫性のないフレームと競合する。
GIは固定されたエンドポイントと多数の可算パスを含むため、このタスクは、意図したパスを指定するために、キーフレームとテキストから得られる追加のガイダンスを必要とする。
このように、キーフレームから意味的および時間的ガイダンスを与え、各中間フレームにKeyframe-anchored Attention Biasを通してテキストを配置する。
Rescaled Temporal RoPEによるフレームの一貫性も向上しています。
TGI-Benchはテキスト条件付きGI評価に特化して設計された最初のベンチマークであり、挑戦目標評価を可能にしてGIモデルを解析する。
追加のトレーニングがなければ,多種多様な課題にまたがるショートシーケンスとロングシーケンスの両方に対して,最先端のフレーム一貫性,セマンティック忠実度,ペース安定性を実現することができる。
関連論文リスト
- Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation [7.63512442757446]
視覚変換器(ViT)は近年,2次元人間のポーズ推定において最先端の性能を達成した。
TAR-ViTPoseは、フレーム間の時間的キューをプラグアンドプレイで集約することで、静的なViT表現を強化する。
我々の手法は、既存の最先端のビデオベースの手法よりも優れており、実世界のアプリケーションでは明らかに高いランタイムフレームレートを実現している。
論文 参考訳(メタデータ) (2026-03-06T05:45:04Z) - Arbitrary Generative Video Interpolation [27.953958715353608]
ビデオフレーム(VFI)は、所定の開始フレームと終了フレームから中間フレームを生成する。
既存のVFI法は、一定数の中間フレームを合成するために制約される。
ArbInterpは、任意のタイムスタンプで効率的な合成を可能にする新しいVFIフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T06:57:10Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - EF-VI: Enhancing End-Frame Injection for Video Inbetweening [52.6883373124261]
ビデオインテワイニングは、与えられた開始フレームと終了フレームに条件付き中間映像シーケンスを合成することを目的としている。
EF-VI と呼ばれる,近年,より強力なトランスフォーマーベースの I2V-DM に特化する新しいビデオインテグレーティングフレームワークを提案する。
拡張インジェクションを利用することで、エンドフレーム制約を効率的に強化する。
論文 参考訳(メタデータ) (2025-05-27T13:53:50Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Thin-Plate Spline-based Interpolation for Animation Line Inbetweening [54.69811179222127]
チャンファー距離(CD: Chamfer Distance)は、一般に間欠的な性能を評価するために用いられる。
薄板スプライン変換を応用したアニメーションラインインテタイニングの簡易かつ効果的な手法を提案する。
提案手法は, 流動性を高めた高品質な結果を提供することにより, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2024-08-17T08:05:31Z) - Continuous Intermediate Token Learning with Implicit Motion Manifold for
Keyframe Based Motion Interpolation [20.314332409748637]
精度に基づく制約で潜在動作を定式化するための新しい枠組みを提案する。
提案手法は,地上の真理運動に優れたデータセットの精度と高い視覚的類似性を実証する。
論文 参考訳(メタデータ) (2023-03-27T05:53:01Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文 参考訳(メタデータ) (2022-03-29T04:29:16Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。