Fugu-MT 論文翻訳(概要): Screen, Match, and Cache: A Training-Free Causality-Consistent Reference Frame Framework for Human Animation

論文の概要: Screen, Match, and Cache: A Training-Free Causality-Consistent Reference Frame Framework for Human Animation

arxiv url: http://arxiv.org/abs/2601.22160v1
Date: Sat, 13 Dec 2025 08:45:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.140444
Title: Screen, Match, and Cache: A Training-Free Causality-Consistent Reference Frame Framework for Human Animation
Title（参考訳）: スクリーン,マッチ,キャッシュ:人間のアニメーションのためのトレーニング不要因果一貫性参照フレームフレームワーク
Authors: Jianan Wang, Nailei Hei, Li He, Huanzhen Wang, Aoxing Li, Haofen Wang, Yan Wang, Wenqiang Zhang,
Abstract要約: FrameCacheは、Screen、Cache、Matchで構成されるトレーニング不要の3段階フレームワークである。標準ベンチマークの実験では、FrameCacheは時間的コヒーレンスと視覚的安定性を一貫して改善している。
参考スコア（独自算出の注目度）: 44.20260674331104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human animation aims to generate temporally coherent and visually consistent videos over long sequences, yet modeling long-range dependencies while preserving frame quality remains challenging. Inspired by the human ability to leverage past observations for interpreting ongoing actions, we propose FrameCache, a training-free three-stage framework consisting of Screen, Cache, and Match. In the Screen stage, a multi-dimensional, quality-aware mechanism with adaptive thresholds dynamically selects informative frames; the Cache stage maintains a reference pool using a dynamic replacement-hit strategy, preserving both diversity and relevance; and the Match stage extracts behavioral features to perform motion-consistent reference matching for coherent animation guidance. Extensive experiments on standard benchmarks demonstrate that FrameCache consistently improves temporal coherence and visual stability while integrating seamlessly with diverse baselines. Despite these encouraging results, further analysis reveals that its effectiveness depends on baseline temporal reasoning and real-synthetic consistency, motivating future work on compatibility conditions and adaptive cache mechanisms. Code will be made publicly available.
Abstract（参考訳）: 人間のアニメーションは、時間的コヒーレントで視覚的に一貫したビデオを生成することを目的としているが、フレーム品質を保ちながら長距離依存をモデル化することは困難である。現在進行中のアクションを解釈するために過去の観測を活用できる人間の能力に触発されて、Screen、Cache、Matchで構成されるトレーニング不要の3段階フレームワークであるFrameCacheを提案する。スクリーンステージでは、適応しきい値を持つ多次元品質認識機構が動的に情報フレームを選択し、キャッシュステージは動的置換・ヒット戦略を用いて参照プールを維持し、多様性と妥当性の両方を保ち、マッチステージは動作特徴を抽出し、コヒーレントなアニメーションガイダンスのための動き一貫性のある参照マッチングを実行する。標準ベンチマークに関する大規模な実験により、FrameCacheは、多様なベースラインとシームレスに統合しながら、時間的コヒーレンスと視覚的安定性を一貫して改善することを示した。これらの奨励的な結果にもかかわらず、さらなる分析により、その有効性はベースラインの時間的推論と実合成の整合性に依存し、互換性条件と適応キャッシュ機構に関する将来の研究を動機付けていることが明らかになった。コードは公開されます。

関連論文リスト

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [16.692450893925148]
リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。 Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
論文参考訳（メタデータ） (2025-12-25T16:34:56Z)
Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-12-19T15:15:58Z)
Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文参考訳（メタデータ） (2025-12-03T15:51:11Z)
FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文参考訳（メタデータ） (2025-09-28T17:59:43Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。 2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。 STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-20T09:16:20Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。