論文の概要: Video Frame Interpolation with Region-Distinguishable Priors from SAM
- arxiv url: http://arxiv.org/abs/2312.15868v1
- Date: Tue, 26 Dec 2023 03:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:11:36.573161
- Title: Video Frame Interpolation with Region-Distinguishable Priors from SAM
- Title(参考訳): SAMによる地域別プリミティブによるビデオフレーム補間
- Authors: Yan Han and Xiaogang Xu and Yingqi Lin and Jiafei Wu and Zhe Liu
- Abstract要約: 領域識別可能な先駆体(RDP)は空間変化のガウス混合体として表される。
階層的領域対応機能融合モジュール(HRFFM)は、VFIエンコーダの様々な階層的な段階に組み込まれている。
実験により、RFFMは様々な場面で連続的にVFI性能を向上させることが示された。
- 参考スコア(独自算出の注目度): 19.350313166180747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In existing Video Frame Interpolation (VFI) approaches, the motion estimation
between neighboring frames plays a crucial role. However, the estimation
accuracy in existing methods remains a challenge, primarily due to the inherent
ambiguity in identifying corresponding areas in adjacent frames for
interpolation. Therefore, enhancing accuracy by distinguishing different
regions before motion estimation is of utmost importance. In this paper, we
introduce a novel solution involving the utilization of open-world segmentation
models, e.g., SAM (Segment Anything Model), to derive Region-Distinguishable
Priors (RDPs) in different frames. These RDPs are represented as
spatial-varying Gaussian mixtures, distinguishing an arbitrary number of areas
with a unified modality. RDPs can be integrated into existing motion-based VFI
methods to enhance features for motion estimation, facilitated by our designed
play-and-plug Hierarchical Region-aware Feature Fusion Module (HRFFM). HRFFM
incorporates RDP into various hierarchical stages of VFI's encoder, using
RDP-guided Feature Normalization (RDPFN) in a residual learning manner. With
HRFFM and RDP, the features within VFI's encoder exhibit similar
representations for matched regions in neighboring frames, thus improving the
synthesis of intermediate frames. Extensive experiments demonstrate that HRFFM
consistently enhances VFI performance across various scenes.
- Abstract(参考訳): 既存のビデオフレーム補間法 (vfi) では, 隣接フレーム間の動き推定が重要な役割を果たす。
しかし, 既存手法における推定精度は, 補間のために隣接するフレーム内の対応する領域を識別するあいまいさが主な原因である。
したがって、動き推定の前に異なる領域を区別することで精度を高めることが最重要となる。
本稿では,オープンワールドセグメンテーションモデル(SAM (Segment Anything Model) など)を活用して,異なるフレームの領域識別可能なプライオリティ(RDP)を導出する,新たなソリューションを提案する。
これらの RDP は空間変化のガウス混合として表現され、任意の数の領域を統一的なモジュラリティで区別する。
RDPを既存のモーションベースVFI手法に統合することで、設計した階層型領域対応機能融合モジュール(HRFFM)により、動作推定の機能を強化することができる。
HRFFMは、RDP誘導特徴正規化(RDPFN)を用いて、VFIエンコーダの様々な階層的な段階にRDPを組み込む。
HRFFM と RDP では、VFI のエンコーダ内の特徴は、隣接するフレームの一致した領域に類似した表現を示し、中間フレームの合成を改善する。
HRFFMは様々な場面で連続的にVFI性能を向上させる。
関連論文リスト
- From Modalities to Styles: Rethinking the Domain Gap in Heterogeneous Face Recognition [4.910937238451485]
本研究では,既存の顔認識ネットワークにシームレスに適合する条件適応型インスタンス変調(CAIM)モジュールを提案する。
CAIMブロックは中間特徴写像を変調し、ソースモダリティのスタイルに効率よく適応し、ドメインギャップをブリッジする。
我々は,提案手法を様々な挑戦的HFRベンチマークで広く評価し,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-22T15:00:51Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - Frequency Decomposition-Driven Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation [30.606689882397223]
非教師なし領域適応(UDA)技術に基づくリモートセンシング(RS)画像のクロスドメインセマンティックセマンティックセマンティックセマンティックセマンティクスは、地球科学における深層学習を著しく進歩させた。
ドメイン間の空間的詳細とグローバルな文脈意味論を同時に維持することは依然として困難である。
クロスドメインセマンティックセグメンテーションにおける表現アライメントを誘導する新しい高周波数分解法(HLFD)を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:13:49Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Error-Aware Spatial Ensembles for Video Frame Interpolation [50.63021118973639]
近年,ビデオフレーム(VFI)アルゴリズムは,データ駆動アルゴリズムと実装の両面で前例のない進歩により,大幅に改善されている。
近年の研究では、挑戦的なVFIシナリオに対処する手段として、高度な動き推定や新しいワープ手法が導入されている。
本研究は、光フローとIEの相関関係を詳細に検討することにより、中間フレームを異なるIEレベルに対応する異なる領域に分割する新しいエラー予測指標を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:15:38Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。