Fugu-MT 論文翻訳(概要): Video Frame Interpolation with Region-Distinguishable Priors from SAM

論文の概要: Video Frame Interpolation with Region-Distinguishable Priors from SAM

arxiv url: http://arxiv.org/abs/2312.15868v1
Date: Tue, 26 Dec 2023 03:27:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 16:11:36.573161
Title: Video Frame Interpolation with Region-Distinguishable Priors from SAM
Title（参考訳）: SAMによる地域別プリミティブによるビデオフレーム補間
Authors: Yan Han and Xiaogang Xu and Yingqi Lin and Jiafei Wu and Zhe Liu
Abstract要約: 領域識別可能な先駆体(RDP)は空間変化のガウス混合体として表される。階層的領域対応機能融合モジュール(HRFFM)は、VFIエンコーダの様々な階層的な段階に組み込まれている。実験により、RFFMは様々な場面で連続的にVFI性能を向上させることが示された。
参考スコア（独自算出の注目度）: 19.350313166180747
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In existing Video Frame Interpolation (VFI) approaches, the motion estimation between neighboring frames plays a crucial role. However, the estimation accuracy in existing methods remains a challenge, primarily due to the inherent ambiguity in identifying corresponding areas in adjacent frames for interpolation. Therefore, enhancing accuracy by distinguishing different regions before motion estimation is of utmost importance. In this paper, we introduce a novel solution involving the utilization of open-world segmentation models, e.g., SAM (Segment Anything Model), to derive Region-Distinguishable Priors (RDPs) in different frames. These RDPs are represented as spatial-varying Gaussian mixtures, distinguishing an arbitrary number of areas with a unified modality. RDPs can be integrated into existing motion-based VFI methods to enhance features for motion estimation, facilitated by our designed play-and-plug Hierarchical Region-aware Feature Fusion Module (HRFFM). HRFFM incorporates RDP into various hierarchical stages of VFI's encoder, using RDP-guided Feature Normalization (RDPFN) in a residual learning manner. With HRFFM and RDP, the features within VFI's encoder exhibit similar representations for matched regions in neighboring frames, thus improving the synthesis of intermediate frames. Extensive experiments demonstrate that HRFFM consistently enhances VFI performance across various scenes.
Abstract（参考訳）: 既存のビデオフレーム補間法 (vfi) では, 隣接フレーム間の動き推定が重要な役割を果たす。しかし, 既存手法における推定精度は, 補間のために隣接するフレーム内の対応する領域を識別するあいまいさが主な原因である。したがって、動き推定の前に異なる領域を区別することで精度を高めることが最重要となる。本稿では,オープンワールドセグメンテーションモデル(SAM (Segment Anything Model) など)を活用して,異なるフレームの領域識別可能なプライオリティ(RDP)を導出する,新たなソリューションを提案する。これらの RDP は空間変化のガウス混合として表現され、任意の数の領域を統一的なモジュラリティで区別する。 RDPを既存のモーションベースVFI手法に統合することで、設計した階層型領域対応機能融合モジュール(HRFFM)により、動作推定の機能を強化することができる。 HRFFMは、RDP誘導特徴正規化(RDPFN)を用いて、VFIエンコーダの様々な階層的な段階にRDPを組み込む。 HRFFM と RDP では、VFI のエンコーダ内の特徴は、隣接するフレームの一致した領域に類似した表現を示し、中間フレームの合成を改善する。 HRFFMは様々な場面で連続的にVFI性能を向上させる。

関連論文リスト

Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文参考訳（メタデータ） (2025-12-05T08:12:35Z)
IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection [23.256601188227865]
クロスモーダルな特徴のコントラストとスクリーニング戦略に基づく,革新的な機能融合フレームワークを提案する。提案手法は,オブジェクト認識の相補的クロスモーダル特徴を融合させることにより,有能な構造を適応的に強化する。 IRDFusionは、様々な挑戦的なシナリオで既存のメソッドを一貫して上回ります。
論文参考訳（メタデータ） (2025-09-11T01:22:35Z)
Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文参考訳（メタデータ） (2025-08-07T11:14:16Z)
MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文参考訳（メタデータ） (2025-04-03T05:23:08Z)
Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文参考訳（メタデータ） (2025-03-17T18:08:03Z)
Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields [39.214857326425204]
ビデオフレーム補間 (VFI) は連続的な入力フレーム間の中間映像フレームを生成することを目的としている。クロスモーダルな非対称な双方向運動場推定を行うイベントベースVFIフレームワークを提案する。提案手法は, 各種データセット上での最先端VFI法よりも高い性能向上を示す。
論文参考訳（メタデータ） (2025-02-19T13:40:43Z)
From Modalities to Styles: Rethinking the Domain Gap in Heterogeneous Face Recognition [4.910937238451485]
本研究では,既存の顔認識ネットワークにシームレスに適合する条件適応型インスタンス変調(CAIM)モジュールを提案する。 CAIMブロックは中間特徴写像を変調し、ソースモダリティのスタイルに効率よく適応し、ドメインギャップをブリッジする。我々は,提案手法を様々な挑戦的HFRベンチマークで広く評価し,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-22T15:00:51Z)
Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文参考訳（メタデータ） (2024-04-21T05:09:56Z)
Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文参考訳（メタデータ） (2024-02-05T11:00:14Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
Error-Aware Spatial Ensembles for Video Frame Interpolation [50.63021118973639]
近年,ビデオフレーム(VFI)アルゴリズムは,データ駆動アルゴリズムと実装の両面で前例のない進歩により,大幅に改善されている。近年の研究では、挑戦的なVFIシナリオに対処する手段として、高度な動き推定や新しいワープ手法が導入されている。本研究は、光フローとIEの相関関係を詳細に検討することにより、中間フレームを異なるIEレベルに対応する異なる領域に分割する新しいエラー予測指標を提案する。
論文参考訳（メタデータ） (2022-07-25T16:15:38Z)
DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-11-19T00:00:15Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。