Fugu-MT 論文翻訳(概要): Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

論文の概要: Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

arxiv url: http://arxiv.org/abs/2602.18977v1
Date: Sat, 21 Feb 2026 23:05:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.426697
Title: Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding
Title（参考訳）: Frame2Freq:きめ細かいビデオ理解のためのスペクトルアダプタ
Authors: Thinesh Thiyakesan Ponbagavathi, Constantin Seibold, Alina Roitberg,
Abstract要約: 我々は、事前訓練されたビジョンファウンデーションモデル(VFM)のイメージ・ツー・ビデオ適応中にスペクトル符号化を行う周波数対応アダプタのファミリーであるFrame2Freqを紹介する。 5つのきめ細かいアクティビティ認識データセットの中で、Frame2Freqは以前のPEFTメソッドよりも優れており、4つのモデルで完全に調整されたモデルを超えています。
参考スコア（独自算出の注目度）: 9.139773470565556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adapting image-pretrained backbones to video typically relies on time-domain adapters tuned to a single temporal scale. Our experiments show that these modules pick up static image cues and very fast flicker changes, while overlooking medium-speed motion. Capturing dynamics across multiple time-scales is, however, crucial for fine-grained temporal analysis (i.e., opening vs. closing bottle). To address this, we introduce Frame2Freq -- a family of frequency-aware adapters that perform spectral encoding during image-to-video adaptation of pretrained Vision Foundation Models (VFMs), improving fine-grained action recognition. Frame2Freq uses Fast Fourier Transform (FFT) along time and learns frequency-band specific embeddings that adaptively highlight the most discriminative frequency ranges. Across five fine-grained activity recognition datasets, Frame2Freq outperforms prior PEFT methods and even surpasses fully fine-tuned models on four of them. These results provide encouraging evidence that frequency analysis methods are a powerful tool for modeling temporal dynamics in image-to-video transfer. Code is available at https://github.com/th-nesh/Frame2Freq.
Abstract（参考訳）: 画像に制限されたバックボーンをビデオに適応させる場合、通常は1つの時間スケールに調整された時間ドメインアダプタに依存する。実験の結果、これらのモジュールは静止画の手がかりと非常に高速なフリックス変化を拾い上げながら、中速動作を見下ろしていることがわかった。しかし、複数の時間スケールにわたるダイナミックスをキャプチャすることは、微粒な時間解析(開封対閉ボトル)に不可欠である。これを解決するために、Frame2Freqは、事前訓練されたビジョンファウンデーションモデル(VFM)のイメージ・ツー・ビデオ適応中にスペクトル符号化を行い、きめ細かいアクション認識を改善する周波数対応アダプタのファミリーである。 Frame2FreqはFFT(Fast Fourier Transform)を使用して、周波数帯域固有の埋め込みを学習し、最も差別的な周波数範囲を適応的に強調する。 5つのきめ細かいアクティビティ認識データセットの中で、Frame2Freqは以前のPEFTメソッドよりも優れており、4つのモデルで完全に調整されたモデルを超えています。これらの結果は、周波数解析法が画像間転送における時間ダイナミクスをモデル化するための強力なツールであることを示す。コードはhttps://github.com/th-nesh/Frame2Freq.comで入手できる。

関連論文リスト

Wavelet-based Frame Selection by Detecting Semantic Boundary for Long Video Understanding [43.587729230845525]
現在のメソッドは、通常、与えられたクエリに高い関連性を持つフレームを選択する。トレーニング不要なフレームワークであるセマンティック境界(WFS-SB)の検出によるウェーブレットベースのフレーム選択を提案する。 WFS-SBはLVLMの性能を大幅に向上させ、ビデオMMEでは5.5%、MLVUでは9.5%、LongVideoBenchでは6.2%の精度向上を実現した。
論文参考訳（メタデータ） (2026-02-28T07:18:07Z)
STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Enhancing Long Video Generation Consistency without Tuning [92.1714656167712]
単一のプロンプトまたは複数のプロンプトで生成されたビデオの一貫性とコヒーレンスを高めるための課題に対処する。本稿では,時間周波数に基づく時間的注意再重み付けアルゴリズム(TiARA)を提案する。複数のプロンプトによって生成されたビデオに対しては、プロンプトのアライメントがプロンプトの品質に影響を及ぼすといった重要な要因をさらに明らかにする。提案するPromptBlendは,プロンプトを系統的に整列させるプロンプトパイプラインである。
論文参考訳（メタデータ） (2024-12-23T03:56:27Z)
FlashVTG: Feature Layering and Adaptive Score Handling Network for Video Temporal Grounding [25.21011724370177]
テキスト誘導ビデオ時間グラウンド(VTG)は、テキスト記述に基づいて、関連セグメントを未編集ビデオにローカライズすることを目的としている。本稿では,TFL(Temporal Feature Layering)モジュールとASR(Adaptive Score Refinement)モジュールを備えたフレームワークであるFlashVTGを紹介する。 FlashVTGは、Moment Retrieval(MR)とHighlight Detection(HD)の両方で広く採用されている4つのデータセット上で、最先端のパフォーマンスを達成する
論文参考訳（メタデータ） (2024-12-18T02:23:33Z)
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-26T20:51:35Z)
Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文参考訳（メタデータ） (2022-09-19T17:59:02Z)
TTVFI: Learning Trajectory-Aware Transformer for Video Frame Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文参考訳（メタデータ） (2022-07-19T03:37:49Z)
Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文参考訳（メタデータ） (2022-07-05T09:27:53Z)
Spatiotemporal Augmentation on Selective Frequencies for Video Representation Learning [36.352159541825095]
ビデオ表現のための周波数領域におけるデータ拡張をフィルタするFreqAugを提案する。 FreqAugは、空間的または時間的低周波成分をドロップすることで、ビデオのダイナミック機能にもっとフォーカスするようにモデルをプッシュする。提案手法の汎用性を検証するため,FreqAugを複数の自己教師型学習フレームワーク上で実験し,標準拡張を行った。
論文参考訳（メタデータ） (2022-04-08T06:19:32Z)
Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity and Temporal-Consistency Video Prediction [12.84409065286371]
本稿では,マルチレベルウェーブレット解析に基づく映像予測ネットワークを提案し,空間的・時間的情報を統一的に扱う。本モデルでは,最先端の作業に対する忠実度と時間的整合性に大きな改善が見られた。
論文参考訳（メタデータ） (2020-02-23T13:46:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。