論文の概要: Condensing a Sequence to One Informative Frame for Video Recognition
- arxiv url: http://arxiv.org/abs/2201.04022v1
- Date: Tue, 11 Jan 2022 16:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:16:32.221478
- Title: Condensing a Sequence to One Informative Frame for Video Recognition
- Title(参考訳): 映像認識のための1つの情報フレームにシーケンスを凝縮する
- Authors: Zhaofan Qiu and Ting Yao and Yan Shu and Chong-Wah Ngo and Tao Mei
- Abstract要約: 本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
- 参考スコア(独自算出の注目度): 113.3056598548736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video is complex due to large variations in motion and rich content in
fine-grained visual details. Abstracting useful information from such
information-intensive media requires exhaustive computing resources. This paper
studies a two-step alternative that first condenses the video sequence to an
informative "frame" and then exploits off-the-shelf image recognition system on
the synthetic frame. A valid question is how to define "useful information" and
then distill it from a video sequence down to one synthetic frame. This paper
presents a novel Informative Frame Synthesis (IFS) architecture that
incorporates three objective tasks, i.e., appearance reconstruction, video
categorization, motion estimation, and two regularizers, i.e., adversarial
learning, color consistency. Each task equips the synthetic frame with one
ability, while each regularizer enhances its visual quality. With these, by
jointly learning the frame synthesis in an end-to-end manner, the generated
frame is expected to encapsulate the required spatio-temporal information
useful for video analysis. Extensive experiments are conducted on the
large-scale Kinetics dataset. When comparing to baseline methods that map video
sequence to a single image, IFS shows superior performance. More remarkably,
IFS consistently demonstrates evident improvements on image-based 2D networks
and clip-based 3D networks, and achieves comparable performance with the
state-of-the-art methods with less computational cost.
- Abstract(参考訳): 動画は、動きのばらつきと、細かな視覚詳細の豊富なコンテンツによって複雑である。
このような情報集約メディアから有用な情報を抽象化するには、網羅的な計算資源が必要である。
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮し,次に合成フレーム上の既製の画像認識システムを利用する2段階の方法を提案する。
有効な疑問は、どのように「有用な情報」を定義し、それをビデオシーケンスから1つの合成フレームに蒸留するかである。
本稿では,視覚再構成,映像分類,運動推定,および2つの正則化,すなわち,逆学習,色一貫性という3つの客観的タスクを組み込んだ,新しい情報フレーム合成(ifs)アーキテクチャを提案する。
各タスクは合成フレームに1つの能力を与え、各レギュレータはその視覚品質を高める。
これにより、フレーム合成をエンドツーエンドで共同で学習することにより、ビデオ解析に有用な時空間情報をカプセル化することが期待できる。
大規模なKineeticsデータセット上で大規模な実験を行う。
ビデオシーケンスを1つの画像にマッピングするベースライン手法と比較すると、IFSは優れた性能を示す。
さらに印象的なことに、IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークの明確な改善を一貫して示しており、計算コストの少ない最先端の手法と同等のパフォーマンスを実現している。
関連論文リスト
- FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Three-Stage Cascade Framework for Blurry Video Frame Interpolation [23.38547327916875]
Blurry Video frame (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。
BVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。
本稿では,ぼやけたビデオから有用な情報を完全に探求する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:37:30Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Street-view Panoramic Video Synthesis from a Single Satellite Image [92.26826861266784]
時間的および幾何学的に一貫したストリートビューパノラマビデオの両方を合成する新しい方法を提示する。
既存のクロスビュー合成アプローチは画像に重点を置いているが、そのような場合のビデオ合成はまだ十分な注目を集めていない。
論文 参考訳(メタデータ) (2020-12-11T20:22:38Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。