論文の概要: FrameRS: A Video Frame Compression Model Composed by Self supervised
Video Frame Reconstructor and Key Frame Selector
- arxiv url: http://arxiv.org/abs/2309.09083v1
- Date: Sat, 16 Sep 2023 19:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 17:32:39.274699
- Title: FrameRS: A Video Frame Compression Model Composed by Self supervised
Video Frame Reconstructor and Key Frame Selector
- Title(参考訳): フレームラ:自己教師付きビデオフレーム再構成器とキーフレームセレクタからなるビデオフレーム圧縮モデル
- Authors: Qiqian Fu, Guanhong Wang, Gaoang Wang
- Abstract要約: 本稿では,フレーム再構成モデル FrameRS について述べる。
フレーム再構成器 FrameMAE は,Masked Autoencoder for Images (MAE) の原理をビデオコンテキストに適用することによって開発されている。
キーフレームセレクタであるFrame SelectorはCNNアーキテクチャ上に構築されている。
- 参考スコア(独自算出の注目度): 9.896415488558036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present frame reconstruction model: FrameRS. It consists
self-supervised video frame reconstructor and key frame selector. The frame
reconstructor, FrameMAE, is developed by adapting the principles of the Masked
Autoencoder for Images (MAE) for video context. The key frame selector, Frame
Selector, is built on CNN architecture. By taking the high-level semantic
information from the encoder of FrameMAE as its input, it can predicted the key
frames with low computation costs. Integrated with our bespoke Frame Selector,
FrameMAE can effectively compress a video clip by retaining approximately 30%
of its pivotal frames. Performance-wise, our model showcases computational
efficiency and competitive accuracy, marking a notable improvement over
traditional Key Frame Extract algorithms. The implementation is available on
Github
- Abstract(参考訳): 本稿では,フレーム再構成モデルであるFrameRSを提案する。
自己監督型ビデオフレームコンストラクタとキーフレームセレクタから構成される。
フレーム再構成器 FrameMAE は,Masked Autoencoder for Images (MAE) の原理をビデオコンテキストに適用することによって開発されている。
キーフレームセレクタであるFrame SelectorはCNNアーキテクチャ上に構築されている。
フレームメイのエンコーダからハイレベルな意味情報を入力として取り込むことで、計算コストの少ないキーフレームを予測できる。
FrameMAEは,我々のBespoke Frame Selectorと統合され,動画クリップの約30%を保持することで,効果的に圧縮することができる。
性能面では,従来のキーフレーム抽出アルゴリズムに比べて著しく改善した計算効率と競合精度を示す。
実装はgithubで公開されている
関連論文リスト
- Frame-Voyager: Learning to Query Frames for Video Large Language Models [33.84793162102087]
ビデオ大言語モデル (Video-LLMs) はビデオ理解タスクにおいて顕著な進歩を遂げている。
フレームの一様サンプリングやテキストフレーム検索のような既存のフレーム選択アプローチでは、ビデオ内の情報密度の変動を考慮できない。
タスクの与えられたテキストクエリに基づいて,情報フレームの組み合わせを問合せする Frame-Voyager を提案する。
論文 参考訳(メタデータ) (2024-10-04T08:26:06Z) - Concatenated Masked Autoencoders as Spatial-Temporal Learner [6.475592804311682]
自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:08:26Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Butterfly: Multiple Reference Frames Feature Propagation Mechanism for
Neural Video Compression [17.073251238499314]
ニューラルビデオ圧縮のためのより合理的な多参照フレーム伝搬機構を提案する。
従来のSOTA(State-of-the-art)よりも優れています。
我々のニューラルデータセットは、基本的な単一参照フレームモデルと比較すると、HEVCクラスDで7.6%の節約を達成できる。
論文 参考訳(メタデータ) (2023-03-06T08:19:15Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Advancing Learned Video Compression with In-loop Frame Prediction [177.67218448278143]
本稿では,ループ内フレーム予測モジュールを用いたALVC(Advanced Learned Video Compression)アプローチを提案する。
予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受けることができる。
本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示すものである。
論文 参考訳(メタデータ) (2022-11-13T19:53:14Z) - Context-Aware Video Reconstruction for Rolling Shutter Cameras [52.28710992548282]
本稿では,文脈対応のGSビデオ再構成アーキテクチャを提案する。
まず、2つのRSフレームの画素が共通のGSフレームに歪むように、左右の運動場を推定する。
そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,高忠実度GSビデオフレームを生成するための改良手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:05:47Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。