論文の概要: Latent-INR: A Flexible Framework for Implicit Representations of Videos with Discriminative Semantics
- arxiv url: http://arxiv.org/abs/2408.02672v1
- Date: Mon, 5 Aug 2024 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 12:56:48.506463
- Title: Latent-INR: A Flexible Framework for Implicit Representations of Videos with Discriminative Semantics
- Title(参考訳): Latent-INR: 差別的意味論を伴う映像の表現を含まないフレキシブルなフレームワーク
- Authors: Shishira R Maiya, Anubhav Gupta, Matthew Gwilliam, Max Ehrlich, Abhinav Shrivastava,
- Abstract要約: Implicit Neural Networks(INR)は、画像、ビデオ、オーディオ、シーンなど、あらゆる形式のデータをエンコードする強力な表現として登場した。
これらの符号化された表現は意味を欠くため、検索のようなそのような特性を必要とする下流のタスクには使用できない。
ビデオINRの空間的側面と時間的側面を分離するフレキシブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.52385865743416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit Neural Networks (INRs) have emerged as powerful representations to encode all forms of data, including images, videos, audios, and scenes. With video, many INRs for video have been proposed for the compression task, and recent methods feature significant improvements with respect to encoding time, storage, and reconstruction quality. However, these encoded representations lack semantic meaning, so they cannot be used for any downstream tasks that require such properties, such as retrieval. This can act as a barrier for adoption of video INRs over traditional codecs as they do not offer any significant edge apart from compression. To alleviate this, we propose a flexible framework that decouples the spatial and temporal aspects of the video INR. We accomplish this with a dictionary of per-frame latents that are learned jointly with a set of video specific hypernetworks, such that given a latent, these hypernetworks can predict the INR weights to reconstruct the given frame. This framework not only retains the compression efficiency, but the learned latents can be aligned with features from large vision models, which grants them discriminative properties. We align these latents with CLIP and show good performance for both compression and video retrieval tasks. By aligning with VideoLlama, we are able to perform open-ended chat with our learned latents as the visual inputs. Additionally, the learned latents serve as a proxy for the underlying weights, allowing us perform tasks like video interpolation. These semantic properties and applications, existing simultaneously with ability to perform compression, interpolation, and superresolution properties, are a first in this field of work.
- Abstract(参考訳): Implicit Neural Networks(INR)は、画像、ビデオ、オーディオ、シーンなど、あらゆる形式のデータをエンコードする強力な表現として登場した。
ビデオでは圧縮作業のために多くのINRが提案されており、近年の手法では符号化時間、記憶量、復元品質が大幅に改善されている。
しかし、これらの符号化された表現には意味的な意味がないため、検索のようなそのような特性を必要とする下流のタスクには使用できない。
これは従来のコーデックよりもビデオINRを採用する上での障壁となり得る。
これを軽減するために,ビデオINRの空間的側面と時間的側面を分離するフレキシブルなフレームワークを提案する。
我々は、フレームごとのラテントの辞書でこれを達成し、ビデオ固有のハイパーネットワークのセットと共同で学習し、ラテントが与えられた場合、これらのハイパーネットワークは、与えられたフレームを再構築するためにINR重みを予測できる。
このフレームワークは圧縮効率を保持するだけでなく、学習した潜伏者は大きな視覚モデルの特徴と整合し、識別特性を付与する。
これらの潜伏者をCLIPと整合させ、圧縮タスクとビデオ検索タスクの両方に優れた性能を示す。
VideoLlamaと連携することで、学習した潜伏者とのオープンなチャットを視覚的な入力として行うことができます。
さらに、学習した潜伏者は、基盤となる重みのプロキシとして機能し、ビデオ補間のようなタスクを実行できます。
これらの意味的性質と応用は、圧縮、補間、超解像特性を実行する能力と同時に存在し、この分野における最初のものである。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Implicit-explicit Integrated Representations for Multi-view Video
Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-11-29T04:15:57Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - INR-V: A Continuous Representation Space for Video-based Generative
Tasks [43.245717657048296]
本稿では,映像生成タスクの連続的な空間を学習する映像表現ネットワークINR-Vを提案する。
INR-Vによって学習された表現空間は、既存の作品では不可能な多くの興味深い性質を示す画像空間よりも表現性が高い。
論文 参考訳(メタデータ) (2022-10-29T11:54:58Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。