論文の概要: Bias for Action: Video Implicit Neural Representations with Bias Modulation
- arxiv url: http://arxiv.org/abs/2501.09277v1
- Date: Thu, 16 Jan 2025 03:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:21.712439
- Title: Bias for Action: Video Implicit Neural Representations with Bias Modulation
- Title(参考訳): Bias for Action: Bias Modulationを用いたビデオインプットニューラル表現
- Authors: Alper Kayabasi, Anil Kumar Vadathya, Guha Balakrishnan, Vishwanath Saragadam,
- Abstract要約: 本稿では,ActINRと呼ばれる暗黙的ニューラル表現(INR)に基づく新しい連続ビデオモデリングフレームワークを提案する。
ビデオINRとこのバイアスINRを合わせてトレーニングすることで、ビデオスローモーションの10ドル、空間スーパー解像度の4ドル、スローモーションの2ドル、デノイングの2ドル、ビデオインペインティングなどのユニークな機能をデモします。
- 参考スコア(独自算出の注目度): 8.940264163876968
- License:
- Abstract: We propose a new continuous video modeling framework based on implicit neural representations (INRs) called ActINR. At the core of our approach is the observation that INRs can be considered as a learnable dictionary, with the shapes of the basis functions governed by the weights of the INR, and their locations governed by the biases. Given compact non-linear activation functions, we hypothesize that an INR's biases are suitable to capture motion across images, and facilitate compact representations for video sequences. Using these observations, we design ActINR to share INR weights across frames of a video sequence, while using unique biases for each frame. We further model the biases as the output of a separate INR conditioned on time index to promote smoothness. By training the video INR and this bias INR together, we demonstrate unique capabilities, including $10\times$ video slow motion, $4\times$ spatial super resolution along with $2\times$ slow motion, denoising, and video inpainting. ActINR performs remarkably well across numerous video processing tasks (often achieving more than 6dB improvement), setting a new standard for continuous modeling of videos.
- Abstract(参考訳): 本稿では,ActINRと呼ばれる暗黙的ニューラル表現(INR)に基づく新しい連続ビデオモデリングフレームワークを提案する。
我々のアプローチの核心は、INRが学習可能な辞書とみなすことができ、INRの重みによって支配される基底関数の形状とそのバイアスによって支配される位置である。
コンパクトな非線形アクティベーション関数が与えられた場合、INRのバイアスは画像間の動きをキャプチャし、ビデオシーケンスのコンパクトな表現を容易にするのに適していると仮定する。
これらの観測値を用いて、ActINRを設計し、各フレームに固有のバイアスを用いながら、ビデオシーケンスのフレーム間でINR重みを共有する。
さらに,そのバイアスを時間指標に条件付き別個のINRの出力としてモデル化し,滑らかさを促進させる。
動画INRとこのバイアスINRを合わせてトレーニングすることで、動画スローモーションの10ドル、空間超解像の4ドル、スローモーションの2ドル、デノイングの2ドル、そしてビデオインペインティングなど、ユニークな機能を示します。
ActINRは、多数のビデオ処理タスク(しばしば6dB以上の改善を達成している)に対して驚くほどよく機能し、ビデオの継続的なモデリングのための新しい標準を設定している。
関連論文リスト
- PNeRV: A Polynomial Neural Representation for Videos [28.302862266270093]
Inlicit Neural Representations on videoの抽出は、時間次元の追加によるユニークな課題を生じさせる。
PNeRV(Polynomial Neural Representation for Videos)を紹介する。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題を緩和するが、高度なビデオ処理と分析のための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-27T16:15:22Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - INR-V: A Continuous Representation Space for Video-based Generative
Tasks [43.245717657048296]
本稿では,映像生成タスクの連続的な空間を学習する映像表現ネットワークINR-Vを提案する。
INR-Vによって学習された表現空間は、既存の作品では不可能な多くの興味深い性質を示す画像空間よりも表現性が高い。
論文 参考訳(メタデータ) (2022-10-29T11:54:58Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。