論文の概要: LMVC: An End-to-End Learned Multiview Video Coding Framework
- arxiv url: http://arxiv.org/abs/2509.03922v1
- Date: Thu, 04 Sep 2025 06:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.073446
- Title: LMVC: An End-to-End Learned Multiview Video Coding Framework
- Title(参考訳): LMVC: エンドツーエンドのマルチビュービデオコーディングフレームワーク
- Authors: Xihua Sheng, Yingwen Zhang, Long Xu, Shiqi Wang,
- Abstract要約: マルチビュービデオはボリュームビデオの重要なデータソースであり、没入型3Dシーンの再構築を可能にする。
ディープラーニングベースのエンドツーエンドビデオコーディングは、大きな成功を収めていますが、ほとんどの場合、シングルビューやステレオビデオに重点を置いています。
本稿では,ランダムアクセスと後方互換性を保証する,エンドツーエンドのマルチビュービデオ符号化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.78537496324905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiview video is a key data source for volumetric video, enabling immersive 3D scene reconstruction but posing significant challenges in storage and transmission due to its massive data volume. Recently, deep learning-based end-to-end video coding has achieved great success, yet most focus on single-view or stereo videos, leaving general multiview scenarios underexplored. This paper proposes an end-to-end learned multiview video coding (LMVC) framework that ensures random access and backward compatibility while enhancing compression efficiency. Our key innovation lies in effectively leveraging independent-view motion and content information to enhance dependent-view compression. Specifically, to exploit the inter-view motion correlation, we propose a feature-based inter-view motion vector prediction method that conditions dependent-view motion encoding on decoded independent-view motion features, along with an inter-view motion entropy model that learns inter-view motion priors. To exploit the inter-view content correlation, we propose a disparity-free inter-view context prediction module that predicts inter-view contexts from decoded independent-view content features, combined with an inter-view contextual entropy model that captures inter-view context priors. Experimental results show that our proposed LMVC framework outperforms the reference software of the traditional MV-HEVC standard by a large margin, establishing a strong baseline for future research in this field.
- Abstract(参考訳): マルチビュービデオはボリュームビデオの重要なデータソースであり、没入型3Dシーンの再構築を可能にするが、膨大なデータ量のためにストレージと送信に大きな課題が生じる。
近年、ディープラーニングベースのエンドツーエンドビデオコーディングは大きな成功を収めているが、多くの場合はシングルビューやステレオビデオに重点を置いており、一般的なマルチビューシナリオは未探索のままである。
本稿では、圧縮効率を向上しつつ、ランダムアクセスと後方互換性を確保するために、エンドツーエンドのマルチビュービデオ符号化(LMVC)フレームワークを提案する。
私たちの重要なイノベーションは、依存ビュー圧縮を強化するために、独立ビューモーションとコンテンツ情報を有効に活用することにあります。
具体的には, 映像間動き相関を利用して, 映像間動きベクトル予測手法を提案し, 映像間動きの先行点を学習する映像間動きエントロピーモデルと合わせて, 映像間動きベクトル予測手法を提案する。
本稿では、ビュー間コンテンツ相関を利用して、ビュー間コンテキスト予測モジュールを提案し、ビュー間コンテキストの事前をキャプチャするビュー間コンテキストエントロピーモデルと組み合わせて、ビュー間コンテキスト予測モジュールを提案する。
実験結果から,提案するLMVCフレームワークは従来のMV-HEVC標準の基準ソフトウェアよりも高い性能を示し,今後の研究の基盤となる。
関連論文リスト
- A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects [53.15503034595476]
Video Scene Parsing (VSP) はコンピュータビジョンの基盤として登場した。
VSPはコンピュータビジョンの基盤として現れ、ダイナミックシーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
論文 参考訳(メタデータ) (2025-06-16T14:39:03Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。