論文の概要: High-Quality, ROS Compatible Video Encoding and Decoding for High-Definition Datasets
- arxiv url: http://arxiv.org/abs/2408.00538v1
- Date: Thu, 1 Aug 2024 13:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:36:37.931477
- Title: High-Quality, ROS Compatible Video Encoding and Decoding for High-Definition Datasets
- Title(参考訳): 高精細データセットの高精細・高精細・高精細映像符号化・復号化
- Authors: Jian Li, Bowen Xu, Sören Schwertfeger,
- Abstract要約: 本稿では,ロボット・データセットにおける最新のビデオエンコーダの利用について検討する。
ROS 1 と ROS 2 のフレームワーク内で mp4 ビデオを再生できるソフトウェアを提供する。
適切なストレージ制約下で,高品質なビデオデータセットの保存と共有が可能であることを示す。
- 参考スコア(独自算出の注目度): 12.273665270712073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic datasets are important for scientific benchmarking and developing algorithms, for example for Simultaneous Localization and Mapping (SLAM). Modern robotic datasets feature video data of high resolution and high framerates. Storing and sharing those datasets becomes thus very costly, especially if more than one camera is used for the datasets. It is thus essential to store this video data in a compressed format. This paper investigates the use of modern video encoders for robotic datasets. We provide a software that can replay mp4 videos within ROS 1 and ROS 2 frameworks, supporting the synchronized playback in simulated time. Furthermore, the paper evaluates different encoders and their settings to find optimal configurations in terms of resulting size, quality and encoding time. Through this work we show that it is possible to store and share even highest quality video datasets within reasonable storage constraints.
- Abstract(参考訳): ロボットデータセットは科学的ベンチマークやアルゴリズムの開発において重要であり、例えば、同時局所化とマッピング(SLAM)がある。
現代のロボットデータセットは、高解像度と高フレームレートのビデオデータを備えている。
データセットの保存と共有は、特に複数のカメラがデータセットに使用される場合、非常にコストがかかります。
したがって、このビデオデータを圧縮形式で保存することが不可欠である。
本稿では,ロボット・データセットにおける最新のビデオエンコーダの利用について検討する。
ROS 1 と ROS 2 フレームワーク内で mp4 ビデオを再生し、同期再生をシミュレーション時間でサポートするソフトウェアを提供する。
さらに、異なるエンコーダとそれらの設定を評価し、その結果のサイズ、品質、エンコード時間の観点から最適な構成を求める。
この作業を通じて、適切なストレージ制約下で、高品質なビデオデータセットを保存および共有することが可能であることを示す。
関連論文リスト
- Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content [35.02160595617654]
時間分割、詳細なキャプション、ビデオ品質フィルタリングは、データセットの品質を決定する3つの重要な要素である。
我々は,正確な時間分割,詳細なキャプション,優れた映像品質を備えた大規模高品質ビデオデータセットであるKoala-36Mを紹介した。
論文 参考訳(メタデータ) (2024-10-10T17:57:49Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。