Fugu-MT 論文翻訳(概要): Real-time FPGA implementation of the Semi-Global Matching stereo vision algorithm for a 4K/UHD video stream

論文の概要: Real-time FPGA implementation of the Semi-Global Matching stereo vision algorithm for a 4K/UHD video stream

arxiv url: http://arxiv.org/abs/2301.04847v1
Date: Thu, 12 Jan 2023 07:19:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 15:13:40.711923
Title: Real-time FPGA implementation of the Semi-Global Matching stereo vision algorithm for a 4K/UHD video stream
Title（参考訳）: 4k/uhdビデオストリームのためのセミグローバルマッチングステレオビジョンアルゴリズムのリアルタイムfpga実装
Authors: Mariusz Grabowski and Tomasz Kryjak
Abstract要約: 本稿では,SGMステレオビジョンアルゴリズムのFPGAリアルタイム実装を提案する。デザインされたモジュールは、4K/Ultra HD (3840 x 2160 pixels @ 30 frames per second)ビデオストリームを4ピクセル毎クロック (ppc) フォーマットでサポートし、64ピクセルのディパリティ範囲も備えている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a real-time FPGA implementation of the Semi-Global Matching (SGM) stereo vision algorithm. The designed module supports a 4K/Ultra HD (3840 x 2160 pixels @ 30 frames per second) video stream in a 4 pixel per clock (ppc) format and a 64-pixel disparity range. The baseline SGM implementation had to be modified to process pixels in the 4ppc format and meet the timing constrains, however, our version provides results comparable to the original design. The solution has been positively evaluated on the Xilinx VC707 development board with a Virtex-7 FPGA device.
Abstract（参考訳）: 本稿では,セミグローバルマッチング(sgm)ステレオビジョンアルゴリズムのリアルタイムfpga実装を提案する。このモジュールは4k/ultra hd (3840 x 2160 pixels @ 30 frames per second)ビデオストリームを4ピクセル毎クロック(ppc)フォーマットと64ピクセルの差範囲でサポートする。ベースラインSGM実装は4ppcフォーマットでピクセルを処理し、タイミング制約を満たすように修正されなければならなかったが、我々のバージョンはオリジナルの設計に匹敵する結果を提供する。このソリューションは、Virtex-7 FPGAデバイスを搭載したXilinx VC707開発ボード上で肯定的に評価されている。

関連論文リスト

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation [101.82480298904225]
本稿では,単一で統一された視覚表現を学習する,OpenVision 3という高度な視覚エンコーダ群について述べる。 VAE圧縮されたイメージラテントをViTエンコーダに供給し、2つの補完的な役割をサポートするために出力をトレーニングします。マルチモーダル理解のために、エンコーダをLLaVA-1.5フレームワークにプラグインします。
論文参考訳（メタデータ） (2026-01-21T18:47:12Z)
SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting [50.69165364520998]
実世界の非同期ビデオ集合を扱うために, マルチビデオ4Dガウススプラッティング (4DGS) 方式を提案する。 SyncTrack4Dは、4DGSの同時同期と4DGS再構成のためのキューとして動的シーンの高密度な4Dトラック表現を直接活用する。我々はPanoptic Studio と SyncNeRF Blender に対するアプローチを評価し,0.26 フレーム以下の平均時間誤差でサブフレーム同期精度を示し,高忠実度 4D 再構成は26.3 PSNR スコアに達した。
論文参考訳（メタデータ） (2025-12-03T23:05:01Z)
UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios [11.829523789114377]
我々は、MultiAspect-4K-1Mで4Kで訓練されたFluxベースのDiTであるUltraFluxを紹介する。モデル側では、UltraFluxは4Kでのトレーニングウインドウ、周波数、AR対応の位置符号化のためにResonance 2D RoPEとYaRNを結合する。 4096年のAesthetic-EvalベンチマークとマルチAR 4K設定では、UltraFluxはフィデリティ、美学、アライメントのメトリクスで、強力なオープンソースベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-11-22T13:07:21Z)
4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming [52.76837132019501]
本稿では,新しい階層型4D圧縮フレームワークである4DGCProを紹介する。 4DGCProは、プログレッシブボリュームビデオストリーミングによるリアルタイムモバイルデコーディングと高品質なレンダリングを容易にする。エンドツーエンドのエントロピー最適化トレーニングスキームを提案する。
論文参考訳（メタデータ） (2025-09-22T08:38:17Z)
LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。 Video-VAEとDenoising Transformerをシームレスに統合する。 Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文参考訳（メタデータ） (2024-12-30T19:00:25Z)
VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文参考訳（メタデータ） (2024-11-29T08:10:49Z)
Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。 SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。 REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-25T17:59:26Z)
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images [119.24323184581974]
LLaVA-UHDは,任意のアスペクト比と高解像度の画像を効率的に知覚できる大規模マルチモーダルモデルである。総合的な実験の結果、LLaVA-UHDは9つのベンチマークで2～3桁のデータで訓練されたLMMよりも優れていた。
論文参考訳（メタデータ） (2024-03-18T12:04:11Z)
4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文参考訳（メタデータ） (2023-10-17T17:57:38Z)
4D Gaussian Splatting for Real-Time Dynamic Scene Rendering [103.32717396287751]
本研究では,動的シーンの全体像として4D-GS(Gaussian Splatting)を提案する。 HexPlaneにインスパイアされたニューラルボクセル符号化アルゴリズムは、4Dニューラルボクセルの機能を効率的に構築するために提案されている。我々の4D-GS法は、高解像度の82 FPSで、3090 GPUで800$times$800の解像度でリアルタイムレンダリングを実現する。
論文参考訳（メタデータ） (2023-10-12T17:21:41Z)
Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文参考訳（メタデータ） (2022-08-10T05:54:46Z)
Distortion-Aware Loop Filtering of Intra 360^o Video Coding with Equirectangular Projection [81.63407194858854]
等角射影(ERP)フォーマットで投影された360$o$ビデオの符号化性能を向上させるため,歪みを考慮したループフィルタリングモデルを提案する。提案モジュールは、符号化ユニット(CU)パーティションマスクに基づいてコンテンツ特性を分析し、部分的畳み込みによって処理し、指定された領域を活性化する。
論文参考訳（メタデータ） (2022-02-20T12:00:18Z)
BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View [15.560366079077449]
我々は,2次元オブジェクト検出タスクにおける性能境界を押し上げるために,BEVDetパラダイムを貢献する。 BeVDetは,Bird-Eye-View (BEV) における3次元物体検出の原則に従って開発され,経路計画を手作業で行うことができる。提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。
論文参考訳（メタデータ） (2021-12-22T10:48:06Z)
A Connected Component Labelling algorithm for multi-pixel per clock cycle video strea [0.0]
本稿では、reprogammable logicにおけるコネクテッドコンポーネントラベリング(CCL)モジュールのハードウェア実装について述べる。主な斬新さは「フル」、すなわち、単純化なしに4ピクセル毎クロックフォーマット(4 ppc)をサポートし、4K/UltraHDビデオストリーム(3840 x 2160 ピクセル)を毎秒60フレームでリアルタイムに処理できることである。提案モジュールは,ZCU104評価ボード上のXilinx Zynq Ultrascale+ MPSoCチップ上で,シミュレーションおよびハードウェア上で検証された。
論文参考訳（メタデータ） (2021-05-20T10:43:58Z)
Improving Deep Video Compression by Resolution-adaptive Flow Coding [0.0]
本稿では,RaFC (Resolve-Adaptive Flow Coding) と呼ばれる新しいフレームワークを提案する。複雑な動きパターンや単純な動きパターンをグローバルに処理するために、フレームレベルのRaFCフレームは、各ビデオフレームに対して最適なフローマップ解像度を自動的に決定する。異なるタイプの動作パターンに局所的に対処するために、RaFCブロックと呼ばれるブロックレベルのスキームは、各局所的な動作特徴に対して最適な解像度を選択することもできる。
論文参考訳（メタデータ） (2020-09-13T12:10:34Z)
Single Storage Semi-Global Matching for Real Time Depth Processing [0.7157957528875099]
More Global Matching(MGM)のFPGA実装に基づくステレオビジョンシステムの設計と実装について述べる。プロトタイプでは、ARMベースのZynq-SoC、ZED-stereo-camera / ELPステレオカメラ/Intel RealSense D435i、可視化用のVGAを含むZedboardを使用します。深度マップに必要な差分マップ計算のFPGAによるカスタムアクセラレーションによる消費電力はわずか0.72ワットである。
論文参考訳（メタデータ） (2020-07-07T08:12:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。