Fugu-MT 論文翻訳(概要): Deep learning-based stereo camera multi-video synchronization

論文の概要: Deep learning-based stereo camera multi-video synchronization

arxiv url: http://arxiv.org/abs/2303.12916v1
Date: Wed, 22 Mar 2023 21:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 16:29:09.954650
Title: Deep learning-based stereo camera multi-video synchronization
Title（参考訳）: 深層学習に基づくステレオカメラのマルチビデオ同期
Authors: Nicolas Boizard, Kevin El Haddad, Thierry Ravet, Fran\c{c}ois Cresson and Thierry Dutoit
Abstract要約: ソフトウェアベースの同期方式では、システム全体のコスト、重量、サイズを削減できる。本研究は、ソフトウェアベースのビデオ同期システムを実現するための道筋をたどるものである。
参考スコア（独自算出の注目度）: 5.305803516459996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stereo vision is essential for many applications. Currently, the synchronization of the streams coming from two cameras is done using mostly hardware. A software-based synchronization method would reduce the cost, weight and size of the entire system and allow for more flexibility when building such systems. With this goal in mind, we present here a comparison of different deep learning-based systems and prove that some are efficient and generalizable enough for such a task. This study paves the way to a production ready software-based video synchronization system.
Abstract（参考訳）: ステレオビジョンは多くのアプリケーションに不可欠である。現在、2台のカメラからのストリームの同期は、主にハードウェアで行われている。ソフトウェアベースの同期方式は、システム全体のコスト、重量、サイズを削減し、そのようなシステムを構築する際の柔軟性を高める。この目標を念頭に置いて、異なるディープラーニングベースのシステムの比較を行い、そのようなタスクに十分な効率と一般化性を示す。本研究は、ソフトウェアベースのビデオ同期システムの実現方法を明らかにする。

関連論文リスト

Beyond Audio and Pose: A General-Purpose Framework for Video Synchronization [1.7820202405704466]
ビデオ同期は、リアリティ番組制作、スポーツ分析、監視、自律システムなどのアプリケーションに不可欠である。以前の作業はオーディオキューや特定の視覚イベントに大きく依存しており、さまざまな設定で適用性を制限する。本稿では,特定の特徴抽出手法とは独立して動作するビデオ同期フレームワークであるVideoSyncを紹介する。
論文参考訳（メタデータ） (2025-06-19T00:41:21Z)
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文参考訳（メタデータ） (2025-03-30T09:40:42Z)
Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文参考訳（メタデータ） (2025-01-23T08:33:10Z)
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [43.14498014617223]
マルチカメラビデオ生成のための事前訓練されたテキスト・ツー・ビデオモデルを強化するプラグイン・アンド・プレイ・モジュールを提案する。異なる視点における外観と幾何の整合性を維持するために,マルチビュー同期モジュールを導入する。提案手法は,新しい視点からビデオを再レンダリングするなど,興味をそそる拡張を可能にする。
論文参考訳（メタデータ） (2024-12-10T18:55:17Z)
MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos [104.1338295060383]
本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。本システムは,先行作業や同時作業と比較して,カメラポーズや深度推定において有意に精度が高く,頑健である。
論文参考訳（メタデータ） (2024-12-05T18:59:42Z)
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。 CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文参考訳（メタデータ） (2024-05-27T17:58:01Z)
Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文参考訳（メタデータ） (2024-01-29T18:59:55Z)
Enabling Cross-Camera Collaboration for Video Analytics on Distributed Smart Cameras [7.609628915907225]
本稿では、スマートカメラ上でのクロスカメラコラボレーションによる分散ビデオ分析システムArgusを紹介する。マルチカメラ・マルチターゲットトラッキングを主課題であるマルチカメラ・ビデオ分析とし、冗長で処理量の多いタスクを避ける新しい手法を開発した。 Argusは最先端と比較してオブジェクトの識別とエンドツーエンドのレイテンシを最大7.13倍と2.19倍に削減する。
論文参考訳（メタデータ） (2024-01-25T12:27:03Z)
Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文参考訳（メタデータ） (2023-12-01T14:03:30Z)
Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文参考訳（メタデータ） (2022-10-13T14:25:37Z)
Synchronized Smartphone Video Recording System of Depth and RGB Image Frames with Sub-millisecond Precision [2.1286051580524523]
本稿では,同期(同期)精度の高い記録システムを提案する。スマートフォン、ディープカメラ、IMUなどの異種センサーで構成されている。
論文参考訳（メタデータ） (2021-11-05T15:16:54Z)
MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion [47.2251122861135]
低コストの単眼RGBカメラを用いて正確な深度推定を行うマルチスコープ・ビジョン・システムの設計を行う。制約のないカメラポーズで撮影された画像を持つマルチビューステレオとは異なり、提案システムはカメラの動きを制御して画像列をキャプチャする。
論文参考訳（メタデータ） (2021-08-05T08:31:01Z)
Single-Frame based Deep View Synchronization for Unsynchronized Multi-Camera Surveillance [56.964614522968226]
マルチカメラ監視はシーンの理解とモデリングにおいて活発な研究課題となっている。通常、これらのマルチカメラベースのタスクのモデルを設計する際に、カメラはすべて時間的に同期していると仮定される。我々のビュー同期モデルは、非同期設定下で異なるDNNベースのマルチカメラビジョンタスクに適用される。
論文参考訳（メタデータ） (2020-07-08T04:39:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。