論文の概要: AUTV: Creating Underwater Video Datasets with Pixel-wise Annotations
- arxiv url: http://arxiv.org/abs/2503.12828v1
- Date: Mon, 17 Mar 2025 05:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:14:52.437409
- Title: AUTV: Creating Underwater Video Datasets with Pixel-wise Annotations
- Title(参考訳): AUTV: ピクセルワイドアノテーションによる水中ビデオデータセット作成
- Authors: Quang Trung Truong, Wong Yuk Kwan, Duc Thanh Nguyen, Binh-Son Hua, Sai-Kit Yeung,
- Abstract要約: AUTVは,海洋ビデオデータをピクセル単位のアノテーションで合成するフレームワークである。
2つのビデオデータセットを構築することで、このフレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 27.609227883183713
- License:
- Abstract: Underwater video analysis, hampered by the dynamic marine environment and camera motion, remains a challenging task in computer vision. Existing training-free video generation techniques, learning motion dynamics on the frame-by-frame basis, often produce poor results with noticeable motion interruptions and misaligments. To address these issues, we propose AUTV, a framework for synthesizing marine video data with pixel-wise annotations. We demonstrate the effectiveness of this framework by constructing two video datasets, namely UTV, a real-world dataset comprising 2,000 video-text pairs, and SUTV, a synthetic video dataset including 10,000 videos with segmentation masks for marine objects. UTV provides diverse underwater videos with comprehensive annotations including appearance, texture, camera intrinsics, lighting, and animal behavior. SUTV can be used to improve underwater downstream tasks, which are demonstrated in video inpainting and video object segmentation.
- Abstract(参考訳): 水中のビデオ解析は、動的海洋環境とカメラの動きによって妨げられているが、コンピュータビジョンでは難しい課題である。
既存のトレーニングフリーのビデオ生成技術では、フレーム単位のモーションダイナミクスを学習し、しばしば顕著な動きの中断と誤対処を伴う悪い結果をもたらす。
これらの問題に対処するため,我々は,画像データをピクセル単位で合成するフレームワークであるAUTVを提案する。
本研究では,2000組のビデオテキストペアからなる実世界のデータセットであるUTVと,海洋生物のためのセグメンテーションマスク付き1万組のビデオを含む合成ビデオデータセットであるSUTVの2つのビデオデータセットを構築することで,このフレームワークの有効性を実証する。
UTVは、外観、テクスチャ、カメラの内在、照明、動物行動などの包括的なアノテーションを備えた多様な水中ビデオを提供する。
SUTVは水中でのダウンストリームタスクの改善に使用することができ、ビデオのインペイントやビデオオブジェクトのセグメンテーションで実証される。
関連論文リスト
- VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [66.66226299852559]
VideoAnydoorは、高忠実度ディテール保存と正確なモーションコントロールを備えたゼロショットビデオオブジェクト挿入フレームワークである。
詳細な外観を保ちながら、微粒な動き制御をサポートするため、我々は画素ワーパーを設計する。
論文 参考訳(メタデータ) (2025-01-02T18:59:54Z) - End-To-End Underwater Video Enhancement: Dataset and Model [6.153714458213646]
水中ビデオエンハンスメント(UVE)は、水中ビデオの可視性とフレーム品質を改善することを目的としている。
既存の手法は主に、各フレームを独立して拡張する画像強調アルゴリズムの開発に重点を置いている。
この研究は、私たちの知識に対するUVEの総合的な探索である。
論文 参考訳(メタデータ) (2024-03-18T06:24:46Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Make Pixels Dance: High-Dynamic Video Generation [13.944607760918997]
最先端のビデオ生成手法は、高い忠実さを維持しつつも、最小限のモーションでビデオクリップを生成する傾向がある。
ビデオ生成のためのテキスト命令と合わせて,第1フレームと第2フレームの両方のイメージ命令を組み込んだ,新しいアプローチであるPixelDanceを紹介する。
論文 参考訳(メタデータ) (2023-11-18T06:25:58Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。