論文の概要: Controllable Pedestrian Video Editing for Multi-View Driving Scenarios via Motion Sequence
- arxiv url: http://arxiv.org/abs/2508.00299v1
- Date: Fri, 01 Aug 2025 03:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.729505
- Title: Controllable Pedestrian Video Editing for Multi-View Driving Scenarios via Motion Sequence
- Title(参考訳): モーションシーケンスによる多視点運転シナリオのための制御可能な歩行者映像編集
- Authors: Danzhen Fu, Jiagao Hu, Daiguo Zhou, Fei Wang, Zepeng Wang, Wenhua Liao,
- Abstract要約: 本稿では,映像の描画と人体動作制御を統合して,多視点運転シナリオにおける歩行者映像編集のためのフレームワークを提案する。
我々のアプローチは、複数のカメラビューにまたがる歩行者領域を特定し、一定の比率で境界ボックスを検知し、これらの領域を統一されたキャンバスに変えて縫い合わせることから始まる。
実験により, 視覚的リアリズムのコヒーレンスと視線横断的整合性により, 高品質な歩行者編集を実現することが実証された。
- 参考スコア(独自算出の注目度): 4.778564042492516
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pedestrian detection models in autonomous driving systems often lack robustness due to insufficient representation of dangerous pedestrian scenarios in training datasets. To address this limitation, we present a novel framework for controllable pedestrian video editing in multi-view driving scenarios by integrating video inpainting and human motion control techniques. Our approach begins by identifying pedestrian regions of interest across multiple camera views, expanding detection bounding boxes with a fixed ratio, and resizing and stitching these regions into a unified canvas while preserving cross-view spatial relationships. A binary mask is then applied to designate the editable area, within which pedestrian editing is guided by pose sequence control conditions. This enables flexible editing functionalities, including pedestrian insertion, replacement, and removal. Extensive experiments demonstrate that our framework achieves high-quality pedestrian editing with strong visual realism, spatiotemporal coherence, and cross-view consistency. These results establish the proposed method as a robust and versatile solution for multi-view pedestrian video generation, with broad potential for applications in data augmentation and scenario simulation in autonomous driving.
- Abstract(参考訳): 自律運転システムにおける歩行者検出モデルは、トレーニングデータセットにおける危険な歩行者シナリオの表現が不十分なため、堅牢性に欠けることが多い。
この制限に対処するために,映像塗装技術と人間のモーションコントロール技術を統合することで,多視点運転シナリオにおける歩行者映像の編集を制御可能な新しいフレームワークを提案する。
我々のアプローチは、複数のカメラビューにまたがる歩行者領域を特定し、一定の比率で境界ボックスを検知し、これらの領域を一貫したキャンバスに再構成し、空間的関係を保ちながら縫い合わせることから始まる。
次に、二項マスクを適用して編集可能な領域を指定し、その中で歩行者編集をポーズシーケンス制御条件でガイドする。
これにより、歩行者の挿入、置換、削除など、柔軟な編集機能を実現できる。
広汎な実験により,我々のフレームワークは,強い視覚的リアリズム,時空間コヒーレンス,対面的整合性を備えた高品質な歩行者編集を実現していることが示された。
これらの結果は,多視点歩行者ビデオ生成のための堅牢で汎用的なソリューションとして提案手法を確立し,自律運転におけるデータ拡張とシナリオシミュレーションへの応用の可能性を広げた。
関連論文リスト
- SceneCrafter: Controllable Multi-View Driving Scene Editing [44.91248700043744]
SceneCrafterは、複数のカメラから撮影した運転シーンをリアルな3D一貫性で操作するための汎用的なエディタである。
SceneCrafterは、既存のベースラインと比較して最先端のリアリズム、制御性、3D一貫性、シーン編集品質を実現している。
論文 参考訳(メタデータ) (2025-06-24T10:23:47Z) - DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving [9.882070476776274]
一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。
私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。
制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
論文 参考訳(メタデータ) (2025-05-26T08:50:15Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Attention-Aware Multi-View Pedestrian Tracking [21.393389135740712]
最近の多視点歩行者検出モデルは、早期統合戦略の可能性を強調している。
この戦略は、検出と追跡の両方のパフォーマンスを改善することが示されている。
本稿では,多視点歩行者追跡シナリオに注意機構を組み込んだ新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-04-03T21:53:08Z) - StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [59.55232046525733]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。
さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。
我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文 参考訳(メタデータ) (2024-12-17T18:58:55Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - DragTraffic: Interactive and Controllable Traffic Scene Generation for Autonomous Driving [10.90477019946728]
DragTrafficは、条件付き拡散に基づく、汎用的でインタラクティブで制御可能なトラフィックシーン生成フレームワークである。
我々は回帰モデルを用いて、一般的な初期解と条件拡散モデルに基づく改良プロセスを提供し、多様性を保証する。
実世界の運転データセットの実験によると、DragTrafficは信頼性、多様性、自由度で既存の手法より優れている。
論文 参考訳(メタデータ) (2024-04-19T04:49:28Z) - TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [11.655256653219604]
テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。
我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。
箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
論文 参考訳(メタデータ) (2023-12-31T10:51:52Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Cross-Camera Trajectories Help Person Retrieval in a Camera Network [124.65912458467643]
既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。
本稿では,時間的情報と空間的情報を統合したクロスカメラ生成に基づく歩行者検索フレームワークを提案する。
本手法の有効性を検証するため,最初のカメラ横断歩行者軌跡データセットを構築した。
論文 参考訳(メタデータ) (2022-04-27T13:10:48Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。