論文の概要: Learning to Generate Diverse Pedestrian Movements from Web Videos with Noisy Labels
- arxiv url: http://arxiv.org/abs/2410.07500v1
- Date: Thu, 10 Oct 2024 00:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:46:37.160060
- Title: Learning to Generate Diverse Pedestrian Movements from Web Videos with Noisy Labels
- Title(参考訳): 雑音ラベル付きWebビデオから多様な歩行者運動を生成する学習
- Authors: Zhizheng Liu, Joe Lin, Wayne Wu, Bolei Zhou,
- Abstract要約: PedGenは、Webビデオから多様な歩行者の動きを学ぶための生成モデルである。
PedGenはノイズの多いラベルから学び、コンテキストファクターを組み込む。
実世界とシミュレーション環境の両方においてゼロショットの一般化を実現する。
- 参考スコア(独自算出の注目度): 59.322951972876716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and modeling pedestrian movements in the real world is crucial for applications like motion forecasting and scene simulation. Many factors influence pedestrian movements, such as scene context, individual characteristics, and goals, which are often ignored by the existing human generation methods. Web videos contain natural pedestrian behavior and rich motion context, but annotating them with pre-trained predictors leads to noisy labels. In this work, we propose learning diverse pedestrian movements from web videos. We first curate a large-scale dataset called CityWalkers that captures diverse real-world pedestrian movements in urban scenes. Then, based on CityWalkers, we propose a generative model called PedGen for diverse pedestrian movement generation. PedGen introduces automatic label filtering to remove the low-quality labels and a mask embedding to train with partial labels. It also contains a novel context encoder that lifts the 2D scene context to 3D and can incorporate various context factors in generating realistic pedestrian movements in urban scenes. Experiments show that PedGen outperforms existing baseline methods for pedestrian movement generation by learning from noisy labels and incorporating the context factors. In addition, PedGen achieves zero-shot generalization in both real-world and simulated environments. The code, model, and data will be made publicly available at https://genforce.github.io/PedGen/ .
- Abstract(参考訳): 実世界における歩行者の動きの理解とモデル化は、動き予測やシーンシミュレーションといった応用に不可欠である。
多くの要因は、シーンコンテキスト、個々の特徴、目標などの歩行者の動きに影響を与えるが、既存の人間生成手法では無視されることが多い。
Webビデオには、自然の歩行者行動とリッチな動きのコンテキストが含まれているが、事前に訓練された予測器で注釈を付けると、ノイズの多いラベルが現れる。
本研究では,Webビデオから多様な歩行者運動の学習を提案する。
私たちはまずCityWalkersと呼ばれる大規模なデータセットをキュレートし、都市部のさまざまな現実世界の歩行者の動きを捉えます。
そこで,CityWalkersをベースとして,多様な歩行者運動生成のためのPedGenと呼ばれる生成モデルを提案する。
PedGenは、低品質なラベルを削除するために自動ラベルフィルタリングを導入し、部分的なラベルを持つ列車にマスクを埋め込む。
また、2Dシーンのコンテキストを3Dに引き上げる新しいコンテキストエンコーダも備えており、都市景観におけるリアルな歩行者の動きを生成するために様々なコンテキスト要素を組み込むことができる。
実験の結果,PedGenは,騒音ラベルから学習し,文脈要因を取り入れることで,既存の歩行者移動生成法よりも優れていた。
さらに、PedGenは現実世界とシミュレーション環境の両方においてゼロショットの一般化を実現している。
コード、モデル、データはhttps://genforce.github.io/PedGen/で公開されます。
関連論文リスト
- SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control [36.22743674288336]
SCENICは仮想シーン内の動的地形に適応する人間の動きを生成するために設計された拡散モデルである。
本システムは,シーン制約を維持しながら,異なる動作スタイル間のシームレスな遷移を実現する。
私たちのコード、データセット、モデルはurlhttps://virtual humans.mpi-inf.mpg.de/scenic/でリリースされます。
論文 参考訳(メタデータ) (2024-12-20T08:25:15Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - Generating Continual Human Motion in Diverse 3D Scenes [51.90506920301473]
本研究では,3次元シーンにまたがる人間の動きを誘導するアニメーターを合成する手法を提案する。
本研究では,連続的な動作合成問題を経路に沿って歩行し,キーポイントが指定した動作の内外への遷移に分解する。
我々のモデルは、つかんだり、座ったり、傾いたりといった多様な行動の長いシーケンスを生成することができる。
論文 参考訳(メタデータ) (2023-04-04T18:24:22Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Stochastic Scene-Aware Motion Prediction [41.6104600038666]
本稿では,対象物に対して所定の動作を行う異なるスタイルをモデル化する,データ駆動合成動作法を提案する。
SAMP (Scene Aware Motion Prediction) と呼ばれる本手法は, 様々なジオメトリ対象を対象とし, キャラクタが散らばったシーンで移動できるように一般化する。
論文 参考訳(メタデータ) (2021-08-18T17:56:17Z) - SceneGen: Learning to Generate Realistic Traffic Scenes [92.98412203941912]
私たちは、ルールと分布の必要性を緩和するトラフィックシーンのニューラルオートレグレッシブモデルであるSceneGenを紹介します。
実トラフィックシーンの分布を忠実にモデル化するSceneGenの能力を実証する。
論文 参考訳(メタデータ) (2021-01-16T22:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。