論文の概要: MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding
- arxiv url: http://arxiv.org/abs/2507.12463v1
- Date: Wed, 16 Jul 2025 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.513409
- Title: MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding
- Title(参考訳): MMHU:人間の行動理解のための大規模マルチモーダルベンチマーク
- Authors: Renjie Li, Ruijie Ye, Mingyang Wu, Hao Frank Yang, Zhiwen Fan, Hezhen Hu, Zhengzhong Tu,
- Abstract要約: 人間は交通生態系の不可欠な要素であり、彼らの行動を理解することは安全な運転システムの開発に不可欠である。
自律運転における人間の行動を評価するための総合的なベンチマークを提供する。
私たちのデータセットには、人間のクリップと、さまざまなソースから収集された1.73万フレームが含まれています。
- 参考スコア(独自算出の注目度): 20.251922588713406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are integral components of the transportation ecosystem, and understanding their behaviors is crucial to facilitating the development of safe driving systems. Although recent progress has explored various aspects of human behavior$\unicode{x2014}$such as motion, trajectories, and intention$\unicode{x2014}$a comprehensive benchmark for evaluating human behavior understanding in autonomous driving remains unavailable. In this work, we propose $\textbf{MMHU}$, a large-scale benchmark for human behavior analysis featuring rich annotations, such as human motion and trajectories, text description for human motions, human intention, and critical behavior labels relevant to driving safety. Our dataset encompasses 57k human motion clips and 1.73M frames gathered from diverse sources, including established driving datasets such as Waymo, in-the-wild videos from YouTube, and self-collected data. A human-in-the-loop annotation pipeline is developed to generate rich behavior captions. We provide a thorough dataset analysis and benchmark multiple tasks$\unicode{x2014}$ranging from motion prediction to motion generation and human behavior question answering$\unicode{x2014}$thereby offering a broad evaluation suite. Project page : https://MMHU-Benchmark.github.io.
- Abstract(参考訳): 人間は交通エコシステムの不可欠な要素であり、彼らの行動を理解することは安全な運転システムの開発を促進するために不可欠である。
最近の進歩は人間の行動の様々な側面を探求しているが、自律運転における人間の行動理解を評価するための総合的なベンチマークである運動、軌跡、意図などはまだ利用できない。
本研究では、人間の動作や軌跡、人間の動作のテキスト記述、人間の意図、運転安全に関連する重要な行動ラベルなど、豊富なアノテーションを含む人間の行動分析のための大規模ベンチマークである$\textbf{MMHU}$を提案する。
私たちのデータセットは、Waymoのような確立した運転データセット、YouTubeのビデオ、自己収集データなど、さまざまなソースから収集された57万の人間のモーションクリップと1.73万フレームで構成されています。
リッチな振る舞いキャプションを生成するために、Human-in-the-loopアノテーションパイプラインが開発された。
我々は、詳細なデータセット分析とベンチマーク多重タスク$\unicode{x2014}$ranging from motion prediction to motion generation and human behavior questioning$\unicode{x2014}$thereby provides a broad evaluation suite。
プロジェクトページ:https://MMHU-Benchmark.github.io
関連論文リスト
- UPTor: Unified 3D Human Pose Dynamics and Trajectory Prediction for Human-Robot Interaction [0.688204255655161]
本研究では,グローバル座標フレームにおける全体ポーズと軌道キーポイントの予測手法を提案する。
我々は、市販の3次元ポーズ推定モジュール、グラフアテンションネットワーク、コンパクトで非自己回帰的なトランスフォーマーを使用する。
従来の研究と比較して、我々のアプローチはコンパクトでリアルタイムであり、全てのデータセットにわたる人間のナビゲーション動作を予測する上で正確であることを示す。
論文 参考訳(メタデータ) (2025-05-20T19:57:25Z) - What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文 参考訳(メタデータ) (2025-03-06T17:59:29Z) - ImDy: Human Inverse Dynamics from Imitated Observations [47.994797555884325]
逆ダイナミクス(ID)は、人間の運動学的観察から駆動トルクを再現することを目的としている。
従来の最適化ベースのIDは高価な実験室のセットアップを必要とし、可用性を制限している。
本稿では、近年進歩的な人間の動作模倣アルゴリズムを利用して、データ駆動方式で人間の逆ダイナミクスを学習することを提案する。
論文 参考訳(メタデータ) (2024-10-23T07:06:08Z) - Massively Multi-Person 3D Human Motion Forecasting with Scene Context [13.197408989895102]
本研究では、長期(10秒)の人間の動きを予測するために、シーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案する。
我々は、時間的畳み込みエンコーダ・デコーダアーキテクチャとTransformerベースのボトルネックを組み合わせることで、動きとシーン情報を効率的に組み合わせることができる。
我々のモデルは、さまざまなメトリクスやユーザスタディにおいて、リアリズムや多様性の観点から、他のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-09-18T17:58:51Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Inter-X: Towards Versatile Human-Human Interaction Analysis [100.254438708001]
正確な身体の動きと多様な相互作用パターンを持つデータセットであるInter-Xを提案する。
データセットは、1Kの相互作用シーケンスと8.1Mフレーム以上を含む。
また、Inter-Xには34K以上の微粒な人間のテキスト記述の多義アノテーションも備えています。
論文 参考訳(メタデータ) (2023-12-26T13:36:05Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - Expressing Diverse Human Driving Behavior with Probabilistic Rewards and
Online Inference [34.05002276323983]
コスト/リワード学習(英: Cost/reward learning)は、人間の振る舞いを学習し、表現するための効率的な方法である。
本稿では,連続領域におけるコスト関数の分布を直接学習する確率的IRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-20T07:32:45Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。