論文の概要: A Large-Scale Multimodal Dataset and Benchmarks for Human Activity Scene Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2512.07136v1
- Date: Mon, 08 Dec 2025 03:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.701637
- Title: A Large-Scale Multimodal Dataset and Benchmarks for Human Activity Scene Understanding and Reasoning
- Title(参考訳): 大規模マルチモーダルデータセットと人間活動場面理解と推論のためのベンチマーク
- Authors: Siyang Jiang, Mu Yuan, Xiang Ji, Bufang Yang, Zeyu Liu, Lilin Xu, Yang Li, Yuting He, Liran Dong, Wenrui Lu, Zhenyu Yan, Xiaofan Jiang, Wei Gao, Hongkai Chen, Guoliang Xing,
- Abstract要約: 本稿では,HAR,HAU,HARn用の大規模マルチモーダルデータセットとベンチマークスイートCUHK-Xを紹介する。
キャプションの整合性を改善するために,プロンプトベースのシーン生成手法を提案する。
実験報告によると、平均加速度は76.52%(HAR)、40.76%(HAU)、70.25%(HARn)である。
- 参考スコア(独自算出の注目度): 18.38037245999228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal human action recognition (HAR) leverages complementary sensors for activity classification. Beyond recognition, recent advances in large language models (LLMs) enable detailed descriptions and causal reasoning, motivating new tasks: human action understanding (HAU) and human action reasoning (HARn). However, most LLMs, especially large vision language models (LVLMs), struggle with non-RGB modalities such as depth, IMU, and mmWave due to the lack of large-scale data-caption resources. Existing HAR datasets mainly provide coarse data-label annotations, which are insufficient to capture fine-grained action dynamics needed for HAU and HARn. We consider two ground-truth pair types: (1) data label (discrete category) and (2) data caption (textual description). Naively generating captions from labels often lacks logical and spatiotemporal consistency. We introduce CUHK-X, a large-scale multimodal dataset and benchmark suite for HAR, HAU, and HARn. CUHK-X contains 58,445 samples covering 40 actions performed by 30 participants across two indoor environments. To improve caption consistency, we propose a prompt-based scene creation method that leverages LLMs to generate logically connected activity sequences, followed by human validation. CUHK-X includes three benchmarks with six evaluation tasks. Experiments report average accuracies of 76.52% (HAR), 40.76% (HAU), and 70.25% (HARn). CUHK-X aims to enable the community to apply and develop data-intensive learning methods for robust, multimodal human activity analysis. Project page and code: https://openaiotlab.github.io/CUHK-X/ and https://github.com/openaiotlab/CUHK-X.
- Abstract(参考訳): マルチモーダルヒューマンアクション認識(HAR)は、アクティビティ分類に補完センサーを利用する。
認識以外にも、最近の大規模言語モデル(LLM)の進歩は、人間の行動理解(HAU)と人間の行動推論(HARn)という新しいタスクを動機づけ、詳細な記述と因果推論を可能にしている。
しかし、ほとんどのLLM、特に大きな視覚言語モデル(LVLM)は、大規模データキャプチャーリソースが不足しているため、ディープ、IMU、mmWaveのようなRGB以外のモダリティと競合する。
既存のHARデータセットは主に粗いデータラベルアノテーションを提供しており、HAUやHARnに必要なきめ細かいアクションのダイナミクスを捉えるには不十分である。
本稿では,(1)データラベル(離散カテゴリ)と(2)データキャプション(テキスト記述)の2つの基本トラストペアについて考察する。
ラベルから内在的なキャプションを生成することは、しばしば論理的および時空間的な一貫性を欠いている。
本稿では,HAR,HAU,HARn用の大規模マルチモーダルデータセットとベンチマークスイートCUHK-Xを紹介する。
CUHK-Xは、2つの屋内環境にわたる30人の参加者による40のアクションをカバーする58,445のサンプルを含んでいる。
キャプションの整合性を改善するために,LLMを利用して論理的に連結されたアクティビティシーケンスを生成し,続いて人間による検証を行うプロンプトベースのシーン生成手法を提案する。
CUHK-Xは6つの評価タスクを持つ3つのベンチマークを含む。
実験によると、平均加速度は76.52%(HAR)、40.76%(HAU)、70.25%(HARn)である。
CUHK-Xは、堅牢でマルチモーダルな人間活動分析のためのデータ集約学習手法をコミュニティに適用し、開発することを目的としている。
プロジェクトページとコード: https://openaiotlab.github.io/CUHK-X/ and https://github.com/openaiotlab/CUHK-X
関連論文リスト
- Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models [44.32482918853282]
マルチソースMLLMタスクを安定した強化学習に活用できる作業は存在しない。
混合報酬関数設計(Mixed-Reward)と混合後学習データセット(Mixed-45K)を含む統一的かつ簡単なフレームワークであるMixed-R1を提案する。
特に、バイナリ回答や複数選択問題に対する報酬のマッチング、チャート対応データセットに対するチャート報酬、基底問題に対するIoU報酬、キャプションデータセットのような長文応答に対するオープンエンド報酬の4つの異なる報酬機能がある。
論文 参考訳(メタデータ) (2025-05-30T03:11:46Z) - Can Multimodal Large Language Models Understand Spatial Relations? [16.76001474065412]
我々はCOCO 2017をベースとした人間アノテーション付き空間関係推論ベンチマークであるSpatialMQAを紹介する。
その結果、現在の最先端MLLMの精度は48.14%に過ぎず、人間レベルの精度は98.40%をはるかに下回っている。
論文 参考訳(メタデータ) (2025-05-25T07:37:34Z) - Exploring the Capabilities of LLMs for IMU-based Fine-grained Human Activity Understanding [1.1228672751176365]
慣性計測単位(IMU)を用いたHAR(Human Activity Recognition)は、ますます大きな言語モデル(LLM)を活用する
予備研究は, 空気文字認識などの細粒度HARタスクにおいて, 予め訓練したLLMが破滅的に失敗し, ほぼランダムな推測精度が得られたことを示唆している。
これを3Dに拡張するために、3Dデータを2次元の等価値にマッピングするエンコーダベースのパイプラインを設計した。
私たちのエンドツーエンドパイプラインは、中書きシナリオで最大5文字の単語認識において78%の精度を実現し、LCMを実行可能なツールとして確立しています。
論文 参考訳(メタデータ) (2025-04-02T03:42:58Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。