論文の概要: ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding
- arxiv url: http://arxiv.org/abs/2504.18152v1
- Date: Fri, 25 Apr 2025 08:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.690698
- Title: ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding
- Title(参考訳): ActionArt: 細粒度人間中心映像理解のためのマルチモーダル大モデルの開発
- Authors: Yi-Xing Peng, Qize Yang, Yu-Ming Tang, Shenghao Fu, Kun-Yu Lin, Xihan Wei, Wei-Shi Zheng,
- Abstract要約: ActionArtは、人間中心のマルチモーダル理解の研究を促進するために設計された、きめ細かいビデオキャプチャデータセットである。
私たちのデータセットは、幅広い人間の行動、人間とオブジェクトの相互作用、さまざまなシナリオをキャプチャする何千ものビデオで構成されています。
本研究では,異なる次元にまたがる既存大規模マルチモーダルモデルの細粒度理解能力を評価するために,8つのサブタスクを開発した。
- 参考スコア(独自算出の注目度): 31.481969919049472
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-grained understanding of human actions and poses in videos is essential for human-centric AI applications. In this work, we introduce ActionArt, a fine-grained video-caption dataset designed to advance research in human-centric multimodal understanding. Our dataset comprises thousands of videos capturing a broad spectrum of human actions, human-object interactions, and diverse scenarios, each accompanied by detailed annotations that meticulously label every limb movement. We develop eight sub-tasks to evaluate the fine-grained understanding capabilities of existing large multimodal models across different dimensions. Experimental results indicate that, while current large multimodal models perform commendably on various tasks, they often fall short in achieving fine-grained understanding. We attribute this limitation to the scarcity of meticulously annotated data, which is both costly and difficult to scale manually. Since manual annotations are costly and hard to scale, we propose proxy tasks to enhance the model perception ability in both spatial and temporal dimensions. These proxy tasks are carefully crafted to be driven by data automatically generated from existing MLLMs, thereby reducing the reliance on costly manual labels. Experimental results show that the proposed proxy tasks significantly narrow the gap toward the performance achieved with manually annotated fine-grained data.
- Abstract(参考訳): 人間のアクションとビデオのポーズのきめ細かい理解は、人間中心のAIアプリケーションに不可欠である。
本研究では,人間中心のマルチモーダル理解の研究を促進するために設計された,きめ細かいビデオキャプチャーデータセットであるActionArtを紹介する。
私たちのデータセットは、幅広い人間の行動、人間と物体の相互作用、そして多様なシナリオを捉えた何千ものビデオで構成されています。
本研究では,異なる次元にまたがる既存大規模マルチモーダルモデルの細粒度理解能力を評価するために,8つのサブタスクを開発した。
実験結果から、現在の大規模マルチモーダルモデルは様々なタスクにおいて可換に機能するが、細かな理解が得られない場合が多いことが示唆された。
この制限は、手作業でスケールするのが高価かつ困難である、細心の注意深い注釈付きデータの不足に起因する。
手動アノテーションは高価でスケールが難しいため,空間的・時間的両面においてモデル知覚能力を高めるための代用タスクを提案する。
これらのプロキシタスクは、既存のMLLMから自動的に生成されたデータによって駆動されるように慎重に設計されているため、コストのかかる手動ラベルへの依存を減らすことができる。
実験結果から,提案するプロキシタスクは,手作業による微粒化データによって達成されるパフォーマンスのギャップを著しく狭めることがわかった。
関連論文リスト
- Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models [1.9890559505377343]
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する新しい手法を提案する。
提案手法は,人間中心の活動に優れる微調整モデルのために設計されたデータセットを生成する。
実験の結果、LLaVA-7Bモデルと比較して21.18%の改善が見られた。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z) - Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - Human Action Recognition Based on Multi-scale Feature Maps from Depth
Video Sequences [12.30399970340689]
深度ビデオシーケンスから人間の行動を認識するために,マルチスケールなモーション情報に着目した新しいフレームワークを提案する。
動作のマルチスケールな静的表現を生成するために,テンプレートとして深度動き画像(DMI)を用いる。
LP-DMI-HOGと呼ばれる多粒性記述子を抽出し、より識別的な特徴を提供する。
論文 参考訳(メタデータ) (2021-01-19T13:46:42Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。