論文の概要: ViMoNet: A Multimodal Vision-Language Framework for Human Behavior Understanding from Motion and Video
- arxiv url: http://arxiv.org/abs/2508.09818v1
- Date: Wed, 13 Aug 2025 13:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.913779
- Title: ViMoNet: A Multimodal Vision-Language Framework for Human Behavior Understanding from Motion and Video
- Title(参考訳): ViMoNet:モーションとビデオからの人間の行動理解のためのマルチモーダルビジョンランゲージフレームワーク
- Authors: Rajan Das Gupta, Md Yeasin Rahat, Nafiz Fahad, Abir Ahmed, Liew Tze Hui,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を用いて,動きと映像データを用いて人間の行動を理解する方法について検討した。
人間の行動の理解、特徴化、推論のためのフレームワークであるViMoNetを提供する。
私たちは、様々な映画、モーションシーケンス、命令、サブタイトルを含む、VIMOSという新しいデータセットを提供しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates how large language models (LLMs) can be used to understand human behavior using motion and video data. We think that mixing both types is essential to completely capture the nuanced movements and meanings of human actions, in contrast to recent models that simply concentrate on motion data or films. To address this, we provide ViMoNet, a straightforward yet effective framework for comprehending, characterizing, and deducing human action. ViMoNet employs a joint training strategy that leverages the advantages of two data types: detailed motion-text data, which is more exact, and generic video-text data, which is more comprehensive but less detailed. This aids in the model's acquisition of rich data regarding time and space in human behavior. Additionally, we provide a brand new dataset named VIMOS that contains a variety of films, motion sequences, instructions, and subtitles. We developed ViMoNet-Bench, a standardized benchmark with carefully labeled samples, to evaluate how well models understand human behavior. Our tests show that ViMoNet outperforms existing methods in caption generation, motion understanding, and behavior interpretation.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)を用いて,動きと映像データを用いて人間の行動を理解する方法について検討した。
動作データや映画にのみ焦点を絞った最近のモデルとは対照的に,両タイプの混在は,人間の行動のニュアンスな動きや意味を完全に捉える上で不可欠であると考えられる。
これを解決するために、私たちは、人間の行動を理解し、特徴づけし、推論するための、単純で効果的なフレームワークViMoNetを提供しています。
ViMoNetは、より正確である詳細なモーションテキストデータと、より包括的であるがより詳細ではない一般的なビデオテキストデータという、2つのデータタイプの利点を活用する共同トレーニング戦略を採用している。
これにより、モデルが人間の行動の時間と空間に関する豊富なデータを取得するのに役立つ。
さらに、さまざまな映画、モーションシーケンス、命令、サブタイトルを含むVIMOSという新しいデータセットも提供しています。
We developed ViMoNet-Bench, a standardized benchmark with carefully labeled sample, to evaluate how model understand human behavior。
実験の結果,ViMoNetはキャプション生成,動作理解,行動解釈において既存の手法よりも優れていた。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - ViSpeak: Visual Instruction Feedback in Streaming Videos [50.99067964073338]
本稿では,視覚的インストラクションフィードバック(Visual Instruction Feedback)という新しいタスクを提案する。
我々は,様々なストリーミングビデオ理解ベンチマークにおいて,GPT-4oレベルの性能を持つSOTAストリーミングビデオ理解LMMであるViSpeakモデルを提案する。
論文 参考訳(メタデータ) (2025-03-17T03:05:31Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Human Motion Instruction Tuning [37.3026760535819]
本稿では,人間の動作指導のためのフレームワークであるLLaMoについて述べる。
LLaMoは、命令チューニングのためのネイティブフォームで動作を保持します。
ビデオデータとモーションデータをテキスト入力と共に処理することで、LLaMoは柔軟な人間中心の分析を可能にする。
論文 参考訳(メタデータ) (2024-11-25T14:38:43Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。
大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。
我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文 参考訳(メタデータ) (2023-06-26T15:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。