論文の概要: Multimodal Foundation Model for Cross-Modal Retrieval and Activity Recognition Tasks
- arxiv url: http://arxiv.org/abs/2506.03174v1
- Date: Thu, 29 May 2025 01:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.905462
- Title: Multimodal Foundation Model for Cross-Modal Retrieval and Activity Recognition Tasks
- Title(参考訳): クロスモーダル検索およびアクティビティ認識タスクのためのマルチモーダル基礎モデル
- Authors: Koki Matsuishi, Kosuke Ukita, Tsuyoshi Okita,
- Abstract要約: 本研究では,3人称ビデオ,モーションキャプチャ,IMU,テキストの4つのモードを統合した基礎モデルを提案する。
第三者のビデオとモーションキャプチャーデータを組み込むことで、このモデルは人間の活動の詳細な多次元的理解を可能にする。
- 参考スコア(独自算出の注目度): 3.1976901430982063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the widespread adoption of wearable devices has highlighted the growing importance of behavior analysis using IMU. While applications span diverse fields such as healthcare and robotics, recent studies have increasingly focused on multimodal analysis, in addition to unimodal analysis. Several studies have proposed multimodal foundation models that incorporate first-person video and text data; however, these models still fall short in providing a detailed analysis of full-body human activity. To address this limitation, we propose Activity Understanding and Representations Alignment - Multimodal Foundation Model (AURA-MFM), a foundational model integrating four modalities: third-person video, motion capture, IMU, and text. By incorporating third-person video and motion capture data, the model enables a detailed and multidimensional understanding of human activity, which first-person perspectives alone fail to capture. Additionally, a Transformer-based IMU encoder is employed to enhance the model's overall performance. Experimental evaluations on retrieval and activity recognition tasks demonstrate that our model surpasses existing methods. Notably, in the zero-shot classification for action recognition, our method achieved significantly higher performance, with an F1-score of 0.6226 and an accuracy of 0.7320, whereas the existing method recorded an F1-score of 0.0747 and an accuracy of 0.1961.
- Abstract(参考訳): 近年,ウェアラブルデバイスの普及が進み,IMUを用いた行動分析の重要性が高まっている。
応用分野は医療やロボティクスなど多種多様な分野にまたがるが、近年の研究では、単調な分析に加えて、マルチモーダル分析にも注目が集まっている。
いくつかの研究では、一対一のビデオとテキストデータを組み込んだマルチモーダル基礎モデルが提案されているが、しかしながら、これらのモデルはフルボディの人間の活動の詳細な分析を提供するには不十分である。
この制限に対処するために,3人称ビデオ,モーションキャプチャ,IMU,テキストの4つのモダリティを統合した基本モデルである,アクティビティ理解と表現アライメント - マルチモーダルファウンデーションモデル(AURA-MFM)を提案する。
3人称ビデオとモーションキャプチャーデータを組み込むことで、このモデルは人間の活動の詳細な多次元的理解を可能にし、一人称視点だけでは捉えられない。
さらに、トランスフォーマーベースのIMUエンコーダを使用して、モデル全体のパフォーマンスを向上させる。
検索および活動認識タスクの実験的評価により,本モデルが既存手法を超越したことを示す。
特に,動作認識のためのゼロショット分類では,F1スコアが0.6226,精度が0.7320,既存手法が0.0747,精度が0.1961であった。
関連論文リスト
- Human-Centric Evaluation for Foundation Models [31.400215906308546]
本稿では,問題解決能力,情報品質,インタラクション体験の3つの要素に着目した人間中心型主観評価フレームワークを提案する。
我々は540以上の参加者主導による評価を行い、人間とモデルはオープンエンドの研究タスクで協力する。
この結果からGrok 3の優れたパフォーマンスが注目され、続いてDeepseek R1とGemini 2.5が続き、OpenAI o3が遅れています。
論文 参考訳(メタデータ) (2025-06-02T15:33:29Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models [1.9890559505377343]
現在の視覚言語マルチモーダルモデルは、一般的な視覚的理解タスクに適している。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、ベンチマークで評価し、大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition [18.478011167414223]
視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
AUスコアは0.712、式スコアは0.477となる。
論文 参考訳(メタデータ) (2021-07-09T03:28:17Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。