論文の概要: EgoLM: Multi-Modal Language Model of Egocentric Motions
- arxiv url: http://arxiv.org/abs/2409.18127v1
- Date: Thu, 26 Sep 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:27:33.246104
- Title: EgoLM: Multi-Modal Language Model of Egocentric Motions
- Title(参考訳): EgoLM: 自我中心運動の多モード言語モデル
- Authors: Fangzhou Hong, Vladimir Guzov, Hyo Jin Kim, Yuting Ye, Richard Newcombe, Ziwei Liu, Lingni Ma,
- Abstract要約: マルチモーダル入力からエゴセントリックな動きを追跡し,理解する多目的フレームワークであるEgoLMを提案する。
我々の重要な洞察は、大きな言語モデルを用いて、自我中心運動と自然言語の連立分布をモデル化することである。
- 参考スコア(独自算出の注目度): 42.36945117610459
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As the prevalence of wearable devices, learning egocentric motions becomes essential to develop contextual AI. In this work, we present EgoLM, a versatile framework that tracks and understands egocentric motions from multi-modal inputs, e.g., egocentric videos and motion sensors. EgoLM exploits rich contexts for the disambiguation of egomotion tracking and understanding, which are ill-posed under single modality conditions. To facilitate the versatile and multi-modal framework, our key insight is to model the joint distribution of egocentric motions and natural languages using large language models (LLM). Multi-modal sensor inputs are encoded and projected to the joint latent space of language models, and used to prompt motion generation or text generation for egomotion tracking or understanding, respectively. Extensive experiments on large-scale multi-modal human motion dataset validate the effectiveness of EgoLM as a generalist model for universal egocentric learning.
- Abstract(参考訳): ウェアラブルデバイスが普及するにつれ、コンテキストAIを開発するためには、エゴセントリックな学習が不可欠となる。
本研究では,マルチモーダル入力,例えば,エゴセントリックビデオやモーションセンサから,エゴセントリックな動きを追跡し,理解する多機能なフレームワークであるEgoLMを提案する。
EgoLMは、単一のモダリティ条件下では不適切なエゴモーション追跡と理解の曖昧さのために、リッチなコンテキストを利用する。
汎用的でマルチモーダルなフレームワークを実現するために,我々は,多言語モデル(LLM)を用いて,自我中心運動と自然言語の連立分布をモデル化する。
マルチモーダルセンサ入力を符号化し、言語モデルのジョイント潜在空間に投影し、それぞれにエゴモーショントラッキングや理解のための動作生成やテキスト生成を促す。
大規模マルチモーダル・ヒューマン・モーション・データセットの大規模な実験は、普遍的な自我中心学習のための一般モデルとしてのEgoLMの有効性を検証した。
関連論文リスト
- OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving [12.004183122121042]
OccLLaMA (OccLLaMA) は、言語による世界モデルである。
私たちは、視覚、言語、行動のための統合されたマルチモーダル語彙を構築します。
OccLLaMAは複数のタスクで競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-05T06:30:01Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - MotionChain: Conversational Motion Controllers via Multimodal Prompts [25.181069337771127]
我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。
大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
論文 参考訳(メタデータ) (2024-04-02T07:09:29Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。