Fugu-MT 論文翻訳(概要): IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from Egocentric Videos and Text

論文の概要: IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from Egocentric Videos and Text

arxiv url: http://arxiv.org/abs/2210.14395v1
Date: Wed, 26 Oct 2022 00:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-27 12:52:41.678559
Title: IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from Egocentric Videos and Text
Title（参考訳）: IMU2CLIP:エゴセントリックビデオとテキストからのIMUモーションセンサのマルチモーダルコントラスト学習
Authors: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Alireza Dirafzoon, Aparajita Saraf, Amy Bearman, Babak Damavandi
Abstract要約: Inertial Measurement Unit(IMU)モーションセンサをビデオやテキストに合わせるための,新しい事前学習手法であるIMU2CLIPを提案する。提案手法により、IMU2CLIPは人間の動きを対応するテキスト記述やビデオに変換することができる。
参考スコア（独自算出の注目度）: 25.471322742568884
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present IMU2CLIP, a novel pre-training approach to align Inertial Measurement Unit (IMU) motion sensor recordings with video and text, by projecting them into the joint representation space of Contrastive Language-Image Pre-training (CLIP). The proposed approach allows IMU2CLIP to translate human motions (as measured by IMU sensors) into their corresponding textual descriptions and videos -- while preserving the transitivity across these modalities. We explore several new IMU-based applications that IMU2CLIP enables, such as motion-based media retrieval and natural language reasoning tasks with motion data. In addition, we show that IMU2CLIP can significantly improve the downstream performance when fine-tuned for each application (e.g. activity recognition), demonstrating the universal usage of IMU2CLIP as a new pre-trained resource. Our code will be made publicly available.
Abstract（参考訳）: Inertial Measurement Unit(IMU)モーションセンサ記録をビデオやテキストと整合させる新しい事前学習手法であるIMU2CLIPを,Contrastive Language- Image Pre-training(CLIP)の合同表現空間に投影することで提案する。提案されたアプローチにより、IMU2CLIPは人間の動き(IMUセンサーによって測定される)を対応するテキスト記述やビデオに変換することができる。動きに基づくメディア検索や自然言語推論タスクなど, imu2clip が実現可能な新しい imu ベースのアプリケーションをいくつか検討する。さらに、IMU2CLIPは、各アプリケーションごとに微調整された場合(例えば、アクティビティ認識)、ダウンストリーム性能を著しく向上し、新しい事前学習リソースとしてIMU2CLIPの普遍的利用を示す。私たちのコードは公開されます。

関連論文リスト

Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。 RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文参考訳（メタデータ） (2025-05-26T13:06:01Z)
MoCLIP: Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion Generation [2.621434923709917]
この研究は、モーションエンコーディングヘッドを備えた微調整のCLIPモデルであるMoCLIPを導入し、コントラスト学習とテザリング損失を用いて、モーションシーケンスをトレーニングした。実験により,MoCLIPは競合FIDを維持しながらTop-1,Top-2,Top-3の精度を向上し,テキスト間アライメントが向上した。
論文参考訳（メタデータ） (2025-05-16T03:11:00Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文参考訳（メタデータ） (2024-07-09T07:53:16Z)
Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文参考訳（メタデータ） (2024-06-03T13:28:42Z)
MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文参考訳（メタデータ） (2024-05-31T08:06:05Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
IMUSE: IMU-based Facial Expression Capture [38.521172709040215]
本稿では,純IMU信号を用いた表情認識のための新しい経路である,ギャップを埋めるためのIMUSEを提案する。我々はまず、解剖学的に駆動されるIMU配置スキームを伴って、顔の撮影に適したマイクロIMUを設計する。我々は,多様な表情に豊富なIMU/視覚信号を提供する新しいIMU-ARKitデータセットをコントリビュートする。
論文参考訳（メタデータ） (2024-02-03T14:27:18Z)
Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts Learning [14.292812802621707]
対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
論文参考訳（メタデータ） (2023-08-09T09:33:45Z)
Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。 3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文参考訳（メタデータ） (2022-11-21T13:12:44Z)
IMG2IMU: Translating Knowledge from Large-Scale Images to IMU Sensing Applications [6.865654843241631]
IMG2IMUは、大規模画像から多様なIMUセンシングタスクに事前訓練された表現を適応させる。我々は,センサデータを視覚的に解釈可能なスペクトログラムに変換し,視覚から得られる知識を活用する。 IMG2IMUは、センサーデータに基づいて事前訓練されたベースラインを平均9.6%p F1スコアで上回る。
論文参考訳（メタデータ） (2022-09-02T11:00:23Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。