論文の概要: IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from
Egocentric Videos and Text
- arxiv url: http://arxiv.org/abs/2210.14395v1
- Date: Wed, 26 Oct 2022 00:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 12:52:41.678559
- Title: IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from
Egocentric Videos and Text
- Title(参考訳): IMU2CLIP:エゴセントリックビデオとテキストからのIMUモーションセンサのマルチモーダルコントラスト学習
- Authors: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Alireza Dirafzoon,
Aparajita Saraf, Amy Bearman, Babak Damavandi
- Abstract要約: Inertial Measurement Unit(IMU)モーションセンサをビデオやテキストに合わせるための,新しい事前学習手法であるIMU2CLIPを提案する。
提案手法により、IMU2CLIPは人間の動きを対応するテキスト記述やビデオに変換することができる。
- 参考スコア(独自算出の注目度): 25.471322742568884
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present IMU2CLIP, a novel pre-training approach to align Inertial
Measurement Unit (IMU) motion sensor recordings with video and text, by
projecting them into the joint representation space of Contrastive
Language-Image Pre-training (CLIP). The proposed approach allows IMU2CLIP to
translate human motions (as measured by IMU sensors) into their corresponding
textual descriptions and videos -- while preserving the transitivity across
these modalities.
We explore several new IMU-based applications that IMU2CLIP enables, such as
motion-based media retrieval and natural language reasoning tasks with motion
data. In addition, we show that IMU2CLIP can significantly improve the
downstream performance when fine-tuned for each application (e.g. activity
recognition), demonstrating the universal usage of IMU2CLIP as a new
pre-trained resource. Our code will be made publicly available.
- Abstract(参考訳): Inertial Measurement Unit(IMU)モーションセンサ記録をビデオやテキストと整合させる新しい事前学習手法であるIMU2CLIPを,Contrastive Language- Image Pre-training(CLIP)の合同表現空間に投影することで提案する。
提案されたアプローチにより、IMU2CLIPは人間の動き(IMUセンサーによって測定される)を対応するテキスト記述やビデオに変換することができる。
動きに基づくメディア検索や自然言語推論タスクなど, imu2clip が実現可能な新しい imu ベースのアプリケーションをいくつか検討する。
さらに、IMU2CLIPは、各アプリケーションごとに微調整された場合(例えば、アクティビティ認識)、ダウンストリーム性能を著しく向上し、新しい事前学習リソースとしてIMU2CLIPの普遍的利用を示す。
私たちのコードは公開されます。
関連論文リスト
- Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - IMUSIC: IMU-based Facial Expression Capture [41.014369183250274]
慣性測定ユニット (IMU) は救難の可能性を秘めているが、主にフルボディのモーションキャプチャーに採用されている。
このギャップを埋めるためにIMUSICを提案する。
IMUの構成と技術コンポーネントの両方について広範な実験を行い、IMUSICのアプローチを検証する。
論文 参考訳(メタデータ) (2024-02-03T14:27:18Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning [14.292812802621707]
対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
論文 参考訳(メタデータ) (2023-08-09T09:33:45Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - IMG2IMU: Translating Knowledge from Large-Scale Images to IMU Sensing
Applications [6.865654843241631]
IMG2IMUは、大規模画像から多様なIMUセンシングタスクに事前訓練された表現を適応させる。
我々は,センサデータを視覚的に解釈可能なスペクトログラムに変換し,視覚から得られる知識を活用する。
IMG2IMUは、センサーデータに基づいて事前訓練されたベースラインを平均9.6%p F1スコアで上回る。
論文 参考訳(メタデータ) (2022-09-02T11:00:23Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。