論文の概要: How You Move Your Head Tells What You Do: Self-supervised Video
Representation Learning with Egocentric Cameras and IMU Sensors
- arxiv url: http://arxiv.org/abs/2110.01680v1
- Date: Mon, 4 Oct 2021 19:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:12:16.595698
- Title: How You Move Your Head Tells What You Do: Self-supervised Video
Representation Learning with Egocentric Cameras and IMU Sensors
- Title(参考訳): エゴセントリックカメラとIMUセンサーを用いた自己教師型ビデオ表現学習
- Authors: Satoshi Tsutsui, Ruta Desai, Karl Ridgeway
- Abstract要約: セルフ教師付き学習は、ユーザの日々の活動から恩恵を受けるビデオ表現の学習に使用することができる。
本稿では,ビデオクリップとヘッドモーションの対を学習することで,映像表現をシンプルかつ効果的に学習する手法を提案する。
人や犬の自我中心的な活動を認識するための学習表現の有効性を実証する。
- 参考スコア(独自算出の注目度): 7.414287495752128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding users' activities from head-mounted cameras is a fundamental
task for Augmented and Virtual Reality (AR/VR) applications. A typical approach
is to train a classifier in a supervised manner using data labeled by humans.
This approach has limitations due to the expensive annotation cost and the
closed coverage of activity labels. A potential way to address these
limitations is to use self-supervised learning (SSL). Instead of relying on
human annotations, SSL leverages intrinsic properties of data to learn
representations. We are particularly interested in learning egocentric video
representations benefiting from the head-motion generated by users' daily
activities, which can be easily obtained from IMU sensors embedded in AR/VR
devices. Towards this goal, we propose a simple but effective approach to learn
video representation by learning to tell the corresponding pairs of video clip
and head-motion. We demonstrate the effectiveness of our learned representation
for recognizing egocentric activities of people and dogs.
- Abstract(参考訳): ヘッドマウントカメラからユーザのアクティビティを理解することは、拡張現実(AR/VR)アプリケーションの基本課題である。
典型的なアプローチは、人間がラベル付けしたデータを使って分類器を教師付きで訓練することである。
このアプローチには、高価なアノテーションコストとアクティビティラベルのクローズドカバレッジによる制限がある。
これらの制限に対処する潜在的な方法は、自己教師付き学習(SSL)を使用することである。
SSLは人間のアノテーションに頼る代わりに、データ固有の特性を活用して表現を学習する。
我々は,AR/VRデバイスに埋め込まれたIMUセンサから容易に得ることができる,ユーザの日常活動によって生じる頭の動きから得られるエゴセントリックな映像表現の学習に興味を持っている。
そこで本研究では,ビデオクリップとヘッドモーションのペアを学習することで,映像表現を学習するための単純かつ効果的な手法を提案する。
人や犬の自我中心的な活動を認識するための学習表現の有効性を実証する。
関連論文リスト
- SVFAP: Self-supervised Video Facial Affect Perceiver [42.16505961654868]
コンピュータビジョンにおける近年の自己教師型学習の成功に触発された本研究では,自己教師型映像表情知覚器(SVFAP)と呼ばれる自己教師型アプローチを導入する。
SVFAPは、監督された方法で直面するジレンマに対処するために、マスク付きビデオオートエンコーディングを利用して、巨大な未ラベルの顔ビデオで自己教師付き事前トレーニングを行う。
提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2023-12-31T07:44:05Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Understanding Action Sequences based on Video Captioning for
Learning-from-Observation [14.467714234267307]
本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。
分割は、人間の日常行動と対象中心の顔接触遷移を一致させる手速の局所的最小点に基づいて行われる。
人間の意図を正しく理解し,動画内の意図しない動作を無視するために,動作記述と言語指示を一致させる。
論文 参考訳(メタデータ) (2020-12-09T05:22:01Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。