論文の概要: Learning State-Aware Visual Representations from Audible Interactions
- arxiv url: http://arxiv.org/abs/2209.13583v1
- Date: Tue, 27 Sep 2022 17:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:51:18.854663
- Title: Learning State-Aware Visual Representations from Audible Interactions
- Title(参考訳): 聴覚インタラクションによる状態認識視覚表現の学習
- Authors: Himangi Mittal, Pedro Morgado, Unnat Jain, Abhinav Gupta
- Abstract要約: 自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
- 参考スコア(独自算出の注目度): 39.08554113807464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a self-supervised algorithm to learn representations from
egocentric video data. Recently, significant efforts have been made to capture
humans interacting with their own environments as they go about their daily
activities. In result, several large egocentric datasets of interaction-rich
multi-modal data have emerged. However, learning representations from videos
can be challenging. First, given the uncurated nature of long-form continuous
videos, learning effective representations require focusing on moments in time
when interactions take place. Second, visual representations of daily
activities should be sensitive to changes in the state of the environment.
However, current successful multi-modal learning frameworks encourage
representation invariance over time. To address these challenges, we leverage
audio signals to identify moments of likely interactions which are conducive to
better learning. We also propose a novel self-supervised objective that learns
from audible state changes caused by interactions. We validate these
contributions extensively on two large-scale egocentric datasets,
EPIC-Kitchens-100 and the recently released Ego4D, and show improvements on
several downstream tasks, including action recognition, long-term action
anticipation, and object state change classification.
- Abstract(参考訳): エゴセントリックビデオデータから表現を学ぶための自己教師付きアルゴリズムを提案する。
近年, 日常活動の場として, 環境と相互作用する人間を捕獲する取り組みが盛んに行われている。
その結果、対話に富むマルチモーダルデータの大規模なエゴセントリックデータセットが出現した。
しかし、ビデオから表現を学ぶことは困難である。
まず、長い連続ビデオの未解決の性質を考えると、効果的な表現を学ぶには、対話が行われる瞬間に焦点を合わせる必要がある。
第二に、日常生活の視覚的表現は環境の変化に敏感でなければならない。
しかし、現在成功したマルチモーダル学習フレームワークは、時間とともに表現の不変性を促進する。
これらの課題に対処するために、私たちはオーディオ信号を利用して、よりよい学習につながる可能性のあるインタラクションのモーメントを識別します。
また,対話による可聴状態の変化から学習する新たな自己教師型目標を提案する。
我々は、EPIC-Kitchens-100と最近リリースされたEgo4Dの2つの大規模エゴセントリックデータセットにおいて、これらのコントリビューションを広範囲に検証し、アクション認識、長期アクション予測、オブジェクト状態変化分類などの下流タスクの改善を示す。
関連論文リスト
- SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Towards Continual Egocentric Activity Recognition: A Multi-modal
Egocentric Activity Dataset for Continual Learning [21.68009790164824]
UESTC-MMEA-CLという連続学習のためのマルチモーダル・エゴセントリックな活動データセットを提案する。
ビデオ、加速度計、ジャイロスコープの同期データを含み、32種類の日常活動が10人の参加者によって行われる。
RGB, 加速度, ジャイロスコープの3つのモードを別々に使用した場合に, エゴセントリックな活動認識の結果が報告される。
論文 参考訳(メタデータ) (2023-01-26T04:32:00Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - The Surprising Effectiveness of Representation Learning for Visual
Imitation [12.60653315718265]
本稿では,視覚模倣のための行動学習から表現学習を分離することを提案する。
まず、標準教師付きおよび自己教師付き学習手法を用いて、オフラインデータから視覚表現エンコーダを学習する。
この単純なデカップリングにより、オフラインのデモデータセットと実ロボットドア開口の両方における視覚模倣モデルの性能が、以前の視覚模倣よりも向上することが実験的に示されている。
論文 参考訳(メタデータ) (2021-12-02T18:58:09Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。