論文の概要: SHERLock: Self-Supervised Hierarchical Event Representation Learning
- arxiv url: http://arxiv.org/abs/2010.02556v2
- Date: Mon, 22 Aug 2022 18:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 04:51:23.967346
- Title: SHERLock: Self-Supervised Hierarchical Event Representation Learning
- Title(参考訳): SHERLock: 自己監督型階層型イベント表現学習
- Authors: Sumegh Roychowdhury, Sumedh A. Sontakke, Nikaash Puri, Mausoom Sarkar,
Milan Aggarwal, Pinkesh Badjatiya, Balaji Krishnamurthy, Laurent Itti
- Abstract要約: 本研究では,長時間の視覚的実演データから時間的表現を学習するモデルを提案する。
提案手法は,人間による注釈付きイベントとより緊密に一致した表現階層を生成する。
- 参考スコア(独自算出の注目度): 22.19386609894017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal event representations are an essential aspect of learning among
humans. They allow for succinct encoding of the experiences we have through a
variety of sensory inputs. Also, they are believed to be arranged
hierarchically, allowing for an efficient representation of complex
long-horizon experiences. Additionally, these representations are acquired in a
self-supervised manner. Analogously, here we propose a model that learns
temporal representations from long-horizon visual demonstration data and
associated textual descriptions, without explicit temporal supervision. Our
method produces a hierarchy of representations that align more closely with
ground-truth human-annotated events (+15.3) than state-of-the-art unsupervised
baselines.
Our results are comparable to heavily-supervised baselines in complex visual
domains such as Chess Openings, YouCook2 and TutorialVQA datasets. Finally, we
perform ablation studies illustrating the robustness of our approach. We
release our code and demo visualizations in the Supplementary Material.
- Abstract(参考訳): 時間的事象表現は、人間の学習において不可欠な側面である。
さまざまな感覚入力を通じて、経験の簡潔なエンコーディングを可能にします。
また、階層的に配置され、複雑な長方形体験を効率的に表現できると考えられている。
さらに、これらの表現は自己監督的な方法で取得される。
本稿では,長期の視覚的実演データと関連するテキスト記述から時間的表現を明示的な時間的監督なしに学習するモデルを提案する。
提案手法は,最先端の非教師付きベースラインよりも,人間による注釈付きイベント(+15.3)に近い表現階層を生成する。
私たちの結果は、Chess Openings、YouCook2、TutorialVQAデータセットといった複雑なビジュアルドメインにおける、教師付きのベースラインに匹敵するものです。
最後に、我々のアプローチの堅牢性を示すアブレーション研究を行う。
コードとデモをSupplementary Materialで公開しています。
関連論文リスト
- Universal Time-Series Representation Learning: A Survey [14.340399848964662]
時系列データは、現実世界のシステムやサービスのあらゆる部分に存在する。
ディープラーニングは、時系列データから隠れたパターンや特徴を抽出する際、顕著な性能を示した。
論文 参考訳(メタデータ) (2024-01-08T08:00:04Z) - Unsupervised Representation Learning for Time Series: A Review [20.00853543048447]
教師なし表現学習アプローチは、すべてのサンプルに注釈をつけることなく、ラベルのないデータから識別的特徴表現を学習することを目的としている。
本稿では,現在急速に進化している時系列の非教師なし表現学習手法の文献レビューを行う。
我々は9つの異なる実世界のデータセットに基づいて、最先端のアプローチ、特に急速に進化するコントラスト学習手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-08-03T07:28:06Z) - On the Generalization of Learned Structured Representations [5.1398743023989555]
我々は、その隠された構造を捉えた非構造化データの表現を、ほとんど、あるいは全く監督せずに学習する方法を研究する。
この論文の第2部は、シンボルのような実体の観点で入力の構成構造をキャプチャするオブジェクト中心表現に焦点を当てている。
論文 参考訳(メタデータ) (2023-04-25T17:14:36Z) - OPERA: Omni-Supervised Representation Learning with Hierarchical
Supervisions [94.31804364707575]
我々は,Omni-suPErvised Representation leArning withhierarchical supervisions (OPERA) を解法として提案する。
画像ごとに階層的なプロキシ表現の集合を抽出し、対応するプロキシ表現に自己および全監督を課す。
畳み込みニューラルネットワークと視覚変換器の両方の実験は、画像分類、セグメンテーション、オブジェクト検出におけるOPERAの優位性を実証している。
論文 参考訳(メタデータ) (2022-10-11T15:51:31Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video
Representation [16.643709221279764]
本稿では,新しいプレテキストタスク-時間的重複率(STOR)予測を提案する。
それは、人間が空間と時間におけるビデオの重複率を識別できるという観察に由来する。
我々は、時間的表現学習を強化するために、コントラスト学習を組み合わせた共同作業を採用する。
論文 参考訳(メタデータ) (2021-12-16T14:31:22Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。