論文の概要: Entropy-driven Unsupervised Keypoint Representation Learning in Videos
- arxiv url: http://arxiv.org/abs/2209.15404v2
- Date: Tue, 6 Jun 2023 07:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:55:30.331071
- Title: Entropy-driven Unsupervised Keypoint Representation Learning in Videos
- Title(参考訳): エントロピー駆動型教師なしキーポイント表現学習
- Authors: Ali Younes, Simone Schaub-Meyer, Georgia Chalvatzaki
- Abstract要約: 本稿では,ビデオから意味のある表現を教師なしで学習するための新しいアプローチを提案する。
画素近傍のテクスティカルなエントロピーとその時間的進化は,特徴の学習に有用な本質的な監督信号を生み出すと論じる。
私たちの経験的な結果は、静的なオブジェクトや動的オブジェクトへの出席や突然の入場や退場といった課題を解決する情報駆動キーポイントのパフォーマンスに優れています。
- 参考スコア(独自算出の注目度): 7.940371647421243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting informative representations from videos is fundamental for
effectively learning various downstream tasks. We present a novel approach for
unsupervised learning of meaningful representations from videos, leveraging the
concept of image spatial entropy (ISE) that quantifies the per-pixel
information in an image. We argue that \textit{local entropy} of pixel
neighborhoods and their temporal evolution create valuable intrinsic
supervisory signals for learning prominent features. Building on this idea, we
abstract visual features into a concise representation of keypoints that act as
dynamic information transmitters, and design a deep learning model that learns,
purely unsupervised, spatially and temporally consistent representations
\textit{directly} from video frames. Two original information-theoretic losses,
computed from local entropy, guide our model to discover consistent keypoint
representations; a loss that maximizes the spatial information covered by the
keypoints and a loss that optimizes the keypoints' information transportation
over time. We compare our keypoint representation to strong baselines for
various downstream tasks, \eg, learning object dynamics. Our empirical results
show superior performance for our information-driven keypoints that resolve
challenges like attendance to static and dynamic objects or objects abruptly
entering and leaving the scene.
- Abstract(参考訳): 様々な下流タスクを効果的に学習するためには,映像から情報表現を抽出することが重要である。
本稿では,映像中のピクセル単位の情報を定量化する画像空間エントロピー(ise)の概念を活用して,映像から有意義な表現を教師なし学習する新しい手法を提案する。
ピクセル近傍の \textit{local entropy} とその時間的発展は、顕著な特徴を学ぶ上で貴重な内在的監督信号を生み出す。
このアイデアに基づき、視覚的な特徴を動的情報送信機として機能するキーポイントの簡潔な表現に抽象化し、ビデオフレームから純粋に教師なし、空間的、時間的に一貫性のある表現を学習するディープラーニングモデルを設計する。
局所エントロピーから計算した2つの情報理論的な損失は,キーポイントがカバーする空間情報を最大化する損失と,キーポイントの情報転送を時間とともに最適化する損失である。
キーポイント表現を、ダウンストリームタスクの強力なベースライン、例えばオブジェクトダイナミクスの学習と比較します。
静的および動的オブジェクトやシーンの突然の入退場といった課題を解決する、情報駆動のキーポイントに対して優れたパフォーマンスを示しました。
関連論文リスト
- Learning in Factored Domains with Information-Constrained Visual
Representations [14.674830543204317]
本稿では、視覚学習タスクで使用される$beta$-Variational Auto-Encoderの変形形式に基づくヒューマンファクター表現学習のモデルを提案する。
その結果,学習速度と再現精度の関係から,モデル潜在次元空間の情報複雑性のトレードオフが示された。
論文 参考訳(メタデータ) (2023-03-30T16:22:10Z) - Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。
私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。
次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文 参考訳(メタデータ) (2022-10-19T22:26:12Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel
Space [43.654464513994164]
高次元データ(画像,ビデオ)における因果関係の学習方法を提案する。
我々の手法は、いかなる根拠となる真実の位置や他の対象物やシーン特性の知識や監督も必要としない。
我々は,画素空間における予測のための新しい挑戦的かつ慎重に設計された反実的ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-02-01T12:18:30Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。