論文の概要: An information-theoretic approach to unsupervised keypoint
representation learning
- arxiv url: http://arxiv.org/abs/2209.15404v1
- Date: Fri, 30 Sep 2022 12:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:59:18.328635
- Title: An information-theoretic approach to unsupervised keypoint
representation learning
- Title(参考訳): 教師なしキーポイント表現学習への情報理論的アプローチ
- Authors: Ali Younes, Simone Schaub-Meyer, Georgia Chalvatzaki
- Abstract要約: 教師なしの方法でビデオから意味のある表現を発見できる新しい情報理論手法を提案する。
我々は、画素近傍の局所的なエントロピーとビデオストリームにおけるその進化が、有能な特徴を学習するための貴重な補助信号であると主張している。
我々は、ビデオフレーム間で顕著な情報を伝達する、教師なしの、本質的に時間的に一貫したキーポイント表現を発見する。
- 参考スコア(独自算出の注目度): 7.940371647421243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting informative representations from videos is fundamental for the
effective learning of various downstream tasks. Inspired by classical works on
saliency, we present a novel information-theoretic approach to discover
meaningful representations from videos in an unsupervised fashion. We argue
that local entropy of pixel neighborhoods and its evolution in a video stream
is a valuable intrinsic supervisory signal for learning to attend to salient
features. We, thus, abstract visual features into a concise representation of
keypoints that serve as dynamic information transporters. We discover in an
unsupervised fashion spatio-temporally consistent keypoint representations that
carry the prominent information across video frames, thanks to two original
information-theoretic losses. First, a loss that maximizes the information
covered by the keypoints in a frame. Second, a loss that encourages optimized
keypoint transportation over time, thus, imposing consistency of the
information flow. We evaluate our keypoint-based representation compared to
state-of-the-art baselines in different downstream tasks such as learning
object dynamics. To evaluate the expressivity and consistency of the keypoints,
we propose a new set of metrics. Our empirical results showcase the superior
performance of our information-driven keypoints that resolve challenges like
attendance to both static and dynamic objects, and to objects abruptly entering
and leaving the scene.
- Abstract(参考訳): 様々な下流タスクの効果的な学習には,映像からの情報表現の抽出が不可欠である。
本稿では,ビデオから有意義な表現を教師なしの方法で発見する新しい情報理論的手法を提案する。
我々は、ピクセル近傍の局所エントロピーとそのビデオストリームにおける進化は、サルエントな特徴を学習するための貴重な内在的監督信号であると主張する。
そこで我々は,動的情報伝達器として機能するキーポイントの簡潔な表現に視覚的特徴を抽象化する。
2つの元の情報理論的損失により、ビデオフレーム間で顕著な情報を運ぶ、教師なしの時空間整合キーポイント表現が発見された。
まず、フレーム内のキーポイントによってカバーされる情報を最大化するロス。
第二に、時間とともにキーポイントの輸送を最適化し、情報フローの一貫性を損なう。
我々は、キーポイントに基づく表現を、オブジェクトダイナミクスの学習など、さまざまな下流タスクにおける最先端のベースラインと比較評価する。
キーポイントの表現性と一貫性を評価するために,新しいメトリクスセットを提案する。
我々の経験的結果は、静的および動的オブジェクトの両方への出席や、突然の入退場といった課題を解決する情報駆動キーポイントの優れたパフォーマンスを示している。
関連論文リスト
- Learning in Factored Domains with Information-Constrained Visual
Representations [14.674830543204317]
本稿では、視覚学習タスクで使用される$beta$-Variational Auto-Encoderの変形形式に基づくヒューマンファクター表現学習のモデルを提案する。
その結果,学習速度と再現精度の関係から,モデル潜在次元空間の情報複雑性のトレードオフが示された。
論文 参考訳(メタデータ) (2023-03-30T16:22:10Z) - Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。
私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。
次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文 参考訳(メタデータ) (2022-10-19T22:26:12Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel
Space [43.654464513994164]
高次元データ(画像,ビデオ)における因果関係の学習方法を提案する。
我々の手法は、いかなる根拠となる真実の位置や他の対象物やシーン特性の知識や監督も必要としない。
我々は,画素空間における予測のための新しい挑戦的かつ慎重に設計された反実的ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-02-01T12:18:30Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。