論文の概要: Self-Supervised Keypoint Discovery in Behavioral Videos
- arxiv url: http://arxiv.org/abs/2112.05121v1
- Date: Thu, 9 Dec 2021 18:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 14:55:13.896180
- Title: Self-Supervised Keypoint Discovery in Behavioral Videos
- Title(参考訳): 行動映像における自己監督型キーポイント発見
- Authors: Jennifer J. Sun, Serim Ryou, Roni Goldshmid, Brandon Weissbourd, John
Dabiri, David J. Anderson, Ann Kennedy, Yisong Yue, Pietro Perona
- Abstract要約: 本研究では, エージェントの姿勢と構造を, 乱れのない行動ビデオから学習する手法を提案する。
本手法では,ビデオフレーム間の差分を再構成するために,幾何的ボトルネックを持つエンコーダデコーダアーキテクチャを用いる。
動作領域のみに焦点をあてることで,手動のアノテーションを必要とせずに直接入力ビデオに焦点をあてる。
- 参考スコア(独自算出の注目度): 37.367739727481016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for learning the posture and structure of agents from
unlabelled behavioral videos. Starting from the observation that behaving
agents are generally the main sources of movement in behavioral videos, our
method uses an encoder-decoder architecture with a geometric bottleneck to
reconstruct the difference between video frames. By focusing only on regions of
movement, our approach works directly on input videos without requiring manual
annotations, such as keypoints or bounding boxes. Experiments on a variety of
agent types (mouse, fly, human, jellyfish, and trees) demonstrate the
generality of our approach and reveal that our discovered keypoints represent
semantically meaningful body parts, which achieve state-of-the-art performance
on keypoint regression among self-supervised methods. Additionally, our
discovered keypoints achieve comparable performance to supervised keypoints on
downstream tasks, such as behavior classification, suggesting that our method
can dramatically reduce the cost of model training vis-a-vis supervised
methods.
- Abstract(参考訳): そこで本研究では,無標識行動ビデオからエージェントの姿勢と構造を学ぶ手法を提案する。
ビヘイビアエージェントが行動ビデオの主な移動源であるという観察から,映像フレーム間の差異を再現するために,幾何学的ボトルネックを持つエンコーダ・デコーダアーキテクチャを用いる。
移動領域のみに注目することで,キーポイントやバウンディングボックスなどの手動アノテーションを必要とせずに,直接入力ビデオに作用する。
種々のエージェントタイプ(マウス,フライ,ヒト,クラゲ,木)の実験により,本手法の汎用性を実証し,本手法で発見されたキーポイントが意味的に意味のある身体部分を表すことを明らかにする。
さらに,本手法は,動作分類などの下流タスクにおける教師付きキーポイントに匹敵する性能を達成し,モデルトレーニングのvis-a-vis教師付き手法のコストを劇的に削減できることを示す。
関連論文リスト
- Learning Keypoints for Multi-Agent Behavior Analysis using Self-Supervision [15.308050177798453]
B-KinD-multiは、事前訓練されたビデオセグメンテーションモデルを利用して、マルチエージェントシナリオにおけるキーポイント発見をガイドする新しいアプローチである。
大規模な評価では、ハエ、マウス、ラットのビデオにおけるキーポイント回帰と下流行動分類が改善された。
我々の方法は、アリ、ミツバチ、人間を含む他の種によく一般化する。
論文 参考訳(メタデータ) (2024-09-14T14:46:44Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Learning by Watching: Physical Imitation of Manipulation Skills from
Human Videos [28.712673809577076]
本稿では,ロボット操作作業のための人間ビデオからの物理模倣手法を提案する。
人間のビデオをロボットドメインに翻訳し,教師なしのキーポイント検出を行う知覚モジュールを設計した。
リーチ、プッシュ、スライディング、コーヒー製造、引き出しの閉鎖を含む5つのロボット操作タスクに対するアプローチの有効性を評価します。
論文 参考訳(メタデータ) (2021-01-18T18:50:32Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。