論文の概要: Midway Network: Learning Representations for Recognition and Motion from Latent Dynamics
- arxiv url: http://arxiv.org/abs/2510.05558v1
- Date: Tue, 07 Oct 2025 04:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.090596
- Title: Midway Network: Learning Representations for Recognition and Motion from Latent Dynamics
- Title(参考訳): ミッドウェイネットワーク:潜在ダイナミクスからの認識と運動のための学習表現
- Authors: Christopher Hoang, Mengye Ren,
- Abstract要約: そこで我々は,自然ビデオのみから,物体認識と動作理解の両面での強力な視覚表現を初めて学習する,新たな自己教師型学習アーキテクチャであるMidway Networkを紹介する。
本研究では,従来の自己教師付き学習手法と比較して,セマンティックセグメンテーションと光フロータスクの両方において高い性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 11.610274121239051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object recognition and motion understanding are key components of perception that complement each other. While self-supervised learning methods have shown promise in their ability to learn from unlabeled data, they have primarily focused on obtaining rich representations for either recognition or motion rather than both in tandem. On the other hand, latent dynamics modeling has been used in decision making to learn latent representations of observations and their transformations over time for control and planning tasks. In this work, we present Midway Network, a new self-supervised learning architecture that is the first to learn strong visual representations for both object recognition and motion understanding solely from natural videos, by extending latent dynamics modeling to this domain. Midway Network leverages a midway top-down path to infer motion latents between video frames, as well as a dense forward prediction objective and hierarchical structure to tackle the complex, multi-object scenes of natural videos. We demonstrate that after pretraining on two large-scale natural video datasets, Midway Network achieves strong performance on both semantic segmentation and optical flow tasks relative to prior self-supervised learning methods. We also show that Midway Network's learned dynamics can capture high-level correspondence via a novel analysis method based on forward feature perturbation.
- Abstract(参考訳): 物体認識と動作理解は、お互いを補完する知覚の重要な構成要素である。
自己教師付き学習手法は、ラベルのないデータから学習する能力において有望であることを示しているが、彼らは主に、タンデムでではなく、認識と運動の両方についてリッチな表現を得ることに重点を置いてきた。
一方、潜時力学モデリングは、制御や計画タスクに時間をかけて観測とその変換の潜時表現を学習するために意思決定に使われてきた。
本研究では,自然映像のみから物体認識と動作理解の両面での強力な視覚表現を初めて学習する,新しい自己教師型学習アーキテクチャであるMidway Networkを提案する。
ミッドウェイネットワークは、ビデオフレーム間の移動遅延を推測するために、中間的なトップダウンパスを活用するとともに、複雑なマルチオブジェクトの自然なビデオシーンに取り組むために、密度の高い前方予測目標と階層構造を利用する。
本研究では,2つの大規模自然ビデオデータセットを事前学習した後,従来の自己教師付き学習手法と比較して,セマンティックセグメンテーションと光フロータスクの両方において高い性能を達成できることを実証した。
また,前向き特徴摂動に基づく新しい解析手法により,ミッドウェイネットワークの学習力学が高レベル対応を捉えることができることを示す。
関連論文リスト
- Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z) - Distilled Semantics for Comprehensive Scene Understanding from Videos [53.49501208503774]
本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,さらなる一歩を踏み出した。
これら3つの課題を,知識蒸留と自己監督に基づく新たなトレーニングプロトコルによって共同で解決する。
その結果, 単眼深度推定, 光流, モーションセグメンテーションの最先端結果が得られた。
論文 参考訳(メタデータ) (2020-03-31T08:52:13Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。