論文の概要: Refining Pre-Trained Motion Models
- arxiv url: http://arxiv.org/abs/2401.00850v1
- Date: Mon, 1 Jan 2024 18:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:36:14.006037
- Title: Refining Pre-Trained Motion Models
- Title(参考訳): プレトレーニング動作モデルの改良
- Authors: Xinglong Sun, Adam W. Harley, and Leonidas J. Guibas
- Abstract要約: 我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオからクリーンなトレーニング信号を取得することに集中する。
- 参考スコア(独自算出の注目度): 56.18044168821188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the difficulty of manually annotating motion in video, the current best
motion estimation methods are trained with synthetic data, and therefore
struggle somewhat due to a train/test gap. Self-supervised methods hold the
promise of training directly on real video, but typically perform worse. These
include methods trained with warp error (i.e., color constancy) combined with
smoothness terms, and methods that encourage cycle-consistency in the estimates
(i.e., tracking backwards should yield the opposite trajectory as tracking
forwards). In this work, we take on the challenge of improving state-of-the-art
supervised models with self-supervised training. We find that when the
initialization is supervised weights, most existing self-supervision techniques
actually make performance worse instead of better, which suggests that the
benefit of seeing the new data is overshadowed by the noise in the training
signal. Focusing on obtaining a ``clean'' training signal from real-world
unlabelled video, we propose to separate label-making and training into two
distinct stages. In the first stage, we use the pre-trained model to estimate
motion in a video, and then select the subset of motion estimates which we can
verify with cycle-consistency. This produces a sparse but accurate
pseudo-labelling of the video. In the second stage, we fine-tune the model to
reproduce these outputs, while also applying augmentations on the input. We
complement this boot-strapping method with simple techniques that densify and
re-balance the pseudo-labels, ensuring that we do not merely train on ``easy''
tracks. We show that our method yields reliable gains over fully-supervised
methods in real videos, for both short-term (flow-based) and long-range
(multi-frame) pixel tracking.
- Abstract(参考訳): 動画中の動きを手動でアノテートすることの難しさから、現在の最良の動き推定法は合成データで訓練されるため、列車/テストのギャップのために多少の困難がある。
自己監督的手法は、実際のビデオで直接トレーニングするという約束を保っているが、通常より悪いパフォーマンスを示す。
これには、ワープ誤差(すなわち色コンステンシー)と滑らかさ項の組み合わせで訓練された方法と、見積もりのサイクル一貫性を促進する方法が含まれる(すなわち、後方追跡は、前方追跡として反対の軌道を生じさせる)。
本研究では,自己教師型トレーニングによる最先端の教師付きモデルの改善に挑戦する。
初期化を監督する重み付けを行うと、既存の自己超越技術のほとんどは、改善ではなくパフォーマンスを悪くするので、新しいデータを見る利点はトレーニング信号のノイズによって過度に隠されていることが示唆される。
実世界の映像から「クリーン」のトレーニング信号を得ることに着目し,ラベル作成とトレーニングを2つの異なる段階に分けることを提案する。
第1段階では,事前学習モデルを用いて映像中の動きを推定し,サイクル整合性で検証可能な動き推定のサブセットを選択する。
これにより、ビデオのスパースだが正確な擬似ラベリングが生成される。
第2段階では、これらの出力を再現するためにモデルを微調整し、入力に拡張を適用する。
このブートストラップ方式を,疑似ラベルを高密度化し再バランスさせるシンプルな手法で補完し,‘easy’ トラックを単にトレーニングしないようにした。
本手法は,実映像における全教師あり方式に対して,短期的(フローベース)と長期的(マルチフレーム)の画素追跡において,信頼性の高いゲインが得られることを示す。
関連論文リスト
- CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos [63.90674869153876]
我々はCoTracker3を導入し、新しい追跡モデルと半教師付きトレーニングレシピを新たに導入する。
これにより、トレーニング中にアノテーションを使わずに実際のビデオが使えるようになり、既成の教師を使って擬似ラベルを生成することができる。
モデルはオンライン版とオフライン版で利用可能で、視界や無視された点を確実に追跡できる。
論文 参考訳(メタデータ) (2024-10-15T17:56:32Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Self-Supervised Multi-Object Tracking with Cross-Input Consistency [5.8762433393846045]
本稿では,ラベルなしビデオのみを対象とする頑健なマルチオブジェクト追跡(MOT)モデルを訓練するための自己教師付き学習手法を提案する。
次に、各入力に対して独立してRNNモデルを適用することで、そのシーケンス内のトラックを計算し、2つの入力に対して一貫したトラックを生成するようにモデルを訓練する。
論文 参考訳(メタデータ) (2021-11-10T21:00:34Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - FROST: Faster and more Robust One-shot Semi-supervised Training [0.0]
本稿では,一対一の半教師付き学習手法を提案する。
実験では、ラベルなしデータの構成が不明な場合、FROSTが良好に動作できることを実証した。
論文 参考訳(メタデータ) (2020-11-18T18:56:03Z) - Unsupervised Deep Representation Learning for Real-Time Tracking [137.69689503237893]
視覚追跡のための教師なし学習手法を提案する。
教師なし学習の動機は、ロバストなトラッカーが双方向トラッキングに有効であるべきだということです。
我々は,シームズ相関フィルタネットワーク上にフレームワークを構築し,教師なし学習を容易にするために,多フレーム検証方式とコスト感受性損失を提案する。
論文 参考訳(メタデータ) (2020-07-22T08:23:12Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。