論文の概要: Doduo: Learning Dense Visual Correspondence from Unsupervised
Semantic-Aware Flow
- arxiv url: http://arxiv.org/abs/2309.15110v1
- Date: Tue, 26 Sep 2023 17:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 12:33:56.843510
- Title: Doduo: Learning Dense Visual Correspondence from Unsupervised
Semantic-Aware Flow
- Title(参考訳): Doduo:教師なしセマンティック・アウェアフローから視覚対応を学習する
- Authors: Zhenyu Jiang, Hanwen Jiang, Yuke Zhu
- Abstract要約: そこで,ドドゥオは画像やビデオから一般の密接な視覚的対応を学習するために導入された。
一対の画像を与えられた場合、ある画像における各画素の変位を他の画像における対応する画素に符号化する密度流れ場を推定する。
ドドゥオは、シーンのダイナミックな変化に頑健な正確な密接な対応を生成する。
- 参考スコア(独自算出の注目度): 34.7561717329273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense visual correspondence plays a vital role in robotic perception. This
work focuses on establishing the dense correspondence between a pair of images
that captures dynamic scenes undergoing substantial transformations. We
introduce Doduo to learn general dense visual correspondence from in-the-wild
images and videos without ground truth supervision. Given a pair of images, it
estimates the dense flow field encoding the displacement of each pixel in one
image to its corresponding pixel in the other image. Doduo uses flow-based
warping to acquire supervisory signals for the training. Incorporating semantic
priors with self-supervised flow training, Doduo produces accurate dense
correspondence robust to the dynamic changes of the scenes. Trained on an
in-the-wild video dataset, Doduo illustrates superior performance on
point-level correspondence estimation over existing self-supervised
correspondence learning baselines. We also apply Doduo to articulation
estimation and zero-shot goal-conditioned manipulation, underlining its
practical applications in robotics. Code and additional visualizations are
available at https://ut-austin-rpl.github.io/Doduo
- Abstract(参考訳): 繊細な視覚対応はロボット知覚において重要な役割を果たす。
本研究は、動的シーンをキャプチャする2つの画像間の密接な対応を確立することに焦点を当てている。
そこで,本研究では,実写画像や映像から全体密接な視覚対応を学習するために,基礎的真理の監督を伴わずにdoduoを導入する。
一対の画像が与えられると、一方の画像内の各画素の変位を他方の画像の対応する画素に符号化する密集した流れ場を推定する。
doduoは、フローベースのワーピングを使用して、トレーニングの監督信号を取得する。
自己教師付きフロートレーニングにセマンティクスプリエントを組み込むことで、doduoはシーンの動的変化にロバストな正確な密接な対応を生成する。
既存の自己教師型対応学習ベースラインよりも、ポイントレベルの対応推定において優れたパフォーマンスを示す。
また,doduoを調音推定とゼロショット目標条件操作に適用し,ロボット工学における実用的応用を概説した。
コードと追加の可視化はhttps://ut-austin-rpl.github.io/doduoで利用可能である。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Self-Supervised Feature Learning for Long-Term Metric Visual
Localization [16.987148593917905]
本稿では,メトリクスの視覚的ローカライゼーションのための新しい自己教師型特徴学習フレームワークを提案する。
提案手法は, 画像照合アルゴリズムを用いて, 基底構造ラベルを使わずに画像対応を生成する。
次に、画像ペアをサンプリングして、深層ニューラルネットワークをトレーニングし、関連する記述子とスコアのスパースな特徴を学習する。
論文 参考訳(メタデータ) (2022-11-30T21:15:05Z) - Unsupervised Learning of 3D Scene Flow from Monocular Camera [21.34395959441377]
実シーンにおけるシーンフローの基礎的真理を知ることは困難であり、近年の研究は、学習のための合成データに基づいている。
本稿では,モノクロカメラで撮影した2つの連続したフレームの画像を利用した,シーンフローの教師なし学習手法を提案する。
本手法は,実世界データを用いたシーンフローネットワークの学習を目標とし,トレーニングデータとテストデータとのギャップを埋めることを実現する。
論文 参考訳(メタデータ) (2022-06-08T04:57:27Z) - BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and
Semantic Point Cloud [21.29622194272066]
我々は,BEVにおける画素単位のセマンティックセマンティックセマンティックセマンティクスを予測するタスクである,鳥の目の意味セマンティクスセマンティクスに着目した。
このタスクには、サイドビューからバードビューへのビュー変換と、未確認領域への学習の移行という2つの大きな課題がある。
新たな2段階認識パイプラインは,画素深度を明示的に予測し,効率よく画素セマンティクスと組み合わせる。
論文 参考訳(メタデータ) (2020-06-19T23:30:11Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。