論文の概要: Self-Assessed Generation: Trustworthy Label Generation for Optical Flow and Stereo Matching in Real-world
- arxiv url: http://arxiv.org/abs/2410.10453v1
- Date: Mon, 14 Oct 2024 12:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:34:52.233298
- Title: Self-Assessed Generation: Trustworthy Label Generation for Optical Flow and Stereo Matching in Real-world
- Title(参考訳): 自己評価生成:実世界における光学フローとステレオマッチングのための信頼できるラベル生成
- Authors: Han Ling, Yinghui Sun, Quansen Sun, Ivor Tsang, Yuhui Zheng,
- Abstract要約: 本稿では、光学フローとステレオタスクのための統合された自己教師付き一般化フレームワークである自己評価生成(SAG)を提案する。
従来の自己教師型手法とは異なり、SAGはデータ駆動であり、高度な再構成技術を用いてRGB画像から再構成フィールドを構築し、それに基づいてデータセットを生成する。
- 参考スコア(独自算出の注目度): 24.251352190100135
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A significant challenge facing current optical flow and stereo methods is the difficulty in generalizing them well to the real world. This is mainly due to the high costs required to produce datasets, and the limitations of existing self-supervised methods on fuzzy results and complex model training problems. To address the above challenges, we propose a unified self-supervised generalization framework for optical flow and stereo tasks: Self-Assessed Generation (SAG). Unlike previous self-supervised methods, SAG is data-driven, using advanced reconstruction techniques to construct a reconstruction field from RGB images and generate datasets based on it. Afterward, we quantified the confidence level of the generated results from multiple perspectives, such as reconstruction field distribution, geometric consistency, and structural similarity, to eliminate inevitable defects in the generation process. We also designed a 3D flight foreground automatic rendering pipeline in SAG to encourage the network to learn occlusion and motion foreground. Experimentally, because SAG does not involve changes to methods or loss functions, it can directly self-supervised train the state-of-the-art deep networks, greatly improving the generalization performance of self-supervised methods on current mainstream optical flow and stereo-matching datasets. Compared to previous training modes, SAG is more generalized, cost-effective, and accurate.
- Abstract(参考訳): 現在の光学的流れとステレオ法に直面する重要な課題は、それらを現実世界にうまく一般化することの難しさである。
これは、データセットを作成するのに必要な高コストと、ファジィな結果に対する既存の自己教師型メソッドの制限と複雑なモデルトレーニングの問題が主な原因である。
このような課題に対処するため、光学フローとステレオタスクのための統合された自己教師付き一般化フレームワーク(SAG: Self-Assessed Generation)を提案する。
従来の自己教師型手法とは異なり、SAGはデータ駆動であり、高度な再構成技術を用いてRGB画像から再構成フィールドを構築し、それに基づいてデータセットを生成する。
その後、再構成フィールド分布、幾何整合性、構造的類似性といった複数の視点から生成した結果の信頼性レベルを定量化し、生成プロセスにおける避けられない欠陥を排除した。
また,SAGにおける3次元飛行前景自動レンダリングパイプラインを設計し,ネットワークに閉塞や移動前景の学習を促す。
実験により、SAGはメソッドやロス関数の変更を伴わないため、最先端のディープネットワークを直接自己教師し、現在の主流の光学フローとステレオマッチングデータセット上での自己教師付きメソッドの一般化性能を大幅に向上させることができる。
従来の訓練モードと比較して、SAGはより一般化され、費用対効果があり、正確である。
関連論文リスト
- Context Enhancement with Reconstruction as Sequence for Unified Unsupervised Anomaly Detection [68.74469657656822]
非教師付き異常検出(AD)は、通常のサンプルのみを用いて堅牢な検出モデルを訓練することを目的としている。
最近の研究は、すべてのクラスに対して1つのモデルのみをトレーニングする、統一された教師なしAD設定に焦点を当てている。
本稿では,特徴再構成時の文脈対応性を高める新しいRAS法を提案する。
論文 参考訳(メタデータ) (2024-09-10T07:37:58Z) - MS$^3$D: A RG Flow-Based Regularization for GAN Training with Limited Data [16.574346252357653]
物理における再正規化群(RG)の考え方に基づく新しい正規化法を提案する。
本手法は,限られたデータシナリオ下でのGANの性能と安定性を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-08-20T18:37:37Z) - Towards Realistic Data Generation for Real-World Super-Resolution [58.88039242455039]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。
我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。
実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T13:34:57Z) - SAID-NeRF: Segmentation-AIDed NeRF for Depth Completion of Transparent Objects [7.529049797077149]
市販のRGB-Dカメラを使って透明物体の正確な深度情報を取得することは、コンピュータビジョンとロボティクスにおいてよく知られた課題である。
NeRFは学習のないアプローチであり、新しいビューの合成と形状回復に広く成功している。
提案したAID-NeRF法は,透明物体とロボットグルーピングのための深度補完データセットに有意な性能を示す。
論文 参考訳(メタデータ) (2024-03-28T17:28:32Z) - BFRFormer: Transformer-based generator for Real-World Blind Face
Restoration [37.77996097891398]
本稿では,トランスフォーマーをベースとしたブラインドフェイス復元手法BFRFormerを提案する。
提案手法は, 合成データセットと実世界の4つのデータセットにおいて, 最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-02-29T02:31:54Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Unsupervised Seismic Footprint Removal With Physical Prior Augmented
Deep Autoencoder [11.303407992331213]
本稿では、獲得したフットプリントの教師なし抑制のためのフットプリント除去ネットワーク(FR-Netと呼ばれる)を提案する。
FR-Netの鍵となるのは、ノイズの本質的な指向性に応じてフットプリント獲得のための一方向全変動(UTV)モデルを設計することである。
論文 参考訳(メタデータ) (2023-02-08T07:46:28Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - Deep Non-Line-of-Sight Reconstruction [18.38481917675749]
本稿では,再構成問題を効率的に解くために,畳み込みフィードフォワードネットワークを用いる。
本研究では,自動エンコーダアーキテクチャを設計し,一貫した画像を直接深度マップ表現にマッピングする。
筆者らのフィードフォワードネットワークは,合成データのみに基づいて訓練されているものの,SPADセンサの計測データに一般化し,モデルに基づく再構成手法と競合する結果が得られることを示した。
論文 参考訳(メタデータ) (2020-01-24T16:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。