論文の概要: An Improved RaftStereo Trained with A Mixed Dataset for the Robust
Vision Challenge 2022
- arxiv url: http://arxiv.org/abs/2210.12785v1
- Date: Sun, 23 Oct 2022 17:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:29:09.695925
- Title: An Improved RaftStereo Trained with A Mixed Dataset for the Robust
Vision Challenge 2022
- Title(参考訳): ロバストビジョンチャレンジ2022のための混合データセットを用いたRaftStereoの改良
- Authors: Hualie Jiang and Rui Xu and Wenjie Jiang
- Abstract要約: このレポートでは、堅牢なビジョンチャレンジのために、7つのパブリックデータセットの混合データセットでトレーニングされた改善されたRaftStereoを提示する。
Middlebury、KITTI-2015、ETH3Dのトレーニングセットで評価すると、モデルは1つのデータセットでトレーニングされたデータセットよりも優れています。
ステレオリーダーボードでは2位にランクインし、混合データセットの事前トレーニングのメリットを実証している。
- 参考スコア(独自算出の注目度): 11.360379033636598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo-matching is a fundamental problem in computer vision. Despite recent
progress by deep learning, improving the robustness is ineluctable when
deploying stereo-matching models to real-world applications. Different from the
common practices, i.e., developing an elaborate model to achieve robustness, we
argue that collecting multiple available datasets for training is a cheaper way
to increase generalization ability. Specifically, this report presents an
improved RaftStereo trained with a mixed dataset of seven public datasets for
the robust vision challenge (denoted as iRaftStereo_RVC). When evaluated on the
training sets of Middlebury, KITTI-2015, and ETH3D, the model outperforms its
counterparts trained with only one dataset, such as the popular Sceneflow.
After fine-tuning the pre-trained model on the three datasets of the challenge,
it ranks at 2nd place on the stereo leaderboard, demonstrating the benefits of
mixed dataset pre-training.
- Abstract(参考訳): ステレオマッチングはコンピュータビジョンの基本的な問題である。
ディープラーニングによる最近の進歩にもかかわらず、現実世界のアプリケーションにステレオマッチングモデルをデプロイする場合、堅牢性の改善は難しい。
一般的なプラクティス、すなわち堅牢性を達成するための精巧なモデルの開発とは違い、トレーニングのために複数の利用可能なデータセットを収集することは、一般化能力を高めるためのより安価な方法である、と私たちは主張する。
具体的には、堅牢なビジョンチャレンジ(iRaftStereo_RVCと表記される)のために、7つのパブリックデータセットの混合データセットでトレーニングされた改善されたRaftStereoを示す。
Middlebury、KITTI-2015、ETH3Dのトレーニングセットで評価すると、このモデルは人気のあるSceneflowのような単一のデータセットでトレーニングされたモデルよりも優れている。
課題の3つのデータセットで事前トレーニングされたモデルを微調整した後、ステレオリーダーボードで2位にランクインし、混合データセット事前トレーニングのメリットを示している。
関連論文リスト
- SCAN: Bootstrapping Contrastive Pre-training for Data Efficiency [10.555957282859]
本稿では,新しい動的ブートストラップ・データセット・プルーニング手法を提案する。
データ準備の後にデータセットの突然変異操作を行い、どちらも反復的な更新と動的更新を行う。
大規模画像テキストペアデータセットの7つのCLIPモデルと,ImageNetデータセットの2つのMoCoモデルを個別に事前トレーニングし,合計16の事前トレーニングモデルを得た。
論文 参考訳(メタデータ) (2024-11-14T01:53:17Z) - Rethinking the Key Factors for the Generalization of Remote Sensing Stereo Matching Networks [15.456986824737067]
ステレオマッチングタスクは高価な空中LiDARデータに依存している。
本稿では,3つの視点から重要なトレーニング要因について検討する。
一般化性能のよい教師なしステレオマッチングネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-14T15:26:10Z) - UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model [4.443066817473078]
さまざまなアノテーションを持つデータセットを活用するために設計されたマルチヘッドアーキテクチャを特徴とする統一モデルUniTalkerを提案する。
トレーニング安定性の向上とマルチヘッド出力の整合性確保のために,PCA,モデルウォームアップ,ピボットIDの埋め込みという3つのトレーニング戦略を採用した。
単一の訓練されたUniTalkerモデルでは、BIWIデータセットでは9.2%、Vocasetでは13.7%の実質的なリップ頂点エラー削減を実現している。
論文 参考訳(メタデータ) (2024-08-01T17:59:27Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - You Only Need a Good Embeddings Extractor to Fix Spurious Correlations [26.23962870932271]
GroupDROは、サブグループラベルを使ってエンドツーエンドでモデルをトレーニングする必要がある。
トレーニングセットのサブグループ情報を用いることなく,最大90%の精度が得られることを示す。
論文 参考訳(メタデータ) (2022-12-12T21:42:33Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。