論文の概要: Reusable Architecture Growth for Continual Stereo Matching
- arxiv url: http://arxiv.org/abs/2404.00360v1
- Date: Sat, 30 Mar 2024 13:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:10:32.500597
- Title: Reusable Architecture Growth for Continual Stereo Matching
- Title(参考訳): 連続ステレオマッチングのための再利用可能なアーキテクチャ成長
- Authors: Chenghao Zhang, Gaofeng Meng, Bin Fan, Kun Tian, Zhaoxiang Zhang, Shiming Xiang, Chunhong Pan,
- Abstract要約: 我々は、教師付きおよび自己監督型の両方で、新しいシーンを継続的に学習するための、再利用可能なアーキテクチャ成長(RAG)フレームワークを紹介します。
RAGは、前のユニットを再利用し、良好な性能を得ることにより、成長中の高い再利用性を維持することができる。
また、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
- 参考スコア(独自算出の注目度): 92.36221737921274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable performance of recent stereo depth estimation models benefits from the successful use of convolutional neural networks to regress dense disparity. Akin to most tasks, this needs gathering training data that covers a number of heterogeneous scenes at deployment time. However, training samples are typically acquired continuously in practical applications, making the capability to learn new scenes continually even more crucial. For this purpose, we propose to perform continual stereo matching where a model is tasked to 1) continually learn new scenes, 2) overcome forgetting previously learned scenes, and 3) continuously predict disparities at inference. We achieve this goal by introducing a Reusable Architecture Growth (RAG) framework. RAG leverages task-specific neural unit search and architecture growth to learn new scenes continually in both supervised and self-supervised manners. It can maintain high reusability during growth by reusing previous units while obtaining good performance. Additionally, we present a Scene Router module to adaptively select the scene-specific architecture path at inference. Comprehensive experiments on numerous datasets show that our framework performs impressively in various weather, road, and city circumstances and surpasses the state-of-the-art methods in more challenging cross-dataset settings. Further experiments also demonstrate the adaptability of our method to unseen scenes, which can facilitate end-to-end stereo architecture learning and practical deployment.
- Abstract(参考訳): 最近の立体深度推定モデルの顕著な性能は、畳み込みニューラルネットワークによる密接な格差の緩和に成功している。
ほとんどのタスクと同様に、デプロイ時に多数の異種シーンをカバーするトレーニングデータを集める必要がある。
しかし、トレーニングサンプルは通常、実践的な応用において継続的に取得され、新しいシーンを継続的に学習する能力はさらに重要になる。
そこで本研究では,モデルにタスクを課す連続ステレオマッチングを提案する。
1)新しい場面を継続的に学習する。
2)先行学習シーンの忘れを克服し、
3)推論において相違を連続的に予測する。
我々は、再利用可能なアーキテクチャ成長(RAG)フレームワークを導入することで、この目標を達成する。
RAGはタスク固有のニューラルネットワーク検索とアーキテクチャの成長を活用して、教師付きと自己管理の両方の方法で新しいシーンを継続的に学習する。
良好な性能を得ながら、前のユニットを再利用することで、成長中の高い再利用性を維持することができる。
さらに、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
多くのデータセットに関する総合的な実験により、我々のフレームワークは様々な天候、道路、都市状況において顕著に機能し、より困難なクロスデータセット設定において最先端の手法を超越していることが示された。
さらに,エンド・ツー・エンドのステレオアーキテクチャ学習と実践的展開を容易にするため,本手法のシーンへの適応性を実証した。
関連論文リスト
- A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Mutual Information Maximization for Robust Plannable Representations [82.83676853746742]
モデルに基づく強化学習のための情報理論表現学習アルゴリズムMIROを提案する。
提案手法は, 邪魔や散らかったシーンの存在下で, 再建目的よりも頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-16T21:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。