論文の概要: Is Pre-training Applicable to the Decoder for Dense Prediction?
- arxiv url: http://arxiv.org/abs/2503.07637v2
- Date: Sat, 15 Mar 2025 16:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:56:49.666358
- Title: Is Pre-training Applicable to the Decoder for Dense Prediction?
- Title(参考訳): デンス予測のためのデコーダに事前学習は適用可能か?
- Authors: Chao Ning, Wanshui Gan, Weihao Xuan, Naoto Yokoya,
- Abstract要約: これは、3つの革新的な設計を通じて"事前訓練されたエンコーダ$times$プレトレーニングされたデコーダ"のコラボレーションを促進する。
事前トレーニングされたエンコーダと事前トレーニングされたデコーダを単純に結合することで、$times$Netは自身を非常に有望なアプローチと区別する。
合理化された設計にもかかわらず、$times$Netはモノクロ深度推定やセマンティックセグメンテーションといったタスクにおいて高度なメソッドよりも優れている。
- 参考スコア(独自算出の注目度): 13.542355644833544
- License:
- Abstract: Pre-trained encoders are widely employed in dense prediction tasks for their capability to effectively extract visual features from images. The decoder subsequently processes these features to generate pixel-level predictions. However, due to structural differences and variations in input data, only encoders benefit from pre-learned representations from vision benchmarks such as image classification and self-supervised learning, while decoders are typically trained from scratch. In this paper, we introduce $\times$Net, which facilitates a "pre-trained encoder $\times$ pre-trained decoder" collaboration through three innovative designs. $\times$Net enables the direct utilization of pre-trained models within the decoder, integrating pre-learned representations into the decoding process to enhance performance in dense prediction tasks. By simply coupling the pre-trained encoder and pre-trained decoder, $\times$Net distinguishes itself as a highly promising approach. Remarkably, it achieves this without relying on decoding-specific structures or task-specific algorithms. Despite its streamlined design, $\times$Net outperforms advanced methods in tasks such as monocular depth estimation and semantic segmentation, achieving state-of-the-art performance particularly in monocular depth estimation. and semantic segmentation, achieving state-of-the-art results, especially in monocular depth estimation. embedding algorithms. Despite its streamlined design, $\times$Net outperforms advanced methods in tasks such as monocular depth estimation and semantic segmentation, achieving state-of-the-art performance particularly in monocular depth estimation.
- Abstract(参考訳): 事前学習されたエンコーダは、画像から視覚的特徴を効果的に抽出する能力のために、密集した予測タスクに広く採用されている。
その後、デコーダはこれらの特徴を処理してピクセルレベルの予測を生成する。
しかし、入力データの構造的差異やバリエーションのため、エンコーダだけが画像分類や自己教師付き学習のようなビジョンベンチマークから事前学習された表現の恩恵を受ける一方、デコーダはスクラッチから訓練される。
本稿では,3つの革新的な設計を通じて「事前学習エンコーダ$\times$\times$プレトレーニングデコーダ」のコラボレーションを促進する$\times$Netを紹介する。
$\times$Netは、デコーダ内で事前学習されたモデルの直接利用を可能にし、事前学習された表現をデコードプロセスに統合し、密集した予測タスクのパフォーマンスを向上させる。
事前トレーニングされたエンコーダと事前トレーニングされたデコーダを単純に結合することで、$\times$Netは自身を非常に有望なアプローチと区別する。
注目すべきは、デコード固有の構造やタスク固有のアルゴリズムに頼ることなく、これを実現することだ。
合理化された設計にもかかわらず、$\times$Netはモノクロ深度推定やセマンティックセグメンテーションといったタスクにおける高度なメソッドよりも優れており、特にモノクロ深度推定における最先端のパフォーマンスを実現している。
セマンティックセグメンテーションは、特に単分子深度推定において、最先端の結果を達成する。
アルゴリズムを埋め込む
合理化された設計にもかかわらず、$\times$Netはモノクロ深度推定やセマンティックセグメンテーションといったタスクにおける高度なメソッドよりも優れており、特にモノクロ深度推定における最先端のパフォーマンスを実現している。
関連論文リスト
- Enhancing Hyperspectral Image Prediction with Contrastive Learning in Low-Label Regime [0.810304644344495]
自己教師付きコントラスト学習は、限られたラベル付きデータの課題に対処するための効果的なアプローチである。
単一ラベルと複数ラベルの分類タスクに対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-10-10T10:20:16Z) - CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。
我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文 参考訳(メタデータ) (2024-02-05T18:09:33Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - SemHint-MD: Learning from Noisy Semantic Labels for Self-Supervised
Monocular Depth Estimation [19.229255297016635]
自己教師付き深度推定は、光度損失の勾配-局所性の問題により、局所的に最小限に抑えられる。
セマンティックセグメンテーションを活用して、ネットワークを局所的な最小限から切り離すための奥行きを高めるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T17:20:27Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Learning Invariant World State Representations with Predictive Coding [1.8963850600275547]
我々は,新しい予測型コーディングベースアーキテクチャと,完全教師付き・自己教師型学習手法を開発した。
我々は,新しい合成データセットを用いて,モデルのロバスト性を評価する。
論文 参考訳(メタデータ) (2022-07-06T21:08:30Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。