論文の概要: DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction
- arxiv url: http://arxiv.org/abs/2303.01573v1
- Date: Thu, 2 Mar 2023 20:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:55:32.488955
- Title: DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction
- Title(参考訳): DejaVu: ディエンス予測を促進する条件付き再生学習
- Authors: Shubhankar Borse, Debasmit Das, Hyojin Park, Hong Cai, Risheek
Garrepalli, Fatih Porikli
- Abstract要約: 我々は,高密度予測タスクの深部ネットワーク改善のために,条件付き画像再生をトレーニング中に追加の監督として利用する。
DejaVuは、高密度予測ネットワークに注目ベースの再生モジュールを組み込むように拡張することができる。
- 参考スコア(独自算出の注目度): 45.89461725594674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DejaVu, a novel framework which leverages conditional image
regeneration as additional supervision during training to improve deep networks
for dense prediction tasks such as segmentation, depth estimation, and surface
normal prediction. First, we apply redaction to the input image, which removes
certain structural information by sparse sampling or selective frequency
removal. Next, we use a conditional regenerator, which takes the redacted image
and the dense predictions as inputs, and reconstructs the original image by
filling in the missing structural information. In the redacted image,
structural attributes like boundaries are broken while semantic context is
largely preserved. In order to make the regeneration feasible, the conditional
generator will then require the structure information from the other input
source, i.e., the dense predictions. As such, by including this conditional
regeneration objective during training, DejaVu encourages the base network to
learn to embed accurate scene structure in its dense prediction. This leads to
more accurate predictions with clearer boundaries and better spatial
consistency. When it is feasible to leverage additional computation, DejaVu can
be extended to incorporate an attention-based regeneration module within the
dense prediction network, which further improves accuracy. Through extensive
experiments on multiple dense prediction benchmarks such as Cityscapes, COCO,
ADE20K, NYUD-v2, and KITTI, we demonstrate the efficacy of employing DejaVu
during training, as it outperforms SOTA methods at no added computation cost.
- Abstract(参考訳): DejaVuは、条件付き画像再生をトレーニング中に追加の監視として活用し、セグメンテーション、深度推定、表面正規予測などの密集予測タスクのためのディープネットワークを改善する新しいフレームワークである。
まず,入力画像に冗長性を適用し,サンプリングや選択的周波数除去によって特定の構造情報を除去した。
次に,再現された画像と高密度予測を入力とし,欠落した構造情報を埋めて元の画像を再構成する条件付再生器を用いる。
修正画像では、境界のような構造的属性が壊れ、セマンティックコンテキストは大部分が保存される。
再生を可能にするために、条件生成器は他の入力源、すなわち密度の高い予測からの構造情報を必要とする。
このように、トレーニング中にこの条件付き再生目標を含めることで、DejaVuはその密集した予測に正確なシーン構造を埋め込むことを学ぶことを促す。
これにより、より明確な境界とより良い空間整合性を持つより正確な予測が導かれる。
追加計算を活用可能であれば、集中予測ネットワークに注意に基づく再生モジュールを組み込むように拡張して、精度をさらに向上させることができる。
Cityscapes、COCO、ADE20K、NYUD-v2、KITTIといった複数の密集予測ベンチマークに関する広範な実験を通じて、トレーニング中にDejaVuを用いることの有効性を実証する。
関連論文リスト
- Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - Predicting Temporal Aspects of Movement for Predictive Replication in
Fog Environments [0.0]
ブラインドまたはリアクティブデータは、フォグコンピューティングのポテンシャルを利用するには不十分である。
時間的予測のためのHolt-Winterの指数平滑化を用いた新しいモデルを提案する。
実際のユーザトラジェクトリによるフォグネットワークシミュレーションでは,データ利用率を1%に抑えながら,余剰データの15%削減を実現している。
論文 参考訳(メタデータ) (2023-06-01T11:45:13Z) - Understanding Reconstruction Attacks with the Neural Tangent Kernel and
Dataset Distillation [110.61853418925219]
我々は、データセット再構築攻撃のより強力なバージョンを構築し、無限の幅で設定されたエンペントリアルトレーニングを確実に回復する方法を示す。
理論的にも経験的にも再構成された画像は、データセットの「外部」に傾向を示す。
これらのリコンストラクション攻撃は, テクストデータセット蒸留において, 再構成画像上で再トレーニングを行い, 高い予測精度を得ることができる。
論文 参考訳(メタデータ) (2023-02-02T21:41:59Z) - Revealing Disocclusions in Temporal View Synthesis through Infilling
Vector Prediction [6.51882364384472]
合成ビューにおいて非排除領域を指差して, 埋め込みベクトルのアイデアを考察する。
カメラの動きによって生じる非閉塞性の構造を生かし, 2つの重要な手がかり, 浸透方向と深さの時間的相関に頼っている。
論文 参考訳(メタデータ) (2021-10-17T12:11:34Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Set Prediction without Imposing Structure as Conditional Density
Estimation [40.86881969839325]
本研究では,学習を条件密度推定として見ることにより,設定損失による学習の代替を提案する。
本フレームワークは, 深部エネルギーモデルに適合し, 勾配誘導サンプリングによる難易度を近似する。
我々のアプローチは、標準ベンチマークの以前のセット予測モデルと競合する。
論文 参考訳(メタデータ) (2020-10-08T16:49:16Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - MANTRA: Memory Augmented Networks for Multiple Trajectory Prediction [26.151761714896118]
メモリ拡張ニューラルネットワークを用いたマルチモーダル軌道予測の問題に対処する。
提案手法は、繰り返しニューラルネットワークを用いて過去と将来の軌道埋め込みを学習し、関連性のある外部メモリを活用して、そのような埋め込みを保存・取得する。
次に、観測過去の条件付きメモリ内未来の符号化を復号して軌道予測を行う。
論文 参考訳(メタデータ) (2020-06-05T09:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。