論文の概要: DiverseNet: When One Right Answer is not Enough
- arxiv url: http://arxiv.org/abs/2008.10634v1
- Date: Mon, 24 Aug 2020 18:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 12:17:50.672878
- Title: DiverseNet: When One Right Answer is not Enough
- Title(参考訳): DiverseNet: 片方の右答えが不十分な場合
- Authors: Michael Firman, Neill D. F. Campbell, Lourdes Agapito, Gabriel J.
Brostow
- Abstract要約: テスト時間クエリ毎に多様な構造化された予測を可能にするニューラルネットワークのトレーニング方法を提案する。
提案手法は,2次元画像補完,3次元ボリューム推定,フロー予測という3つの課題にまたがって定量的な改善をもたらす。
- 参考スコア(独自算出の注目度): 35.764028730120096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many structured prediction tasks in machine vision have a collection of
acceptable answers, instead of one definitive ground truth answer. Segmentation
of images, for example, is subject to human labeling bias. Similarly, there are
multiple possible pixel values that could plausibly complete occluded image
regions. State-of-the art supervised learning methods are typically optimized
to make a single test-time prediction for each query, failing to find other
modes in the output space. Existing methods that allow for sampling often
sacrifice speed or accuracy.
We introduce a simple method for training a neural network, which enables
diverse structured predictions to be made for each test-time query. For a
single input, we learn to predict a range of possible answers. We compare
favorably to methods that seek diversity through an ensemble of networks. Such
stochastic multiple choice learning faces mode collapse, where one or more
ensemble members fail to receive any training signal. Our best performing
solution can be deployed for various tasks, and just involves small
modifications to the existing single-mode architecture, loss function, and
training regime. We demonstrate that our method results in quantitative
improvements across three challenging tasks: 2D image completion, 3D volume
estimation, and flow prediction.
- Abstract(参考訳): マシンビジョンにおける多くの構造化予測タスクは、決定的な真理の答えではなく、受け入れられる答えの集合を持っている。
例えば、画像のセグメンテーションは人間のラベル付けバイアスの対象となる。
同様に、複数の可能なピクセル値があり、隠蔽画像領域を確実に完成させることができる。
最先端の教師付き学習手法は通常、クエリ毎に単一のテスト時間予測をするように最適化され、出力空間に他のモードが見つからない。
サンプリングを可能にする既存の方法は、しばしば速度や精度を犠牲にする。
本稿では,テスト時クエリ毎に多様な構造化予測を行うニューラルネットワークの学習手法を提案する。
一つの入力に対して、可能な答えの範囲を予測することを学ぶ。
ネットワークのアンサンブルを通じて多様性を求める手法と比較した。
このような確率的多重選択学習は、1つ以上のアンサンブルメンバーがトレーニング信号を受信できないモード崩壊に直面している。
私たちの最高のパフォーマンスソリューションは、さまざまなタスクにデプロイでき、既存のシングルモードアーキテクチャ、損失関数、トレーニングレジームに小さな変更を伴います。
提案手法は,2次元画像補完,3次元ボリューム推定,フロー予測という3つの課題において定量的に改善できることを示す。
関連論文リスト
- Diverse Shape Completion via Style Modulated Generative Adversarial
Networks [0.0]
形状完了は、部分的な観察から物体の完全な3次元形状を復元することを目的としている。
この問題は本質的にマルチモーダルであり、形状の欠落した領域を確実に完備化する方法が多数存在する。
本稿では,部分観測点雲の多種多様な完備化を実現できる条件生成対向ネットワークを提案する。
論文 参考訳(メタデータ) (2023-11-18T23:40:20Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Zero-Episode Few-Shot Contrastive Predictive Coding: Solving
intelligence tests without prior training [0.0]
我々は、予測潜在変数を見つけ、それを用いて将来の画像の一貫性を評価することは、データ効率の予測を可能にすると論じている。
1次元のマルコフコントラスト予測符号化モデルがシーケンス完了インテリジェンステストを効率よく解くことを示す。
論文 参考訳(メタデータ) (2022-05-04T07:46:03Z) - Enhanced Performance of Pre-Trained Networks by Matched Augmentation
Distributions [10.74023489125222]
列車-テストの分散シフトに対処するための簡単な解を提案する。
テスト画像に対して、複数のランダムな作物に対して結果を合成する。
これは列車の時間拡張と一致するだけでなく、入力画像の完全なカバレッジも提供する。
論文 参考訳(メタデータ) (2022-01-19T22:33:00Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。
メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。
この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-30T09:33:38Z) - An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human
Pose Estimation [80.02124918255059]
半教師付き学習は、ラベルなし画像の探索によってモデルの精度を高めることを目的としている。
私たちは相互に教え合うために2つのネットワークを学びます。
各ネットワーク内の容易なイメージに関するより信頼性の高い予測は、他のネットワークに対応するハードイメージについて学ぶように教えるために使用される。
論文 参考訳(メタデータ) (2020-11-25T03:29:52Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Diverse Plausible Shape Completions from Ambiguous Depth Images [7.652701739127332]
PSSNetは1枚の2.5D深度画像から可塑性3D再構成を生成するネットワークアーキテクチャである。
本研究では,Shapenetのマグカップと部分的に隠されたYCBオブジェクトを用いて実験を行い,あいまいさの少ないデータセットで比較可能であることを確認した。
論文 参考訳(メタデータ) (2020-11-18T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。