論文の概要: DiverseNet: When One Right Answer is not Enough
- arxiv url: http://arxiv.org/abs/2008.10634v1
- Date: Mon, 24 Aug 2020 18:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 12:17:50.672878
- Title: DiverseNet: When One Right Answer is not Enough
- Title(参考訳): DiverseNet: 片方の右答えが不十分な場合
- Authors: Michael Firman, Neill D. F. Campbell, Lourdes Agapito, Gabriel J.
Brostow
- Abstract要約: テスト時間クエリ毎に多様な構造化された予測を可能にするニューラルネットワークのトレーニング方法を提案する。
提案手法は,2次元画像補完,3次元ボリューム推定,フロー予測という3つの課題にまたがって定量的な改善をもたらす。
- 参考スコア(独自算出の注目度): 35.764028730120096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many structured prediction tasks in machine vision have a collection of
acceptable answers, instead of one definitive ground truth answer. Segmentation
of images, for example, is subject to human labeling bias. Similarly, there are
multiple possible pixel values that could plausibly complete occluded image
regions. State-of-the art supervised learning methods are typically optimized
to make a single test-time prediction for each query, failing to find other
modes in the output space. Existing methods that allow for sampling often
sacrifice speed or accuracy.
We introduce a simple method for training a neural network, which enables
diverse structured predictions to be made for each test-time query. For a
single input, we learn to predict a range of possible answers. We compare
favorably to methods that seek diversity through an ensemble of networks. Such
stochastic multiple choice learning faces mode collapse, where one or more
ensemble members fail to receive any training signal. Our best performing
solution can be deployed for various tasks, and just involves small
modifications to the existing single-mode architecture, loss function, and
training regime. We demonstrate that our method results in quantitative
improvements across three challenging tasks: 2D image completion, 3D volume
estimation, and flow prediction.
- Abstract(参考訳): マシンビジョンにおける多くの構造化予測タスクは、決定的な真理の答えではなく、受け入れられる答えの集合を持っている。
例えば、画像のセグメンテーションは人間のラベル付けバイアスの対象となる。
同様に、複数の可能なピクセル値があり、隠蔽画像領域を確実に完成させることができる。
最先端の教師付き学習手法は通常、クエリ毎に単一のテスト時間予測をするように最適化され、出力空間に他のモードが見つからない。
サンプリングを可能にする既存の方法は、しばしば速度や精度を犠牲にする。
本稿では,テスト時クエリ毎に多様な構造化予測を行うニューラルネットワークの学習手法を提案する。
一つの入力に対して、可能な答えの範囲を予測することを学ぶ。
ネットワークのアンサンブルを通じて多様性を求める手法と比較した。
このような確率的多重選択学習は、1つ以上のアンサンブルメンバーがトレーニング信号を受信できないモード崩壊に直面している。
私たちの最高のパフォーマンスソリューションは、さまざまなタスクにデプロイでき、既存のシングルモードアーキテクチャ、損失関数、トレーニングレジームに小さな変更を伴います。
提案手法は,2次元画像補完,3次元ボリューム推定,フロー予測という3つの課題において定量的に改善できることを示す。
関連論文リスト
- Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - Customize Your Own Paired Data via Few-shot Way [14.193031218059646]
いくつかの教師付き手法は膨大な量のペアトレーニングデータを必要とするため、使用量が大幅に制限される。
他の教師なしの手法は、大規模な事前訓練された事前訓練を最大限に活用するため、事前訓練されたドメインに制限され、アウト・オブ・ディストリビューションのケースでひどく振る舞う。
提案フレームワークでは,サンプル間の方向変換に基づく新たな数ショット学習機構を導入し,学習可能な空間を指数関数的に拡張する。
論文 参考訳(メタデータ) (2024-05-21T04:21:35Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Enhanced Performance of Pre-Trained Networks by Matched Augmentation
Distributions [10.74023489125222]
列車-テストの分散シフトに対処するための簡単な解を提案する。
テスト画像に対して、複数のランダムな作物に対して結果を合成する。
これは列車の時間拡張と一致するだけでなく、入力画像の完全なカバレッジも提供する。
論文 参考訳(メタデータ) (2022-01-19T22:33:00Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。
メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。
この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-30T09:33:38Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。