Fugu-MT 論文翻訳(概要): DiverseNet: When One Right Answer is not Enough

論文の概要: DiverseNet: When One Right Answer is not Enough

arxiv url: http://arxiv.org/abs/2008.10634v1
Date: Mon, 24 Aug 2020 18:12:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 12:17:50.672878
Title: DiverseNet: When One Right Answer is not Enough
Title（参考訳）: DiverseNet: 片方の右答えが不十分な場合
Authors: Michael Firman, Neill D. F. Campbell, Lourdes Agapito, Gabriel J. Brostow
Abstract要約: テスト時間クエリ毎に多様な構造化された予測を可能にするニューラルネットワークのトレーニング方法を提案する。提案手法は,2次元画像補完,3次元ボリューム推定,フロー予測という3つの課題にまたがって定量的な改善をもたらす。
参考スコア（独自算出の注目度）: 35.764028730120096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many structured prediction tasks in machine vision have a collection of acceptable answers, instead of one definitive ground truth answer. Segmentation of images, for example, is subject to human labeling bias. Similarly, there are multiple possible pixel values that could plausibly complete occluded image regions. State-of-the art supervised learning methods are typically optimized to make a single test-time prediction for each query, failing to find other modes in the output space. Existing methods that allow for sampling often sacrifice speed or accuracy. We introduce a simple method for training a neural network, which enables diverse structured predictions to be made for each test-time query. For a single input, we learn to predict a range of possible answers. We compare favorably to methods that seek diversity through an ensemble of networks. Such stochastic multiple choice learning faces mode collapse, where one or more ensemble members fail to receive any training signal. Our best performing solution can be deployed for various tasks, and just involves small modifications to the existing single-mode architecture, loss function, and training regime. We demonstrate that our method results in quantitative improvements across three challenging tasks: 2D image completion, 3D volume estimation, and flow prediction.
Abstract（参考訳）: マシンビジョンにおける多くの構造化予測タスクは、決定的な真理の答えではなく、受け入れられる答えの集合を持っている。例えば、画像のセグメンテーションは人間のラベル付けバイアスの対象となる。同様に、複数の可能なピクセル値があり、隠蔽画像領域を確実に完成させることができる。最先端の教師付き学習手法は通常、クエリ毎に単一のテスト時間予測をするように最適化され、出力空間に他のモードが見つからない。サンプリングを可能にする既存の方法は、しばしば速度や精度を犠牲にする。本稿では,テスト時クエリ毎に多様な構造化予測を行うニューラルネットワークの学習手法を提案する。一つの入力に対して、可能な答えの範囲を予測することを学ぶ。ネットワークのアンサンブルを通じて多様性を求める手法と比較した。このような確率的多重選択学習は、1つ以上のアンサンブルメンバーがトレーニング信号を受信できないモード崩壊に直面している。私たちの最高のパフォーマンスソリューションは、さまざまなタスクにデプロイでき、既存のシングルモードアーキテクチャ、損失関数、トレーニングレジームに小さな変更を伴います。提案手法は,2次元画像補完,3次元ボリューム推定,フロー予測という3つの課題において定量的に改善できることを示す。

関連論文リスト

CondiMen: Conditional Multi-Person Mesh Recovery [0.0]
本研究ではコンディメン(CondiMen)を提案する。コンディメン(CondiMen)は、カメラへのポーズ、体形、内在性、距離に関する共同パラメトリック分布を出力する手法である。私たちのモデルは、最先端技術と同等以上のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-12-17T16:22:56Z)
Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。 ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文参考訳（メタデータ） (2024-12-07T11:19:32Z)
One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。 OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文参考訳（メタデータ） (2024-11-25T12:11:05Z)
SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。 RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文参考訳（メタデータ） (2024-11-21T10:37:54Z)
Customize Your Own Paired Data via Few-shot Way [14.193031218059646]
いくつかの教師付き手法は膨大な量のペアトレーニングデータを必要とするため、使用量が大幅に制限される。他の教師なしの手法は、大規模な事前訓練された事前訓練を最大限に活用するため、事前訓練されたドメインに制限され、アウト・オブ・ディストリビューションのケースでひどく振る舞う。提案フレームワークでは,サンプル間の方向変換に基づく新たな数ショット学習機構を導入し,学習可能な空間を指数関数的に拡張する。
論文参考訳（メタデータ） (2024-05-21T04:21:35Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Enhanced Performance of Pre-Trained Networks by Matched Augmentation Distributions [10.74023489125222]
列車-テストの分散シフトに対処するための簡単な解を提案する。テスト画像に対して、複数のランダムな作物に対して結果を合成する。これは列車の時間拡張と一致するだけでなく、入力画像の完全なカバレッジも提供する。
論文参考訳（メタデータ） (2022-01-19T22:33:00Z)
Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文参考訳（メタデータ） (2021-07-26T13:56:37Z)
Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文参考訳（メタデータ） (2021-04-07T17:58:22Z)
MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文参考訳（メタデータ） (2021-03-30T09:33:38Z)
Recurrent Multi-view Alignment Network for Unsupervised Surface Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文参考訳（メタデータ） (2020-11-24T14:22:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。