論文の概要: Partially Supervised Multi-Task Network for Single-View Dietary
Assessment
- arxiv url: http://arxiv.org/abs/2008.00818v1
- Date: Wed, 15 Jul 2020 08:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:22:43.152578
- Title: Partially Supervised Multi-Task Network for Single-View Dietary
Assessment
- Title(参考訳): 単視点食事評価のための部分教師付きマルチタスクネットワーク
- Authors: Ya Lu and Thomai Stathopoulou and Stavroula Mougiakakou
- Abstract要約: 本研究では,1つの食品画像上で幾何学的理解(深度予測と3次元平面推定)と意味予測を共同で行うネットワークアーキテクチャを提案する。
ネットワークのトレーニングには,意味的接地真理を持つ単眼ビデオのみが必要であるが,深度マップと3次元平面的接地真理はもはや不要である。
2つの食品画像データベースの実験結果から,本手法がテクスチャレスのシナリオで頑健に動作することを示す。
- 参考スコア(独自算出の注目度): 1.8907108368038217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food volume estimation is an essential step in the pipeline of dietary
assessment and demands the precise depth estimation of the food surface and
table plane. Existing methods based on computer vision require either
multi-image input or additional depth maps, reducing convenience of
implementation and practical significance. Despite the recent advances in
unsupervised depth estimation from a single image, the achieved performance in
the case of large texture-less areas needs to be improved. In this paper, we
propose a network architecture that jointly performs geometric understanding
(i.e., depth prediction and 3D plane estimation) and semantic prediction on a
single food image, enabling a robust and accurate food volume estimation
regardless of the texture characteristics of the target plane. For the training
of the network, only monocular videos with semantic ground truth are required,
while the depth map and 3D plane ground truth are no longer needed.
Experimental results on two separate food image databases demonstrate that our
method performs robustly on texture-less scenarios and is superior to
unsupervised networks and structure from motion based approaches, while it
achieves comparable performance to fully-supervised methods.
- Abstract(参考訳): 食品量の推定は食事アセスメントのパイプラインにおいて不可欠なステップであり、食品表面とテーブル面の正確な深さ推定を要求する。
コンピュータビジョンに基づく既存の手法では、マルチイメージ入力または追加の深度マップが必要である。
単一画像からの教師なし深度推定の最近の進歩にもかかわらず、大きなテクスチャレス領域における達成された性能を改善する必要がある。
本稿では,1つの食品画像に対して幾何学的理解(奥行き予測と3次元平面推定)と意味的予測を共同で行うネットワークアーキテクチャを提案し,対象平面のテクスチャ特性によらず,ロバストで正確な食品容積推定を可能にする。
ネットワークのトレーニングには,意味的接地真理を持つ単眼ビデオのみが必要であるが,深度マップと3次元平面的接地真理はもはや不要である。
2つの食品画像データベースにおける実験結果から,本手法はテクスチャレスシナリオにおいてロバストに動作し,非教師付きネットワークやモーションベースアプローチによる構造よりも優れていることが示された。
関連論文リスト
- Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2022-05-18T08:01:38Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - DeepCap: Monocular Human Performance Capture Using Weak Supervision [106.50649929342576]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-03-18T16:39:56Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。