Fugu-MT 論文翻訳(概要): Y-MAP-Net: Real-time depth, normals, segmentation, multi-label captioning and 2D human pose in RGB images

論文の概要: Y-MAP-Net: Real-time depth, normals, segmentation, multi-label captioning and 2D human pose in RGB images

arxiv url: http://arxiv.org/abs/2411.10334v1
Date: Fri, 15 Nov 2024 16:33:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.127551
Title: Y-MAP-Net: Real-time depth, normals, segmentation, multi-label captioning and 2D human pose in RGB images
Title（参考訳）: Y-MAP-Net:RGB画像におけるリアルタイム深度、正規度、セグメンテーション、マルチラベルキャプションおよび2次元人間のポーズ
Authors: Ammar Qammaz, Nikolaos Vasilikopoulos, Iason Oikonomidis, Antonis A. Argyros,
Abstract要約: 本稿では,RGB画像上でリアルタイムマルチタスク学習を実現するニューラルネットワークアーキテクチャY-MAP-Netを提案する。 Y-MAP-Netは、深さ、表面の正常、人間のポーズ、セマンティックセグメンテーションを同時に予測し、複数ラベルのキャプションを生成する。
参考スコア（独自算出の注目度）: 4.196630305444066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Y-MAP-Net, a Y-shaped neural network architecture designed for real-time multi-task learning on RGB images. Y-MAP-Net, simultaneously predicts depth, surface normals, human pose, semantic segmentation and generates multi-label captions, all from a single network evaluation. To achieve this, we adopt a multi-teacher, single-student training paradigm, where task-specific foundation models supervise the network's learning, enabling it to distill their capabilities into a lightweight architecture suitable for real-time applications. Y-MAP-Net, exhibits strong generalization, simplicity and computational efficiency, making it ideal for robotics and other practical scenarios. To support future research, we will release our code publicly.
Abstract（参考訳）: 本稿では,RGB画像上のリアルタイムマルチタスク学習のためのY字型ニューラルネットワークアーキテクチャY-MAP-Netを提案する。 Y-MAP-Netは、深度、表面の正常度、人間のポーズ、セマンティックセグメンテーションを同時に予測し、単一のネットワーク評価から複数のラベルのキャプションを生成する。これを実現するために、タスク固有の基礎モデルがネットワークの学習を監督し、リアルタイムアプリケーションに適した軽量なアーキテクチャにその能力を蒸留する、マルチ教師で単学生のトレーニングパラダイムを採用しました。 Y-MAP-Netは強力な一般化、単純さ、計算効率を示し、ロボット工学や他の実践シナリオに最適である。今後の研究をサポートするため、コードを公開します。

関連論文リスト

DeFM: Learning Foundation Representations from Depth for Robotics [49.77188649197404]
DeFMはロボットアプリケーションのための深度画像に基づいて訓練された自己教師型基礎モデルである。 DeFMは幾何学的および意味的な表現を学び、様々な環境、タスク、センサーに一般化する。最先端の性能を達成し、シミュレーションから実環境への強力な一般化を実証する。
論文参考訳（メタデータ） (2026-01-26T19:45:31Z)
GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding [31.01378033872341]
GeoGroundは、HBB、OBB、マスクRSビジュアルグラウンドタスクのサポートを統合する新しいフレームワークである。モデルトレーニングを支援するために,161kの画像テキストペアを含む大規模RS視覚指示追従データセットrefGeoを提案する。
論文参考訳（メタデータ） (2024-11-16T05:12:11Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-04T23:16:48Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。 2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文参考訳（メタデータ） (2023-06-28T22:36:44Z)
Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文参考訳（メタデータ） (2022-01-15T19:49:00Z)
Sparse Coding Driven Deep Decision Tree Ensembles for Nuclear Segmentation in Digital Pathology Images [15.236873250912062]
デジタル病理画像セグメンテーションタスクにおいて、ディープニューラルネットワークと高い競争力を持つ、容易に訓練されながら強力な表現学習手法を提案する。 ScD2TEと略すこの手法はスパースコーディング駆動の深層決定木アンサンブルと呼ばれ、表現学習の新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-13T02:59:31Z)
Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文参考訳（メタデータ） (2020-04-01T12:56:13Z)
CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。 PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2020-03-24T04:55:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。