Fugu-MT 論文翻訳(概要): EFM3D: A Benchmark for Measuring Progress Towards 3D Egocentric Foundation Models

論文の概要: EFM3D: A Benchmark for Measuring Progress Towards 3D Egocentric Foundation Models

arxiv url: http://arxiv.org/abs/2406.10224v1
Date: Fri, 14 Jun 2024 17:57:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 12:27:23.238909
Title: EFM3D: A Benchmark for Measuring Progress Towards 3D Egocentric Foundation Models
Title（参考訳）: EFM3D:3Dエゴセントリックファンデーションモデルに向けた進捗測定ベンチマーク
Authors: Julian Straub, Daniel DeTone, Tianwei Shen, Nan Yang, Chris Sweeney, Richard Newcombe,
Abstract要約: EFM3Dは、Project Ariaのアノテートされたエゴセントリックなデータに対する3Dオブジェクトの検出と表面回帰のベンチマークである。 EFM3Dは、Project Ariaの注釈付きエゴセントリックデータの3Dオブジェクト検出と表面回帰のための最初のベンチマークである。本稿では,3次元EMFのベースラインであるEgocentric Voxel Lifting (EVL)を提案する。
参考スコア（独自算出の注目度）: 19.082022240021868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of wearable computers enables a new source of context for AI that is embedded in egocentric sensor data. This new egocentric data comes equipped with fine-grained 3D location information and thus presents the opportunity for a novel class of spatial foundation models that are rooted in 3D space. To measure progress on what we term Egocentric Foundation Models (EFMs) we establish EFM3D, a benchmark with two core 3D egocentric perception tasks. EFM3D is the first benchmark for 3D object detection and surface regression on high quality annotated egocentric data of Project Aria. We propose Egocentric Voxel Lifting (EVL), a baseline for 3D EFMs. EVL leverages all available egocentric modalities and inherits foundational capabilities from 2D foundation models. This model, trained on a large simulated dataset, outperforms existing methods on the EFM3D benchmark.
Abstract（参考訳）: ウェアラブルコンピュータの出現は、エゴセントリックなセンサーデータに埋め込まれたAIの新しいコンテキストソースを可能にする。この新しいエゴセントリックなデータは、きめ細かい3D位置情報を備えており、3D空間に根ざした新しい空間基盤モデルの機会を提供する。 Egocentric Foundation Models (EFMs) と呼ばれる2つのコア3Dの認識タスクを備えたベンチマークであるEMM3Dを確立する。 EFM3Dは、Project Ariaの高品質なアノテートされたエゴセントリックなデータに対する3Dオブジェクトの検出と表面回帰のための最初のベンチマークである。本稿では,3次元EMFのベースラインであるEgocentric Voxel Lifting (EVL)を提案する。 EVLは利用可能なすべてのエゴセントリックなモダリティを活用し、2Dファンデーションモデルから基礎的能力を継承する。大規模なシミュレーションデータセットに基づいてトレーニングされたこのモデルは、EMM3Dベンチマークで既存のメソッドよりも優れています。

関連論文リスト

E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。 GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文参考訳（メタデータ） (2025-06-02T17:53:09Z)
DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。 3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。 2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳（メタデータ） (2025-03-24T17:59:11Z)
Foundational Models for 3D Point Clouds: A Survey and Outlook [50.61473863985571]
3次元点雲の表現は、物理世界の幾何学的忠実性を維持する上で重要な役割を担っている。このギャップを埋めるためには、複数のモダリティを組み込む必要がある。ファンデーションモデル(FM)は、これらのモダリティをシームレスに統合し、推論することができる。
論文参考訳（メタデータ） (2025-01-30T18:59:43Z)
Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文参考訳（メタデータ） (2024-10-07T04:12:23Z)
Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文参考訳（メタデータ） (2024-07-10T10:44:18Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文参考訳（メタデータ） (2024-04-15T03:12:12Z)
3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-03-14T17:58:41Z)
Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文参考訳（メタデータ） (2024-02-05T12:50:30Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文参考訳（メタデータ） (2023-07-17T04:55:02Z)
UnrealEgo: A New Dataset for Robust Egocentric 3D Human Motion Capture [70.59984501516084]
UnrealEgoは、エゴセントリックな3Dポーズ推定のための、新しい大規模博物学データセットである。これは、2台の魚眼カメラを備えた高度な眼鏡のコンセプトに基づいており、制約のない環境で使用することができる。本稿では,ステレオ入力のための2次元キーポイント推定モジュールを考案し,人間のポーズ推定を改善するための簡易かつ効果的なベンチマーク手法を提案する。
論文参考訳（メタデータ） (2022-08-02T17:59:54Z)
Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文参考訳（メタデータ） (2020-04-07T20:21:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。