Fugu-MT 論文翻訳(概要): ZeroKey: Point-Level Reasoning and Zero-Shot 3D Keypoint Detection from Large Language Models

論文の概要: ZeroKey: Point-Level Reasoning and Zero-Shot 3D Keypoint Detection from Large Language Models

arxiv url: http://arxiv.org/abs/2412.06292v1
Date: Mon, 09 Dec 2024 08:31:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.281659
Title: ZeroKey: Point-Level Reasoning and Zero-Shot 3D Keypoint Detection from Large Language Models
Title（参考訳）: ZeroKey:大規模言語モデルからのポイントレベル推論とゼロショット3Dキーポイント検出
Authors: Bingchen Gong, Diego Gomez, Abdullah Hamdi, Abdelrahman Eldesokey, Ahmed Abdelreheem, Peter Wonka, Maks Ovsjanikov,
Abstract要約: 3次元形状のキーポイント検出のための新しいゼロショット手法を提案する。提案手法は,マルチモーダル大規模言語モデルに埋め込まれた豊富な知識を利用する。
参考スコア（独自算出の注目度）: 57.57832348655715
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel zero-shot approach for keypoint detection on 3D shapes. Point-level reasoning on visual data is challenging as it requires precise localization capability, posing problems even for powerful models like DINO or CLIP. Traditional methods for 3D keypoint detection rely heavily on annotated 3D datasets and extensive supervised training, limiting their scalability and applicability to new categories or domains. In contrast, our method utilizes the rich knowledge embedded within Multi-Modal Large Language Models (MLLMs). Specifically, we demonstrate, for the first time, that pixel-level annotations used to train recent MLLMs can be exploited for both extracting and naming salient keypoints on 3D models without any ground truth labels or supervision. Experimental evaluations demonstrate that our approach achieves competitive performance on standard benchmarks compared to supervised methods, despite not requiring any 3D keypoint annotations during training. Our results highlight the potential of integrating language models for localized 3D shape understanding. This work opens new avenues for cross-modal learning and underscores the effectiveness of MLLMs in contributing to 3D computer vision challenges.
Abstract（参考訳）: 3次元形状のキーポイント検出のための新しいゼロショット手法を提案する。ビジュアルデータに対するポイントレベルの推論は、正確なローカライズ機能を必要とするため、DINOやCLIPのような強力なモデルでも問題が発生するため、難しい。従来の3Dキーポイント検出の方法は、注釈付き3Dデータセットと広範囲の教師付きトレーニングに大きく依存しており、新しいカテゴリやドメインへのスケーラビリティと適用性を制限している。対照的に,本手法はマルチモーダル大言語モデル(MLLM)に埋め込まれた豊富な知識を利用する。具体的には,最近のMLLMのトレーニングに使用されるピクセルレベルのアノテーションを,基礎的な真理ラベルや監督を伴わない3Dモデル上での有意義なキーポイントの抽出と命名に活用できることを実証する。実験により,トレーニング中に3次元キーポイントアノテーションを必要とせず,教師付き手法と比較して,標準ベンチマークの競合性能が向上することが確認された。この結果は,局所的な3次元形状理解のための言語モデルの統合の可能性を強調した。この研究は、クロスモーダル学習のための新たな道を開き、3Dコンピュータビジョンの課題に貢献する上でのMLLMの有効性を裏付けるものである。

関連論文リスト

Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文参考訳（メタデータ） (2025-03-29T09:34:16Z)
DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文参考訳（メタデータ） (2025-03-26T04:23:53Z)
CL3DOR: Contrastive Learning for 3D Large Multimodal Models via Odds Ratio on High-Resolution Point Clouds [1.9643285694999641]
高解点雲上でのOdds比による3次元大規模マルチモーダルモデルのコントラスト学習を提案する。 CL3DORは3Dシーン理解と推論のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-01-07T15:42:32Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文参考訳（メタデータ） (2024-07-07T04:50:04Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding [46.253711788685536]
複数の2次元基礎モデルから派生した3次元視覚言語対を融合する3次元認識型SFusion戦略を導入する。我々は、堅牢で効果的な3D学習を実現するために、地域対応のポイント識別型コントラスト学習目標を考案する。我々のモデルは、セマンティックスとインスタンスセグメンテーションにおいて、平均17.2%と9.1%の3Dオープンワールドシーン理解アプローチよりも優れている。
論文参考訳（メタデータ） (2023-04-03T13:30:04Z)
Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文参考訳（メタデータ） (2022-09-29T11:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。