論文の概要: 3D-Agent:Tri-Modal Multi-Agent Collaboration for Scalable 3D Object Annotation
- arxiv url: http://arxiv.org/abs/2601.04404v1
- Date: Wed, 07 Jan 2026 21:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.932222
- Title: 3D-Agent:Tri-Modal Multi-Agent Collaboration for Scalable 3D Object Annotation
- Title(参考訳): 3D-Agent:スケーラブルな3DオブジェクトアノテーションのためのTri-Modal Multi-Agentコラボレーション
- Authors: Jusheng Zhang, Yijia Fan, Zimo Wen, Jian Wang, Keze Wang,
- Abstract要約: 本稿では,Tri MARFを提案する。Tri MARFは2次元マルチビュー画像のテキスト記述や3次元ポイントクラウドを含む3次元インプットを統合し,大規模3次元アノテーションを向上するフレームワークである。
また,Tri MARFは,45点2,43点VLT Rを5点とし,NVIDIA A100 GPUの1時間あたり最大12,000オブジェクトのスループットを従来に比べて,88点7のCLIPScoreを実現する既存手法よりも大幅に優れていたことを示す。
- 参考スコア(独自算出の注目度): 11.619144203752763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by applications in autonomous driving robotics and augmented reality 3D object annotation presents challenges beyond 2D annotation including spatial complexity occlusion and viewpoint inconsistency Existing approaches based on single models often struggle to address these issues effectively We propose Tri MARF a novel framework that integrates tri modal inputs including 2D multi view images textual descriptions and 3D point clouds within a multi agent collaborative architecture to enhance large scale 3D annotation Tri MARF consists of three specialized agents a vision language model agent for generating multi view descriptions an information aggregation agent for selecting optimal descriptions and a gating agent that aligns textual semantics with 3D geometry for refined captioning Extensive experiments on Objaverse LVIS Objaverse XL and ABO demonstrate that Tri MARF substantially outperforms existing methods achieving a CLIPScore of 88 point 7 compared to prior state of the art methods retrieval accuracy of 45 point 2 and 43 point 8 on ViLT R at 5 and a throughput of up to 12000 objects per hour on a single NVIDIA A100 GPU
- Abstract(参考訳): 自律駆動ロボットと拡張現実(AR)の応用による3Dオブジェクトアノテーションの課題は,空間的複雑性の排除や視点の不整合性といった2次元アノテーションを越えるものであり,これらの問題に対処するのにしばしば苦労する単一モデルに基づくアプローチが存在する。Tri MARFを提案する。2Dマルチビューイメージを含む3次元インプットを統合する新しいフレームワークで,大規模な3Dアノテーションを実現するためのマルチエージェント協調アーキテクチャ内にテキスト記述と3Dポイントクラウドを統合する。Tri MARFは,多視点記述を生成する3つの専門エージェントからなる視覚言語モデルエージェントと,最適な記述を選択するための情報集約エージェントと,Objaverse LVIS Objaverse XLおよびABOによる拡張的な実験と整合するゲーティングエージェントからなる。
関連論文リスト
- TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding [15.86865606131156]
MVOV3Dはオープンな3Dシーン理解のための2次元多視点融合の可能性の解放を目的とした新しいアプローチである。
具体的には、MVOV3Dは、CLIPエンコーダでエンコードされた正確な領域レベルの画像特徴とテキスト特徴を活用することで、マルチビュー2D機能を改善する。
ScanNet200では14.7% mIoU,Matterport160では16.2% mIoU,オープン語彙セマンティックセマンティックセグメンテーションでは14.7% mIoUを達成した。
論文 参考訳(メタデータ) (2025-06-28T08:40:42Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。