論文の概要: 3D-Agent:Tri-Modal Multi-Agent Collaboration for Scalable 3D Object Annotation
- arxiv url: http://arxiv.org/abs/2601.04404v1
- Date: Wed, 07 Jan 2026 21:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.932222
- Title: 3D-Agent:Tri-Modal Multi-Agent Collaboration for Scalable 3D Object Annotation
- Title(参考訳): 3D-Agent:スケーラブルな3DオブジェクトアノテーションのためのTri-Modal Multi-Agentコラボレーション
- Authors: Jusheng Zhang, Yijia Fan, Zimo Wen, Jian Wang, Keze Wang,
- Abstract要約: 本稿では,Tri MARFを提案する。Tri MARFは2次元マルチビュー画像のテキスト記述や3次元ポイントクラウドを含む3次元インプットを統合し,大規模3次元アノテーションを向上するフレームワークである。
また,Tri MARFは,45点2,43点VLT Rを5点とし,NVIDIA A100 GPUの1時間あたり最大12,000オブジェクトのスループットを従来に比べて,88点7のCLIPScoreを実現する既存手法よりも大幅に優れていたことを示す。
- 参考スコア(独自算出の注目度): 11.619144203752763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by applications in autonomous driving robotics and augmented reality 3D object annotation presents challenges beyond 2D annotation including spatial complexity occlusion and viewpoint inconsistency Existing approaches based on single models often struggle to address these issues effectively We propose Tri MARF a novel framework that integrates tri modal inputs including 2D multi view images textual descriptions and 3D point clouds within a multi agent collaborative architecture to enhance large scale 3D annotation Tri MARF consists of three specialized agents a vision language model agent for generating multi view descriptions an information aggregation agent for selecting optimal descriptions and a gating agent that aligns textual semantics with 3D geometry for refined captioning Extensive experiments on Objaverse LVIS Objaverse XL and ABO demonstrate that Tri MARF substantially outperforms existing methods achieving a CLIPScore of 88 point 7 compared to prior state of the art methods retrieval accuracy of 45 point 2 and 43 point 8 on ViLT R at 5 and a throughput of up to 12000 objects per hour on a single NVIDIA A100 GPU
- Abstract(参考訳): 自律駆動ロボットと拡張現実(AR)の応用による3Dオブジェクトアノテーションの課題は,空間的複雑性の排除や視点の不整合性といった2次元アノテーションを越えるものであり,これらの問題に対処するのにしばしば苦労する単一モデルに基づくアプローチが存在する。Tri MARFを提案する。2Dマルチビューイメージを含む3次元インプットを統合する新しいフレームワークで,大規模な3Dアノテーションを実現するためのマルチエージェント協調アーキテクチャ内にテキスト記述と3Dポイントクラウドを統合する。Tri MARFは,多視点記述を生成する3つの専門エージェントからなる視覚言語モデルエージェントと,最適な記述を選択するための情報集約エージェントと,Objaverse LVIS Objaverse XLおよびABOによる拡張的な実験と整合するゲーティングエージェントからなる。
関連論文リスト
- Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding [15.86865606131156]
MVOV3Dはオープンな3Dシーン理解のための2次元多視点融合の可能性の解放を目的とした新しいアプローチである。
具体的には、MVOV3Dは、CLIPエンコーダでエンコードされた正確な領域レベルの画像特徴とテキスト特徴を活用することで、マルチビュー2D機能を改善する。
ScanNet200では14.7% mIoU,Matterport160では16.2% mIoU,オープン語彙セマンティックセマンティックセグメンテーションでは14.7% mIoUを達成した。
論文 参考訳(メタデータ) (2025-06-28T08:40:42Z) - Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction [4.820576346277399]
クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。
マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。
本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-02T08:29:42Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。