論文の概要: 3DFroMLLM: 3D Prototype Generation only from Pretrained Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2508.08821v1
- Date: Tue, 12 Aug 2025 10:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.386631
- Title: 3DFroMLLM: 3D Prototype Generation only from Pretrained Multimodal LLMs
- Title(参考訳): 3DFroMLLM: 事前学習型マルチモーダルLCMによる3次元プロトタイプ生成
- Authors: Noor Ahmed, Cameron Braunstein, Steffen Eger, Eddy Ilg,
- Abstract要約: 3DFroMLLMは、3DオブジェクトのプロトタイプをMLLMから直接生成できる新しいフレームワークである。
我々は,このフレームワークによって生成されたレンダリング画像が,画像分類事前学習タスクに効果的に利用できることを示した。
実世界の魅力的なユースケースとして、生成したプロトタイプを利用して視覚言語モデルを改善することができることを示す。
- 参考スコア(独自算出の注目度): 20.066858984253763
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent Multi-Modal Large Language Models (MLLMs) have demonstrated strong capabilities in learning joint representations from text and images. However, their spatial reasoning remains limited. We introduce 3DFroMLLM, a novel framework that enables the generation of 3D object prototypes directly from MLLMs, including geometry and part labels. Our pipeline is agentic, comprising a designer, coder, and visual inspector operating in a refinement loop. Notably, our approach requires no additional training data or detailed user instructions. Building on prior work in 2D generation, we demonstrate that rendered images produced by our framework can be effectively used for image classification pretraining tasks and outperforms previous methods by 15%. As a compelling real-world use case, we show that the generated prototypes can be leveraged to improve fine-grained vision-language models by using the rendered, part-labeled prototypes to fine-tune CLIP for part segmentation and achieving a 55% accuracy improvement without relying on any additional human-labeled data.
- Abstract(参考訳): 近年のMLLM(Multi-Modal Large Language Models)は,テキストや画像から共同表現を学習する上で,強力な能力を示している。
しかし、その空間的推論は依然として限られている。
3DFroMLLMは3次元オブジェクトのプロトタイプをMLLMから直接生成できる新しいフレームワークである。
私たちのパイプラインはエージェント的であり、デザイナ、コーダ、ビジュアルインスペクタで構成されています。
特に、私たちのアプローチでは、追加のトレーニングデータや詳細なユーザ指示は必要ありません。
2次元生成における先行作業に基づいて、我々のフレームワークが生成したレンダリング画像は、画像分類事前学習タスクに効果的に利用でき、従来の手法よりも15%向上することが実証された。
実世界の魅力的なユースケースとして、生成したプロトタイプは、レンダリングされた部分ラベル付きプロトタイプを使用して、部分セグメント化のためのCLIPを微調整し、追加の人ラベルデータに頼ることなく、55%の精度向上を実現することにより、微細な視覚言語モデルを改善することができることを示す。
関連論文リスト
- Dynamic Multimodal Prototype Learning in Vision-Language Models [44.84161970425967]
textbfProtoMMは、テスト期間中に視覚言語モデルに適応するためのマルチモーダルプロトタイプを構築する、トレーニング不要のフレームワークである。
プロトタイプをテキスト記述や視覚的粒子の離散分布と見なすことで、ProtoMMは総合的なプロトタイプ学習のためのマルチモーダルな特徴を組み合わせることができる。
論文 参考訳(メタデータ) (2025-07-04T15:31:47Z) - Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification [59.68055837500357]
本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。
Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。
Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
論文 参考訳(メタデータ) (2025-05-23T09:31:02Z) - CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning [43.7594705101778]
CLAPと呼ばれる画像と点雲の教師なし微分レンダリングに基づく事前学習手法を提案する。
本手法は、事前学習のためのより情報性の高い点/画素を選択するために、曲率サンプリングによる計算ハードルを克服する。
CLAPは従来のSOTA事前学習法と比較して最大100%性能向上を達成した。
論文 参考訳(メタデータ) (2024-12-04T06:26:12Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - 3D-PreMise: Can Large Language Models Generate 3D Shapes with Sharp
Features and Parametric Control? [8.893200442359518]
本稿では,大規模言語モデルを用いてテキスト駆動型3次元形状を生成するフレームワークを提案する。
産業形状の3次元パラメトリックモデリングに適したデータセットである3D-PreMiseを提案する。
論文 参考訳(メタデータ) (2024-01-12T08:07:52Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Learning Generative Models of Textured 3D Meshes from Real-World Images [26.353307246909417]
このようなアノテーションを使わずに,テクスチャ付きトライアングルメッシュを生成するganフレームワークを提案する。
我々のアプローチのパフォーマンスは、基礎となるキーポイントに依存する以前の作業と同等であることを示します。
論文 参考訳(メタデータ) (2021-03-29T14:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。