論文の概要: LISA-3D: Lifting Language-Image Segmentation to 3D via Multi-View Consistency
- arxiv url: http://arxiv.org/abs/2512.01008v1
- Date: Sun, 30 Nov 2025 18:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.536304
- Title: LISA-3D: Lifting Language-Image Segmentation to 3D via Multi-View Consistency
- Title(参考訳): LISA-3D:マルチビュー一貫性による言語画像の3D化
- Authors: Zhongbin Guo, Jiahe Liu, Wenyu Gao, Yushan Li, Chengzhi Li, Ping Jian,
- Abstract要約: テキスト駆動の3D再構成では、オープン語彙の指示を理解するマスクジェネレータが要求される。
命令追従モデルLISAを幾何学的に認識した低ランク適応層に再適合させ,凍ったSAM-3DReferorを再利用することにより,言語画像のセグメンテーションを3Dに上げる2段階のフレームワークであるLISA-3Dを提案する。
このシステムはモジュラーでデータ効率が高く、目に見えないカテゴリのゼロショット展開をサポートし、3Dコンテンツ作成のための実用的なレシピを提供する。
- 参考スコア(独自算出の注目度): 7.123228232500669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven 3D reconstruction demands a mask generator that simultaneously understands open-vocabulary instructions and remains consistent across viewpoints. We present LISA-3D, a two-stage framework that lifts language-image segmentation into 3D by retrofitting the instruction-following model LISA with geometry-aware Low-Rank Adaptation (LoRA) layers and reusing a frozen SAM-3D reconstructor. During training we exploit off-the-shelf RGB-D sequences and their camera poses to build a differentiable reprojection loss that enforces cross-view agreement without requiring any additional 3D-text supervision. The resulting masks are concatenated with RGB images to form RGBA prompts for SAM-3D, which outputs Gaussian splats or textured meshes without retraining. Across ScanRefer and Nr3D, LISA-3D improves language-to-3D accuracy by up to +15.6 points over single-view baselines while adapting only 11.6M parameters. The system is modular, data-efficient, and supports zero-shot deployment on unseen categories, providing a practical recipe for language-guided 3D content creation. Our code will be available at https://github.com/binisalegend/LISA-3D.
- Abstract(参考訳): テキスト駆動型3D再構成では、オープン語彙命令を同時に理解し、視点間で一貫性を保つマスクジェネレータが要求される。
命令追従モデルLISAをローランド適応(LoRA)層で再構成し,凍ったSAM-3D再構成器を再利用することにより,言語画像分割を3Dに変換する2段階のフレームワークであるLISA-3Dを提案する。
トレーニング中は、既製のRGB-Dシーケンスを利用し、カメラは、追加の3Dテキストの監視を必要とせずに、クロスビューの合意を強制する、差別化可能な再投影損失を構築する。
得られたマスクはRGBイメージと結合してSAM-3DのRGBAプロンプトを形成し、ガウススプレートやテクスチャメッシュを再トレーニングせずに出力する。
ScanRefer と Nr3D 全体では、LISA-3D は 11.6M のパラメータのみを適応しながら、単一ビューのベースライン上で最大 +15.6 ポイントまで言語から 3D の精度を向上させる。
このシステムはモジュラーでデータ効率が高く、目に見えないカテゴリのゼロショット展開をサポートし、3Dコンテンツ作成のための実用的なレシピを提供する。
私たちのコードはhttps://github.com/binisalegend/LISA-3Dで公開されます。
関連論文リスト
- SplatTalk: 3D VQA with Gaussian Splatting [13.211810095081159]
言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。
SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文 参考訳(メタデータ) (2025-03-08T16:31:48Z) - UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting [68.37013525040891]
マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。
より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-25T05:10:22Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model [34.245635412589806]
MeshFormerはスパースビューリコンストラクションモデルで、3Dネイティブ構造、入力ガイダンス、トレーニングインスペクションを明示的に活用する。
2次元拡散モデルと統合することで、高速な単一像から3次元およびテキストから3次元のタスクを可能にする。
論文 参考訳(メタデータ) (2024-08-19T17:55:17Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - A Unified Framework for 3D Point Cloud Visual Grounding [60.75319271082741]
本稿では,3DREC と 3DRES を 3DRefTR という統合フレームワークに統合する取り組みについて述べる。
その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。
この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
論文 参考訳(メタデータ) (2023-08-23T03:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。