論文の概要: Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes
- arxiv url: http://arxiv.org/abs/2408.02275v1
- Date: Mon, 5 Aug 2024 07:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-06 14:16:18.651385
- Title: Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes
- Title(参考訳): Geometric Algebraによる大規模言語モデル:3D,インタラクティブ,制御可能なシーンにおける分離メッシュのインストラクションベース変換
- Authors: Dimitris Angelis, Prodromos Kolyvakis, Manos Kamarianakis, George Papagiannakis,
- Abstract要約: 本稿では,制御可能な3Dシーン編集に革命をもたらすために,Large Language Models (LLMs) とConformal Geometric Algebra (CGA) の統合を提案する。
CGAを頑健な形式言語として利用し,精度の高いオブジェクト再構成に必要な空間変換を正確にモデル化する。
- 参考スコア(独自算出の注目度): 0.14999444543328289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel integration of Large Language Models (LLMs) with Conformal Geometric Algebra (CGA) to revolutionize controllable 3D scene editing, particularly for object repositioning tasks, which traditionally requires intricate manual processes and specialized expertise. These conventional methods typically suffer from reliance on large training datasets or lack a formalized language for precise edits. Utilizing CGA as a robust formal language, our system, shenlong, precisely models spatial transformations necessary for accurate object repositioning. Leveraging the zero-shot learning capabilities of pre-trained LLMs, shenlong translates natural language instructions into CGA operations which are then applied to the scene, facilitating exact spatial transformations within 3D scenes without the need for specialized pre-training. Implemented in a realistic simulation environment, shenlong ensures compatibility with existing graphics pipelines. To accurately assess the impact of CGA, we benchmark against robust Euclidean Space baselines, evaluating both latency and accuracy. Comparative performance evaluations indicate that shenlong significantly reduces LLM response times by 16% and boosts success rates by 9.6% on average compared to the traditional methods. Notably, shenlong achieves a 100% perfect success rate in common practical queries, a benchmark where other systems fall short. These advancements underscore shenlong's potential to democratize 3D scene editing, enhancing accessibility and fostering innovation across sectors such as education, digital entertainment, and virtual reality.
- Abstract(参考訳): 本稿では,制御可能な3Dシーン編集,特に複雑な手作業や専門知識を必要とするオブジェクト配置タスクに革命をもたらすために,LLMとCGAを統合した新しい言語モデルを提案する。
これらの方法は通常、大規模なトレーニングデータセットに依存するか、あるいは正確な編集のための形式化された言語が欠如している。
CGAを頑健な形式言語として利用し、精度の高いオブジェクト再配置に必要な空間変換を正確にモデル化する。
事前に訓練されたLLMのゼロショット学習機能を活用して、シェンロングは自然言語命令をCGA操作に変換し、シーンに適用し、特別な事前学習を必要とせずに3Dシーン内で正確な空間変換を容易にする。
現実的なシミュレーション環境で実装されたShenlongは、既存のグラフィックスパイプラインとの互換性を保証する。
CGAの影響を正確に評価するために、我々はEuclidean Spaceベースラインに対してベンチマークを行い、レイテンシと精度の両方を評価した。
比較性能評価の結果、シェンロングはLSMの応答時間を16%減少させ、成功率を従来の方法と比較して平均9.6%向上させることが示された。
特に、Shenlongは、他のシステムが不足しているベンチマークである、一般的な実用的なクエリにおいて100%完璧な成功率を達成する。
これらの進歩は、シェンロングが3Dシーンの編集を民主化し、アクセシビリティを高め、教育、デジタルエンターテイメント、バーチャルリアリティーといった分野にまたがるイノベーションを促進する可能性を強調している。
関連論文リスト
- GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。
これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。
本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T16:46:59Z) - Efficient Prediction of Dense Visual Embeddings via Distillation and RGB-D Transformers [3.7046506702597988]
DVEFormerはRGB-D Transformerベースの効率的なアプローチであり、高密度テキスト整列型視覚埋め込みを予測する。
提案手法では,Alpha-CLIP の教師埋め込みを用いて,学生モデルの DVEFormer を微細なピクセル単位の埋め込み学習に活用する。
論文 参考訳(メタデータ) (2026-01-01T14:29:31Z) - Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - Gen-LangSplat: Generalized Language Gaussian Splatting with Pre-Trained Feature Compression [0.0]
我々は,シーンワイドオートエンコーダを汎用オートエンコーダに置き換えるGen-LangSplatを導入し,大規模ScanNetデータセット上で広範囲に事前トレーニングを行った。
このアーキテクチャシフトにより、シーン固有のトレーニングを必要とせずに、新しいシーンにまたがる言語機能に対して、固定的でコンパクトな潜在空間を使用できるようになる。
以上の結果から,新しい3次元シーンにおけるオープン語彙クエリを効率よく,かつ正確に支援できることが示唆された。
論文 参考訳(メタデータ) (2025-10-27T02:13:38Z) - Visual Odometry with Transformers [68.453547770334]
特徴抽出により単眼フレームのシーケンスを処理するビジュアル・オドメトリ・トランスフォーマ(VoT)を導入する。
従来の方法とは異なり、VoTは密度の高い幾何学を推定することなくカメラの動きを直接予測し、監視のためにカメラのポーズのみに依存する。
VoTは、より大きなデータセットで効果的にスケールし、より強力なトレーニング済みバックボーンの恩恵を受け、多様なカメラモーションとキャリブレーション設定を一般化し、従来のメソッドよりも3倍以上高速に動作しながらパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-10-02T17:00:14Z) - SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model [45.648346391757336]
SceneLCMは、レイアウト設計のためにLarge Language Model(LLM)をシーン最適化のためにLatent Consistency Model(LCM)と同期するエンドツーエンドフレームワークである。
SceneLCMは物理シミュレーションを統合することで物理的な編集をサポートし、永続的な物理リアリズムを実現した。
論文 参考訳(メタデータ) (2025-06-08T11:30:31Z) - Creating Your Editable 3D Photorealistic Avatar with Tetrahedron-constrained Gaussian Splatting [17.908135908777325]
編集過程を局所的な空間適応と現実的な外観学習に分離する枠組みを導入する。
このフレームワークは、四面体格子の制御可能な明示的構造と3次元ガウス格子の高精度レンダリング機能を組み合わせる。
定性的かつ定量的な実験は、フォトリアリスティックな3D編集可能なアバターの生成における我々のアプローチの有効性と優位性を示す。
論文 参考訳(メタデータ) (2025-04-29T03:56:36Z) - MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse [5.745502268935752]
視覚言語モデル(VLM)における3次元空間推論の強化を目的とした,最初の強化学習ベースのフレームワークであるMetaSpatialを提案する。
我々のキーとなる革新はマルチターン RL ベースの最適化機構で、物理認識の制約とレンダリングされた画像評価を統合し、生成した3Dレイアウトが整合的で、物理的に妥当で、審美的に整合していることを保証する。
論文 参考訳(メタデータ) (2025-03-24T09:18:01Z) - CDGS: Confidence-Aware Depth Regularization for 3D Gaussian Splatting [5.8678184183132265]
CDGSは3DGSを強化するために開発された信頼性を考慮した深度正規化手法である。
我々は,単眼深度推定のマルチキュー信頼マップと,運動深度からのスパース構造を適応的に調整するために活用する。
本手法は,初期訓練段階における幾何ディテールの保存性を向上し,NVSの品質と幾何精度の両面での競争性能を実現する。
論文 参考訳(メタデータ) (2025-02-20T16:12:13Z) - Large Language-Geometry Model: When LLM meets Equivariance [53.8505081745406]
本稿では,3次元物理システムを表現するための新しいフレームワークであるEquiLLMを提案する。
EquiLLMは分子動力学シミュレーション,ヒトの動作シミュレーション,抗体設計など,従来の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-16T14:50:49Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MVSBoost: An Efficient Point Cloud-based 3D Reconstruction [4.282795945742752]
拡張現実や仮想現実、医用画像、映画特殊効果など、様々な応用において、効率的で正確な3D再構成が不可欠である。
従来のMulti-View Stereo (MVS) システムはこれらのアプリケーションには基本的だが、暗黙の3次元シーンモデリングは複雑なトポロジや連続面を扱う新しい可能性をもたらした。
論文 参考訳(メタデータ) (2024-06-19T13:02:17Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time [112.32349668385635]
GGRtは、現実のカメラポーズの必要性を軽減する、一般化可能な新しいビュー合成のための新しいアプローチである。
最初のポーズフリーの一般化可能な3D-GSフレームワークとして、GGRtは$ge$5 FPSで、リアルタイムレンダリングは$ge$100 FPSで実現している。
論文 参考訳(メタデータ) (2024-03-15T09:47:35Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - General Neural Gauge Fields [100.35916421218101]
我々はゲージ変換とニューラルネットワークを協調的に最適化する学習フレームワークを開発した。
我々は、シーン情報を本質的に保存し、優れた性能を得ることができる情報不変ゲージ変換を導出する。
論文 参考訳(メタデータ) (2023-05-05T12:08:57Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。