論文の概要: Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes
- arxiv url: http://arxiv.org/abs/2408.02275v1
- Date: Mon, 5 Aug 2024 07:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 14:16:18.651385
- Title: Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes
- Title(参考訳): Geometric Algebraによる大規模言語モデル:3D,インタラクティブ,制御可能なシーンにおける分離メッシュのインストラクションベース変換
- Authors: Dimitris Angelis, Prodromos Kolyvakis, Manos Kamarianakis, George Papagiannakis,
- Abstract要約: 本稿では,制御可能な3Dシーン編集に革命をもたらすために,Large Language Models (LLMs) とConformal Geometric Algebra (CGA) の統合を提案する。
CGAを頑健な形式言語として利用し,精度の高いオブジェクト再構成に必要な空間変換を正確にモデル化する。
- 参考スコア(独自算出の注目度): 0.14999444543328289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel integration of Large Language Models (LLMs) with Conformal Geometric Algebra (CGA) to revolutionize controllable 3D scene editing, particularly for object repositioning tasks, which traditionally requires intricate manual processes and specialized expertise. These conventional methods typically suffer from reliance on large training datasets or lack a formalized language for precise edits. Utilizing CGA as a robust formal language, our system, shenlong, precisely models spatial transformations necessary for accurate object repositioning. Leveraging the zero-shot learning capabilities of pre-trained LLMs, shenlong translates natural language instructions into CGA operations which are then applied to the scene, facilitating exact spatial transformations within 3D scenes without the need for specialized pre-training. Implemented in a realistic simulation environment, shenlong ensures compatibility with existing graphics pipelines. To accurately assess the impact of CGA, we benchmark against robust Euclidean Space baselines, evaluating both latency and accuracy. Comparative performance evaluations indicate that shenlong significantly reduces LLM response times by 16% and boosts success rates by 9.6% on average compared to the traditional methods. Notably, shenlong achieves a 100% perfect success rate in common practical queries, a benchmark where other systems fall short. These advancements underscore shenlong's potential to democratize 3D scene editing, enhancing accessibility and fostering innovation across sectors such as education, digital entertainment, and virtual reality.
- Abstract(参考訳): 本稿では,制御可能な3Dシーン編集,特に複雑な手作業や専門知識を必要とするオブジェクト配置タスクに革命をもたらすために,LLMとCGAを統合した新しい言語モデルを提案する。
これらの方法は通常、大規模なトレーニングデータセットに依存するか、あるいは正確な編集のための形式化された言語が欠如している。
CGAを頑健な形式言語として利用し、精度の高いオブジェクト再配置に必要な空間変換を正確にモデル化する。
事前に訓練されたLLMのゼロショット学習機能を活用して、シェンロングは自然言語命令をCGA操作に変換し、シーンに適用し、特別な事前学習を必要とせずに3Dシーン内で正確な空間変換を容易にする。
現実的なシミュレーション環境で実装されたShenlongは、既存のグラフィックスパイプラインとの互換性を保証する。
CGAの影響を正確に評価するために、我々はEuclidean Spaceベースラインに対してベンチマークを行い、レイテンシと精度の両方を評価した。
比較性能評価の結果、シェンロングはLSMの応答時間を16%減少させ、成功率を従来の方法と比較して平均9.6%向上させることが示された。
特に、Shenlongは、他のシステムが不足しているベンチマークである、一般的な実用的なクエリにおいて100%完璧な成功率を達成する。
これらの進歩は、シェンロングが3Dシーンの編集を民主化し、アクセシビリティを高め、教育、デジタルエンターテイメント、バーチャルリアリティーといった分野にまたがるイノベーションを促進する可能性を強調している。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MVSBoost: An Efficient Point Cloud-based 3D Reconstruction [4.282795945742752]
拡張現実や仮想現実、医用画像、映画特殊効果など、様々な応用において、効率的で正確な3D再構成が不可欠である。
従来のMulti-View Stereo (MVS) システムはこれらのアプリケーションには基本的だが、暗黙の3次元シーンモデリングは複雑なトポロジや連続面を扱う新しい可能性をもたらした。
論文 参考訳(メタデータ) (2024-06-19T13:02:17Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time [112.32349668385635]
GGRtは、現実のカメラポーズの必要性を軽減する、一般化可能な新しいビュー合成のための新しいアプローチである。
最初のポーズフリーの一般化可能な3D-GSフレームワークとして、GGRtは$ge$5 FPSで、リアルタイムレンダリングは$ge$100 FPSで実現している。
論文 参考訳(メタデータ) (2024-03-15T09:47:35Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - General Neural Gauge Fields [100.35916421218101]
我々はゲージ変換とニューラルネットワークを協調的に最適化する学習フレームワークを開発した。
我々は、シーン情報を本質的に保存し、優れた性能を得ることができる情報不変ゲージ変換を導出する。
論文 参考訳(メタデータ) (2023-05-05T12:08:57Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。