Fugu-MT 論文翻訳(概要): Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes

論文の概要: Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes

arxiv url: http://arxiv.org/abs/2408.02275v1
Date: Mon, 5 Aug 2024 07:10:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 14:16:18.651385
Title: Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes
Title（参考訳）: Geometric Algebraによる大規模言語モデル:3D,インタラクティブ,制御可能なシーンにおける分離メッシュのインストラクションベース変換
Authors: Dimitris Angelis, Prodromos Kolyvakis, Manos Kamarianakis, George Papagiannakis,
Abstract要約: 本稿では,制御可能な3Dシーン編集に革命をもたらすために,Large Language Models (LLMs) とConformal Geometric Algebra (CGA) の統合を提案する。 CGAを頑健な形式言語として利用し,精度の高いオブジェクト再構成に必要な空間変換を正確にモデル化する。
参考スコア（独自算出の注目度）: 0.14999444543328289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel integration of Large Language Models (LLMs) with Conformal Geometric Algebra (CGA) to revolutionize controllable 3D scene editing, particularly for object repositioning tasks, which traditionally requires intricate manual processes and specialized expertise. These conventional methods typically suffer from reliance on large training datasets or lack a formalized language for precise edits. Utilizing CGA as a robust formal language, our system, shenlong, precisely models spatial transformations necessary for accurate object repositioning. Leveraging the zero-shot learning capabilities of pre-trained LLMs, shenlong translates natural language instructions into CGA operations which are then applied to the scene, facilitating exact spatial transformations within 3D scenes without the need for specialized pre-training. Implemented in a realistic simulation environment, shenlong ensures compatibility with existing graphics pipelines. To accurately assess the impact of CGA, we benchmark against robust Euclidean Space baselines, evaluating both latency and accuracy. Comparative performance evaluations indicate that shenlong significantly reduces LLM response times by 16% and boosts success rates by 9.6% on average compared to the traditional methods. Notably, shenlong achieves a 100% perfect success rate in common practical queries, a benchmark where other systems fall short. These advancements underscore shenlong's potential to democratize 3D scene editing, enhancing accessibility and fostering innovation across sectors such as education, digital entertainment, and virtual reality.
Abstract（参考訳）: 本稿では,制御可能な3Dシーン編集,特に複雑な手作業や専門知識を必要とするオブジェクト配置タスクに革命をもたらすために,LLMとCGAを統合した新しい言語モデルを提案する。これらの方法は通常、大規模なトレーニングデータセットに依存するか、あるいは正確な編集のための形式化された言語が欠如している。 CGAを頑健な形式言語として利用し、精度の高いオブジェクト再配置に必要な空間変換を正確にモデル化する。事前に訓練されたLLMのゼロショット学習機能を活用して、シェンロングは自然言語命令をCGA操作に変換し、シーンに適用し、特別な事前学習を必要とせずに3Dシーン内で正確な空間変換を容易にする。現実的なシミュレーション環境で実装されたShenlongは、既存のグラフィックスパイプラインとの互換性を保証する。 CGAの影響を正確に評価するために、我々はEuclidean Spaceベースラインに対してベンチマークを行い、レイテンシと精度の両方を評価した。比較性能評価の結果、シェンロングはLSMの応答時間を16%減少させ、成功率を従来の方法と比較して平均9.6%向上させることが示された。特に、Shenlongは、他のシステムが不足しているベンチマークである、一般的な実用的なクエリにおいて100%完璧な成功率を達成する。これらの進歩は、シェンロングが3Dシーンの編集を民主化し、アクセシビリティを高め、教育、デジタルエンターテイメント、バーチャルリアリティーといった分野にまたがるイノベーションを促進する可能性を強調している。

関連論文リスト

SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model [45.648346391757336]
SceneLCMは、レイアウト設計のためにLarge Language Model(LLM)をシーン最適化のためにLatent Consistency Model(LCM)と同期するエンドツーエンドフレームワークである。 SceneLCMは物理シミュレーションを統合することで物理的な編集をサポートし、永続的な物理リアリズムを実現した。
論文参考訳（メタデータ） (2025-06-08T11:30:31Z)
Creating Your Editable 3D Photorealistic Avatar with Tetrahedron-constrained Gaussian Splatting [17.908135908777325]
編集過程を局所的な空間適応と現実的な外観学習に分離する枠組みを導入する。このフレームワークは、四面体格子の制御可能な明示的構造と3次元ガウス格子の高精度レンダリング機能を組み合わせる。定性的かつ定量的な実験は、フォトリアリスティックな3D編集可能なアバターの生成における我々のアプローチの有効性と優位性を示す。
論文参考訳（メタデータ） (2025-04-29T03:56:36Z)
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse [5.745502268935752]
視覚言語モデル(VLM)における3次元空間推論の強化を目的とした,最初の強化学習ベースのフレームワークであるMetaSpatialを提案する。我々のキーとなる革新はマルチターン RL ベースの最適化機構で、物理認識の制約とレンダリングされた画像評価を統合し、生成した3Dレイアウトが整合的で、物理的に妥当で、審美的に整合していることを保証する。
論文参考訳（メタデータ） (2025-03-24T09:18:01Z)
CDGS: Confidence-Aware Depth Regularization for 3D Gaussian Splatting [5.8678184183132265]
CDGSは3DGSを強化するために開発された信頼性を考慮した深度正規化手法である。我々は,単眼深度推定のマルチキュー信頼マップと,運動深度からのスパース構造を適応的に調整するために活用する。本手法は,初期訓練段階における幾何ディテールの保存性を向上し,NVSの品質と幾何精度の両面での競争性能を実現する。
論文参考訳（メタデータ） (2025-02-20T16:12:13Z)
Large Language-Geometry Model: When LLM meets Equivariance [53.8505081745406]
本稿では,3次元物理システムを表現するための新しいフレームワークであるEquiLLMを提案する。 EquiLLMは分子動力学シミュレーション,ヒトの動作シミュレーション,抗体設計など,従来の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-02-16T14:50:49Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
MVSBoost: An Efficient Point Cloud-based 3D Reconstruction [4.282795945742752]
拡張現実や仮想現実、医用画像、映画特殊効果など、様々な応用において、効率的で正確な3D再構成が不可欠である。従来のMulti-View Stereo (MVS) システムはこれらのアプリケーションには基本的だが、暗黙の3次元シーンモデリングは複雑なトポロジや連続面を扱う新しい可能性をもたらした。
論文参考訳（メタデータ） (2024-06-19T13:02:17Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文参考訳（メタデータ） (2024-04-14T12:13:07Z)
GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time [112.32349668385635]
GGRtは、現実のカメラポーズの必要性を軽減する、一般化可能な新しいビュー合成のための新しいアプローチである。最初のポーズフリーの一般化可能な3D-GSフレームワークとして、GGRtは$ge$5 FPSで、リアルタイムレンダリングは$ge$100 FPSで実現している。
論文参考訳（メタデータ） (2024-03-15T09:47:35Z)
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文参考訳（メタデータ） (2023-11-30T11:50:07Z)
General Neural Gauge Fields [100.35916421218101]
我々はゲージ変換とニューラルネットワークを協調的に最適化する学習フレームワークを開発した。我々は、シーン情報を本質的に保存し、優れた性能を得ることができる情報不変ゲージ変換を導出する。
論文参考訳（メタデータ） (2023-05-05T12:08:57Z)
Locally Aware Piecewise Transformation Fields for 3D Human Mesh Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文参考訳（メタデータ） (2021-04-16T15:16:09Z)
SCFusion: Real-time Incremental Scene Reconstruction with Semantic Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文参考訳（メタデータ） (2020-10-26T15:31:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。