論文の概要: 2.5-D Decomposition for LLM-Based Spatial Construction
- arxiv url: http://arxiv.org/abs/2605.07066v1
- Date: Fri, 08 May 2026 00:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.695209
- Title: 2.5-D Decomposition for LLM-Based Spatial Construction
- Title(参考訳): LLMを用いた空間構成のための2.5次元分解
- Authors: Paul Whitten, Li-Jen Chen, Sharath Baddam,
- Abstract要約: 大規模言語モデル(LLM)は、3次元ブロック配置を生成する際に体系的な座標誤差を発生させる。
本稿では,emph2.5-D分解に基づくニューロシンボリックパイプラインを提案する。
決定論的エグゼキュータは、カラム占有から全ての垂直配置を計算し、エラーのクラス全体を除去する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems that build structures from natural-language instructions need reliable spatial reasoning, yet large language models (LLMs) make systematic coordinate errors when generating three-dimensional block placements. We present a neuro-symbolic pipeline based on \emph{2.5-D decomposition}: the LLM plans in the two-dimensional horizontal plane while a deterministic executor computes all vertical placement from column occupancy, eliminating an entire class of errors. On the Build What I Mean benchmark (160 rounds), GPT-4o-mini with this pipeline achieves 94.6\% mean structural accuracy across 12 independent runs, within 3.0 percentage points of the 97.6\% ceiling imposed by architect-agent errors that no builder-side improvement can address. This outperforms both GPT-4o at 90.3\% and the best competing system at 76.3\%. A controlled ablation confirms that 2.5-D decomposition is the dominant contributor, accounting for 50.7 percentage points of accuracy. The pipeline transfers directly to edge hardware: Nemotron-3 120B running locally on an NVIDIA Jetson Thor AGX matches the cloud result at 94.5\% with no prompt modifications. The underlying principle, removing deterministic dimensions from the LLM's output space, applies to any autonomous construction or assembly task where gravity or other physical constraints fix one or more degrees of freedom. A transfer experiment on 500 IGLU collaborative building tasks confirm the effect generalizes beyond the primary benchmark.
- Abstract(参考訳): 自然言語命令から構造を構築する自律システムは、信頼性の高い空間推論を必要とするが、大きな言語モデル(LLM)は、3次元ブロック配置を生成する際に体系的な座標誤差を発生させる。
LLMは2次元水平平面に計画し、決定論的エグゼキュータはカラム占有から全ての垂直配置を計算し、全てのエラーを除去する。
Build What I Meanベンチマーク(160ラウンド)では、GPT-4o-miniは、ビルダー側の改善に対処できない97.6\%の天井の3.0ポイント以内に、12の独立したランで94.6\%という構造的精度を達成した。
これは GPT-4o の 90.3\% と、76.3\% で最高の競合システムの両方を上回っている。
制御されたアブレーションは2.5-D分解が主成分であることを確認し、精度は50.7%である。
Nemotron-3 120BはNVIDIA Jetson Thor AGX上でローカルで動作する。
LLMの出力空間から決定論的次元を取り除く基本原理は、重力やその他の物理的制約が1つ以上の自由を固定する任意の自律的な構成や組み立てタスクに適用される。
500 IGLU協調建築タスクの転送実験により、プライマリベンチマーク以上の効果が一般化されることを確認した。
関連論文リスト
- ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning [5.523132953818281]
本稿では,LLM推論のためのシステムであるReFlectについて述べる。
6つの推論領域にまたがる制御された実験により、100個の監査された反射ブロックのうち90個の問題にフラグを付けない、プロンプトレベルの自己批判が公式テンプレートを生成することが示された。
我々のReFlectハーネスは, GPT-4o-miniで41%, Claude Sonnet 4.5で56%のタスク成功率を実現している。
論文 参考訳(メタデータ) (2026-05-07T06:29:34Z) - Paired-CSLiDAR: Height-Stratified Registration for Cross-Source Aerial-Ground LiDAR Pose Refinement [46.13526676100776]
Paired-CSLiDAR(英語版)は、シングルスキャンポーズリファインメントのためのクロスソース空地LiDARベンチマークである。
このベンチマークには6つの評価サイトで12,683組の地上空対が含まれている。
本稿では,RGSR(Residual-Guided Stratified Registration)を提案する。
論文 参考訳(メタデータ) (2026-05-01T13:14:20Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - Interpretable-by-Design Transformers via Architectural Stream Independence [1.2891210250935148]
アーキテクチャの制約がアーキテクチャストリームの独立性を通じて設計による解釈可能性を高めることができるかどうかを検討する。
最終層全体を通して解釈可能なシンボリックヘッドを示すLate Fusion Architecture (LFA) を通じて、この原則を検証する。
我々は,この効果を,それぞれ$PDS_max$ = 0.276,0.058のToken-Position Dependence Score (PDS)を導入して定量化する。
論文 参考訳(メタデータ) (2026-03-08T05:44:18Z) - JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation [46.64215658042213]
補助埋め込みテーブルから得られる変調ベクトルを用いてトランスフォーマー層を拡大するジョイント・トケン(JTok)とジョイント・トケン(JTok-M)の混合を導入する。
これらのベクトルは、軽量な要素演算によってバックボーンを変調し、無視可能なFLOPのオーバーヘッドを発生させる。
我々のアプローチは、検証損失を継続的に減らし、ダウンストリームタスクのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2026-01-31T16:15:18Z) - Breaking the Blocks: Continuous Low-Rank Decomposed Scaling for Unified LLM Quantization and Adaptation [46.34608916687127]
低ランク分解スケーリング(LoRDS)は、この低ランク分解を通じて量子化の粒度を再考する統一フレームワークである。
空間的制約の「ブロックを壊す」ことで、LoRDSはシームレスな効率ライフサイクルを確立する。
LoRDSは、量子化タスクと下流細調整タスクの両方において、さまざまなモデルファミリの最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-30T08:46:02Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - BuildingBRep-11K: Precise Multi-Storey B-Rep Building Solids with Rich Layout Metadata [5.436963837926521]
ビルディングブレープ11Kは、11,978棟(2-10階)の多層建築物(約10GB)のコレクションである。
全てのサンプルは幾何学的に正確なB-rep固体で覆われた床、壁、スラブ、規則に基づく開口で構成されている。
データセットの学習性を検証するために、2つの軽量なPointNetベースラインをトレーニングしました。
論文 参考訳(メタデータ) (2025-06-03T03:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。