論文の概要: LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
- arxiv url: http://arxiv.org/abs/2511.03001v1
- Date: Tue, 04 Nov 2025 21:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.247523
- Title: LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
- Title(参考訳): LEGO-Eval:ツール強化による3次元身体環境の微粒化評価を目指して
- Authors: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo,
- Abstract要約: LEGO-Evalは,シーンコンポーネントを明確にグラウンド化するための多種多様なツールを備えた評価フレームワークである。
LEGO-Benchは、現実世界の環境の複雑なレイアウトと属性を指定する詳細なインストラクションのベンチマークです。
- 参考スコア(独自算出の注目度): 13.580476542856188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in using Large Language Models (LLMs) for automatically generating 3D scenes, generated scenes often lack realistic spatial layouts and object attributes found in real-world environments. As this problem stems from insufficiently detailed, coarse-grained instructions, advancing 3D scene synthesis guided by more detailed, fine-grained instructions that reflect real-world environments becomes crucial. Without such realistic scenes, training embodied agents in unrealistic environments can lead them to learn priors that diverge significantly from real-world physics and semantics, degrading their performance when deployed. Thus, verifying the alignment between the fine-grained instruction and the generated scene is essential for effective learning. However, current evaluation methods, such as CLIPScore and vision-language models (VLMs), often fail to reliably assess such alignment. This shortcoming arises primarily from their shallow understanding of 3D scenes, which often leads to improperly grounded scene components. To address this, we introduce LEGO-Eval, an evaluation framework equipped with diverse tools designed to explicitly ground scene components, enabling more accurate alignment assessments. We also present LEGO-Bench, a benchmark of detailed instructions that specify complex layouts and attributes of real-world environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with LEGO-Bench reveals significant limitations in current generation methods. Across all evaluated approaches, success rates reached at most 10% in generating scenes that fully align with fine-grained instructions.
- Abstract(参考訳): 3Dシーンの自動生成にLarge Language Models (LLMs) を用いた最近の進歩にもかかわらず、生成されたシーンは現実的な空間レイアウトや現実世界の環境で見られるオブジェクト属性を欠いていることが多い。
この問題は、粗くきめ細かな指示から生じるため、現実世界の環境を反映したより詳細できめ細かな指示によって導かれる3Dシーン合成が重要となる。
このような現実的なシーンがなければ、非現実的な環境で具体化されたエージェントを訓練することで、現実の物理学や意味論とは大きく異なる事前学習を導き、デプロイ時にパフォーマンスを劣化させる。
したがって、より詳細な命令と生成されたシーンのアライメントを検証することは、効果的な学習に不可欠である。
しかし、CLIPScoreやビジョン言語モデル(VLM)のような現在の評価手法では、そのようなアライメントを確実に評価することができないことが多い。
この欠点は、主に3Dシーンの浅い理解から生じ、しばしば不適切に接地されたシーンコンポーネントに繋がる。
LEGO-Evalは、シーンコンポーネントを明確にグラウンド化するための多様なツールを備えた、より正確なアライメントアセスメントを可能にする評価フレームワークである。
LEGO-Benchは、現実世界の環境の複雑なレイアウトと属性を指定する詳細なインストラクションのベンチマークです。
LEGO-Evalは、シーンインストラクションアライメントの評価において、VLM-as-a-judgeを0.41F1スコアで上回ることを示した。
LEGO-Benchによるベンチマークは、現在の生成方法に重大な制限があることを示している。
評価されたすべてのアプローチ全体で、成功率は、きめ細かい指示と完全に一致したシーンを生成する際に、少なくとも10%に達した。
関連論文リスト
- SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent [28.12183839499528]
SceneWeaverは、ツールベースの反復改善を通じて多様なシーン合成パラダイムを統合するフレームワークである。
セマンティックな矛盾を特定し、ターゲットとするツールを呼び出し、連続したイテレーションで環境を更新できる。
多様な指示で複雑なシーンを効果的に一般化し、汎用的な3D環境生成への一歩を踏み出した。
論文 参考訳(メタデータ) (2025-09-24T09:06:41Z) - HLG: Comprehensive 3D Room Construction via Hierarchical Layout Generation [31.010614667725843]
階層レイアウト生成(HLG)は,微細な3次元シーン生成のための新しい手法である。
HLGは、大規模な家具配置から複雑なオブジェクト配置まで、シーンレイアウトを精錬する、粗大できめ細かな階層的アプローチを採用した最初の企業である。
既存の手法と比較して,現実的な屋内シーンの生成において優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-25T09:32:57Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation [36.44409268300039]
Scenethesisはテキストベースのシーンプランニングと視覚誘導レイアウトの改良を統合したフレームワークである。
多様な、現実的で、物理的に妥当な3Dインタラクティブなシーンを生成し、仮想コンテンツの作成、シミュレーション環境、そしてAI研究に価値がある。
論文 参考訳(メタデータ) (2025-05-05T17:59:58Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。