論文の概要: SceneGenAgent: Precise Industrial Scene Generation with Coding Agent
- arxiv url: http://arxiv.org/abs/2410.21909v1
- Date: Tue, 29 Oct 2024 10:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:43:12.972577
- Title: SceneGenAgent: Precise Industrial Scene Generation with Coding Agent
- Title(参考訳): SceneGenAgent: コーディングエージェントを用いた精密産業シーン生成
- Authors: Xiao Xia, Dan Zhang, Zibo Liao, Zhenyu Hou, Tianrui Sun, Jing Li, Ling Fu, Yuxiao Dong,
- Abstract要約: C#コードで産業シーンを生成するエージェントであるSceneGenAgentを紹介する。
SceneGenAgentは構造化され計算可能なフォーマットによる正確なレイアウト計画を保証する。
実験の結果,SceneInstruct 上でのオープンソース LLM の微調整により,大幅なパフォーマンス向上が得られた。
- 参考スコア(独自算出の注目度): 19.923282979778072
- License:
- Abstract: The modeling of industrial scenes is essential for simulations in industrial manufacturing. While large language models (LLMs) have shown significant progress in generating general 3D scenes from textual descriptions, generating industrial scenes with LLMs poses a unique challenge due to their demand for precise measurements and positioning, requiring complex planning over spatial arrangement. To address this challenge, we introduce SceneGenAgent, an LLM-based agent for generating industrial scenes through C# code. SceneGenAgent ensures precise layout planning through a structured and calculable format, layout verification, and iterative refinement to meet the quantitative requirements of industrial scenarios. Experiment results demonstrate that LLMs powered by SceneGenAgent exceed their original performance, reaching up to 81.0% success rate in real-world industrial scene generation tasks and effectively meeting most scene generation requirements. To further enhance accessibility, we construct SceneInstruct, a dataset designed for fine-tuning open-source LLMs to integrate into SceneGenAgent. Experiments show that fine-tuning open-source LLMs on SceneInstruct yields significant performance improvements, with Llama3.1-70B approaching the capabilities of GPT-4o. Our code and data are available at https://github.com/THUDM/SceneGenAgent .
- Abstract(参考訳): 産業シーンのモデリングは、工業生産におけるシミュレーションに不可欠である。
大規模言語モデル(LLM)は、テキスト記述から一般的な3Dシーンを生成する上で大きな進歩を見せているが、LLMによる産業シーンの生成は、正確な測定と位置決めを要求されるため、空間的配置よりも複雑な計画を必要とするため、ユニークな課題となっている。
この課題に対処するために、私たちは、C#コードを通じて産業シーンを生成するLLMベースのエージェントであるSceneGenAgentを紹介します。
SceneGenAgentは、構造化され計算可能なフォーマットによる正確なレイアウト計画、レイアウト検証、産業シナリオの定量的要件を満たす反復的な改善を保証する。
実験の結果,SceneGenAgentを用いたLCMは,実環境におけるシーン生成タスクにおいて最大81.0%の成功率に達し,ほとんどのシーン生成要件を効果的に満たすことができた。
アクセシビリティをさらに高めるため、我々はSceneGenAgentに組み込むためにオープンソースのLLMを微調整するためのデータセットであるSceneInstructを構築した。
Llama3.1-70B は GPT-4o の能力に近づいている。
私たちのコードとデータはhttps://github.com/THUDM/SceneGenAgent.orgで公開されています。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。
本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。
このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文 参考訳(メタデータ) (2024-04-23T13:38:01Z) - SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models [53.961002112433576]
本稿では,デザイナーのテキスト記述に従って高品質なプロシージャモデルを自動生成する大規模シーン生成フレームワークであるSceneXを紹介する。
私たちのSceneXは、微妙な幾何学的レイアウトと構造を持つ2.5km×2.5kmの都市を生成でき、プロのPCGエンジニアの数週間の時間を大幅に短縮して、普通のユーザにとっては数時間に過ぎません。
論文 参考訳(メタデータ) (2024-03-23T03:23:29Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。