論文の概要: ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph
- arxiv url: http://arxiv.org/abs/2603.09266v1
- Date: Tue, 10 Mar 2026 06:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.107954
- Title: ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph
- Title(参考訳): ForgeDreamer: マルチエキスパートLORAとクロスビューハイパーグラフによる産業用テキスト・ツー・3D生成
- Authors: Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong,
- Abstract要約: 現在のテキスト・ツー・3D生成法は自然界で優れているが、工業的応用に苦戦している。
本稿では,2つの重要なイノベーションを通じて両課題に対処する新しいフレームワークForgeDreamerを提案する。
- 参考スコア(独自算出の注目度): 12.142932752269445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-3D generation methods excel in natural scenes but struggle with industrial applications due to two critical limitations: domain adaptation challenges where conventional LoRA fusion causes knowledge interference across categories, and geometric reasoning deficiencies where pairwise consistency constraints fail to capture higher-order structural dependencies essential for precision manufacturing. We propose a novel framework named ForgeDreamer addressing both challenges through two key innovations. First, we introduce a Multi-Expert LoRA Ensemble mechanism that consolidates multiple category-specific LoRA models into a unified representation, achieving superior cross-category generalization while eliminating knowledge interference. Second, building on enhanced semantic understanding, we develop a Cross-View Hypergraph Geometric Enhancement approach that captures structural dependencies spanning multiple viewpoints simultaneously. These components work synergistically improved semantic understanding, enables more effective geometric reasoning, while hypergraph modeling ensures manufacturing-level consistency. Extensive experiments on a custom industrial dataset demonstrate superior semantic generalization and enhanced geometric fidelity compared to state-of-the-art approaches. Our code and data are provided in the supplementary material attached in the appendix for review purposes.
- Abstract(参考訳): 現在のテキスト・ツー・3D生成法は自然界において優れているが、従来のLoRA融合がカテゴリ間の知識干渉を引き起こすドメイン適応問題と、整合性制約が精度の高い製造に必要な高次構造的依存関係を捕捉できない幾何学的推論欠陥という2つの重要な制約により産業的応用に苦慮している。
本稿では,2つの重要なイノベーションを通じて両課題に対処する新しいフレームワークForgeDreamerを提案する。
まず,複数のカテゴリ固有のLoRAモデルを統一表現に統合し,知識干渉を排除しつつ,優れたカテゴリ間一般化を実現するマルチエキスパートLoRAアンサンブル機構を提案する。
次に,複数の視点にまたがる構造的依存関係を同時にキャプチャするクロスビュー・ハイパーグラフ・ジオメトリ・エンハンスメント・アプローチを開発した。
これらのコンポーネントは、セマンティック理解を相乗的に改善し、より効果的な幾何学的推論を可能にし、ハイパーグラフモデリングは製造レベルの一貫性を保証する。
カスタム産業データセットに対する広範囲な実験は、最先端のアプローチと比較して、セマンティックな一般化と幾何的忠実性の向上が優れていることを証明している。
私たちのコードとデータは、レビューのために付録に添付された補足資料に提供されます。
関連論文リスト
- TopoOR: A Unified Topological Scene Representation for the Operating Room [54.50897207203292]
手術シーングラフは外科手術室(OR)の複雑さを実体の構造とその関連性に抽象化する。
マルチモーダルな手術室を高次構造としてモデル化する新しいパラダイムであるTopoORを紹介する。
また,多様体の構造やモジュラリティに特有な特徴を明示的に保存する高次アテンション機構を提案する。
論文 参考訳(メタデータ) (2026-03-10T10:19:42Z) - UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - HyperbolicRAG: Enhancing Retrieval-Augmented Generation with Hyperbolic Representations [11.678218711095269]
グラフベースのRAGは、大きな言語モデルが外部知識にアクセスできるようにする。
本稿では,ハイパーボリック幾何をグラフベースRAGに統合する検索フレームワークであるHyperbolicRAGを提案する。
論文 参考訳(メタデータ) (2025-11-24T06:27:58Z) - Beyond Binary Classification: A Semi-supervised Approach to Generalized AI-generated Image Detection [1.189955933770711]
現在の法医学における重大な脆弱性は、検出器がクロスジェネレータの一般化を達成できないことである。
本稿では,「フェイク」クラス内の潜在アーキテクチャパターンを発見することによって,バイナリ分類を強化する半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-23T16:02:27Z) - Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment Retrieval-Augmented Generation [43.737415090081555]
本稿では,テーマ・アライン・デュアルハイパグラフRAGフレームワークを提案する。テーマ・アライン・デュアルハイパグラフ(Cog-RAG)は,テーマ・ハイパーグラフを用いて,チャンク間セマンティック構造とエンティティ・ハイパーグラフをキャプチャし,高階意味関係をモデル化する。
実験の結果,Cog-RAGは既存の最先端のベースラインアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-17T10:10:33Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。