Fugu-MT 論文翻訳(概要): AToM: Amortized Text-to-Mesh using 2D Diffusion

論文の概要: AToM: Amortized Text-to-Mesh using 2D Diffusion

arxiv url: http://arxiv.org/abs/2402.00867v1
Date: Thu, 1 Feb 2024 18:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 13:51:33.577564
Title: AToM: Amortized Text-to-Mesh using 2D Diffusion
Title（参考訳）: AToM:2次元拡散を用いたテキスト・ツー・メシュ
Authors: Guocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov
Abstract要約: Amortized Text-to-Mesh (AToM) は複数のテキストプロンプトに同時に最適化されたフィードフォワードフレームワークである。 AToMはトレーニングコストの約10倍の削減とともに、1秒未満で高品質なテクスチャメッシュを直接生成する。 AToMは4倍以上の精度で最先端のアモルト化アプローチを著しく上回っている。
参考スコア（独自算出の注目度）: 107.02696990299032
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce Amortized Text-to-Mesh (AToM), a feed-forward text-to-mesh framework optimized across multiple text prompts simultaneously. In contrast to existing text-to-3D methods that often entail time-consuming per-prompt optimization and commonly output representations other than polygonal meshes, AToM directly generates high-quality textured meshes in less than 1 second with around 10 times reduction in the training cost, and generalizes to unseen prompts. Our key idea is a novel triplane-based text-to-mesh architecture with a two-stage amortized optimization strategy that ensures stable training and enables scalability. Through extensive experiments on various prompt benchmarks, AToM significantly outperforms state-of-the-art amortized approaches with over 4 times higher accuracy (in DF415 dataset) and produces more distinguishable and higher-quality 3D outputs. AToM demonstrates strong generalizability, offering finegrained 3D assets for unseen interpolated prompts without further optimization during inference, unlike per-prompt solutions.
Abstract（参考訳）: Amortized Text-to-Mesh (AToM) は複数のテキストプロンプトに対して同時に最適化されたフィードフォワードテキスト-to-Meshフレームワークである。多角形メッシュ以外の一般的な出力表現に時間を要する既存のテキストから3D手法とは対照的に、AToMはトレーニングコストの約10倍の削減で1秒未満で高品質なテクスチャメッシュを直接生成し、目に見えないプロンプトに一般化する。私たちのキーとなるアイデアは、安定的なトレーニングとスケーラビリティを実現するための2段階のアモータイズされた最適化戦略を備えた、トリプレーンベースの新しいテキスト・ツー・メッシュアーキテクチャです。様々なプロンプトベンチマークに関する広範な実験を通じて、AToMは最先端のアモルト化アプローチを4倍以上の精度(DF415データセット)で大幅に上回り、より識別可能で高品質な3D出力を生成する。 AToMは強い一般化性を示し、プロンプト毎のソリューションとは異なり、推論中にさらなる最適化をすることなく、未確認の補間プロンプトに対してきめ細かい3Dアセットを提供する。

関連論文リスト

MD-ProjTex: Texturing 3D Shapes with Multi-Diffusion Projection [15.115928324960407]
MD-ProjTexは,事前訓練されたテキスト・ツー・イメージ拡散モデルを用いた3次元形状の高速で一貫したテクスチャ生成手法である。我々のアプローチの核となるのは、紫外線空間における多視点整合性機構であり、異なる視点におけるコヒーレントなテクスチャを保証する。
論文参考訳（メタデータ） (2025-04-03T16:58:06Z)
TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-09-23T12:57:24Z)
OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-06-14T13:16:18Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis [76.43669909525488]
LATTE3Dは400msで3Dオブジェクトを生成し、高速なテストタイム最適化でさらに拡張することができる。 LATTE3Dを導入し、これらの制限に対処し、より大きなプロンプトセット上で高速で高品質な生成を実現する。
論文参考訳（メタデータ） (2024-03-22T17:59:37Z)
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文参考訳（メタデータ） (2023-11-10T18:03:44Z)
ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文参考訳（メタデータ） (2023-06-06T17:59:10Z)
DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual Information for Real-time Semantic Segmentation [10.379708894083217]
本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。 NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
論文参考訳（メタデータ） (2022-12-02T13:55:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。