論文の概要: X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic
Textual Guidance
- arxiv url: http://arxiv.org/abs/2303.15764v2
- Date: Fri, 4 Aug 2023 15:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:01:22.157067
- Title: X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic
Textual Guidance
- Title(参考訳): X-Mesh: 動的テキスト誘導によるテキスト駆動型3Dスティル化の高速化
- Authors: Yiwei Ma, Xiaioqing Zhang, Xiaoshuai Sun, Jiayi Ji, Haowei Wang,
Guannan Jiang, Weilin Zhuang, Rongrong Ji
- Abstract要約: X-Meshはテキスト駆動型3Dスタイリングフレームワークで、新しいテキスト誘導動的注意モジュールを備えている。
我々は、新しい標準テキストメシュベンチマーク、MIT-30と2つの自動メトリクスを導入し、将来の研究が公正で客観的な比較を達成できるようにする。
- 参考スコア(独自算出の注目度): 70.08635216710967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven 3D stylization is a complex and crucial task in the fields of
computer vision (CV) and computer graphics (CG), aimed at transforming a bare
mesh to fit a target text. Prior methods adopt text-independent multilayer
perceptrons (MLPs) to predict the attributes of the target mesh with the
supervision of CLIP loss. However, such text-independent architecture lacks
textual guidance during predicting attributes, thus leading to unsatisfactory
stylization and slow convergence. To address these limitations, we present
X-Mesh, an innovative text-driven 3D stylization framework that incorporates a
novel Text-guided Dynamic Attention Module (TDAM). The TDAM dynamically
integrates the guidance of the target text by utilizing text-relevant spatial
and channel-wise attentions during vertex feature extraction, resulting in more
accurate attribute prediction and faster convergence speed. Furthermore,
existing works lack standard benchmarks and automated metrics for evaluation,
often relying on subjective and non-reproducible user studies to assess the
quality of stylized 3D assets. To overcome this limitation, we introduce a new
standard text-mesh benchmark, namely MIT-30, and two automated metrics, which
will enable future research to achieve fair and objective comparisons. Our
extensive qualitative and quantitative experiments demonstrate that X-Mesh
outperforms previous state-of-the-art methods.
- Abstract(参考訳): テキスト駆動3dスタイライゼーション(英: text-driven 3d styleylization)は、コンピュータビジョン(cv)とコンピュータグラフィックス(cg)の分野において複雑かつ重要なタスクである。
従来の手法ではテキスト非依存の多層パーセプトロン(MLP)を使用して、CLIP損失の監視によってターゲットメッシュの属性を予測する。
しかし、このようなテキストに依存しないアーキテクチャは属性を予測する際にテキストのガイダンスを欠いているため、不十分なスタイライゼーションと緩やかな収束に繋がる。
これらの制約に対処するために,新しいテキスト誘導動的注意モジュール(TDAM)を組み込んだ,革新的なテキスト駆動型3DスタイリングフレームワークであるX-Meshを紹介する。
TDAMは、頂点特徴抽出時のテキスト関連空間的およびチャネル的注意力を利用してターゲットテキストのガイダンスを動的に統合し、より正確な属性予測とより高速な収束速度を実現する。
さらに、既存の作品には標準ベンチマークや評価のための自動測定基準が欠如しており、定型化された3dアセットの品質を評価するために、主観的および非再現的なユーザー研究に頼っていることが多い。
この制限を克服するために、mit-30と2つの自動メトリクスという新しい標準テキストメッシュベンチマークを導入し、将来の研究が公平で客観的な比較を可能にする。
X-Meshは従来の最先端手法よりも優れていることを示す。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Looking at words and points with attention: a benchmark for
text-to-shape coherence [17.340484439401894]
生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。
我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。
アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。
改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
論文 参考訳(メタデータ) (2023-09-14T17:59:48Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。