論文の概要: Scalable 3D Captioning with Pretrained Models
- arxiv url: http://arxiv.org/abs/2306.07279v2
- Date: Fri, 16 Jun 2023 03:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 16:55:38.348963
- Title: Scalable 3D Captioning with Pretrained Models
- Title(参考訳): 事前学習モデルによるスケーラブルな3次元キャプション
- Authors: Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson
- Abstract要約: Cap3Dは、3Dオブジェクトのための記述テキストを生成するための自動アプローチである。
我々は最近導入された大規模3DデータセットにCap3Dを適用した。
同じデータセットから41kの人的アノテーションを用いて評価を行ったところ、Cap3Dは品質、コスト、スピードの点で人間の記述を超越していることがわかった。
- 参考スコア(独自算出の注目度): 63.16604472745202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Cap3D, an automatic approach for generating descriptive text for
3D objects. This approach utilizes pretrained models from image captioning,
image-text alignment, and LLM to consolidate captions from multiple views of a
3D asset, completely side-stepping the time-consuming and costly process of
manual annotation. We apply Cap3D to the recently introduced large-scale 3D
dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted
using 41k human annotations from the same dataset, demonstrates that Cap3D
surpasses human-authored descriptions in terms of quality, cost, and speed.
Through effective prompt engineering, Cap3D rivals human performance in
generating geometric descriptions on 17k collected annotations from the ABO
dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions,
and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E,
and DreamFusion.
- Abstract(参考訳): 3dオブジェクト用の記述テキストを生成する自動アプローチであるcap3dを紹介する。
このアプローチは、画像キャプション、画像テキストアライメント、LLMからの事前学習モデルを用いて、3Dアセットの複数のビューからキャプションを統合することで、手動アノテーションの時間的・コスト的なプロセスを完全にサイドステッピングする。
我々は最近導入された大規模3DデータセットObjaverseにCap3Dを適用する。
同じデータセットから41kのヒューマンアノテーションを用いて実施した評価結果から,cap3dは品質,コスト,速度の面で人間による記述を上回っていることが示された。
効果的なプロンプトエンジニアリングを通じて、Cap3DはABOデータセットから収集された17kのアノテーションの幾何学的記述を生成する際に、人間のパフォーマンスと競合する。
最後に、Cap3Dと人間のキャプションでText-to-3Dモデルを微調整し、Cap3Dのパフォーマンスを示し、Point-E、Shape-E、DreamFusionを含むSOTAをベンチマークする。
関連論文リスト
- View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。