論文の概要: View Selection for 3D Captioning via Diffusion Ranking
- arxiv url: http://arxiv.org/abs/2404.07984v1
- Date: Thu, 11 Apr 2024 17:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 12:49:46.944052
- Title: View Selection for 3D Captioning via Diffusion Ranking
- Title(参考訳): 拡散ランキングによる3次元キャプションのビュー選択
- Authors: Tiange Luo, Justin Johnson, Honglak Lee,
- Abstract要約: Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
- 参考スコア(独自算出の注目度): 54.78058803763221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalable annotation approaches are crucial for constructing extensive 3D-text datasets, facilitating a broader range of applications. However, existing methods sometimes lead to the generation of hallucinated captions, compromising caption quality. This paper explores the issue of hallucination in 3D object captioning, with a focus on Cap3D method, which renders 3D objects into 2D views for captioning using pre-trained models. We pinpoint a major challenge: certain rendered views of 3D objects are atypical, deviating from the training data of standard image captioning models and causing hallucinations. To tackle this, we present DiffuRank, a method that leverages a pre-trained text-to-3D model to assess the alignment between 3D objects and their 2D rendered views, where the view with high alignment closely represent the object's characteristics. By ranking all rendered views and feeding the top-ranked ones into GPT4-Vision, we enhance the accuracy and detail of captions, enabling the correction of 200k captions in the Cap3D dataset and extending it to 1 million captions across Objaverse and Objaverse-XL datasets. Additionally, we showcase the adaptability of DiffuRank by applying it to pre-trained text-to-image models for a Visual Question Answering task, where it outperforms the CLIP model.
- Abstract(参考訳): 拡張性のあるアノテーションアプローチは、広範囲な3Dテキストデータセットを構築するのに不可欠であり、幅広いアプリケーションを容易にします。
しかし、既存の方法によって幻覚キャプションが生成され、キャプションの品質が損なわれることがある。
本稿では,3次元オブジェクトを2次元ビューに描画するCap3D法に着目し,事前学習モデルを用いた3次元オブジェクトキャプションにおける幻覚の問題点を考察する。
標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす3Dオブジェクトのレンダリングビューは非定型である。
そこでDiffuRankは、3Dオブジェクトとその2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキスト・ツー・3Dモデルを利用する手法である。
すべてのレンダリングされたビューをGPT4-Visionにランク付けすることで、キャプションの精度と詳細を高め、Cap3Dデータセットの200kキャプションの修正を可能にし、ObjaverseデータセットとObjaverse-XLデータセットの100万キャプションに拡張します。
さらに、Visual Question Answeringタスクの事前訓練されたテキスト・ツー・イメージモデルに適用することで、DiffuRankの適応性を示し、CLIPモデルより優れています。
関連論文リスト
- Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation [34.45033554641476]
視覚的コンテンツの自動キャプション手法は、詳細の欠如、幻覚内容の欠如、後続の指示不足などの課題に直面している。
フレキシブルなトレーニングフリーパイプラインであるVisualFactChecker(VFC)を提案し、2次元画像と3次元オブジェクトの両方に対して高忠実かつ詳細なキャプションを生成する。
VFCは、1)画像からテキストへのキャプションモデルが複数の初期キャプションを提案する提案、2)大規模言語モデル(LLM)がオブジェクト検出やVQAモデルなどのツールを使用して提案されたキャプションをファクトチェックする検証の3段階で構成されている。
論文 参考訳(メタデータ) (2024-04-30T17:55:27Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - Scalable 3D Captioning with Pretrained Models [63.16604472745202]
Cap3Dは、3Dオブジェクトのための記述テキストを生成するための自動アプローチである。
我々は最近導入された大規模3DデータセットにCap3Dを適用した。
同じデータセットから41kの人的アノテーションを用いて評価を行ったところ、Cap3Dは品質、コスト、スピードの点で人間の記述を超越していることがわかった。
論文 参考訳(メタデータ) (2023-06-12T17:59:03Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。