論文の概要: Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects
- arxiv url: http://arxiv.org/abs/2504.08125v1
- Date: Thu, 10 Apr 2025 20:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:01.843479
- Title: Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects
- Title(参考訳): Gen3DEval: 生成した3Dオブジェクトの自動評価にvLLMを使用する
- Authors: Shalini Maiti, Lourdes Agapito, Filippos Kokkinos,
- Abstract要約: 我々は3次元オブジェクト品質評価のための新しい評価フレームワークGen3DEvalを紹介する。
Gen3DEvalは3次元表面正規解析によりテキストの忠実度、外観、表面品質を評価する。
Gen3DEvalは、最先端のタスク非依存モデルと比較して、ユーザアライメント評価において優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 13.333670988010864
- License:
- Abstract: Rapid advancements in text-to-3D generation require robust and scalable evaluation metrics that align closely with human judgment, a need unmet by current metrics such as PSNR and CLIP, which require ground-truth data or focus only on prompt fidelity. To address this, we introduce Gen3DEval, a novel evaluation framework that leverages vision large language models (vLLMs) specifically fine-tuned for 3D object quality assessment. Gen3DEval evaluates text fidelity, appearance, and surface quality by analyzing 3D surface normals, without requiring ground-truth comparisons, bridging the gap between automated metrics and user preferences. Compared to state-of-the-art task-agnostic models, Gen3DEval demonstrates superior performance in user-aligned evaluations, placing it as a comprehensive and accessible benchmark for future research on text-to-3D generation. The project page can be found here: \href{https://shalini-maiti.github.io/gen3deval.github.io/}{https://shalini-maiti.github.io/gen3deval.github.io/}.
- Abstract(参考訳): テキストから3D生成の急速な進歩は、人間の判断と密接に一致した堅牢でスケーラブルな評価指標を必要とする。
そこで我々は,視覚大言語モデル(vLLM)を利用した新しい評価フレームワークであるGen3DEvalを紹介した。
Gen3DEvalは、3次元表面の正常さを分析してテキストの忠実さ、外観、表面品質を評価する。
Gen3DEvalは、最先端のタスク非依存モデルと比較して、ユーザによる評価において優れたパフォーマンスを示し、テキストから3D生成に関する将来の研究のための包括的でアクセスしやすいベンチマークとして位置づけている。
プロジェクトページは以下の通りである。 \href{https://shalini-maiti.github.io/gen3deval.github.io/}{https://shalini-maiti.github.io/gen3deval.github.io/}
関連論文リスト
- Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation [26.0726219629689]
近年,テキスト・ツー・3D生成は目覚ましい進歩を遂げているが,これらの手法の評価はいまだに困難である。
既存のベンチマークには、異なるプロンプトカテゴリと評価次元に関するきめ細かい評価が欠けている。
まず,MATE-3Dという総合ベンチマークを提案する。
ベンチマークには、単一のオブジェクト生成と複数のオブジェクト生成をカバーする、よく設計された8つのプロンプトカテゴリが含まれており、結果として1,280のテクスチャメッシュが生成される。
論文 参考訳(メタデータ) (2024-12-15T12:41:44Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation [93.55550787058012]
本稿では,テキスト・ツー・3次元生成モデルのための自動的,汎用的,人為的アライメント評価指標を提案する。
この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,評価プロンプトを生成する。
次に,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。
論文 参考訳(メタデータ) (2024-01-08T18:52:09Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:40:08Z) - From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction [80.67873933010783]
我々は,MDPが現在,3Dアプリケーションにおける予測の有用性を評価するのに有効な指標に頼っていることを論じる。
これにより、2Dベースの距離を最適化するのではなく、シーンの3D構造を正確に認識し、推定に向けて改善する新しい手法の設計と開発が制限される。
本稿では,MDP手法の3次元幾何評価に適した指標セットと,提案手法に不可欠な室内ベンチマークRIO-D3Dを提案する。
論文 参考訳(メタデータ) (2022-03-15T17:50:54Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。