論文の概要: SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis
- arxiv url: http://arxiv.org/abs/2503.14756v1
- Date: Tue, 18 Mar 2025 22:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:24.503334
- Title: SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis
- Title(参考訳): SceneEval: テキストによる室内シーン合成におけるセマンティックコヒーレンスの評価
- Authors: Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva,
- Abstract要約: 既存のメトリクスは、主に生成されたシーンのリアリズムを、一連の地味なシーンと比較することによって評価する。
この制限に対処するために設計された評価フレームワークであるSceneEvalを紹介する。
- 参考スコア(独自算出の注目度): 15.384163144314073
- License:
- Abstract: Despite recent advances in text-conditioned 3D indoor scene generation, there remain gaps in the evaluation of these methods. Existing metrics primarily assess the realism of generated scenes by comparing them to a set of ground-truth scenes, often overlooking alignment with the input text - a critical factor in determining how effectively a method meets user requirements. We present SceneEval, an evaluation framework designed to address this limitation. SceneEval includes metrics for both explicit user requirements, such as the presence of specific objects and their attributes described in the input text, and implicit expectations, like the absence of object collisions, providing a comprehensive assessment of scene quality. To facilitate evaluation, we introduce SceneEval-100, a dataset of scene descriptions with annotated ground-truth scene properties. We evaluate recent scene generation methods using SceneEval and demonstrate its ability to provide detailed assessments of the generated scenes, highlighting strengths and areas for improvement across multiple dimensions. Our results show that current methods struggle at generating scenes that meet user requirements, underscoring the need for further research in this direction.
- Abstract(参考訳): 近年,テキストコンディショニングによる屋内シーン生成の進歩にもかかわらず,これらの手法の評価にはギャップが残っている。
既存のメトリクスは、主に生成されたシーンを、入力されたテキストとの整合性を見渡すために、一組の地味なシーンと比較することで、生成されたシーンのリアリズムを評価する。
この制限に対処するために設計された評価フレームワークであるSceneEvalを紹介する。
SceneEvalには、入力テキストに記述された特定のオブジェクトとその属性の存在や、オブジェクト衝突の欠如のような暗黙的な期待といった明示的なユーザ要件のメトリクスが含まれており、シーン品質の包括的な評価を提供する。
提案するSceneEval-100は,アノテートされたランドスケープなシーン特性を持つシーン記述のデータセットである。
SceneEvalを用いた最近のシーン生成手法の評価を行い、生成されたシーンを詳細に評価し、複数の次元にまたがる改善のための強度と領域を強調した。
以上の結果から,現在の手法はユーザ要求を満たすシーンを生成するのに苦慮し,今後の研究の必要性を浮き彫りにしている。
関連論文リスト
- WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving [4.911903454560829]
WayveScenes101は、新しいビュー合成において、コミュニティが技術の状態を前進させるのを助けるために設計されたデータセットである。
データセットは、幅広い環境条件と運転シナリオにわたる101の運転シーンで構成されている。
論文 参考訳(メタデータ) (2024-07-11T08:29:45Z) - Interpretable End-to-End Driving Model for Implicit Scene Understanding [3.4248756007722987]
暗黙的な高次元シーン特徴を抽出するエンド・ツー・エンドのインプリケート・インプリケート・ドライビング・シーン理解(II-DSU)モデルを提案する。
提案手法は,新しい最先端技術を実現し,運転に関連するよりリッチなシーン情報を具現化したシーン特徴を得ることができる。
論文 参考訳(メタデータ) (2023-08-02T14:43:08Z) - CarPatch: A Synthetic Benchmark for Radiance Field Evaluation on Vehicle
Components [77.33782775860028]
車両の新たな総合ベンチマークであるCarPatchを紹介する。
内在カメラパラメータと外在カメラパラメータを付加した画像のセットに加えて、各ビューに対して対応する深度マップとセマンティックセグメンテーションマスクが生成されている。
グローバルとパートベースのメトリクスは、いくつかの最先端技術を評価し、比較し、より良い特徴付けるために定義され、使われてきた。
論文 参考訳(メタデータ) (2023-07-24T11:59:07Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SPTS: Single-Point Text Spotting [128.52900104146028]
トレーニングシーンのテキストスポッティングモデルは,インスタンスごとの単一点の極めて低コストなアノテーションによって実現可能であることを示す。
本稿では,シーンテキストスポッティングをシーケンス予測タスクとするエンドツーエンドのシーンテキストスポッティング手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T06:44:21Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - Semantic Scene Completion via Integrating Instances and Scene
in-the-Loop [73.11401855935726]
Semantic Scene Completionは、単一の視野深度またはRGBD画像から正確なボキセルワイズセマンティクスで完全な3Dシーンを再構築することを目指しています。
本稿では、シーンレベルのセマンティクス情報とインスタンスレベルのセマンティクス情報の両方を利用するScene-Instance-Scene Network(textitSISNet)を提案する。
本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状の細部を推定できる。
論文 参考訳(メタデータ) (2021-04-08T09:50:30Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。