論文の概要: InfiniBench: Infinite Benchmarking for Visual Spatial Reasoning with Customizable Scene Complexity
- arxiv url: http://arxiv.org/abs/2511.18200v1
- Date: Sat, 22 Nov 2025 22:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.689922
- Title: InfiniBench: Infinite Benchmarking for Visual Spatial Reasoning with Customizable Scene Complexity
- Title(参考訳): InfiniBench: カスタマイズ可能なScene Complexityを備えたビジュアル空間推論のための無限ベンチマーク
- Authors: Haoming Wang, Qiyao Xue, Wei Gao,
- Abstract要約: InfiniBenchは、視覚モデルのための完全に自動化され、カスタマイズ可能で、ユーザフレンドリなベンチマークジェネレータである。
理論上無限に多様な3Dシーンを合成し、シーンの複雑さをパラメータ化して制御することができる。
InfiniBenchは、最先端の手続き法とLLMベースの3D生成法より優れ、忠実さと物理的妥当性を早急に向上させる。
- 参考スコア(独自算出の注目度): 9.606814883856831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern vision-language models (VLMs) are expected to have abilities of spatial reasoning with diverse scene complexities, but evaluating such abilities is difficult due to the lack of benchmarks that are not only diverse and scalable but also fully customizable. Existing benchmarks offer limited customizability over the scene complexity and are incapable of isolating and analyzing specific VLM failure modes under distinct spatial conditions. To address this gap, instead of individually presenting benchmarks for different scene complexities, in this paper we present InfiniBench, a fully automated, customizable and user-friendly benchmark generator that can synthesize a theoretically infinite variety of 3D scenes with parameterized control on scene complexity. InfiniBench uniquely translates scene descriptions in natural language into photo-realistic videos with complex and physically plausible 3D layouts. This is achieved through three key innovations: 1) a LLM-based agentic framework that iteratively refines procedural scene constraints from scene descriptions; 2) a flexible cluster-based layout optimizer that generates dense and cluttered scenes previously intractable for procedural methods; and 3) a task-aware camera trajectory optimization method that renders scenes into videos with full object coverage as VLM input. Experiments demonstrate that InfiniBench outperforms state-of-the-art procedural and LLM-based 3D generation methods in prompt fidelity and physical plausibility, especially in high-complexity scenarios. We further showcased the usefulness of InfiniBench, by generating benchmarks for representative spatial reasoning tasks including measurement, perspective-taking and spatiotemporal tracking.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、多様なシーンの複雑な空間的推論能力を持つことが期待されているが、多様でスケーラブルなだけでなく、完全にカスタマイズ可能なベンチマークが欠如しているため、そのような能力の評価は困難である。
既存のベンチマークでは、シーンの複雑さに対して限定的なカスタマイズが可能であり、異なる空間条件下での特定のVLM障害モードの分離と解析ができない。
このギャップに対処するために、異なるシーンの複雑さのベンチマークを個別に提示するのではなく、完全に自動化され、カスタマイズ可能で、ユーザフレンドリーなベンチマークジェネレータであるInfiniBenchを提案する。
InfiniBenchは、自然言語のシーン記述を、複雑で物理的に可能な3Dレイアウトで写実的なビデオに変換する。
これは3つの重要なイノベーションによって達成される。
1) シーン記述から手続き的シーン制約を反復的に洗練するLLMに基づくエージェント・フレームワーク
2 前述した手続き的手法の難易度及び散らばったシーンを生成するフレキシブルクラスタベースのレイアウト最適化装置
3) VLM入力としてフルオブジェクトカバレッジの映像にシーンを描画するタスク対応カメラトラジェクトリ最適化手法を提案する。
InfiniBenchは、特に複雑度の高いシナリオにおいて、忠実度と物理的妥当性を早めるために、最先端の手続き法とLLMベースの3D生成法より優れていることを示す実験である。
InfiniBenchの有用性についても,計測,視点計測,時空間追跡などの空間的推論タスクのベンチマークを作成することで明らかにした。
関連論文リスト
- RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - DeBaRA: Denoising-Based 3D Room Arrangement Generation [22.96293773013579]
有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T23:18:25Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects [84.45345829270626]
制御可能な3D屋内シーン合成は、技術進歩の最前線にある。
シーンスタイリングの現在の手法は、シーン全体にスタイルを適用することに限定されている。
室内3Dシーンを合成するためのユニークなパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-24T03:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。