論文の概要: CoMa: Contextual Massing Generation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.08464v1
- Date: Tue, 13 Jan 2026 11:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.176916
- Title: CoMa: Contextual Massing Generation with Vision-Language Models
- Title(参考訳): CoMa:視覚言語モデルを用いたコンテキストマス生成
- Authors: Evgenii Maslov, Valentin Khrulkov, Anastasia Volkova, Anton Gusarov, Andrey Kuznetsov, Ivan Oseledets,
- Abstract要約: 本稿では,機能要件とサイトコンテキストに基づいて,マッサージを自動生成するフレームワークを提案する。
このようなデータ駆動手法の主な障害は、適切なデータセットがないことである。
我々は、このデータセットを、視覚言語モデルのための条件タスクとしてマッサージ生成を定式化してベンチマークする。
- 参考スコア(独自算出の注目度): 7.943264761730892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The conceptual design phase in architecture and urban planning, particularly building massing, is complex and heavily reliant on designer intuition and manual effort. To address this, we propose an automated framework for generating building massing based on functional requirements and site context. A primary obstacle to such data-driven methods has been the lack of suitable datasets. Consequently, we introduce the CoMa-20K dataset, a comprehensive collection that includes detailed massing geometries, associated economical and programmatic data, and visual representations of the development site within its existing urban context. We benchmark this dataset by formulating massing generation as a conditional task for Vision-Language Models (VLMs), evaluating both fine-tuned and large zero-shot models. Our experiments reveal the inherent complexity of the task while demonstrating the potential of VLMs to produce context-sensitive massing options. The dataset and analysis establish a foundational benchmark and highlight significant opportunities for future research in data-driven architectural design.
- Abstract(参考訳): 建築と都市計画における概念設計フェーズ、特にマッサージの構築は複雑であり、設計者の直感と手作業に大きく依存している。
そこで本稿では,機能要件とサイトコンテキストに基づいて,マッサージを自動生成するフレームワークを提案する。
このようなデータ駆動手法の主な障害は、適切なデータセットがないことである。
その結果、CoMa-20Kデータセットは、詳細なマッサージジオメトリ、関連する経済・プログラムデータ、既存の都市環境における開発現場の視覚的表現を含む包括的コレクションである。
我々は、このデータセットを、視覚言語モデル(VLM)の条件タスクとしてマッサージ生成を定式化してベンチマークし、微調整と大型ゼロショットモデルの両方を評価する。
本実験は,VLMがコンテキストに敏感なマッサージオプションを生成する可能性を示した上で,タスクの複雑さを明らかにした。
データセットと分析は基礎的なベンチマークを確立し、データ駆動アーキテクチャ設計における将来の研究の大きな機会を強調します。
関連論文リスト
- A Framework for Generating Artificial Datasets to Validate Absolute and Relative Position Concepts [2.0391237204597368]
このフレームワークは、オブジェクト認識、絶対位置と相対位置、属性識別といった基本的な概念に焦点を当てている。
提案するフレームワークは、多種多様な包括的なデータセットを生成するための貴重な手段を提供する。
論文 参考訳(メタデータ) (2025-09-17T18:37:24Z) - From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。
多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文 参考訳(メタデータ) (2025-09-14T12:20:39Z) - Video Understanding by Design: How Datasets Shape Architectures and Insights [47.846604113207206]
ビデオ理解は、ますます複雑なデータセットと強力なアーキテクチャによって、急速に進歩している。
この調査は、モデルがエンコードすべき帰納的バイアスを課す動きの複雑さ、時間的スパン、階層的構成、マルチモーダル豊かさを示す、データセット駆動の視点を採用した初めてのものだ。
論文 参考訳(メタデータ) (2025-09-11T05:06:30Z) - OpenConstruction: A Systematic Synthesis of Open Visual Datasets for Data-Centric Artificial Intelligence in Construction Monitoring [4.795391174842949]
建設業界は、サイト監視のための人工知能(AI)と機械学習(ML)アプリケーションをサポートするために、視覚データにますます依存している。
ビジュアルデータセットへの関心が高まりつつあるにもかかわらず、既存のリソースは、実世界の建設条件のサイズ、品質、代表性に大きく変化している。
本研究では,これらの知見をオープンソースカタログであるOpenConstructionに合成し,データ駆動型手法開発を支援する。
論文 参考訳(メタデータ) (2025-08-15T13:56:21Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。
私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。
ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (2024-09-22T00:30:11Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - T-METASET: Task-Aware Generation of Metamaterial Datasets by
Diversity-Based Active Learning [14.668178146934588]
タスク対応データセット生成のためのインテリジェントなデータ取得フレームワークであるt-METASETを提案する。
提案するフレームワークを,汎用性,タスク認識性,カスタマイズ可能な3つのシナリオで検証する。
論文 参考訳(メタデータ) (2022-02-21T22:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。