論文の概要: ArchiLense: A Framework for Quantitative Analysis of Architectural Styles Based on Vision Large Language Models
- arxiv url: http://arxiv.org/abs/2506.07739v1
- Date: Mon, 09 Jun 2025 13:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.967505
- Title: ArchiLense: A Framework for Quantitative Analysis of Architectural Styles Based on Vision Large Language Models
- Title(参考訳): ArchiLense: 視覚的大規模言語モデルに基づくアーキテクチャスタイルの定量的分析のためのフレームワーク
- Authors: Jing Zhong, Jun Yin, Peilin Li, Pengyu Zeng, Miao Zhang, Shuai Lu, Ran Luo,
- Abstract要約: 我々は1,765の高品質なアーキテクチャイメージとそれに対応するスタイルアノテーションからなるArchDiffBenchというプロのアーキテクチャスタイルデータセットを構築した。
アドバンストなコンピュータビジョン技術、ディープラーニング、機械学習を統合することで、ArchiLenseはアーキテクチャイメージの自動認識、比較、正確な分類を可能にする。
ArchiLenseはアーキテクチャスタイルの認識において、92.4%の一貫性と専門家アノテーション、84.5%の分類精度で高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 25.357684856371936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Architectural cultures across regions are characterized by stylistic diversity, shaped by historical, social, and technological contexts in addition to geograph-ical conditions. Understanding architectural styles requires the ability to describe and analyze the stylistic features of different architects from various regions through visual observations of architectural imagery. However, traditional studies of architectural culture have largely relied on subjective expert interpretations and historical literature reviews, often suffering from regional biases and limited ex-planatory scope. To address these challenges, this study proposes three core contributions: (1) We construct a professional architectural style dataset named ArchDiffBench, which comprises 1,765 high-quality architectural images and their corresponding style annotations, collected from different regions and historical periods. (2) We propose ArchiLense, an analytical framework grounded in Vision-Language Models and constructed using the ArchDiffBench dataset. By integrating ad-vanced computer vision techniques, deep learning, and machine learning algo-rithms, ArchiLense enables automatic recognition, comparison, and precise classi-fication of architectural imagery, producing descriptive language outputs that ar-ticulate stylistic differences. (3) Extensive evaluations show that ArchiLense achieves strong performance in architectural style recognition, with a 92.4% con-sistency rate with expert annotations and 84.5% classification accuracy, effec-tively capturing stylistic distinctions across images. The proposed approach transcends the subjectivity inherent in traditional analyses and offers a more objective and accurate perspective for comparative studies of architectural culture.
- Abstract(参考訳): 地域の建築文化は、地理的条件に加えて歴史的、社会的、技術的文脈によって形成された様式的な多様性によって特徴づけられる。
建築様式を理解するには、建築イメージの視覚的な観察を通して、様々な地域から異なる建築家の様式的な特徴を記述し分析する能力が必要である。
しかし、建築文化の伝統的な研究は、主に主観的な専門家の解釈と歴史文献のレビューに依存しており、しばしば地域的偏見と限られた説明範囲に悩まされている。
これらの課題に対処するため,(1) 高品質な建築イメージ1,765点とそれに対応するスタイルアノテーションからなるArchDiffBenchという,プロの建築スタイルデータセットを構築した。
本研究では,ArchiLenseを提案する。ArchiLenseは視覚言語モデルに基づく分析フレームワークで,ArchiDiffBenchデータセットを用いて構築する。
アドバンストなコンピュータビジョン技術、ディープラーニング、機械学習のアルゴリズムを統合することで、ArchiLenseはアーキテクチャイメージの自動認識、比較、そして正確な分類を可能にし、アーキテクチャ的な違いを解析する記述的な言語出力を生成する。
(3)ArchiLenseは、専門家のアノテーションと92.4%の一致率と84.5%の分類精度で、画像間のスタイリスティックな区別を巧みに捉えながら、アーキテクチャスタイルの認識において高いパフォーマンスを達成している。
提案手法は、従来の分析に固有の主観性を超越し、建築文化の比較研究において、より客観的かつ正確な視点を提供する。
関連論文リスト
- A vision-intelligent framework for mapping the genealogy of vernacular architecture [1.6520865430314056]
本研究は,研究者の直感を高めるため,知的技術を組み込む研究枠組みを提案する。
シンガポールのチャイナタウンにある1,277の歴史的店舗の様式的分類について検討する。
発見は1980年代と1990年代にシンガポールの都市再開発庁が制定した年代分類を超えて拡大した。
論文 参考訳(メタデータ) (2025-05-24T06:39:28Z) - The Architecture Tradeoff and Risk Analysis Framework (ATRAF): A Unified Approach for Evaluating Software Architectures, Reference Architectures, and Architectural Frameworks [0.0]
アーキテクチャトレードオフとリスク分析フレームワーク(ATRAF)について紹介する。
ATRAFは、アーキテクチャレベルを越えたトレードオフとリスクを評価するシナリオ駆動のフレームワークである。
アーキテクチャアーティファクトの継続的な洗練をサポートしながら、感受性、トレードオフ、リスクの識別を可能にする。
論文 参考訳(メタデータ) (2025-05-01T17:48:52Z) - ArchSeek: Retrieving Architectural Case Studies Using Vision-Language Models [6.936621948709572]
ArchSeekは、レコメンデーション機能を備えた革新的なケーススタディ検索システムだ。
視覚言語モデルとクロスモーダルな埋め込みによって、きめ細かい制御でテキストと画像のクエリを可能にする。
論文 参考訳(メタデータ) (2025-03-24T13:50:23Z) - Semi-Automated Design of Data-Intensive Architectures [49.1574468325115]
本稿では,データ集約型アーキテクチャの開発手法を紹介する。
i) 特定のアプリケーションシナリオに適したアーキテクチャを設計し、(ii) アプリケーションを実装するための具体的なシステムの適切なセットを選択することをアーキテクトに案内します。
私たちが採用している記述言語は、研究者や実践者が提案するデータ集約アーキテクチャの重要な側面を捉えることができる。
論文 参考訳(メタデータ) (2025-03-21T16:01:11Z) - Evaluation of Architectural Synthesis Using Generative AI [49.1574468325115]
本稿では,GPT-4o と Claude 3.5 の2つのシステムの比較評価を行った。
Palladio's Four Books of Architecture (1965) のヴィラ・ロトンダ (Villa Rotonda) とパラッツォ・ポルト (Palazo Porto) の2つの建物についてケーススタディを行った。
本研究では,(1)図面から建物の2次元および3次元表現を解釈し,(2)CADソフトウェアスクリプトに建物をエンコードし,(3)アウトプットに基づく自己改善を行うシステムの能力を評価する。
論文 参考訳(メタデータ) (2025-03-04T18:39:28Z) - A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - Thoughts on Architecture [0.0]
建築という用語はギリシア語の起源から進化し、建築やコンピュータへの応用から、より最近の心の表象へと発展した。
この記事では、これらの各段階で導入された一連の関連する区別と、3つすべてにまたがるアーキテクチャの定義について、この歴史からの教訓について考察する。
論文 参考訳(メタデータ) (2023-06-23T15:47:17Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。