論文の概要: Synergistic Perception and Generative Recomposition: A Multi-Agent Orchestration for Expert-Level Building Inspection
- arxiv url: http://arxiv.org/abs/2603.20143v1
- Date: Fri, 20 Mar 2026 17:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.251984
- Title: Synergistic Perception and Generative Recomposition: A Multi-Agent Orchestration for Expert-Level Building Inspection
- Title(参考訳): 相乗的知覚と生成的再構成:エキスパートレベル建築検査のための多エージェントオーケストレーション
- Authors: Hui Zhong, Yichun Gao, Luyan Liu, Xusen Guo, Zhaonian Kuang, Qiming Zhang, Xinhu Zheng,
- Abstract要約: ファサード欠陥検査は、構造的健康モニタリングと持続可能な都市維持に不可欠である。
textitFacadeFixerは、欠陥認識を独立した認識ではなく、協調的な推論タスクとして扱う。
textitFacadeFixerは、マルチタイプの欠陥干渉を処理するために、検出とセグメンテーションのための特別なエージェントを編成する。
textitFacadeFixerは最先端(SOTA)ベースラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 6.469960133115484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building facade defect inspection is fundamental to structural health monitoring and sustainable urban maintenance, yet it remains a formidable challenge due to extreme geometric variability, low contrast against complex backgrounds, and the inherent complexity of composite defects (e.g., cracks co-occurring with spalling). Such characteristics lead to severe pixel imbalance and feature ambiguity, which, coupled with the critical scarcity of high-quality pixel-level annotations, hinder the generalization of existing detection and segmentation models. To address gaps, we propose \textit{FacadeFixer}, a unified multi-agent framework that treats defect perception as a collaborative reasoning task rather than isolated recognition. Specifically,\textit{FacadeFixer} orchestrates specialized agents for detection and segmentation to handle multi-type defect interference, working in tandem with a generative agent to enable semantic recomposition. This process decouples intricate defects from noisy backgrounds and realistically synthesizes them onto diverse clean textures, generating high-fidelity augmented data with precise expert-level masks. To support this, we introduce a comprehensive multi-task dataset covering six primary facade categories with pixel-level annotations. Extensive experiments demonstrate that \textit{FacadeFixer} significantly outperforms state-of-the-art (SOTA) baselines. Specifically, it excels in capturing pixel-level structural anomalies and highlights generative synthesis as a robust solution to data scarcity in infrastructure inspection. Our code and dataset will be made publicly available.
- Abstract(参考訳): ファサード欠陥検査は、構造的健康モニタリングと持続可能な都市維持に不可欠であるが、過度の幾何学的変動、複雑な背景に対する低コントラスト、複合欠陥の固有の複雑さ(例えば、亀裂とスポーリングの共起)により、依然として深刻な課題である。
このような特徴は、高品質なピクセルレベルのアノテーションの欠如と相まって、既存の検出とセグメンテーションモデルの一般化を妨げている。
そこで本稿では,障害認識を孤立認識ではなく協調推論タスクとして扱う統合マルチエージェントフレームワークである‘textit{FacadeFixer} を提案する。
具体的には、\textit{FacadeFixer}は、検出とセグメンテーションのための特別なエージェントを編成し、マルチタイプの欠陥干渉を処理する。
このプロセスは、ノイズの多い背景から複雑な欠陥を分離し、それらをさまざまな清潔なテクスチャに現実的に合成する。
これをサポートするために、画素レベルのアノテーションで6つの主要なファサードカテゴリをカバーする包括的なマルチタスクデータセットを導入する。
大規模な実験により、 \textit{FacadeFixer} は最先端(SOTA)ベースラインを著しく上回ることを示した。
具体的には、ピクセルレベルの構造異常の捕捉に優れ、インフラストラクチャ検査におけるデータ不足に対する堅牢な解決策として生成合成を強調している。
コードとデータセットは公開されます。
関連論文リスト
- Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers [57.54843029965778]
制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
論文 参考訳(メタデータ) (2026-03-11T06:14:11Z) - CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing [51.56484100374058]
CLAIREは、教師なしの深層表現学習と、スマート製造システムにおけるインテリジェントな品質管理のための教師付き分類を統合したハイブリッドエンドツーエンド学習フレームワークである。
最適化されたディープオートエンコーダを使用して、生の入力をコンパクトな潜伏空間に変換し、不適切な特徴やノイズを抑えながら本質的なデータ構造を効果的にキャプチャする。
提案したフレームワークは、堅牢な障害検出のために、説明可能なAIと機能認識の正規化を統合する可能性を強調している。
論文 参考訳(メタデータ) (2026-03-06T15:11:58Z) - Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise [12.720216418233795]
QARMVC(Quality-Aware Robust Multi-View Clustering)と呼ばれる新しいフレームワークを提案する。
QARMVCは、ビュー再構成に固有のセマンティクスを抽出するために、情報ボトルネック機構を採用している。
5つのベンチマークデータセットの実験では、QARMVCは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T03:16:44Z) - Prior-guided Hierarchical Instance-pixel Contrastive Learning for Ultrasound Speckle Noise Suppression [2.7777929779304955]
本稿では,先行誘導型階層型インスタンス・ピクセルコントラスト学習モデルを提案する。
統計誘導型画素レベルのコントラスト学習戦略を導入し,ノイズとクリーンな画素間の分布差を増大させる。
グローバルコンテキストモデリングのためのTransformer-CNNアーキテクチャを,微細な解剖構造復元に最適化されたCNNベースのデコーダと組み合わせ,ハイブリッドトランスフォーマー-CNNアーキテクチャを採用する。
論文 参考訳(メタデータ) (2026-02-14T16:01:58Z) - Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection [58.535473924035365]
異常検出は自動産業検査において重要な役割を担い、他の均一な視覚パターンの微妙な欠陥や稀な欠陥を識別することを目的としている。
自己教師型オートエンコーダを用いて, 破損した入力の修復を学習する構造的異常検出に取り組む。
構造欠陥を模倣した画像に人工的破壊を注入する汚職モデルを導入する。
論文 参考訳(メタデータ) (2025-11-10T15:48:50Z) - Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance [17.81116161163605]
隠されたオブジェクトの見えない部分を生成するアモーダルコンプリートは、画像編集やARといったアプリケーションには不可欠である。
本稿では,これらの問題を克服するための先行的協調推論に基づく協調的マルチエージェント推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T13:20:06Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Multi-feature Reconstruction Network using Crossed-mask Restoration for Unsupervised Industrial Anomaly Detection [4.742650815342744]
産業生産における品質検査には, 教師なし異常検出が重要である。
本稿では,クロスマスク復元を用いた多機能再構成ネットワークMFRNetを提案する。
提案手法は,4つの公開データセットと1つの自作データセットにおいて,他の最先端のデータセットと高い競争力,あるいは大幅に上回っている。
論文 参考訳(メタデータ) (2024-04-20T05:13:56Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。