論文の概要: FORTRESS: Function-composition Optimized Real-Time Resilient Structural Segmentation via Kolmogorov-Arnold Enhanced Spatial Attention Networks
- arxiv url: http://arxiv.org/abs/2507.12675v1
- Date: Wed, 16 Jul 2025 23:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.297466
- Title: FORTRESS: Function-composition Optimized Real-Time Resilient Structural Segmentation via Kolmogorov-Arnold Enhanced Spatial Attention Networks
- Title(参考訳): FORTRESS: Kolmogorov-Arnold拡張空間アテンションネットワークによる関数分割最適化リアルタイム弾性構造セグメンテーション
- Authors: Christina Thrainer, Md Meftahul Ferdaus, Mahdi Abdelguerfi, Christian Guetl, Steven Sloan, Kendall N. Niles, Ken Pathak,
- Abstract要約: FORTRESS (Function-composition Optimized Real-Time Resilient Structure) は、特別な手法を用いて精度と速度のバランスをとる新しいアーキテクチャである。
Fortressには,系統的に分離可能な畳み込みフレームワーク,適応型TiKAN統合,マルチスケールアテンション融合という,3つの重要なイノベーションが含まれている。
このアーキテクチャは 91% のパラメータ還元 (31M から 2.9M) 、91% の計算複雑性低減 (13.7 から 1.17 GFLOPs) 、および 3倍の推論速度向上によって、顕著な効率向上を実現している。
- 参考スコア(独自算出の注目度): 1.663204995903499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated structural defect segmentation in civil infrastructure faces a critical challenge: achieving high accuracy while maintaining computational efficiency for real-time deployment. This paper presents FORTRESS (Function-composition Optimized Real-Time Resilient Structural Segmentation), a new architecture that balances accuracy and speed by using a special method that combines depthwise separable convolutions with adaptive Kolmogorov-Arnold Network integration. FORTRESS incorporates three key innovations: a systematic depthwise separable convolution framework achieving a 3.6x parameter reduction per layer, adaptive TiKAN integration that selectively applies function composition transformations only when computationally beneficial, and multi-scale attention fusion combining spatial, channel, and KAN-enhanced features across decoder levels. The architecture achieves remarkable efficiency gains with 91% parameter reduction (31M to 2.9M), 91% computational complexity reduction (13.7 to 1.17 GFLOPs), and 3x inference speed improvement while delivering superior segmentation performance. Evaluation on benchmark infrastructure datasets demonstrates state-of-the-art results with an F1- score of 0.771 and a mean IoU of 0.677, significantly outperforming existing methods including U-Net, SA-UNet, and U- KAN. The dual optimization strategy proves essential for optimal performance, establishing FORTRESS as a robust solution for practical structural defect segmentation in resource-constrained environments where both accuracy and computational efficiency are paramount. Comprehensive architectural specifications are provided in the Supplemental Material. Source code is available at URL: https://github.com/faeyelab/fortress-paper-code.
- Abstract(参考訳): 土木インフラにおける構造欠陥の自動セグメンテーションは、リアルタイムデプロイメントの計算効率を維持しながら高い精度を達成するという、重大な課題に直面している。
本稿では,FORTRESS(Function-composition Optimized Real-Time Resilient Structure Segmentation)を提案する。
FORTRESSは3つの重要な革新を取り入れている: 階層ごとの3.6倍のパラメータ還元を達成する体系的な分離可能な畳み込みフレームワーク、計算的に有利な場合にのみ関数合成変換を選択的に適用する適応型TiKAN統合、デコーダレベルをまたいだ空間的、チャネル的、および感応的な特徴を組み合わせたマルチスケールの注意融合である。
このアーキテクチャは、91%のパラメータ還元(31Mから2.9M)、91%の計算複雑性低減(13.7から1.17GFLOPs)、3倍の推論速度向上を実現し、セグメンテーション性能の向上を実現している。
ベンチマークインフラストラクチャデータセットの評価では、F1スコアが0.771、平均IoUが0.677で、U-Net、SA-UNet、U-kanといった既存の手法よりも大幅に優れています。
双対最適化戦略は、精度と計算効率が最重要である資源制約環境において、FORTRESSを実用的構造欠陥セグメント化のための堅牢なソリューションとして確立する。
総合的な建築仕様は補足資料に記載されている。
ソースコードはURLで入手できる。
関連論文リスト
- EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。
本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。
提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文 参考訳(メタデータ) (2025-06-11T18:34:57Z) - Is Architectural Complexity Overrated? Competitive and Interpretable Knowledge Graph Completion with RelatE [6.959701672059059]
RelatEは、エンティティとリレーションの二重表現を効率的に統合する、解釈可能でモジュラーな方法である。
標準ベンチマークにおいて、競争力や優れたパフォーマンスを達成する。
摂動実験では、MRRはTransEと比較して最大61%、RotatEと比較して最大19%減少し、ロバスト性が改善された。
論文 参考訳(メタデータ) (2025-05-25T04:36:52Z) - AdaptoVision: A Multi-Resolution Image Recognition Model for Robust and Scalable Classification [0.0]
AdaptoVisionは、計算複雑性と分類精度を効率的にバランスさせるように設計された、新しい畳み込みニューラルネットワーク(CNN)アーキテクチャである。
強化された残余単位、深さ的に分離可能な畳み込み、階層的なスキップ接続を利用することで、AdaptoVisionはパラメータ数と計算要求を大幅に削減する。
CIFAR-10では95.3%、CIFAR-100では85.77%であり、事前訓練された重量に依存しない。
論文 参考訳(メタデータ) (2025-04-17T05:23:07Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。
本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。
提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T19:10:37Z) - Transformer^-1: Input-Adaptive Computation for Resource-Constrained Deployment [3.6219999155937113]
本稿では,動的シナリオ下でのディープラーニングモデルにおける固定計算パラダイムによる資源無駄に対処するためのTransformer$-1$アーキテクチャを提案する。
ベンチマークテストでは,標準的なTransformerと比較してFLOPを42.7%削減し,ピークメモリ使用率を3%削減した。
また,いくつかの自然言語処理タスクの実験を行い,資源効率の大幅な向上を実現した。
論文 参考訳(メタデータ) (2025-01-26T15:31:45Z) - Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation [15.377463849213033]
EFAは、グローバルな非線型性の機能に焦点を当てた、新しいグローバルなコンテキストモデリングメカニズムである。
ISR法では,推論フェーズにおけるキー値の分解能を低減し,計算性能とトレードオフのギャップを軽減できる。
EDAFormerは、既存のトランスフォーマーベースのセマンティックセグメンテーションモデルと比較して、効率的な計算で最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-07-24T13:24:25Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。