論文の概要: Heuristic Style Transfer for Real-Time, Efficient Weather Attribute Detection
- arxiv url: http://arxiv.org/abs/2604.13947v1
- Date: Wed, 15 Apr 2026 15:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.592814
- Title: Heuristic Style Transfer for Real-Time, Efficient Weather Attribute Detection
- Title(参考訳): リアルタイム・効率的な気象属性検出のためのヒューリスティックなスタイル転送
- Authors: Hamed Ouattara, Pierre Duthon, Pascal Houssam Salmane, Frédéric Bernardin, Omar Ait Aider,
- Abstract要約: RGB画像から気象条件を検出するための軽量で効率的なアーキテクチャを提案する。
気象タイプ(雨,雨,雪,霧)と,強度,可視性,地盤条件などの相補的特性を推定した。
- 参考スコア(独自算出の注目度): 2.7837697086152122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present lightweight and efficient architectures to detect weather conditions from RGB images, predicting the weather type (sunny, rain, snow, fog) and 11 complementary attributes such as intensity, visibility, and ground condition, for a total of 53 classes across the tasks. This work examines to what extent weather conditions manifest as variations in visual style. We investigate style-inspired techniques, including Gram matrices, a truncated ResNet-50 targeting lower and intermediate layers, and PatchGAN-style architectures, within a multi-task framework with attention mechanisms. Two families are introduced: RTM (ResNet50-Truncated-MultiTasks) and PMG (PatchGAN-MultiTasks-Gram), together with their variants. Our contributions include automation of Gram-matrix computation, integration of PatchGAN into supervised multi-task learning, and local style capture through local Gram for improved spatial coherence. We also release a dataset of 503,875 images annotated with 12 weather attributes under a Creative Commons Attribution (CC-BY) license. The models achieve F1 scores above 96 percent on our internal test set and above 78 percent in zero-shot evaluation on several external datasets, confirming their generalization ability. The PMG architecture, with fewer than 5 million parameters, runs in real time with a small memory footprint, making it suitable for embedded systems. The modular design of the models also allows style-related or weather-related tasks to be added or removed as needed.
- Abstract(参考訳): 我々は,RGB画像から気象状況を検出するための軽量で効率的なアーキテクチャを提案し,風速,雨,雪,霧などの気象タイプを予測し,各タスクの合計53クラスについて,強度,可視性,地上条件などの相補的特性を推定した。
この研究は、気象条件が視覚的スタイルの変動としてどの程度現れるかを調べる。
本研究では,低層層と中層層を対象とするTruncated ResNet-50やPatchGANスタイルアーキテクチャなどのスタイルに触発された手法を,注目機構を備えたマルチタスクフレームワーク内で検討する。
RTM (ResNet50-Truncated-MultiTasks) と PMG (PatchGAN-MultiTasks-Gram) の2つのファミリーが導入された。
我々の貢献は、Gram-matrix計算の自動化、PatchGANの教師付きマルチタスク学習への統合、局所的なGramによる局所的なスタイルキャプチャによる空間コヒーレンスの改善である。
また、Creative Commons Attribution (CC-BY)ライセンスの下で、12の気象属性で注釈付けされた503,875イメージのデータセットもリリースしました。
モデルは、内部テストセットで96%以上、外部データセットでゼロショット評価で78%以上、F1スコアを達成し、その一般化能力を確認します。
パラメータが500万未満のPMGアーキテクチャは、メモリフットプリントを小さくして、リアルタイムで動作し、組み込みシステムに適している。
モジュラーデザインでは、必要に応じてスタイル関連のタスクや天気関連のタスクを追加または削除することもできる。
関連論文リスト
- RobuMTL: Enhancing Multi-Task Learning Robustness Against Weather Conditions [3.537921035534423]
RobuMTLは視覚的劣化に適応的に対処するために設計された新しいアーキテクチャである。
本フレームワークは,入力特性に基づいた適応的特殊化を実現する。
PASCALベンチマークでは、RobuMTLは1回の摂動下で平均相対改善率+2.8%を提供する。
NYUD-v2では、RobuMTLはタスク間の平均相対的な改善を+9.7%達成している。
論文 参考訳(メタデータ) (2026-01-16T00:41:42Z) - One Patch is All You Need: Joint Surface Material Reconstruction and Classification from Minimal Visual Cues [0.9649815778578629]
最小限の視覚入力から表面マテリア再構成と分類のための統一モデルSMARCを導入する。
画像の10%の連続パッチしか与えないSMARCは、材料カテゴリを同時に分類しながら、完全なRGB表面を認識し、再構成する。
SMARCは、PSNRは17.55dB、材料分類精度は85.10%である。
論文 参考訳(メタデータ) (2025-11-25T19:21:27Z) - Multi-State Tracker: Enhancing Efficient Object Tracking via Multi-State Specialization and Interaction [49.36913716757758]
マルチステートトラッカー(MST)は、過去の効率的なトラッカーを複数のデータセットで上回っている。
MSTは特徴抽出中に複数の段階で複数の状態表現を生成する。
計算では0.1GFLOP、パラメータでは0.66Mしか発生しない。
論文 参考訳(メタデータ) (2025-08-15T15:19:39Z) - Gradient-Guided Parameter Mask for Multi-Scenario Image Restoration Under Adverse Weather [16.956703689174198]
悪天候下でのマルチシナリオ画像復元のためのグラディエントガイド付きシナリオマスクを提案する。
本手法は, モデルパラメータを, 勾配変動強度の評価により, 共通成分と特異成分に分割する。
これにより、モデルがそれぞれの気象シナリオに関連する機能を正確かつ適応的に学習し、性能を損なうことなく効率と効率の両方を改善することができる。
論文 参考訳(メタデータ) (2024-11-23T16:16:27Z) - Multi-Weather Image Restoration via Histogram-Based Transformer Feature Enhancement [14.986500375481546]
悪天候下では、単一天候の復元モデルは現実的な要求を満たすのに苦労する。
混合気象条件を効果的に処理し、画像品質を自動で向上できるモデルが必要である。
本稿では、タスク内パッチブロックと連動して、劣化した画像に埋め込まれたタスク固有の特徴を効果的に抽出するタスクシーケンス生成モジュールを提案する。
論文 参考訳(メタデータ) (2024-09-10T08:47:03Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization [62.751303924391564]
映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。
我々は,メモリベースの機能伝搬モジュールを開発し,遠方のフレームからの機能との信頼性の高い接続を確立する。
空間時間近傍の隣接するフレームから特徴を集約するローカルアテンションモジュールを開発した。
論文 参考訳(メタデータ) (2024-04-09T12:23:30Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。