論文の概要: vHeat: Building Vision Models upon Heat Conduction
- arxiv url: http://arxiv.org/abs/2405.16555v1
- Date: Sun, 26 May 2024 12:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:29:28.042682
- Title: vHeat: Building Vision Models upon Heat Conduction
- Title(参考訳): vHeat: 熱伝導による視覚モデルの構築
- Authors: Zhaozhi Wang, Yue Liu, Yunfan Liu, Hongtian Yu, Yaowei Wang, Qixiang Ye, Yunjie Tian,
- Abstract要約: vHeatは、高い計算効率とグローバルな受容場の両方を同時に達成する、新しいビジョンバックボーンモデルである。
基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
- 参考スコア(独自算出の注目度): 63.00030330898876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental problem in learning robust and expressive visual representations lies in efficiently estimating the spatial relationships of visual semantics throughout the entire image. In this study, we propose vHeat, a novel vision backbone model that simultaneously achieves both high computational efficiency and global receptive field. The essential idea, inspired by the physical principle of heat conduction, is to conceptualize image patches as heat sources and model the calculation of their correlations as the diffusion of thermal energy. This mechanism is incorporated into deep models through the newly proposed module, the Heat Conduction Operator (HCO), which is physically plausible and can be efficiently implemented using DCT and IDCT operations with a complexity of $\mathcal{O}(N^{1.5})$. Extensive experiments demonstrate that vHeat surpasses Vision Transformers (ViTs) across various vision tasks, while also providing higher inference speeds, reduced FLOPs, and lower GPU memory usage for high-resolution images. The code will be released at https://github.com/MzeroMiko/vHeat.
- Abstract(参考訳): 堅牢で表現力のある視覚表現を学習する際の根本的な問題は、画像全体を通して視覚的意味論の空間的関係を効率的に推定することにある。
本研究では,高い計算効率と大域的受容場を同時に実現するビジョンバックボーンモデルであるvHeatを提案する。
熱伝導の物理的原理にインスパイアされた基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
この機構は、新たに提案されたモジュールであるHeat Conduction Operator (HCO)を通じて深層モデルに組み込まれ、DCTとIDCTの操作で効率よく実装でき、複雑さは$\mathcal{O}(N^{1.5})$である。
大規模な実験では、vHeatは様々なビジョンタスクでビジョントランスフォーマー(ViT)を超越し、推論速度の向上、FLOPの削減、高解像度画像のGPUメモリ使用率の低下を実証している。
コードはhttps://github.com/MzeroMiko/vHeat.comでリリースされる。
関連論文リスト
- Enhancing Thermal MOT: A Novel Box Association Method Leveraging Thermal Identity and Motion Similarity [0.6249768559720122]
熱画像における複数物体追跡(MOT)は、視覚的特徴の欠如と動きパターンの複雑さにより、ユニークな課題を呈している。
本稿では, 熱領域におけるMOT改善のための新しいボックスアソシエーション手法を提案する。
提案手法は熱的特徴空間と動的物体追跡を融合し,より正確でロバストなMOT性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T00:27:01Z) - HcNet: Image Modeling with Heat Conduction Equation [6.582336726258388]
本稿では,モデル全体のアーキテクチャ設計を熱伝導理論フレームワークに統合することを目的とする。
私たちのHeat Conduction Network(HcNet)は競争力のあるパフォーマンスを示しています。
論文 参考訳(メタデータ) (2024-08-12T02:48:00Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Deep convolutional surrogates and degrees of freedom in thermal design [0.0]
畳み込みニューラルネットワーク(CNN)は、画像として保存されたトポロジから直接計算流体力学(CFD)の結果を予測するために用いられる。
本稿では,複合ベジエ曲線を用いた複素フィン測地における熱伝達と圧力降下予測のための代理モデルを提案する。
論文 参考訳(メタデータ) (2022-08-16T00:45:39Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Simultaneous Face Hallucination and Translation for Thermal to Visible
Face Verification using Axial-GAN [74.22129648654783]
低分解能熱画像から熱可視面検証のタスクを紹介します。
本稿では,Axial-Generative Adversarial Network (Axial-GAN)を提案する。
論文 参考訳(メタデータ) (2021-04-13T22:34:28Z) - Learning Accurate Entropy Model with Global Reference for Image
Compression [22.171750277528222]
本稿では,局所的およびグローバルな文脈情報を活用するために,画像圧縮のための新しいグローバル参照モデルを提案する。
この研究の副産物は、パフォーマンスをさらに向上する平均シフトGDNモジュールの革新である。
論文 参考訳(メタデータ) (2020-10-16T11:27:46Z) - Efficient and Model-Based Infrared and Visible Image Fusion Via
Algorithm Unrolling [24.83209572888164]
赤外線および可視画像融合(IVIF)は、赤外線画像からの熱放射情報を保持する画像と、可視画像からテクスチャの詳細を取得することを期待している。
従来のCNNベースのIVIFモデルの欠点を克服するために,モデルベース畳み込みニューラルネットワーク(CNN)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-12T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。