論文の概要: vHeat: Building Vision Models upon Heat Conduction
- arxiv url: http://arxiv.org/abs/2405.16555v1
- Date: Sun, 26 May 2024 12:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-28 20:29:28.042682
- Title: vHeat: Building Vision Models upon Heat Conduction
- Title(参考訳): vHeat: 熱伝導による視覚モデルの構築
- Authors: Zhaozhi Wang, Yue Liu, Yunfan Liu, Hongtian Yu, Yaowei Wang, Qixiang Ye, Yunjie Tian,
- Abstract要約: vHeatは、高い計算効率とグローバルな受容場の両方を同時に達成する、新しいビジョンバックボーンモデルである。
基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
- 参考スコア(独自算出の注目度): 63.00030330898876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental problem in learning robust and expressive visual representations lies in efficiently estimating the spatial relationships of visual semantics throughout the entire image. In this study, we propose vHeat, a novel vision backbone model that simultaneously achieves both high computational efficiency and global receptive field. The essential idea, inspired by the physical principle of heat conduction, is to conceptualize image patches as heat sources and model the calculation of their correlations as the diffusion of thermal energy. This mechanism is incorporated into deep models through the newly proposed module, the Heat Conduction Operator (HCO), which is physically plausible and can be efficiently implemented using DCT and IDCT operations with a complexity of $\mathcal{O}(N^{1.5})$. Extensive experiments demonstrate that vHeat surpasses Vision Transformers (ViTs) across various vision tasks, while also providing higher inference speeds, reduced FLOPs, and lower GPU memory usage for high-resolution images. The code will be released at https://github.com/MzeroMiko/vHeat.
- Abstract(参考訳): 堅牢で表現力のある視覚表現を学習する際の根本的な問題は、画像全体を通して視覚的意味論の空間的関係を効率的に推定することにある。
本研究では,高い計算効率と大域的受容場を同時に実現するビジョンバックボーンモデルであるvHeatを提案する。
熱伝導の物理的原理にインスパイアされた基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
この機構は、新たに提案されたモジュールであるHeat Conduction Operator (HCO)を通じて深層モデルに組み込まれ、DCTとIDCTの操作で効率よく実装でき、複雑さは$\mathcal{O}(N^{1.5})$である。
大規模な実験では、vHeatは様々なビジョンタスクでビジョントランスフォーマー(ViT)を超越し、推論速度の向上、FLOPの削減、高解像度画像のGPUメモリ使用率の低下を実証している。
コードはhttps://github.com/MzeroMiko/vHeat.comでリリースされる。
関連論文リスト
- Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - PearSAN: A Machine Learning Method for Inverse Design using Pearson Correlated Surrogate Annealing [66.27103948750306]
PearSANは、大きな設計空間を持つ逆設計問題に適用可能な機械学習支援最適化アルゴリズムである。
ピアソン相関代理モデルを用いて、真の設計計量のメリットの図形を予測する。
最先端の最大設計効率は97%で、少なくとも以前の方法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2024-12-26T17:02:19Z) - Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。
本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。
実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-04T17:55:33Z) - RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [59.37279559684668]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。
具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。
注意に基づくリモートセンシング基礎モデルと比較して、メモリ使用量を84%削減し、FLOPを24%削減し、スループットを2.7倍改善する。
論文 参考訳(メタデータ) (2024-11-27T01:43:38Z) - Enhancing Thermal MOT: A Novel Box Association Method Leveraging Thermal Identity and Motion Similarity [0.6249768559720122]
熱画像における複数物体追跡(MOT)は、視覚的特徴の欠如と動きパターンの複雑さにより、ユニークな課題を呈している。
本稿では, 熱領域におけるMOT改善のための新しいボックスアソシエーション手法を提案する。
提案手法は熱的特徴空間と動的物体追跡を融合し,より正確でロバストなMOT性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T00:27:01Z) - Vision Calorimeter: Migrating Visual Object Detector to High-energy Particle Images [32.42087197412159]
Vision Calorimeter (ViC)は、高エネルギー粒子画像へ視覚オブジェクト検出技術を移行するデータ駆動フレームワークである。
ViCは従来のアプローチよりも大幅に優れており、インシデント位置予測エラーを46.16%削減した。
この研究は、高エネルギー物理学における汎用粒子パラメータ推定器としてのViCの大きなポテンシャルを裏付けるものである。
論文 参考訳(メタデータ) (2024-08-20T07:14:28Z) - HcNet: Image Modeling with Heat Conduction Equation [6.582336726258388]
本稿では,モデル全体のアーキテクチャ設計を熱伝導理論フレームワークに統合することを目的とする。
私たちのHeat Conduction Network(HcNet)は競争力のあるパフォーマンスを示しています。
論文 参考訳(メタデータ) (2024-08-12T02:48:00Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。
我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。
COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-12-04T14:23:18Z) - X-HRNet: Towards Lightweight Human Pose Estimation with Spatially
Unidimensional Self-Attention [63.64944381130373]
特に, 主ポーズ推定法は, 2次元単一ピークヒートマップを用いて人間の関節を推定する。
本稿では,空間的一次元自己認識(SUSA)という軽量で強力な代替手段を,ポイントワイズ(1×1)の畳み込みに導入する。
我々のSUSAは、ポイントワイド(1x1)畳み込みの計算複雑性を、精度を犠牲にすることなく96%削減する。
論文 参考訳(メタデータ) (2023-10-12T05:33:25Z) - Deep convolutional surrogates and degrees of freedom in thermal design [0.0]
畳み込みニューラルネットワーク(CNN)は、画像として保存されたトポロジから直接計算流体力学(CFD)の結果を予測するために用いられる。
本稿では,複合ベジエ曲線を用いた複素フィン測地における熱伝達と圧力降下予測のための代理モデルを提案する。
論文 参考訳(メタデータ) (2022-08-16T00:45:39Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Simultaneous Face Hallucination and Translation for Thermal to Visible
Face Verification using Axial-GAN [74.22129648654783]
低分解能熱画像から熱可視面検証のタスクを紹介します。
本稿では,Axial-Generative Adversarial Network (Axial-GAN)を提案する。
論文 参考訳(メタデータ) (2021-04-13T22:34:28Z) - Learning Accurate Entropy Model with Global Reference for Image
Compression [22.171750277528222]
本稿では,局所的およびグローバルな文脈情報を活用するために,画像圧縮のための新しいグローバル参照モデルを提案する。
この研究の副産物は、パフォーマンスをさらに向上する平均シフトGDNモジュールの革新である。
論文 参考訳(メタデータ) (2020-10-16T11:27:46Z) - Efficient and Model-Based Infrared and Visible Image Fusion Via
Algorithm Unrolling [24.83209572888164]
赤外線および可視画像融合(IVIF)は、赤外線画像からの熱放射情報を保持する画像と、可視画像からテクスチャの詳細を取得することを期待している。
従来のCNNベースのIVIFモデルの欠点を克服するために,モデルベース畳み込みニューラルネットワーク(CNN)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-12T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。