論文の概要: Building Vision Models upon Heat Conduction
- arxiv url: http://arxiv.org/abs/2405.16555v2
- Date: Mon, 14 Apr 2025 10:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:45:39.363859
- Title: Building Vision Models upon Heat Conduction
- Title(参考訳): 熱伝導による建築ビジョンモデル
- Authors: Zhaozhi Wang, Yue Liu, Yunjie Tian, Yunfan Liu, Yaowei Wang, Qixiang Ye,
- Abstract要約: 本研究は, 物理的熱伝導原理に基づく熱伝導演算子 (HCO) について紹介する。
HCOは熱源としてイメージパッチを概念化し、適応的な熱エネルギー拡散を通じて相関をモデル化する。
vHeatは、Swin-Transformerと比較して最大で3倍のスループット、GPUメモリ割り当ての80%削減、計算FLOPの35%削減を実現している。
- 参考スコア(独自算出の注目度): 66.1594989193046
- License:
- Abstract: Visual representation models leveraging attention mechanisms are challenged by significant computational overhead, particularly when pursuing large receptive fields. In this study, we aim to mitigate this challenge by introducing the Heat Conduction Operator (HCO) built upon the physical heat conduction principle. HCO conceptualizes image patches as heat sources and models their correlations through adaptive thermal energy diffusion, enabling robust visual representations. HCO enjoys a computational complexity of O(N^1.5), as it can be implemented using discrete cosine transformation (DCT) operations. HCO is plug-and-play, combining with deep learning backbones produces visual representation models (termed vHeat) with global receptive fields. Experiments across vision tasks demonstrate that, beyond the stronger performance, vHeat achieves up to a 3x throughput, 80% less GPU memory allocation, and 35% fewer computational FLOPs compared to the Swin-Transformer. Code is available at https://github.com/MzeroMiko/vHeat.
- Abstract(参考訳): 注意機構を利用した視覚表現モデルは、特に大きな受容領域を追求する場合に、計算上の大きなオーバーヘッドによって挑戦される。
本研究では, 物理的熱伝導原理に基づく熱伝導演算子(HCO)の導入により, この課題を軽減することを目的とする。
HCOは、画像パッチを熱源として概念化し、適応的な熱エネルギー拡散を通じて相関をモデル化し、堅牢な視覚表現を可能にする。
HCOは、離散コサイン変換(DCT)演算を用いて実装できるため、O(N^1.5)の計算複雑性を享受する。
HCOはプラグ・アンド・プレイであり、ディープラーニングのバックボーンと組み合わせて視覚表現モデル(vHeatと呼ばれる)とグローバルな受容場を生成する。
ビジョンタスクによる実験では、vHeatはパフォーマンスが向上するだけでなく、最大3倍のスループット、GPUメモリ割り当ての80%削減、Swin-Transformerに比べて計算FLOPの35%削減を実現している。
コードはhttps://github.com/MzeroMiko/vHeat.comで入手できる。
関連論文リスト
- Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。
本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。
実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-04T17:55:33Z) - RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [41.70039494644282]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。
具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。
注意に基づくリモートセンシング基礎モデルと比較して、メモリ消費を84%減らし、FLOPを24%減らし、スループットを2.7倍改善する。
論文 参考訳(メタデータ) (2024-11-27T01:43:38Z) - HcNet: Image Modeling with Heat Conduction Equation [6.582336726258388]
本稿では,モデル全体のアーキテクチャ設計を熱伝導理論フレームワークに統合することを目的とする。
私たちのHeat Conduction Network(HcNet)は競争力のあるパフォーマンスを示しています。
論文 参考訳(メタデータ) (2024-08-12T02:48:00Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Deep convolutional surrogates and degrees of freedom in thermal design [0.0]
畳み込みニューラルネットワーク(CNN)は、画像として保存されたトポロジから直接計算流体力学(CFD)の結果を予測するために用いられる。
本稿では,複合ベジエ曲線を用いた複素フィン測地における熱伝達と圧力降下予測のための代理モデルを提案する。
論文 参考訳(メタデータ) (2022-08-16T00:45:39Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。