論文の概要: Efficient Visual Representation Learning with Heat Conduction Equation
- arxiv url: http://arxiv.org/abs/2408.05901v3
- Date: Fri, 13 Jun 2025 03:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.42604
- Title: Efficient Visual Representation Learning with Heat Conduction Equation
- Title(参考訳): 熱伝導方程式を用いた効率的な視覚表現学習
- Authors: Zhemin Zhang, Xun Gong,
- Abstract要約: 本稿では,ニューラルネットワークのアーキテクチャ設計全体を熱伝導理論の枠組みに統合することを目的とする。
私たちのHeat Conduction Network(HcNet)は依然として競合性能を示しており、例えば、HcNet-TはImageNet-1K上で83.0%、パラメータは28M、MACは4.1Gである。
- 参考スコア(独自算出の注目度): 6.582336726258388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models, such as CNNs and ViTs, have powered the development of image representation learning. However, general guidance to model architecture design is still missing. Inspired by the connection between image representation learning and heat conduction, we model images by the heat conduction equation, where the essential idea is to conceptualize image features as temperatures and model their information interaction as the diffusion of thermal energy. Based on this idea, we find that many modern model architectures, such as residual structures, SE block, and feed-forward networks, can be interpreted from the perspective of the heat conduction equation. Therefore, we leverage the heat equation to design new and more interpretable models. As an example, we propose the Heat Conduction Layer and the Refinement Approximation Layer inspired by solving the heat conduction equation using Finite Difference Method and Fourier series, respectively. The main goal of this paper is to integrate the overall architectural design of neural networks into the theoretical framework of heat conduction. Nevertheless, our Heat Conduction Network (HcNet) still shows competitive performance, e.g., HcNet-T achieves 83.0% top-1 accuracy on ImageNet-1K while only requiring 28M parameters and 4.1G MACs. The code is publicly available at: https://github.com/ZheminZhang1/HcNet.
- Abstract(参考訳): CNNやViTといった基盤モデルは、画像表現学習の発展に力を入れている。
しかし、モデルアーキテクチャ設計に関する一般的なガイダンスはいまだに欠けている。
画像表現学習と熱伝導の関連性から着想を得た熱伝導方程式を用いて,画像の特徴を温度として概念化し,その情報相互作用を熱エネルギーの拡散としてモデル化する。
この考えに基づいて、残差構造、SEブロック、フィードフォワードネットワークなど、多くの現代的なモデルアーキテクチャが熱伝導方程式の観点から解釈できることがわかった。
したがって、熱方程式を利用して、より新しい解釈可能なモデルを設計する。
一例として,有限差分法とフーリエ級数を用いた熱伝導方程式の解法に着想を得た熱伝導層と微細化近似層を提案する。
本研究の主な目的は,ニューラルネットワークのアーキテクチャ設計全体を熱伝導理論の枠組みに統合することである。
それでも、私たちのHeat Conduction Network(HcNet)は競合性能を示しており、例えば、HcNet-TはImageNet-1K上で83.0%のTop-1精度を達成し、パラメータは28Mと4.1GのMACしか必要としない。
コードはhttps://github.com/ZheminZhang1/HcNetで公開されている。
関連論文リスト
- RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [59.37279559684668]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。
具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。
注意に基づくリモートセンシング基礎モデルと比較して、メモリ使用量を84%削減し、FLOPを24%削減し、スループットを2.7倍改善する。
論文 参考訳(メタデータ) (2024-11-27T01:43:38Z) - Physics Informed Distillation for Diffusion Models [21.173298037358954]
本研究では,教師の拡散モデルに対応するODEシステムの解法を表現するために,学生モデルを用いた物理インフォームド蒸留(PID)を導入する。
PIDの性能は最近の蒸留法と同等である。
論文 参考訳(メタデータ) (2024-11-13T07:03:47Z) - IFH: a Diffusion Framework for Flexible Design of Graph Generative Models [53.219279193440734]
グラフ生成モデルは,1行にグラフを生成するワンショットモデルと,ノードとエッジの連続的な付加によるグラフを生成するシーケンシャルモデルという,2つの顕著なファミリーに分類される。
本稿では,逐次度を規定するグラフ生成モデルであるInsert-Fill-Halt(IFH)を提案する。
論文 参考訳(メタデータ) (2024-08-23T16:24:40Z) - Finite-temperature properties of string-net models [0.0]
弦-ネットモデルの分割関数を計算し,いくつかの熱力学量について検討する。
熱力学の限界では、分配関数は純粋フラクトンと呼ばれる特別な粒子の寄与によって支配されることを示す。
また、励起に付随するウェグナー・ウィルソンループの挙動を解析し、それらが領域法則に従うことを示す。
論文 参考訳(メタデータ) (2024-06-28T07:51:58Z) - vHeat: Building Vision Models upon Heat Conduction [63.00030330898876]
vHeatは、高い計算効率とグローバルな受容場の両方を同時に達成する、新しいビジョンバックボーンモデルである。
基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
論文 参考訳(メタデータ) (2024-05-26T12:58:04Z) - Deep generative modelling of canonical ensemble with differentiable thermal properties [0.9421843976231371]
標準アンサンブルの温度の異なる変分モデルを提案する。
深部生成モデルを用いて、連続した温度範囲で自由エネルギーを推定し、同時に最小化する。
トレーニングプロセスはデータセットを必要とせず、任意の明示的な密度生成モデルで動作する。
論文 参考訳(メタデータ) (2024-04-29T03:41:49Z) - Thermal Face Image Classification using Deep Learning Techniques [0.0]
この研究は畳み込みニューラルネットワーク(CNN)アーキテクチャ、特にResNet-50とVGGNet-19を使用して、熱画像から特徴を抽出する。
実験により,提案手法の有効性を精度と効率の観点から検証した。
論文 参考訳(メタデータ) (2023-11-04T03:56:40Z) - FluxGAN: A Physics-Aware Generative Adversarial Network Model for
Generating Microstructures That Maintain Target Heat Flux [0.0]
本稿では,大規模構造物の高品質な画像を同時に生成できる物理認識型生成逆ネットワークモデルFluxGANを提案する。
このモデルは2次元(2次元)の例で訓練した後、3次元(3次元)ドメインでコーティングミクロ組織と物理プロセスを生成することができる。
本手法は, 溶射皮膜の設計と最適化を, 様々な用途に応用できる可能性を持っている。
論文 参考訳(メタデータ) (2023-10-06T23:13:40Z) - Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation [71.24808323646167]
ニューラルネットワークを用いてキーポイントのヒートマップを学習するための新しいスキームである textbfDiffusionPose を提案する。
トレーニング中、キーポイントはノイズを加えることでランダム分布に拡散され、拡散モデルはノイズ付きヒートマップから地中構造熱マップを復元する。
実験では、広く使用されているCOCO、CrowdPose、AI Challengeデータセット上で1.6、1.2、1.2mAPの改善による、私たちのスキームの長所が示されている。
論文 参考訳(メタデータ) (2023-06-29T16:24:32Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - Learning Manifold Implicitly via Explicit Heat-Kernel Learning [63.354671267760516]
そこで,本研究では,熱カーネルを学習することで,多様体情報を暗黙的に取得する,暗黙的多様体学習の概念を提案する。
学習した熱カーネルは、データ生成のための深層生成モデル(DGM)やベイズ推論のためのスタイン変分勾配Descentなど、さまざまなカーネルベースの機械学習モデルに適用することができる。
論文 参考訳(メタデータ) (2020-10-05T03:39:58Z) - An unsupervised learning approach to solving heat equations on chip
based on Auto Encoder and Image Gradient [0.43512163406551996]
チップ上での熱伝達方程式を解くことは、今後の5GおよびAIチップパッケージシステムにおいて非常に重要になる。
データ駆動方式はデータ飢餓に対処するため,物理情報ニューラルネットワーク(PINN)が提案されている。
本稿では,データを用いずにチップ上での熱伝達方程式を解くための教師なし学習手法について検討する。
論文 参考訳(メタデータ) (2020-07-19T15:01:01Z) - Efficient and Model-Based Infrared and Visible Image Fusion Via
Algorithm Unrolling [24.83209572888164]
赤外線および可視画像融合(IVIF)は、赤外線画像からの熱放射情報を保持する画像と、可視画像からテクスチャの詳細を取得することを期待している。
従来のCNNベースのIVIFモデルの欠点を克服するために,モデルベース畳み込みニューラルネットワーク(CNN)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-12T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。