Fugu-MT 論文翻訳(概要): Building Vision Models upon Heat Conduction

論文の概要: Building Vision Models upon Heat Conduction

arxiv url: http://arxiv.org/abs/2405.16555v2
Date: Mon, 14 Apr 2025 10:44:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 14:13:53.179625
Title: Building Vision Models upon Heat Conduction
Title（参考訳）: 熱伝導による建築ビジョンモデル
Authors: Zhaozhi Wang, Yue Liu, Yunjie Tian, Yunfan Liu, Yaowei Wang, Qixiang Ye,
Abstract要約: 本研究は, 物理的熱伝導原理に基づく熱伝導演算子 (HCO) について紹介する。 HCOは熱源としてイメージパッチを概念化し、適応的な熱エネルギー拡散を通じて相関をモデル化する。 vHeatは、Swin-Transformerと比較して最大で3倍のスループット、GPUメモリ割り当ての80%削減、計算FLOPの35%削減を実現している。
参考スコア（独自算出の注目度）: 66.1594989193046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual representation models leveraging attention mechanisms are challenged by significant computational overhead, particularly when pursuing large receptive fields. In this study, we aim to mitigate this challenge by introducing the Heat Conduction Operator (HCO) built upon the physical heat conduction principle. HCO conceptualizes image patches as heat sources and models their correlations through adaptive thermal energy diffusion, enabling robust visual representations. HCO enjoys a computational complexity of O(N^1.5), as it can be implemented using discrete cosine transformation (DCT) operations. HCO is plug-and-play, combining with deep learning backbones produces visual representation models (termed vHeat) with global receptive fields. Experiments across vision tasks demonstrate that, beyond the stronger performance, vHeat achieves up to a 3x throughput, 80% less GPU memory allocation, and 35% fewer computational FLOPs compared to the Swin-Transformer. Code is available at https://github.com/MzeroMiko/vHeat.
Abstract（参考訳）: 注意機構を利用した視覚表現モデルは、特に大きな受容領域を追求する場合に、計算上の大きなオーバーヘッドによって挑戦される。本研究では, 物理的熱伝導原理に基づく熱伝導演算子(HCO)の導入により, この課題を軽減することを目的とする。 HCOは、画像パッチを熱源として概念化し、適応的な熱エネルギー拡散を通じて相関をモデル化し、堅牢な視覚表現を可能にする。 HCOは、離散コサイン変換(DCT)演算を用いて実装できるため、O(N^1.5)の計算複雑性を享受する。 HCOはプラグ・アンド・プレイであり、ディープラーニングのバックボーンと組み合わせて視覚表現モデル(vHeatと呼ばれる)とグローバルな受容場を生成する。ビジョンタスクによる実験では、vHeatはパフォーマンスが向上するだけでなく、最大3倍のスループット、GPUメモリ割り当ての80%削減、Swin-Transformerに比べて計算FLOPの35%削減を実現している。コードはhttps://github.com/MzeroMiko/vHeat.comで入手できる。

関連論文リスト

Veta-GS: View-dependent deformable 3D Gaussian Splatting for thermal infrared Novel-view Synthesis [3.1457219084519004]
熱赤外画像(TIR)に基づく3次元ガウス散乱(3D-GS)は, 新規な視点合成において注目されている。本稿では、ビュー依存の変形場とサーマル・フィーチャー・エクストラクタを利用して微妙な温度変化を捉えたVeta-GSを紹介する。本手法は既存手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2025-05-25T13:20:45Z)
Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文参考訳（メタデータ） (2025-04-30T03:57:28Z)
PearSAN: A Machine Learning Method for Inverse Design using Pearson Correlated Surrogate Annealing [66.27103948750306]
PearSANは、大きな設計空間を持つ逆設計問題に適用可能な機械学習支援最適化アルゴリズムである。ピアソン相関代理モデルを用いて、真の設計計量のメリットの図形を予測する。最先端の最大設計効率は97%で、少なくとも以前の方法よりも桁違いに高速である。
論文参考訳（メタデータ） (2024-12-26T17:02:19Z)
Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [59.37279559684668]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。注意に基づくリモートセンシング基礎モデルと比較して、メモリ使用量を84%削減し、FLOPを24%削減し、スループットを2.7倍改善する。
論文参考訳（メタデータ） (2024-11-27T01:43:38Z)
Enhancing Thermal MOT: A Novel Box Association Method Leveraging Thermal Identity and Motion Similarity [0.6249768559720122]
熱画像における複数物体追跡(MOT)は、視覚的特徴の欠如と動きパターンの複雑さにより、ユニークな課題を呈している。本稿では, 熱領域におけるMOT改善のための新しいボックスアソシエーション手法を提案する。提案手法は熱的特徴空間と動的物体追跡を融合し,より正確でロバストなMOT性能を実現する。
論文参考訳（メタデータ） (2024-11-20T00:27:01Z)
Vision Calorimeter: Migrating Visual Object Detector to High-energy Particle Images [32.42087197412159]
Vision Calorimeter (ViC)は、高エネルギー粒子画像へ視覚オブジェクト検出技術を移行するデータ駆動フレームワークである。 ViCは従来のアプローチよりも大幅に優れており、インシデント位置予測エラーを46.16%削減した。この研究は、高エネルギー物理学における汎用粒子パラメータ推定器としてのViCの大きなポテンシャルを裏付けるものである。
論文参考訳（メタデータ） (2024-08-20T07:14:28Z)
HcNet: Image Modeling with Heat Conduction Equation [6.582336726258388]
本稿では,モデル全体のアーキテクチャ設計を熱伝導理論フレームワークに統合することを目的とする。私たちのHeat Conduction Network(HcNet)は競争力のあるパフォーマンスを示しています。
論文参考訳（メタデータ） (2024-08-12T02:48:00Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。 COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文参考訳（メタデータ） (2023-12-04T14:23:18Z)
X-HRNet: Towards Lightweight Human Pose Estimation with Spatially Unidimensional Self-Attention [63.64944381130373]
特に, 主ポーズ推定法は, 2次元単一ピークヒートマップを用いて人間の関節を推定する。本稿では,空間的一次元自己認識(SUSA)という軽量で強力な代替手段を,ポイントワイズ(1×1)の畳み込みに導入する。我々のSUSAは、ポイントワイド(1x1)畳み込みの計算複雑性を、精度を犠牲にすることなく96%削減する。
論文参考訳（メタデータ） (2023-10-12T05:33:25Z)
Deep convolutional surrogates and degrees of freedom in thermal design [0.0]
畳み込みニューラルネットワーク(CNN)は、画像として保存されたトポロジから直接計算流体力学(CFD)の結果を予測するために用いられる。本稿では,複合ベジエ曲線を用いた複素フィン測地における熱伝達と圧力降下予測のための代理モデルを提案する。
論文参考訳（メタデータ） (2022-08-16T00:45:39Z)
Image-specific Convolutional Kernel Modulation for Single Image Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-11-16T11:05:10Z)
Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文参考訳（メタデータ） (2021-07-03T08:28:34Z)
TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文参考訳（メタデータ） (2021-05-17T15:33:25Z)
Simultaneous Face Hallucination and Translation for Thermal to Visible Face Verification using Axial-GAN [74.22129648654783]
低分解能熱画像から熱可視面検証のタスクを紹介します。本稿では,Axial-Generative Adversarial Network (Axial-GAN)を提案する。
論文参考訳（メタデータ） (2021-04-13T22:34:28Z)
Learning Accurate Entropy Model with Global Reference for Image Compression [22.171750277528222]
本稿では,局所的およびグローバルな文脈情報を活用するために,画像圧縮のための新しいグローバル参照モデルを提案する。この研究の副産物は、パフォーマンスをさらに向上する平均シフトGDNモジュールの革新である。
論文参考訳（メタデータ） (2020-10-16T11:27:46Z)
Efficient and Model-Based Infrared and Visible Image Fusion Via Algorithm Unrolling [24.83209572888164]
赤外線および可視画像融合(IVIF)は、赤外線画像からの熱放射情報を保持する画像と、可視画像からテクスチャの詳細を取得することを期待している。従来のCNNベースのIVIFモデルの欠点を克服するために,モデルベース畳み込みニューラルネットワーク(CNN)モデルを提案する。
論文参考訳（メタデータ） (2020-05-12T16:15:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。