論文の概要: Tensor-to-Tensor Models with Fast Iterated Sum Features
- arxiv url: http://arxiv.org/abs/2506.06041v1
- Date: Fri, 06 Jun 2025 12:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.474065
- Title: Tensor-to-Tensor Models with Fast Iterated Sum Features
- Title(参考訳): 高速反復サム特徴を持つテンソル・ツー・テンソルモデル
- Authors: Joscha Diehl, Rasheed Ibraheem, Leonard Schmitz, Yue Wu,
- Abstract要約: 入力サイズが線形な新しいテンソル・ツー・テンソル層を提案する。
画像処理パイプラインに挿入可能なイメージ・ツー・イメージ層を提供する。
- 参考スコア(独自算出の注目度): 3.1806397908898063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data in the form of images or higher-order tensors is ubiquitous in modern deep learning applications. Owing to their inherent high dimensionality, the need for subquadratic layers processing such data is even more pressing than for sequence data. We propose a novel tensor-to-tensor layer with linear cost in the input size, utilizing the mathematical gadget of ``corner trees'' from the field of permutation counting. In particular, for order-two tensors, we provide an image-to-image layer that can be plugged into image processing pipelines. On the one hand, our method can be seen as a higher-order generalization of state-space models. On the other hand, it is based on a multiparameter generalization of the signature of iterated integrals (or sums). The proposed tensor-to-tensor concept is used to build a neural network layer called the Fast Iterated Sums (FIS) layer which integrates seamlessly with other layer types. We demonstrate the usability of the FIS layer with both classification and anomaly detection tasks. By replacing some layers of a smaller ResNet architecture with FIS, a similar accuracy (with a difference of only 0.1\%) was achieved in comparison to a larger ResNet while reducing the number of trainable parameters and multi-add operations. The FIS layer was also used to build an anomaly detection model that achieved an average AUROC of 97.3\% on the texture images of the popular MVTec AD dataset. The processing and modelling codes are publicly available at https://github.com/diehlj/fast-iterated-sums.
- Abstract(参考訳): 画像や高次テンソルの形でのデータは、現代のディープラーニングアプリケーションで広く使われている。
その固有の高次元性のため、そのようなデータを処理するサブクワッドラティック層の必要性は、シーケンスデータよりもさらに迫っている。
置換数から'corner tree'の数学的ガジェットを用いて,入力サイズに線形コストのかかる新しいテンソル・ツー・テンソル層を提案する。
特に、2次テンソルに対しては、画像処理パイプラインに挿入可能なイメージ・ツー・イメージ層を提供する。
一方,本手法は状態空間モデルの高次一般化と見なすことができる。
一方、これは反復積分(または和)の符号の多重パラメータ一般化に基づいている。
提案されたテンソル・ツー・テンソルの概念は、他のレイヤタイプとシームレスに統合されるFast Iterated Sums (FIS)層と呼ばれるニューラルネットワーク層を構築するために使用される。
分類タスクと異常検出タスクの両方でFIS層のユーザビリティを実証する。
より小さなResNetアーキテクチャのいくつかのレイヤをFISに置き換えることで、トレーニング可能なパラメータの数とマルチ加算操作を減らしながら、より大きなResNetと比較して、同様の精度(0.1\%しか差がない)を実現した。
FIS層はまた、一般的なMVTec ADデータセットのテクスチャ画像で平均97.3\%のAUROCを達成した異常検出モデルを構築するためにも使用された。
処理とモデリングのコードはhttps://github.com/diehlj/fast-iterated-sums.comで公開されている。
関連論文リスト
- LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
このモデルは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
Data Science Bowls、GlaS、ISIC2018、PH2、Sunnybrook、Lung X-rayといった公開データセットの実験は有望な結果を示している。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Learning strides in convolutional neural networks [34.20666933112202]
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2022-02-03T16:03:36Z) - Patch-based medical image segmentation using Quantum Tensor Networks [1.5899411215927988]
テンソルネットワークを用いた教師付き設定で画像分割を定式化する。
鍵となるアイデアは、まず画像パッチのピクセルを指数関数的に高次元の特徴空間に引き上げることである。
提案モデルの性能を3つの2次元および1つの3次元バイオメディカルイメージングデータセットで評価した。
論文 参考訳(メタデータ) (2021-09-15T07:54:05Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。
EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。
我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文 参考訳(メタデータ) (2020-04-06T19:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。