論文の概要: End-to-End Implicit Neural Representations for Classification
- arxiv url: http://arxiv.org/abs/2503.18123v1
- Date: Sun, 23 Mar 2025 16:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:29.899803
- Title: End-to-End Implicit Neural Representations for Classification
- Title(参考訳): エンド・ツー・エンド型ニューラル表現による分類
- Authors: Alexander Gielisse, Jan van Gemert,
- Abstract要約: Inlicit Neural representations (INRs) は、ニューラルネットワークパラメータの信号を符号化し、信号再構成に優れた結果を示す。
INRをベースとした分類は、CNNのようなピクセルベースの手法に比べて、依然としてかなり低性能である。
本研究は,SIRENを学習段階のスキームとともに初期化するエンド・ツー・エンドの戦略を提案する。
- 参考スコア(独自算出の注目度): 57.55927378696826
- License:
- Abstract: Implicit neural representations (INRs) such as NeRF and SIREN encode a signal in neural network parameters and show excellent results for signal reconstruction. Using INRs for downstream tasks, such as classification, is however not straightforward. Inherent symmetries in the parameters pose challenges and current works primarily focus on designing architectures that are equivariant to these symmetries. However, INR-based classification still significantly under-performs compared to pixel-based methods like CNNs. This work presents an end-to-end strategy for initializing SIRENs together with a learned learning-rate scheme, to yield representations that improve classification accuracy. We show that a simple, straightforward, Transformer model applied to a meta-learned SIREN, without incorporating explicit symmetry equivariances, outperforms the current state-of-the-art. On the CIFAR-10 SIREN classification task, we improve the state-of-the-art without augmentations from 38.8% to 59.6%, and from 63.4% to 64.7% with augmentations. We demonstrate scalability on the high-resolution Imagenette dataset achieving reasonable reconstruction quality with a classification accuracy of 60.8% and are the first to do INR classification on the full ImageNet-1K dataset where we achieve a SIREN classification performance of 23.6%. To the best of our knowledge, no other SIREN classification approach has managed to set a classification baseline for any high-resolution image dataset. Our code is available at https://github.com/SanderGielisse/MWT
- Abstract(参考訳): NeRFやSIRENのような入射神経表現(INR)は、ニューラルネットワークパラメータの信号を符号化し、信号再構成に優れた結果を示す。
しかし、分類などの下流タスクにINRを使用するのは簡単ではない。
パラメータの本質的な対称性は課題を生じさせ、現在の研究は主にこれらの対称性と等価なアーキテクチャの設計に焦点を当てている。
しかし、INRベースの分類は、CNNのようなピクセルベースの手法と比較して、依然として性能が劣っている。
本研究は,SIRENを学習段階のスキームとともに初期化するエンド・ツー・エンドの戦略を示し,分類精度を向上させる表現を生成する。
メタ学習型SIRENに適用した単純で簡単なトランスフォーマーモデルにおいて、明示的な対称性の等式を組み込まずに、現在の最先端よりも優れていることを示す。
CIFAR-10 SIREN分類タスクでは、38.8%から59.6%、63.4%から64.7%に増加せずに最先端技術を改善する。
我々は、60.8%の分類精度で適切な再構成品質を達成する高解像度のImagenetteデータセットのスケーラビリティを実証し、SIREN分類性能23.6%の完全なImageNet-1Kデータセット上でINR分類を行った最初の例である。
我々の知る限りでは、他のSIREN分類手法では、高解像度の画像データセットの分類基準を設定することができていない。
私たちのコードはhttps://github.com/SanderGielisse/MWTで利用可能です。
関連論文リスト
- Meta-INR: Efficient Encoding of Volumetric Data via Meta-Learning Implicit Neural Representation [4.782024723712711]
Inlicit Neural representation (INR)は、ボリュームデータを符号化するための有望なソリューションとして登場した。
メタ学習アルゴリズムを用いて,データセットの部分的な観察から初期INRパラメータを学習するための事前学習戦略であるMeta-INRを提案する。
我々は,Meta-INRが,様々なデータセットにまたがる類似ボリュームデータをエンコードする上で有効な,高品質な一般化可能な特徴を効果的に抽出できることを実証した。
論文 参考訳(メタデータ) (2025-02-12T21:54:22Z) - NMformer: A Transformer for Noisy Modulation Classification in Wireless Communication [19.225546116534165]
無線通信におけるノイズレベルの異なるチャネル変調画像を予測するために,NMformerという視覚変換器(ViT)モデルを提案する。
VTはRGB画像に最も有効であるため、変調信号から星座図を生成する。
提案モデルには,2種類の予測設定(分布内と分布外)がある。
論文 参考訳(メタデータ) (2024-10-30T21:10:12Z) - IncSAR: A Dual Fusion Incremental Learning Framework for SAR Target Recognition [13.783950035836593]
IncSARは、ターゲット認識における破滅的な忘れに対処するために設計された漸進的な学習フレームワークである。
SAR画像に固有のスペックルノイズを軽減するため、ニューラルネットワーク近似に基づくデノナイジングモジュールを用いる。
MSTAR、SAR-AIRcraft-1.0、OpenSARShipベンチマークデータセットの実験は、IncSARが最先端のアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-10-08T08:49:47Z) - Investigating Weight-Perturbed Deep Neural Networks With Application in
Iris Presentation Attack Detection [11.209470024746683]
重みとバイアスパラメータに対する摂動に対するディープニューラルネットワークの感度を評価する。
トレーニングを行なわずに、ネットワークのパラメータを摂動させることで、改良されたモデルを提案する。
パラメータレベルのアンサンブルは、LivDet-Iris-2017データセットで43.58%、LivDet-Iris-2020データセットで9.25%の平均的な改善を示している。
論文 参考訳(メタデータ) (2023-11-21T18:18:50Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Automatic Machine Learning for Multi-Receiver CNN Technology Classifiers [16.244541005112747]
畳み込みニューラルネットワーク(CNN)は、信号分類のための最も研究されているディープラーニングモデルの1つである。
我々は、複数の同期受信機から収集した生のI/Qサンプルに基づく技術分類に焦点を当てた。
論文 参考訳(メタデータ) (2022-04-28T23:41:38Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。