論文の概要: Exploring the Hierarchical Reasoning Model for Small Natural-Image Classification Without Augmentation
- arxiv url: http://arxiv.org/abs/2510.03598v1
- Date: Sat, 04 Oct 2025 01:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.143661
- Title: Exploring the Hierarchical Reasoning Model for Small Natural-Image Classification Without Augmentation
- Title(参考訳): 拡張性のない小さな自然画像分類のための階層的推論モデルの検討
- Authors: Alexander V. Mantzaris,
- Abstract要約: MNIST、CIFAR-10、CIFAR-100で意図的に生の条件下で評価される。
拡張性のない小型画像分類では、HRMは単純な畳み込みアーキテクチャと競合するものではないと結論付けている。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper asks whether the Hierarchical Reasoning Model (HRM) with the two Transformer-style modules $(f_L,f_H)$, one step (DEQ-style) training, deep supervision, Rotary Position Embeddings, and RMSNorm can serve as a practical image classifier. It is evaluated on MNIST, CIFAR-10, and CIFAR-100 under a deliberately raw regime: no data augmentation, identical optimizer family with one-epoch warmup then cosine-floor decay, and label smoothing. HRM optimizes stably and performs well on MNIST ($\approx 98\%$ test accuracy), but on small natural images it overfits and generalizes poorly: on CIFAR-10, HRM reaches 65.0\% after 25 epochs, whereas a two-stage Conv--BN--ReLU baseline attains 77.2\% while training $\sim 30\times$ faster per epoch; on CIFAR-100, HRM achieves only 29.7\% test accuracy despite 91.5\% train accuracy, while the same CNN reaches 45.3\% test with 50.5\% train accuracy. Loss traces and error analyses indicate healthy optimization but insufficient image-specific inductive bias for HRM in this regime. It is concluded that, for small-resolution image classification without augmentation, HRM is not competitive with even simple convolutional architectures as the HRM currently exist but this does not exclude possibilities that modifications to the model may allow it to improve greatly.
- Abstract(参考訳): 本稿では,2つのトランスフォーマースタイルのモジュールを持つ階層推論モデル (HRM) を$(f_L,f_H)$,1ステップ (DEQスタイル) トレーニング,深層監視,回転位置埋め込み,RMSNorm が実用的な画像分類器として機能するかを問う。
MNIST, CIFAR-10, CIFAR-100では, データ増倍化がなく, 温暖化, コサインフロアの崩壊, ラベルの平滑化が認められた。
CIFAR-10では、HRMは25時間後に65.0\%に達するが、2段階のConv-BN-ReLUベースラインは77.2\%に達するが、CIFAR-100では91.5\%の列車精度にもかかわらず、HRMは29.7\%のテスト精度しか達成していない。
損失トレースと誤差分析は、この状態におけるHRMの健全な最適化であるが、画像特異的誘導バイアスが不十分であることを示している。
拡張性のない小型画像分類では、HRMは現在存在するため、単純な畳み込みアーキテクチャと競合することはないが、モデルの変更によって大幅に改善できる可能性を排除することはできないと結論付けている。
関連論文リスト
- End-to-End Implicit Neural Representations for Classification [57.55927378696826]
Inlicit Neural representations (INRs) は、ニューラルネットワークパラメータの信号を符号化し、信号再構成に優れた結果を示す。
INRをベースとした分類は、CNNのようなピクセルベースの手法に比べて、依然としてかなり低性能である。
本研究は,SIRENを学習段階のスキームとともに初期化するエンド・ツー・エンドの戦略を提案する。
論文 参考訳(メタデータ) (2025-03-23T16:02:23Z) - Improving the U-Net Configuration for Automated Delineation of Head and Neck Cancer on MRI [0.0]
MRIにおける腫瘍体積のセグメンテーションは困難で時間を要するプロセスである。
本研究は,頭部および頸部腫瘍のMRI画像における自動デライン化へのアプローチを示す。
本研究の目的は,医学的セグメンテーションタスクで一般的に使用される構成の改善を提案することである。
論文 参考訳(メタデータ) (2025-01-09T10:22:35Z) - RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation [46.659592045271125]
RTMOは座標分類をシームレスに統合する一段階のポーズ推定フレームワークである。
高速を維持しながらトップダウン手法に匹敵する精度を達成する。
私たちの最大のモデルであるRTMO-lは、COCO val 2017で74.8%AP、1つのV100 GPUで141FPSを実現しています。
論文 参考訳(メタデータ) (2023-12-12T18:55:29Z) - QuickQual: Lightweight, convenient retinal image quality scoring with
off-the-shelf pretrained models [2.9005223064604078]
画像品質は、従来型およびディープラーニング(DL)ベースの網膜画像解析のアプローチにおいて重要な問題である。
本稿では,1つの既製のImageNet-pretrained Densenet121バックボーンとSVM(Support Vector Machine)を組み合わせたRIQSに対する簡単なアプローチを提案する。
QuickQualは非常によく機能し、EyeQの最先端を新たに設定する。
第2のモデルであるQuickQual Mega Minified Estimator(QuickQual-MEME)を、市販のDensenet121上に10個のパラメータで構成する。
論文 参考訳(メタデータ) (2023-07-25T16:55:13Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - MIO : Mutual Information Optimization using Self-Supervised Binary Contrastive Learning [12.365801596593936]
我々は、事前学習タスクを二項分類問題としてモデル化し、暗黙的なコントラスト効果を誘導する。
既存の手法とは異なり、提案した損失関数は正対と負対の相互情報を最適化する。
提案手法は,ベンチマークデータセット上でのSOTA自己教師型コントラストフレームワークよりも優れている。
論文 参考訳(メタデータ) (2021-11-24T17:51:29Z) - Neural Architecture Search using Covariance Matrix Adaptation Evolution
Strategy [6.8129169853808795]
本稿では,CMANASと呼ばれるニューラルネットワーク探索問題に対して,共分散行列適応進化戦略(CMA-ES)を適用する枠組みを提案する。
アーキテクチャは正規分布を用いてモデル化され、サンプル集団の適合度に基づいてCMA-ESを用いて更新される。
CMANASはCIFAR-10のアーキテクチャ検索を完了し、トップ1テストの精度は0.45 GPU日で97.44%、トップ1テストの精度は83.24%と1つのGPUで0.6 GPU日で達成した。
論文 参考訳(メタデータ) (2021-07-15T11:41:23Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Tent: Fully Test-time Adaptation by Entropy Minimization [77.85911673550851]
モデルは、テスト中に新しいデータや異なるデータに一般化するように適応する必要があります。
この完全なテスト時間適応の設定では、モデルはテストデータとそれ自身のパラメータしか持たない。
実験エントロピー最小化(tent): 予測のエントロピーによって測定された信頼度に対するモデルを最適化する。
論文 参考訳(メタデータ) (2020-06-18T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。