論文の概要: Demonstrating the Efficacy of Kolmogorov-Arnold Networks in Vision Tasks
- arxiv url: http://arxiv.org/abs/2406.14916v1
- Date: Fri, 21 Jun 2024 07:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:33:07.187444
- Title: Demonstrating the Efficacy of Kolmogorov-Arnold Networks in Vision Tasks
- Title(参考訳): 視覚課題におけるコルモゴロフ・アルノルドネットワークの有効性の実証
- Authors: Minjong Cheon,
- Abstract要約: Kolmogorov-Arnold Network (KAN) は多層投影(MLP)の代替として出現している。
本研究は,MNIST, CIFAR10, CIFAR100の複数試行を通して, 視覚タスクにおけるkanの有効性を実証した。
これらの結果から,kanはビジョンタスクに有意な可能性を秘めており,今後の評価においてさらなる改善が期待できると考えられる。
- 参考スコア(独自算出の注目度): 4.8951183832371
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the realm of deep learning, the Kolmogorov-Arnold Network (KAN) has emerged as a potential alternative to multilayer projections (MLPs). However, its applicability to vision tasks has not been extensively validated. In our study, we demonstrated the effectiveness of KAN for vision tasks through multiple trials on the MNIST, CIFAR10, and CIFAR100 datasets, using a training batch size of 32. Our results showed that while KAN outperformed the original MLP-Mixer on CIFAR10 and CIFAR100, it performed slightly worse than the state-of-the-art ResNet-18. These findings suggest that KAN holds significant promise for vision tasks, and further modifications could enhance its performance in future evaluations.Our contributions are threefold: first, we showcase the efficiency of KAN-based algorithms for visual tasks; second, we provide extensive empirical assessments across various vision benchmarks, comparing KAN's performance with MLP-Mixer, CNNs, and Vision Transformers (ViT); and third, we pioneer the use of natural KAN layers in visual tasks, addressing a gap in previous research. This paper lays the foundation for future studies on KANs, highlighting their potential as a reliable alternative for image classification tasks.
- Abstract(参考訳): ディープラーニングの領域では、多層投影(MLP)の代替としてコルモゴロフ・アルノルドネットワーク(KAN)が出現している。
しかし、ビジョンタスクへの適用性は広く検証されていない。
本研究では,MNIST, CIFAR10, CIFAR100データセットの複数試行を通して, 視覚タスクにおけるkanの有効性を, トレーニングバッチサイズ32。
CIFAR10 と CIFAR100 の MLP-Mixer は,KAN が CIFAR10 と CIFAR100 の MLP-Mixer を上回り,最先端の ResNet-18 よりも若干悪い性能を示した。
まず、視覚タスクに対するkanベースのアルゴリズムの効率を実証し、次に、MLP-Mixer, CNNs, Vision Transformer (ViT) と比較し、さまざまな視覚ベンチマークにおいてkanの性能を広範囲に評価し、また、視覚タスクにおける自然の kan 層の利用を開拓し、従来の研究のギャップに対処する。
本稿では,画像分類タスクの信頼性のある代替手段としての可能性を強調し,今後のKANSA研究の基盤を定めている。
関連論文リスト
- Can KAN Work? Exploring the Potential of Kolmogorov-Arnold Networks in Computer Vision [6.554163686640315]
本研究ではまず,コンピュータビジョンタスクにおけるkanの可能性を分析し,画像分類とセマンティックセグメンテーションにおけるkanとその畳み込み特性を評価する。
以上の結果から,感性は強いが,ノイズに敏感であり,頑健さを抑えることが示唆された。
この課題に対処するため,正規化手法を提案し,セグメンション・デアクティベーション手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T05:44:48Z) - Kolmogorov-Arnold Network Autoencoders [0.0]
Kolmogorov-Arnold Networks (KAN)はMulti-Layer Perceptrons (MLP)に代わる有望な代替品である。
カンはコルモゴロフ・アルノルドの表現定理と密接に一致し、モデル精度と解釈可能性の両方を高める可能性がある。
この結果から,kanベースのオートエンコーダは復元精度の点で競争力を発揮することが示された。
論文 参考訳(メタデータ) (2024-10-02T22:56:00Z) - Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - NeRF Director: Revisiting View Selection in Neural Volume Rendering [21.03892888687864]
我々は、ビュー選択方法の統合フレームワークを導入し、その影響を評価するためのベンチマークを考案する。
より少ないビューを使用することで、高品質なレンダリングを高速に実現できることを示す。
提案手法の有効性を実証するために,合成データセットと現実データの両方について広範な実験を行った。
論文 参考訳(メタデータ) (2024-06-13T06:04:19Z) - Kolmogorov-Arnold Network for Satellite Image Classification in Remote Sensing [4.8951183832371]
本稿では,コンボリューションニューラルネットワーク(CNN)モデルとKAN(Kolmogorov-Arnold Network)を統合したリモートセンシングシーン分類タスクを提案する。
KCNと呼ばれる新しい手法は、従来のマルチ層パーセプトロン(MLP)をKANに置き換えて、分類性能を向上させることを目的としている。
我々はVGG16, MobileNetV2, EfficientNet, ConvNeXt, ResNet101, Vision Transformer (ViT) など,複数のCNNベースのモデルを用いて, Kanと組み合わせて性能評価を行った。
論文 参考訳(メタデータ) (2024-06-02T03:11:37Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - MOODv2: Masked Image Modeling for Out-of-Distribution Detection [57.17163962383442]
本研究は,様々なOODスコア関数を用いて,個別の事前学習課題について検討する。
当社のフレームワークMOODv2は,14.30%のAUROCをImageNetで95.68%に向上し,CIFAR-10で99.98%を達成した。
論文 参考訳(メタデータ) (2024-01-05T02:57:58Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。