論文の概要: Deep Attention-guided Adaptive Subsampling
- arxiv url: http://arxiv.org/abs/2510.12376v1
- Date: Tue, 14 Oct 2025 10:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.283401
- Title: Deep Attention-guided Adaptive Subsampling
- Title(参考訳): 深部注意誘導型適応サブサンプリング
- Authors: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli,
- Abstract要約: 3Dボリュームやビデオ分類タスクなど、多くの場合、すべてのスライスやフレームは固有の冗長性のために必要ではない。
ニューラルネットワークアーキテクチャに組み込むことができる新しい学習可能なサブサンプリングフレームワークを提案する。
MedMNIST3Dの3次元医用画像データセットと2つの超音波ビデオデータセットの分類作業における有効性を示す。
- 参考スコア(独自算出の注目度): 2.473882902054216
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.
- Abstract(参考訳): ディープニューラルネットワークは、パフォーマンスにおいて顕著な向上をもたらしたが、これらの改善は、計算の複雑さとコストを増大させるコストが伴うことが多い。
3Dボリュームやビデオ分類タスクなど、多くの場合、すべてのスライスやフレームは固有の冗長性のために必要ではない。
この問題に対処するために、ニューラルネットワークアーキテクチャに組み込むことができる新しい学習可能なサブサンプリングフレームワークを提案する。
サブサンプリングは、微分不可能な操作であり、ディープラーニングモデルへの直接適応に重大な課題を提起する。
いくつかの研究では、非微分可能性の問題を克服するために、Gumbel-max のトリックを使った解を提案しているが、それらは、タスク適応性に過ぎず、入力適応性に欠ける。
サンプリングメカニズムが学習されると、静的のままで、異なる入力に調整されないため、現実世界のアプリケーションには適さない。
そこで本研究では,入出力に適応するアテンション誘導サンプリングモジュールを提案する。
この動的適応は、ディープニューラルネットワークモデルの性能向上と複雑さの低減をもたらす。
MedMNIST3Dの3次元医用画像データセットと2つの超音波ビデオデータセットに対する本手法の有効性を実証した。
関連論文リスト
- Neuroverse3D: Developing In-Context Learning Universal Model for Neuroimaging in 3D [6.777213578517701]
我々は,複数のニューロイメージングタスクを3Dで実行可能なICLモデルであるNeuroverse3Dを紹介する。
Neuroverse3Dは、適応並列シーケンスコンテキスト処理によって3D入力に関連する大きなメモリ消費を克服する。
本研究は、19のニューロイメージングデータセットから43,674個のマルチモーダルスキャンを取り入れ、ホールドアウトテストセットを用いて14のタスクでニューロバース3Dを評価する。
論文 参考訳(メタデータ) (2025-03-04T08:51:44Z) - ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。
モデルは異なるデータセットで異なる表現を学習する。
適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文 参考訳(メタデータ) (2024-12-02T13:21:31Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Adaptive recurrent vision performs zero-shot computation scaling to
unseen difficulty levels [6.053394076324473]
また,適応計算により,学習分布の難易度を超える解を視覚モデルで外挿できるかどうかを検討する。
畳み込みリカレントニューラルネットワーク(ConvRNN)とGraves(PathFinder)とMazes(Mazes)をベースとした学習可能なメカニズムを組み合わせる。
本稿では,AdRNNが早期(ないし遅れ)の処理を動的に停止して,より容易(あるいは困難)な問題を解消できることを示し,また,テスト時の繰り返し回数を動的に増加させることで,トレーニング中に表示されないより困難な問題設定に0ショットを一般化する。
論文 参考訳(メタデータ) (2023-11-12T21:07:04Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Out-of-Domain Human Mesh Reconstruction via Dynamic Bilevel Online
Adaptation [87.85851771425325]
我々は、人間のメッシュ再構成モデルをドメイン外ストリーミングビデオに適用する際の新しい問題を考える。
オンライン適応によってこの問題に対処し、テスト中のモデルのバイアスを徐々に修正します。
動的バイレベルオンライン適応アルゴリズム(DynaBOA)を提案する。
論文 参考訳(メタデータ) (2021-11-07T07:23:24Z) - CAN3D: Fast 3D Medical Image Segmentation via Compact Context
Aggregation [6.188937569449575]
本稿では,メモリフットプリントの浅いコンパクト畳み込みニューラルネットワークを提案する。
提案するネットワークは,パッチを必要とせず,大規模な3次元入力ボリュームを直接処理することでデータの整合性を維持することができる。
論文 参考訳(メタデータ) (2021-09-12T06:27:59Z) - A Modulation Layer to Increase Neural Network Robustness Against Data
Quality Issues [22.62510395932645]
データ不足と品質は機械学習における一般的な問題であり、特に医療などの高度なアプリケーションにおいて問題となる。
本稿では、低品質データと欠落データの影響を軽減するために、ニューラルネットワークの新たな修正を提案する。
この結果から, 情報品質の低減を全接続層で明示的に考慮することにより, リアルタイムアプリケーションへの人工知能システムの展開が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-19T01:29:16Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。