論文の概要: Boltzmann Attention Sampling for Image Analysis with Small Objects
- arxiv url: http://arxiv.org/abs/2503.02841v2
- Date: Wed, 26 Mar 2025 18:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:01.090610
- Title: Boltzmann Attention Sampling for Image Analysis with Small Objects
- Title(参考訳): 小物体を用いた画像解析のためのボルツマン注意サンプリング
- Authors: Theodore Zhao, Sid Kiblawi, Naoto Usuyama, Ho Hin Lee, Sam Preston, Hoifung Poon, Mu Wei,
- Abstract要約: 肺結節や腫瘍病変などの小さな物体は、画像の0.1%未満を占める。
既存のスパースアテンション機構は、小さく、可変で、不確実な物体の位置を検出するのに不適な厳密な階層構造に依存している。
本稿では,これらの課題に動的に注意を払って対処するために設計された,新しいトランスフォーマーベースのアーキテクチャであるBoltzFormerを提案する。
- 参考スコア(独自算出の注目度): 11.801891275624028
- License:
- Abstract: Detecting and segmenting small objects, such as lung nodules and tumor lesions, remains a critical challenge in image analysis. These objects often occupy less than 0.1% of an image, making traditional transformer architectures inefficient and prone to performance degradation due to redundant attention computations on irrelevant regions. Existing sparse attention mechanisms rely on rigid hierarchical structures, which are poorly suited for detecting small, variable, and uncertain object locations. In this paper, we propose BoltzFormer, a novel transformer-based architecture designed to address these challenges through dynamic sparse attention. BoltzFormer identifies and focuses attention on relevant areas by modeling uncertainty using a Boltzmann distribution with an annealing schedule. Initially, a higher temperature allows broader area sampling in early layers, when object location uncertainty is greatest. As the temperature decreases in later layers, attention becomes more focused, enhancing efficiency and accuracy. BoltzFormer seamlessly integrates into existing transformer architectures via a modular Boltzmann attention sampling mechanism. Comprehensive evaluations on benchmark datasets demonstrate that BoltzFormer significantly improves segmentation performance for small objects while reducing attention computation by an order of magnitude compared to previous state-of-the-art methods.
- Abstract(参考訳): 肺の結節や腫瘍の病変などの小さな物体の検出と分節は、画像解析において重要な課題である。
これらのオブジェクトは画像の0.1%未満を占めることが多く、従来のトランスフォーマーアーキテクチャは非効率であり、無関係な領域における冗長な注意計算による性能劣化を引き起こす。
既存のスパースアテンション機構は、小さく、可変で、不確実な物体の位置を検出するのに不適な厳密な階層構造に依存している。
本稿では,これらの課題に動的に注意を払って対処するために設計された,新しいトランスフォーマーベースのアーキテクチャであるBoltzFormerを提案する。
BoltzFormerは、アニーリングスケジュールを持つボルツマン分布を用いて不確実性をモデル化し、関連する領域に注目する。
当初、より高い温度は、物体の位置の不確実性が最大である初期の層においてより広い面積のサンプリングを可能にする。
後層の温度が低下するにつれて、注意がより集中し、効率と精度が向上する。
BoltzFormerはモジュール型のBoltzmannアテンションサンプリング機構を通じて既存のトランスフォーマーアーキテクチャにシームレスに統合される。
ベンチマークデータセットの総合評価では、BoltzFormerは、従来の最先端手法と比較して、注意計算を桁違いに減らしながら、小さなオブジェクトのセグメンテーション性能を大幅に改善することを示した。
関連論文リスト
- PanSR: An Object-Centric Mask Transformer for Panoptic Segmentation [9.713215680147583]
パノプティクスのセグメンテーションはコンピュータビジョンの基本課題であり、自動運転車の認識にとって重要な要素である。
最近のマスクトランスフォーマーベースの手法は、標準的なベンチマークでは素晴らしいパフォーマンスを達成しているが、小さなオブジェクト、混み合ったシーン、広範囲のオブジェクトスケールを示すシーンで重大な課題に直面している。
そこで我々は,PanSRを用いたパン光学セグメンテーション手法を提案する。PanSRは,インスタンスのマージを効果的に軽減し,小さなオブジェクト検出を向上し,混み合うシーンにおけるパフォーマンスを向上し,挑戦的なLaRSベンチマーク上での最先端のPQを,Cityscapesで最先端のパフォーマンスに到達しつつ,注目すべき+3.4PQ向上を実現した。
論文 参考訳(メタデータ) (2024-12-13T22:12:37Z) - A Novel Unified Architecture for Low-Shot Counting by Detection and Segmentation [10.461109095311546]
ローショットオブジェクトカウンタは、注釈付き例題をほとんどあるいは全く使用せずに画像内のオブジェクト数を推定する。
既存のアプローチは、しばしば過一般化と偽陽性検出につながる。
本稿では,オブジェクト検出,セグメンテーション,カウント推定を行う新しいローショットカウンタであるGeCoを紹介する。
論文 参考訳(メタデータ) (2024-09-27T12:20:29Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - Better Sampling, towards Better End-to-end Small Object Detection [7.7473020808686694]
限られた特性と高密度と相互重なり合いのため、小さな物体検出は不満足なままである。
エンド・ツー・エンド・フレームワークにおけるサンプリングの強化手法を提案する。
我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9%向上することを示す。
論文 参考訳(メタデータ) (2024-05-17T04:37:44Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Invariant Slot Attention: Object Discovery with Slot-Centric Reference
Frames [18.84636947819183]
自己組織化された方法でオブジェクトを学習するスロットベースのニューラルネットワークは、エキサイティングな進歩を遂げた。
本稿では,スロット中心参照フレームを用いた空間対称性の簡易かつ高効率な実装法を提案する。
提案手法は,CLEVR,Tetrominoes,CLEVR,Objects Room,MultiShapeNetなどの合成対象発見ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2023-02-09T23:25:28Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Meta Adversarial Perturbations [66.43754467275967]
メタ逆境摂動(MAP)の存在を示す。
MAPは1段階の上昇勾配更新によって更新された後、自然画像を高い確率で誤分類する。
これらの摂動は画像に依存しないだけでなく、モデルに依存しないものであり、単一の摂動は見えないデータポイントと異なるニューラルネットワークアーキテクチャにまたがってうまく一般化される。
論文 参考訳(メタデータ) (2021-11-19T16:01:45Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。