論文の概要: Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification
- arxiv url: http://arxiv.org/abs/2603.17879v1
- Date: Wed, 18 Mar 2026 16:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.811774
- Title: Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification
- Title(参考訳): 不均衡多ラベルビデオカプセル内視鏡分類のための非対称焦点最適化を用いた差分注意増強バイオメディカルCLIP
- Authors: Podakanti Satyajith Chary, Nagarajan Ganapathy,
- Abstract要約: 本研究は,ビデオカプセル内視鏡(VCE)のためのマルチラベル分類フレームワークを提案する。
アーキテクチャと最適化レベルの戦略を組み合わせることで、Galarデータセットに固有の極端なクラス不均衡に対処する。
- 参考スコア(独自算出の注目度): 1.2246649738388389
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This work presents a multi-label classification framework for video capsule endoscopy (VCE) that addresses the extreme class imbalance inherent in the Galar dataset through a combination of architectural and optimization-level strategies. Our approach modifies BiomedCLIP, a biomedical vision-language foundation model, by replacing its standard multi-head self-attention with a differential attention mechanism that computes the difference between two softmax attention maps to suppress attention noise. To counteract the skewed label distribution, where pathological findings constitute less than 0.1% of all annotated frames, a sqrt-frequency weighted sampler, asymmetric focal loss, mixup regularization, and per-class threshold optimization are employed. Temporal coherence is enforced through median-filter smoothing and gap merging prior to event-level JSON generation. On the held-out RARE-VISION test set comprising three NaviCam examinations (161,025 frames), the pipeline achieves an overall temporal mAP@0.5 of 0.2456 and mAP@0.95 of 0.2353, with total inference completed in approximately 8.6 minutes on a single GPU.
- Abstract(参考訳): 本研究は,Galarデータセットに固有の極度のクラス不均衡に,アーキテクチャと最適化レベルの戦略を組み合わせることで対処する,ビデオカプセル内視鏡(VCE)のためのマルチラベル分類フレームワークを提案する。
生体医用視覚言語基盤モデルであるBiomedCLIPを,2つのソフトマックスアテンションマップの違いを計算し,アテンションノイズを抑制する差分アテンション機構に置き換えることにより改良する。
全ての注釈付フレームの0.1%未満の病理所見、スカルト周波数重み付きサンプリング器、非対称焦点損失、混合正則化、およびクラスごとの閾値最適化を用いるスクイードラベル分布に対処する。
時間的コヒーレンスは、イベントレベルのJSON生成に先立って、中央値フィルタのスムース化とギャップのマージによって実施される。
3つのNaviCam試験(161,025フレーム)からなる保持されたRARE-VISIONテストセットでは、パイプラインは全体の時間的mAP@0.5の0.2456とmAP@0.95の0.2353を達成する。
関連論文リスト
- A Heterogeneous Ensemble for Multi-Center COVID-19 Classification from Chest CT Scans [0.39998518782208775]
3つの推論パラダイムにまたがる9つのモデルの異種アンサンブルを示す。
アンサンブルは4つの病院センターで平均0.9280のマクロF1を達成し、最高のシングルモデルを上回っている。
論文 参考訳(メタデータ) (2026-03-15T21:34:59Z) - A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment [0.0]
本稿では,ローカライザとセグメンタを統合した検出ゲートパイプラインを提案する。
パイプラインはGIRAFEとBAGLSベンチマークで最先端の一貫性を達成した。
論文 参考訳(メタデータ) (2026-03-02T17:05:41Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - SKANet: A Cognitive Dual-Stream Framework with Adaptive Modality Fusion for Robust Compound GNSS Interference Classification [47.20483076887704]
グローバルナビゲーション衛星システム(GNSS)は、洗練された妨害による脅威の増大に直面している。
時間周波数画像(TFI)とパワースペクトル密度(PSD)を統合した2重ストリームアーキテクチャに基づく認知的ディープラーニングフレームワークを提案する。
SKANetは96.99%の精度を達成し、複合妨害分類において優れたロバスト性を示した。
論文 参考訳(メタデータ) (2026-01-19T07:42:45Z) - Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - AttentiveGRUAE: An Attention-Based GRU Autoencoder for Temporal Clustering and Behavioral Characterization of Depression from Wearable Data [46.262619407930266]
本稿では,時間的クラスタリングと縦型ウェアラブルデータによる結果の予測を目的とした,新しい注意型ゲートリカレントユニット(GRU)オートエンコーダであるAttentiveGRUAEを提案する。
372名(GLOBEM 2018-2019)の長期睡眠データからAttentiveGRUAEを評価する。
これは、クラスタリングの品質と抑うつの分類の両方において、ベースラインクラスタリング、ドメイン指向の自己教師付きモデル、および改善されたモデルよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-02T20:52:16Z) - ERSR: An Ellipse-constrained pseudo-label refinement and symmetric regularization framework for semi-supervised fetal head segmentation in ultrasound images [11.602941736726633]
胎児頭部超音波セグメント化のための新しい半教師付きフレームワークERSRを提案する。
本フレームワークは, 二重符号化適応フィルタリング戦略, 楕円制約付き擬ラベル改良, 対称性に基づく多重整合正則化からなる。
提案手法は,2つのベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T12:01:57Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Survival Modeling from Whole Slide Images via Patch-Level Graph Clustering and Mixture Density Experts [7.0624785659308165]
本稿では,スライド画像全体から癌特異的生存を予測するためのモジュラーフレームワークを提案する。
この枠組みは4つの重要な段階から成り、予測的形態学と不均一性を捉えるように設計されている。
論文 参考訳(メタデータ) (2025-07-22T11:32:36Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。