論文の概要: ActiveFreq: Integrating Active Learning and Frequency Domain Analysis for Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2603.11498v1
- Date: Thu, 12 Mar 2026 03:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.845326
- Title: ActiveFreq: Integrating Active Learning and Frequency Domain Analysis for Interactive Segmentation
- Title(参考訳): ActiveFreq: 対話型セグメンテーションのためのアクティブラーニングと周波数領域分析の統合
- Authors: Lijun Guo, Qian Zhou, Zidi Shi, Hua Zou, Gang Ke,
- Abstract要約: 能動学習と周波数領域分析を統合した対話型セグメンテーションフレームワークであるActiveFreqを提案する。
ActiveFreqはユーザインタラクションを減らし,23.5%と12.8%の改善を達成している。
2回のクリックのような最小限の入力条件下では、ActiveFreqはISIC-2017とOAI-ZIBで85.29%、75.76%に達する。
- 参考スコア(独自算出の注目度): 13.057257319459088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive segmentation is commonly used in medical image analysis to obtain precise, pixel-level labeling, typically involving iterative user input to correct mislabeled regions. However, existing approaches often fail to fully utilize user knowledge from interactive inputs and achieve comprehensive feature extraction. Specifically, these methods tend to treat all mislabeled regions equally, selecting them randomly for refinement without evaluating each region's potential impact on segmentation quality. Additionally, most models rely solely on spatial domain features, overlooking frequency domain information that could enhance feature extraction and improve performance. To address these limitations, we propose ActiveFreq, a novel interactive segmentation framework that integrates active learning and frequency domain analysis to minimize human intervention while achieving high-quality labeling. ActiveFreq introduces AcSelect, an autonomous module that prioritizes the most informative mislabeled regions, ensuring maximum performance gain from each click. Moreover, we develop FreqFormer, a segmentation backbone incorporating a Fourier transform module to map features from the spatial to the frequency domain, enabling richer feature extraction. Evaluations on the ISIC-2017 and OAI-ZIB datasets demonstrate that ActiveFreq achieves high performance with reduced user interaction, achieving 3.74 NoC@90 on ISIC-2017 and 9.27 NoC@90 on OAI-ZIB, with 23.5% and 12.8% improvements over previous best results, respectively. Under minimal input conditions, such as two clicks, ActiveFreq reaches mIoU scores of 85.29% and 75.76% on ISIC-2017 and OAI-ZIB, highlighting its efficiency and accuracy in interactive medical segmentation.
- Abstract(参考訳): インタラクティブセグメンテーション(Interactive segmentation)は、医用画像解析において、正確にピクセルレベルのラベル付けを得るために一般的に用いられ、通常、正確なラベル付き領域への反復的なユーザ入力を含む。
しかし、既存のアプローチでは、対話的な入力からユーザ知識を完全に活用できず、包括的な特徴抽出を達成できないことが多い。
具体的には、これらの手法は、各領域のセグメンテーション品質に対する潜在的影響を評価することなく、すべてのミスラベルされた領域を均等に扱う傾向にある。
さらに、ほとんどのモデルは空間領域の特徴のみに依存しており、周波数領域の情報を見渡すことで特徴抽出を強化し、性能を向上させることができる。
このような制約に対処するために,能動学習と周波数領域分析を統合した対話型セグメンテーションフレームワークであるActiveFreqを提案する。
ActiveFreqはアクセレクト(AcSelect)という自動モジュールを導入し、最も情報に富んだラベル付けされたリージョンを優先し、クリック毎に最大のパフォーマンス向上を保証している。
さらに、FreqFormerは、Fourier変換モジュールを組み込んだセグメンテーションバックボーンで、空間から周波数領域までの特徴をマッピングし、よりリッチな特徴抽出を可能にする。
ISIC-2017とOAI-ZIBデータセットの評価によると、ActiveFreqはユーザーインタラクションを減らし、ISIC-2017では3.74 NoC@90、OAI-ZIBでは9.27 NoC@90を、それぞれ23.5%と12.8%の改善を達成している。
2回のクリックのような最小限の入力条件下では、ActiveFreqはISIC-2017とOAI-ZIBで85.29%、75.76%に達する。
関連論文リスト
- Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文 参考訳(メタデータ) (2025-07-13T12:33:37Z) - Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework [0.7864304771129751]
音声感情認識(SER)は、感情コンピューティングの強化と人間とコンピュータの相互作用の領域の強化に不可欠である。
本稿では,注目に基づく局所特徴ブロック(ALFB)を統合し,音声信号から高レベルな特徴ベクトルをキャプチャする軽量なSERアーキテクチャを提案する。
また,グローバルな特徴ブロック(GFB)技術を用いて,音声信号の逐次的,グローバルな情報と長期的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-12-13T09:55:03Z) - Annotator: A Generic Active Learning Baseline for LiDAR Semantic
Segmentation [40.803251337200656]
Annotatorは汎用的で効率的なアクティブラーニングベースラインである。
ボクセル中心のオンライン選択戦略は、各LiDARスキャン内の正当性と卓越したボクセルギルドを効率よく調査し、注釈付けするように調整されている。
アノテーションは多様な設定で優れており、特にアクティブラーニング(AL)、アクティブソースフリードメイン適応(ASFDA)、アクティブドメイン適応(ADA)に焦点を当てている。
論文 参考訳(メタデータ) (2023-10-31T09:04:39Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - SAM-IQA: Can Segment Anything Boost Image Quality Assessment? [32.10446341968312]
ディープラーニングベースのIQA手法は、通常、大量のデータセットを特徴抽出器としてトレーニングしたトレーニング済みのネットワークに依存している。
本稿では,大規模データセット上で学習したセグメント化モデルであるセグメンテーション・アニーシングのエンコーダを用いて,高レベルの意味的特徴抽出を行う。
本実験では,Segment Anythingの強力な特徴抽出機能を確認し,IQAタスクにおける空間領域と周波数領域の機能の組み合わせの価値を強調した。
論文 参考訳(メタデータ) (2023-07-10T10:07:11Z) - Boundary-aware Supervoxel-level Iteratively Refined Interactive 3D Image
Segmentation with Multi-agent Reinforcement Learning [33.181732857907384]
我々は,マルコフ決定プロセス(MDP)を用いた対話型画像分割をモデル化し,強化学習(RL)による解法を提案する。
ボクセル単位の予測のための大規模な探索空間を考えると, エージェント間でボクセルレベルポリシーを共有するマルチエージェント強化学習が採用されている。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-19T15:52:56Z) - Feature-Adaptive Interactive Thresholding of Large 3D Volumes [0.0]
本稿では,これらの制限を克服するために,(幾何学的)特徴,局所処理,インタラクティブなユーザ入力を組み込んだしきい値処理技術であるFeature-Adaptive Interactive Thresholding (FAITH)を紹介する。
定性的な分析により、提案モデルは、大容量の分割を許容できるほど効率的に維持しながら、通常、平易な閾値付けで発生する制限を克服できることを示した。
論文 参考訳(メタデータ) (2022-10-13T12:41:04Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。