論文の概要: Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive
- arxiv url: http://arxiv.org/abs/2507.09612v1
- Date: Sun, 13 Jul 2025 12:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.582138
- Title: Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive
- Title(参考訳): Inter2Former: 高速対話のための動的ハイブリッドアテンション
- Authors: You Huang, Lichao Chen, Jiayi Ji, Liujuan Cao, Shengchuan Zhang, Rongrong Ji,
- Abstract要約: インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
- 参考スコア(独自算出の注目度): 58.0729162588429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive segmentation (IS) improves annotation efficiency by segmenting target regions from user prompts, with widespread applications in real-world scenarios. Current approaches face a critical trade-off: dense-token methods achieve superior accuracy and detail preservation but suffer from prohibitively slow processing on CPU devices, while the Segment Anything Model (SAM) advances the field with sparse prompt tokens for fast inference but compromises segmentation quality. In this paper, we propose Inter2Former to address this challenge by optimizing computation allocation in dense-token processing, which introduces four key enhancements. First, we propose Dynamic Prompt Embedding (DPE) that adaptively processes only regions of interest while avoiding additional overhead from background tokens. Second, we introduce Dynamic Hybrid Attention (DHA), which leverages previous segmentation masks to route tokens through either full attention (O(N2)) for boundary regions or our proposed efficient BSQ attention (O(N)) for non-boundary regions. Third, we develop Hybrid Mixture of Experts (HMoE), which applies similar adaptive computation strategies in FFN modules with CPU-optimized parallel processing. Finally, we present Dynamic Local Upsampling (DLU), a reverse operation of DPE, which localizes objects with a lightweight MLP and performs fine-grained upsampling only in detected regions. Experimental results on high-precision IS benchmarks demonstrate that Inter2Former achieves SOTA performance with high efficiency on CPU devices.
- Abstract(参考訳): インタラクティブセグメンテーション(IS)は、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している: ディープ・トーケン法は精度とディテールの保存が優れているが、CPUデバイスでの処理が著しく遅いのに対して、SAM(Segment Anything Model)は高速な推論のために少ないプロンプトトークンでフィールドを前進させるが、セグメンテーション品質を損なう。
本稿では,高密度処理における計算割り当てを最適化し,この課題に対処するInter2Formerを提案する。
まず、背景トークンから追加のオーバーヘッドを回避しつつ、関心領域のみを適応的に処理する動的プロンプト埋め込み(DPE)を提案する。
第2に,従来のセグメンテーションマスクを利用して,境界領域のフルアテンション(O(N2))や非境界領域の効率的なBSQアテンション(O(N))を介してトークンをルーティングする動的ハイブリッドアテンション(DHA)を導入する。
第3に,CPU最適化並列処理を用いたFFNモジュールに類似した適応計算戦略を適用したHybrid Mixture of Experts (HMoE) を開発した。
最後に,DPEの逆動作である動的局所サンプリング(Dynamic Local Upsampling, DLU)について述べる。
高精度ISベンチマーク実験の結果、Inter2Formerは、CPUデバイス上で高い効率でSOTA性能を実現することが示された。
関連論文リスト
- High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - EDM: Efficient Deep Feature Matching [8.107498154867178]
本稿では,効率的なDeep機能マッチングネットワーク,EDMを提案する。
まず、より少ない次元のより深いCNNを採用し、マルチレベルの特徴を抽出する。
次に,高レベルの深い特徴に対して特徴変換を行う相関注入モジュールを提案する。
改良段階において、軽量な双方向軸ベース回帰ヘッドは、潜在特徴からサブピクセルレベルの対応を直接予測するように設計されている。
論文 参考訳(メタデータ) (2025-03-07T03:47:30Z) - FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。
FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Efficient Time Series Processing for Transformers and State-Space Models through Token Merging [44.27818172708914]
コンピュータビジョンアーキテクチャにおける計算効率を向上させるソリューションとして、トークンマージが登場している。
局所的マージとは、局所的な領域内でトークンを選択的に結合する、ドメイン固有のトークンマージアルゴリズムである。
総合的な実証実験により,局所的なマージは精度に最小限の影響を伴って,実質的な効率向上をもたらすことが示された。
論文 参考訳(メタデータ) (2024-05-28T08:28:18Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Threshold-adaptive Unsupervised Focal Loss for Domain Adaptation of
Semantic Segmentation [25.626882426111198]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は近年研究の注目を集めている。
本稿では,セマンティックセグメンテーションのための2段階エントロピーに基づくUDA手法を提案する。
本稿では,DeepLabV2を用いたSynTHIA-to-CityscapesとGTA5-to-Cityscapesにおける最先端の58.4%と59.6%のmIoUと,軽量BiSeNetを用いた競合性能を実現する。
論文 参考訳(メタデータ) (2022-08-23T03:48:48Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference [86.03382625531951]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Boundary-assisted Region Proposal Networks for Nucleus Segmentation [89.69059532088129]
大量の核が混在しているため、機械学習モデルはうまく機能しない。
我々は、堅牢なインスタンスレベルの核分割を実現する境界支援領域提案ネットワーク(BRP-Net)を考案する。
論文 参考訳(メタデータ) (2020-06-04T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。