論文の概要: BLO-Inst: Bi-Level Optimization Based Alignment of YOLO and SAM for Robust Instance Segmentation
- arxiv url: http://arxiv.org/abs/2601.22061v1
- Date: Thu, 29 Jan 2026 17:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.067498
- Title: BLO-Inst: Bi-Level Optimization Based Alignment of YOLO and SAM for Robust Instance Segmentation
- Title(参考訳): BLO-Inst:ロバストインスタンスセグメンテーションのための双方向最適化に基づくYOLOとSAMのアライメント
- Authors: Li Zhang, Pengtao Xie,
- Abstract要約: BLO-Instは、双方向の最適化によって検出とセグメンテーションの目的を整列する統合フレームワークである。
BLO-Instは、一般的な医療領域におけるタスクの標準ベースラインよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 26.763780360661965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model has revolutionized image segmentation with its zero-shot capabilities, yet its reliance on manual prompts hinders fully automated deployment. While integrating object detectors as prompt generators offers a pathway to automation, existing pipelines suffer from two fundamental limitations: objective mismatch, where detectors optimized for geometric localization do not correspond to the optimal prompting context required by SAM, and alignment overfitting in standard joint training, where the detector simply memorizes specific prompt adjustments for training samples rather than learning a generalizable policy. To bridge this gap, we introduce BLO-Inst, a unified framework that aligns detection and segmentation objectives by bi-level optimization. We formulate the alignment as a nested optimization problem over disjoint data splits. In the lower level, the SAM is fine-tuned to maximize segmentation fidelity given the current detection proposals on a subset ($D_1$). In the upper level, the detector is updated to generate bounding boxes that explicitly minimize the validation loss of the fine-tuned SAM on a separate subset ($D_2$). This effectively transforms the detector into a segmentation-aware prompt generator, optimizing the bounding boxes not just for localization accuracy, but for downstream mask quality. Extensive experiments demonstrate that BLO-Inst achieves superior performance, outperforming standard baselines on tasks in general and biomedical domains.
- Abstract(参考訳): Segment Anything Modelはゼロショット機能でイメージセグメンテーションに革命をもたらしたが、手動プロンプトに依存しているため、完全に自動化されたデプロイメントが妨げられている。
物体検出器をプロンプトジェネレータとして統合することは、自動化の道筋を提供する一方で、既存のパイプラインには2つの基本的な制限がある: 客観的ミスマッチ(英語版) — 幾何学的ローカライゼーションに最適化された検出器はSAMが要求する最適なプロンプトコンテキストに対応しない)、標準の関節トレーニングにおけるアライメントオーバーフィット(英語版) — 検出器は、一般化可能なポリシーを学ぶのではなく、単にトレーニングサンプルの特定のプロンプト調整を記憶する。
このギャップを埋めるために,両レベル最適化による検出とセグメント化の目的を整合させる統合フレームワークであるBLO-Instを導入する。
分割データに対するネスト最適化問題としてアライメントを定式化する。
下層では、SAMは、サブセット(D_1$)上の現在の検出提案を考えると、セグメンテーションの忠実度を最大にするために微調整される。
上段では、検出器が更新され、別個のサブセット(D_2$)上で細調整されたSAMのバリデーション損失を明示的に最小化するバウンディングボックスを生成する。
これにより、検出器をセグメンテーション対応プロンプトジェネレータに効果的に変換し、ローカライゼーション精度だけでなく、下流マスクの品質のために境界ボックスを最適化する。
大規模な実験により、BLO-Instは、一般および生物医学領域におけるタスクの標準ベースラインよりも優れた性能を発揮することが示された。
関連論文リスト
- Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts [5.225009704851243]
本稿では,産業用異常検出におけるゼロショット異常セグメンテーションタスクのための新しい2段階フレームワークを提案する。
SAMのオブジェクトセグメンテーションへの傾きを軽減するために,Co-Feature Point Prompt Generationモジュールを提案する。
SAM のセグメンテーション結果をさらに最適化するために,SAM (CPS) モジュール用の Cascaded Prompts を導入する。
論文 参考訳(メタデータ) (2025-10-13T05:53:49Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment [7.768332621617199]
我々は、オブジェクト検出の教師なし領域適応のために、ドメイン適応検出TRansformer(DATR)と呼ばれる強力なDETRベースの検出器を導入する。
提案するDATRは,教師モデルによって生成された擬似ラベルを用いて,平均教師に基づく自己学習フレームワークを組み込んで,ドメインバイアスをさらに緩和する。
複数のドメイン適応シナリオにおいて,提案したDATRの性能と一般化性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:48:45Z) - Fast One-Stage Unsupervised Domain Adaptive Person Search [17.164485293539833]
教師なしの人物探索は、アノテーションなしでシーンイメージのギャラリーセットから特定の対象人物をローカライズすることを目的としている。
本稿では,補完的なドメイン適応とラベル適応を統合したファストワンステージ非教師者探索(FOUS)を提案する。
Fousは、CUHK-SYSUとPRWという2つのベンチマークデータセット上で、最先端(SOTA)のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-05-05T07:15:47Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - W2N:Switching From Weak Supervision to Noisy Supervision for Object
Detection [64.10643170523414]
弱い監督からうるさい監督(W2N)に切り替える新しいパラダイムを持つ新しいWSODフレームワークを提案する。
ローカライズ適応モジュールでは、元の擬似接地構造における識別部分の割合を減らすために正規化損失を提案する。
我々のW2Nは、既存の純粋なWSODメソッドや転送学習メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-07-25T12:13:48Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Latent Space Regularization for Unsupervised Domain Adaptation in
Semantic Segmentation [14.050836886292869]
セマンティックセグメンテーションにおけるドメインの不一致を減らすために、機能レベルの空間形成正規化戦略を紹介します。
このような手法の有効性を自律運転環境で検証する。
論文 参考訳(メタデータ) (2021-04-06T16:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。