論文の概要: DC-TTA: Divide-and-Conquer Framework for Test-Time Adaptation of Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2506.23104v1
- Date: Sun, 29 Jun 2025 06:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.719056
- Title: DC-TTA: Divide-and-Conquer Framework for Test-Time Adaptation of Interactive Segmentation
- Title(参考訳): DC-TTA: 対話型セグメンテーションの試験時間適応のための分数処理フレームワーク
- Authors: Jihun Kim, Hoyong Kwon, Hyeokjun Kweon, Wooseong Jeong, Kuk-Jin Yoon,
- Abstract要約: Segment Anything Model (SAM)は、特殊なドメインや複雑なシナリオを扱う場合に苦労する。
ユーザインタラクションを監視として活用し,SAMをサンプル単位に適応させる新しいテスト時間適応フレームワークであるDC-TTAを提案する。
適応モデルをマージして、各サブセットから専門知識を統合する統一予測器を形成する。
- 参考スコア(独自算出の注目度): 37.61390172830764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive segmentation (IS) allows users to iteratively refine object boundaries with minimal cues, such as positive and negative clicks. While the Segment Anything Model (SAM) has garnered attention in the IS community for its promptable segmentation capabilities, it often struggles in specialized domains or when handling complex scenarios (e.g., camouflaged or multi-part objects). To overcome these challenges, we propose DC-TTA, a novel test-time adaptation (TTA) framework that adapts SAM on a per-sample basis by leveraging user interactions as supervision. Instead of forcing a single model to incorporate all user clicks at once, DC-TTA partitions the clicks into more coherent subsets, each processed independently via TTA with a separated model. This Divide-and-Conquer strategy reduces conflicts among diverse cues and enables more localized updates. Finally, we merge the adapted models to form a unified predictor that integrates the specialized knowledge from each subset. Experimental results across various benchmarks demonstrate that DC-TTA significantly outperforms SAM's zero-shot results and conventional TTA methods, effectively handling complex tasks such as camouflaged object segmentation with fewer interactions and improved accuracy.
- Abstract(参考訳): インタラクティブセグメンテーション(IS)では、ポジティブクリックやネガティブクリックなど、最小限のキューでオブジェクト境界を反復的に洗練することができる。
SAM(Segment Anything Model)は、ISコミュニティにおいて、迅速なセグメンテーション機能のために注目を集めているが、しばしば専門のドメインや複雑なシナリオ(例:camouflagedまたは multi-part objects)を扱う際に苦労している。
これらの課題を克服するために,ユーザインタラクションを監視として活用し,SAMをサンプル単位で適応する新しいテスト時間適応(TTA)フレームワークであるDC-TTAを提案する。
1つのモデルを一度にすべてのユーザクリックを組み込むように強制するのではなく、DC-TTAはクリックをより一貫性のあるサブセットに分割する。
このDivide-and-Conquer戦略は、さまざまなキュー間の競合を低減し、よりローカライズされた更新を可能にする。
最後に、適応されたモデルをマージして、各サブセットから専門知識を統合する統一予測器を形成する。
様々なベンチマークによる実験結果から、DC-TTAはSAMのゼロショット結果と従来のTTA法を著しく上回り、カモフラージュされたオブジェクトセグメンテーションなどの複雑なタスクを少ないインタラクションで効果的に処理し、精度を向上することが示された。
関連論文リスト
- Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。
SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。
具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-05T14:54:31Z) - Analytic Continual Test-Time Adaptation for Multi-Modality Corruption [23.545997349882857]
テスト時間適応(TTA)は、トレーニング済みのモデルがソースとターゲットデータセット間のギャップを埋めることを支援することを目的としている。
本稿では,MM-CTTAタスクのためのMDAA(Multi-modality Dynamic Analytic Adapter)を提案する。
MDAAはMM-CTTA上での最先端性能を実現し,信頼性の高いモデル適応を実現する。
論文 参考訳(メタデータ) (2024-10-29T01:21:24Z) - UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - Scale Disparity of Instances in Interactive Point Cloud Segmentation [15.865365305312174]
我々はClickFormerを提案する。ClickFormerは革新的なインタラクティブなポイントクラウドセグメンテーションモデルで、物と物の両方のインスタンスを正確にセグメンテーションする。
我々は、偽陽性の発生リスクを軽減するために、クエリ・ボクセル変換器にグローバルな注意を払っている。
ClickFormerは、屋内と屋外の両方のデータセットで、既存のインタラクティブなポイントクラウドセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-19T03:45:48Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Task-Specific Adaptation of Segmentation Foundation Model via Prompt Learning [7.6136466242670435]
本稿では,Segment Anything Model(SAM)に適合した即時学習によるセグメンテーション基礎モデルのタスク固有適応を提案する。
本手法は,入力プロンプトを組込み空間に調整し,目的タスクの特異性に適合させるプロンプト学習モジュールを含む。
様々なセグメンテーションシナリオに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T09:13:51Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。