論文の概要: DC-TTA: Divide-and-Conquer Framework for Test-Time Adaptation of Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2506.23104v1
- Date: Sun, 29 Jun 2025 06:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.719056
- Title: DC-TTA: Divide-and-Conquer Framework for Test-Time Adaptation of Interactive Segmentation
- Title(参考訳): DC-TTA: 対話型セグメンテーションの試験時間適応のための分数処理フレームワーク
- Authors: Jihun Kim, Hoyong Kwon, Hyeokjun Kweon, Wooseong Jeong, Kuk-Jin Yoon,
- Abstract要約: Segment Anything Model (SAM)は、特殊なドメインや複雑なシナリオを扱う場合に苦労する。
ユーザインタラクションを監視として活用し,SAMをサンプル単位に適応させる新しいテスト時間適応フレームワークであるDC-TTAを提案する。
適応モデルをマージして、各サブセットから専門知識を統合する統一予測器を形成する。
- 参考スコア(独自算出の注目度): 37.61390172830764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive segmentation (IS) allows users to iteratively refine object boundaries with minimal cues, such as positive and negative clicks. While the Segment Anything Model (SAM) has garnered attention in the IS community for its promptable segmentation capabilities, it often struggles in specialized domains or when handling complex scenarios (e.g., camouflaged or multi-part objects). To overcome these challenges, we propose DC-TTA, a novel test-time adaptation (TTA) framework that adapts SAM on a per-sample basis by leveraging user interactions as supervision. Instead of forcing a single model to incorporate all user clicks at once, DC-TTA partitions the clicks into more coherent subsets, each processed independently via TTA with a separated model. This Divide-and-Conquer strategy reduces conflicts among diverse cues and enables more localized updates. Finally, we merge the adapted models to form a unified predictor that integrates the specialized knowledge from each subset. Experimental results across various benchmarks demonstrate that DC-TTA significantly outperforms SAM's zero-shot results and conventional TTA methods, effectively handling complex tasks such as camouflaged object segmentation with fewer interactions and improved accuracy.
- Abstract(参考訳): インタラクティブセグメンテーション(IS)では、ポジティブクリックやネガティブクリックなど、最小限のキューでオブジェクト境界を反復的に洗練することができる。
SAM(Segment Anything Model)は、ISコミュニティにおいて、迅速なセグメンテーション機能のために注目を集めているが、しばしば専門のドメインや複雑なシナリオ(例:camouflagedまたは multi-part objects)を扱う際に苦労している。
これらの課題を克服するために,ユーザインタラクションを監視として活用し,SAMをサンプル単位で適応する新しいテスト時間適応(TTA)フレームワークであるDC-TTAを提案する。
1つのモデルを一度にすべてのユーザクリックを組み込むように強制するのではなく、DC-TTAはクリックをより一貫性のあるサブセットに分割する。
このDivide-and-Conquer戦略は、さまざまなキュー間の競合を低減し、よりローカライズされた更新を可能にする。
最後に、適応されたモデルをマージして、各サブセットから専門知識を統合する統一予測器を形成する。
様々なベンチマークによる実験結果から、DC-TTAはSAMのゼロショット結果と従来のTTA法を著しく上回り、カモフラージュされたオブジェクトセグメンテーションなどの複雑なタスクを少ないインタラクションで効果的に処理し、精度を向上することが示された。
関連論文リスト
- RegCL: Continual Adaptation of Segment Anything Model via Model Merging [6.868344361490698]
本稿では,効率的なマルチドメイン知識統合のための非再生連続学習フレームワークであるRegCLを提案する。
RegCLはSAMの適応モジュールのパラメータをマージすることにより、モデルマージアルゴリズムを連続学習パラダイムに組み込む。
実験により、RegCLは複数のダウンストリームデータセット間で良好な連続学習性能が得られることが示された。
論文 参考訳(メタデータ) (2025-07-16T14:51:37Z) - CKAA: Cross-subspace Knowledge Alignment and Aggregation for Robust Continual Learning [80.18781219542016]
継続的学習(CL)は、シーケンシャルなタスクストリームから継続的に学習するAIモデルに権限を与える。
近年,パラメータ効率のよい微調整(PEFT)によるCL法が注目されている。
ミスリード型タスクIDに対するロバスト性を高めるために,クロスサブスペース・ナレッジアライメント・アグリゲーション(CKAA)を提案する。
論文 参考訳(メタデータ) (2025-07-13T03:11:35Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。
SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。
具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-05T14:54:31Z) - Analytic Continual Test-Time Adaptation for Multi-Modality Corruption [23.545997349882857]
テスト時間適応(TTA)は、トレーニング済みのモデルがソースとターゲットデータセット間のギャップを埋めることを支援することを目的としている。
本稿では,MM-CTTAタスクのためのMDAA(Multi-modality Dynamic Analytic Adapter)を提案する。
MDAAはMM-CTTA上での最先端性能を実現し,信頼性の高いモデル適応を実現する。
論文 参考訳(メタデータ) (2024-10-29T01:21:24Z) - UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - Scale Disparity of Instances in Interactive Point Cloud Segmentation [15.865365305312174]
我々はClickFormerを提案する。ClickFormerは革新的なインタラクティブなポイントクラウドセグメンテーションモデルで、物と物の両方のインスタンスを正確にセグメンテーションする。
我々は、偽陽性の発生リスクを軽減するために、クエリ・ボクセル変換器にグローバルな注意を払っている。
ClickFormerは、屋内と屋外の両方のデータセットで、既存のインタラクティブなポイントクラウドセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-19T03:45:48Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Task-Specific Adaptation of Segmentation Foundation Model via Prompt Learning [7.6136466242670435]
本稿では,Segment Anything Model(SAM)に適合した即時学習によるセグメンテーション基礎モデルのタスク固有適応を提案する。
本手法は,入力プロンプトを組込み空間に調整し,目的タスクの特異性に適合させるプロンプト学習モジュールを含む。
様々なセグメンテーションシナリオに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T09:13:51Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Deep learning-based interactive segmentation in remote sensing [2.328864986845849]
本研究の目的は,クリックベースインタラクティブセグメンテーションとリモートセンシング画像解析のギャップを埋めることである。
我々は,2つの高解像度空中画像データセットに対して,最先端の対話的セグメンテーション手法の5つの性能評価を行った。
これらの知見に基づいて、リモートセンシングデータの対話的セグメンテーションのためのSegMapという専用オンラインツールを開発した。
論文 参考訳(メタデータ) (2023-08-25T04:49:49Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。