論文の概要: Make me an Expert: Distilling from Generalist Black-Box Models into Specialized Models for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.00509v1
- Date: Sat, 30 Aug 2025 14:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.263888
- Title: Make me an Expert: Distilling from Generalist Black-Box Models into Specialized Models for Semantic Segmentation
- Title(参考訳): 一般のブラックボックスモデルからセマンティックセグメンテーションの専門モデルへ
- Authors: Yasser Benigmim, Subhankar Roy, Khalid Oublal, Imad Eddine Marouf, Slim Essid, Vicky Kalogeiton, Stéphane Lathuilière,
- Abstract要約: 我々は,現実的な制約下での局所モデル適応を可能にするブラックボックス蒸留(B2D)設定を導入する。
オープン語彙モデルは入力分解能に対して大きな感度を示し、異なるオブジェクトクラスは異なるスケールで最適にセグメンテーションされる。
提案手法であるAT-Guided sCaler (ATGC) は,DINOv2アテンションマップを利用してブラックボックスモデル推論のための最適スケールを動的に選択することでこの問題に対処する。
- 参考スコア(独自算出の注目度): 40.37204049034554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of Artificial Intelligence as a Service (AIaaS) democratizes access to pre-trained models via Application Programming Interfaces (APIs), but also raises a fundamental question: how can local models be effectively trained using black-box models that do not expose their weights, training data, or logits, a constraint in which current domain adaptation paradigms are impractical ? To address this challenge, we introduce the Black-Box Distillation (B2D) setting, which enables local model adaptation under realistic constraints: (1) the API model is open-vocabulary and trained on large-scale general-purpose data, and (2) access is limited to one-hot predictions only. We identify that open-vocabulary models exhibit significant sensitivity to input resolution, with different object classes being segmented optimally at different scales, a limitation termed the "curse of resolution". Our method, ATtention-Guided sCaler (ATGC), addresses this challenge by leveraging DINOv2 attention maps to dynamically select optimal scales for black-box model inference. ATGC scores the attention maps with entropy to identify informative scales for pseudo-labelling, enabling effective distillation. Experiments demonstrate substantial improvements under black-box supervision across multiple datasets while requiring only one-hot API predictions. Our code is available at https://github.com/yasserben/ATGC.
- Abstract(参考訳): AIaaS(Artificial Intelligence as a Service)の台頭は、アプリケーションプログラミングインターフェース(API)を通じて事前トレーニングされたモデルへのアクセスを民主化する一方で、現在のドメイン適応パラダイムが実用的でない制約であるブラックボックスモデルを使用して、ローカルモデルを効果的にトレーニングする方法という根本的な疑問も提起している。
この課題に対処するために,1) API モデルはオープン語彙であり,大規模汎用データに基づいて訓練され,(2) アクセスは1時間以内の予測に限られる。
オープンボキャブラリモデルは、異なるスケールの異なるオブジェクトクラスを最適にセグメント化することで、入力解像度に対して大きな感度を示す。
提案手法は,DINOv2アテンションマップを利用してブラックボックスモデル推論のための最適スケールを動的に選択することで,この問題に対処する。
ATGCは、アテンションマップをエントロピーでスコアし、擬似ラベリングのための情報スケールを特定し、効果的な蒸留を可能にする。
実験では、複数のデータセットにわたってブラックボックスの監視の下で大幅に改善され、1ホットのAPI予測しか必要としない。
私たちのコードはhttps://github.com/yasserben/ATGC.comで利用可能です。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - DREAM: Domain-agnostic Reverse Engineering Attributes of Black-box Model [50.94236887900527]
対象モデルのトレーニングデータセットの可用性を必要とせずに,ブラックボックスリバースエンジニアリングの新たな問題を提案する。
対象のブラックボックスモデルの属性を未知のトレーニングデータで推測するために,ドメインに依存しないメタモデルを学ぶ。
論文 参考訳(メタデータ) (2024-12-08T07:37:05Z) - Foundational GPT Model for MEG [3.524869467682149]
本研究では,脳信号の予測を用いて学習可能な2種類のディープラーニング基礎モデルを提案する。
まず、改良されたWavenetを検討し、次に、改良されたTransformer-based (GPT2)モデルを検討する。
我々は,これらのディープラーニングモデルの性能を,MEGデータに基づく標準的な線形自己回帰(AR)モデルと比較する。
論文 参考訳(メタデータ) (2024-04-14T13:48:24Z) - Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning [13.211063836237468]
マフィン(Mafin)は、トレーニング可能な埋め込みモデルで強化することで、ブラックボックスの埋め込みモデルを微調整するための新しいアプローチである。
以上の結果から,Mafinは小さな拡張モデルの訓練を必要とせず,ブラックボックス埋め込みの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-19T14:33:24Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - DREAM: Domain-free Reverse Engineering Attributes of Black-box Model [51.37041886352823]
ブラックボックス対象モデルの属性をドメインに依存しないリバースエンジニアリングの新しい問題を提案する。
対象のブラックボックスモデルの属性を未知のトレーニングデータで推測するために,ドメインに依存しないモデルを学ぶ。
論文 参考訳(メタデータ) (2023-07-20T16:25:58Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。