論文の概要: UNBOX: Unveiling Black-box visual models with Natural-language
- arxiv url: http://arxiv.org/abs/2603.08639v1
- Date: Mon, 09 Mar 2026 17:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.597916
- Title: UNBOX: Unveiling Black-box visual models with Natural-language
- Title(参考訳): UNBOX: 自然言語でブラックボックスのビジュアルモデルを公開する
- Authors: Simone Carnemolla, Chiara Russo, Simone Palazzo, Quentin Bouniot, Daniela Giordano, Zeynep Akata, Matteo Pennisi, Concetto Spampinato,
- Abstract要約: 完全データフリー、勾配フリー、バックプロパゲーションフリー制約下でのクラスワイドモデル解離のためのフレームワークUNBOXを紹介する。
我々は,画像Net-1K,Waterbirds,CelebAのUNBOXを,意味的忠実度テスト,視覚的特徴相関分析,スライス発見監査を通じて評価した。
- 参考スコア(独自算出の注目度): 50.433977345786055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring trustworthiness in open-world visual recognition requires models that are interpretable, fair, and robust to distribution shifts. Yet modern vision systems are increasingly deployed as proprietary black-box APIs, exposing only output probabilities and hiding architecture, parameters, gradients, and training data. This opacity prevents meaningful auditing, bias detection, and failure analysis. Existing explanation methods assume white- or gray-box access or knowledge of the training distribution, making them unusable in these real-world settings. We introduce UNBOX, a framework for class-wise model dissection under fully data-free, gradient-free, and backpropagation-free constraints. UNBOX leverages Large Language Models and text-to-image diffusion models to recast activation maximization as a purely semantic search driven by output probabilities. The method produces human-interpretable text descriptors that maximally activate each class, revealing the concepts a model has implicitly learned, the training distribution it reflects, and potential sources of bias. We evaluate UNBOX on ImageNet-1K, Waterbirds, and CelebA through semantic fidelity tests, visual-feature correlation analyses and slice-discovery auditing. Despite operating under the strictest black-box constraints, UNBOX performs competitively with state-of-the-art white-box interpretability methods. This demonstrates that meaningful insight into a model's internal reasoning can be recovered without any internal access, enabling more trustworthy and accountable visual recognition systems.
- Abstract(参考訳): オープンワールドの視覚認識における信頼性を保証するには、解釈可能で公平で、分散シフトに対して堅牢なモデルが必要である。
しかし、現代のビジョンシステムはプロプライエタリなブラックボックスAPIとしてデプロイされ、出力確率のみを公開し、アーキテクチャ、パラメータ、勾配、トレーニングデータを隠蔽する。
この不透明さは、意味のある監査、バイアス検出、障害解析を防ぐ。
既存の説明手法では、ホワイトボックスやグレーボックスへのアクセスやトレーニングディストリビューションの知識を前提としており、実際の環境では使用できない。
完全データフリー、勾配フリー、バックプロパゲーションフリー制約下でのクラスワイドモデル解離のためのフレームワークUNBOXを紹介する。
UNBOXは大規模言語モデルとテキストから画像への拡散モデルを利用して、出力確率によって駆動される純粋意味探索としてアクティベーションの最大化をリキャストする。
この方法は、モデルが暗黙的に学んだ概念、それが反映するトレーニング分布、潜在的なバイアス源を明らかにするために、各クラスを最大限に活性化する人間解釈可能なテキスト記述子を生成する。
我々は,画像Net-1K,Waterbirds,CelebAのUNBOXを意味的忠実度テスト,視覚的特徴相関分析,スライス発見監査により評価した。
最も厳格なブラックボックス制約の下で運用されているにもかかわらず、UNBOXは最先端のホワイトボックス解釈方法と競争的に動作する。
これは、モデルの内部推論に対する有意義な洞察が、内部アクセスなしで回復できることを示し、より信頼性が高く説明可能な視覚認識システムを可能にする。
関連論文リスト
- Where's the liability in the Generative Era? Recovery-based Black-Box Detection of AI-Generated Content [53.93606081932928]
APIアクセスのみを必要とする新しいブラックボックス検出フレームワークを導入する。
画像がモデル自身によって生成された可能性を測定する。
マスクされた画像入力をサポートしないブラックボックスモデルに対して、ターゲットモデル分布に適合するように訓練された費用効率の良い代理モデルを導入する。
論文 参考訳(メタデータ) (2025-05-02T05:11:35Z) - Investigating the Duality of Interpretability and Explainability in Machine Learning [2.8311451575532156]
複雑な「ブラックボックス」モデルは異常な予測性能を示す。
その本質的に不透明な性質は、透明性と解釈可能性に関する懸念を提起する。
本質的に解釈可能なモデルを開発するのではなく、これらのモデルを説明することに注力しています。
論文 参考訳(メタデータ) (2025-03-27T10:48:40Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? [8.391254800873599]
本稿では,設計によって解釈できない事前学習型ニューラルネットワークに対して,概念に基づく介入を行う手法を提案する。
我々は、インターベンタビリティの概念を概念に基づく介入の有効性の尺度として定式化し、この定義を微調整ブラックボックスに活用する。
論文 参考訳(メタデータ) (2024-01-24T16:02:14Z) - Recurrence-Aware Long-Term Cognitive Network for Explainable Pattern
Classification [0.0]
構造化データの解釈可能なパターン分類のためのLCCNモデルを提案する。
本手法は, 決定過程における各特徴の関連性を定量化し, 説明を提供する独自のメカニズムを提供する。
解釈可能なモデルでは,最先端の白黒ボックスと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2021-07-07T18:14:50Z) - Learning Global Transparent Models Consistent with Local Contrastive
Explanations [34.86847988157447]
ブラックボックスモデルについて,局所的な対照的な説明からカスタム機能を作成し,これらだけでグローバルに透過的なモデルをトレーニングする。
そこで本研究では,ブラックボックスモデルの局所的な対照的な説明からカスタムな特徴を創出し,その上にグローバルな透明なモデルをトレーニングする手法を提案する。
論文 参考訳(メタデータ) (2020-02-19T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。