論文の概要: SliceLens: Fine-Grained and Grounded Error Slice Discovery for Multi-Instance Vision Tasks
- arxiv url: http://arxiv.org/abs/2512.24592v1
- Date: Wed, 31 Dec 2025 03:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.55358
- Title: SliceLens: Fine-Grained and Grounded Error Slice Discovery for Multi-Instance Vision Tasks
- Title(参考訳): SliceLens: マルチインスタンスビジョンタスクのための細粒度および接地誤差スライスディスカバリ
- Authors: Wei Zhang, Chaoqun Wang, Zixuan Guan, Sam Kao, Pengfei Zhao, Peng Wu, Sifeng He,
- Abstract要約: SliceLensは,多種多様な失敗仮説の生成と検証を行う仮説駆動型フレームワークである。
FeSDは、きめ細かいエラースライス発見を評価するために設計された最初のベンチマークである。
- 参考スコア(独自算出の注目度): 16.05135819343667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic failures of computer vision models on subsets with coherent visual patterns, known as error slices, pose a critical challenge for robust model evaluation. Existing slice discovery methods are primarily developed for image classification, limiting their applicability to multi-instance tasks such as detection, segmentation, and pose estimation. In real-world scenarios, error slices often arise from corner cases involving complex visual relationships, where existing instance-level approaches lacking fine-grained reasoning struggle to yield meaningful insights. Moreover, current benchmarks are typically tailored to specific algorithms or biased toward image classification, with artificial ground truth that fails to reflect real model failures. To address these limitations, we propose SliceLens, a hypothesis-driven framework that leverages LLMs and VLMs to generate and verify diverse failure hypotheses through grounded visual reasoning, enabling reliable identification of fine-grained and interpretable error slices. We further introduce FeSD (Fine-grained Slice Discovery), the first benchmark specifically designed for evaluating fine-grained error slice discovery across instance-level vision tasks, featuring expert-annotated and carefully refined ground-truth slices with precise grounding to local error regions. Extensive experiments on both existing benchmarks and FeSD demonstrate that SliceLens achieves state-of-the-art performance, improving Precision@10 by 0.42 (0.73 vs. 0.31) on FeSD, and identifies interpretable slices that facilitate actionable model improvements, as validated through model repair experiments.
- Abstract(参考訳): エラースライスとして知られるコヒーレントな視覚パターンを持つサブセット上でのコンピュータビジョンモデルの体系的失敗は、堅牢なモデル評価にとって重要な課題である。
既存のスライス探索法は主に画像分類のために開発されており、検出、セグメンテーション、ポーズ推定といったマルチインスタンスタスクに適用性を制限する。
現実のシナリオでは、エラースライスはしばしば複雑な視覚的関係を含むコーナーケースから生じる。
さらに、現在のベンチマークは、通常、特定のアルゴリズムに合わせて調整されるか、イメージ分類に偏っている。
これらの制約に対処するために,LLM と VLM を利用した仮説駆動型フレームワーク SliceLens を提案する。
FeSD (Fine-fine Slice Discovery) は、局所的なエラー領域を正確にグラウンド化した、専門家による注釈付き、精巧に改良された地上真実スライスを特徴とする、インスタンスレベルの視覚タスク間でのきめ細かなエラースライス発見を評価するために設計された最初のベンチマークである。
既存のベンチマークとFeSDの広範な実験は、SliceLensが最先端のパフォーマンスを達成し、FeSD上でPrecision@10を0.42倍(0.73対0.31)改善し、モデル修復実験を通じて検証されたように、実行可能なモデル改善を促進する解釈可能なスライスを特定することを実証している。
関連論文リスト
- Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - HiBug2: Efficient and Interpretable Error Slice Discovery for Comprehensive Model Debugging [9.209104721371228]
HiBug2は、エラースライス発見とモデル修復のための自動化フレームワークである。
まずタスク固有の視覚属性を生成し、エラーを起こしやすいインスタンスをハイライトする。
次に、効率的なスライス列挙アルゴリズムを用いて、エラースライスを体系的に識別する。
論文 参考訳(メタデータ) (2025-01-28T07:08:20Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。
提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-25T07:46:41Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。