論文の概要: Improving Selective Classification with Pairwise Queries for Binary Classification
- arxiv url: http://arxiv.org/abs/2605.30615v1
- Date: Thu, 28 May 2026 22:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.264078
- Title: Improving Selective Classification with Pairwise Queries for Binary Classification
- Title(参考訳): 2項分類のためのペアワイズクエリによる選択型分類の改善
- Authors: Harsh Vardhan, Sunav Choudhary, Natwar Modani, Arya Mazumdar,
- Abstract要約: 選択分類では、モデルは、自信のあるデータサンプルのラベルを予測し、自信のないサンプルのラベルを予測しない。
モデルの信頼度の推定はモデルの予測と矛盾するかもしれない。
これらのペアワイズクエリは、ハイエラーサンプルを検出し、選択的な分類手法に組み込むことで、非リジェクトサンプルのエラーを減らすことができる。
- 参考スコア(独自算出の注目度): 18.84830201314633
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In selective classification, a model predicts the labels of data samples where it is confident, and abstains from predicting labels for samples on which it is not confident. The rejected samples are often labeled by an expert, which is expensive. The budget for the expert is best utilized when the model has low error on non-rejected samples. However, the estimate of a model's confidence might be inconsistent with the model's predictions, which can lead to high error on non-rejected points. Such situations can readily occur in in-context binary classification by LLMs. To remedy this, we propose making additional pairwise queries to the same model. These pairwise queries can detect high-error samples and be incorporated into selective classification techniques to reduce the error on non-rejected samples. Theoretically, we establish the conditions under which a simple algorithm using pairwise queries outperforms an inconsistent confidence estimate. We support this insight through extensive experiments for $1$ synthetic and $4$ in-context learning-based real binary classification datasets. In all these cases, we show that our algorithms, using pairwise queries, obtain a better accuracy-cost tradeoff than using only the raw confidence estimates, for instance, the LLM's next-token logits.
- Abstract(参考訳): 選択分類では、モデルは、自信のあるデータサンプルのラベルを予測し、自信のないサンプルのラベルを予測しない。
拒否されたサンプルは、しばしば専門家によってラベル付けされるが、これは高価である。
専門家の予算は、モデルが非リジェクトサンプルのエラーが少ない場合に最も有効である。
しかし、モデルの信頼度の推定はモデルの予測と矛盾するかもしれない。
このような状況は、LLMによる文脈内バイナリ分類において容易に起こりうる。
これを改善するために、同じモデルにペアワイズクエリを追加することを提案する。
これらのペアワイズクエリは、ハイエラーサンプルを検出し、選択的な分類手法に組み込むことで、非リジェクトサンプルのエラーを減らすことができる。
理論的には、ペアワイズクエリを用いた単純なアルゴリズムが不整合信頼推定よりも優れる条件を確立する。
我々は、この知見を、テキスト内学習に基づくリアルバイナリ分類データセットの1ドルと4ドルに対する広範な実験を通して支援する。
これらすべてのケースにおいて、我々のアルゴリズムはペアワイズクエリを使用して、例えばLLMの次のログのような生の信頼度推定だけを用いることよりも、より精度の高いトレードオフが得られることを示す。
関連論文リスト
- DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data [18.111971239860836]
雑音ラベルの存在下での画像分類のための新しいサンプル選択法を提案する。
私たちのゴールは、正しくラベル付けされているが学習が難しいサンプルと、ラベル付けされていないサンプルを正確に区別することです。
本手法は,既存のサンプル選択手法にシームレスに統合可能なプラグイン・アンド・プレイコンポーネントとして機能する。
論文 参考訳(メタデータ) (2025-04-24T12:07:14Z) - A3Rank: Augmentation Alignment Analysis for Prioritizing Overconfident Failing Samples for Deep Learning Models [2.6499018693213316]
拡張アライメント解析を用いた新しいテストケース優先順位付け手法を提案する。
A3$Rankは、信頼ベースのリジェクタのチェックから逃れた失敗するサンプルを効果的にランク付けすることができる。
また、これらの故障したサンプルを保護するために、これらのリジェクタを増強する専用の検出器を構築するためのフレームワークも提供する。
論文 参考訳(メタデータ) (2024-07-19T08:32:10Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Improving group robustness under noisy labels using predictive
uncertainty [0.9449650062296823]
ノイズラベル下での最悪のグループ精度を改善するために,モデルの予測不確実性を利用する。
本稿では,モデルがノイズラベルに頑健でありながら,刺激的な手がかりを学習するのを防ぐ,新しいEntropy based Debiasing(END)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-14T04:40:50Z) - Binary classification with ambiguous training data [69.50862982117127]
教師付き学習では、ドメインの専門家でさえラベル付けが難しい曖昧な(A)サンプルに直面します。
この問題は、ラベルなしサンプルが必ずしも難しいサンプルではないため、半教師付き学習とは大きく異なる。
論文 参考訳(メタデータ) (2020-11-05T00:53:58Z) - Identifying Wrongly Predicted Samples: A Method for Active Learning [6.976600214375139]
本稿では,不確実性を超えた単純なサンプル選択基準を提案する。
予測されたサンプルを正しく識別するために、最先端の結果とより良いレートを示す。
論文 参考訳(メタデータ) (2020-10-14T09:00:42Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Harnessing Adversarial Distances to Discover High-Confidence Errors [0.0]
モデル信頼度から予測されるよりも高いレートで誤りを発見する問題について検討する。
本稿では, 対向的摂動によって導かれる, クエリ効率が高く, 新規な探索手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T13:44:16Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。