論文の概要: Verifying Classification with Limited Disclosure
- arxiv url: http://arxiv.org/abs/2502.16352v1
- Date: Sat, 22 Feb 2025 20:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:12.088043
- Title: Verifying Classification with Limited Disclosure
- Title(参考訳): 限定開示による検証分類
- Authors: Siddharth Bhandari, Liren Shan,
- Abstract要約: 我々は、ドン、ハートライン、ビジャヤラガバン(2022年)が導入した多党の分類問題について、電子的発見を動機として検討する。
我々の目標は、要求当事者がほぼ全ての応答性のある文書を受信し、非応答性のある文書の開示を最小限に抑えるプロトコルを設計することである。
- 参考スコア(独自算出の注目度): 4.88160756739524
- License:
- Abstract: We consider the multi-party classification problem introduced by Dong, Hartline, and Vijayaraghavan (2022) motivated by electronic discovery. In this problem, our goal is to design a protocol that guarantees the requesting party receives nearly all responsive documents while minimizing the disclosure of nonresponsive documents. We develop verification protocols that certify the correctness of a classifier by disclosing a few nonresponsive documents. We introduce a combinatorial notion called the Leave-One-Out dimension of a family of classifiers and show that the number of nonresponsive documents disclosed by our protocol is at most this dimension in the realizable setting, where a perfect classifier exists in this family. For linear classifiers with a margin, we characterize the trade-off between the margin and the number of nonresponsive documents that must be disclosed for verification. Specifically, we establish a trichotomy in this requirement: for $d$ dimensional instances, when the margin exceeds $1/3$, verification can be achieved by revealing only $O(1)$ nonresponsive documents; when the margin is exactly $1/3$, in the worst case, at least $\Omega(d)$ nonresponsive documents must be disclosed; when the margin is smaller than $1/3$, verification requires $\Omega(e^d)$ nonresponsive documents. We believe this result is of independent interest with applications to coding theory and combinatorial geometry. We further extend our protocols to the nonrealizable setting defining an analogous combinatorial quantity robust Leave-One-Out dimension, and to scenarios where the protocol is tolerant to misclassification errors by Alice.
- Abstract(参考訳): 我々は、ドン、ハートライン、ビジャヤラガバン(2022年)が導入した多党の分類問題について、電子的発見を動機として検討する。
本研究の目的は,応答性のない文書の開示を最小限に抑えつつ,要求当事者がほぼすべての応答性のある文書を受信できるようにするプロトコルを設計することである。
我々は,いくつかの非応答文書を開示することにより,分類器の正しさを証明できる検証プロトコルを開発した。
本稿では,分類器の集合の左一次元(Leave-One-Out dimension)という組み合わせの概念を導入し,この分類器が完全であるような実現可能な設定において,プロトコルによって開示される非応答性文書の数が,少なくともこの次元であることを示す。
マージンを持つ線形分類器では、マージンと検証のために開示しなければならない非応答文書の数とのトレードオフを特徴付ける。
具体的には、この要件において、$d$次元の場合、マージンが$1/3$を超える場合、そのマージンが$O(1)$非レスポンシブ文書のみを明らかにすることによって検証が可能である;最悪の場合、少なくとも$Omega(d)$非レスポンシブ文書は開示されなければならない;マージンが$1/3$より小さい場合は、検証は$Omega(e^d)$非レスポンシブ文書を必要とする。
この結果は、符号化理論や組合せ幾何学への応用には、独立した関心があると考えている。
我々はさらに、プロトコルを、類似の組合せ量のロバストなLeave-One-Out次元を定義する非実現不可能な設定に拡張し、プロトコルがAliceによる誤分類エラーに耐性があるシナリオに拡張する。
関連論文リスト
- Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation [18.098228823748617]
本稿では,RAGデータストア内の文書を対象としたメンバシップ推論手法であるInterrogation Attack (IA)を提案する。
ステルス性を維持しながら、たった30クエリで推論に成功したことを実証します。
我々は,様々なRAG構成に対する事前推論攻撃に対して,TPR@1%FPRの2倍の改善が観察された。
論文 参考訳(メタデータ) (2025-02-01T04:01:18Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Trading off Consistency and Dimensionality of Convex Surrogates for the
Mode [6.096888891865663]
結果が$n$以上の多重クラス分類では、結果は少なくとも次元が$n-1$の実数に埋め込まれなければならない。
本稿では,サロゲート損失次元のトレードオフ,問題インスタンス数,単純度における一貫性領域の制限について検討する。
整合性を持つ各点の質量分布の周りには、単純体の実次元部分集合が存在するが、$n-1$次元に満たない場合、幻覚と呼ばれる現象が起こる分布が存在することを示す。
論文 参考訳(メタデータ) (2024-02-16T16:42:09Z) - Error-Tolerant E-Discovery Protocols [18.694850127330973]
Dong, Hartline, Vijayaraghavan (2022) が導入した多党派分類問題について考察する。
要求当事者からの生産要求に基づき、応答当事者は、法的特権を有する者を除き、要求に応答する文書の提供を要求される。
我々のゴールは、応答する相手が応答しないドキュメントの公開を最小限に抑えながら、ほぼ全ての応答するドキュメントを送信することを検証するプロトコルを見つけることである。
論文 参考訳(メタデータ) (2024-01-31T15:59:16Z) - Generative Dense Retrieval: Memory Can Be a Burden [16.964086245755798]
Generative Retrieval (GR) はクエリが与えられたドキュメント識別子を自動でデコードする。
Dense Retrieval (DR) はクラスタから関連ドキュメントへのきめ細かいクラスタ内マッチングを実現するために導入された。
DRは、NQデータセットを複数の設定で平均3.0R@100改善する。
論文 参考訳(メタデータ) (2024-01-19T04:24:07Z) - Classification Protocols with Minimal Disclosure [12.308957254601243]
裁判所手続におけるe-discoveryなどの応用によって動機付けられた分類のための多人数プロトコルについて考察する。
我々は、要求当事者がすべての応答文書を受信することを保証するプロトコルを特定し、送信当事者は最小限の応答文書を開示する。
このプロトコルは、ポイントの自動ラベリングを可能にする機械学習フレームワークに組み込むことができる。
論文 参考訳(メタデータ) (2022-09-06T17:57:52Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。
そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。
目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-11T16:17:28Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。