論文の概要: DPrivBench: Benchmarking LLMs' Reasoning for Differential Privacy
- arxiv url: http://arxiv.org/abs/2604.15851v1
- Date: Fri, 17 Apr 2026 09:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.840398
- Title: DPrivBench: Benchmarking LLMs' Reasoning for Differential Privacy
- Title(参考訳): DPrivBench: 微分プライバシーのためのLLMの推論のベンチマーク
- Authors: Erchi Wang, Pengrun Huang, Eli Chien, Om Thakkar, Kamalika Chaudhuri, Yu-Xiang Wang, Ruihan Wu,
- Abstract要約: 差分プライバシー(DP)は、データプライバシーを保護する幅広いアプリケーションを持っているが、DPアルゴリズムの設計と検証には専門家レベルの推論が必要である。
DPrivBenchは、各インスタンスが、ある関数やアルゴリズムが指定されたDP保証を満たすかどうかを問うベンチマークである。
実験によると、最強のモデルは教科書の仕組みをうまく扱えるが、全てのモデルは高度なアルゴリズムに苦しむ。
- 参考スコア(独自算出の注目度): 50.73304874527716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differential privacy (DP) has a wide range of applications for protecting data privacy, but designing and verifying DP algorithms requires expert-level reasoning, creating a high barrier for non-expert practitioners. Prior works either rely on specialized verification languages that demand substantial domain expertise or remain semi-automated and require human-in-the-loop guidance. In this work, we investigate whether large language models (LLMs) can automate DP reasoning. We introduce DPrivBench, a benchmark in which each instance asks whether a function or algorithm satisfies a stated DP guarantee under specified assumptions. The benchmark is carefully designed to cover a broad range of DP topics, span diverse difficulty levels, and resist shortcut reasoning through trivial pattern matching. Experiments show that while the strongest models handle textbook mechanisms well, all models struggle with advanced algorithms, revealing substantial gaps in current DP reasoning capabilities. Through further analytic study and failure-mode analysis, we identify several promising directions for improving automated DP reasoning. Our benchmark provides a solid foundation for developing and evaluating such methods, and complements existing benchmarks for mathematical reasoning.
- Abstract(参考訳): 差分プライバシー(DP)は、データのプライバシを保護する幅広いアプリケーションを持っているが、DPアルゴリズムの設計と検証には専門家レベルの推論が必要である。
それまでの作業は、ドメインの専門知識を必要とする専門的な検証言語に依存するか、あるいは半自動化されたままで、ループ内の人間によるガイダンスを必要とする。
本研究では,大規模言語モデル (LLM) がDP推論を自動化できるかを検討する。
DPrivBenchは,ある関数やアルゴリズムが指定された前提の下でのDP保証を満たすかどうかを,各インスタンスが問うベンチマークである。
このベンチマークは、幅広いDPトピックをカバーし、さまざまな難易度をカバーし、簡単なパターンマッチングによるショートカット推論に抵抗するように慎重に設計されている。
実験によると、最強のモデルは教科書の仕組みをうまく扱えるが、全てのモデルは高度なアルゴリズムに悩まされ、現在のDP推論能力にかなりのギャップがあることが示されている。
さらなる分析研究と失敗モード分析を通じて、自動DP推論を改善するためのいくつかの有望な方向を特定する。
我々のベンチマークはそのような手法を開発し評価するための確かな基盤を提供し、数学的推論のための既存のベンチマークを補完する。
関連論文リスト
- Differentially Private Retrieval-Augmented Generation [13.622078883013442]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を減らすために広く使われているフレームワークである。
RAGは、データベースが医療記録や法的文書などの機密性のあるコーパスを含んでいる場合、深刻なプライバシー上のリスクを引き起こす。
本稿では,提案-テスト-リリースパラダイムを用いてDPを統合した新しいプライバシー保護型RAGアルゴリズムであるDP-KSAを提案する。
論文 参考訳(メタデータ) (2026-02-16T00:52:57Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Synthesizing Tight Privacy and Accuracy Bounds via Weighted Model Counting [5.552645730505715]
2つの中核的な課題は、DPアルゴリズムの分布の表現的でコンパクトで効率的な符号化を見つけることである。
プライバシーと正確性に縛られた合成法を開発することで、最初の課題に対処する。
DPアルゴリズムに固有の対称性を活用するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2024-02-26T19:29:46Z) - GEML: A Grammar-based Evolutionary Machine Learning Approach for
Design-Pattern Detection [7.018591019975254]
デザインパターン(DP)はソフトウェア開発における良いプラクティスとして認識されています。
適切なドキュメントの欠如はトレーサビリティを損なうことが少なく、そのメリットは数千行のコードの間でぼやけています。
本稿では,多様な性質のソフトウェア特性を用いた進化的機械学習に基づく新しい検出手法であるGEMLを提案する。
論文 参考訳(メタデータ) (2024-01-13T11:05:24Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - How to DP-fy ML: A Practical Guide to Machine Learning with Differential
Privacy [22.906644117887133]
差分プライバシー(DP)は、データ匿名化に関する公式声明を作成するための金の標準となっている。
DPの採用は、DP保護が持つもの、プライバシーが目的とするもの、そしてMLモデルの優れたプライバシ・ユーティリティ・コンピューティングトレードオフを達成することの難しさに関する限られた実践的なガイダンスによって妨げられている。
この研究は自己完結型のガイドであり、DP MLの分野を詳細に概観し、厳格なプライバシー保証を備えた最高のDP MLモデルを達成するための情報を提供する。
論文 参考訳(メタデータ) (2023-03-01T16:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。