論文の概要: Scalable Delphi: Large Language Models for Structured Risk Estimation
- arxiv url: http://arxiv.org/abs/2602.08889v1
- Date: Mon, 09 Feb 2026 16:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.380245
- Title: Scalable Delphi: Large Language Models for Structured Risk Estimation
- Title(参考訳): スケーラブルなDelphi: 構造化リスク推定のための大規模言語モデル
- Authors: Tobias Lorenz, Mario Fritz,
- Abstract要約: 本研究では,Large Language Models (LLMs) が,構造化専門家の誘引にスケーラブルなプロキシとして機能するかどうかを検討する。
対象量は通常観測不可能であるため,必要な条件に基づいて評価フレームワークを開発する。
我々は,AIによるサイバーセキュリティリスクの領域において,3つの能力ベンチマークと独立した人間によるライセンス研究を用いて評価を行った。
- 参考スコア(独自算出の注目度): 43.395199275016665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantitative risk assessment in high-stakes domains relies on structured expert elicitation to estimate unobservable properties. The gold standard - the Delphi method - produces calibrated, auditable judgments but requires months of coordination and specialist time, placing rigorous risk assessment out of reach for most applications. We investigate whether Large Language Models (LLMs) can serve as scalable proxies for structured expert elicitation. We propose Scalable Delphi, adapting the classical protocol for LLMs with diverse expert personas, iterative refinement, and rationale sharing. Because target quantities are typically unobservable, we develop an evaluation framework based on necessary conditions: calibration against verifiable proxies, sensitivity to evidence, and alignment with human expert judgment. We evaluate in the domain of AI-augmented cybersecurity risk, using three capability benchmarks and independent human elicitation studies. LLM panels achieve strong correlations with benchmark ground truth (Pearson r=0.87-0.95), improve systematically as evidence is added, and align with human expert panels - in one comparison, closer to a human panel than the two human panels are to each other. This demonstrates that LLM-based elicitation can extend structured expert judgment to settings where traditional methods are infeasible, reducing elicitation time from months to minutes.
- Abstract(参考訳): 高リスク領域における定量的リスクアセスメントは、構造化された専門家による、観測不可能な性質を推定することに依存する。
デルファイ法(Delphi method)は校正され監査可能な判断を下すが、数ヶ月の調整と専門的な時間を要するため、ほとんどのアプリケーションにおいて厳密なリスク評価を適用できない。
本研究では,Large Language Models (LLMs) が,構造化専門家の誘引にスケーラブルなプロキシとして機能するかどうかを検討する。
本稿では,LLMの古典的プロトコルを多種多様な専門的ペルソナ,反復的洗練,合理的な共有に応用したスケーラブルなDelphiを提案する。
対象の量は通常観測不可能であるため、検証可能なプロキシに対する校正、証拠に対する感受性、人間の専門家による判断との整合など、必要な条件に基づく評価フレームワークを開発する。
我々は,AIによるサイバーセキュリティリスクの領域において,3つの能力ベンチマークと独立した人間によるライセンス研究を用いて評価を行った。
LLMパネルは、ベンチマーク基底の真理と強い相関(ピアソンr=0.87-0.95)を達成し、証拠を追加して体系的に改善し、人間の専門家パネルと整合する。
このことは、LLMに基づくエリケーションが、構造化された専門家による判断を従来の方法が実現不可能な設定にまで拡張し、数ヶ月から数分に短縮できることを示している。
関連論文リスト
- Automated Benchmark Generation from Domain Guidelines Informed by Bloom's Taxonomy [28.293009223912602]
オープンエンド質問応答(英語: Open-ended Question answering, QA)は、モデルが事実的リコールを超えた文脈的推論を行う能力を評価する。
この課題は、知識が手続き的であり、専門的な判断が下されている、実践ベースの領域で特に深刻である。
ブルームの分類学から得られた専門家認可ガイドラインから自動ベンチマーク生成のためのフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-28T05:01:11Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Evaluating Large Language Models as Expert Annotators [17.06186816803593]
本稿では,トップパフォーマンス言語モデルが,人間の専門家アノテータの直接的な代替として機能するかどうかを考察する。
我々は、金融、バイオメディシン、法という3つの専門分野にまたがる個別のLCMとマルチエージェントのアプローチを評価した。
実験結果から,推定時間的手法を具備した個々のLSMは,限界あるいは負の利得しか示さないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-11T10:19:10Z) - Are LLMs complicated ethical dilemma analyzers? [6.8995057589960895]
実世界の倫理的ジレンマと専門家の意見からなるベンチマークデータセットを導入する。
BLEU, Damerau-Levenshtein 距離, TF-IDF 類似度, Universal Sentence 類似度に基づく複合計量フレームワークを用いて, マルチフロンティア大言語モデル (LLM) の評価を行った。
GPT-4o-miniは全区間でほぼ一貫した性能を示し,LLMは語彙的,構造的アライメントにおいて非熟練人間よりも優れていた。
論文 参考訳(メタデータ) (2025-05-12T22:35:07Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。