論文の概要: Evaluating LLM-Based Grant Proposal Review via Structured Perturbations
- arxiv url: http://arxiv.org/abs/2603.08281v2
- Date: Wed, 11 Mar 2026 21:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.437422
- Title: Evaluating LLM-Based Grant Proposal Review via Structured Perturbations
- Title(参考訳): LLMに基づく構造摂動によるグラント提案の評価
- Authors: William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard,
- Abstract要約: 我々は、6つの品質軸にまたがるLLM感度を探索する摂動型フレームワークを開発した。
我々は, 単一パスレビュー, セクション・バイ・セクション分析, 専門家パネルをエミュレートした「ペルソナのカウンシル」という3つのレビューアーキテクチャを比較した。
- 参考スコア(独自算出の注目度): 18.689211845609623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI-assisted grant proposals outpace manual review capacity in a kind of ``Malthusian trap'' for the research ecosystem, this paper investigates the capabilities and limitations of LLM-based grant reviewing for high-stakes evaluation. Using six EPSRC proposals, we develop a perturbation-based framework probing LLM sensitivity across six quality axes: funding, timeline, competency, alignment, clarity, and impact. We compare three review architectures: single-pass review, section-by-section analysis, and a 'Council of Personas' ensemble emulating expert panels. The section-level approach significantly outperforms alternatives in both detection rate and scoring reliability, while the computationally expensive council method performs no better than baseline. Detection varies substantially by perturbation type, with alignment issues readily identified but clarity flaws largely missed by all systems. Human evaluation shows LLM feedback is largely valid but skewed toward compliance checking over holistic assessment. We conclude that current LLMs may provide supplementary value within EPSRC review but exhibit high variability and misaligned review priorities. We release our code and any non-protected data.
- Abstract(参考訳): 本稿では,AI支援型助成金の提案が,研究エコシステムの「マルサストラップ」のような手作業による評価能力よりも優れており,LLMによる高評価のための助成金審査の能力と限界について検討する。
6つのESSRC提案を用いて、資金、タイムライン、能力、アライメント、明快さ、インパクトの6つの品質軸にLLM感度を示す摂動ベースのフレームワークを開発する。
我々は, 単一パスレビュー, セクション・バイ・セクション分析, 専門家パネルをエミュレートした「ペルソナのカウンシル」という3つのレビューアーキテクチャを比較した。
セクションレベルのアプローチは検出率とスコアリング信頼性の両面でオルタナティブを著しく上回り、計算コストのかかるカウンシル法はベースラインに匹敵する性能を示した。
検出は摂動型によって大きく異なり、アライメントの問題は容易に特定できるが、明快な欠陥は全てのシステムでほとんど失われている。
人間の評価は、LCMのフィードバックは概ね有効であるが、全体的評価よりもコンプライアンスチェックに苦慮していることを示している。
結論として,現在のLCMはEPSRCレビューにおいて補助的な価値を提供する可能性があるが,高い多様性と不整合性レビューの優先順位を示す。
コードと保護されていないデータをリリースします。
関連論文リスト
- Rectify Evaluation Preference: Improving LLMs' Critique on Math Reasoning via Perplexity-aware Reinforcement Learning [34.43632129774481]
本稿では,不均衡な評価嗜好の潜在的な理由を定量化し,検討する。
理由の分析により、評価の嗜好を正すために、新しいパープレキシティ対応強化学習アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2025-11-13T13:37:45Z) - AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - LITE: LLM-Impelled efficient Taxonomy Evaluation [32.8374687916129]
LITEは階層的な分類評価戦略であり、分類を管理可能なサブ構造に分解する。
これは、定量的なパフォーマンス分析と質的な洞察の両方を提供する。
論文 参考訳(メタデータ) (2025-04-02T05:33:05Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。
このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。
提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-18T03:31:06Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。