論文の概要: LLMs Can Assist with Proposal Selection at Large User Facilities
- arxiv url: http://arxiv.org/abs/2512.10895v1
- Date: Thu, 11 Dec 2025 18:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.52367
- Title: LLMs Can Assist with Proposal Selection at Large User Facilities
- Title(参考訳): LLMは大規模ユーザ施設における提案選択を支援することができる
- Authors: Lijie Ding, Janell Thomson, Jon Taylor, Changwoo Do,
- Abstract要約: 大規模言語モデル (LLM) は、大規模なユーザ施設における提案選択プロセスを強化することができる。
LLMは、従来の人間レビューに代わるスケーラブルで一貫性があり、費用対効果がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore how large language models (LLMs) can enhance the proposal selection process at large user facilities, offering a scalable, consistent, and cost-effective alternative to traditional human review. Proposal selection depends on assessing the relative strength among submitted proposals; however, traditional human scoring often suffers from weak inter-proposal correlations and is subject to reviewer bias and inconsistency. A pairwise preference-based approach is logically superior, providing a more rigorous and internally consistent basis for ranking, but its quadratic workload makes it impractical for human reviewers. We address this limitation using LLMs. Leveraging the uniquely well-curated proposals and publication records from three beamlines at the Spallation Neutron Source (SNS), Oak Ridge National Laboratory (ORNL), we show that the LLM rankings correlate strongly with the human rankings (Spearman $ρ\simeq 0.2-0.8$, improving to $\geq 0.5$ after 10\% outlier removal). Moreover, LLM performance is no worse than that of human reviewers in identifying proposals with high publication potential, while costing over two orders of magnitude less. Beyond ranking, LLMs enable advanced analyses that are challenging for humans, such as quantitative assessment of proposal similarity via embedding models, which provides information crucial for review committees.
- Abstract(参考訳): 我々は、大規模言語モデル(LLM)が、大規模なユーザ施設における提案選択プロセスをどのように強化し、従来のヒューマンレビューに代わるスケーラブルで一貫性があり、費用対効果の高い代替手段を提供するかを探求する。
提案の選択は提案された提案の相対的な強度を評価することに依存するが、従来の人間のスコアリングはプロモーサル間の相関が弱く、レビュアーのバイアスと矛盾を被ることが多い。
ペアワイズな選好に基づくアプローチは論理的に優れており、より厳密で内部的に一貫したランク付けの基盤を提供するが、その二次的な作業負荷は人間レビュアーにとって実用的ではない。
LLMを用いたこの制限に対処する。
スカラーション中性子源(SNS)、オークリッジ国立研究所(ORNL)の3つのビームラインからのユニークな精度の高い提案と公表記録を利用して、LLMランキングがヒトランキングと強く相関していることを示す(Spearman $ρ\simeq 0.2-0.8$)。
さらに、LLMの性能は、高い公開可能性を持つ提案を識別する上で、人間レビュアーのそれよりも悪くはないが、2桁以上のコストがかかる。
ランキングの他に、LLMは人間にとって困難な高度な分析を可能にする。例えば、調査委員会にとって重要な情報を提供する埋め込みモデルによる提案類似性の定量的評価などである。
関連論文リスト
- Tuning LLM Judge Design Decisions for 1/1000 of the Cost [42.06346155380305]
大きな言語モデル(LLM)は、しばしば人為的なアノテーションを必要とする。
この問題に対処するため、2つのLLMの出力を比較するLLMベースの審査員が提案されている。
いくつかのアプローチが提案されているが、異なる論文の間には多くの相反する要因が存在する。
論文 参考訳(メタデータ) (2025-01-24T17:01:14Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。