論文の概要: Expert Evaluation of LLM World Models: A High-$T_c$ Superconductivity Case Study
- arxiv url: http://arxiv.org/abs/2511.03782v1
- Date: Wed, 05 Nov 2025 19:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.184056
- Title: Expert Evaluation of LLM World Models: A High-$T_c$ Superconductivity Case Study
- Title(参考訳): LLM世界モデルのエキスパート評価:高T_c$超伝導ケーススタディ
- Authors: Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia, Alexey Vlaskin, Chris Co, Daniel J. Liebling, Scott Ellsworth, Matthew Abraham, Elizabeth Dorfman, N. P. Armitage, Chunhan Feng, Antoine Georges, Olivier Gingras, Dominik Kiese, Steven A. Kivelson, Vadim Oganesyan, B. J. Ramshaw, Subir Sachdev, T. Senthil, J. M. Tranquada, Michael P. Brenner, Subhashini Venugopalan, Eun-Ah Kim,
- Abstract要約: 大規模言語モデル(LLM)は科学的文献探索の強力なツールとして大きな可能性を秘めている。
専門家のレベルでのLLMシステムによる文献の理解能力を評価する。
我々は,分野の歴史を網羅する1,726の科学論文と67の専門家による質問のデータベースを構築した。
- 参考スコア(独自算出の注目度): 8.574376236521958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) show great promise as a powerful tool for scientific literature exploration. However, their effectiveness in providing scientifically accurate and comprehensive answers to complex questions within specialized domains remains an active area of research. Using the field of high-temperature cuprates as an exemplar, we evaluate the ability of LLM systems to understand the literature at the level of an expert. We construct an expert-curated database of 1,726 scientific papers that covers the history of the field, and a set of 67 expert-formulated questions that probe deep understanding of the literature. We then evaluate six different LLM-based systems for answering these questions, including both commercially available closed models and a custom retrieval-augmented generation (RAG) system capable of retrieving images alongside text. Experts then evaluate the answers of these systems against a rubric that assesses balanced perspectives, factual comprehensiveness, succinctness, and evidentiary support. Among the six systems two using RAG on curated literature outperformed existing closed models across key metrics, particularly in providing comprehensive and well-supported answers. We discuss promising aspects of LLM performances as well as critical short-comings of all the models. The set of expert-formulated questions and the rubric will be valuable for assessing expert level performance of LLM based reasoning systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は科学的文献探索の強力なツールとして大きな可能性を秘めている。
しかし、科学的に正確で包括的な回答を専門領域内の複雑な問題に与える効果は研究の活発な領域として残されている。
高温カップレートの分野を模範として,専門家のレベルでのLLMシステムによる文献の理解能力を評価する。
本研究では,分野の歴史を網羅する1,726の学術論文と,文献の深い理解を探求する67の専門家による質問のデータベースを構築した。
次に、これらの疑問に答えるために、商業的に利用可能なクローズドモデルと、テキストとともに画像を検索できるカスタム検索拡張生成(RAG)システムを含む、6つの異なるLCMベースのシステムを評価した。
専門家はこれらのシステムの答えを、バランスのとれた視点、事実の包括性、簡潔さ、明らかな支援を評価するルーリックに対して評価する。
キュレートされた文献にRAGを使用する6つのシステムのうち2つは、特に包括的でサポートされた回答を提供することで、主要なメトリクスにわたって既存のクローズドモデルよりも優れていた。
我々は、LLM性能の有望な側面と、全てのモデルの致命的な欠点について論じる。
LLMに基づく推論システムのエキスパートレベルの性能を評価するには,専門家による質問とルーブリックのセットが有用だろう。
関連論文リスト
- ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge [94.40918390309186]
大規模言語モデル(LLM)の進捗を評価することは、応答を検証するという課題によって制約されることが多い。
7000以上の応答基準ペアの集合であるProfBenchを紹介する。
以上の結果から, ProfBench は最先端の LLM においても大きな課題となることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-21T17:59:44Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - Modelling and Classifying the Components of a Literature Review [0.0]
本稿では, 言語モデル(LLM)を用いて, ドメインの専門家が手動で注釈付けした700文と, 自動ラベル付けされた2,240文からなる新しいベンチマークを提案する。
この実験は、この挑戦的な領域における芸術の状態を前進させるいくつかの新しい洞察をもたらす。
論文 参考訳(メタデータ) (2025-08-06T11:30:07Z) - Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science [0.18416014644193066]
大型言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者を支援するために使用された。
系統的な文献レビューのためのLLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-03-16T05:52:18Z) - SteLLA: A Structured Grading System Using LLMs with RAG [2.630522349105014]
本稿では,SteLLA (Structured Grading System Using LLMs with RAG) について述べる。
受験生の回答を含む実世界のデータセットを大学レベルの生物学コースから収集した。
実験により,本システムでは,人間の学級との相当な合意を達成でき,また,その問題で検討されたすべての知識点について,ブレークダウングレードとフィードバックを提供することができた。
論文 参考訳(メタデータ) (2025-01-15T19:24:48Z) - What is the Role of Large Language Models in the Evolution of Astronomy Research? [0.0]
ChatGPTや他の最先端の大規模言語モデル(LLM)は、急速に複数のフィールドを変換している。
これらのモデルは、一般に広大なデータセットに基づいて訓練され、人間のようなテキスト生成能力を示す。
論文 参考訳(メタデータ) (2024-09-30T12:42:25Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis [91.5632751731927]
ChatGPTのような大規模言語モデルは、一般的なタスクを解く際、顕著な能力を示した。
本稿では,レコメンデーションタスクにおけるLLMの活用のための汎用フレームワークを提案し,レコメンデーションタスクとしてのLLMの機能に着目した。
提案手法は,提案手法が推薦結果に与える影響を解析し,提案手法とモデルアーキテクチャ,パラメータスケール,コンテキスト長について検討する。
論文 参考訳(メタデータ) (2024-01-10T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。