論文の概要: An Expert-grounded benchmark of General Purpose LLMs in LCA
- arxiv url: http://arxiv.org/abs/2510.19886v1
- Date: Wed, 22 Oct 2025 15:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.520071
- Title: An Expert-grounded benchmark of General Purpose LLMs in LCA
- Title(参考訳): LCAにおける汎用LCMのエキスパートによる評価
- Authors: Artur Donaldson, Bharathan Balaji, Cajetan Oriekezie, Manish Kumar, Laure Patouillard,
- Abstract要約: ライフサイクルアセスメント(LCA)を支援するツールとして,大規模言語モデル (LLM) が研究されている。
この研究は、LCAにおけるLSMのエキスパートによる最初のベンチマークを提供する。
- 参考スコア(独自算出の注目度): 1.9645069537947935
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Purpose: Artificial intelligence (AI), and in particular large language models (LLMs), are increasingly being explored as tools to support life cycle assessment (LCA). While demonstrations exist across environmental and social domains, systematic evidence on their reliability, robustness, and usability remains limited. This study provides the first expert-grounded benchmark of LLMs in LCA, addressing the absence of standardized evaluation frameworks in a field where no clear ground truth or consensus protocols exist. Methods: We evaluated eleven general-purpose LLMs, spanning both commercial and open-source families, across 22 LCA-related tasks. Seventeen experienced practitioners reviewed model outputs against criteria directly relevant to LCA practice, including scientific accuracy, explanation quality, robustness, verifiability, and adherence to instructions. We collected 168 expert reviews. Results: Experts judged 37% of responses to contain inaccurate or misleading information. Ratings of accuracy and quality of explanation were generally rated average or good on many models even smaller models, and format adherence was generally rated favourably. Hallucination rates varied significantly, with some models producing hallucinated citations at rates of up to 40%. There was no clear-cut distinction between ratings on open-weight versus closed-weight LLMs, with open-weight models outperforming or competing on par with closed-weight models on criteria such as accuracy and quality of explanation. Conclusion: These findings highlight the risks of applying LLMs na\"ively in LCA, such as when LLMs are treated as free-form oracles, while also showing benefits especially around quality of explanation and alleviating labour intensiveness of simple tasks. The use of general-purpose LLMs without grounding mechanisms presents ...
- Abstract(参考訳): 目的:人工知能(AI),特に大規模言語モデル(LLM)は,ライフサイクルアセスメント(LCA)を支援するツールとして研究されている。
環境や社会的領域にまたがる実証は存在するが、信頼性、堅牢性、ユーザビリティに関する体系的な証拠は依然として限られている。
本研究は LCA における LLM のエキスパートグラウンドベンチマークとして, 明確な真実やコンセンサスプロトコルが存在しない分野における標準化された評価フレームワークの欠如に対処するものである。
方法: LCA関連タスク22件を対象に, 商用とオープンソースの両方にまたがる汎用LLMを11件評価した。
17人の経験豊富な実践者が、LCAの実践に直接関係する基準に対するモデルアウトプットをレビューした。
我々は168人の専門家のレビューを集めた。
結果: 専門家は不正確な情報や誤解を招く情報を含む回答の37%を判断した。
精度と説明の質のレーティングは、通常、より小さなモデルでも多くのモデルで平均または良好に評価され、形式順守は概ね好意的に評価された。
幻覚率は大きく変化し、いくつかのモデルでは幻覚励起を最大40%の速度で生成した。
オープンウェイトとクローズドウェイトLLMの格付けには明確な違いはなく、オープンウェイトモデルは正確さや説明の質などの基準でクローズドウェイトモデルと同等または同等に性能を発揮した。
結論: これらの知見は, LLM が自由形オラクルとして扱われる場合など, LCA において na\ に LLM を適用するリスクを浮き彫りにした。
接地機構を持たない汎用LLMの利用
関連論文リスト
- Beyond Pointwise Scores: Decomposed Criteria-Based Evaluation of LLM Responses [23.308803725940383]
DeCEは、精度(実際の精度と妥当性)とリコール(必要な概念のカバレッジ)を分離する分解LDM評価フレームワークである。
実世界の法定QAタスクにおいて,多変量推論と引用グラウンドを含む異なるLLMを評価するために,DeCEをインスタンス化する。
論文 参考訳(メタデータ) (2025-09-19T15:36:02Z) - The Knowledge-Reasoning Dissociation: Fundamental Limitations of LLMs in Clinical Natural Language Inference [13.59675117792588]
大規模言語モデルは、データとパラメータをスケーリングすることで、ますます構造化され、一般化可能な内部表現を取得すると仮定されることが多い。
本研究は,4つの理性家族からなる臨床トライアル自然言語帰属ベンチマークを導入することで,この仮定を疑問視する。
各項目は、ターゲットとなるグラウンド知識とメタレベル推論検証プローブと組み合わせて、推論の失敗から事実アクセスの失敗を解離させる。
論文 参考訳(メタデータ) (2025-08-14T16:01:10Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。
我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。
その結果, LLM は従来と比べ, 誤った単純化出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。