論文の概要: Benchmarking LLMs for Environmental Review and Permitting
- arxiv url: http://arxiv.org/abs/2407.07321v3
- Date: Thu, 12 Jun 2025 03:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.010247
- Title: Benchmarking LLMs for Environmental Review and Permitting
- Title(参考訳): 環境レビューと許可のためのLCMのベンチマーク
- Authors: Rounak Meyur, Hung Phan, Koby Hayashi, Ian Stewart, Shivam Sharma, Sarthak Chaturvedi, Mike Parker, Dan Nally, Sadie Montgomery, Karl Pazdernik, Ali Jannesari, Mahantesh Halappanavar, Sai Munikoti, Sameera Horawalavithana, Anurag Acharya,
- Abstract要約: 国家環境政策法(National Environment Policy Act, NEPA)は、連邦機関に対して、提案された行動の環境への影響を検討することを要求する。
NEPAのような専門分野におけるLarge Language Model (LLM)の有効性は、連邦の意思決定プロセスに採用されることが証明されていない。
EIS文書から派生した最初の総合ベンチマークである NEPAQuAD を提示する。
- 参考スコア(独自算出の注目度): 10.214978239010849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The National Environment Policy Act (NEPA) stands as a foundational piece of environmental legislation in the United States, requiring federal agencies to consider the environmental impacts of their proposed actions. The primary mechanism for achieving this is through the preparation of Environmental Assessments (EAs) and, for significant impacts, comprehensive Environmental Impact Statements (EIS). Large Language Model (LLM)s' effectiveness in specialized domains like NEPA remains untested for adoption in federal decision-making processes. To address this gap, we present NEPA Question and Answering Dataset (NEPAQuAD), the first comprehensive benchmark derived from EIS documents, along with a modular and transparent evaluation pipeline, MAPLE, to assess LLM performance on NEPA-focused regulatory reasoning tasks. Our benchmark leverages actual EIS documents to create diverse question types, ranging from factual to complex problem-solving ones. We built a modular and transparent evaluation pipeline to test both closed- and open-source models in zero-shot or context-driven QA benchmarks. We evaluate five state-of-the-art LLMs using our framework to assess both their prior knowledge and their ability to process NEPA-specific information. The experimental results reveal that all the models consistently achieve their highest performance when provided with the gold passage as context. While comparing the other context-driven approaches for each model, Retrieval Augmented Generation (RAG)-based approaches substantially outperform PDF document contexts, indicating that neither model is well suited for long-context question-answering tasks. Our analysis suggests that NEPA-focused regulatory reasoning tasks pose a significant challenge for LLMs, particularly in terms of understanding the complex semantics and effectively processing the lengthy regulatory documents.
- Abstract(参考訳): 国家環境政策法 (National Environment Policy Act, NEPA) は、アメリカ合衆国における環境法の基本部分であり、連邦政府機関が提案された行動の環境への影響を考慮しなければならない。
これを実現するための主要なメカニズムは、環境アセスメント(EA)の作成と、重大な影響のために、総合的環境影響評価(EIS)である。
NEPAのような専門分野におけるLarge Language Model (LLM)の有効性は、連邦の意思決定プロセスに採用されることが証明されていない。
このギャップに対処するため,EIS文書から派生した最初の総合的なベンチマークである NEPA Question and Answering Dataset (NEPAQuAD) と,モジュール的で透過的な評価パイプラインである MAPLE を用いて, NEPA に着目した規制推論タスクにおける LLM の性能評価を行う。
我々のベンチマークでは、実際のEIS文書を利用して、事実から複雑な問題解決まで、多様な質問タイプを作成している。
ゼロショットまたはコンテキスト駆動のQAベンチマークで、クローズドおよびオープンソースモデルの両方をテストするために、モジュール的で透過的な評価パイプラインを構築しました。
我々は,従来の知識と NEPA 固有の情報処理能力の両方を評価するために,我々のフレームワークを用いた5つの最先端 LLM の評価を行った。
実験結果から,ゴールドパスをコンテキストとして提供すると,すべてのモデルが常に最高の性能を達成できることがわかった。
Retrieval Augmented Generation(RAG)ベースのアプローチは、各モデルに対する他のコンテキスト駆動アプローチと比較しながらも、PDF文書コンテキストを大幅に上回っており、どちらのモデルも長文質問応答タスクに適していないことを示している。
我々の分析は, NEPAに焦点をあてた規制推論タスクが, 特に複雑な意味論を理解し, 長い規制文書を効果的に処理することにおいて, LLMにとって重要な課題となることを示唆している。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。
ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。
本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文 参考訳(メタデータ) (2023-10-26T17:05:40Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear
Domain [0.0]
NuclearQAは、核領域における言語モデルを評価するための100の質問の人為的なベンチマークである。
さまざまな種類の質問が混ざり合わさって、我々のベンチマークが核領域のモデルを評価することをユニークなものにしていることを示す。
論文 参考訳(メタデータ) (2023-10-17T01:27:20Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - When Giant Language Brains Just Aren't Enough! Domain Pizzazz with
Knowledge Sparkle Dust [15.484175299150904]
本稿では,大規模言語モデルの実践的ユースケースへの適応におけるギャップを埋めることを目的とした経験的分析を提案する。
本研究は, 推論の課題によるケーススタディとして, 保険の質問応答(QA)タスクを選択する。
本課題に基づいて,保険政策ルールブックやDBPediaから抽出した付加的な知識により,LLMに依存した新たなモデルを設計する。
論文 参考訳(メタデータ) (2023-05-12T03:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。