論文の概要: Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain
- arxiv url: http://arxiv.org/abs/2501.06277v1
- Date: Fri, 10 Jan 2025 12:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:56.691724
- Title: Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain
- Title(参考訳): 環境大言語モデル評価(ELLE)データセット:環境環境領域における生成AIアプリケーション評価のためのベンチマーク
- Authors: Jing Guo, Nan Li, Ming Xu,
- Abstract要約: ジェネレーティブAIは、生態学的および環境的応用に大きな可能性を秘めている。
環境大言語モデル評価(ELLE)データセットは、大規模言語モデルを評価するために設計された最初のベンチマークである。
ELLEデータセットには16の環境トピックにまたがる1,130の質問応答ペアが含まれており、ドメイン、難易度、タイプによって分類されている。
- 参考スコア(独自算出の注目度): 6.246205449407889
- License:
- Abstract: Generative AI holds significant potential for ecological and environmental applications such as monitoring, data analysis, education, and policy support. However, its effectiveness is limited by the lack of a unified evaluation framework. To address this, we present the Environmental Large Language model Evaluation (ELLE) question answer (QA) dataset, the first benchmark designed to assess large language models and their applications in ecological and environmental sciences. The ELLE dataset includes 1,130 question answer pairs across 16 environmental topics, categorized by domain, difficulty, and type. This comprehensive dataset standardizes performance assessments in these fields, enabling consistent and objective comparisons of generative AI performance. By providing a dedicated evaluation tool, ELLE dataset promotes the development and application of generative AI technologies for sustainable environmental outcomes. The dataset and code are available at https://elle.ceeai.net/ and https://github.com/CEEAI/elle.
- Abstract(参考訳): ジェネレーティブAIは、モニタリング、データ分析、教育、政策支援など、生態学的および環境的応用に大きな可能性を秘めている。
しかし、その効果は統一的な評価フレームワークが欠如していることによって制限される。
これを解決するために,環境大言語モデル評価(ELLE)質問応答(QA)データセットを提示する。これは,大規模言語モデルとその生態・環境科学への応用を評価するために設計された最初のベンチマークである。
ELLEデータセットには、16の環境トピックにまたがる1,130の質問応答ペアが含まれており、ドメイン、難易度、タイプによって分類されている。
この包括的なデータセットは、これらの分野のパフォーマンスアセスメントを標準化し、生成AIのパフォーマンスの一貫性と客観的比較を可能にする。
専用の評価ツールを提供することで、ELLEデータセットは、持続可能な環境結果のための生成AIテクノロジの開発と応用を促進する。
データセットとコードはhttps://elle.ceeai.net/とhttps://github.com/CEEAI/elleで入手できる。
関連論文リスト
- Combining Observational Data and Language for Species Range Estimation [63.65684199946094]
我々は,数百万の市民科学種の観察とウィキペディアのテキスト記述を組み合わせた新しいアプローチを提案する。
我々のフレームワークは、場所、種、テキスト記述を共通空間にマッピングし、テキスト記述からゼロショット範囲の推定を可能にする。
また,本手法は観測データと組み合わせることで,少ないデータでより正確な距離推定を行うことができる。
論文 参考訳(メタデータ) (2024-10-14T17:22:55Z) - ExioML: Eco-economic dataset for Machine Learning in Global Sectoral Sustainability [11.925553950065895]
本稿では,サステナビリティ分析用に設計された最初の機械学習ベンチマークデータセットであるExioMLを紹介する。
セクターサステナビリティを評価し,データセットのユーザビリティを実証するために,温室効果ガスのレグレッションタスクを実施した。
論文 参考訳(メタデータ) (2024-06-11T17:06:34Z) - EcoVerse: An Annotated Twitter Dataset for Eco-Relevance Classification, Environmental Impact Analysis, and Stance Detection [0.0]
EcoVerseは、さまざまな環境トピックにまたがる3,023のツイートからなる、英語の注釈付きTwitterデータセットである。
本研究では,環境関連分類,スタンス検出,環境影響分析のための独自のアプローチの導入を目的とした3段階のアノテーションスキームを提案する。
論文 参考訳(メタデータ) (2024-04-08T01:21:11Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Challenges in data-based geospatial modeling for environmental research
and practice [19.316860936437823]
機械学習(ML)を用いたデータに基づく地理空間モデリングが環境研究で人気を博している。
本研究では,不均衡データ,空間自己相関,予測誤差,モデル一般化,ドメイン特異性,不確実性推定など,地理空間モデリングにおける一般的なニュアンスについて検討する。
論文 参考訳(メタデータ) (2023-11-18T12:30:49Z) - FREE: The Foundational Semantic Recognition for Modeling Environmental Ecosystems [28.166089112650926]
FREEは利用可能な環境データをテキスト空間にマッピングし、環境科学における従来の予測モデリングタスクを意味認識問題に変換する。
長期予測に使用する場合、FREEは将来予測を強化するために新たに収集した観測を組み込む柔軟性を持つ。
FREEの有効性は、2つの社会的に重要な実世界の応用の文脈で評価され、デラウェア川流域の河川水温を予測し、イリノイ州とアイオワ州で毎年トウモロコシの収量を予測する。
論文 参考訳(メタデータ) (2023-11-17T00:53:09Z) - TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction [131.7684896032888]
イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。
TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。
TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
論文 参考訳(メタデータ) (2023-11-16T04:43:03Z) - Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation [82.85015548989223]
Pentathlonは、モデル効率の総合的で現実的な評価のためのベンチマークである。
Pentathlonは、モデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。
レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
論文 参考訳(メタデータ) (2023-07-19T01:05:33Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z) - Towards Environmentally Equitable AI via Geographical Load Balancing [40.142341503145275]
本稿では、その地域的負の環境影響のバランスをとることによって、AIの環境不平等に対処する第一歩を踏み出す。
大規模言語AIモデルに対する推論要求を提供する地理的に分散した10のデータセンタを考慮し、トレースベースのシミュレーションを実行する。
その結果,既存のGLBアプローチは環境不平等を増大させる可能性を示し,提案したエクイティ対応GLBは,炭素および水のフットプリントにおける地域格差を著しく低減できることを示した。
論文 参考訳(メタデータ) (2023-06-20T17:13:33Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。