論文の概要: LLM-based Evaluation Policy Extraction for Ecological Modeling
- arxiv url: http://arxiv.org/abs/2505.13794v1
- Date: Tue, 20 May 2025 01:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.582092
- Title: LLM-based Evaluation Policy Extraction for Ecological Modeling
- Title(参考訳): 環境モデリングのためのLCMに基づく評価政策抽出
- Authors: Qi Cheng, Licheng Liu, Qing Zhu, Runlong Yu, Zhenong Jin, Yiqun Xie, Xiaowei Jia,
- Abstract要約: 多くの重要なアプリケーションにおけるモデル性能のベンチマークには,エコロジー時系列の評価が不可欠である。
伝統的な数値メトリクスは、生態学的プロセスに不可欠なドメイン固有の時間的パターンを捉えるのに失敗する。
本稿では,大規模言語モデル(LLM)に基づく自然言語ポリシー抽出とメトリック学習を統合した新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.432508855430797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating ecological time series is critical for benchmarking model performance in many important applications, including predicting greenhouse gas fluxes, capturing carbon-nitrogen dynamics, and monitoring hydrological cycles. Traditional numerical metrics (e.g., R-squared, root mean square error) have been widely used to quantify the similarity between modeled and observed ecosystem variables, but they often fail to capture domain-specific temporal patterns critical to ecological processes. As a result, these methods are often accompanied by expert visual inspection, which requires substantial human labor and limits the applicability to large-scale evaluation. To address these challenges, we propose a novel framework that integrates metric learning with large language model (LLM)-based natural language policy extraction to develop interpretable evaluation criteria. The proposed method processes pairwise annotations and implements a policy optimization mechanism to generate and combine different assessment metrics. The results obtained on multiple datasets for evaluating the predictions of crop gross primary production and carbon dioxide flux have confirmed the effectiveness of the proposed method in capturing target assessment preferences, including both synthetically generated and expert-annotated model comparisons. The proposed framework bridges the gap between numerical metrics and expert knowledge while providing interpretable evaluation policies that accommodate the diverse needs of different ecosystem modeling studies.
- Abstract(参考訳): 生態系の時系列評価は、温室効果ガスのフラックスの予測、炭素-窒素の動態の把握、水循環のモニタリングなど、多くの重要な応用においてモデル性能のベンチマークに不可欠である。
従来の数値測度(例えば、R-二乗、ルート平均二乗誤差)は、モデル化された生態系変数と観察された生態系変数の類似性を定量化するために広く用いられてきたが、それらはしばしば生態学的プロセスに不可欠な領域固有の時間パターンを捉えなかった。
結果として、これらの手法には専門的な視覚検査が伴い、かなりの人的労力と大規模評価の適用性に制限が課せられる。
これらの課題に対処するために,大規模言語モデル(LLM)に基づく自然言語ポリシー抽出とメトリック学習を統合し,解釈可能な評価基準を開発する新しいフレームワークを提案する。
提案手法は、ペアワイズアノテーションを処理し、異なる評価指標を生成し、組み合わせるためのポリシー最適化機構を実装している。
その結果, 総合生産量と二酸化炭素フラックスの予測値を評価するために, 複数のデータセットで得られた結果から, 合成モデルと専門家によるモデルの比較を含む, 対象評価の嗜好を捉える上で, 提案手法の有効性が確認された。
提案フレームワークは,様々な生態系モデリング研究の多様なニーズに対応する解釈可能な評価ポリシーを提供しながら,数値メトリクスと専門家知識のギャップを埋めるものである。
関連論文リスト
- Covariate-dependent Graphical Model Estimation via Neural Networks with Statistical Guarantees [18.106204331704156]
グラフ構造が共依存する設定を検討し、それを推定するためのディープニューラルネットワークベースのアプローチを検討する。
経験的リスク最小化フレームワークで一般的に用いられる仮定の下で,PAC保証による理論的結果が確立される。
提案手法の性能をいくつかの合成データ設定で評価し,既存手法と比較した。
論文 参考訳(メタデータ) (2025-04-23T02:13:36Z) - Bayesian Semi-Parametric Spatial Dispersed Count Model for Precipitation Analysis [0.5399800035598186]
非パラメトリック手法と、更新理論に基づく分散カウントモデルを組み合わせる方法である。
アイオワ州の肺がんと気管支がんの死亡データに適用し、環境と人口統計の要因を強調している。
この応用は、公衆衛生研究における方法論の重要性を強調するものである。
論文 参考訳(メタデータ) (2025-03-24T20:13:55Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Surrogate Model for Geological CO2 Storage and Its Use in Hierarchical
MCMC History Matching [0.0]
我々は、最近導入されたR-U-Netサロゲートモデルを拡張し、幅広い地質シナリオから引き出されたジオモデルの実現を取り扱う。
本研究では, 人工真理モデルにおける観測井の観測データを用いて, 地質的不確実性を大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-08-11T18:29:28Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Energy-Based Learning for Cooperative Games, with Applications to
Feature/Data/Model Valuations [91.36803653600667]
本稿では, 最大エントロピーフレームワークによる理論的正当性を備えた, 協調ゲームのための新しいエネルギーベース処理法を提案する。
驚くべきことに、エネルギーベースモデルの変分推論を行うことで、Shapley値やBanzhafインデックスといった様々なゲーム理論の評価基準を復元する。
提案する変分指数は,特定の合成および実世界のバリュエーション問題において,興味深い特性を享受できることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-05T17:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。