論文の概要: Evaluating Large Language Model Capabilities in Assessing Spatial Econometrics Research
- arxiv url: http://arxiv.org/abs/2506.06377v1
- Date: Wed, 04 Jun 2025 16:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.241581
- Title: Evaluating Large Language Model Capabilities in Assessing Spatial Econometrics Research
- Title(参考訳): 空間計量学研究における大規模言語モデル能力の評価
- Authors: Giuseppe Arbia, Luca Morandini, Vincenzo Nardelli,
- Abstract要約: 28の論文から、オリジナルかつ意図的に変更された「偽造」要約を作成しました。
その結果, LLMは変数選択のコヒーレンスを専門的に評価できるが, より深い側面を評価した場合, その性能は著しく変化することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates Large Language Models (LLMs) ability to assess the economic soundness and theoretical consistency of empirical findings in spatial econometrics. We created original and deliberately altered "counterfactual" summaries from 28 published papers (2005-2024), which were evaluated by a diverse set of LLMs. The LLMs provided qualitative assessments and structured binary classifications on variable choice, coefficient plausibility, and publication suitability. The results indicate that while LLMs can expertly assess the coherence of variable choices (with top models like GPT-4o achieving an overall F1 score of 0.87), their performance varies significantly when evaluating deeper aspects such as coefficient plausibility and overall publication suitability. The results further revealed that the choice of LLM, the specific characteristics of the paper and the interaction between these two factors significantly influence the accuracy of the assessment, particularly for nuanced judgments. These findings highlight LLMs' current strengths in assisting with initial, more surface-level checks and their limitations in performing comprehensive, deep economic reasoning, suggesting a potential assistive role in peer review that still necessitates robust human oversight.
- Abstract(参考訳): 本稿では,空間経済学における経験的発見の経済的健全性と理論的整合性を評価するためのLarge Language Models(LLMs)の能力について検討する。
論文28件(2005-2024)からオリジナルかつ意図的に修正した「偽造」要約を作成し,多種多様なLCMを用いて評価した。
LLMは、変数の選択、係数の妥当性、出版適性に関する定性的な評価と構造化された二項分類を提供した。
その結果, LLM は変動選択のコヒーレンス(GPT-4o などの上位モデルで F1 スコア0.87 を達成)を専門的に評価できる一方で, 係数の妥当性や出版適性といったより深い側面を評価する場合には, その性能が著しく変化することがわかった。
さらに, LLMの選択, 論文の特徴, 両者の相互作用が評価の精度, 特にニュアンス判断に大きく影響を及ぼすことが明らかとなった。
これらの知見は、LLMが初期、より表面レベルのチェックを補助する上での現在の強みと、包括的で深い経済的な推論を行う上での限界を浮き彫りにし、なおも堅牢な人間の監視を必要とするピアレビューにおいて潜在的に補助的な役割を示唆している。
関連論文リスト
- Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - Evaluating the Consistency of LLM Evaluators [9.53888551630878]
大規模言語モデル(LLM)は、一般的な評価指標としての可能性を示している。
評価器としての整合性はまだ検討されており、LCM評価器の信頼性に関する懸念が高まっている。
論文 参考訳(メタデータ) (2024-11-30T17:29:08Z) - From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。