Fugu-MT 論文翻訳(概要): EconNLI: Evaluating Large Language Models on Economics Reasoning

論文の概要: EconNLI: Evaluating Large Language Models on Economics Reasoning

arxiv url: http://arxiv.org/abs/2407.01212v1
Date: Mon, 1 Jul 2024 11:58:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 21:49:58.222198
Title: EconNLI: Evaluating Large Language Models on Economics Reasoning
Title（参考訳）: EconNLI:経済学における大規模言語モデルの評価
Authors: Yue Guo, Yi Yang,
Abstract要約: LLM(Large Language Models)は、経済分析レポートの作成や、財政的なアドバイスを提供するために広く使われている。経済分野におけるLLMの知識と推論能力を評価するために,新たなデータセット,経済事象に関する自然言語推論(EconNLI)を提案する。実験の結果, LLMは経済的な推論では洗練されておらず, 誤りや幻覚を生じさせる可能性が示唆された。
参考スコア（独自算出の注目度）: 22.754757518792395
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are widely used for writing economic analysis reports or providing financial advice, but their ability to understand economic knowledge and reason about potential results of specific economic events lacks systematic evaluation. To address this gap, we propose a new dataset, natural language inference on economic events (EconNLI), to evaluate LLMs' knowledge and reasoning abilities in the economic domain. We evaluate LLMs on (1) their ability to correctly classify whether a premise event will cause a hypothesis event and (2) their ability to generate reasonable events resulting from a given premise. Our experiments reveal that LLMs are not sophisticated in economic reasoning and may generate wrong or hallucinated answers. Our study raises awareness of the limitations of using LLMs for critical decision-making involving economic reasoning and analysis. The dataset and codes are available at https://github.com/Irenehere/EconNLI.
Abstract（参考訳）: 大規模言語モデル(LLM)は、経済分析レポートを書いたり、財政的なアドバイスを提供したりするために広く使われているが、経済的な知識を理解し、特定の経済事象の潜在的な結果について推論する能力は、体系的な評価を欠いている。このギャップに対処するため、経済領域におけるLLMの知識と推論能力を評価するために、新たなデータセット、経済事象に関する自然言語推論(EconNLI)を提案する。本研究では,(1)前提事象が仮説事象を引き起こすかどうかを正しく分類する能力,(2)所定の前提から合理的事象を生成する能力について評価する。実験の結果, LLMは経済的推論では洗練されておらず, 誤りや幻覚を生じさせる可能性が示唆された。本研究は,LLMを経済的推論と分析を含む批判的意思決定に利用することの限界に対する意識を高めるものである。データセットとコードはhttps://github.com/Irenehere/EconNLIで公開されている。

関連論文リスト

Left Leaning Models: AI Assumptions on Economic Policy [0.0]
本稿では,大規模言語モデルによる経済政策評価に影響を及ぼす主な要因を明らかにするために,コンジョイント実験を用いる。 LLMは失業、不平等、金融安定、環境被害に最も敏感であり、経済成長、インフレ、政府債務といった従来のマクロ経済の懸念にはあまり敏感ではない。
論文参考訳（メタデータ） (2025-07-21T16:27:16Z)
Revealing economic facts: LLMs know more than they say [1.433758865948252]
大規模言語モデル (LLM) の隠れ状態が, 経済統計を推定し, インプットするのに有効かどうかを検討する。オープンソースのLLMの隠れ状態に基づいて訓練された単純な線形モデルが、モデルのテキスト出力より優れていることを示す。
論文参考訳（メタデータ） (2025-05-13T15:24:08Z)
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.85792055455284]
大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。システム1推論は計算効率が良いが、最適以下の性能をもたらす。システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
論文参考訳（メタデータ） (2025-03-31T17:58:07Z)
Gender Bias of LLM in Economics: An Existentialism Perspective [1.024113475677323]
本稿では,大言語モデル(LLM)における性別バイアスについて検討する。 LLMは、明示的なジェンダーマーカーなしでもジェンダーステレオタイプを補強する。 LLMのバイアスは意図しない欠陥ではなく、合理的な処理の体系的な結果であると主張する。
論文参考訳（メタデータ） (2024-10-14T01:42:01Z)
GLEE: A Unified Framework and Benchmark for Language-based Economic Environments [19.366120861935105]
大規模言語モデル(LLM)は、経済的および戦略的相互作用において大きな可能性を示す。これらの疑問は、LLMベースのエージェントを実世界のデータ駆動システムに統合することの経済的および社会的意味について重要なものとなっている。本稿では,2プレイヤー,シーケンシャル,言語ベースのゲームの研究を標準化するためのベンチマークを紹介する。
論文参考訳（メタデータ） (2024-10-07T17:55:35Z)
LLM economicus? Mapping the Behavioral Biases of LLMs via Utility Theory [20.79199807796242]
ユーティリティ理論は、大きな言語モデルの経済バイアスを評価するためのアプローチである。現在のLLMの経済行動は、完全に人間的でも、完全に経済的なものでもない。
論文参考訳（メタデータ） (2024-08-05T19:00:43Z)
Understanding Intrinsic Socioeconomic Biases in Large Language Models [4.276697874428501]
本稿では,社会経済的バイアスを定量化するために,100万の英語文からなる新しいデータセットを提案する。以上の結果から,GPT-2のような確立されたモデルと,Llama 2やFalconのような最先端のモデルの両方において,社会経済的バイアスが広範にあることが明らかとなった。
論文参考訳（メタデータ） (2024-05-28T23:54:44Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文参考訳（メタデータ） (2023-12-30T04:51:46Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文参考訳（メタデータ） (2023-04-15T19:22:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。