論文の概要: EconNLI: Evaluating Large Language Models on Economics Reasoning
- arxiv url: http://arxiv.org/abs/2407.01212v1
- Date: Mon, 1 Jul 2024 11:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:49:58.222198
- Title: EconNLI: Evaluating Large Language Models on Economics Reasoning
- Title(参考訳): EconNLI:経済学における大規模言語モデルの評価
- Authors: Yue Guo, Yi Yang,
- Abstract要約: LLM(Large Language Models)は、経済分析レポートの作成や、財政的なアドバイスを提供するために広く使われている。
経済分野におけるLLMの知識と推論能力を評価するために,新たなデータセット,経済事象に関する自然言語推論(EconNLI)を提案する。
実験の結果, LLMは経済的な推論では洗練されておらず, 誤りや幻覚を生じさせる可能性が示唆された。
- 参考スコア(独自算出の注目度): 22.754757518792395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely used for writing economic analysis reports or providing financial advice, but their ability to understand economic knowledge and reason about potential results of specific economic events lacks systematic evaluation. To address this gap, we propose a new dataset, natural language inference on economic events (EconNLI), to evaluate LLMs' knowledge and reasoning abilities in the economic domain. We evaluate LLMs on (1) their ability to correctly classify whether a premise event will cause a hypothesis event and (2) their ability to generate reasonable events resulting from a given premise. Our experiments reveal that LLMs are not sophisticated in economic reasoning and may generate wrong or hallucinated answers. Our study raises awareness of the limitations of using LLMs for critical decision-making involving economic reasoning and analysis. The dataset and codes are available at https://github.com/Irenehere/EconNLI.
- Abstract(参考訳): 大規模言語モデル(LLM)は、経済分析レポートを書いたり、財政的なアドバイスを提供したりするために広く使われているが、経済的な知識を理解し、特定の経済事象の潜在的な結果について推論する能力は、体系的な評価を欠いている。
このギャップに対処するため、経済領域におけるLLMの知識と推論能力を評価するために、新たなデータセット、経済事象に関する自然言語推論(EconNLI)を提案する。
本研究では,(1)前提事象が仮説事象を引き起こすかどうかを正しく分類する能力,(2)所定の前提から合理的事象を生成する能力について評価する。
実験の結果, LLMは経済的推論では洗練されておらず, 誤りや幻覚を生じさせる可能性が示唆された。
本研究は,LLMを経済的推論と分析を含む批判的意思決定に利用することの限界に対する意識を高めるものである。
データセットとコードはhttps://github.com/Irenehere/EconNLIで公開されている。
関連論文リスト
- Understanding Intrinsic Socioeconomic Biases in Large Language Models [4.276697874428501]
本稿では,社会経済的バイアスを定量化するために,100万の英語文からなる新しいデータセットを提案する。
以上の結果から,GPT-2のような確立されたモデルと,Llama 2やFalconのような最先端のモデルの両方において,社会経済的バイアスが広範にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-28T23:54:44Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Can Large Language Models Replace Economic Choice Prediction Labs? [24.05034588588407]
言語に基づく説得ゲームにおいて, LLM生成データのみに基づいてトレーニングされたモデルにより, 人間の行動の予測が効果的に可能であることを示す。
特に,LLM生成データのみを訓練したモデルでは,言語に基づく説得ゲームにおいて,人間の行動を効果的に予測できることを示す。
論文 参考訳(メタデータ) (2024-01-30T20:49:47Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。