論文の概要: EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning
- arxiv url: http://arxiv.org/abs/2405.07938v1
- Date: Mon, 13 May 2024 17:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 12:36:52.001997
- Title: EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning
- Title(参考訳): EconLogicQA: 経済シーケンス推論における大規模言語モデル評価のための質問応答ベンチマーク
- Authors: Yinzhu Quan, Zefang Liu,
- Abstract要約: EconLogicQAは、大規模言語モデル(LLM)の逐次推論能力を評価するために設計されたベンチマークである。
モデルは複数の相互接続されたイベントを識別し、シーケンスし、経済論理の複雑さを捉える必要がある。
ベンチマークデータセットはhttps://huggingface.co/datasets/yinzhu-quan/econ_logic_qaで公開されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce EconLogicQA, a rigorous benchmark designed to assess the sequential reasoning capabilities of large language models (LLMs) within the intricate realms of economics, business, and supply chain management. Diverging from traditional benchmarks that predict subsequent events individually, EconLogicQA poses a more challenging task: it requires models to discern and sequence multiple interconnected events, capturing the complexity of economic logics. EconLogicQA comprises an array of multi-event scenarios derived from economic articles, which necessitate an insightful understanding of both temporal and logical event relationships. Through comprehensive evaluations, we exhibit that EconLogicQA effectively gauges a LLM's proficiency in navigating the sequential complexities inherent in economic contexts. We provide a detailed description of EconLogicQA dataset and shows the outcomes from evaluating the benchmark across various leading-edge LLMs, thereby offering a thorough perspective on their sequential reasoning potential in economic contexts. Our benchmark dataset is available at https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa.
- Abstract(参考訳): 本稿では,経済,ビジネス,サプライチェーン管理の複雑な領域において,大規模言語モデル(LLM)の逐次推論能力を評価するための厳密なベンチマークであるEconLogicQAを紹介する。
EconLogicQAは、後続のイベントを個別に予測する従来のベンチマークとは違い、複数の相互接続されたイベントを識別してシーケンスする必要があるため、経済論理の複雑さを捉える必要がある。
EconLogicQAは、時間的および論理的事象の関係に関する洞察に富んだ理解を必要とする、経済的な記事から派生した多段階シナリオで構成されている。
EconLogicQAは、包括的な評価を通じて、経済的な文脈に固有のシーケンシャルな複雑さをナビゲートするLLMの習熟度を効果的に評価することを示した。
本稿では,EconLogicQAデータセットの詳細な説明と,各種先進LLMのベンチマーク評価結果について述べる。
ベンチマークデータセットはhttps://huggingface.co/datasets/yinzhu-quan/econ_logic_qaで公開されています。
関連論文リスト
- STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models [8.60556939977361]
マイクロエコノミック推論のための大規模言語モデル(LLM)を評価するためのベンチマークを開発する。
供給と需要のロジックに重点を置いており、それぞれが最大10ドルドメイン、5ドルパースペクティブ、3ドルタイプで構成されています。
我々は,小規模なオープンソースモデルから最先端技術まで,27ドルのLLMのケーススタディを通じて,我々のベンチマークの有用性を実証する。
論文 参考訳(メタデータ) (2025-02-18T18:42:09Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - ExioML: Eco-economic dataset for Machine Learning in Global Sectoral Sustainability [11.925553950065895]
本稿では,サステナビリティ分析用に設計された最初の機械学習ベンチマークデータセットであるExioMLを紹介する。
セクターサステナビリティを評価し,データセットのユーザビリティを実証するために,温室効果ガスのレグレッションタスクを実施した。
論文 参考訳(メタデータ) (2024-06-11T17:06:34Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - DAGN: Discourse-Aware Graph Network for Logical Reasoning [83.8041050565304]
本論文では,テキストの対話構造に依存した対話型グラフネットワーク (DAGN) を提案する。
本モデルは,基本談話単位(EDU)と談話関係を持つグラフとして談話情報を符号化し,下流QAタスクのためのグラフネットワークを介して談話認識特徴を学習する。
論文 参考訳(メタデータ) (2021-03-26T09:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。