論文の概要: EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning
- arxiv url: http://arxiv.org/abs/2405.07938v1
- Date: Mon, 13 May 2024 17:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 12:36:52.001997
- Title: EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning
- Title(参考訳): EconLogicQA: 経済シーケンス推論における大規模言語モデル評価のための質問応答ベンチマーク
- Authors: Yinzhu Quan, Zefang Liu,
- Abstract要約: EconLogicQAは、大規模言語モデル(LLM)の逐次推論能力を評価するために設計されたベンチマークである。
モデルは複数の相互接続されたイベントを識別し、シーケンスし、経済論理の複雑さを捉える必要がある。
ベンチマークデータセットはhttps://huggingface.co/datasets/yinzhu-quan/econ_logic_qaで公開されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce EconLogicQA, a rigorous benchmark designed to assess the sequential reasoning capabilities of large language models (LLMs) within the intricate realms of economics, business, and supply chain management. Diverging from traditional benchmarks that predict subsequent events individually, EconLogicQA poses a more challenging task: it requires models to discern and sequence multiple interconnected events, capturing the complexity of economic logics. EconLogicQA comprises an array of multi-event scenarios derived from economic articles, which necessitate an insightful understanding of both temporal and logical event relationships. Through comprehensive evaluations, we exhibit that EconLogicQA effectively gauges a LLM's proficiency in navigating the sequential complexities inherent in economic contexts. We provide a detailed description of EconLogicQA dataset and shows the outcomes from evaluating the benchmark across various leading-edge LLMs, thereby offering a thorough perspective on their sequential reasoning potential in economic contexts. Our benchmark dataset is available at https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa.
- Abstract(参考訳): 本稿では,経済,ビジネス,サプライチェーン管理の複雑な領域において,大規模言語モデル(LLM)の逐次推論能力を評価するための厳密なベンチマークであるEconLogicQAを紹介する。
EconLogicQAは、後続のイベントを個別に予測する従来のベンチマークとは違い、複数の相互接続されたイベントを識別してシーケンスする必要があるため、経済論理の複雑さを捉える必要がある。
EconLogicQAは、時間的および論理的事象の関係に関する洞察に富んだ理解を必要とする、経済的な記事から派生した多段階シナリオで構成されている。
EconLogicQAは、包括的な評価を通じて、経済的な文脈に固有のシーケンシャルな複雑さをナビゲートするLLMの習熟度を効果的に評価することを示した。
本稿では,EconLogicQAデータセットの詳細な説明と,各種先進LLMのベンチマーク評価結果について述べる。
ベンチマークデータセットはhttps://huggingface.co/datasets/yinzhu-quan/econ_logic_qaで公開されています。
関連論文リスト
- GRS-QA -- Graph Reasoning-Structured Question Answering Dataset [50.223851616680754]
グラフ推論-構造化質問応答データセット(GRS-QA)を導入する。
既存のM-QAデータセットとは異なり、GRS-QAは推論グラフを構築することで複雑な推論経路を明示的にキャプチャする。
実験により, LLMは, 様々な推論構造を用いて, 問合せ処理を行う際に, 異なる性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-01T05:14:03Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - ExioML: Eco-economic dataset for Machine Learning in Global Sectoral Sustainability [11.925553950065895]
本稿では,サステナビリティ分析用に設計された最初の機械学習ベンチマークデータセットであるExioMLを紹介する。
セクターサステナビリティを評価し,データセットのユーザビリティを実証するために,温室効果ガスのレグレッションタスクを実施した。
論文 参考訳(メタデータ) (2024-06-11T17:06:34Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Evaluating Step-by-Step Reasoning through Symbolic Verification [20.156768135017007]
事前学習言語モデル(LM)は、文脈内学習において顕著な推論性能を示した。
LMLPは、より小さなモデルサイズであっても、長さの一般化ベンチマークにおいて、チェーン・オブ・ソート(CoT)よりも25%以上精度が高い。
論文 参考訳(メタデータ) (2022-12-16T19:30:01Z) - Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics
in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。
最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。
予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-07T18:59:54Z) - DAGN: Discourse-Aware Graph Network for Logical Reasoning [83.8041050565304]
本論文では,テキストの対話構造に依存した対話型グラフネットワーク (DAGN) を提案する。
本モデルは,基本談話単位(EDU)と談話関係を持つグラフとして談話情報を符号化し,下流QAタスクのためのグラフネットワークを介して談話認識特徴を学習する。
論文 参考訳(メタデータ) (2021-03-26T09:41:56Z) - Benchmarking Machine Reading Comprehension: A Psychological Perspective [45.85089157315507]
機械学習理解(MRC)は自然言語理解のベンチマークとして注目されている。
MRCの従来のタスク設計は、モデル解釈以上の説明可能性に欠けていた。
本稿では,心理学と心理指標に基づくMRCデータセットの設計に関する理論的基礎を提供する。
論文 参考訳(メタデータ) (2020-04-04T11:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。