論文の概要: STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13119v2
- Date: Wed, 19 Feb 2025 02:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:31.878708
- Title: STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models
- Title(参考訳): STEER-ME:大規模言語モデルのミクロ経済推論の評価
- Authors: Narun Raman, Taylor Lundy, Thiago Amin, Jesse Perla, Kevin Leyton-Brown,
- Abstract要約: マイクロエコノミック推論のための大規模言語モデル(LLM)を評価するためのベンチマークを開発する。
供給と需要のロジックに重点を置いており、それぞれが最大10ドルドメイン、5ドルパースペクティブ、3ドルタイプで構成されています。
我々は,小規模なオープンソースモデルから最先端技術まで,27ドルのLLMのケーススタディを通じて,我々のベンチマークの有用性を実証する。
- 参考スコア(独自算出の注目度): 8.60556939977361
- License:
- Abstract: How should one judge whether a given large language model (LLM) can reliably perform economic reasoning? Most existing LLM benchmarks focus on specific applications and fail to present the model with a rich variety of economic tasks. A notable exception is Raman et al. [2024], who offer an approach for comprehensively benchmarking strategic decision-making; however, this approach fails to address the non-strategic settings prevalent in microeconomics, such as supply-and-demand analysis. We address this gap by taxonomizing microeconomic reasoning into $58$ distinct elements, focusing on the logic of supply and demand, each grounded in up to $10$ distinct domains, $5$ perspectives, and $3$ types. The generation of benchmark data across this combinatorial space is powered by a novel LLM-assisted data generation protocol that we dub auto-STEER, which generates a set of questions by adapting handwritten templates to target new domains and perspectives. Because it offers an automated way of generating fresh questions, auto-STEER mitigates the risk that LLMs will be trained to over-fit evaluation benchmarks; we thus hope that it will serve as a useful tool both for evaluating and fine-tuning models for years to come. We demonstrate the usefulness of our benchmark via a case study on $27$ LLMs, ranging from small open-source models to the current state of the art. We examined each model's ability to solve microeconomic problems across our whole taxonomy and present the results across a range of prompting strategies and scoring metrics.
- Abstract(参考訳): 与えられた大きな言語モデル(LLM)が経済的推論を確実に実行できるかどうかを判断するにはどうすればよいのか?
既存のLLMベンチマークのほとんどは特定のアプリケーションに焦点を当てており、様々な経済的タスクでモデルを提示できない。
注目すべき例外はRaman et al [2024] で、戦略的な意思決定を包括的にベンチマークするためのアプローチを提供しているが、このアプローチは、サプライ・アンド・デマンド分析のようなミクロ経済学でよく見られる非ストラテジックな設定に対処できない。
このギャップに対処するために、ミクロ経済学的推論を5,8ドルの異なる要素に分類し、供給と需要のロジックに焦点を当て、それぞれが最大10ドルの異なるドメイン、5$の視点、および3$のタイプに基礎を置いている。
この組み合わせ空間にまたがるベンチマークデータの生成は、新しいLLM支援データ生成プロトコルによって実現され、我々はAuto-STEERをダブし、新しいドメインや視点をターゲットに手書きテンプレートを適用することで、一連の質問を生成する。
新たな質問を自動生成する手段を提供するため、自動STEERは、LCMが過度に適合する評価ベンチマークのためにトレーニングされるリスクを軽減します。
我々は、小さなオープンソースモデルから現在の最先端まで、27ドルのLLMのケーススタディを通じて、ベンチマークの有用性を実証する。
分類学全体にわたってミクロ経済学的問題を解く各モデルの能力を検討した。
関連論文リスト
- Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [64.61315565501681]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。
我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。
本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:36:04Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry [2.4244694855867275]
大規模言語モデル(LLM)は、大量のテキストデータから貴重な洞察を抽出するための強力なツールとして登場した。
本研究では,TripAdvisor 投稿から旅行客のニーズを抽出するための LLM の比較分析を行った。
特にMistral 7Bは,大規模クローズドモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-27T18:28:10Z) - How Many Validation Labels Do You Need? Exploring the Design Space of
Label-Efficient Model Ranking [40.39898960460575]
本稿では,LEMR (Label-Efficient Model Ranking) を提案し,MoraBench Benchmarkを提案する。
LEMRは、未ラベルのバリデーションセットからインスタンスを戦略的にアノテートすることで、モデル選択におけるコストのかかるアノテーションの必要性を最小限にする新しいフレームワークである。
論文 参考訳(メタデータ) (2023-12-04T04:20:38Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - What do LLMs Know about Financial Markets? A Case Study on Reddit Market
Sentiment Analysis [15.195505464654493]
ソーシャルメディアコンテンツに対する市場の感情分析には、金融市場とソーシャルメディアのジャーゴンの両方の知識が必要である。
我々のパイプラインは、大きな言語モデル(LLM)を用いたReddit投稿の弱い財務感情ラベルを生成する。
少数のプロンプトだけで、最終モデルは既存の教師付きモデルと同等に実行される。
論文 参考訳(メタデータ) (2022-12-21T19:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。