論文の概要: Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations
- arxiv url: http://arxiv.org/abs/2501.16356v1
- Date: Mon, 20 Jan 2025 10:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 07:52:46.264798
- Title: Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations
- Title(参考訳): 大規模言語モデルにおける二項決定バイアスの評価:公正エージェント型金融シミュレーションへの応用
- Authors: Alicia Vidler, Toby Walsh,
- Abstract要約: エージェントベースの金融市場モデルにおいて、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。
我々は,2つのモデルサンプリングアプローチ(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデル3つをバイアスとして検証する。
- 参考スコア(独自算出の注目度): 15.379345372327375
- License:
- Abstract: Large Language Models (LLMs) are increasingly being used to simulate human-like decision making in agent-based financial market models (ABMs). As models become more powerful and accessible, researchers can now incorporate individual LLM decisions into ABM environments. However, integration may introduce inherent biases that need careful evaluation. In this paper we test three state-of-the-art GPT models for bias using two model sampling approaches: one-shot and few-shot API queries. We observe significant variations in distributions of outputs between specific models, and model sub versions, with GPT-4o-Mini-2024-07-18 showing notably better performance (32-43% yes responses) compared to GPT-4-0125-preview's extreme bias (98-99% yes responses). We show that sampling methods and model sub-versions significantly impact results: repeated independent API calls produce different distributions compared to batch sampling within a single call. While no current GPT model can simultaneously achieve a uniform distribution and Markovian properties in one-shot testing, few-shot sampling can approach uniform distributions under certain conditions. We explore the Temperature parameter, providing a definition and comparative results. We further compare our results to true random binary series and test specifically for the common human bias of Negative Recency - finding LLMs have a mixed ability to 'beat' humans in this one regard. These findings emphasise the critical importance of careful LLM integration into ABMs for financial markets and more broadly.
- Abstract(参考訳): エージェントベースの金融市場モデル(ABM)において、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。
モデルがより強力でアクセスしやすくなれば、研究者は個々のLSM決定をAMM環境に組み込むことができる。
しかし、統合は慎重な評価を必要とする固有のバイアスをもたらす可能性がある。
本稿では,2つのモデルサンプリング手法(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデルのバイアスに対する検証を行う。
GPT-4o-Mini-2024-07-18はGPT-4-0125-previewの極端偏差(98-99%の応答)と比較して顕著な性能(32-43%の応答)を示した。
繰り返し独立したAPI呼び出しは、単一の呼び出し内でのバッチサンプリングと比較すると、異なる分布を生成する。
現在のGPTモデルはワンショット試験において一様分布とマルコフ特性を同時に達成することはできないが、少数のサンプリングは一定の条件下で一様分布に近づくことができる。
温度パラメータを探索し、定義と比較結果を提供する。
我々はさらに、我々の結果を真のランダムなバイナリシリーズと比較し、特に否定的傾向の共通の人間のバイアスをテストする。
これらの知見は、金融市場およびより広い範囲において、AMMへの慎重なLLM統合の重要性を強調している。
関連論文リスト
- Bias Similarity Across Large Language Models [32.0365189539138]
我々は2つのデータセット(4Kと100万の質問)を用いて複数の次元にわたる出力分布を通してバイアスを分析する。
結果から,微調整が出力分布に与える影響は最小限であり,プロプライエタリなモデルは未知として過度に応答し,バイアスを最小化し,精度と実用性を損なう傾向にあることがわかった。
Llama3-ChatやGemma2-itのようなオープンソースモデルは、GPT-4のようなプロプライエタリなモデルに匹敵する公平さを示し、大規模でクローズドソースなモデルは本質的にバイアスが小さいという仮定に挑戦する。
論文 参考訳(メタデータ) (2024-10-15T19:21:14Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Convergence guarantee for consistency models [9.893455771918793]
本稿では,新しい一段階生成モデルであるCM(Consistency Models)の収束保証について述べる。
スコアマッチングエラー、一貫性エラー、データ分布の滑らかさに関する基本的な前提の下で、CMは1ステップで任意の現実的なデータ分布から、小さな$W$エラーで効率的にサンプリングすることができる。
論文 参考訳(メタデータ) (2023-08-22T13:57:35Z) - Efficient Propagation of Uncertainty via Reordering Monte Carlo Samples [0.7087237546722617]
不確実性伝播は、入力変数の不確実性に基づいてモデル出力の不確実性を決定する技術である。
本研究は,全ての試料が平均的に有用であるにもかかわらず,他の試料よりも有用であるとする仮説を考察する。
本稿では、MCサンプルを適応的に並べ替える手法を導入し、UPプロセスの計算コストの削減をもたらす方法を示す。
論文 参考訳(メタデータ) (2023-02-09T21:28:15Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。