論文の概要: Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations
- arxiv url: http://arxiv.org/abs/2501.16356v1
- Date: Mon, 20 Jan 2025 10:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 22:09:10.88565
- Title: Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations
- Title(参考訳): 大規模言語モデルにおける二項決定バイアスの評価:公正エージェント型金融シミュレーションへの応用
- Authors: Alicia Vidler, Toby Walsh,
- Abstract要約: エージェントベースの金融市場モデルにおいて、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。
我々は,2つのモデルサンプリングアプローチ(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデル3つをバイアスとして検証する。
- 参考スコア(独自算出の注目度): 15.379345372327375
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being used to simulate human-like decision making in agent-based financial market models (ABMs). As models become more powerful and accessible, researchers can now incorporate individual LLM decisions into ABM environments. However, integration may introduce inherent biases that need careful evaluation. In this paper we test three state-of-the-art GPT models for bias using two model sampling approaches: one-shot and few-shot API queries. We observe significant variations in distributions of outputs between specific models, and model sub versions, with GPT-4o-Mini-2024-07-18 showing notably better performance (32-43% yes responses) compared to GPT-4-0125-preview's extreme bias (98-99% yes responses). We show that sampling methods and model sub-versions significantly impact results: repeated independent API calls produce different distributions compared to batch sampling within a single call. While no current GPT model can simultaneously achieve a uniform distribution and Markovian properties in one-shot testing, few-shot sampling can approach uniform distributions under certain conditions. We explore the Temperature parameter, providing a definition and comparative results. We further compare our results to true random binary series and test specifically for the common human bias of Negative Recency - finding LLMs have a mixed ability to 'beat' humans in this one regard. These findings emphasise the critical importance of careful LLM integration into ABMs for financial markets and more broadly.
- Abstract(参考訳): エージェントベースの金融市場モデル(ABM)において、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。
モデルがより強力でアクセスしやすくなれば、研究者は個々のLSM決定をAMM環境に組み込むことができる。
しかし、統合は慎重な評価を必要とする固有のバイアスをもたらす可能性がある。
本稿では,2つのモデルサンプリング手法(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデルのバイアスに対する検証を行う。
GPT-4o-Mini-2024-07-18はGPT-4-0125-previewの極端偏差(98-99%の応答)と比較して顕著な性能(32-43%の応答)を示した。
繰り返し独立したAPI呼び出しは、単一の呼び出し内でのバッチサンプリングと比較すると、異なる分布を生成する。
現在のGPTモデルはワンショット試験において一様分布とマルコフ特性を同時に達成することはできないが、少数のサンプリングは一定の条件下で一様分布に近づくことができる。
温度パラメータを探索し、定義と比較結果を提供する。
我々はさらに、我々の結果を真のランダムなバイナリシリーズと比較し、特に否定的傾向の共通の人間のバイアスをテストする。
これらの知見は、金融市場およびより広い範囲において、AMMへの慎重なLLM統合の重要性を強調している。
関連論文リスト
- Learning Ordinal Probabilistic Reward from Preferences [25.069054134899744]
確率的リワードモデル(PRM: Probabilistic Reward Model)を提案する。
提案手法では,報酬を決定論的スカラーとしてモデル化する代わりに,ランダム変数として扱い,各応答の品質の完全な確率分布を学習する。
OPRM上に構築したRerea Flooding Tuning(RgFT)と呼ばれるデータ効率のトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T06:43:02Z) - D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models [91.21455683212224]
大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。
しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。
P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
論文 参考訳(メタデータ) (2026-01-25T14:59:09Z) - From Model Choice to Model Belief: Establishing a New Measure for LLM-Based Research [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするためにますます使われている。
LLMの出力を単一のデータポイントとして扱うことは、LLMの確率的性質に固有の情報を過小評価する。
本稿では, LLMのトークンレベルの確率から導かれる「モデル信念」を紹介し, 定式化する。
論文 参考訳(メタデータ) (2025-12-29T03:50:40Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Bias Similarity Across Large Language Models [32.0365189539138]
我々は2つのデータセット(4Kと100万の質問)を用いて複数の次元にわたる出力分布を通してバイアスを分析する。
結果から,微調整が出力分布に与える影響は最小限であり,プロプライエタリなモデルは未知として過度に応答し,バイアスを最小化し,精度と実用性を損なう傾向にあることがわかった。
Llama3-ChatやGemma2-itのようなオープンソースモデルは、GPT-4のようなプロプライエタリなモデルに匹敵する公平さを示し、大規模でクローズドソースなモデルは本質的にバイアスが小さいという仮定に挑戦する。
論文 参考訳(メタデータ) (2024-10-15T19:21:14Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Convergence guarantee for consistency models [9.893455771918793]
本稿では,新しい一段階生成モデルであるCM(Consistency Models)の収束保証について述べる。
スコアマッチングエラー、一貫性エラー、データ分布の滑らかさに関する基本的な前提の下で、CMは1ステップで任意の現実的なデータ分布から、小さな$W$エラーで効率的にサンプリングすることができる。
論文 参考訳(メタデータ) (2023-08-22T13:57:35Z) - Efficient Propagation of Uncertainty via Reordering Monte Carlo Samples [0.7087237546722617]
不確実性伝播は、入力変数の不確実性に基づいてモデル出力の不確実性を決定する技術である。
本研究は,全ての試料が平均的に有用であるにもかかわらず,他の試料よりも有用であるとする仮説を考察する。
本稿では、MCサンプルを適応的に並べ替える手法を導入し、UPプロセスの計算コストの削減をもたらす方法を示す。
論文 参考訳(メタデータ) (2023-02-09T21:28:15Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。