Fugu-MT 論文翻訳(概要): Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context

論文の概要: Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context

arxiv url: http://arxiv.org/abs/2406.05972v1
Date: Mon, 10 Jun 2024 02:14:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 15:16:08.436318
Title: Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context
Title（参考訳）: 不確実条件下におけるLCMの意思決定行動評価フレームワーク
Authors: Jingru Jia, Zehua Yuan, Junhao Pan, Paul McNamara, Deming Chen,
Abstract要約: 本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
参考スコア（独自算出の注目度）: 5.361970694197912
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When making decisions under uncertainty, individuals often deviate from rational behavior, which can be evaluated across three dimensions: risk preference, probability weighting, and loss aversion. Given the widespread use of large language models (LLMs) in decision-making processes, it is crucial to assess whether their behavior aligns with human norms and ethical expectations or exhibits potential biases. Several empirical studies have investigated the rationality and social behavior performance of LLMs, yet their internal decision-making tendencies and capabilities remain inadequately understood. This paper proposes a framework, grounded in behavioral economics, to evaluate the decision-making behaviors of LLMs. Through a multiple-choice-list experiment, we estimate the degree of risk preference, probability weighting, and loss aversion in a context-free setting for three commercial LLMs: ChatGPT-4.0-Turbo, Claude-3-Opus, and Gemini-1.0-pro. Our results reveal that LLMs generally exhibit patterns similar to humans, such as risk aversion and loss aversion, with a tendency to overweight small probabilities. However, there are significant variations in the degree to which these behaviors are expressed across different LLMs. We also explore their behavior when embedded with socio-demographic features, uncovering significant disparities. For instance, when modeled with attributes of sexual minority groups or physical disabilities, Claude-3-Opus displays increased risk aversion, leading to more conservative choices. These findings underscore the need for careful consideration of the ethical implications and potential biases in deploying LLMs in decision-making scenarios. Therefore, this study advocates for developing standards and guidelines to ensure that LLMs operate within ethical boundaries while enhancing their utility in complex decision-making environments.
Abstract（参考訳）: 不確実性の下で意思決定を行う場合、個人はしばしば合理的行動から逸脱し、リスク優先、確率重み付け、損失回避の3つの次元で評価することができる。意思決定プロセスにおける大規模言語モデル(LLM)の普及を考えると、その行動が人間の規範や倫理的期待と一致しているか、潜在的なバイアスを示すかを評価することが重要である。いくつかの実証的研究は、LLMの合理性と社会的行動性能について研究しているが、その内部決定の傾向と能力は不適切なままである。本稿では, LLMの意思決定行動を評価するための行動経済学に基づく枠組みを提案する。複数選択リスト実験により,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMの文脈自由設定におけるリスク選択,確率重み付け,損失回避の程度を推定した。以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。しかし、これらの振る舞いが異なるLLM間で表現される程度には、大きなバリエーションがある。また,社会デミノグラフィー的特徴を組み込んだ場合の行動についても検討し,重要な差異を明らかにした。例えば、性的少数派や身体障害の属性でモデル化された場合、Claude-3-Opusはリスク回避を増大させ、より保守的な選択をもたらす。これらの知見は, 意思決定シナリオにおけるLCMの展開における倫理的含意と潜在的なバイアスについて, 慎重に検討することの必要性を浮き彫りにした。そこで本研究では,LLMが複雑な意思決定環境において実用性を高めつつ,倫理的境界内での運用を保証するための基準とガイドラインの開発を提唱する。

関連論文リスト

Social Welfare Function Leaderboard: When LLM Agents Allocate Social Welfare [87.06241096619112]
大規模言語モデル(LLM)は、人間の福祉に影響を及ぼす高い意思決定にますます信頼されている。本稿では, LLMが主権アロケータとして機能する動的シミュレーション環境である社会福祉機能ベンチマークを紹介する。我々は、20の最先端LCMを評価し、社会福祉確保のための第1のリーダーボードを提示する。
論文参考訳（メタデータ） (2025-10-01T17:52:31Z)
Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making [0.030586855806896043]
大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。本研究では,LLMエージェントが外部誘導と人為的ノイズのレベルが異なる条件下でどのように適応するかを検討するためのプロセス指向評価フレームワークを提案する。 LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
論文参考訳（メタデータ） (2025-08-21T18:55:53Z)
AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager [9.21215885702746]
AIM-Benchは、不確実なサプライチェーン管理シナリオにおいて、大規模言語モデル(LLM)の意思決定行動を評価するために設計された新しいベンチマークである。以上の結果から, LLMは人体とよく似た, 決定バイアスの度合いが異なることが明らかとなった。
論文参考訳（メタデータ） (2025-08-15T11:38:19Z)
Prospect Theory Fails for LLMs: Revealing Instability of Decision-Making under Epistemic Uncertainty [41.94502767947584]
プロスペクト理論が現代の大規模言語モデルに適用されるかどうかは、まだ明らかになっていない。 PT下でのLCMの意思決定動作をモデル化するための,より汎用的で正確な評価フレームワークを提案する。以上の結果から,LPMのPTによる意思決定のモデル化は信頼性が低いことが示唆された。
論文参考訳（メタデータ） (2025-08-12T15:02:16Z)
The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas [20.792208554628367]
我々は多段階モラルジレンマデータセットを導入し,3,302個の5段階ジレンマのLLMの進化的道徳的判断を評価する。このフレームワークは、LLMがジレンマをエスカレートする際の道徳的推論をどのように調整するかを、きめ細やかな動的解析を可能にする。我々の研究は、動的で文脈に配慮した評価パラダイムへのシフトを呼びかけ、LLMのより人間らしく価値に敏感な開発への道を開いた。
論文参考訳（メタデータ） (2025-05-23T17:59:50Z)
Evaluating and Aligning Human Economic Risk Preferences in LLMs [19.574432889355627]
本研究では,Large Language Models (LLMs) が,さまざまなペルソナにまたがる人間の期待と一致したリスク嗜好を示すかどうかを検討する。以上の結果から,LLMは単純化された個人化されたリスクコンテキストにおいて合理的な意思決定を行うが,より複雑な経済意思決定タスクでは性能が低下することが明らかとなった。我々のアプローチは、リスク関連アプリケーションにおけるLLMの経済的合理性を改善し、より人間対応のAI意思決定に向けたステップを提供します。
論文参考訳（メタデータ） (2025-03-09T14:47:31Z)
Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models [63.559461750135334]
言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
論文参考訳（メタデータ） (2025-03-03T09:16:26Z)
Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文参考訳（メタデータ） (2025-02-01T04:24:47Z)
Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。既存のベンチマークはデータ汚染の傾向があります。個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文参考訳（メタデータ） (2025-01-13T05:53:56Z)
Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。 LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文参考訳（メタデータ） (2024-11-11T10:05:52Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play [0.43512163406552007]
大きな言語モデル(LLM)がより普及するにつれて、その安全性、倫理、潜在的なバイアスに対する懸念が高まっている。本研究は,認知科学からLLMまで,Domain-Specific Risk-Taking(DOSPERT)尺度を革新的に適用する。本研究では,LLMの倫理的リスク態度を深く評価するために,倫理的意思決定リスク態度尺度(EDRAS)を提案する。
論文参考訳（メタデータ） (2024-10-26T15:55:21Z)
Gender Bias of LLM in Economics: An Existentialism Perspective [1.024113475677323]
本稿では,大言語モデル(LLM)における性別バイアスについて検討する。 LLMは、明示的なジェンダーマーカーなしでもジェンダーステレオタイプを補強する。 LLMのバイアスは意図しない欠陥ではなく、合理的な処理の体系的な結果であると主張する。
論文参考訳（メタデータ） (2024-10-14T01:42:01Z)
AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment [37.985947029716016]
大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。関連判定におけるしきい値プライミング効果の影響について検討した。
論文参考訳（メタデータ） (2024-09-24T12:23:15Z)
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。 LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文参考訳（メタデータ） (2024-07-02T16:31:37Z)
Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T09:44:51Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-29T22:49:43Z)
Prejudice and Volatility: A Statistical Framework for Measuring Social Discrimination in Large Language Models [0.0]
本研究では,Large Language Models (LLMs) の生成における不整合が社会的不正を誘発し,さらに悪化させる可能性について検討した。 LLMを評価するための行動指標を正確に定義するPrejudice-Volatility Framework(PVF)を定式化する。我々は,LLMの集合的差別リスクを,システムバイアスやボラティリティリスクから生じる偏見リスクに数学的に分解する。
論文参考訳（メタデータ） (2024-02-23T18:15:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。