論文の概要: Can Large Language Models Capture Human Risk Preferences? A Cross-Cultural Study
- arxiv url: http://arxiv.org/abs/2506.23107v1
- Date: Sun, 29 Jun 2025 06:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.721028
- Title: Can Large Language Models Capture Human Risk Preferences? A Cross-Cultural Study
- Title(参考訳): 大規模言語モデルは人間のリスク優先をキャプチャできるか? : クロスカルチャースタディ
- Authors: Bing Song, Jianing Liu, Sisi Jian, Chenyang Wu, Vinayak Dixit,
- Abstract要約: 本研究では,リスクの高い意思決定シナリオをシミュレートする大規模言語モデルを提案する。
我々は、モデル生成決定と実際の人間の反応を、一連の宝くじベースのタスクで比較する。
結果は、どちらのモデルも、人間の参加者よりもリスク回避行動を示すことを示している。
- 参考スコア(独自算出の注目度): 2.227470703746655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant strides, extending their applications to dialogue systems, automated content creation, and domain-specific advisory tasks. However, as their use grows, concerns have emerged regarding their reliability in simulating complex decision-making behavior, such as risky decision-making, where a single choice can lead to multiple outcomes. This study investigates the ability of LLMs to simulate risky decision-making scenarios. We compare model-generated decisions with actual human responses in a series of lottery-based tasks, using transportation stated preference survey data from participants in Sydney, Dhaka, Hong Kong, and Nanjing. Demographic inputs were provided to two LLMs -- ChatGPT 4o and ChatGPT o1-mini -- which were tasked with predicting individual choices. Risk preferences were analyzed using the Constant Relative Risk Aversion (CRRA) framework. Results show that both models exhibit more risk-averse behavior than human participants, with o1-mini aligning more closely with observed human decisions. Further analysis of multilingual data from Nanjing and Hong Kong indicates that model predictions in Chinese deviate more from actual responses compared to English, suggesting that prompt language may influence simulation performance. These findings highlight both the promise and the current limitations of LLMs in replicating human-like risk behavior, particularly in linguistic and cultural settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、対話システムへのアプリケーション拡張、コンテンツの自動生成、ドメイン固有のアドバイザリタスクなど、大きな進歩を遂げている。
しかし、それらの使用が増加するにつれて、リスクのある意思決定のような複雑な意思決定行動のシミュレーションにおける信頼性に関する懸念が浮上し、単一の選択が複数の結果をもたらす可能性がある。
本研究では,LSMがリスクの高い意思決定シナリオをシミュレートする能力について検討した。
本研究では, シドニー, ダッカ, 香港, 南京の参加者の選好調査データを用いて, モデル生成決定と実際の人間の反応を一連の宝くじベースタスクで比較した。
デモグラフィック入力はChatGPT 4oとChatGPT o1-miniの2つのLLMに提供され、個々の選択を予測した。
リスク嗜好をCRRA(Constant Relative Risk Aversion)フレームワークを用いて分析した。
結果は、どちらのモデルも、観察された人間の決定とより密に一致したo1-miniにより、人間の参加者よりもリスク-逆の行動を示すことを示している。
南京・香港の多言語データのさらなる分析は、中国語のモデル予測が英語に比べて実際の反応から逸脱していることを示し、即時言語がシミュレーション性能に影響を及ぼす可能性を示唆している。
これらの知見は、人間のようなリスク行動、特に言語的、文化的な状況において、LLMの約束と現在の限界の両方を浮き彫りにしている。
関連論文リスト
- Evaluating Prompt-Driven Chinese Large Language Models: The Influence of Persona Assignment on Stereotypes and Safeguards [3.1308581258317485]
広義の中国語モデルであるQwenにおいて,ペルソナの割り当てが拒絶行動および応答毒性に与える影響を解析した。
本研究は, 拒絶率に有意な性別バイアスを呈し, ある否定的な人物が, 最大60倍の中国の社会集団に対する毒性を増大させることができることを示した。
この毒性を軽減するために,Qwenと外部評価器の反復的相互作用を利用した,革新的なマルチモデルフィードバック戦略を提案する。
論文 参考訳(メタデータ) (2025-06-05T12:47:21Z) - Language-Agnostic Suicidal Risk Detection Using Large Language Models [9.90722058486037]
本研究では,大規模言語モデル(LLM)を用いた自殺リスク評価のための新しい言語非依存フレームワークを提案する。
ASRモデルを用いて音声から中国語の書き起こしを生成し、その後、これらの書き起こしから自殺リスクに関連する特徴を抽出するために、プロンプトベースのクエリを用いたLLMを用いる。
実験結果から,ASRによる直接微調整や,中国の自殺リスク関連機能のみを訓練したモデルに比較して,本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-26T15:12:10Z) - Mapping Geopolitical Bias in 11 Large Language Models: A Bilingual, Dual-Framing Analysis of U.S.-China Tensions [2.8202443616982884]
本研究は,11大言語モデル(LLM)における地政学的バイアスを系統的に解析する。
モデル出力のイデオロギー的傾きを検出するために,19,712個のプロンプトを作成した。
米国をベースとしたモデルは、主に米国支持の姿勢を好んでおり、一方中国のモデルでは、中国支持の偏見が顕著であった。
論文 参考訳(メタデータ) (2025-03-31T03:38:17Z) - Predicting Human Choice Between Textually Described Lotteries [0.0]
本研究では,このような課題における人的意思決定の大規模探索を初めて行った。
我々は、微調整された大規模言語モデルを含む複数の計算手法を評価する。
論文 参考訳(メタデータ) (2025-03-18T08:10:33Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。