論文の概要: Eliciting Trustworthiness Priors of Large Language Models via Economic Games
- arxiv url: http://arxiv.org/abs/2602.00769v1
- Date: Sat, 31 Jan 2026 15:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.388731
- Title: Eliciting Trustworthiness Priors of Large Language Models via Economic Games
- Title(参考訳): 経済ゲームによる大規模言語モデルの信頼性向上
- Authors: Siyu Yan, Lusha Zhu, Jian-Qiao Zhu,
- Abstract要約: そこで本研究では,テキスト内学習を反復的に学習する手法を提案する。
GPT-4.1の信頼性は、ヒトで観察されたものをよく追跡している。
提案手法は, ステレオタイプモデルを用いて, 信頼性の変動を適切に予測できることを示す。
- 参考スコア(独自算出の注目度): 2.2940141855172036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One critical aspect of building human-centered, trustworthy artificial intelligence (AI) systems is maintaining calibrated trust: appropriate reliance on AI systems outperforms both overtrust (e.g., automation bias) and undertrust (e.g., disuse). A fundamental challenge, however, is how to characterize the level of trust exhibited by an AI system itself. Here, we propose a novel elicitation method based on iterated in-context learning (Zhu and Griffiths, 2024a) and apply it to elicit trustworthiness priors using the Trust Game from behavioral game theory. The Trust Game is particularly well suited for this purpose because it operationalizes trust as voluntary exposure to risk based on beliefs about another agent, rather than self-reported attitudes. Using our method, we elicit trustworthiness priors from several leading large language models (LLMs) and find that GPT-4.1's trustworthiness priors closely track those observed in humans. Building on this result, we further examine how GPT-4.1 responds to different player personas in the Trust Game, providing an initial characterization of how such models differentiate trust across agent characteristics. Finally, we show that variation in elicited trustworthiness can be well predicted by a stereotype-based model grounded in perceived warmth and competence.
- Abstract(参考訳): 人中心で信頼性の高い人工知能(AI)システムを構築する上で重要な側面の1つは、正当性のある信頼を維持することだ。
しかし、基本的な課題は、AIシステム自体が提示する信頼レベルをいかに特徴付けるかである。
そこで本研究では,反復型インコンテキスト学習(Zhu and Griffiths, 2024a)に基づく新しい推論手法を提案する。
トラストゲームは、自己報告された態度ではなく、他のエージェントに対する信念に基づいて、自発的なリスクへの露出として信頼を運用するので、この目的に特に適している。
提案手法を用いて,複数の主要な大規模言語モデル (LLM) から信頼性の先行性を抽出し,GPT-4.1 の信頼性の先行性はヒトで観察された信頼の先行性を追跡する。
この結果に基づいて,GPT-4.1がTrust Gameの異なるプレイヤーペルソナに対してどのように反応するかを検証し,エージェント特性間での信頼をいかに区別するかを初期評価する。
最後に, 温和感と有能感を基礎としたステレオタイプモデルにより, 引き起こされた信頼性の変動を適切に予測できることを示す。
関連論文リスト
- Revisiting Trust in the Era of Generative AI: Factorial Structure and Latent Profiles [5.109743403025609]
信頼は、人々が人工知能(AI)を採用し、どのように依存するかを形作る最も重要な要素の1つです。
既存の研究の多くは、システムの信頼性、正確性、使いやすさに重点を置いて、機能の観点から信頼度を測定している。
本研究では,GenAIにおける信頼の合理性と関係性の両方を捉えるための新しい尺度であるHuman-AI Trust Scale(HAITS)を導入し,検証する。
論文 参考訳(メタデータ) (2025-10-11T12:39:53Z) - A biologically inspired computational trust model for open multi-agent systems which is resilient to trustor population changes [0.0]
この研究は、シナプスの可塑性とヒト脳内の集合体の形成にインスパイアされた、分散化された計算信頼モデルであるCAに基づいている。
我々はCAモデルとFIREを比較し,オープンMASのための分散型信頼と評価モデルを構築した。
主な発見は、FIREが受託者人口の変化よりも優れているのに対して、CAは受託者人口の変化に対して回復力があることである。
論文 参考訳(メタデータ) (2024-04-13T10:56:32Z) - U-Trustworthy Models.Reliability, Competence, and Confidence in
Decision-Making [0.21756081703275998]
信頼性の正確な数学的定義を$mathcalU$-trustworthinessと呼ぶ。
$mathcalU$-trustworthinessの文脈において、適切にランク付けされたモデルは本質的に$mathcalU$-trustworthyであることが証明される。
我々は、信頼度を優先する尺度として、AUCメートル法の採用を提唱する。
論文 参考訳(メタデータ) (2024-01-04T04:58:02Z) - A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。
賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文 参考訳(メタデータ) (2023-10-20T14:41:46Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Designing for Responsible Trust in AI Systems: A Communication
Perspective [56.80107647520364]
我々は、MATCHと呼ばれる概念モデルを開発するために、技術に対する信頼に関するコミュニケーション理論と文献から引き出す。
私たちは、AIシステムの能力として透明性とインタラクションを強調します。
我々は、技術クリエーターが使用する適切な方法を特定するのに役立つ要件のチェックリストを提案する。
論文 参考訳(メタデータ) (2022-04-29T00:14:33Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。