論文の概要: Do You Trust Me? Cognitive-Affective Signatures of Trustworthiness in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.10719v1
- Date: Wed, 17 Dec 2025 08:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.720196
- Title: Do You Trust Me? Cognitive-Affective Signatures of Trustworthiness in Large Language Models
- Title(参考訳): あなたは私を信頼しているか? 大規模言語モデルにおける信頼感の認知的影響
- Authors: Gerard Yeo, Svetlana Churina, Kokil Jaidka,
- Abstract要約: 我々は、ウェブのような物語において、大きな言語モデルがどのように信頼感をエンコードするかを分析する。
モデル全体、系統的な層レベルと頭レベルのアクティベーションの違いは、高信頼のテキストと低信頼のテキストを区別する。
最も強い関連性は、公平さ、確実性、説明責任という評価によって生まれる。
- 参考スコア(独自算出の注目度): 12.714909005419964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceived trustworthiness underpins how users navigate online information, yet it remains unclear whether large language models (LLMs),increasingly embedded in search, recommendation, and conversational systems, represent this construct in psychologically coherent ways. We analyze how instruction-tuned LLMs (Llama 3.1 8B, Qwen 2.5 7B, Mistral 7B) encode perceived trustworthiness in web-like narratives using the PEACE-Reviews dataset annotated for cognitive appraisals, emotions, and behavioral intentions. Across models, systematic layer- and head-level activation differences distinguish high- from low-trust texts, revealing that trust cues are implicitly encoded during pretraining. Probing analyses show linearly de-codable trust signals and fine-tuning effects that refine rather than restructure these representations. Strongest associations emerge with appraisals of fairness, certainty, and accountability-self -- dimensions central to human trust formation online. These findings demonstrate that modern LLMs internalize psychologically grounded trust signals without explicit supervision, offering a representational foundation for designing credible, transparent, and trust-worthy AI systems in the web ecosystem. Code and appendix are available at: https://github.com/GerardYeo/TrustworthinessLLM.
- Abstract(参考訳): 信頼感は、ユーザーがオンライン情報をどうナビゲートするかを示唆するが、検索、レコメンデーション、会話システムに組み込まれた大きな言語モデル(LLM)が、心理的に一貫性のある方法でこの構成を表現しているかどうかは不明だ。
LLM(Llama 3.1 8B, Qwen 2.5 7B, Mistral 7B)は,認知評価,感情,行動意図に注釈を付けたPEACE-Reviewsデータセットを用いて,Webのような物語における信頼感を符号化する。
モデル全体で、体系的な層レベルと頭レベルのアクティベーションの違いは、高信頼のテキストと低信頼のテキストを区別し、信頼の手がかりが事前訓練中に暗黙的に符号化されていることを明らかにした。
探索解析は、これらの表現を再構成するのではなく、線形に復号可能な信頼信号と微細チューニング効果を示す。
最も強い関連性は、公正性、確実性、説明責任に関する評価と現れます。
これらの結果は、現代のLLMが、明示的な監督なしに心理的に根拠付けられた信頼シグナルを内部化し、Webエコシステムにおける信頼性、透明性、信頼に値するAIシステムを設計するための表象的な基盤を提供することを示している。
コードと付録は、https://github.com/GerardYeo/TrustworthinessLLM.comで入手できる。
関連論文リスト
- Ties of Trust: a bowtie model to uncover trustor-trustee relationships in LLMs [1.1149261035759372]
大規模言語モデル(LLM)における信頼の概念化と定式化のためのボウイモデルを提案する。
コアコンポーネントは、信頼者と信頼者、そしてそれらの複雑な関係を結び付けることによって、信頼を包括的に探求する。
我々はこれらの関係を、提案されたボウティーモデルと、その社会技術エコシステムの範囲内で明らかにする。
論文 参考訳(メタデータ) (2025-06-11T11:42:52Z) - Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems [52.57826440085856]
LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。
LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。
本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:32:57Z) - Fostering Trust and Quantifying Value of AI and ML [0.0]
AIとML推論の信頼について多くの議論がなされているが、それが何を意味するのかを定義するためにはほとんど行われていない。
より信頼できる機械学習推論を生み出すことは、製品の価値を高めるための道です。
論文 参考訳(メタデータ) (2024-07-08T13:25:28Z) - TrustGuard: GNN-based Robust and Explainable Trust Evaluation with
Dynamicity Support [59.41529066449414]
本稿では,信頼度を考慮した信頼度評価モデルであるTrustGuardを提案する。
TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層アーキテクチャで設計されている。
実験により、TrustGuardは、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-23T07:39:12Z) - KGTrust: Evaluating Trustworthiness of SIoT via Knowledge Enhanced Graph
Neural Networks [63.531790269009704]
ソーシャル・インターネット・オブ・モノ(Social Internet of Things, SIoT)は、スマート・オブジェクト(物)にソーシャルネットワークの概念を注入する、有望で新興のパラダイムである。
リスクと不確実性のため、解決すべき重要かつ緊急の問題は、SIoT内で信頼性の高い関係、すなわち信頼評価を確立することである。
本稿では,SIoTにおける信頼度向上のための知識強化グラフニューラルネットワーク(KGTrust)を提案する。
論文 参考訳(メタデータ) (2023-02-22T14:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。