論文の概要: Evaluating LLM Alignment With Human Trust Models
- arxiv url: http://arxiv.org/abs/2603.05839v1
- Date: Fri, 06 Mar 2026 02:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.899328
- Title: Evaluating LLM Alignment With Human Trust Models
- Title(参考訳): 信頼モデルを用いたLLMアライメントの評価
- Authors: Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini,
- Abstract要約: この研究は、EleutherAI/gpt-j-6Bにおける信頼表現のホワイトボックス解析を示す。
まず,確立された5つの信頼モデルから信頼関連概念を同定した。
次に, LLMの内部信頼表現と導出信頼関連概念のコサイン類似性を測定した。
- 参考スコア(独自算出の注目度): 9.741889240149336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trust plays a pivotal role in enabling effective cooperation, reducing uncertainty, and guiding decision-making in both human interactions and multi-agent systems. Although it is significant, there is limited understanding of how large language models (LLMs) internally conceptualize and reason about trust. This work presents a white-box analysis of trust representation in EleutherAI/gpt-j-6B, using contrastive prompting to generate embedding vectors within the activation space of the LLM for diadic trust and related interpersonal relationship attributes. We first identified trust-related concepts from five established human trust models. We then determined a threshold for significant conceptual alignment by computing pairwise cosine similarities across 60 general emotional concepts. Then we measured the cosine similarities between the LLM's internal representation of trust and the derived trust-related concepts. Our results show that the internal trust representation of EleutherAI/gpt-j-6B aligns most closely with the Castelfranchi socio-cognitive model, followed by the Marsh Model. These findings indicate that LLMs encode socio-cognitive constructs in their activation space in ways that support meaningful comparative analyses, inform theories of social cognition, and support the design of human-AI collaborative systems.
- Abstract(参考訳): 信頼は、効果的に協力し、不確実性を低減し、ヒューマンインタラクションとマルチエージェントシステムの両方において意思決定を導く上で重要な役割を担っている。
重要なことではあるが、大きな言語モデル(LLM)がいかに内在的に概念化され、信頼の理由になるかについては、限定的な理解がある。
本研究は,LLMの活性化空間内への埋め込みベクトルを生成するために,コントラストプロンプトを用いたEleutherAI/gpt-j-6Bにおける信頼表現のホワイトボックス解析を行った。
まず,確立された5つの信頼モデルから信頼関連概念を同定した。
そして、60の一般的な感情的概念にまたがるペアワイドなコサイン類似性を計算することによって、重要な概念的アライメントのしきい値を決定する。
次に, LLMの内部信頼表現と導出信頼関連概念のコサイン類似度を測定した。
以上の結果から,EleutherAI/gpt-j-6Bの内部信頼表現は,Castelfranchi社会認知モデルと密接に一致し,Marshモデルがそれに続いた。
これらの結果から, LLMは, 意味的比較分析を支援し, 社会的認知の理論を伝達し, 人間とAIの協調システムの設計を支援する方法として, 活性化空間における社会認知構造を符号化していることが明らかとなった。
関連論文リスト
- UniCog: Uncovering Cognitive Abilities of LLMs through Latent Mind Space Analysis [69.50752734049985]
成長する研究機関は、大きな言語モデル(LLM)の認知過程が人間のものと根本的に異なることを示唆している。
潜在心空間を介してLLM認知を分析する統一フレームワークUniCogを提案する。
論文 参考訳(メタデータ) (2026-01-25T16:19:00Z) - Revisiting Trust in the Era of Generative AI: Factorial Structure and Latent Profiles [5.109743403025609]
信頼は、人々が人工知能(AI)を採用し、どのように依存するかを形作る最も重要な要素の1つです。
既存の研究の多くは、システムの信頼性、正確性、使いやすさに重点を置いて、機能の観点から信頼度を測定している。
本研究では,GenAIにおける信頼の合理性と関係性の両方を捉えるための新しい尺度であるHuman-AI Trust Scale(HAITS)を導入し,検証する。
論文 参考訳(メタデータ) (2025-10-11T12:39:53Z) - Value-Based Large Language Model Agent Simulation for Mutual Evaluation of Trust and Interpersonal Closeness [4.008152563028669]
大規模言語モデル(LLM)は、人間のようなエージェントを用いて複雑な社会現象をシミュレートする強力なツールとして登場した。
本研究では, 2つの実験により, LLMエージェント間の関係構築に及ぼす値類似性の影響について検討した。
論文 参考訳(メタデータ) (2025-07-16T07:21:59Z) - Ties of Trust: a bowtie model to uncover trustor-trustee relationships in LLMs [1.1149261035759372]
大規模言語モデル(LLM)における信頼の概念化と定式化のためのボウイモデルを提案する。
コアコンポーネントは、信頼者と信頼者、そしてそれらの複雑な関係を結び付けることによって、信頼を包括的に探求する。
我々はこれらの関係を、提案されたボウティーモデルと、その社会技術エコシステムの範囲内で明らかにする。
論文 参考訳(メタデータ) (2025-06-11T11:42:52Z) - A closer look at how large language models trust humans: patterns and biases [0.0]
大規模言語モデル(LLM)とLLMベースのエージェントは、意思決定の文脈で人間と対話する傾向にある。
LLMは、意思決定を支援し、影響を及ぼすために、信頼に関連するコンテキストに対して、ある種の暗黙の効果的な信頼に依存しています。
我々は, LLMの信頼が, 人類の能力, 善意, 完全性の3つの主要な信頼性の側面に依存しているかどうかを考察する。
ほとんどのケースにおいて、LDMの信頼は信頼性によって強く予測され、場合によっては年齢、宗教、性別にも偏っている。
論文 参考訳(メタデータ) (2025-04-22T11:31:50Z) - TrustGuard: GNN-based Robust and Explainable Trust Evaluation with
Dynamicity Support [59.41529066449414]
本稿では,信頼度を考慮した信頼度評価モデルであるTrustGuardを提案する。
TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層アーキテクチャで設計されている。
実験により、TrustGuardは、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-23T07:39:12Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。