論文の概要: Agent-Based Simulation of Trust Development in Human-Robot Teams: An Empirically-Validated Framework
- arxiv url: http://arxiv.org/abs/2603.01189v1
- Date: Sun, 01 Mar 2026 17:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.805612
- Title: Agent-Based Simulation of Trust Development in Human-Robot Teams: An Empirically-Validated Framework
- Title(参考訳): エージェントによる人間-ロボットチームにおける信頼開発シミュレーション:実証的検証フレームワーク
- Authors: Ravi Kalluri,
- Abstract要約: NetLogo 6.4.0で実装されたこのモデルは、複雑さの異なるタスクを実行する2--10エージェントのチームをシミュレートする。
信頼非対称性比は0.07から0.55の範囲で、メタ分析の1.50よりも低い。
オープンソース実装は、デプロイ前にオーバートラストとアントラスト条件を特定するエビデンスベースのツールを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an empirically grounded agent-based model capturing trust dynamics, workload distribution, and collaborative performance in human-robot teams. The model, implemented in NetLogo 6.4.0, simulates teams of 2--10 agents performing tasks of varying complexity. We validate against Hancock et al.'s (2021) meta-analysis, achieving interval validity for 4 of 8 trust antecedent categories and strong ordinal validity (Spearman \r{ho}=0.833ρ= 0.833 \r{ho}=0.833). Sensitivity analysis using OFAT and full factorial designs (n=50n = 50 n=50 replications per condition) reveals robot reliability exhibits the strongest effect on trust (η2=0.35η^2 = 0.35 η2=0.35) and dominates task success (η2=0.93η^2 = 0.93 η2=0.93) and productivity (η2=0.89η^2 = 0.89 η2=0.89), consistent with meta-analytic findings. Trust asymmetry ratios ranged from 0.07 to 0.55 -- below the meta-analytic benchmark of 1.50 -- revealing that per-event asymmetry does not guarantee cumulative asymmetry when trust repair mechanisms remain active. Scenario analysis uncovered trust-performance decoupling: the Trust Recovery scenario achieved the highest productivity (4.29) despite the lowest trust (38.2), while the Unreliable Robot scenario produced the highest trust (73.2) despite the lowest task success (33.4\%), establishing calibration error as a critical diagnostic distinct from trust magnitude. Factorial ANOVA confirmed significant main effects for reliability, transparency, communication, and collaboration (p<.001p < .001 p<.001), explaining 45.4\% of trust variance. The open-source implementation provides an evidence-based tool for identifying overtrust and undertrust conditions prior to deployment.
- Abstract(参考訳): 本稿では,人間ロボットチームにおける信頼度,作業負荷分布,協調的パフォーマンスを実証的に把握したエージェントベースモデルを提案する。
NetLogo 6.4.0で実装されたこのモデルは、複雑さの異なるタスクを実行する2--10エージェントのチームをシミュレートする。
ハンコックらによるメタアナリシス (2021) に対する検証を行い、8つの信頼された先行カテゴリのうち4つのインターバル妥当性と強い順序妥当性を得た(Spearman \r{ho}=0.833ρ=0.833 \r{ho}=0.833)。
OFATとフルファクター設計(n=50n = 50n=50の複製)を用いた感度分析では、ロボットの信頼性が信頼に最も強い影響(η2=0.35η^2 = 0.35 η2=0.35)を示し、メタ分析結果と整合したタスク成功(η2=0.93η^2 = 0.93 η2=0.93)と生産性(η2=0.89η^2 = 0.89 η2=0.89)を支配している。
信頼の非対称性比は0.07から0.55の範囲で、メタ分析の1.50よりも低い。
信頼回復シナリオは信頼度が低い(38.2)にもかかわらず高い生産性(4.29)を達成し、信頼できないロボットシナリオは最も低いタスク成功(33.4\%)にもかかわらず信頼度が低い(73.2)ことを達成し、信頼度と異なる重要な診断基準としてキャリブレーション誤差を確立した。
ANOVAは信頼性、透明性、コミュニケーション、コラボレーション(p<.001p < .001 p<.001 p<.001)に大きな影響があることを確認し、45.4\%の信頼分散が説明された。
オープンソース実装は、デプロイ前にオーバートラストとアントラスト条件を特定するエビデンスベースのツールを提供する。
関連論文リスト
- RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models [5.733004743054914]
大規模な推論モデル(LRM)は、強い性能を示すが、しばしば妥当に聞こえるが、真の決定過程を反映しない合理性を生み出す。
2つのテスト可能な条件で定義された忠実性を推論するための公式な枠組みを導入する。
RFEvalは、7,186インスタンスのベンチマークであり、制御された出力レベルの対実的介入を通じて忠実さを調査する。
論文 参考訳(メタデータ) (2026-02-19T03:49:37Z) - Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection [0.0]
大規模言語モデル(LLM)は、ますます重要な意思決定システムにデプロイされている。
出力アンカートークン確率に基づく正規化信頼スコアを導入する。
これにより、最小限のオーバーヘッドでエラーや幻覚を直接検出できる。
論文 参考訳(メタデータ) (2026-02-18T07:05:12Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability [23.70973331911138]
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-10T07:08:44Z) - Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression [109.23761449840222]
本研究は,Large Language Models (LLM) の最初の完全評価を行う。
量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。
論文 参考訳(メタデータ) (2024-03-18T01:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。