論文の概要: Agent-to-Agent Theory of Mind: Testing Interlocutor Awareness among Large Language Models
- arxiv url: http://arxiv.org/abs/2506.22957v1
- Date: Sat, 28 Jun 2025 17:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.645582
- Title: Agent-to-Agent Theory of Mind: Testing Interlocutor Awareness among Large Language Models
- Title(参考訳): エージェント・ツー・エージェント理論:大規模言語モデルにおけるインターロケータ認識の検証
- Authors: Younwoo Choi, Changling Li, Yongjin Yang, Zhijing Jin,
- Abstract要約: 大規模言語モデル(LLM)は、マルチエージェントやヒューマンAIシステムに統合されつつある。
本稿では,対話相手の同一性と特徴を識別し,適応する能力について定式化する。
GPT や Claude など,LLM が同一家族の同族や著名なモデルファミリを確実に識別できることを示す。
- 参考スコア(独自算出の注目度): 12.190536939842525
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) are increasingly integrated into multi-agent and human-AI systems, understanding their awareness of both self-context and conversational partners is essential for ensuring reliable performance and robust safety. While prior work has extensively studied situational awareness which refers to an LLM's ability to recognize its operating phase and constraints, it has largely overlooked the complementary capacity to identify and adapt to the identity and characteristics of a dialogue partner. In this paper, we formalize this latter capability as interlocutor awareness and present the first systematic evaluation of its emergence in contemporary LLMs. We examine interlocutor inference across three dimensions-reasoning patterns, linguistic style, and alignment preferences-and show that LLMs reliably identify same-family peers and certain prominent model families, such as GPT and Claude. To demonstrate its practical significance, we develop three case studies in which interlocutor awareness both enhances multi-LLM collaboration through prompt adaptation and introduces new alignment and safety vulnerabilities, including reward-hacking behaviors and increased jailbreak susceptibility. Our findings highlight the dual promise and peril of identity-sensitive behavior in LLMs, underscoring the need for further understanding of interlocutor awareness and new safeguards in multi-agent deployments. Our code is open-sourced at https://github.com/younwoochoi/InterlocutorAwarenessLLM.
- Abstract(参考訳): 大規模言語モデル(LLM)がマルチエージェントとヒューマンAIシステムに統合されるにつれて、信頼性の高いパフォーマンスと堅牢な安全性を確保するためには、自己コンテキストと対話型パートナの両方に対する認識を理解することが不可欠である。
これまでの研究は、LLMの運用フェーズと制約を認識する能力に言及した状況意識を幅広く研究してきたが、対話相手のアイデンティティと特徴を識別し適応する補完能力は、ほとんど見過ごされてしまった。
本稿では,この後者の能力をインターロケータ認知として定式化し,現代LPMにおけるその出現に関する最初の体系的評価を提示する。
本研究は,3次元パターン,言語スタイル,アライメントの嗜好の3つを対象とし,LLMが同一家族の仲間や,GPTやClaudeといった著名なモデルファミリを確実に識別することを示す。
本研究の実践的意義を明らかにするために,複数LLM協調の促進と,報奨行動やジェイルブレイクの感受性の向上など,新たなアライメントと安全性の脆弱性を導入する3つのケーススタディを開発した。
本研究は, LLMにおける自己認識性行動の両面での可能性を強調し, マルチエージェント展開における相互認識のさらなる理解と新たな安全確保の必要性を浮き彫りにした。
私たちのコードはhttps://github.com/younwoochoi/InterlocutorAwarenessLLMでオープンソース化されています。
関連論文リスト
- Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文 参考訳(メタデータ) (2025-05-19T10:01:35Z) - Bridging Expertise Gaps: The Role of LLMs in Human-AI Collaboration for Cybersecurity [17.780795900414716]
本研究では,大規模言語モデル(LLM)が知的協力者として機能し,サイバーセキュリティ意思決定における専門的ギャップを埋めることができるかを検討する。
我々は,人間とAIのコラボレーションによって作業性能が向上し,フィッシング検出における偽陽性と侵入検出における偽陰性が低減されることを見出した。
論文 参考訳(メタデータ) (2025-05-06T04:47:52Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Concept Matching with Agent for Out-of-Distribution Detection [19.407364109506904]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する手法を提案する。
提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。
実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-27T02:27:28Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration [39.603649838876294]
本研究では,LLMの知識ギャップを同定し,知識ギャップが存在する場合の質問への回答を控えるアプローチについて検討する。
保留集合上での自己回帰と過度信頼の失敗により、我々は2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-01T06:11:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。