論文の概要: Confident-Knowledge Diversity Drives Human-Human and Human-AI Free Discussion Synergy and Reveals Pure-AI Discussion Shortfalls
- arxiv url: http://arxiv.org/abs/2507.22889v2
- Date: Thu, 09 Oct 2025 16:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.583483
- Title: Confident-Knowledge Diversity Drives Human-Human and Human-AI Free Discussion Synergy and Reveals Pure-AI Discussion Shortfalls
- Title(参考訳): 信頼と知識の多様性は人間とAIの自由な議論をシナジーに駆り立て、純粋AIの議論不足を解消する
- Authors: Tom Sheffer, Alon Miron, Asael Sklar, Yaniv Dover, Ariel Goldstein,
- Abstract要約: 大規模言語モデルが人間の議論で観察される相乗効果を再現できるかどうかを考察する。
本稿では,各参加者をパフォーマンス(正確性)と信頼度でモデル化するエージェント非依存の自信知識フレームワークを提案する。
この枠組みは、信頼できる知識の多様性を定量化し、あるエージェントが他のエージェントが不確実であるときに正しい傾向にある度合いを計算し、信頼インフォームド決定によって利得に対する保守的な上限を得る。
- 参考スコア(独自算出の注目度): 3.335241944417891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversations transform individual knowledge into collective insight, enabling collaborators to solve problems more accurately than they could alone. Whether dialogues among large language models (LLMs) can replicate the synergistic gains observed in human discussion remains unclear. We systematically compared four interaction settings: LLM-LLM pairs, LLM trios, human trios, and human-LLM pairs, using validated medical multiple-choice questions. Agents answered individually, engaged in open-ended discussion, then re-answered, allowing us to quantify conversational gains. Interactions that included humans consistently yielded synergy (post-discussion accuracy increased for both stronger and weaker participants), whereas purely LLM groups did not improve and often declined. To explain and prospectively predict when unstructured dialogue helps, we introduce an agent-agnostic confident-knowledge framework that models each participant by performance (accuracy) and confidence. This framework quantifies confident-knowledge diversity, the degree to which one agent tends to be correct when another is uncertain, and yields a conservative upper bound on gains achievable via confidence-informed decisions, which we term Potential Conversation Synergy. Across humans, LLMs, and mixed teams, this metric prospectively predicts observed conversational improvements: when confident-knowledge diversity is low (as in LLM-only groups), discussion doesn't improve performance; when it is present (as in human or human-LLM groups), free-form dialogue reliably lifts accuracy. These findings propose a new concept and method for AI collaboration: quantifying confident-knowledge diversity to prospectively predict conversational gains and guide team selection and interaction design in both multi-agent and human-AI settings.
- Abstract(参考訳): 会話は個々の知識を集合的な洞察に変換し、協力者が単独で解決できるよりも正確な問題を解けるようにする。
大きな言語モデル(LLM)間の対話が、人間の議論で見られる相乗効果を再現できるかどうかは不明だ。
LLM-LLMペア,LLMトリオ,ヒトトリオ,ヒト-LLMペアの4つのインタラクション設定を,検証された医療的多重選択質問を用いて体系的に比較した。
エージェントは個別に回答し、オープンエンドの議論に従事した後、再度回答し、会話による利益の定量化を可能にしました。
ヒトを含む相互作用は相乗効果を持続的に生み出すが, LLM群は改善せず, しばしば減少する傾向にあった。
非構造化対話がいつ役に立つかを説明し、予測するために、各参加者をパフォーマンス(正確さ)と信頼度でモデル化するエージェント非依存の自信知識フレームワークを導入する。
この枠組みは、信頼できる知識の多様性を定量化し、あるエージェントが他のエージェントが不確実であるときに正しい傾向にある度合いを計算し、信頼情報に基づく決定によって利得に対する保守的な上限を得る。
自信と知識の多様性が低い(LLMのみのグループのように)場合、議論はパフォーマンスを向上しない(人間や人間-LLMグループのように)。
これらの結果は,AIコラボレーションのための新しい概念と方法の提案である。多エージェントと人間-AIの両方の設定において,自信と知識の多様性を定量化し,会話の利得を予測し,チーム選択とインタラクション設計をガイドする。
関連論文リスト
- LLMs in Cybersecurity: Friend or Foe in the Human Decision Loop? [0.15293427903448023]
大規模言語モデル(LLM)は、認知的協力者としての行動によって人間の意思決定を変革している。
本稿では,LLMがセキュリティクリティカルな文脈でどのように人間の判断を形作るかを検討する。
論文 参考訳(メタデータ) (2025-09-08T12:06:06Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話モデリングにおけるデータ効率のよい対話ポリシー学習を可能にする。
動作ラベルがない場合でも、データ効率のよいチューニングシナリオにおいてACTの有効性を実証する。
また,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Persona Inconstancy in Multi-Agent LLM Collaboration: Conformity, Confabulation, and Impersonation [16.82101507069166]
マルチエージェントAIシステムは、科学的および実践的な応用において、集合的な意思決定をシミュレートするために使用することができる。
我々は、相互協力や議論に携わるAIエージェントのアンサンブルについて、個人の反応やチャットの書き起こしを分析して検討する。
以上の結果から,複数エージェントによる議論が,多面的な視点を反映する集合的AI決定を支援することが示唆された。
論文 参考訳(メタデータ) (2024-05-06T21:20:35Z) - LLM Agents in Interaction: Measuring Personality Consistency and
Linguistic Alignment in Interacting Populations of Large Language Models [4.706971067968811]
簡単な変数誘導サンプリングアルゴリズムを用いて,大規模言語モデル (LLM) エージェントの2群集団を作成する。
人格検査を行ない、共同作業にエージェントを提出し、異なるプロファイルが会話相手に対して異なるレベルの人格整合性および言語的整合性を示すことを確認する。
論文 参考訳(メタデータ) (2024-02-05T11:05:20Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [116.09561564489799]
Solo Performance Promptingは、複数のペルソナと多ターンの自己コラボレーションをすることで、単一のLCMを認知的シナジストに変換する。
認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決を強化するために、複数の心の強みと知識を協調的に結合するインテリジェントエージェントである。
より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
論文 参考訳(メタデータ) (2023-07-11T14:45:19Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。