論文の概要: CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures
- arxiv url: http://arxiv.org/abs/2508.11915v1
- Date: Sat, 16 Aug 2025 05:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.448788
- Title: CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures
- Title(参考訳): CORE:ゲーム理論圧力下でのマルチエージェントLDMインタラクション品質の測定
- Authors: Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin,
- Abstract要約: 対話型ロバストネス評価スコア:COREは,マルチエージェントシステムにおける言語使用の有効性を定量化する指標である。
競合性,協調性,中立性にまたがるペアワイズな大言語モデルダイアログにCOREを適用します。
以上の結果から, 協力的設定ではIPF分布の急激な増加とヒープ指数の上昇が見られ, 語彙展開の増大とともに反復性が向上することが示唆された。
- 参考スコア(独自算出の注目度): 12.251778936382296
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Game-theoretic interactions between agents with Large Language Models (LLMs) have revealed many emergent capabilities, yet the linguistic diversity of these interactions has not been sufficiently quantified. In this paper, we present the Conversational Robustness Evaluation Score: CORE, a metric to quantify the effectiveness of language use within multi-agent systems across different game-theoretic interactions. CORE integrates measures of cluster entropy, lexical repetition, and semantic similarity, providing a direct lens of dialog quality. We apply CORE to pairwise LLM dialogs across competitive, cooperative, and neutral settings, further grounding our analysis in Zipf's and Heaps' Laws to characterize word frequency distributions and vocabulary growth. Our findings show that cooperative settings exhibit both steeper Zipf distributions and higher Heap exponents, indicating more repetition alongside greater vocabulary expansion. In contrast, competitive interactions display lower Zipf and Heaps exponents, reflecting less repetition and more constrained vocabularies. These results provide new insights into how social incentives influence language adaptation, and highlight CORE as a robust diagnostic for measuring linguistic robustness in multi-agent LLM systems. Our code is available at https://github.com/psyonp/core.
- Abstract(参考訳): 大規模言語モデル(LLM)を持つエージェント間のゲーム理論的相互作用は多くの創発的能力を明らかにしているが、これらの相互作用の言語的多様性は十分に定量化されていない。
本稿では,多エージェントシステムにおける言語使用の有効性を,ゲーム理論の相互作用によって定量化する指標として,会話ロバスト性評価スコア:COREを提案する。
COREはクラスタエントロピー、語彙反復、意味的類似性の尺度を統合し、ダイアログ品質の直接レンズを提供する。
競合性,協調性,中立性の両面のLLMダイアログにCOREを適用し,Zipfの法則とHeapsの法則を用いて,単語の頻度分布と語彙の成長を特徴付ける。
以上の結果から, 協力的設定ではIPF分布の急激な増加とヒープ指数の上昇が見られ, 語彙展開の増大とともに反復性が向上することが示唆された。
対照的に、競合する相互作用はZipfとHeaps指数を低くし、繰り返しの減少とより制約のある語彙を反映している。
これらの結果は、社会インセンティブが言語適応にどのように影響するかに関する新たな洞察を与え、マルチエージェントLLMシステムにおける言語的堅牢性を測定するための堅牢な診断としてCOREを強調している。
私たちのコードはhttps://github.com/psyonp/core.comから入手可能です。
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Bidirectional Emergent Language in Situated Environments [4.950411915351642]
マルチエージェントポンとコレクターの2つの新しい協調環境を紹介した。
最適なパフォーマンスには通信プロトコルの出現が必要ですが、適度な成功はそれなしで達成できます。
エージェントは意味のあるメッセージのみを生成し、調整なしでは成功できない状態の受信メッセージに作用する。
論文 参考訳(メタデータ) (2024-08-26T21:25:44Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Coreference-aware Double-channel Attention Network for Multi-party
Dialogue Reading Comprehension [7.353227696624305]
MDRC(Multi-party Dialogue Reading)に挑戦する
MDRCは、複数のインターロケータ間の対話に基づく抽出読解タスクの略である。
推論能力を高めるためのコア推論対応アテンションモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T05:01:29Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Multi-lingual agents through multi-headed neural networks [0.0]
本稿では,協調型マルチエージェント強化学習について述べる。
この文脈では、複数の異なる非互換言語が出現する。
我々は、連続学習の文献からインスピレーションを得て、エージェントを多言語化できるように、エージェントにマルチヘッドニューラルネットワークを装備する。
論文 参考訳(メタデータ) (2021-11-22T11:39:42Z) - Dialogue Generation on Infrequent Sentence Functions via Structured
Meta-Learning [94.38532755123323]
文文は文の発声におけるコミュニケーション目的を示す重要な言語的特徴である。
文関数を会話に組み込むと、生成した応答の品質が改善される。
しかし, 異なる種類の細粒度文関数に対する発話数は極めて不均衡である。
論文 参考訳(メタデータ) (2020-10-04T07:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。