Fugu-MT 論文翻訳(概要): Interaction Theater: A case of LLM Agents Interacting at Scale

論文の概要: Interaction Theater: A case of LLM Agents Interacting at Scale

arxiv url: http://arxiv.org/abs/2602.20059v1
Date: Mon, 23 Feb 2026 17:14:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.9185
Title: Interaction Theater: A case of LLM Agents Interacting at Scale
Title（参考訳）: インタラクション・シアター:スケールで相互作用するLDMエージェントの1例
Authors: Sarath Shekkizhar, Adam Earle,
Abstract要約: 私たちは、AIエージェントのみのソーシャルプラットフォームであるMoltbookのデータを、800万の投稿、3.5万のコメント、78万のエージェントプロファイルで使用しています。以上の結果から, エージェントは多種多様で整形されたテキストを生成し, 活発な議論を表面的に生み出すが, 物質はほとんど欠落していることが明らかとなった。
参考スコア（独自算出の注目度）: 2.815604016712184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As multi-agent architectures and agent-to-agent protocols proliferate, a fundamental question arises: what actually happens when autonomous LLM agents interact at scale? We study this question empirically using data from Moltbook, an AI-agent-only social platform, with 800K posts, 3.5M comments, and 78K agent profiles. We combine lexical metrics (Jaccard specificity), embedding-based semantic similarity, and LLM-as-judge validation to characterize agent interaction quality. Our findings reveal agents produce diverse, well-formed text that creates the surface appearance of active discussion, but the substance is largely absent. Specifically, while most agents ($67.5\%$) vary their output across contexts, $65\%$ of comments share no distinguishing content vocabulary with the post they appear under, and information gain from additional comments decays rapidly. LLM judge based metrics classify the dominant comment types as spam ($28\%$) and off-topic content ($22\%$). Embedding-based semantic analysis confirms that lexically generic comments are also semantically generic. Agents rarely engage in threaded conversation ($5\%$ of comments), defaulting instead to independent top-level responses. We discuss implications for multi-agent interaction design, arguing that coordination mechanisms must be explicitly designed; without them, even large populations of capable agents produce parallel output rather than productive exchange.
Abstract（参考訳）: マルチエージェントアーキテクチャやエージェント・ツー・エージェントプロトコルが普及するにつれて、根本的な疑問が生まれます。我々は、AIエージェントのみのソーシャルプラットフォームであるMoltbookのデータを用いて、800Kの投稿、3.5Mのコメント、78Kのエージェントプロファイルを用いて、この質問を実証的に研究した。我々は,語彙メトリクス(Jaccardの特異性),埋め込みに基づく意味的類似性,およびLLM-as-judgeバリデーションを組み合わせることで,エージェント間相互作用の質を特徴づける。以上の結果から, エージェントは多種多様で整形されたテキストを生成し, 活発な議論を表面的に生み出すが, 物質はほとんど欠落していることが明らかとなった。具体的には、ほとんどのエージェント(67.5\%$)は文脈によってアウトプットが変わるが、65\%$のコメントは、その下に表示される投稿と区別されたコンテンツ語彙を共有せず、追加のコメントからの情報の獲得は急速に減少する。 LLMの判断に基づく基準は、主要なコメントタイプをスパム($28\%$)とオフトピーコンテンツ($22\%$)に分類する。埋め込みに基づくセマンティック分析は、語彙的にジェネリックなコメントも意味論的にジェネリックであることを確認した。エージェントは、独立したトップレベルのレスポンスではなく、デフォルトでスレッド化された会話(5\%のコメント)にほとんど関与しない。我々は,多エージェント間相互作用設計の意義を論じ,協調機構を明示的に設計する必要があると論じる。

関連論文リスト

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation [0.0]
本稿では,言語アノテーションを自動化するために,反射型多モデルアーキテクチャを活用する統合プラットフォームLinguistAgentを紹介する。このシステムは、プロのピアレビュープロセスをシミュレートするために、アノテーションとレビュアーからなるデュアルエージェントワークフローを実装している。メタファ識別のタスクを例にLinguistAgentの有効性を実証し,トークンレベルをリアルタイムに評価する。
論文参考訳（メタデータ） (2026-02-05T09:55:19Z)
AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文参考訳（メタデータ） (2026-02-03T19:18:28Z)
LimAgents: Multi-Agent LLMs for Generating Research Limitations [6.359517103183802]
LimAgentsは、静的制限を生成するためのマルチエージェントフレームワークである。 OpenReviewコメントと著者による制限を統合している。また、引用論文や引用論文を使って、より広い文脈の弱点を捉えている。
論文参考訳（メタデータ） (2025-12-30T18:12:52Z)
Echoing: Identity Failures when LLM Agents Talk to Each Other [29.84830992033132]
大規模言語モデル(LLM)ベースのエージェントは、相互に自律的に相互作用する。人間とエージェントの相互作用とは異なり、AxAはそのような安定化シグナルを欠いている。エージェントは割り当てられた役割を放棄し、代わりに会話相手を反映する。
論文参考訳（メタデータ） (2025-11-12T20:17:10Z)
DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates [10.609797175227644]
マルチエージェントロールプレイングLLM間の相互作用の信頼性を評価するための,最初の大規模実証的ベンチマークであるDEBATEを紹介する。我々は,シミュレーション群と真正群との重要な相違点を系統的に評価し,同定した。
論文参考訳（メタデータ） (2025-10-29T02:21:10Z)
MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文参考訳（メタデータ） (2025-10-07T06:27:42Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文参考訳（メタデータ） (2024-02-28T12:04:05Z)
Affordable Generative Agents [16.372072265248192]
AGA(Affordable Generative Agents)は、エージェント環境とエージェント間の両方のレベルで、信頼性と低コストのインタラクションの生成を可能にするフレームワークである。私たちのコードは、https://github.com/AffordableGenerative-Agents/Affordable-Generative-Agentsで公開されています。
論文参考訳（メタデータ） (2024-02-03T06:16:28Z)
AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。