論文の概要: The Spark Effect: On Engineering Creative Diversity in Multi-Agent AI Systems
- arxiv url: http://arxiv.org/abs/2510.15568v1
- Date: Fri, 17 Oct 2025 11:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.60921
- Title: The Spark Effect: On Engineering Creative Diversity in Multi-Agent AI Systems
- Title(参考訳): Spark効果: マルチエージェントAIシステムにおけるエンジニアリングの創造的多様性
- Authors: Alexander Doudkin, Anton Voelker, Friedrich von Borries,
- Abstract要約: アート・オブ・Xはペルソナ条件のLLMエージェントを開発 -- 内部でSparksとブランド化
このホワイトペーパーは、Sparkエージェントプログラムの背後にあるフレーミング、実験的設計、および量的証拠を文書化している。
- 参考スコア(独自算出の注目度): 42.13843953705695
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creative services teams increasingly rely on large language models (LLMs) to accelerate ideation, yet production systems often converge on homogeneous outputs that fail to meet brand or artistic expectations. Art of X developed persona-conditioned LLM agents -- internally branded as "Sparks" and instantiated through a library of role-inspired system prompts -- to intentionally diversify agent behaviour within a multi-agent workflow. This white paper documents the problem framing, experimental design, and quantitative evidence behind the Spark agent programme. Using an LLM-as-a-judge protocol calibrated against human gold standards, we observe a mean diversity gain of +4.1 points (on a 1-10 scale) when persona-conditioned Spark agents replace a uniform system prompt, narrowing the gap to human experts to 1.0 point. We also surface evaluator bias and procedural considerations for future deployments.
- Abstract(参考訳): 創造的なサービスチームは、アイデアを加速するために大きな言語モデル(LLM)にますます依存しているが、生産システムはブランドや芸術的な期待を満たさない均質なアウトプットに収束することが多い。
Art of Xは、社内で"Sparks"としてブランド化され、ロールにインスパイアされたシステムプロンプトのライブラリを通じてインスタンス化されたペルソナ条件のLLMエージェントを開発し、マルチエージェントワークフロー内でエージェントの振る舞いを意図的に多様化させた。
このホワイトペーパーは、Sparkエージェントプログラムの背後にあるフレーミング、実験的設計、および量的証拠を文書化している。
LLM-as-a-judgeプロトコルを人間の金基準に対して校正し、ペルソナ条件のSparkエージェントが均一なシステムプロンプトを置き換えると、平均的な多様性が+4.1ポイント(1-10スケール)向上し、人間の専門家とのギャップを1.0ポイントに縮める。
また,今後の展開に関して,評価者のバイアスや手続き的配慮も提示する。
関連論文リスト
- HiddenBench: Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [12.203366267017737]
マルチエージェント LLM における集合的推論を評価するための最初のベンチマークである HiddenBench を紹介する。
ベンチマークを基礎として,このパラダイムをカスタムタスクで形式化し,GPT-4.1グループが分散知識の統合に失敗したことを示す。
次に、カスタムデザイン、先行研究、自動生成から引き出された65のタスクにまたがる完全なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z) - MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered [2.8692611791027893]
我々は,マルチエージェントシステムが社会的バイアスやステレオタイプを暗黙的に補強する程度を評価するために開発された新しいベンチマークであるMALIBUを提案する。
本研究は, LLM生成出力の偏差を定量化し, 偏差緩和が真の中立性よりも限界化されたペルソナを優先することを明らかにする。
論文 参考訳(メタデータ) (2025-04-10T19:16:40Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。
EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z) - XUAT-Copilot: Multi-Agent Collaborative System for Automated User
Acceptance Testing with Large Language Model [9.05375318147931]
自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。
提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。
実験では,Pass@1の精度を単エージェントアーキテクチャと比較して大幅に向上した。
論文 参考訳(メタデータ) (2024-01-05T08:24:30Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。