論文の概要: CCA: Collaborative Competitive Agents for Image Editing
- arxiv url: http://arxiv.org/abs/2401.13011v1
- Date: Tue, 23 Jan 2024 11:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:32:27.857438
- Title: CCA: Collaborative Competitive Agents for Image Editing
- Title(参考訳): CCA:画像編集のための協調競合エージェント
- Authors: Tiankai Hang and Shuyang Gu and Dong Chen and Xin Geng and Baining Guo
- Abstract要約: 本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。
複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。
この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
- 参考スコア(独自算出の注目度): 59.54347952062684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel generative model, Collaborative Competitive
Agents (CCA), which leverages the capabilities of multiple Large Language
Models (LLMs) based agents to execute complex tasks. Drawing inspiration from
Generative Adversarial Networks (GANs), the CCA system employs two equal-status
generator agents and a discriminator agent. The generators independently
process user instructions and generate results, while the discriminator
evaluates the outputs, and provides feedback for the generator agents to
further reflect and improve the generation results. Unlike the previous
generative model, our system can obtain the intermediate steps of generation.
This allows each generator agent to learn from other successful executions due
to its transparency, enabling a collaborative competition that enhances the
quality and robustness of the system's results. The primary focus of this study
is image editing, demonstrating the CCA's ability to handle intricate
instructions robustly. The paper's main contributions include the introduction
of a multi-agent-based generative model with controllable intermediate steps
and iterative optimization, a detailed examination of agent relationships, and
comprehensive experiments on image editing. Code is available at
\href{https://github.com/TiankaiHang/CCA}{https://github.com/TiankaiHang/CCA}.
- Abstract(参考訳): 本稿では,多言語モデル(LLM)に基づくエージェントの複雑なタスク実行能力を活用した,新しい生成モデルである協調競合エージェント(CCA)を提案する。
GAN(Generative Adversarial Networks)からインスピレーションを得たCAAシステムは、2つの等しい状態のジェネレータと識別エージェントを使用している。
ジェネレータは、ユーザ命令を独立して処理して結果を生成し、識別器は出力を評価し、生成エージェントが生成結果をさらに反映して改善するためのフィードバックを提供する。
従来の生成モデルとは異なり、システムは生成の中間段階を得ることができる。
これにより、各ジェネレータエージェントは、透過性のため、他の成功した実行から学ぶことができ、システム結果の品質と堅牢性を高める協調競争が可能になる。
この研究の主な焦点は画像編集であり、CCAが複雑な指示をしっかり処理できることを実証している。
本論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入、エージェント関係の詳細な検証、画像編集に関する包括的な実験である。
コードは \href{https://github.com/tiankaihang/cca}{https://github.com/tiankaihang/cca}で入手できる。
関連論文リスト
- Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks [39.084974125007165]
本稿では,複雑なタスクを解くための高性能なオープンソースエージェントシステムMagentic-Oneを紹介する。
Magentic-Oneでは、リードエージェントであるOrchestratorが進捗を追跡し、エラーからリカバリするための再計画を行うマルチエージェントアーキテクチャを使用している。
Magentic-Oneは3つの多様かつ挑戦的なエージェントベンチマークにおいて、最先端技術に対して統計的に競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-11-07T06:36:19Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。
神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。