論文の概要: CCA: Collaborative Competitive Agents for Image Editing
- arxiv url: http://arxiv.org/abs/2401.13011v1
- Date: Tue, 23 Jan 2024 11:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-25 16:32:27.857438
- Title: CCA: Collaborative Competitive Agents for Image Editing
- Title(参考訳): CCA:画像編集のための協調競合エージェント
- Authors: Tiankai Hang and Shuyang Gu and Dong Chen and Xin Geng and Baining Guo
- Abstract要約: 本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。
複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。
この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
- 参考スコア(独自算出の注目度): 59.54347952062684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel generative model, Collaborative Competitive
Agents (CCA), which leverages the capabilities of multiple Large Language
Models (LLMs) based agents to execute complex tasks. Drawing inspiration from
Generative Adversarial Networks (GANs), the CCA system employs two equal-status
generator agents and a discriminator agent. The generators independently
process user instructions and generate results, while the discriminator
evaluates the outputs, and provides feedback for the generator agents to
further reflect and improve the generation results. Unlike the previous
generative model, our system can obtain the intermediate steps of generation.
This allows each generator agent to learn from other successful executions due
to its transparency, enabling a collaborative competition that enhances the
quality and robustness of the system's results. The primary focus of this study
is image editing, demonstrating the CCA's ability to handle intricate
instructions robustly. The paper's main contributions include the introduction
of a multi-agent-based generative model with controllable intermediate steps
and iterative optimization, a detailed examination of agent relationships, and
comprehensive experiments on image editing. Code is available at
\href{https://github.com/TiankaiHang/CCA}{https://github.com/TiankaiHang/CCA}.
- Abstract(参考訳): 本稿では,多言語モデル(LLM)に基づくエージェントの複雑なタスク実行能力を活用した,新しい生成モデルである協調競合エージェント(CCA)を提案する。
GAN(Generative Adversarial Networks)からインスピレーションを得たCAAシステムは、2つの等しい状態のジェネレータと識別エージェントを使用している。
ジェネレータは、ユーザ命令を独立して処理して結果を生成し、識別器は出力を評価し、生成エージェントが生成結果をさらに反映して改善するためのフィードバックを提供する。
従来の生成モデルとは異なり、システムは生成の中間段階を得ることができる。
これにより、各ジェネレータエージェントは、透過性のため、他の成功した実行から学ぶことができ、システム結果の品質と堅牢性を高める協調競争が可能になる。
この研究の主な焦点は画像編集であり、CCAが複雑な指示をしっかり処理できることを実証している。
本論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入、エージェント関係の詳細な検証、画像編集に関する包括的な実験である。
コードは \href{https://github.com/tiankaihang/cca}{https://github.com/tiankaihang/cca}で入手できる。
関連論文リスト
- GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning [54.42973725693]
我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
論文 参考訳(メタデータ) (2026-01-26T14:49:04Z) - Chain-of-Image Generation: Toward Monitorable and Controllable Image Generation [7.987662261007762]
CoIG(Chain-of-Image Generation)フレームワークは、画像生成を、人間がアートを作成する方法に類似したシーケンシャルでセマンティックなプロセスとして再構成する。
実験結果から,CoIGは確立されたベースラインモデルと比較して,競争力のあるロバスト性を実現しつつ,定量的監視性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-12-09T14:35:12Z) - ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation [49.01601313084479]
ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。
画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-14T17:00:29Z) - Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration [73.65102758687289]
本研究は,マルチエージェントコラボレーションを改善するための3つのイノベーションを紹介する。
まず、長いビデオ生成のための階層型グラフベースのマルチエージェントフレームワークであるOmniAgentを提案する。
第2に,文脈工学にヒントを得たハイパーグラフノードを提案する。
論文 参考訳(メタデータ) (2025-10-25T20:34:18Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Stochastic Self-Organization in Multi-Agent Systems [28.70691568233268]
LLM(Large Language Models)に基づくマルチエージェントシステム(MAS)は、単一のLLMの範囲を超えているタスクを解く可能性がある。
通信をオンザフライで適応する応答条件付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T09:08:04Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - GenerationPrograms: Fine-grained Attribution with Executable Programs [72.23792263905372]
コードエージェント」アーキテクチャの最近の進歩に触発されたモジュラー生成フレームワークであるGenerationProgramsを導入する。
GenerationProgramsは、プロセスを2つの異なるステージに分解する: まず、クエリに明示的に調整されたモジュール形式のテキスト操作からなる実行可能なプログラムプランを作成し、次に、プログラムの指定した命令に従ってこれらの操作を実行し、最終的な応答を生成する。
経験的評価は、生成プログラムは文書レベルと文レベルの両方の属性品質を著しく改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T14:37:09Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.66966457772646]
MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。
我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。
このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration [20.988801611785522]
コンポジションテキスト・ビデオ生成を可能にする反復型マルチエージェントフレームワークであるGenMACを提案する。
コラボレーションワークフローには、Design、Generation、Redesignの3つのステージが含まれている。
コンポジションテキスト・ビデオ生成の多様なシナリオに対処するために,各シナリオに特化している修正エージェントのコレクションから適切な修正エージェントを適応的に選択するセルフルーティング機構を設計する。
論文 参考訳(メタデータ) (2024-12-05T18:56:05Z) - Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks [39.084974125007165]
本稿では,複雑なタスクを解くための高性能なオープンソースエージェントシステムMagentic-Oneを紹介する。
Magentic-Oneでは、リードエージェントであるOrchestratorが進捗を追跡し、エラーからリカバリするための再計画を行うマルチエージェントアーキテクチャを使用している。
Magentic-Oneは3つの多様かつ挑戦的なエージェントベンチマークにおいて、最先端技術に対して統計的に競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-11-07T06:36:19Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。
神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Concept Matching with Agent for Out-of-Distribution Detection [19.407364109506904]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する手法を提案する。
提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。
実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-27T02:27:28Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。