論文の概要: ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
- arxiv url: http://arxiv.org/abs/2505.17908v1
- Date: Fri, 23 May 2025 13:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.121221
- Title: ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
- Title(参考訳): ComfyMind: ツリーベースの計画とリアクティブフィードバックによる汎用生成を目指して
- Authors: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen,
- Abstract要約: 我々は、堅牢でスケーラブルな汎用生成を可能にするために設計されたコラボレーティブAIシステムであるComfyMindを紹介する。
ComfyMindでは,低レベルのノードグラフをコール可能な関数言語に抽象化するセマンティックインターフェース(SWI)と,検索ツリー計画機構という,2つのコアイノベーションを紹介している。
我々はComfyBench、GenEval、Reason-Editの3つの公開ベンチマークでComfyMindを評価した。
- 参考スコア(独自算出の注目度): 15.363560226232668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of generative models, general-purpose generation has gained increasing attention as a promising approach to unify diverse tasks across modalities within a single system. Despite this progress, existing open-source frameworks often remain fragile and struggle to support complex real-world applications due to the lack of structured workflow planning and execution-level feedback. To address these limitations, we present ComfyMind, a collaborative AI system designed to enable robust and scalable general-purpose generation, built on the ComfyUI platform. ComfyMind introduces two core innovations: Semantic Workflow Interface (SWI) that abstracts low-level node graphs into callable functional modules described in natural language, enabling high-level composition and reducing structural errors; Search Tree Planning mechanism with localized feedback execution, which models generation as a hierarchical decision process and allows adaptive correction at each stage. Together, these components improve the stability and flexibility of complex generative workflows. We evaluate ComfyMind on three public benchmarks: ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and reasoning tasks. Results show that ComfyMind consistently outperforms existing open-source baselines and achieves performance comparable to GPT-Image-1. ComfyMind paves a promising path for the development of open-source general-purpose generative AI systems. Project page: https://github.com/LitaoGuo/ComfyMind
- Abstract(参考訳): 生成モデルの急速な進歩に伴い、汎用生成は単一のシステム内での様々なタスクを統一する有望なアプローチとして注目されている。
このような進歩にもかかわらず、既存のオープンソースフレームワークは脆弱なままであり、構造化ワークフロー計画と実行レベルのフィードバックが欠如しているため、複雑な現実世界アプリケーションのサポートに苦慮することが多い。
これらの制限に対処するために、私たちはComfyUIプラットフォーム上に構築された堅牢でスケーラブルな汎用生成を可能にするように設計されたコラボレーティブAIシステムであるComfyMindを紹介します。
セマンティックワークフローインタフェース(SWI)は、低レベルのノードグラフを自然言語で記述された呼び出し可能な機能モジュールに抽象化し、高レベルの合成を可能にし、構造的エラーを低減する。
これらのコンポーネントは共に、複雑な生成ワークフローの安定性と柔軟性を改善します。
我々はComfyBench、GenEval、Reason-Editの3つの公開ベンチマークでComfyMindを評価した。
結果は、ComfyMindが既存のオープンソースベースラインを一貫して上回り、GPT-Image-1に匹敵するパフォーマンスを実現していることを示している。
ComfyMindは、オープンソースの汎用生成AIシステムの開発に有望な道を歩む。
プロジェクトページ:https://github.com/LitaoGuo/ComfyMind
関連論文リスト
- Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - TodoEvolve: Learning to Architect Agent Planning Systems [68.48983335970901]
TodoEvolveは、タスク固有の計画を自律的に合成し、動的に修正するメタプランニングパラダイムである。
PlanFactoryは異種計画パターンの共通インターフェースを提供する。
TodoEvolveは、経済的なAPIコストとランタイムオーバーヘッドを維持しながら、慎重に設計された計画モジュールを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-08T06:37:01Z) - Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model [6.302973995986435]
GiGは、Graph-in-Graphアーキテクチャを使ってエージェントのメモリを具体化する新しい計画フレームワークである。
これらのグラフの埋め込みをクラスタ化することにより、このフレームワークは構造を意識した事前の検索を可能にする。
本フレームワークは,Robotouille Synchronous,Robotouille Asynchronous,ALFWorldの3つの具体的計画ベンチマーク上で評価する。
論文 参考訳(メタデータ) (2026-01-29T15:18:58Z) - VSA:Visual-Structural Alignment for UI-to-Code [29.15071743239679]
視覚テキストアライメントにより組織化された資産を合成するための多段階パラダイムであるbfVSA(VSA)を提案する。
私たちのフレームワークは、最先端のベンチマークよりもコードのモジュール化とアーキテクチャの一貫性を大幅に改善します。
論文 参考訳(メタデータ) (2025-12-23T03:55:45Z) - IACT: A Self-Organizing Recursive Model for General AI Agents: A Technical White Paper on the Architecture Behind kragent.ai [0.0]
対話型エージェントコールツリー(Interactive Agents Call Tree, IACT)は、ユーザ対話によって純粋に駆動される汎用的な自律システムである。
我々は,このモデルをKragent.aiシステムに導入する際のアーキテクチャ,設計原則,実践的な教訓について述べる。
論文 参考訳(メタデータ) (2025-12-02T10:10:56Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - JoyAgent-JDGenie: Technical Report on the GAIA [27.025464023889853]
大規模言語モデルは、複雑な現実世界のタスクのための自律的なエージェントとして、ますます多くデプロイされている。
本稿では,計画および実行エージェントを批判モデル投票と統合する汎用エージェントアーキテクチャ,作業層,意味層,手続き層にまたがる階層型メモリシステム,検索,コード実行,マルチモーダル解析のための洗練されたツールスイートを提案する。
論文 参考訳(メタデータ) (2025-10-01T04:41:58Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation [65.30763239365928]
我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。
GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
論文 参考訳(メタデータ) (2025-08-07T17:59:44Z) - Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [72.44384066166147]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。
既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。
協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:17:41Z) - GenerationPrograms: Fine-grained Attribution with Executable Programs [72.23792263905372]
コードエージェント」アーキテクチャの最近の進歩に触発されたモジュラー生成フレームワークであるGenerationProgramsを導入する。
GenerationProgramsは、プロセスを2つの異なるステージに分解する: まず、クエリに明示的に調整されたモジュール形式のテキスト操作からなる実行可能なプログラムプランを作成し、次に、プログラムの指定した命令に従ってこれらの操作を実行し、最終的な応答を生成する。
経験的評価は、生成プログラムは文書レベルと文レベルの両方の属性品質を著しく改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T14:37:09Z) - Aggregated Structural Representation with Large Language Models for Human-Centric Layout Generation [7.980497203230983]
本稿では,グラフネットワークを大規模言語モデル (LLM) と統合して構造情報を保存し,生成能力を向上するアグリゲーション構造表現 (ASR) モジュールを提案する。
RICOデータセットに対する包括的評価は、平均的相互接続(mIoU)と、クラウドソーシングによるユーザスタディによる定性の両方を用いて、ASRの強い性能を示す。
論文 参考訳(メタデータ) (2025-05-26T06:17:21Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Flow State: Humans Enabling AI Systems to Program Themselves [0.24578723416255752]
我々は,Human-AI共同設計を中心としたプラットフォームであるPocketflowを紹介した。
PocketflowはPythonフレームワークであり、意図的に最小限だが相乗的なコア抽象化セットの上に構築されている。
非常に小さなコードしか持たない堅牢でベンダに依存しない基盤を提供し、明らかにオーバーヘッドを減らします。
論文 参考訳(メタデータ) (2025-04-03T05:25:46Z) - InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。
新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。
FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文 参考訳(メタデータ) (2025-04-02T12:40:57Z) - RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。
RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。
評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文 参考訳(メタデータ) (2025-03-25T03:21:48Z) - Multi-Objective Bayesian Optimization for Networked Black-Box Systems: A Path to Greener Profits and Smarter Designs [0.0]
MOBONSは、一般関数ネットワークを効率的に最適化できるベイズ最適化に着想を得た新しいアルゴリズムである。
持続可能なプロセス設計を含む2つのケーススタディを通じて,MOBONSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-19T21:49:05Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Effective Reinforcement Learning Based on Structural Information Principles [19.82391136775341]
本稿では, 効率的な意思決定・意思決定のための, 新規で汎用的な構造情報原則に基づくフレームワーク,すなわちSIDMを提案する。
SIDMは、様々な単一エージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Neural Transition System for End-to-End Opinion Role Labeling [13.444895891262844]
統一世論役割ラベルリング(ORL)は、意見保有者目標の可能なすべての意見構造を1ショットで検出することを目的としている。
我々は、遷移アーキテクチャを再考し、ポインタネットワーク(PointNet)で拡張することで、新しいソリューションを提案する。
このフレームワークは、線形時間複雑性におけるすべての意見構造を解析し、PointNetとの任意の項長の制限を突破する。
論文 参考訳(メタデータ) (2021-10-05T12:45:59Z) - House-GAN++: Generative Adversarial Layout Refinement Networks [37.60108582423617]
我々のアーキテクチャはグラフ制約付きGANと条件付きGANの統合であり、そこでは以前に生成されたレイアウトが次の入力制約となる。
我々の研究の驚くべき発見は、コンポーネントワイドGTコンディショニングと呼ばれる単純な非イテレーティブトレーニングプロセスが、そのようなジェネレータの学習に有効であることである。
論文 参考訳(メタデータ) (2021-03-03T18:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。