Fugu-MT 論文翻訳(概要): ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

論文の概要: ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

arxiv url: http://arxiv.org/abs/2505.17908v1
Date: Fri, 23 May 2025 13:53:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.121221
Title: ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
Title（参考訳）: ComfyMind: ツリーベースの計画とリアクティブフィードバックによる汎用生成を目指して
Authors: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen,
Abstract要約: 我々は、堅牢でスケーラブルな汎用生成を可能にするために設計されたコラボレーティブAIシステムであるComfyMindを紹介する。 ComfyMindでは,低レベルのノードグラフをコール可能な関数言語に抽象化するセマンティックインターフェース(SWI)と,検索ツリー計画機構という,2つのコアイノベーションを紹介している。我々はComfyBench、GenEval、Reason-Editの3つの公開ベンチマークでComfyMindを評価した。
参考スコア（独自算出の注目度）: 15.363560226232668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid advancement of generative models, general-purpose generation has gained increasing attention as a promising approach to unify diverse tasks across modalities within a single system. Despite this progress, existing open-source frameworks often remain fragile and struggle to support complex real-world applications due to the lack of structured workflow planning and execution-level feedback. To address these limitations, we present ComfyMind, a collaborative AI system designed to enable robust and scalable general-purpose generation, built on the ComfyUI platform. ComfyMind introduces two core innovations: Semantic Workflow Interface (SWI) that abstracts low-level node graphs into callable functional modules described in natural language, enabling high-level composition and reducing structural errors; Search Tree Planning mechanism with localized feedback execution, which models generation as a hierarchical decision process and allows adaptive correction at each stage. Together, these components improve the stability and flexibility of complex generative workflows. We evaluate ComfyMind on three public benchmarks: ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and reasoning tasks. Results show that ComfyMind consistently outperforms existing open-source baselines and achieves performance comparable to GPT-Image-1. ComfyMind paves a promising path for the development of open-source general-purpose generative AI systems. Project page: https://github.com/LitaoGuo/ComfyMind
Abstract（参考訳）: 生成モデルの急速な進歩に伴い、汎用生成は単一のシステム内での様々なタスクを統一する有望なアプローチとして注目されている。このような進歩にもかかわらず、既存のオープンソースフレームワークは脆弱なままであり、構造化ワークフロー計画と実行レベルのフィードバックが欠如しているため、複雑な現実世界アプリケーションのサポートに苦慮することが多い。これらの制限に対処するために、私たちはComfyUIプラットフォーム上に構築された堅牢でスケーラブルな汎用生成を可能にするように設計されたコラボレーティブAIシステムであるComfyMindを紹介します。セマンティックワークフローインタフェース(SWI)は、低レベルのノードグラフを自然言語で記述された呼び出し可能な機能モジュールに抽象化し、高レベルの合成を可能にし、構造的エラーを低減する。これらのコンポーネントは共に、複雑な生成ワークフローの安定性と柔軟性を改善します。我々はComfyBench、GenEval、Reason-Editの3つの公開ベンチマークでComfyMindを評価した。結果は、ComfyMindが既存のオープンソースベースラインを一貫して上回り、GPT-Image-1に匹敵するパフォーマンスを実現していることを示している。 ComfyMindは、オープンソースの汎用生成AIシステムの開発に有望な道を歩む。プロジェクトページ:https://github.com/LitaoGuo/ComfyMind

関連論文リスト

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation [65.30763239365928]
我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。 GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
論文参考訳（メタデータ） (2025-08-07T17:59:44Z)
Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [72.44384066166147]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文参考訳（メタデータ） (2025-07-24T09:17:41Z)
GenerationPrograms: Fine-grained Attribution with Executable Programs [72.23792263905372]
コードエージェント」アーキテクチャの最近の進歩に触発されたモジュラー生成フレームワークであるGenerationProgramsを導入する。 GenerationProgramsは、プロセスを2つの異なるステージに分解する: まず、クエリに明示的に調整されたモジュール形式のテキスト操作からなる実行可能なプログラムプランを作成し、次に、プログラムの指定した命令に従ってこれらの操作を実行し、最終的な応答を生成する。経験的評価は、生成プログラムは文書レベルと文レベルの両方の属性品質を著しく改善することを示している。
論文参考訳（メタデータ） (2025-06-17T14:37:09Z)
Aggregated Structural Representation with Large Language Models for Human-Centric Layout Generation [7.980497203230983]
本稿では,グラフネットワークを大規模言語モデル (LLM) と統合して構造情報を保存し,生成能力を向上するアグリゲーション構造表現 (ASR) モジュールを提案する。 RICOデータセットに対する包括的評価は、平均的相互接続(mIoU)と、クラウドソーシングによるユーザスタディによる定性の両方を用いて、ASRの強い性能を示す。
論文参考訳（メタデータ） (2025-05-26T06:17:21Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Flow State: Humans Enabling AI Systems to Program Themselves [0.24578723416255752]
我々は,Human-AI共同設計を中心としたプラットフォームであるPocketflowを紹介した。 PocketflowはPythonフレームワークであり、意図的に最小限だが相乗的なコア抽象化セットの上に構築されている。非常に小さなコードしか持たない堅牢でベンダに依存しない基盤を提供し、明らかにオーバーヘッドを減らします。
論文参考訳（メタデータ） (2025-04-03T05:25:46Z)
InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。 FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文参考訳（メタデータ） (2025-04-02T12:40:57Z)
RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。 RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文参考訳（メタデータ） (2025-03-25T03:21:48Z)
Multi-Objective Bayesian Optimization for Networked Black-Box Systems: A Path to Greener Profits and Smarter Designs [0.0]
MOBONSは、一般関数ネットワークを効率的に最適化できるベイズ最適化に着想を得た新しいアルゴリズムである。持続可能なプロセス設計を含む2つのケーススタディを通じて,MOBONSの有効性を実証する。
論文参考訳（メタデータ） (2025-02-19T21:49:05Z)
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。 ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。 ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
Effective Reinforcement Learning Based on Structural Information Principles [19.82391136775341]
本稿では, 効率的な意思決定・意思決定のための, 新規で汎用的な構造情報原則に基づくフレームワーク,すなわちSIDMを提案する。 SIDMは、様々な単一エージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
論文参考訳（メタデータ） (2024-04-15T13:02:00Z)
DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文参考訳（メタデータ） (2023-01-30T14:02:33Z)
Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文参考訳（メタデータ） (2022-10-05T17:05:56Z)
Neural Transition System for End-to-End Opinion Role Labeling [13.444895891262844]
統一世論役割ラベルリング(ORL)は、意見保有者目標の可能なすべての意見構造を1ショットで検出することを目的としている。我々は、遷移アーキテクチャを再考し、ポインタネットワーク(PointNet)で拡張することで、新しいソリューションを提案する。このフレームワークは、線形時間複雑性におけるすべての意見構造を解析し、PointNetとの任意の項長の制限を突破する。
論文参考訳（メタデータ） (2021-10-05T12:45:59Z)
House-GAN++: Generative Adversarial Layout Refinement Networks [37.60108582423617]
我々のアーキテクチャはグラフ制約付きGANと条件付きGANの統合であり、そこでは以前に生成されたレイアウトが次の入力制約となる。我々の研究の驚くべき発見は、コンポーネントワイドGTコンディショニングと呼ばれる単純な非イテレーティブトレーニングプロセスが、そのようなジェネレータの学習に有効であることである。
論文参考訳（メタデータ） (2021-03-03T18:15:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。