論文の概要: VisionCoder: Empowering Multi-Agent Auto-Programming for Image Processing with Hybrid LLMs
- arxiv url: http://arxiv.org/abs/2410.19245v1
- Date: Fri, 25 Oct 2024 01:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:40.239183
- Title: VisionCoder: Empowering Multi-Agent Auto-Programming for Image Processing with Hybrid LLMs
- Title(参考訳): VisionCoder: ハイブリッドLLMによる画像処理のためのマルチエージェントオートプログラミング
- Authors: Zixiao Zhao, Jing Sun, Zhiyuan Wei, Cheng-Hao Cai, Zhe Hou, Jin Song Dong,
- Abstract要約: 本稿では,自動プログラミングタスクを協調的に完了するマルチエージェントフレームワークを提案する。
各エージェントは、仮想組織をまとめて形成する、ソフトウェア開発サイクルにおいて、明確な役割を担います。
このフレームワークは、プロジェクト、モジュール、ファンクションレベルにまたがるツリー構造化の思考分布と開発メカニズムを確立することで、コスト効率と効率的なソリューションを提供します。
- 参考スコア(独自算出の注目度): 8.380216582290025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of automated programming, large language models (LLMs) have demonstrated foundational generative capabilities when given detailed task descriptions. However, their current functionalities are primarily limited to function-level development, restricting their effectiveness in complex project environments and specific application scenarios, such as complicated image-processing tasks. This paper presents a multi-agent framework that utilises a hybrid set of LLMs, including GPT-4o and locally deployed open-source models, which collaboratively complete auto-programming tasks. Each agent plays a distinct role in the software development cycle, collectively forming a virtual organisation that works together to produce software products. By establishing a tree-structured thought distribution and development mechanism across project, module, and function levels, this framework offers a cost-effective and efficient solution for code generation. We evaluated our approach using benchmark datasets, and the experimental results demonstrate that VisionCoder significantly outperforms existing methods in image processing auto-programming tasks.
- Abstract(参考訳): 自動プログラミングの分野では、大規模言語モデル(LLM)が詳細なタスク記述を与えると、基礎的な生成能力を実証している。
しかし、現在の機能は主に機能レベルの開発に限られており、複雑なプロジェクト環境や複雑な画像処理タスクのような特定のアプリケーションシナリオでの有効性を制限する。
本稿では、GPT-4oやローカルにデプロイされたオープンソースモデルなど、協調的に自動プログラミングタスクを完結させるハイブリッドLLMの集合を利用するマルチエージェントフレームワークを提案する。
各エージェントは、ソフトウェア開発サイクルにおいて、ソフトウェア製品を生産するために協力して働く仮想組織を形成する、明確な役割を担います。
このフレームワークは、プロジェクト、モジュール、関数レベルをまたいだツリー構造化された思考分布と開発メカニズムを確立することで、コード生成のためのコスト効率と効率的なソリューションを提供します。
提案手法をベンチマーク・データセットを用いて評価した結果,VisionCoderは画像処理による自動プログラムタスクにおいて,既存の手法よりも優れていたことが実証された。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy [31.041340552853004]
Graph Collaboration MARL (LGC-MARL)は、Large Language Models (LLM)とMulti-Agent Reinforcement Learning (MARL)を効率的に組み合わせたフレームワークである。
LGC-MARLは複雑なタスクを実行可能なサブタスクに分解し、グラフベースの調整によって複数のエージェント間の効率的な協調を実現する。
AI2-THORシミュレーションプラットフォームの実験結果から,LGC-MARLの性能とスケーラビリティが向上した。
論文 参考訳(メタデータ) (2025-03-13T05:02:49Z) - AgentPS: Agentic Process Supervision for Multi-modal Content Quality Assurance through Multi-round QA [9.450927573476822]
textitAgentPSは、エージェントプロセススーパービジョンをMLLMに統合する新しいフレームワークである。
textitAgentPSは、プロプライエタリなTikTokデータセット上でのベースラインMLLMよりも大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - A Layered Architecture for Developing and Enhancing Capabilities in Large Language Model-based Software Systems [18.615283725693494]
本稿では,Large Language Models (LLM) ソフトウェアシステムの開発を異なるレイヤにまとめる階層アーキテクチャを提案する。
これらのレイヤと機能を整合させることで、このフレームワークは、効果的かつ効率的な方法で機能の体系的な実装を奨励します。
論文 参考訳(メタデータ) (2024-11-19T09:18:20Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models [23.50705152648991]
マルチタスク学習(MTL)は,大規模言語モデル(LLM)の微調整に有効である
LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。
本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。
論文 参考訳(メタデータ) (2024-10-09T10:20:32Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。
Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文 参考訳(メタデータ) (2024-05-09T17:49:04Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Towards Single-System Illusion in Software-Defined Vehicles -- Automated, AI-Powered Workflow [3.2821049498759094]
本稿では,車載ソフトウェアシステムの開発における,新しいモデルと特徴に基づくアプローチを提案する。
提案されたアプローチの重要なポイントの1つは、近代的な生成AI、特にLarge Language Models(LLM)の導入である。
その結果、パイプラインは広範囲に自動化され、各ステップでフィードバックが生成される。
論文 参考訳(メタデータ) (2024-03-21T15:07:57Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM
Agents [0.0]
本稿では,マルチエージェントシステムのパワーを活用した大規模言語モデル(LLM)の能力向上のための新しいフレームワークを提案する。
本フレームワークでは,複数の知的エージェントコンポーネントがそれぞれ特有な属性と役割を持つ協調環境を導入し,複雑なタスクをより効率的に効率的に処理する。
論文 参考訳(メタデータ) (2023-06-05T23:55:37Z) - Self-collaboration Code Generation via ChatGPT [35.88318116340547]
大規模言語モデル(LLM)はコード生成能力に優れていますが、複雑なタスクに苦労しています。
本稿では,ChatGPT で実証した LLM を用いたコード生成のための自己協調フレームワークを提案する。
この仮想チームを効果的に組織化し、管理するために、ソフトウェア開発方法論をフレームワークに組み入れます。
論文 参考訳(メタデータ) (2023-04-15T16:33:32Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。