論文の概要: Autonomous Computer Vision Development with Agentic AI
- arxiv url: http://arxiv.org/abs/2506.11140v3
- Date: Thu, 19 Jun 2025 21:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.465134
- Title: Autonomous Computer Vision Development with Agentic AI
- Title(参考訳): エージェントAIによる自律型コンピュータビジョン開発
- Authors: Jin Kim, Muhammad Wahi-Anwa, Sangyun Park, Shawn Shin, John M. Hoffman, Matthew S. Brown,
- Abstract要約: 本稿では,エージェントAIを用いた自然言語プロンプトから,特殊なコンピュータビジョンシステムを自律的に構築できることを実証する。
これには、医療画像分析ツールを備えたオープンソースのCognitive AI環境であるSimpleMind(SM)の拡張が含まれていた。
コンピュータビジョンエージェントは、肺、心臓、リブの平均ダイススコア0.96、0.82、0.83の50個の胸部X線画像に対して、自動的に設定、訓練、テストを行う。
- 参考スコア(独自算出の注目度): 1.6711468262697804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Agentic Artificial Intelligence (AI) systems leveraging Large Language Models (LLMs) exhibit significant potential for complex reasoning, planning, and tool utilization. We demonstrate that a specialized computer vision system can be built autonomously from a natural language prompt using Agentic AI methods. This involved extending SimpleMind (SM), an open-source Cognitive AI environment with configurable tools for medical image analysis, with an LLM-based agent, implemented using OpenManus, to automate the planning (tool configuration) for a particular computer vision task. We provide a proof-of-concept demonstration that an agentic system can interpret a computer vision task prompt, plan a corresponding SimpleMind workflow by decomposing the task and configuring appropriate tools. From the user input prompt, "provide sm (SimpleMind) config for lungs, heart, and ribs segmentation for cxr (chest x-ray)"), the agent LLM was able to generate the plan (tool configuration file in YAML format), and execute SM-Learn (training) and SM-Think (inference) scripts autonomously. The computer vision agent automatically configured, trained, and tested itself on 50 chest x-ray images, achieving mean dice scores of 0.96, 0.82, 0.83, for lungs, heart, and ribs, respectively. This work shows the potential for autonomous planning and tool configuration that has traditionally been performed by a data scientist in the development of computer vision applications.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したエージェント人工知能(AI)システムは、複雑な推論、計画、ツール利用において大きな可能性を秘めている。
本稿では,エージェントAIを用いた自然言語プロンプトから,特殊なコンピュータビジョンシステムを自律的に構築できることを実証する。
これには、医療画像分析のための設定可能なツールを備えたオープンソースのCognitive AI環境であるSimpleMind(SM)を拡張し、OpenManusを使用して実装されたLLMベースのエージェントを使用して、特定のコンピュータビジョンタスクの計画(ツール設定)を自動化することが含まれていた。
本稿では,エージェントシステムがコンピュータビジョンタスクのプロンプトを解釈し,タスクを分解して適切なツールを設定することで,対応するSimpleMindワークフローを計画できることを示す。
ユーザの入力プロンプトから,「cxr (chest x-ray) 用の肺,心臓,リブスセグメンテーションのための sm (provide sm) 設定」と,エージェント LLM は計画(YAML 形式のツール構成ファイル)を生成し,SM-Learn (トレーニング) とSM-Think (推論) スクリプトを自律的に実行することができた。
コンピュータビジョンエージェントは50個の胸部X線画像に対して自動的に設定、訓練、テストを行い、それぞれ肺、心臓、リブの平均ダイススコア0.96、0.82、0.83を達成した。
この研究は、コンピュータビジョンアプリケーションの開発において、データ科学者が伝統的に行ってきた自律的な計画とツール構成の可能性を示している。
関連論文リスト
- DPO Learning with LLMs-Judge Signal for Computer Use Agents [9.454381108993832]
コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・インタフェース(GUI)と自動的に対話してタスクを完了させるシステムである。
ローカルマシン上で完全に動作する軽量な視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2025-06-03T17:27:04Z) - Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI [0.36868085124383626]
レビューでは、AI支援ソフトウェア開発の新たなパラダイムとして、バイブコーディングとエージェントコーディングの2つを包括的に分析している。
Vibeのコーディングは、インプットベースで対話的なインタラクションを通じて、直感的で、ループ内の人間間インタラクションを強調する。
エージェントコーディングは、最小限の介入でタスクを計画、実行、テスト、反復できる目標駆動エージェントを通じて、自律的なソフトウェア開発を可能にする。
論文 参考訳(メタデータ) (2025-05-26T03:00:21Z) - mAIstro: an open-source multi-agentic system for automated end-to-end development of radiomics and deep learning models for medical imaging [0.0]
mAIstroは、医療AIモデルのエンドツーエンド開発とデプロイのための、オープンソースの、自律的なマルチエージェントフレームワークである。
自然言語インタフェースを通じて探索データ分析、放射能特徴抽出、画像分割、分類、回帰を編成する。
論文 参考訳(メタデータ) (2025-04-30T16:25:51Z) - M^3Builder: A Multi-Agent System for Automated Machine Learning in Medical Imaging [54.40890979694209]
医療画像における機械学習(ML)の自動化を目的とした,新しいマルチエージェントシステムであるM3Builderを提案する。
M3Builderは、複雑なマルチステップ医療MLに取り組むために、4つの専門エージェントを雇用している。
既存のMLエージェント設計と比較して、M3Builderは医療画像におけるMLタスクの完了に優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-27T17:29:46Z) - From Language Models to Practical Self-Improving Computer Agents [0.8547032097715571]
我々は、多様なコンピュータタスクを実行し、自己改善できるAIコンピュータエージェントを作成するための方法論を開発する。
我々は、LLMエージェントに検索、インターネット検索、Webナビゲーション、テキストエディタ機能を増強するよう促す。
このエージェントは、これらの様々なツールを効果的に利用して、自動ソフトウェア開発やWebベースのタスクを含む問題を解決する。
論文 参考訳(メタデータ) (2024-04-18T07:50:10Z) - ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。
この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。
そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文 参考訳(メタデータ) (2024-02-09T02:33:45Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。