論文の概要: Large Action Models: From Inception to Implementation
- arxiv url: http://arxiv.org/abs/2412.10047v1
- Date: Fri, 13 Dec 2024 11:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:09.850765
- Title: Large Action Models: From Inception to Implementation
- Title(参考訳): 大規模アクションモデル: 開始から実装まで
- Authors: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang,
- Abstract要約: 大規模アクションモデル(LAM)は動的環境内でのアクション生成と実行のために設計されている。
LAMは、AIを受動的言語理解からアクティブなタスク完了に変換する可能性を秘めている。
創発から展開まで,LAMを体系的に開発するための総合的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.81485642442344
- License:
- Abstract: As AI continues to advance, there is a growing demand for systems that go beyond language-based assistance and move toward intelligent agents capable of performing real-world actions. This evolution requires the transition from traditional Large Language Models (LLMs), which excel at generating textual responses, to Large Action Models (LAMs), designed for action generation and execution within dynamic environments. Enabled by agent systems, LAMs hold the potential to transform AI from passive language understanding to active task completion, marking a significant milestone in the progression toward artificial general intelligence. In this paper, we present a comprehensive framework for developing LAMs, offering a systematic approach to their creation, from inception to deployment. We begin with an overview of LAMs, highlighting their unique characteristics and delineating their differences from LLMs. Using a Windows OS-based agent as a case study, we provide a detailed, step-by-step guide on the key stages of LAM development, including data collection, model training, environment integration, grounding, and evaluation. This generalizable workflow can serve as a blueprint for creating functional LAMs in various application domains. We conclude by identifying the current limitations of LAMs and discussing directions for future research and industrial deployment, emphasizing the challenges and opportunities that lie ahead in realizing the full potential of LAMs in real-world applications. The code for the data collection process utilized in this paper is publicly available at: https://github.com/microsoft/UFO/tree/main/dataflow, and comprehensive documentation can be found at https://microsoft.github.io/UFO/dataflow/overview/.
- Abstract(参考訳): AIが進歩を続けるにつれ、言語ベースの支援を超えて、現実世界のアクションを実行可能なインテリジェントエージェントに移行するシステムへの需要が高まっている。
この進化は、テキスト応答を生成するのに優れた従来のLarge Language Models (LLM) から、動的環境内でのアクション生成と実行のために設計されたLarge Action Models (LAM) への移行を必要とする。
エージェントシステムによって実現され、LAMは、AIを受動的言語理解からアクティブなタスク完了に変換する可能性を秘めている。
本稿では, LAM 開発のための総合的なフレームワークを提案する。
まず LAM の概要を概説し,その特徴を強調し,LLM との相違点を概説する。
Windows OS ベースのエージェントをケーススタディとして,データ収集,モデルトレーニング,環境統合,接地,評価などの LAM 開発の主要な段階について,詳細なステップバイステップガイドを提供する。
この一般化可能なワークフローは、様々なアプリケーションドメインで機能的なLAMを作成するための青写真として機能する。
我々は、LAMの現在の限界を特定し、将来の研究開発と産業展開の方向性について議論し、現実のアプリケーションにおけるLAMの潜在能力を最大限に実現するための課題と機会を強調します。
データ収集プロセスのコードは、https://github.com/microsoft/UFO/tree/main/dataflowで公開されており、包括的なドキュメントはhttps://microsoft.github.io/UFO/dataflow/overview/で見ることができる。
関連論文リスト
- GUI Agents with Foundation Models: A Comprehensive Survey [52.991688542729385]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。
本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - Leveraging Large Language Models to Build and Execute Computational
Workflows [40.572754656757475]
本稿では,これらの新たな能力が,複雑な科学的研究を促進するためにどのように活用できるかを考察する。
我々はPhyloflowをOpenAIの関数呼び出しAPIに統合する試みからの最初の成果を提示し、包括的なワークフロー管理システムを開発するための戦略を概説する。
論文 参考訳(メタデータ) (2023-12-12T20:17:13Z) - Model Share AI: An Integrated Toolkit for Collaborative Machine Learning
Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。
AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。
AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文 参考訳(メタデータ) (2023-09-27T15:24:39Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。