Fugu-MT 論文翻訳(概要): Large Action Models: From Inception to Implementation

論文の概要: Large Action Models: From Inception to Implementation

arxiv url: http://arxiv.org/abs/2412.10047v1
Date: Fri, 13 Dec 2024 11:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.937569
Title: Large Action Models: From Inception to Implementation
Title（参考訳）: 大規模アクションモデル: 開始から実装まで
Authors: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang,
Abstract要約: 大規模アクションモデル(LAM)は動的環境内でのアクション生成と実行のために設計されている。 LAMは、AIを受動的言語理解からアクティブなタスク完了に変換する可能性を秘めている。創発から展開まで,LAMを体系的に開発するための総合的なフレームワークを提案する。
参考スコア（独自算出の注目度）: 51.81485642442344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As AI continues to advance, there is a growing demand for systems that go beyond language-based assistance and move toward intelligent agents capable of performing real-world actions. This evolution requires the transition from traditional Large Language Models (LLMs), which excel at generating textual responses, to Large Action Models (LAMs), designed for action generation and execution within dynamic environments. Enabled by agent systems, LAMs hold the potential to transform AI from passive language understanding to active task completion, marking a significant milestone in the progression toward artificial general intelligence. In this paper, we present a comprehensive framework for developing LAMs, offering a systematic approach to their creation, from inception to deployment. We begin with an overview of LAMs, highlighting their unique characteristics and delineating their differences from LLMs. Using a Windows OS-based agent as a case study, we provide a detailed, step-by-step guide on the key stages of LAM development, including data collection, model training, environment integration, grounding, and evaluation. This generalizable workflow can serve as a blueprint for creating functional LAMs in various application domains. We conclude by identifying the current limitations of LAMs and discussing directions for future research and industrial deployment, emphasizing the challenges and opportunities that lie ahead in realizing the full potential of LAMs in real-world applications. The code for the data collection process utilized in this paper is publicly available at: https://github.com/microsoft/UFO/tree/main/dataflow, and comprehensive documentation can be found at https://microsoft.github.io/UFO/dataflow/overview/.
Abstract（参考訳）: AIが進歩を続けるにつれ、言語ベースの支援を超えて、現実世界のアクションを実行可能なインテリジェントエージェントに移行するシステムへの需要が高まっている。この進化は、テキスト応答を生成するのに優れた従来のLarge Language Models (LLM) から、動的環境内でのアクション生成と実行のために設計されたLarge Action Models (LAM) への移行を必要とする。エージェントシステムによって実現され、LAMは、AIを受動的言語理解からアクティブなタスク完了に変換する可能性を秘めている。本稿では, LAM 開発のための総合的なフレームワークを提案する。まず LAM の概要を概説し,その特徴を強調し,LLM との相違点を概説する。 Windows OS ベースのエージェントをケーススタディとして,データ収集,モデルトレーニング,環境統合,接地,評価などの LAM 開発の主要な段階について,詳細なステップバイステップガイドを提供する。この一般化可能なワークフローは、様々なアプリケーションドメインで機能的なLAMを作成するための青写真として機能する。我々は、LAMの現在の限界を特定し、将来の研究開発と産業展開の方向性について議論し、現実のアプリケーションにおけるLAMの潜在能力を最大限に実現するための課題と機会を強調します。データ収集プロセスのコードは、https://github.com/microsoft/UFO/tree/main/dataflowで公開されており、包括的なドキュメントはhttps://microsoft.github.io/UFO/dataflow/overview/で見ることができる。

関連論文リスト

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
API Agents vs. GUI Agents: Divergence and Convergence [35.28490346033735]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。本稿では,それらの分散と潜在的収束を系統的に解析する。 LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文参考訳（メタデータ） (2025-03-14T04:26:21Z)
Multi-Agent Systems Powered by Large Language Models: Applications in Swarm Intelligence [0.8602553195689513]
本研究では,大規模言語モデル(LLM)のマルチエージェントシミュレーションへの統合を,エージェントのハードコードプログラムをLLM駆動のプロンプトに置き換えることにより検討する。提案手法は群集知能の分野での複雑なシステムの2つの例(アリコロニー採餌と鳥の群れ)の文脈で実証されている。
論文参考訳（メタデータ） (2025-03-05T17:13:27Z)
Creating an LLM-based AI-agent: A high-level methodology towards enhancing LLMs with APIs [0.0]
大規模言語モデル(LLM)は、工学と科学の様々な側面に革命をもたらした。この論文は総合的なガイドとして機能し、アプリケーションプログラミングインタフェース(API)を活用する能力を備えたLLMの強化のための多面的アプローチを解明する。本稿では,Hugging Faceコミュニティの小さなモデルを用いて,携帯端末の機能を活用したオンデバイスアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-12-17T14:14:04Z)
GUI Agents with Foundation Models: A Comprehensive Survey [91.97447457550703]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。重要な課題を特定し,今後の研究方向性を提案する。この調査が(M)LLMベースのGUIエージェントの分野におけるさらなる進歩を促すことを願っている。
論文参考訳（メタデータ） (2024-11-07T17:28:10Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文参考訳（メタデータ） (2024-08-12T17:44:17Z)
LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。 LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文参考訳（メタデータ） (2024-04-28T16:50:12Z)
Leveraging Large Language Models to Build and Execute Computational Workflows [40.572754656757475]
本稿では,これらの新たな能力が,複雑な科学的研究を促進するためにどのように活用できるかを考察する。我々はPhyloflowをOpenAIの関数呼び出しAPIに統合する試みからの最初の成果を提示し、包括的なワークフロー管理システムを開発するための戦略を概説する。
論文参考訳（メタデータ） (2023-12-12T20:17:13Z)
Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。 Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文参考訳（メタデータ） (2023-10-12T17:59:58Z)
Model Share AI: An Integrated Toolkit for Collaborative Machine Learning Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。 AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。 AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文参考訳（メタデータ） (2023-09-27T15:24:39Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。