論文の概要: HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face
- arxiv url: http://arxiv.org/abs/2303.17580v4
- Date: Sun, 3 Dec 2023 18:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:13:54.244282
- Title: HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face
- Title(参考訳): HuggingGPT: ChatGPTとその友人たちによるAIタスクの解決
- Authors: Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting
Zhuang
- Abstract要約: 大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を示した。
LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。
本稿では,機械学習コミュニティのさまざまなAIモデルを接続するLLMエージェントであるHuggingGPTを紹介する。
- 参考スコア(独自算出の注目度): 85.25054021362232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving complicated AI tasks with different domains and modalities is a key
step toward artificial general intelligence. While there are numerous AI models
available for various domains and modalities, they cannot handle complicated AI
tasks autonomously. Considering large language models (LLMs) have exhibited
exceptional abilities in language understanding, generation, interaction, and
reasoning, we advocate that LLMs could act as a controller to manage existing
AI models to solve complicated AI tasks, with language serving as a generic
interface to empower this. Based on this philosophy, we present HuggingGPT, an
LLM-powered agent that leverages LLMs (e.g., ChatGPT) to connect various AI
models in machine learning communities (e.g., Hugging Face) to solve AI tasks.
Specifically, we use ChatGPT to conduct task planning when receiving a user
request, select models according to their function descriptions available in
Hugging Face, execute each subtask with the selected AI model, and summarize
the response according to the execution results. By leveraging the strong
language capability of ChatGPT and abundant AI models in Hugging Face,
HuggingGPT can tackle a wide range of sophisticated AI tasks spanning different
modalities and domains and achieve impressive results in language, vision,
speech, and other challenging tasks, which paves a new way towards the
realization of artificial general intelligence.
- Abstract(参考訳): 異なるドメインとモダリティで複雑なAIタスクを解決することは、人工知能にとって重要なステップだ。
さまざまなドメインやモダリティに対して利用可能なAIモデルが数多く存在するが、複雑なAIタスクを自律的に処理することはできない。
大きな言語モデル(LLM)は言語理解、生成、相互作用、推論において例外的な能力を示しており、私たちはLLMが複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能し、言語がこれを強化する汎用インターフェースとして機能することを提唱している。
この哲学に基づき、LLMを利用したエージェントであるHuggingGPTを紹介し、LLM(例えばChatGPT)を利用して機械学習コミュニティ(例えばHugging Face)のさまざまなAIモデルを接続してAIタスクを解決する。
具体的には、ChatGPTを使用して、ユーザリクエストの受信時にタスク計画を実行し、Hugging Faceで利用可能な機能記述に従ってモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じて応答を要約する。
Hugging FaceにおけるChatGPTの強力な言語能力と豊富なAIモデルを活用することで、HuggingGPTはさまざまなモダリティやドメインにまたがる幅広い高度なAIタスクに対処し、言語、ビジョン、スピーチ、その他の困難なタスクにおける印象的な結果を達成することができる。
関連論文リスト
- Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction [1.6574413179773757]
大規模言語モデル(LLM)は、自然言語コマンドを解釈するために、その膨大な理解を活用できなければならない。
しかし、これらのモデルは幻覚に悩まされ、安全上の問題やタスクからの逸脱を引き起こす可能性がある。
本研究では、一つの独立したAIエージェントに対して複数のコラボレーティブAIシステムがテストされ、他のドメインの成功が人間とロボットのインタラクション性能の改善につながるかどうかを判定した。
論文 参考訳(メタデータ) (2024-11-23T02:47:12Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。
汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。
VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - SAI: Solving AI Tasks with Systematic Artificial Intelligence in
Communication Network [4.302209772725456]
Systematic Artificial Intelligence(SAI)は、Large Language Models(LLM)とインテントフォーマットベースのインプットを活用することで、AIタスクを解決するために設計されたフレームワークである。
SAIは、通信ネットワークで多数の複雑なAIタスクを完了し、ネットワーク最適化、リソース割り当て、その他の困難なタスクにおいて驚くべき結果を達成することができる。
論文 参考訳(メタデータ) (2023-10-13T12:14:58Z) - Large Language Models Empowered Autonomous Edge AI for Connected
Intelligence [51.269276328087855]
エッジ人工知能(Edge AI)は、コネクテッドインテリジェンスを実現するための有望なソリューションである。
この記事では、ユーザのさまざまな要件を満たすために自動的に組織化し、適応し、最適化する、自律的なエッジAIシステムのビジョンを示す。
論文 参考訳(メタデータ) (2023-07-06T05:16:55Z) - Prompt Sapper: A LLM-Empowered Production Tool for Building AI Chains [31.080896878139402]
我々は、AIチェーンの概念を提案し、ソフトウェア工学で何十年にもわたって蓄積されてきたベストプラクティスとプラクティスをAIチェーンエンジニアリングに導入する。
また、AIチェーンの構築プロセスにおいて、これらのAIチェーンのエンジニアリング原則とパターンを自然に具現化する、コード統合開発環境であるPrompt Sapperも開発しています。
論文 参考訳(メタデータ) (2023-06-21T05:31:00Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with
Millions of APIs [71.7495056818522]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。
このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文 参考訳(メタデータ) (2023-03-29T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。