論文の概要: HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face
- arxiv url: http://arxiv.org/abs/2303.17580v3
- Date: Thu, 25 May 2023 15:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 20:39:34.609786
- Title: HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face
- Title(参考訳): HuggingGPT: ChatGPTとその友人たちによるAIタスクの解決
- Authors: Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting
Zhuang
- Abstract要約: 大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を持つ。
我々は、LLMを活用して機械学習コミュニティのさまざまなAIモデルを接続し、AIタスクを解決するフレームワークであるHuggingGPTを紹介する。
ChatGPTの強力な言語能力とHugging Faceの豊富なAIモデルを活用することで、HuggingGPTはさまざまなモダリティとドメインで多数の高度なAIタスクをカバーすることができる。
- 参考スコア(独自算出の注目度): 70.69102755044663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving complicated AI tasks with different domains and modalities is a key
step toward artificial general intelligence. While there are abundant AI models
available for different domains and modalities, they cannot handle complicated
AI tasks. Considering large language models (LLMs) have exhibited exceptional
ability in language understanding, generation, interaction, and reasoning, we
advocate that LLMs could act as a controller to manage existing AI models to
solve complicated AI tasks and language could be a generic interface to empower
this. Based on this philosophy, we present HuggingGPT, a framework that
leverages LLMs (e.g., ChatGPT) to connect various AI models in machine learning
communities (e.g., Hugging Face) to solve AI tasks. Specifically, we use
ChatGPT to conduct task planning when receiving a user request, select models
according to their function descriptions available in Hugging Face, execute
each subtask with the selected AI model, and summarize the response according
to the execution results. By leveraging the strong language capability of
ChatGPT and abundant AI models in Hugging Face, HuggingGPT is able to cover
numerous sophisticated AI tasks in different modalities and domains and achieve
impressive results in language, vision, speech, and other challenging tasks,
which paves a new way towards artificial general intelligence.
- Abstract(参考訳): 異なるドメインとモダリティで複雑なAIタスクを解決することは、人工知能にとって重要なステップだ。
さまざまなドメインやモダリティに対して利用可能な豊富なAIモデルがあるが、複雑なAIタスクは処理できない。
大規模言語モデル(llm)は言語理解、生成、相互作用、推論において例外的な能力を有しており、llmは既存のaiモデルを管理して複雑なaiタスクを解決するためのコントローラとして機能し、言語はこれを力づける汎用的なインターフェースとなることを提唱する。
この哲学に基づいたHuggingGPTは、LLM(例えばChatGPT)を利用して機械学習コミュニティ(例えばHugging Face)のさまざまなAIモデルを接続し、AIタスクを解決するフレームワークである。
具体的には、ChatGPTを使用して、ユーザリクエストの受信時にタスク計画を実行し、Hugging Faceで利用可能な機能記述に従ってモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じて応答を要約する。
Hugging FaceにおけるChatGPTの強力な言語能力と豊富なAIモデルを活用することで、HuggingGPTはさまざまなモダリティやドメインにおける多数の高度なAIタスクをカバーし、言語、ビジョン、スピーチ、その他の困難なタスクにおける印象的な結果を達成することができる。
関連論文リスト
- Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction [1.6574413179773757]
大規模言語モデル(LLM)は、自然言語コマンドを解釈するために、その膨大な理解を活用できなければならない。
しかし、これらのモデルは幻覚に悩まされ、安全上の問題やタスクからの逸脱を引き起こす可能性がある。
本研究では、一つの独立したAIエージェントに対して複数のコラボレーティブAIシステムがテストされ、他のドメインの成功が人間とロボットのインタラクション性能の改善につながるかどうかを判定した。
論文 参考訳(メタデータ) (2024-11-23T02:47:12Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。
汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。
VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - SAI: Solving AI Tasks with Systematic Artificial Intelligence in
Communication Network [4.302209772725456]
Systematic Artificial Intelligence(SAI)は、Large Language Models(LLM)とインテントフォーマットベースのインプットを活用することで、AIタスクを解決するために設計されたフレームワークである。
SAIは、通信ネットワークで多数の複雑なAIタスクを完了し、ネットワーク最適化、リソース割り当て、その他の困難なタスクにおいて驚くべき結果を達成することができる。
論文 参考訳(メタデータ) (2023-10-13T12:14:58Z) - Large Language Models Empowered Autonomous Edge AI for Connected
Intelligence [51.269276328087855]
エッジ人工知能(Edge AI)は、コネクテッドインテリジェンスを実現するための有望なソリューションである。
この記事では、ユーザのさまざまな要件を満たすために自動的に組織化し、適応し、最適化する、自律的なエッジAIシステムのビジョンを示す。
論文 参考訳(メタデータ) (2023-07-06T05:16:55Z) - Prompt Sapper: A LLM-Empowered Production Tool for Building AI Chains [31.080896878139402]
我々は、AIチェーンの概念を提案し、ソフトウェア工学で何十年にもわたって蓄積されてきたベストプラクティスとプラクティスをAIチェーンエンジニアリングに導入する。
また、AIチェーンの構築プロセスにおいて、これらのAIチェーンのエンジニアリング原則とパターンを自然に具現化する、コード統合開発環境であるPrompt Sapperも開発しています。
論文 参考訳(メタデータ) (2023-06-21T05:31:00Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with
Millions of APIs [71.7495056818522]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。
このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文 参考訳(メタデータ) (2023-03-29T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。