論文の概要: WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment
- arxiv url: http://arxiv.org/abs/2407.07778v1
- Date: Wed, 10 Jul 2024 15:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 16:02:46.511075
- Title: WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment
- Title(参考訳): WorldAPIs: 世界は、何つのAPIを持つべきか?
- Authors: Jiefu Ou, Arda Uzunoglu, Benjamin Van Durme, Daniel Khashabi,
- Abstract要約: 本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。
大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
- 参考スコア(独自算出の注目度): 49.00213183302225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems make decisions in physical environments through primitive actions or affordances that are accessed via API calls. While deploying AI agents in the real world involves numerous high-level actions, existing embodied simulators offer a limited set of domain-salient APIs. This naturally brings up the questions: how many primitive actions (APIs) are needed for a versatile embodied agent, and what should they look like? We explore this via a thought experiment: assuming that wikiHow tutorials cover a wide variety of human-written tasks, what is the space of APIs needed to cover these instructions? We propose a framework to iteratively induce new APIs by grounding wikiHow instruction to situated agent policies. Inspired by recent successes in large language models (LLMs) for embodied planning, we propose a few-shot prompting to steer GPT-4 to generate Pythonic programs as agent policies and bootstrap a universe of APIs by 1) reusing a seed set of APIs; and then 2) fabricate new API calls when necessary. The focus of this thought experiment is on defining these APIs rather than their executability. We apply the proposed pipeline on instructions from wikiHow tutorials. On a small fraction (0.5%) of tutorials, we induce an action space of 300+ APIs necessary for capturing the rich variety of tasks in the physical world. A detailed automatic and human analysis of the induction output reveals that the proposed pipeline enables effective reuse and creation of APIs. Moreover, a manual review revealed that existing simulators support only a small subset of the induced APIs (9 of the top 50 frequent APIs), motivating the development of action-rich embodied environments.
- Abstract(参考訳): AIシステムは、API呼び出しを介してアクセスされる原始的なアクションや余裕を通じて、物理的環境における決定を行う。
AIエージェントを現実世界にデプロイするには、多数のハイレベルなアクションが伴うが、既存のエボディードシミュレータは、限られたドメイン・サリアントなAPIを提供する。
万能なエンボディエージェントに必要なプリミティブアクション(API)の数と、それらがどのようなものになるべきか、という疑問が自然に浮かび上がっています。
wikiHowチュートリアルがさまざまなヒューマン記述タスクをカバーしていると仮定すると、これらの命令をカバーするのに必要なAPIの空間は何だろうか?
我々は,wikiHow 命令をエージェントの配置ポリシーに基礎付けることで,新たな API を反復的に誘導するフレームワークを提案する。
大規模言語モデル(LLM)の具体化計画における近年の成功に触発されて,エージェントポリシとしてPythonプログラムを生成するために GPT-4 を操り,APIの宇宙をブートストラップすることを提案する。
1)APIのシードセットを再利用し、次に
2) 必要に応じて新しいAPIコールを作成する。
この思考実験の焦点は、実行可能性ではなく、これらのAPIを定義することである。
提案したパイプラインをwikiHowチュートリアルの命令に適用する。
チュートリアルのごく一部(0.5%)では、物理世界の多種多様なタスクを捉えるのに必要な300以上のAPIのアクションスペースを誘導します。
帰納出力の詳細な自動的および人為的分析により、提案したパイプラインがAPIの効果的な再利用と作成を可能にしていることが明らかになった。
さらに、手作業によるレビューでは、既存のシミュレータがインジェクションされたAPIの小さなサブセット(トップ50の頻繁なAPIの9つ)しかサポートしていないことが判明し、アクションリッチな実施環境の開発を動機付けている。
関連論文リスト
- AppBench: Planning of Multiple APIs from Various APPs for Complex User Instruction [24.67142048995415]
大きな言語モデル(LLM)は、多用途外部APIと接続することで、現実世界と対話することができる。
textttAppBench は LLM が様々なソースから複数の API を計画・実行できる能力を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T04:03:13Z) - A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。
大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文 参考訳(メタデータ) (2024-09-20T03:12:35Z) - A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - SpeCrawler: Generating OpenAPI Specifications from API Documentation
Using Large Language Models [8.372941103284774]
SpeCrawlerは、さまざまなAPIドキュメントからOpenAPI仕様を生成する包括的なシステムである。
本稿では,実証的証拠とケーススタディに支えられたSpeCrawlerの方法論について考察する。
論文 参考訳(メタデータ) (2024-02-18T15:33:24Z) - Exploring Behaviours of RESTful APIs in an Industrial Setting [0.43012765978447565]
これらのAPIが示す振る舞いの例を生成するために,REST APIに共通する一連の動作特性を提案する。
これらの例は、APIの理解を深めるために(i)、自動テストケースのソースとして(ii)の両方に使用することができます。
提案手法は,システム理解と実践者によるテスト生成の源泉として考えられる例を生成することができる。
論文 参考訳(メタデータ) (2023-10-26T11:33:11Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Carving UI Tests to Generate API Tests and API Specification [8.743426215048451]
APIレベルのテストは、単体レベルのテストとUIレベルの(あるいはエンドツーエンドの)テストの間で重要な役割を果たす。
既存のAPIテストツールにはAPI仕様が必要である。
WebアプリケーションのAPIレベルのテストを可能にするために,UIテストを活用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T03:53:34Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。