論文の概要: Compositional Generalization for Natural Language Interfaces to Web APIs
- arxiv url: http://arxiv.org/abs/2112.05209v1
- Date: Thu, 9 Dec 2021 20:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:55:56.577237
- Title: Compositional Generalization for Natural Language Interfaces to Web APIs
- Title(参考訳): Web APIへの自然言語インタフェースの合成一般化
- Authors: Saghar Hosseini, Ahmed Hassan Awadallah, Yu Su
- Abstract要約: 本稿では,Webアプリケーションプログラミングインタフェース(NL2API)に対する自然言語の新しいデータセットであるOkapiについて述べる。
このデータセットは英語で書かれており、3つのドメインをカバーする22,508の質問と9,019のユニークなAPI呼び出しを含んでいる。
NL2APIの新しい構成一般化タスクを定義し、トレーニングセット内の単純なAPI呼び出しから推論フェーズにおける新しいより複雑なAPI呼び出しまで、モデルが外挿する能力を探る。
- 参考スコア(独自算出の注目度): 26.851998759793453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Okapi, a new dataset for Natural Language to executable
web Application Programming Interfaces (NL2API). This dataset is in English and
contains 22,508 questions and 9,019 unique API calls, covering three domains.
We define new compositional generalization tasks for NL2API which explore the
models' ability to extrapolate from simple API calls in the training set to new
and more complex API calls in the inference phase. Also, the models are
required to generate API calls that execute correctly as opposed to the
existing approaches which evaluate queries with placeholder values. Our dataset
is different than most of the existing compositional semantic parsing datasets
because it is a non-synthetic dataset studying the compositional generalization
in a low-resource setting. Okapi is a step towards creating realistic datasets
and benchmarks for studying compositional generalization alongside the existing
datasets and tasks. We report the generalization capabilities of
sequence-to-sequence baseline models trained on a variety of the SCAN and Okapi
datasets tasks. The best model achieves 15\% exact match accuracy when
generalizing from simple API calls to more complex API calls. This highlights
some challenges for future research. Okapi dataset and tasks are publicly
available at https://aka.ms/nl2api/data.
- Abstract(参考訳): 本稿では,Webアプリケーションプログラミングインタフェース(NL2API)に対する自然言語の新しいデータセットであるOkapiについて述べる。
このデータセットは英語で書かれており、3つのドメインをカバーする22,508の質問と9,019のユニークなAPI呼び出しを含んでいる。
NL2APIの新しい構成一般化タスクを定義し、トレーニングセット内の単純なAPI呼び出しから推論フェーズにおける新しいより複雑なAPI呼び出しまで、モデルが外挿する能力を探る。
また、プレースホルダー値によるクエリを評価する既存のアプローチとは対照的に、正しく実行されるAPIコールを生成する必要がある。
我々のデータセットは、低リソース環境で構成一般化を研究する非合成データセットであるため、既存の構成意味解析データセットのほとんどとは異なる。
Okapiは、既存のデータセットとタスクと一緒に構成一般化を研究するための、現実的なデータセットとベンチマークを作成するためのステップである。
各種SCANおよびOkapiデータセットタスクに基づいて訓練されたシーケンス・ツー・シーケンスベースラインモデルの一般化機能について報告する。
最高のモデルは、単純なAPI呼び出しからより複雑なAPI呼び出しまでを一般化する際に、正確なマッチング精度を15倍にします。
これは将来の研究の課題を浮き彫りにする。
Okapiデータセットとタスクはhttps://aka.ms/nl2api/dataで公開されている。
関連論文リスト
- APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。
APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。
機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文 参考訳(メタデータ) (2024-06-26T17:49:11Z) - LLM+Reasoning+Planning for supporting incomplete user queries in presence of APIs [0.09374652839580183]
実際には、自然言語のタスク要求(ユーザクエリ)は不完全であることが多い。
論理的推論と古典的AI計画とLLMを併用して,ユーザのクエリを正確に応答する。
提案手法は,完全かつ不完全な単一目標とマルチゴールクエリを含むデータセットにおいて,95%以上の成功率を達成する。
論文 参考訳(メタデータ) (2024-05-21T01:16:34Z) - API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs [28.840207102132286]
既存のデータセットを特定し、キュレーションし、変換するタスクに重点を置いています。
ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを紹介する。
トレーニングとベンチマークの両方の目的で,API-BLENDデータセットの有用性を実証する。
論文 参考訳(メタデータ) (2024-02-23T18:30:49Z) - API Pack: A Massive Multi-Programming Language Dataset for API Call Generation [30.466726273695144]
API Packは、100万以上の命令APIコールペアを含む、大規模なマルチプログラミング言語データセットである。
API Packから2万のPythonインスタンス上でCodeLlama-13Bを微調整することで、未確認のAPI呼び出しを生成する際に、GPT-3.5とGPT-4を上回ります。
論文 参考訳(メタデータ) (2024-02-14T23:09:15Z) - APICom: Automatic API Completion via Prompt Learning and Adversarial
Training-based Data Augmentation [6.029137544885093]
APIレコメンデーションは、開発者が多数の候補APIの中で必要なAPIを見つけるのを支援するプロセスである。
これまでの研究では、主にAPIレコメンデーションをレコメンデーションタスクとしてモデル化していた。
ニューラルネットワーク翻訳研究領域に動機づけられたこの問題を生成タスクとしてモデル化することができる。
提案手法は,プロンプト学習に基づく新しいアプローチAPIComを提案し,そのプロンプトに応じてクエリに関連するAPIを生成する。
論文 参考訳(メタデータ) (2023-09-13T15:31:50Z) - Learning to Learn from APIs: Black-Box Data-Free Meta-Learning [95.41441357931397]
データフリーなメタラーニング(DFML)は、トレーニングデータにアクセスせずに事前訓練されたモデルの集合からメタラーニングすることで、新しいタスクの効率的な学習を可能にすることを目的としている。
既存のDFMLの作業は、(i)ホワイトボックスと(ii)小規模事前訓練モデルからしかメタ学習できない。
ブラックボックスAPIの集合から単一のモデルへ,より一般的なメタ知識を伝達するための,バイレベルデータフリーなメタ知識蒸留(BiDf-MKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:00:12Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。