論文の概要: Chameleon: Plug-and-Play Compositional Reasoning with Large Language
Models
- arxiv url: http://arxiv.org/abs/2304.09842v1
- Date: Wed, 19 Apr 2023 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:16:33.825677
- Title: Chameleon: Plug-and-Play Compositional Reasoning with Large Language
Models
- Title(参考訳): Chameleon: 大きな言語モデルによるプラグインとプレイの合成推論
- Authors: Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying
Nian Wu, Song-Chun Zhu, Jianfeng Gao
- Abstract要約: 大規模言語モデル(LLM)は、創発的な能力を持つ様々な自然言語処理タスクにおいて顕著な進歩を遂げている。
それらは、最新の情報にアクセスできない、外部ツールを利用する、正確な数学的推論を行う、といった固有の制限に直面している。
ChameleonはLLMを拡張してこれらの課題に対処する,プラグアンドプレイのコンポジション推論フレームワークである。
- 参考スコア(独自算出の注目度): 195.69762897304173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in various
natural language processing tasks with emergent abilities. However, they face
inherent limitations, such as an inability to access up-to-date information,
utilize external tools, or perform precise mathematical reasoning. In this
paper, we introduce Chameleon, a plug-and-play compositional reasoning
framework that augments LLMs to help address these challenges. Chameleon
synthesizes programs to compose various tools, including LLM models,
off-the-shelf vision models, web search engines, Python functions, and
rule-based modules tailored to user interests. Built on top of an LLM as a
natural language planner, Chameleon infers the appropriate sequence of tools to
compose and execute in order to generate a final response. We showcase the
adaptability and effectiveness of Chameleon on two tasks: ScienceQA and TabMWP.
Notably, Chameleon with GPT-4 achieves an 86.54% accuracy on ScienceQA,
significantly improving upon the best published few-shot model by 11.37%; using
GPT-4 as the underlying LLM, Chameleon achieves a 17.8% increase over the
state-of-the-art model, leading to a 98.78% overall accuracy on TabMWP. Further
studies suggest that using GPT-4 as a planner exhibits more consistent and
rational tool selection and is able to infer potential constraints given the
instructions, compared to other LLMs like ChatGPT.
- Abstract(参考訳): 大規模言語モデル(llm)は、創発的な能力を持つ様々な自然言語処理タスクにおいて著しく進歩した。
しかしそれらは、最新の情報にアクセスできない、外部ツールを使用する、正確な数学的推論を行うといった、固有の制限に直面している。
本稿では,これらの課題に対処するためにLLMを拡張した,プラグアンドプレイの合成推論フレームワークChameleonを紹介する。
chameleonは、llmモデル、市販のビジョンモデル、web検索エンジン、python関数、ルールベースのモジュールなど、さまざまなツールを構成するプログラムを合成する。
自然言語プランナーとしてllm上に構築されたchameleonは、最終的なレスポンスを生成するために、組み立てて実行する適切なツールシーケンスを推論する。
本稿では,ScienceQAとTabMWPの2つの課題に対するChameleonの適応性と有効性を示す。
特に、gpt-4によるchameleonは、scienceqaにおいて86.54%の精度を達成し、出版されている最善のマイノショットモデルを11.37%向上させ、基礎となるllmとしてgpt-4を使用することで、最先端モデルよりも17.8%の精度向上を達成し、tabmwpの全体的な精度は98.78%となった。
さらなる研究により、GPT-4をプランナーとして使用すると、より一貫性があり合理的なツール選択が示され、ChatGPTのような他のLLMと比較して、命令によって潜在的な制約を推測できることが示唆された。
関連論文リスト
- Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks [35.97890508648945]
我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。
モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。
20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:47:26Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - TART: A plug-and-play Transformer module for task-agnostic reasoning [38.84903599406189]
大規模言語モデル(LLM)は、同じモデルがタスク固有のトレーニングを使わずに複数のタスクを実行できる、コンテキスト内学習能力を示す。
微調整のような従来の適応アプローチは、特定のタスクごとに基礎となるモデルを変更する。
合成学習したTransformerベースの推論モジュールを用いて,LLMの推論能力を汎用的に向上するTARTを提案する。
論文 参考訳(メタデータ) (2023-06-13T04:37:00Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。