論文の概要: Chameleon: Plug-and-Play Compositional Reasoning with Large Language
Models
- arxiv url: http://arxiv.org/abs/2304.09842v3
- Date: Tue, 31 Oct 2023 17:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:07:14.612794
- Title: Chameleon: Plug-and-Play Compositional Reasoning with Large Language
Models
- Title(参考訳): Chameleon: 大きな言語モデルによるプラグインとプレイの合成推論
- Authors: Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying
Nian Wu, Song-Chun Zhu, Jianfeng Gao
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクの解決において顕著な進歩を遂げている。
しかし、最新の情報にアクセスできないため、固有の制限がある。
本稿では,LLMを合成推論のためのプラグアンドプレイモジュールで拡張するAIシステムChameleonを紹介する。
- 参考スコア(独自算出の注目度): 187.58051653991686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in solving
various natural language processing tasks due to emergent reasoning abilities.
However, LLMs have inherent limitations as they are incapable of accessing
up-to-date information (stored on the Web or in task-specific knowledge bases),
using external tools, and performing precise mathematical and logical
reasoning. In this paper, we present Chameleon, an AI system that mitigates
these limitations by augmenting LLMs with plug-and-play modules for
compositional reasoning. Chameleon synthesizes programs by composing various
tools (e.g., LLMs, off-the-shelf vision models, web search engines, Python
functions, and heuristic-based modules) for accomplishing complex reasoning
tasks. At the heart of Chameleon is an LLM-based planner that assembles a
sequence of tools to execute to generate the final response. We showcase the
effectiveness of Chameleon on two multi-modal knowledge-intensive reasoning
tasks: ScienceQA and TabMWP. Chameleon, powered by GPT-4, achieves an 86.54%
overall accuracy on ScienceQA, improving the best published few-shot result by
11.37%. On TabMWP, GPT-4-powered Chameleon improves the accuracy by 17.0%,
lifting the state of the art to 98.78%. Our analysis also shows that the
GPT-4-powered planner exhibits more consistent and rational tool selection via
inferring potential constraints from instructions, compared to a
ChatGPT-powered planner. The project is available at
https://chameleon-llm.github.io.
- Abstract(参考訳): 大規模言語モデル(llm)は、創発的推論能力により、様々な自然言語処理タスクの解決において著しく進歩した。
しかし、LCMには、最新の情報(Webやタスク固有の知識ベースに格納されている)にアクセスでき、外部ツールを使用して、正確な数学的および論理的推論を行うことができないため、固有の制限がある。
本稿では,合成推論のためのプラグイン・アンド・プレイモジュールによるllmの拡張により,これらの制限を緩和するaiシステムchameleonを提案する。
chameleonは複雑な推論タスクを実現するために、様々なツール(llms、既製のビジョンモデル、web検索エンジン、python関数、ヒューリスティックベースのモジュールなど)を合成する。
chameleonの中心にあるのは、llmベースのプランナで、実行ツールのシーケンスを組み立てて最終応答を生成する。
本稿では,マルチモーダルな知識集約推論タスクであるScienceQAとTabMWPにおけるChameleonの有効性を示す。
GPT-4を動力とするシャメレオンは、ScienceQAで86.54%の精度を達成し、最も優れた数枚の撮影結果が11.37%向上した。
TabMWPでは、GPT-4搭載のChameleonが精度を17.0%向上し、98.78%に向上した。
また,gpt-4を搭載したプランナーは,chatgptを使用したプランナーと比較して,命令から潜在的な制約を推測することで,より一貫性と合理的なツール選択を示す。
プロジェクトはhttps://chameleon-llm.github.ioで入手できる。
関連論文リスト
- Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks [35.97890508648945]
我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。
モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。
20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:47:26Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - TART: A plug-and-play Transformer module for task-agnostic reasoning [38.84903599406189]
大規模言語モデル(LLM)は、同じモデルがタスク固有のトレーニングを使わずに複数のタスクを実行できる、コンテキスト内学習能力を示す。
微調整のような従来の適応アプローチは、特定のタスクごとに基礎となるモデルを変更する。
合成学習したTransformerベースの推論モジュールを用いて,LLMの推論能力を汎用的に向上するTARTを提案する。
論文 参考訳(メタデータ) (2023-06-13T04:37:00Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。