論文の概要: ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models
- arxiv url: http://arxiv.org/abs/2305.18323v1
- Date: Tue, 23 May 2023 00:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:31:13.180629
- Title: ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models
- Title(参考訳): ReWOO: 効率的な拡張言語モデルの観測から推論を分離する
- Authors: Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu,
Dongkuan Xu
- Abstract要約: 本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
- 参考スコア(独自算出の注目度): 32.95155349925248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmented Language Models (ALMs) blend the reasoning capabilities of Large
Language Models (LLMs) with tools that allow for knowledge retrieval and action
execution. Existing ALM systems trigger LLM thought processes while pulling
observations from these tools in an interleaved fashion. Specifically, an LLM
reasons to call an external tool, gets halted to fetch the tool's response, and
then decides the next action based on all preceding response tokens. Such a
paradigm, though straightforward and easy to implement, often leads to huge
computation complexity from redundant prompts and repeated execution. This
study addresses such challenges for the first time, proposing a modular
paradigm ReWOO (Reasoning WithOut Observation) that detaches the reasoning
process from external observations, thus significantly reducing token
consumption. Comprehensive evaluations across six public NLP benchmarks and a
curated dataset reveal consistent performance enhancements with our proposed
methodology. Notably, ReWOO achieves 5x token efficiency and 4% accuracy
improvement on HotpotQA, a multi-step reasoning benchmark. Furthermore, ReWOO
demonstrates robustness under tool-failure scenarios. Beyond prompt efficiency,
decoupling parametric modules from non-parametric tool calls enables
instruction fine-tuning to offload LLMs into smaller language models, thus
substantially reducing model parameters. Our illustrative work offloads
reasoning ability from 175B GPT3.5 into 7B LLaMA, demonstrating the significant
potential for truly efficient and scalable ALM systems.
- Abstract(参考訳): Augmented Language Models (ALMs) は、Large Language Models (LLMs) の推論能力と、知識検索と行動実行を可能にするツールをブレンドする。
既存のALMシステムは、これらのツールからの観察をインターリーブ方式で引き出しながら、LSM思考プロセスをトリガーする。
具体的には、LMが外部ツールを呼び出す理由として、ツールのレスポンスを取得するために停止され、前のすべてのレスポンストークンに基づいて次のアクションが決定される。
このようなパラダイムは単純で実装が容易であるが、しばしば冗長なプロンプトと繰り返し実行による計算の複雑さにつながる。
本研究では,このような課題を初めて解決し,推論プロセスを外部の観測から切り離し,トークン消費を著しく削減するモジュラーパラダイム(観察なしの推論)を提案する。
6つのパブリックNLPベンチマークとキュレートデータセットの総合評価により,提案手法による一貫した性能向上が示された。
特に、ReWOOはマルチステップ推論ベンチマークであるHotpotQAで5倍のトークン効率と4%の精度向上を実現している。
さらに、ReWOOはツール障害のシナリオ下で堅牢性を示す。
非パラメトリックツール呼び出しからパラメトリックモジュールを分離することで、llmを小さな言語モデルにオフロードする命令の微調整が可能になり、モデルパラメータが大幅に削減される。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
関連論文リスト
- Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Evaluating the Robustness to Instructions of Large Language Models [6.947956990248856]
微調整大型言語モデル(LLM)は、新しいタスクにおけるゼロショット能力を向上することができる。
Alpaca, Vicuna, WizardLM, 従来のタスク指向モデル(Flan-T5-XL/XXL, T0++)を含む6つのモデルを評価する。
異なるスケールのFLAN-T5モデルのRE命令に対するロバスト性は、QA命令に対するロバスト性よりも劣っていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:57:07Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。
彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。
ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文 参考訳(メタデータ) (2023-05-23T12:29:44Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。