論文の概要: ReAct: Synergizing Reasoning and Acting in Language Models
- arxiv url: http://arxiv.org/abs/2210.03629v1
- Date: Thu, 6 Oct 2022 01:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 12:31:37.793523
- Title: ReAct: Synergizing Reasoning and Acting in Language Models
- Title(参考訳): ReAct: 言語モデルにおける推論と実行の同期化
- Authors: Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik
Narasimhan, Yuan Cao
- Abstract要約: 大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
- 参考スコア(独自算出の注目度): 44.746116256516046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have demonstrated impressive capabilities
across tasks in language understanding and interactive decision making, their
abilities for reasoning (e.g. chain-of-thought prompting) and acting (e.g.
action plan generation) have primarily been studied as separate topics. In this
paper, we explore the use of LLMs to generate both reasoning traces and
task-specific actions in an interleaved manner, allowing for greater synergy
between the two: reasoning traces help the model induce, track, and update
action plans as well as handle exceptions, while actions allow it to interface
with external sources, such as knowledge bases or environments, to gather
additional information. We apply our approach, named ReAct, to a diverse set of
language and decision making tasks and demonstrate its effectiveness over
state-of-the-art baselines, as well as improved human interpretability and
trustworthiness over methods without reasoning or acting components.
Concretely, on question answering (HotpotQA) and fact verification (Fever),
ReAct overcomes issues of hallucination and error propagation prevalent in
chain-of-thought reasoning by interacting with a simple Wikipedia API, and
generates human-like task-solving trajectories that are more interpretable than
baselines without reasoning traces. On two interactive decision making
benchmarks (ALFWorld and WebShop), ReAct outperforms imitation and
reinforcement learning methods by an absolute success rate of 34% and 10%
respectively, while being prompted with only one or two in-context examples.
- Abstract(参考訳): 大規模言語モデル(llm)は、言語理解と対話的意思決定において、タスク間で印象的な能力を示す一方で、推論(例えば、連鎖的プロンプト)と行動(例えば行動計画生成)の能力は、主に別のトピックとして研究されてきた。
本稿では,LLMを用いて推論トレースとタスク固有の動作の両方をインターリーブ方式で生成し,モデル間のシナジーを高める。推論トレースは,モデルが行動プランを誘導,追跡,更新し,例外を処理するのに役立ち,アクションは知識ベースや環境などの外部ソースと対話して追加情報を集めることができる。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用し、最先端のベースラインに対するその効果を実証するとともに、推論や動作部品を使わずにメソッドに対する人間の解釈可能性や信頼性を向上させる。
具体的には、質問応答 (hotpotqa) と事実検証 (fever) において、単純なwikipedia api と相互作用することで、幻覚と誤りの伝達という問題を克服し、推論トレースなしでベースラインよりも解釈しやすいヒューマンライクなタスク解決トラジェクタを生成する。
2つのインタラクティブな意思決定ベンチマーク(ALFWorldとWebShop)では、ReActは、それぞれ34%と10%の絶対的な成功率で模倣と強化学習の手法を上回り、コンテキスト内例は1つまたは2つしかない。
関連論文リスト
- Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。
実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文 参考訳(メタデータ) (2024-11-20T17:55:38Z) - Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning [0.0]
反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。
思考の反復(IoT)フレームワークを提案する。
静的アプローチや半静的アプローチとは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適応する。
論文 参考訳(メタデータ) (2024-09-19T09:44:17Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。