論文の概要: Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context
Reasoning with Language Models
- arxiv url: http://arxiv.org/abs/2306.06891v1
- Date: Mon, 12 Jun 2023 06:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:59:30.844452
- Title: Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context
Reasoning with Language Models
- Title(参考訳): 思考の再帰:言語モデルを用いた多文脈推論への分割・包括的アプローチ
- Authors: Soochan Lee and Gunhee Kim
- Abstract要約: 我々はRecursion of Thought (RoT)と呼ばれる新しい推論フレームワークを提案する。
RoTはいくつかの特別なトークンを導入し、モデルが出力してコンテキスト関連の操作をトリガーする。
GPT-3を含む複数のアーキテクチャの実験により、RoTは問題を解くためにLMの推論能力を劇的に改善した。
- 参考スコア(独自算出の注目度): 58.41943058963672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating intermediate steps, or Chain of Thought (CoT), is an effective way
to significantly improve language models' (LM) multi-step reasoning capability.
However, the CoT lengths can grow rapidly with the problem complexity, easily
exceeding the maximum context size. Instead of increasing the context limit,
which has already been heavily investigated, we explore an orthogonal
direction: making LMs divide a problem into multiple contexts. We propose a new
inference framework, called Recursion of Thought (RoT), which introduces
several special tokens that the models can output to trigger context-related
operations. Extensive experiments with multiple architectures including GPT-3
show that RoT dramatically improves LMs' inference capability to solve
problems, whose solution consists of hundreds of thousands of tokens.
- Abstract(参考訳): 中間段階の生成(Chain of Thought (CoT))は、言語モデルの多段階推論能力を大幅に向上させる効果的な方法である。
しかし、CoT長は問題複雑性によって急速に成長し、最大コンテキストサイズを超えることが容易にできる。
すでによく研究されているコンテキスト制限を増加させる代わりに、直交方向を探索する: lmsを問題に複数のコンテキストに分割する。
提案する推論フレームワークはRecursion of Thought (RoT) と呼ばれ,コンテキスト関連操作のトリガとしてモデルが出力できる特別なトークンをいくつか導入する。
GPT-3を含む複数のアーキテクチャによる大規模な実験により、RoTは数十万のトークンからなる問題を解くためのLMの推論能力を劇的に改善した。
関連論文リスト
- Structure Guided Prompt: Instructing Large Language Model in Multi-Step
Reasoning by Exploring Graph Structure of the Text [44.81698187939784]
本稿では,大規模言語モデル(LLM)の多段階推論能力向上を目的としたフレームワークであるStructure Guided Promptを紹介する。
実験の結果,このフレームワークはLLMの推論能力を大幅に向上し,より広い範囲の自然言語シナリオを拡張できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T22:56:23Z) - Guiding Large Language Models with Divide-and-Conquer Program for
Discerning Problem Solving [30.189649864741888]
本稿では,優れた表現力を確保し,タスクの分解,サブタスクの解決,分解処理を解消するDivide-and-Conquerプログラムを提案する。
実験結果から,提案手法は中間誤りや誤認内容に悩まされるタスクにおいて,通常の手順よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-02-08T02:37:30Z) - Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。
実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文 参考訳(メタデータ) (2023-11-15T06:54:44Z) - CoF-CoT: Enhancing Large Language Models with Coarse-to-Fine
Chain-of-Thought Prompting for Multi-domain NLU Tasks [46.862929778121675]
Chain-of-Thoughtプロンプトは推論タスクで人気があるが、自然言語理解(NLU)への応用は未検討である。
大規模言語モデル (LLMs) の多段階的推論により動機付け, CoF-CoT (Coarse-to-Fine Chain-of-Thought) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T06:54:51Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in
Large Language Models [85.07648361429816]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。