論文の概要: Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.16582v1
- Date: Fri, 26 May 2023 02:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:18:48.599416
- Title: Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Large
Language Models
- Title(参考訳): 大規模言語モデルにおける連鎖的,効果的なグラフ的推論を超えて
- Authors: Yao Yao, Zuchao Li, Hai Zhao
- Abstract要約: 本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
我々のアプローチは、人間の思考の連続的でない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
GoTは、2億5000万以上のバックボーンモデルパラメータを持つにもかかわらず、700万以上のパラメータを持つMultimodal-CoT(large)に匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 87.94820501979792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread use of large language models (LLMs) in NLP tasks,
researchers have discovered the potential of Chain-of-thought (CoT) to assist
LLMs in accomplishing complex reasoning tasks by generating intermediate steps.
However, human thought processes are often non-linear, rather than simply
sequential chains of thoughts. Therefore, we propose Graph-of-Thought (GoT)
reasoning, which models human thought processes not only as a chain but also as
a graph. By representing thought units as nodes and connections between them as
edges, our approach captures the non-sequential nature of human thinking and
allows for a more realistic modeling of thought processes. Similar to
Multimodal-CoT, we modeled GoT reasoning as a two-stage framework, generating
rationales first and then producing the final answer. Specifically, we employ
an additional graph-of-thoughts encoder for GoT representation learning and
fuse the GoT representation with the original input representation through a
gated fusion mechanism. We implement a GoT reasoning model on the T5
pre-trained model and evaluate its performance on a text-only reasoning task
(GSM8K) and a multimodal reasoning task (ScienceQA). Our model achieves
significant improvement over the strong CoT baseline with 3.41% and 5.08% on
the GSM8K test set with T5-base and T5-large architectures, respectively.
Additionally, our model boosts accuracy from 84.91% to 91.54% using the T5-base
model and from 91.68% to 92.77% using the T5-large model over the
state-of-the-art Multimodal-CoT on the ScienceQA test set. Experiments have
shown that GoT achieves comparable results to Multimodal-CoT(large) with over
700M parameters, despite having fewer than 250M backbone model parameters,
demonstrating the effectiveness of GoT.
- Abstract(参考訳): NLPタスクに大規模言語モデル(LLM)が広く使われるようになると、研究者は中間ステップを生成することで複雑な推論タスクを達成するのにLLMを支援するために、Chain-of-Thought(CoT)の可能性を発見した。
しかし、人間の思考過程は単に思考の逐次連鎖ではなく、しばしば非線形である。
そこで我々は,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
思考単位をノードとして表現し、それら間の接続をエッジとして表現することで、我々のアプローチは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
Multimodal-CoTと同様に、私たちはGoT推論を2段階のフレームワークとしてモデル化し、まず理性を生成し、最後に答えを生成しました。
具体的には、GoT表現学習のための追加のグラフ・オブ・シンクエンコーダを使用し、ゲート融合機構を通じてGoT表現を元の入力表現と融合する。
我々は、T5事前学習モデルにGoT推論モデルを実装し、テキストのみ推論タスク(GSM8K)とマルチモーダル推論タスク(ScienceQA)の性能を評価する。
我々のモデルは,T5ベースとT5大規模アーキテクチャを用いたGSM8Kテストセットにおいて,それぞれ3.41%,5.08%のCoTベースラインに対する大幅な改善を実現している。
さらに,T5ベースモデルでは84.91%から91.54%,ScienceQAテストセットでは最先端のマルチモーダルCoTでは91.68%から92.77%に精度が向上した。
実験の結果、GoTは2億5000万以上のバックボーンモデルパラメータを持つにもかかわらず、700万以上のパラメータを持つMultimodal-CoT(large)に匹敵する結果が得られた。
関連論文リスト
- Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning
in Large Language Models [75.62842701840543]
チェーン・オブ・シント(CoT)のプロンプトによって、大きな言語モデル(LLM)の推論の可能性は著しく解放された。
しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。
LLMにおける多段階推論を推し進める新しいプロンプト戦略であるRESPROMPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:56:28Z) - Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning
to boost Foundation Modals [15.372421458422489]
CoT(Chain-of-Thought)技術は,基礎モデルの推論能力を高めるための有効な手法の1つである。
本稿では,高次マルチホップ推論のエキスパートレベル能力を有する基礎モデルを実現するために,マルチモーダルなハイパーグラフ・オブ・ソート推論パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-11T16:13:04Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Teaching Small Language Models to Reason [19.625523231233128]
思考の連鎖は、大きな言語モデルの推論能力をうまく改善する。
我々は、知識蒸留による1000億のパラメータ未満のモデルへのそのような推論能力の移譲について検討する。
実験の結果,提案手法は算術的,常識的,記号的推論的データセット間でのタスク性能を向上させることがわかった。
論文 参考訳(メタデータ) (2022-12-16T11:24:42Z) - Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T00:39:56Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - NT5?! Training T5 to Perform Numerical Reasoning [0.8827543048499855]
テキスト上の数値推論(NRoT)は、既存の事前学習目標ではうまく対処できないユニークな課題を提示します。
T5マルチタスクフレームワークを複数の数値推論データセットでトレーニングすることで、手動で分割機能を設計することなく、難易度を高めることができることを示した。
論文 参考訳(メタデータ) (2021-04-15T08:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。