論文の概要: Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure
- arxiv url: http://arxiv.org/abs/2310.05452v2
- Date: Fri, 5 Apr 2024 08:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:40:00.654823
- Title: Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure
- Title(参考訳): パロットマインド:テンプレート・コンテント構造を持つ事前学習された大規模言語モデルの複雑なタスク推論の説明に向けて
- Authors: Haotong Yang, Fanxu Meng, Zhouchen Lin, Muhan Zhang,
- Abstract要約: テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
- 参考スコア(独自算出の注目度): 66.33623392497599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained large language models (LLMs) have shown their extraordinary capacity to solve reasoning tasks, even on tasks that require a complex process involving multiple sub-steps. However, given the vast possible generation space of all the tasks, how the pretrained model learns the reasoning ability remains an open question. We firstly propose that an intrinsic structural constraint on the generated sequence of language-based reasoning -- we called it template-content structure (T-C structure) -- is the key to explain why LLMs can solve a large number of complex reasoning problems with limited training data by showing this structure can reduce the possible space from exponential level to linear level. Furthermore, by generalizing this structure to the hierarchical case, we demonstrate that models can achieve task composition, further reducing the space needed to learn from linear to logarithmic, thereby effectively learning on complex reasoning involving multiple steps. We provide both examples and formal theory of our T-C structure. We also experimentally validate the existence of the T-C structure in some current LLMs and its effectiveness for reasoning.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、複数のサブステップを含む複雑なプロセスを必要とするタスクであっても、推論タスクを解決する特別な能力を示している。
しかしながら、全てのタスクの膨大な生成空間を考えると、事前訓練されたモデルがどのように推論能力を学ぶかは未解決の問題である。
まず、この構造が指数的レベルから線形レベルまで可能な空間を減少させることで、限定的な学習データでLLMが多くの複雑な推論問題を解くことができる理由を説明する鍵となる。
さらに、この構造を階層的ケースに一般化することにより、モデルがタスク構成を達成でき、さらに線形から対数的な学習に必要な空間を減らし、複数のステップを含む複雑な推論を効果的に学習できることを実証する。
我々は、我々のT-C構造の例と形式理論の両方を提供する。
また, いくつかのLLMにおけるT-C構造の存在と, その推論の有効性を実験的に検証した。
関連論文リスト
- Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language Models [30.09120709652445]
本稿では,現在最先端のジェネラリスト LLM がいくつかの例でこれらの構造を活用でき,テキスト・コンテクスト・ラーニングによる証明構造をより良く構築できるかどうかという,焦点を絞った研究に焦点をあてる。
論文 参考訳(メタデータ) (2024-10-11T00:45:50Z) - Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
彼らの成功にもかかわらず、ディープラーニングモデルは複雑な推論と機能構成を必要とするタスクに苦しむ。
本研究では,SSM(Structured State Space Models)とTransformer(Transformer)の制約に関する理論的および実証的研究を行う。
信頼性の高い多段階推論と構成課題解決を実現するための革新的なソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-05-26T19:33:23Z) - On the Empirical Complexity of Reasoning and Planning in LLMs [29.588100727466976]
Chain-of-Thought(CoT)、tree-of-Thought(ToT)、および関連するテクニックは、大規模言語モデル(LLM)を用いた複雑な推論タスクにおいて、実際に驚くほどうまく機能する。
この研究は、実験ケーススタディを実行し、パフォーマンスの利点を機械学習における十分に確立されたサンプルと計算の複雑さの原則に結びつけることによって、根本的な理由を追求する。
論文 参考訳(メタデータ) (2024-04-17T03:34:27Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z) - Unifying Structure Reasoning and Language Model Pre-training for Complex
Reasoning [26.811507121199323]
本稿では,明示的な構造推論と言語事前学習を組み合わせ,PLMと構造推論のスキルを融合した統合学習フレームワークを提案する。
まず、コンテクスト内のいくつかの基本構造を識別し、構造化されたクエリを構築し、クエリに沿ってステップバイステップの推論を行い、回答エンティティを識別する。
4つのデータセットに対する実験結果から,提案モデルが多様構造を含む複雑な推論タスクにおいて,大幅な改善を達成できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T08:18:11Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。