論文の概要: Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure
- arxiv url: http://arxiv.org/abs/2310.05452v2
- Date: Fri, 5 Apr 2024 08:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:40:00.654823
- Title: Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure
- Title(参考訳): パロットマインド:テンプレート・コンテント構造を持つ事前学習された大規模言語モデルの複雑なタスク推論の説明に向けて
- Authors: Haotong Yang, Fanxu Meng, Zhouchen Lin, Muhan Zhang,
- Abstract要約: テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
- 参考スコア(独自算出の注目度): 66.33623392497599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained large language models (LLMs) have shown their extraordinary capacity to solve reasoning tasks, even on tasks that require a complex process involving multiple sub-steps. However, given the vast possible generation space of all the tasks, how the pretrained model learns the reasoning ability remains an open question. We firstly propose that an intrinsic structural constraint on the generated sequence of language-based reasoning -- we called it template-content structure (T-C structure) -- is the key to explain why LLMs can solve a large number of complex reasoning problems with limited training data by showing this structure can reduce the possible space from exponential level to linear level. Furthermore, by generalizing this structure to the hierarchical case, we demonstrate that models can achieve task composition, further reducing the space needed to learn from linear to logarithmic, thereby effectively learning on complex reasoning involving multiple steps. We provide both examples and formal theory of our T-C structure. We also experimentally validate the existence of the T-C structure in some current LLMs and its effectiveness for reasoning.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、複数のサブステップを含む複雑なプロセスを必要とするタスクであっても、推論タスクを解決する特別な能力を示している。
しかしながら、全てのタスクの膨大な生成空間を考えると、事前訓練されたモデルがどのように推論能力を学ぶかは未解決の問題である。
まず、この構造が指数的レベルから線形レベルまで可能な空間を減少させることで、限定的な学習データでLLMが多くの複雑な推論問題を解くことができる理由を説明する鍵となる。
さらに、この構造を階層的ケースに一般化することにより、モデルがタスク構成を達成でき、さらに線形から対数的な学習に必要な空間を減らし、複数のステップを含む複雑な推論を効果的に学習できることを実証する。
我々は、我々のT-C構造の例と形式理論の両方を提供する。
また, いくつかのLLMにおけるT-C構造の存在と, その推論の有効性を実験的に検証した。
関連論文リスト
- From Complex to Simple: Enhancing Multi-Constraint Complex Instruction Following Ability of Large Language Models [43.869374263102934]
複雑な制約の強化に有効なトレーニングデータについて検討する。
複数の制約を含む命令でLLMを訓練することで、複雑な命令の理解が促進されることが判明した。
本稿では,効果的なトレーニングデータを取得する方法と活用方法を提案する。
論文 参考訳(メタデータ) (2024-04-24T12:51:14Z) - Distilling LLMs' Decomposition Abilities into Compact Language Models [12.083499752124649]
大規模言語モデル(LLM)はその推論能力に習熟性を示した。
コンパクトモデルは、カスタマイズされたトレーニングを提供するが、複雑な推論タスクの解決に不足することが多い。
論文 参考訳(メタデータ) (2024-02-02T13:23:15Z) - Leveraging Structured Information for Explainable Multi-hop Question
Answering and Reasoning [14.219239732584368]
本研究では,マルチホップ質問応答のための抽出された意味構造(グラフ)の構築と活用について検討する。
実験結果と人的評価の結果から、我々のフレームワークはより忠実な推論連鎖を生成し、2つのベンチマークデータセットのQA性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-07T05:32:39Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z) - Unifying Structure Reasoning and Language Model Pre-training for Complex
Reasoning [26.811507121199323]
本稿では,明示的な構造推論と言語事前学習を組み合わせ,PLMと構造推論のスキルを融合した統合学習フレームワークを提案する。
まず、コンテクスト内のいくつかの基本構造を識別し、構造化されたクエリを構築し、クエリに沿ってステップバイステップの推論を行い、回答エンティティを識別する。
4つのデータセットに対する実験結果から,提案モデルが多様構造を含む複雑な推論タスクにおいて,大幅な改善を達成できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T08:18:11Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。