論文の概要: Explaining the Complex Task Reasoning of Large Language Models with
Template-Content Structure
- arxiv url: http://arxiv.org/abs/2310.05452v1
- Date: Mon, 9 Oct 2023 06:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:22:55.313946
- Title: Explaining the Complex Task Reasoning of Large Language Models with
Template-Content Structure
- Title(参考訳): テンプレートコンテンツ構造を用いた大規模言語モデルの複雑なタスク推論
- Authors: Haotong Yang and Fanxu Meng and Zhouchen Lin and Muhan Zhang
- Abstract要約: 本稿では,複雑な自然言語タスクに対する応答生成を階層的テンプレート・コンテンツ構造として正式に概念化する新しいフレームワークを提案する。
我々のフレームワークは、自己回帰生成タスクのモデリングの観点から、大規模言語モデルの複雑な推論能力を示す説明ツールを提供する。
- 参考スコア(独自算出の注目度): 72.46757000048379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continuous evolution of pre-trained large language models with
ever-growing parameters and corpus sizes has augmented their capacity to solve
complex tasks. This ability, which obviates the necessity for task-specific
training or fine-tuning, relies on providing the model with a language
description or some task exemplars -- referred to the prompt -- that guide the
desired autoregressive generation. Despite the remarkable success, the
underlying mechanisms that facilitate such exceptional generalization abilities
remain an open question. In this paper, we present a novel framework that
formally conceptualizes answer generation for complex natural language tasks as
a hierarchical ``template-content'' structure. According to our modeling, there
exist pre-trained models that can automatically decompose tasks into
constituent steps during autoregressive generation, through language modeling
on a sufficiently large corpus, thereby solving them. Our framework offers an
explanatory tool for the complex reasoning abilities of large language models
from the perspective of modeling autoregressive generation tasks. Our
experiments show that practical models exhibit different behaviors for
``template'' and ``content'' providing support for our modeling.
- Abstract(参考訳): 絶え間なく成長するパラメータとコーパスサイズを持つ事前学習された大きな言語モデルの継続的な進化は、複雑なタスクを解決する能力を強化した。
この能力は、タスク固有のトレーニングや微調整の必要性を損なうもので、モデルに言語記述やプロンプトと呼ばれるいくつかのタスク例を提供することによって、望ましい自己回帰生成を導く。
顕著な成功にもかかわらず、そのような例外的な一般化能力を促進するメカニズムは未解決のままである。
本稿では,複雑な自然言語タスクに対する応答生成を,階層的な 'template-content'' 構造として正式に概念化する新しいフレームワークを提案する。
我々のモデリングによれば、十分大きなコーパス上の言語モデリングにより、自動回帰生成中にタスクを構成ステップに自動的に分解できる事前学習モデルが存在する。
我々のフレームワークは、自己回帰生成タスクのモデリングの観点から、大規模言語モデルの複雑な推論能力を示す説明ツールを提供する。
実験の結果, 実用モデルは, モデリングを支援するために, `template' と ``content' の異なる振る舞いを示すことがわかった。
関連論文リスト
- Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language Models [30.09120709652445]
本稿では,現在最先端のジェネラリスト LLM がいくつかの例でこれらの構造を活用でき,テキスト・コンテクスト・ラーニングによる証明構造をより良く構築できるかどうかという,焦点を絞った研究に焦点をあてる。
論文 参考訳(メタデータ) (2024-10-11T00:45:50Z) - Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
彼らの成功にもかかわらず、ディープラーニングモデルは複雑な推論と機能構成を必要とするタスクに苦しむ。
本研究では,SSM(Structured State Space Models)とTransformer(Transformer)の制約に関する理論的および実証的研究を行う。
信頼性の高い多段階推論と構成課題解決を実現するための革新的なソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-05-26T19:33:23Z) - On the Empirical Complexity of Reasoning and Planning in LLMs [29.588100727466976]
Chain-of-Thought(CoT)、tree-of-Thought(ToT)、および関連するテクニックは、大規模言語モデル(LLM)を用いた複雑な推論タスクにおいて、実際に驚くほどうまく機能する。
この研究は、実験ケーススタディを実行し、パフォーマンスの利点を機械学習における十分に確立されたサンプルと計算の複雑さの原則に結びつけることによって、根本的な理由を追求する。
論文 参考訳(メタデータ) (2024-04-17T03:34:27Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z) - Unifying Structure Reasoning and Language Model Pre-training for Complex
Reasoning [26.811507121199323]
本稿では,明示的な構造推論と言語事前学習を組み合わせ,PLMと構造推論のスキルを融合した統合学習フレームワークを提案する。
まず、コンテクスト内のいくつかの基本構造を識別し、構造化されたクエリを構築し、クエリに沿ってステップバイステップの推論を行い、回答エンティティを識別する。
4つのデータセットに対する実験結果から,提案モデルが多様構造を含む複雑な推論タスクにおいて,大幅な改善を達成できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T08:18:11Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。