論文の概要: Explaining the Complex Task Reasoning of Large Language Models with
Template-Content Structure
- arxiv url: http://arxiv.org/abs/2310.05452v1
- Date: Mon, 9 Oct 2023 06:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:22:55.313946
- Title: Explaining the Complex Task Reasoning of Large Language Models with
Template-Content Structure
- Title(参考訳): テンプレートコンテンツ構造を用いた大規模言語モデルの複雑なタスク推論
- Authors: Haotong Yang and Fanxu Meng and Zhouchen Lin and Muhan Zhang
- Abstract要約: 本稿では,複雑な自然言語タスクに対する応答生成を階層的テンプレート・コンテンツ構造として正式に概念化する新しいフレームワークを提案する。
我々のフレームワークは、自己回帰生成タスクのモデリングの観点から、大規模言語モデルの複雑な推論能力を示す説明ツールを提供する。
- 参考スコア(独自算出の注目度): 72.46757000048379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continuous evolution of pre-trained large language models with
ever-growing parameters and corpus sizes has augmented their capacity to solve
complex tasks. This ability, which obviates the necessity for task-specific
training or fine-tuning, relies on providing the model with a language
description or some task exemplars -- referred to the prompt -- that guide the
desired autoregressive generation. Despite the remarkable success, the
underlying mechanisms that facilitate such exceptional generalization abilities
remain an open question. In this paper, we present a novel framework that
formally conceptualizes answer generation for complex natural language tasks as
a hierarchical ``template-content'' structure. According to our modeling, there
exist pre-trained models that can automatically decompose tasks into
constituent steps during autoregressive generation, through language modeling
on a sufficiently large corpus, thereby solving them. Our framework offers an
explanatory tool for the complex reasoning abilities of large language models
from the perspective of modeling autoregressive generation tasks. Our
experiments show that practical models exhibit different behaviors for
``template'' and ``content'' providing support for our modeling.
- Abstract(参考訳): 絶え間なく成長するパラメータとコーパスサイズを持つ事前学習された大きな言語モデルの継続的な進化は、複雑なタスクを解決する能力を強化した。
この能力は、タスク固有のトレーニングや微調整の必要性を損なうもので、モデルに言語記述やプロンプトと呼ばれるいくつかのタスク例を提供することによって、望ましい自己回帰生成を導く。
顕著な成功にもかかわらず、そのような例外的な一般化能力を促進するメカニズムは未解決のままである。
本稿では,複雑な自然言語タスクに対する応答生成を,階層的な 'template-content'' 構造として正式に概念化する新しいフレームワークを提案する。
我々のモデリングによれば、十分大きなコーパス上の言語モデリングにより、自動回帰生成中にタスクを構成ステップに自動的に分解できる事前学習モデルが存在する。
我々のフレームワークは、自己回帰生成タスクのモデリングの観点から、大規模言語モデルの複雑な推論能力を示す説明ツールを提供する。
実験の結果, 実用モデルは, モデリングを支援するために, `template' と ``content' の異なる振る舞いを示すことがわかった。
関連論文リスト
- A Systematic Survey of Prompt Engineering on Vision-Language Foundation
Models [43.35892536887404]
プロンプトエンジニアリングは、新しいタスクにモデルを適応させるために、プロンプトとして知られるタスク固有のヒントで、トレーニング済みの大きなモデルを拡張することを含む。
本稿では,3種類の視覚言語モデルについて,最先端の研究の総合的な調査を行うことを目的とする。
論文 参考訳(メタデータ) (2023-07-24T17:58:06Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Foundation Models for Natural Language Processing -- Pre-trained
Language Models Integrating Media [0.0]
ファンデーションモデルは自然言語処理のための事前訓練された言語モデルである。
画像処理やビデオ処理からロボット制御学習まで、幅広いメディアや問題領域に適用することができる。
本書は、ファンデーションモデルの研究および応用における技術の現状を概観する。
論文 参考訳(メタデータ) (2023-02-16T20:42:04Z) - Overcoming Barriers to Skill Injection in Language Modeling: Case Study
in Arithmetic [14.618731441943847]
我々は,言語モデルが言語能力を維持しつつ数学的に熟練することを可能にする新しい枠組みを開発する。
具体的には、言語モデルに非言語的スキルを注入しながら発生する言語スキルの破滅的な忘れを克服するために、情報理論の介入を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:53:30Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。
我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。
10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2022-05-21T00:58:22Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。