論文の概要: Show Your Work: Scratchpads for Intermediate Computation with Language
Models
- arxiv url: http://arxiv.org/abs/2112.00114v1
- Date: Tue, 30 Nov 2021 21:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:51:08.477968
- Title: Show Your Work: Scratchpads for Intermediate Computation with Language
Models
- Title(参考訳): 言語モデルを用いた中間計算のためのscratchpads
- Authors: Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski,
Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma,
David Luan, Charles Sutton, Augustus Odena
- Abstract要約: 大規模な事前訓練された言語モデルは、"1回のパスで"実行できるタスクで驚くほどうまく機能します。
これらのモデルが「ステップ・バイ・ステップ」の実行を依頼された場合、複雑なマルチステップ計算を行うことができることがわかった。
特に、中間計算ステップを「スクラッチパッド」に出力するように指示することで、トランスフォーマーにマルチステップ計算をするよう訓練する。
- 参考スコア(独自算出の注目度): 41.60150946985931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models perform remarkably well on tasks that can
be done "in one pass", such as generating realistic text or synthesizing
computer programs. However, they struggle with tasks that require unbounded
multi-step computation, such as adding integers or executing programs.
Surprisingly, we find that these same models are able to perform complex
multi-step computations -- even in the few-shot regime -- when asked to perform
the operation "step by step", showing the results of intermediate computations.
In particular, we train transformers to perform multi-step computations by
asking them to emit intermediate computation steps into a "scratchpad". On a
series of increasingly complex tasks ranging from long addition to the
execution of arbitrary programs, we show that scratchpads dramatically improve
the ability of language models to perform multi-step computations.
- Abstract(参考訳): 大規模な事前学習された言語モデルは、現実的なテキストの生成やコンピュータプログラムの合成など、"1パスで"実行"できるタスクで非常によく機能します。
しかし、整数の追加やプログラムの実行など、非有界なマルチステップ計算を必要とするタスクに苦労する。
驚いたことに、これらのモデルが、中間計算の結果を示す「ステップ・バイ・ステップ」を実行するように要求された場合に、複雑なマルチステップ計算を実行できることがわかった。
特に,中間計算ステップを"スクラッチパッド"に出力することで,多段階計算を行うようトランスフォーマーを訓練する。
プログラムの長い追加から任意のプログラムの実行に至るまでの一連の複雑なタスクにおいて、スクラッチパッドは言語モデルがマルチステップ計算を行う能力を大幅に向上することを示す。
関連論文リスト
- Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines [7.695524275630717]
大規模言語モデル(LLM)は、広範囲の自然言語処理と推論タスクで顕著な機能を示している。
チューリングマシンをエミュレートすることで,LCMがステップバイステップの計算を実行することを学べる構成可能な算術演算フレームワーク(CAEF)を提案する。
評価では, LLaMA 3.1-8B モデル上での7つの一般的な数学的操作に対して, CAEF は100%近い精度を達成している。
論文 参考訳(メタデータ) (2024-10-10T13:23:49Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Arithmetic with Language Models: from Memorization to Computation [3.077668143048211]
本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。
我々はこれらのタスクを学ぶために軽言語モデルを訓練し、外挿能力と内部情報処理を調べるために多くの実験を行った。
論文 参考訳(メタデータ) (2023-08-02T13:58:37Z) - Learning Easily Updated General Purpose Text Representations with
Adaptable Task-Specific Prefixes [22.661527526471996]
ダウンストリームタスク毎にトレーニング済みの大きな言語モデルを微調整すると、計算負荷が発生する。
そこで本研究では,ソースタスクを用いてテキストの固定表現を学習するためのプレフィックスベースの手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T21:31:03Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Searching for More Efficient Dynamic Programs [61.79535031840558]
本稿では,プログラム変換の集合,変換プログラムの効率を評価するための単純な指標,およびこの指標を改善するための探索手順について述べる。
実際に、自動検索は初期プログラムの大幅な改善を見出すことができることを示す。
論文 参考訳(メタデータ) (2021-09-14T20:52:55Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - General Purpose Text Embeddings from Pre-trained Language Models for
Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。
また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文 参考訳(メタデータ) (2020-04-29T16:11:26Z) - Controlling Computation versus Quality for Neural Sequence Models [42.525463454120256]
条件付き計算は、推論中にニューラルシーケンスモデル(トランスフォーマー)をより効率的かつ計算に適応させる。
i)WMT英仏訳と(ii)教師なし表現学習(BERT)の2つの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-02-17T17:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。