論文の概要: Zoology: Measuring and Improving Recall in Efficient Language Models
- arxiv url: http://arxiv.org/abs/2312.04927v1
- Date: Fri, 8 Dec 2023 09:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:40:05.091187
- Title: Zoology: Measuring and Improving Recall in Efficient Language Models
- Title(参考訳): 動物学:効率的な言語モデルにおけるリコールの測定と改善
- Authors: Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael
Poli, James Zou, Atri Rudra, and Christopher R\'e
- Abstract要約: 私たちは17の注意と"ゲート・コンボリューション"言語モデルをトレーニングします。
ゲート畳み込みアーキテクチャは、パイル上の最大2.1パープレキシティポイントでまだ注目されていない。
マルチクエリ・アソシエイト・リコール(MQAR)と呼ばれるタスクの新たな形式化を開発し、実際の言語をよりよく反映する。
- 参考スコア(独自算出の注目度): 42.159338928861864
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Attention-free language models that combine gating and convolutions are
growing in popularity due to their efficiency and increasingly competitive
performance. To better understand these architectures, we pretrain a suite of
17 attention and "gated-convolution" language models, finding that SoTA
gated-convolution architectures still underperform attention by up to 2.1
perplexity points on the Pile. In fine-grained analysis, we find 82% of the gap
is explained by each model's ability to recall information that is previously
mentioned in-context, e.g. "Hakuna Matata means no worries Hakuna Matata it
means no" $\rightarrow$ "??". On this task, termed "associative recall", we
find that attention outperforms gated-convolutions by a large margin: a 70M
parameter attention model outperforms a 1.4 billion parameter gated-convolution
model on associative recall. This is surprising because prior work shows gated
convolutions can perfectly solve synthetic tests for AR capability. To close
the gap between synthetics and real language, we develop a new formalization of
the task called multi-query associative recall (MQAR) that better reflects
actual language. We perform an empirical and theoretical study of MQAR that
elucidates differences in the parameter-efficiency of attention and
gated-convolution recall. Informed by our analysis, we evaluate simple
convolution-attention hybrids and show that hybrids with input-dependent sparse
attention patterns can close 97.4% of the gap to attention, while maintaining
sub-quadratic scaling. Our code is accessible at:
https://github.com/HazyResearch/zoology.
- Abstract(参考訳): ゲーティングと畳み込みを組み合わせるアテンションフリー言語モデルは、その効率性と競争性の向上によって人気が高まっている。
これらのアーキテクチャをよりよく理解するために、17の注意点と"ゲーテッドコンボリューション"言語モデルを事前トレーニングし、somaゲートコンボリューションアーキテクチャが最大2.1のパープレキシティポイントで注目度を上回っていることを発見した。
きめ細かい分析では、各モデルの82%が、前述した情報をテキストでリコールする能力によって説明されている(例:「ハクナ・マタタ」とは、ハクナ・マタタがノーを意味することを心配しない」など)。
この課題は「連想リコール(associative recall)」と呼ばれ、70mのパラメータ・アテンション・モデルは連想リコールの14億のパラメータ・ゲート・コンボリューション・モデルよりも、大きなマージンでゲート・コンボリューションよりもアテンションの方が優れています。
以前の研究では、AR機能のための合成テストが完全に解決できたため、これは驚くべきことです。
合成語と実言語とのギャップを埋めるため,実言語をよりよく反映したマルチクエリ連想リコール(MQAR)と呼ばれるタスクの新たな形式化を開発する。
我々は、注意のパラメータ効率とゲート畳み込みリコールの違いを解明するMQARの実証的および理論的研究を行う。
本分析により, 簡単な畳み込み型ハイブリッドの評価を行い, サブクアドラティックスケーリングを維持しながら, 入力依存スパークアテンションパターンのハイブリッドが注意ギャップの97.4%を埋めることを示した。
私たちのコードは、https://github.com/HazyResearch/zoologyでアクセスできます。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Honest AI: Fine-Tuning "Small" Language Models to Say "I Don't Know", and Reducing Hallucination in RAG [6.326488286636623]
幻覚は、Large Language Models (LLM) の応用における重要な障害である
私たちは、幻覚を減らすために「私は知らない」と言うために「小さな」言語モデルを微調整する新しい戦略であるHonest AIを提案する。
論文 参考訳(メタデータ) (2024-10-13T02:34:47Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Simple linear attention language models balance the recall-throughput
tradeoff [40.08746299497935]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - CodeArt: Better Code Models by Attention Regularization When Symbols Are
Lacking [12.458135956476639]
トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。
しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。
本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T05:13:22Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。