論文の概要: Zoology: Measuring and Improving Recall in Efficient Language Models
- arxiv url: http://arxiv.org/abs/2312.04927v1
- Date: Fri, 8 Dec 2023 09:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:40:05.091187
- Title: Zoology: Measuring and Improving Recall in Efficient Language Models
- Title(参考訳): 動物学:効率的な言語モデルにおけるリコールの測定と改善
- Authors: Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael
Poli, James Zou, Atri Rudra, and Christopher R\'e
- Abstract要約: 私たちは17の注意と"ゲート・コンボリューション"言語モデルをトレーニングします。
ゲート畳み込みアーキテクチャは、パイル上の最大2.1パープレキシティポイントでまだ注目されていない。
マルチクエリ・アソシエイト・リコール(MQAR)と呼ばれるタスクの新たな形式化を開発し、実際の言語をよりよく反映する。
- 参考スコア(独自算出の注目度): 42.159338928861864
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Attention-free language models that combine gating and convolutions are
growing in popularity due to their efficiency and increasingly competitive
performance. To better understand these architectures, we pretrain a suite of
17 attention and "gated-convolution" language models, finding that SoTA
gated-convolution architectures still underperform attention by up to 2.1
perplexity points on the Pile. In fine-grained analysis, we find 82% of the gap
is explained by each model's ability to recall information that is previously
mentioned in-context, e.g. "Hakuna Matata means no worries Hakuna Matata it
means no" $\rightarrow$ "??". On this task, termed "associative recall", we
find that attention outperforms gated-convolutions by a large margin: a 70M
parameter attention model outperforms a 1.4 billion parameter gated-convolution
model on associative recall. This is surprising because prior work shows gated
convolutions can perfectly solve synthetic tests for AR capability. To close
the gap between synthetics and real language, we develop a new formalization of
the task called multi-query associative recall (MQAR) that better reflects
actual language. We perform an empirical and theoretical study of MQAR that
elucidates differences in the parameter-efficiency of attention and
gated-convolution recall. Informed by our analysis, we evaluate simple
convolution-attention hybrids and show that hybrids with input-dependent sparse
attention patterns can close 97.4% of the gap to attention, while maintaining
sub-quadratic scaling. Our code is accessible at:
https://github.com/HazyResearch/zoology.
- Abstract(参考訳): ゲーティングと畳み込みを組み合わせるアテンションフリー言語モデルは、その効率性と競争性の向上によって人気が高まっている。
これらのアーキテクチャをよりよく理解するために、17の注意点と"ゲーテッドコンボリューション"言語モデルを事前トレーニングし、somaゲートコンボリューションアーキテクチャが最大2.1のパープレキシティポイントで注目度を上回っていることを発見した。
きめ細かい分析では、各モデルの82%が、前述した情報をテキストでリコールする能力によって説明されている(例:「ハクナ・マタタ」とは、ハクナ・マタタがノーを意味することを心配しない」など)。
この課題は「連想リコール(associative recall)」と呼ばれ、70mのパラメータ・アテンション・モデルは連想リコールの14億のパラメータ・ゲート・コンボリューション・モデルよりも、大きなマージンでゲート・コンボリューションよりもアテンションの方が優れています。
以前の研究では、AR機能のための合成テストが完全に解決できたため、これは驚くべきことです。
合成語と実言語とのギャップを埋めるため,実言語をよりよく反映したマルチクエリ連想リコール(MQAR)と呼ばれるタスクの新たな形式化を開発する。
我々は、注意のパラメータ効率とゲート畳み込みリコールの違いを解明するMQARの実証的および理論的研究を行う。
本分析により, 簡単な畳み込み型ハイブリッドの評価を行い, サブクアドラティックスケーリングを維持しながら, 入力依存スパークアテンションパターンのハイブリッドが注意ギャップの97.4%を埋めることを示した。
私たちのコードは、https://github.com/HazyResearch/zoologyでアクセスできます。
関連論文リスト
- From RAG to Memory: Non-Parametric Continual Learning for Large Language Models [6.380729797938521]
検索強化世代(RAG)は、新しい情報を導入する主要な方法となっている。
最近のRAGは、知識グラフのような様々な構造を持つベクトル埋め込みを拡大して、いくつかのギャップ、すなわちセンスメイキングと連想性に対処している。
我々は,現実的,感覚的,連想的なメモリタスクにおいて,標準RAGを総合的に上回るフレームワークであるHippoRAG 2を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:26:02Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Align Attention Heads Before Merging Them: An Effective Way for Converting MHA to GQA [8.305827430948654]
キー-値ヘッドの圧縮比が全くないGQAモデルにMHAモデルをプルーニングするための低コストな手法を提案する。
我々の戦略は、LLaMA2-7Bモデルのキー値ヘッドの87.5%を、過剰な性能劣化を伴わずに圧縮することができる。
論文 参考訳(メタデータ) (2024-12-30T03:05:45Z) - Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
本稿では,学習時の難易度に基づいてサブゴールを優先する多粒度拡散モデリング(MGDM)を提案する。
MGDMは検索手法を使わずに自己回帰モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:48:53Z) - Honest AI: Fine-Tuning "Small" Language Models to Say "I Don't Know", and Reducing Hallucination in RAG [6.326488286636623]
幻覚は、Large Language Models (LLM) の応用における重要な障害である
私たちは、幻覚を減らすために「私は知らない」と言うために「小さな」言語モデルを微調整する新しい戦略であるHonest AIを提案する。
論文 参考訳(メタデータ) (2024-10-13T02:34:47Z) - PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの数学的推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。
提案手法により,Falcon2-11B と Mistral-7B の GSM8K と AQuA-RAT の数学的推論ベンチマークの精度が向上する。
ARCベンチマークやシンボリック推論問題など、改良された能力は非数学的なタスクに移行した。
論文 参考訳(メタデータ) (2024-06-23T09:51:06Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Simple linear attention language models balance the recall-throughput
tradeoff [40.08746299497935]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。