論文の概要: Fractal Patterns May Illuminate the Success of Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2402.01825v2
- Date: Wed, 22 May 2024 16:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 07:19:21.812961
- Title: Fractal Patterns May Illuminate the Success of Next-Token Prediction
- Title(参考訳): フラクタルパターンは次世代予測の成功を脅かすかもしれない
- Authors: Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani,
- Abstract要約: 本研究では, 言語のフラクタル構造について検討し, 疑わしいが公式には示されていない特性を定量化するために, 正確な定式化を提供することを目的としている。
言語は、(1)自己相似で、特定の文脈長を持たない粒度のあらゆるレベルで複雑さを示し、(2)長距離依存(LRD)であり、ハーストパラメータは約H=0.7である。
- 参考スコア(独自算出の注目度): 19.503706350595852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the fractal structure of language, aiming to provide a precise formalism for quantifying properties that may have been previously suspected but not formally shown. We establish that language is: (1) self-similar, exhibiting complexities at all levels of granularity, with no particular characteristic context length, and (2) long-range dependent (LRD), with a Hurst parameter of approximately H=0.7. Based on these findings, we argue that short-term patterns/dependencies in language, such as in paragraphs, mirror the patterns/dependencies over larger scopes, like entire documents. This may shed some light on how next-token prediction can capture the structure of text across multiple levels of granularity, from words and clauses to broader contexts and intents. In addition, we carry out an extensive analysis across different domains and architectures, showing that fractal parameters are robust. Finally, we demonstrate that the tiny variations in fractal parameters seen across LLMs improve upon perplexity-based bits-per-byte (BPB) in predicting their downstream performance. We hope these findings offer a fresh perspective on language and the mechanisms underlying the success of LLMs.
- Abstract(参考訳): 本研究では, 言語のフラクタル構造について検討し, 疑わしいが公式には示されていない特性を定量化するために, 正確な定式化を提供することを目的としている。
言語は、(1)自己相似で、特定の文脈長を持たない粒度のあらゆるレベルで複雑さを示し、(2)長距離依存(LRD)であり、ハーストパラメータは約H=0.7である。
これらの結果から,文書全体などより広い範囲において,文節などの言語における短期的パターン・依存性が反映されていると論じる。
このことは、単語や節からより広い文脈や意図まで、さまざまなレベルの粒度のテキスト構造を、次世代の予測がどのように捉えられるか、ある程度の光を当てるかもしれない。
さらに, フラクタルパラメータが堅牢であることを示すため, 異なる領域やアーキテクチャにわたって広範囲に解析を行う。
最後に,LLMにまたがるフラクタルパラメータの小さな変動が,その下流性能を予測するために,パープレキシティベースのビット/バイト(BPB)を改善することを実証した。
これらの知見は,LLMの成功の基盤となる言語とメカニズムについて,新たな視点を与えてくれることを願っている。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Can we obtain significant success in RST discourse parsing by using
Large Language Models? [32.94244684710954]
デコーダのみの大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクに大きな影響を与えている。
本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。
RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 有意な差を示した。
論文 参考訳(メタデータ) (2024-03-08T05:34:29Z) - Deep de Finetti: Recovering Topic Distributions from Large Language
Models [10.151434138893034]
大規模言語モデル(LLM)は長く一貫性のあるテキストを生成できる。
LLMは文書を特徴付ける潜在構造を表現する必要がある。
本稿では,文書のトピック構造を補完する側面について考察する。
論文 参考訳(メタデータ) (2023-12-21T16:44:39Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - The Limitations of Limited Context for Constituency Parsing [27.271792317099045]
Shen et al., 2018a)の構文解析アーキテクチャは、教師なし構文解析を最初に行った。
現在の構文に対するニューラルアプローチはどのような構文構造を表現できるのか?
我々は確率論的自由文法(PCFG)のサンドボックスにこの疑問を解いた。
これらのアプローチの表現力の重要な側面は、予測者がアクセス可能なコンテキストの量と方向性である。
論文 参考訳(メタデータ) (2021-06-03T03:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。