論文の概要: Fractal Patterns May Unravel the Intelligence in Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2402.01825v1
- Date: Fri, 2 Feb 2024 17:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 00:05:58.764532
- Title: Fractal Patterns May Unravel the Intelligence in Next-Token Prediction
- Title(参考訳): フラクタルパターンは次世代予測の知性を損なうかもしれない
- Authors: Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani
- Abstract要約: 本研究では, 言語のフラクタル構造について検討し, 疑わしいが公式には示されていない特性を定量化するために, 正確な定式化を提供することを目的としている。
言語は、(1)自己相似で、特定の特徴のある文脈長を持たない、あらゆるレベルの粒度の複雑さを示す、(2)長距離依存(LRD)である。
段落のような言語における短期的なパターン/依存性は、文書全体のようなより広い範囲のパターン/依存性を反映している、と我々は主張する。
- 参考スコア(独自算出の注目度): 21.92021137666541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the fractal structure of language, aiming to provide a precise
formalism for quantifying properties that may have been previously suspected
but not formally shown. We establish that language is: (1) self-similar,
exhibiting complexities at all levels of granularity, with no particular
characteristic context length, and (2) long-range dependent (LRD), with a Hurst
parameter of approximately H=0.70. Based on these findings, we argue that
short-term patterns/dependencies in language, such as in paragraphs, mirror the
patterns/dependencies over larger scopes, like entire documents. This may shed
some light on how next-token prediction can lead to a comprehension of the
structure of text at multiple levels of granularity, from words and clauses to
broader contexts and intents. We also demonstrate that fractal parameters
improve upon perplexity-based bits-per-byte (BPB) in predicting downstream
performance. We hope these findings offer a fresh perspective on language and
the mechanisms underlying the success of LLMs.
- Abstract(参考訳): 従来は疑わしかったが正式には示されていなかった性質を定量化するための正確な形式主義を提供することを目的として,言語のフラクタル構造について検討した。
言語は、(1)自己相似で、特定の文脈長を持たない粒度のあらゆるレベルで複雑さを示し、(2)長距離依存(LRD)であり、ハーストパラメータは約H=0.70である。
これらの結果から,文書全体などより広い範囲において,文節などの言語における短期的パターン・依存性が反映されていると論じる。
これは、次の予測が、単語や節からより広い文脈や意図まで、様々なレベルの粒度でテキストの構造を理解することにどのようにつながるかについて、いくつかの光を当てるかもしれない。
また, フラクタルパラメータは, 下流の性能予測において, パープレキシティベースビット/バイト(BPB)により向上することが実証された。
これらの知見は,LLMの成功の基盤となる言語とメカニズムについて,新たな視点を与えてくれることを願っている。
関連論文リスト
- Deep de Finetti: Recovering Topic Distributions from Large Language
Models [10.151434138893034]
大規模言語モデル(LLM)は長く一貫性のあるテキストを生成できる。
LLMは文書を特徴付ける潜在構造を表現する必要がある。
本稿では,文書のトピック構造を補完する側面について考察する。
論文 参考訳(メタデータ) (2023-12-21T16:44:39Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - The Limitations of Limited Context for Constituency Parsing [27.271792317099045]
Shen et al., 2018a)の構文解析アーキテクチャは、教師なし構文解析を最初に行った。
現在の構文に対するニューラルアプローチはどのような構文構造を表現できるのか?
我々は確率論的自由文法(PCFG)のサンドボックスにこの疑問を解いた。
これらのアプローチの表現力の重要な側面は、予測者がアクセス可能なコンテキストの量と方向性である。
論文 参考訳(メタデータ) (2021-06-03T03:58:35Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。