Fugu-MT 論文翻訳(概要): Fractal Patterns May Unravel the Intelligence in Next-Token Prediction

論文の概要: Fractal Patterns May Unravel the Intelligence in Next-Token Prediction

arxiv url: http://arxiv.org/abs/2402.01825v1
Date: Fri, 2 Feb 2024 17:09:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 00:05:58.764532
Title: Fractal Patterns May Unravel the Intelligence in Next-Token Prediction
Title（参考訳）: フラクタルパターンは次世代予測の知性を損なうかもしれない
Authors: Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani
Abstract要約: 本研究では, 言語のフラクタル構造について検討し, 疑わしいが公式には示されていない特性を定量化するために, 正確な定式化を提供することを目的としている。言語は、(1)自己相似で、特定の特徴のある文脈長を持たない、あらゆるレベルの粒度の複雑さを示す、(2)長距離依存(LRD)である。段落のような言語における短期的なパターン/依存性は、文書全体のようなより広い範囲のパターン/依存性を反映している、と我々は主張する。
参考スコア（独自算出の注目度）: 21.92021137666541
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the fractal structure of language, aiming to provide a precise formalism for quantifying properties that may have been previously suspected but not formally shown. We establish that language is: (1) self-similar, exhibiting complexities at all levels of granularity, with no particular characteristic context length, and (2) long-range dependent (LRD), with a Hurst parameter of approximately H=0.70. Based on these findings, we argue that short-term patterns/dependencies in language, such as in paragraphs, mirror the patterns/dependencies over larger scopes, like entire documents. This may shed some light on how next-token prediction can lead to a comprehension of the structure of text at multiple levels of granularity, from words and clauses to broader contexts and intents. We also demonstrate that fractal parameters improve upon perplexity-based bits-per-byte (BPB) in predicting downstream performance. We hope these findings offer a fresh perspective on language and the mechanisms underlying the success of LLMs.
Abstract（参考訳）: 従来は疑わしかったが正式には示されていなかった性質を定量化するための正確な形式主義を提供することを目的として,言語のフラクタル構造について検討した。言語は、(1)自己相似で、特定の文脈長を持たない粒度のあらゆるレベルで複雑さを示し、(2)長距離依存(LRD)であり、ハーストパラメータは約H=0.70である。これらの結果から,文書全体などより広い範囲において,文節などの言語における短期的パターン・依存性が反映されていると論じる。これは、次の予測が、単語や節からより広い文脈や意図まで、様々なレベルの粒度でテキストの構造を理解することにどのようにつながるかについて、いくつかの光を当てるかもしれない。また, フラクタルパラメータは, 下流の性能予測において, パープレキシティベースビット/バイト(BPB)により向上することが実証された。これらの知見は,LLMの成功の基盤となる言語とメカニズムについて,新たな視点を与えてくれることを願っている。

関連論文リスト

When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文参考訳（メタデータ） (2025-05-22T05:10:34Z)
A Tale of Two Structures: Do LLMs Capture the Fractal Complexity of Language? [6.542049522283317]
言語は情報理論の複雑さにおいてフラクタル構造を示す。大規模言語モデル(LLM)がそのようなフラクタル特性を再現できるかどうかを検討する。 LLMが生成する24万以上の記事からなるデータセットをリリースする。
論文参考訳（メタデータ） (2025-02-19T18:15:57Z)
Can LLMs Extract Frame-Semantic Arguments? [0.8887804436314068]
本稿では,大規模言語モデル (LLM) をフレーム・セマンティックな引数同定において包括的に評価する。実験の結果,0.5Bから78Bのパラメータにまたがるモデルでは,表現が性能を著しく向上することがわかった。予測されたフレーム要素を利用したフレーム識別のための新しい手法を導入し,不明瞭な対象に対する最先端性能を実現する。
論文参考訳（メタデータ） (2025-02-18T04:01:50Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文参考訳（メタデータ） (2024-09-13T01:40:20Z)
Can we obtain significant success in RST discourse parsing by using Large Language Models? [32.94244684710954]
デコーダのみの大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクに大きな影響を与えている。本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。 RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 有意な差を示した。
論文参考訳（メタデータ） (2024-03-08T05:34:29Z)
Deep de Finetti: Recovering Topic Distributions from Large Language Models [10.151434138893034]
大規模言語モデル(LLM)は長く一貫性のあるテキストを生成できる。 LLMは文書を特徴付ける潜在構造を表現する必要がある。本稿では,文書のトピック構造を補完する側面について考察する。
論文参考訳（メタデータ） (2023-12-21T16:44:39Z)
"You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文参考訳（メタデータ） (2023-10-26T21:47:59Z)
On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文参考訳（メタデータ） (2023-10-21T12:43:27Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文参考訳（メタデータ） (2022-10-04T00:34:01Z)
The Limitations of Limited Context for Constituency Parsing [27.271792317099045]
Shen et al., 2018a)の構文解析アーキテクチャは、教師なし構文解析を最初に行った。現在の構文に対するニューラルアプローチはどのような構文構造を表現できるのか? 我々は確率論的自由文法(PCFG)のサンドボックスにこの疑問を解いた。これらのアプローチの表現力の重要な側面は、予測者がアクセス可能なコンテキストの量と方向性である。
論文参考訳（メタデータ） (2021-06-03T03:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。