Fugu-MT 論文翻訳(概要): Coherent Wave Dynamics and Language Generation of a Generative Pre-trained Transformer

論文の概要: Coherent Wave Dynamics and Language Generation of a Generative Pre-trained Transformer

arxiv url: http://arxiv.org/abs/2305.05061v1
Date: Mon, 8 May 2023 21:35:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-10 14:22:21.419279
Title: Coherent Wave Dynamics and Language Generation of a Generative Pre-trained Transformer
Title（参考訳）: 生成事前学習型変圧器のコヒーレント波動ダイナミクスと言語生成
Authors: Tao Hong
Abstract要約: 我々は、GPT(Generative Pretrained Transformer)における隠れ状態とチャネル波のダイナミクスを解析する。この結果から,波動力学は言語生成における文脈認識の可塑性と表現性とともに,連続的かつ繰り返し可能な固有振動モードを提供することが示された。さらに,様々なレベルのモデル学習におけるテキストシーケンス生成におけるスペルエラーのポアソン統計について検討した。
参考スコア（独自算出の注目度）: 0.7832189413179361
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs), such as the Generative Pretrained Transformer (GPT), have achieved tremendous success in various language tasks, but their emergent abilities have also raised many questions, concerns, and challenges that need to be addressed. To gain a better understanding of the models' inner mechanisms, we analyze the hidden state and channel wave dynamics in a small GPT, focusing on the coherence of wave patterns in terms of cross-channel correlation and individual auto-correlation. Our findings suggest that wave dynamics offer consistent and repeatable intrinsic oscillation modes, along with context-aware plasticity and expressiveness in language generation. By analyzing wave patterns, coherence, and clustering, we provide a systematic way to identify and interpret the functionality of the hidden state channels, paving the way to understand and control higher-level language pattern formation. In addition, we investigate the Poisson statistics of spelling errors in text sequence generation across various levels of model training and observe a phase-transition-like process. As coherence builds up, there is a competition between the generation of correct and misspelled words. However, once the model is adequately trained and significant coherence has emerged, the coherent process becomes strong enough to effectively suppress spelling errors, preventing the cascade amplification of defects. The distribution of correct spellings transitions from Poissonian to Sub-Poissonian, while the distribution of misspellings shows the opposite trend. By leveraging concepts and techniques from quantum physics, we gain novel insights into the dynamics of the small GPT. This approach can be extended to larger language models that exhibit more complex coherent language patterns, opening up opportunities to interpret their emergent capabilities and develop more specialized models.
Abstract（参考訳）: ジェネラティブ事前学習トランスフォーマー(gpt)のような大規模言語モデル(llm)は、様々な言語タスクで大きな成功を収めているが、その創発的な能力は、対処すべき多くの疑問、懸念、課題を提起している。モデルの内部機構をよりよく理解するために,隠れた状態とチャネル波のダイナミクスを小さなgptで解析し,チャネル間相関と個々の自己相関の観点からの波動パターンのコヒーレンスに着目した。以上より,ウェーブダイナミクスは,言語生成における文脈認識可塑性や表現性とともに,一貫性と繰り返し可能な発振モードを提供することが示唆された。ウェーブパターン、コヒーレンス、クラスタリングを分析することによって、隠れた状態チャネルの機能を特定し、解釈するための体系的な方法を提供し、高レベルの言語パターン形成を理解し、制御する方法を提供します。さらに,様々なモデルの学習レベルにわたる文列生成における綴り誤りのポアソン統計を調べ,相転移様過程を観察する。コヒーレンスが高まるにつれ、正しい単語と間違った単語の生成との間には競争がある。しかし、モデルが適切に訓練され、重要なコヒーレンスが出現すると、コヒーレントプロセスはスペルエラーを効果的に抑制し、欠陥のカスケード増幅を防ぐのに十分強くなる。正しい綴りの分布はポアソニアンからサブポアソニアンへ移行するが、ミススペルの分布は反対の傾向を示す。量子物理学からの概念と技法を活用することで、我々は小さなGPTの力学に関する新しい洞察を得る。このアプローチは、より複雑なコヒーレントな言語パターンを示す、より大きな言語モデルに拡張でき、創発的な能力を解釈し、より専門的なモデルを開発する機会を開くことができる。

関連論文リスト

Intrinsic Tensor Field Propagation in Large Language Models: A Novel Approach to Contextual Information Flow [0.0]
内在的場伝播は、様々な言語構造にわたる文脈的保持、依存性の解決、推論を改善する。オープンソーストランスフォーマーベースのモデルで行った実験では、様々な言語構造にわたる文脈保持、依存関係の解決、推論において測定可能な改善が提供されている。
論文参考訳（メタデータ） (2025-01-31T08:32:32Z)
Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文参考訳（メタデータ） (2024-12-23T10:23:47Z)
Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文参考訳（メタデータ） (2024-12-14T18:18:52Z)
Sycophancy in Large Language Models: Causes and Mitigations [0.0]
大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。シコファンの行動を示す傾向は、その信頼性と倫理的展開に重大なリスクをもたらす。本稿では, LLMにおけるサイコフィナンシーの技術的調査を行い, その原因, 影響, 潜在的な緩和戦略について分析する。
論文参考訳（メタデータ） (2024-11-22T16:56:49Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文参考訳（メタデータ） (2024-10-17T09:48:08Z)
Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文参考訳（メタデータ） (2024-10-06T13:09:48Z)
A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language [15.929767234646631]
データ、サイズ、計算量の増加は、ニューラルネットワークによる特定の能力の急激な学習につながる可能性がある。エマージェンス(emergence)とは、しばしば「エマージェンス(emergence)」と呼ばれる現象である。
論文参考訳（メタデータ） (2024-08-22T17:44:22Z)
Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-15T02:59:10Z)
Evade the Trap of Mediocrity: Promoting Diversity and Novelty in Text Generation via Concentrating Attention [85.5379146125199]
強力なトランスフォーマーアーキテクチャは高品質な文を生成するのに優れていることが証明されている。本研究では,Transformerにおけるスペーサーの注意値が多様性を向上させることを発見した。注意分布のシャープさを制御するために,新しい注意正規化損失を導入する。
論文参考訳（メタデータ） (2022-11-14T07:53:16Z)
Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文参考訳（メタデータ） (2022-10-16T04:35:58Z)
On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文参考訳（メタデータ） (2020-10-10T07:00:57Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。