論文の概要: Critical Phase Transition in a Large Language Model
- arxiv url: http://arxiv.org/abs/2406.05335v1
- Date: Sat, 8 Jun 2024 03:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:14:35.893234
- Title: Critical Phase Transition in a Large Language Model
- Title(参考訳): 大規模言語モデルにおける臨界相転移
- Authors: Kai Nakaishi, Yoshihiko Nishikawa, Koji Hukushima,
- Abstract要約: この2つの状態の違いは、単に滑らかな変化ではなく、特異な統計量の相転移であることを示す。
我々の広範な分析は、テキスト中の相関関係のパワー-ロッド崩壊のような臨界挙動が、遷移温度で LLM に現れることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of large language models (LLMs) strongly depends on the \textit{temperature} parameter. Empirically, at very low temperatures, LLMs generate sentences with clear repetitive structures, while at very high temperatures, generated sentences are often incomprehensible. In this study, using GPT-2, we numerically demonstrate that the difference between the two regimes is not just a smooth change but a phase transition with singular, divergent statistical quantities. Our extensive analysis shows that critical behaviors, such as a power-law decay of correlation in a text, emerge in the LLM at the transition temperature as well as in a natural language dataset. We also discuss that several statistical quantities characterizing the criticality should be useful to evaluate the performance of LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) の性能は, <textit{temperature} パラメータに強く依存する。
経験的に、非常に低温では、LLMは明確な繰り返し構造を持つ文を生成するが、非常に高温では、生成された文はしばしば理解できない。
本研究は, GPT-2を用いて, 両者の相違は単に滑らかな変化ではなく, 特異な発散した統計量による相転移であることを示す。
我々の広範な分析は、テキスト中の相関関係のパワー-ロッド崩壊のような臨界挙動が、遷移温度および自然言語データセットで LLM に現れることを示している。
また, 臨界度を特徴付ける統計量は, LLMの性能評価に有用であると考えられる。
関連論文リスト
- Phase Transitions in Large Language Models and the $O(N)$ Model [0.0]
我々はTransformerアーキテクチャを$O(N)$モデルとして再構成し,大規模言語モデルにおける位相遷移について検討した。
本研究は,テキスト生成に使用される温度に対応する相転移を2つ明らかにした。
アプリケーションとして、$O(N)$モデルのエネルギーを用いて、LLMのパラメータがトレーニングデータを学ぶのに十分かどうかを評価することができる。
論文 参考訳(メタデータ) (2025-01-27T17:36:06Z) - A Comparative Study of Learning Paradigms in Large Language Models via Intrinsic Dimension [16.671316494925346]
大規模言語モデル(LLM)の隠れ表現に対する教師付き微調整と文脈内学習の効果について検討する。
我々はまず,LLM表現のIDがSFT中にどのように進化するか,ICLにおける実演数によってどのように変化するかを検討する。
次に、SFTとICLによって誘導されるIDを比較し、ICLはSFTと比較して常に高いIDを誘導する。
論文 参考訳(メタデータ) (2024-12-09T06:37:35Z) - First numerical observation of the Berezinskii-Kosterlitz-Thouless transition in language models [1.4061979259370274]
自然言語モデルの枠組みにおける不明瞭な相転移を数値的に示す。
我々は相転移をベレジンスキー-コステリッツ-トゥーレス転移の変種として同定する。
論文 参考訳(メタデータ) (2024-12-02T07:32:32Z) - Exploring Continual Fine-Tuning for Enhancing Language Ability in Large Language Model [14.92282077647913]
CFT(Continuous Fine-tuning)は、LLMを逐次微調整することで、モデルが下流のタスクに適応できるようにするプロセスである。
多言語データセット上で英語のみの細調整LDMを逐次微調整する2相CFTプロセスについて検討する。
第2相タスクと第1相タスクの類似性'''がLCMの適応性を決定することを観察する。
論文 参考訳(メタデータ) (2024-10-21T13:39:03Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Measurement-Driven Phase Transition within a Volume-Law Entangled Phase [0.0]
本研究では,非局所的かつ少数身体的ユニタリダイナミクスにおける2種類のボリュームロー絡み合い相の遷移について検討する。
一相では、有限分数は完全に絡み合った状態に属し、二相では、定常状態は広範囲に多くの有限部分系上の積状態である。
論文 参考訳(メタデータ) (2020-05-06T18:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。