論文の概要: Arrows of Time for Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17505v1
- Date: Tue, 30 Jan 2024 23:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:03:35.754458
- Title: Arrows of Time for Large Language Models
- Title(参考訳): 大規模言語モデルのための矢印時間
- Authors: Vassilis Papadopoulos, J\'er\'emie Wenger, Cl\'ement Hongler
- Abstract要約: 本稿では,自己回帰型大規模言語モデルによる確率論的モデリングを時間方向の角度から検討する。
我々は、そのようなモデルが自然言語をモデル化する能力で示す時間非対称性を経験的に見出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the probabilistic modeling performed by Autoregressive Large
Language Models through the angle of time directionality. We empirically find a
time asymmetry exhibited by such models in their ability to model natural
language: a difference in the average log-perplexity when trying to predict the
next token versus when trying to predict the previous one. This difference is
at the same time subtle and very consistent across various modalities
(language, model size, training time, ...). Theoretically, this is surprising:
from an information-theoretic point of view, there should be no such
difference. We provide a theoretical framework to explain how such an asymmetry
can appear from sparsity and computational complexity considerations, and
outline a number of perspectives opened by our results.
- Abstract(参考訳): 自己回帰型大言語モデルによる確率論的モデリングを時間方向の角度から検討する。
このようなモデルが自然言語をモデル化する能力で示す時間非対称性は、次のトークンを予測しようとする場合と、前のトークンを予測しようとする場合との違いである。
この違いは同時に微妙で、様々なモダリティ(言語、モデルサイズ、トレーニング時間、...)で非常に一貫性がある。
理論的には、これは驚くべきことだ:情報理論的な見地からすると、そのような違いはないはずである。
このような非対称性がスパルシリティや計算複雑性からどのように現れるのかを説明するための理論的枠組みを提供し、その結果によって開かれた多くの視点を概説する。
関連論文リスト
- XForecast: Evaluating Natural Language Explanations for Time Series Forecasting [72.57427992446698]
時系列予測は、特に正確な予測に依存するステークホルダーにとって、意思決定を支援する。
伝統的に説明可能なAI(XAI)メソッドは、機能や時間的重要性を基盤とするものであり、専門家の知識を必要とすることが多い。
時系列データにおける複雑な因果関係のため,予測NLEの評価は困難である。
論文 参考訳(メタデータ) (2024-10-18T05:16:39Z) - Contrastive Difference Predictive Coding [79.74052624853303]
本研究では、時系列データの断片を縫合して、将来の事象の予測を学習するために必要なデータの量を減少させるコントラッシブ予測符号化の時間差版を導入する。
目的条件付きRLの非政治アルゴリズムを導出するために,この表現学習手法を適用した。
論文 参考訳(メタデータ) (2023-10-31T03:16:32Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。