論文の概要: Arrows of Time for Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17505v2
- Date: Sun, 10 Mar 2024 14:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:32:13.838245
- Title: Arrows of Time for Large Language Models
- Title(参考訳): 大規模言語モデルのための矢印時間
- Authors: Vassilis Papadopoulos, J\'er\'emie Wenger, Cl\'ement Hongler
- Abstract要約: 本稿では,自己回帰型大規模言語モデルによる確率論的モデリングを時間方向の角度から検討する。
我々は、そのようなモデルが自然言語をモデル化する能力で示す時間非対称性を経験的に見出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the probabilistic modeling performed by Autoregressive Large
Language Models through the angle of time directionality. We empirically find a
time asymmetry exhibited by such models in their ability to model natural
language: a difference in the average log-perplexity when trying to predict the
next token versus when trying to predict the previous one. This difference is
at the same time subtle and very consistent across various modalities
(language, model size, training time, ...). Theoretically, this is surprising:
from an information-theoretic point of view, there should be no such
difference. We provide a theoretical framework to explain how such an asymmetry
can appear from sparsity and computational complexity considerations, and
outline a number of perspectives opened by our results.
- Abstract(参考訳): 自己回帰型大言語モデルによる確率論的モデリングを時間方向の角度から検討する。
このようなモデルが自然言語をモデル化する能力で示す時間非対称性は、次のトークンを予測しようとする場合と、前のトークンを予測しようとする場合との違いである。
この違いは同時に微妙で、様々なモダリティ(言語、モデルサイズ、トレーニング時間、...)で非常に一貫性がある。
理論的には、これは驚くべきことだ:情報理論的な見地からすると、そのような違いはないはずである。
このような非対称性がスパルシリティや計算複雑性からどのように現れるのかを説明するための理論的枠組みを提供し、その結果によって開かれた多くの視点を概説する。
関連論文リスト
- Longer Fixations, More Computation: Gaze-Guided Recurrent Neural
Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。
本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。
興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文 参考訳(メタデータ) (2023-10-31T21:32:11Z) - Encoding Time-Series Explanations through Self-Supervised Model Behavior
Consistency [26.99599329431296]
トレーニング説明書の時系列一貫性モデルであるTimeXを提案する。
TimeXは、事前訓練された時系列モデルの振る舞いを模倣するために解釈可能なサロゲートを訓練する。
我々は8つの合成および実世界のデータセット上でTimeXを評価し、その性能を最先端の解釈可能性手法と比較した。
論文 参考訳(メタデータ) (2023-06-03T13:25:26Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [56.22339016797785]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。
私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文 参考訳(メタデータ) (2021-09-28T05:30:52Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。