論文の概要: Large-scale cloze evaluation reveals that token prediction tasks are neither lexically nor semantically aligned
- arxiv url: http://arxiv.org/abs/2410.12057v2
- Date: Mon, 28 Oct 2024 17:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:27.923335
- Title: Large-scale cloze evaluation reveals that token prediction tasks are neither lexically nor semantically aligned
- Title(参考訳): 大規模クローゼ評価により,トークン予測タスクは語彙的にも意味的にも一致していないことが明らかになった
- Authors: Cassandra L. Jacobs, Loïc Grobol, Alvin Tsang,
- Abstract要約: より長く訓練された大きなモデルは、一般的に人間の反応のより良い推定方法であるが、人間の反応の確率を確実に過小評価している。
この研究は、LM世代がクローゼタスクの代替やモデルのモデルとして使用できないような、トラクタブルで解釈可能な領域で実証されている。
- 参考スコア(独自算出の注目度): 9.863920435398274
- License:
- Abstract: In this work we compare the generative behavior at the next token prediction level in several language models by comparing them to human productions in the cloze task. We find that while large models trained for longer are typically better estimators of human productions, but they reliably under-estimate the probabilities of human responses, over-rank rare responses, under-rank top responses, and produce highly distinct semantic spaces. Altogether, this work demonstrates in a tractable, interpretable domain that LM generations can not be used as replacements of or models of the cloze task.
- Abstract(参考訳): 本研究は,複数の言語モデルにおける次のトークン予測レベルにおける生成挙動を,クローゼタスクにおける人為的生産と比較することによって比較する。
より長くトレーニングされた大きなモデルは、一般的に人間の生産物のより良い推定方法であるが、人間の反応の確率、過剰なレアな反応、過度のトップな反応、高度に異なるセマンティックな空間を確実に過小評価している。
同様に、この研究は、LM世代がクローゼタスクの置換やモデルとして使用できないような、抽出可能な解釈可能な領域で実証されている。
関連論文リスト
- Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Can training neural language models on a curriculum with developmentally
plausible data improve alignment with human reading behavior? [0.2745342790938508]
本稿では,より発達的に妥当なデータを用いたモデル学習により,経験的行動とモデル予測行動の相違が最小化できる範囲について検討する。
我々は,BabyLMの「限定小」データセットを用いて教師言語モデルを訓練し,これらの教師モデルからの文レベル推定を用いてカリキュラムの作成を行った。
モデルが学習データから言語知識を習得し易いという仮の証拠が得られた。
論文 参考訳(メタデータ) (2023-11-30T18:03:58Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Task Ambiguity in Humans and Language Models [7.033374427612259]
本稿では,あいまいな分類タスクのベンチマークであるAmbiBenchを提案する。
AmbiBench上での人間とモデルの評価は、意図したタスクがどの程度うまく認識されているかを確認することで行う。
本研究では,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法について述べる。
論文 参考訳(メタデータ) (2022-12-20T18:35:33Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Evaluating the Interpretability of Generative Models by Interactive
Reconstruction [30.441247705313575]
生成モデル表現の人間解釈可能性の定量化を課題とする。
このタスクのパフォーマンスは、ベースラインアプローチよりも、絡み合ったモデルと絡み合ったモデルをはるかに確実に区別する。
論文 参考訳(メタデータ) (2021-02-02T02:38:14Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Probing the Probing Paradigm: Does Probing Accuracy Entail Task
Relevance? [27.64235687067883]
モデルが訓練されたタスクに必要のないモデルでも,言語特性の符号化を学習できることが示される。
ランダムノイズとしてデータに分散しても,これらの特性を確率レベルよりかなり上まで符号化できることを示す。
論文 参考訳(メタデータ) (2020-05-02T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。