Fugu-MT 論文翻訳(概要): Large-scale cloze evaluation reveals that token prediction tasks are neither lexically nor semantically aligned

論文の概要: Large-scale cloze evaluation reveals that token prediction tasks are neither lexically nor semantically aligned

arxiv url: http://arxiv.org/abs/2410.12057v1
Date: Tue, 15 Oct 2024 20:52:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.045112
Title: Large-scale cloze evaluation reveals that token prediction tasks are neither lexically nor semantically aligned
Title（参考訳）: 大規模クローゼ評価により,トークン予測タスクは語彙的にも意味的にも一致していないことが明らかになった
Authors: Cassandra L. Jacobs, Loïc Grobol, Alvin Tsang,
Abstract要約: より長く訓練された大きなモデルは、一般的に人間の反応のより良い推定方法であるが、人間の反応の確率を確実に過小評価している。この研究は、LM世代がクローゼタスクの代替やモデルのモデルとして使用できないような、トラクタブルで解釈可能な領域で実証されている。
参考スコア（独自算出の注目度）: 9.863920435398274
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work we compare the generative behavior at the next token prediction level in several language models by comparing them to human productions in the cloze task. We find that while large models trained for longer are typically better estimators of human productions, but they reliably under-estimate the probabilities of human responses, over-rank rare responses, under-rank top responses, and produce highly distinct semantic spaces. Altogether, this work demonstrates in a tractable, interpretable domain that LM generations can not be used as replacements of or models of the cloze task.
Abstract（参考訳）: 本研究は,複数の言語モデルにおける次のトークン予測レベルにおける生成挙動を,クローゼタスクにおける人為的生産と比較することによって比較する。より長くトレーニングされた大きなモデルは、一般的に人間の生産物のより良い推定方法であるが、人間の反応の確率、過剰なレアな反応、過度のトップな反応、高度に異なるセマンティックな空間を確実に過小評価している。同様に、この研究は、LM世代がクローゼタスクの置換やモデルとして使用できないような、抽出可能な解釈可能な領域で実証されている。

関連論文リスト

On the scaling relationship between cloze probabilities and language model next-token prediction [13.028726121412427]
より大きな言語モデルは、眼球運動や読解時間データにより良い予測力を持つことを示す。より大規模なモデルは、次のトークンの高品質な見積もりと、それらが語彙的共起統計に敏感でないため、クローゼデータで生産される確率を割り当てる。
論文参考訳（メタデータ） (2026-02-19T21:29:55Z)
Scriboora: Rethinking Human Pose Forecasting [44.79834103607383]
本稿では,絶対的なポーズ予測のタスクにおいて,ポーズ予測アルゴリズムを広範囲に評価する。最近の音声モデルは、ポーズ予測のタスクに効率的に適応でき、最先端の性能を向上させることができる。
論文参考訳（メタデータ） (2025-11-19T15:58:33Z)
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2023-12-11T18:17:43Z)
Can training neural language models on a curriculum with developmentally plausible data improve alignment with human reading behavior? [0.2745342790938508]
本稿では,より発達的に妥当なデータを用いたモデル学習により,経験的行動とモデル予測行動の相違が最小化できる範囲について検討する。我々は,BabyLMの「限定小」データセットを用いて教師言語モデルを訓練し,これらの教師モデルからの文レベル推定を用いてカリキュラムの作成を行った。モデルが学習データから言語知識を習得し易いという仮の証拠が得られた。
論文参考訳（メタデータ） (2023-11-30T18:03:58Z)
When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
本研究では,サイコファンティック行動に対する大規模言語モデルの提案可能性について検討する。この行動は梅毒(sycophancy)として知られ、LLMが誤解を招く反応を引き起こす傾向を描いている。
論文参考訳（メタデータ） (2023-11-15T22:18:33Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
Task Ambiguity in Humans and Language Models [7.033374427612259]
本稿では,あいまいな分類タスクのベンチマークであるAmbiBenchを提案する。 AmbiBench上での人間とモデルの評価は、意図したタスクがどの程度うまく認識されているかを確認することで行う。本研究では,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法について述べる。
論文参考訳（メタデータ） (2022-12-20T18:35:33Z)
Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文参考訳（メタデータ） (2022-10-06T00:27:50Z)
Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文参考訳（メタデータ） (2022-03-24T01:09:46Z)
Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文参考訳（メタデータ） (2022-03-14T20:13:21Z)
Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。典型的なサンプリングでは,品質面での競争性能が期待できる。
論文参考訳（メタデータ） (2022-02-01T18:58:45Z)
A comprehensive comparative evaluation and analysis of Distributional Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文参考訳（メタデータ） (2021-05-20T15:18:06Z)
Evaluating the Interpretability of Generative Models by Interactive Reconstruction [30.441247705313575]
生成モデル表現の人間解釈可能性の定量化を課題とする。このタスクのパフォーマンスは、ベースラインアプローチよりも、絡み合ったモデルと絡み合ったモデルをはるかに確実に区別する。
論文参考訳（メタデータ） (2021-02-02T02:38:14Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)
Probing the Probing Paradigm: Does Probing Accuracy Entail Task Relevance? [27.64235687067883]
モデルが訓練されたタスクに必要のないモデルでも,言語特性の符号化を学習できることが示される。ランダムノイズとしてデータに分散しても,これらの特性を確率レベルよりかなり上まで符号化できることを示す。
論文参考訳（メタデータ） (2020-05-02T06:19:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。