Fugu-MT 論文翻訳(概要): Humans and language models diverge when predicting repeating text

論文の概要: Humans and language models diverge when predicting repeating text

arxiv url: http://arxiv.org/abs/2310.06408v2
Date: Mon, 23 Oct 2023 03:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 06:38:22.088210
Title: Humans and language models diverge when predicting repeating text
Title（参考訳）: 繰り返しテキストを予測する際の人文モデルと言語モデル
Authors: Aditya R. Vaidya, Javier Turek, Alexander G. Huth
Abstract要約: 我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
参考スコア（独自算出の注目度）: 52.03471802608112
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models that are trained on the next-word prediction task have been shown to accurately model human behavior in word prediction and reading speed. In contrast with these findings, we present a scenario in which the performance of humans and LMs diverges. We collected a dataset of human next-word predictions for five stimuli that are formed by repeating spans of text. Human and GPT-2 LM predictions are strongly aligned in the first presentation of a text span, but their performance quickly diverges when memory (or in-context learning) begins to play a role. We traced the cause of this divergence to specific attention heads in a middle layer. Adding a power-law recency bias to these attention heads yielded a model that performs much more similarly to humans. We hope that this scenario will spur future work in bringing LMs closer to human behavior.
Abstract（参考訳）: 単語予測タスクで訓練された言語モデルは、単語予測と読み速度で人間の行動を正確にモデル化することが示されている。これらの結果とは対照的に,人間とlmsの性能が分岐するシナリオを示す。テキストの繰り返しによって形成される5つの刺激に対して,人間の次の単語予測のデータセットを収集した。人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリ(またはテキスト内学習)が役割を担い始めると、その性能は急速に多様化する。我々はこの分岐の原因を中層における特定の注意頭まで追跡した。これらの注意に力の弱い傾向バイアスを加えることで、人間と同じような働きをするモデルが生まれました。このシナリオが、lmsを人間の行動に近づける今後の取り組みを促すことを期待しています。

関連論文リスト

Reverse-Engineering the Reader [43.26660964074272]
本稿では,線形回帰器のパラメータを暗黙的に最適化するために,言語モデルを微調整する新しいアライメント手法を提案する。単語をテストケースとして使用し、複数のモデルサイズとデータセットにわたる手法を評価する。ダウンストリームNLPタスクにおける心理測定パワーとモデルの性能の逆関係と、ホールドアウトテストデータにおけるその難易度を見出した。
論文参考訳（メタデータ） (2024-10-16T23:05:01Z)
Look Hear: Gaze Prediction for Speech-directed Human Attention [49.81718760025951]
本研究は、人物が画像を見て、参照表現を聴いているときの注意の漸進的な予測に焦点を当てた。我々は,参照表現において各単語が引き起こす人間の定着を予測できるリファラルトランスフォーマーモデル(ART)を開発した。定量的および定性的な分析では、ARTはスキャンパス予測の既存の手法よりも優れているだけでなく、いくつかの人間の注意パターンを捉えているように見える。
論文参考訳（メタデータ） (2024-07-28T22:35:08Z)
Why Does Surprisal From Larger Transformer-Based Language Models Provide a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文参考訳（メタデータ） (2022-12-23T03:57:54Z)
Collateral facilitation in humans and language models [0.6091702876917281]
人間は、非常に異常な単語に対して、同様の処理の利点を示す。本稿では、人間の言語理解と言語モデルによる予測の両方を理解することの意味について論じる。
論文参考訳（メタデータ） (2022-11-09T21:08:08Z)
Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文参考訳（メタデータ） (2022-04-17T11:21:18Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。本研究では,このアプローチをニューラルLMの文脈で再考する。
論文参考訳（メタデータ） (2022-03-21T01:16:44Z)
Multilingual Language Models Predict Human Reading Behavior [8.830621849672108]
言語固有および多言語事前学習トランスフォーマーモデルの性能比較を行い,読解時間尺度の予測を行った。 BERT と XLM のモデルでは,様々な視線追跡特性の予測に成功している。一連の実験で、これらのモデルのクロスドメインおよびクロス言語能力を分析し、人間の文処理をどのように反映するかを示す。
論文参考訳（メタデータ） (2021-04-12T13:03:49Z)
Adversarial Generative Grammars for Human Activity Prediction [141.43526239537502]
将来予測のための逆生成文法モデルを提案する。私たちの文法は、データ分散から生産ルールを学習できるように設計されています。推論中に複数の生産ルールを選択することができると、予測される結果が異なる。
論文参考訳（メタデータ） (2020-08-11T17:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。