Fugu-MT 論文翻訳(概要): Words, Subwords, and Morphemes: What Really Matters in the Surprisal-Reading Time Relationship?

論文の概要: Words, Subwords, and Morphemes: What Really Matters in the Surprisal-Reading Time Relationship?

arxiv url: http://arxiv.org/abs/2310.17774v1
Date: Thu, 26 Oct 2023 20:55:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 15:35:37.664641
Title: Words, Subwords, and Morphemes: What Really Matters in the Surprisal-Reading Time Relationship?
Title（参考訳）: 単語、サブワード、モーフィム:超越的な読む時間関係で本当に重要なのは何か?
Authors: Sathvik Nair and Philip Resnik
Abstract要約: LLMに基づく予測は、単語を形態素に分解するのではなく、サブワードトークン化に基づいている。読み出し時刻データに対する正書法,形態学,BPEトークン化を用いた推定値の比較を行った。
参考スコア（独自算出の注目度）: 7.156628542829618
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An important assumption that comes with using LLMs on psycholinguistic data has gone unverified. LLM-based predictions are based on subword tokenization, not decomposition of words into morphemes. Does that matter? We carefully test this by comparing surprisal estimates using orthographic, morphological, and BPE tokenization against reading time data. Our results replicate previous findings and provide evidence that in the aggregate, predictions using BPE tokenization do not suffer relative to morphological and orthographic segmentation. However, a finer-grained analysis points to potential issues with relying on BPE-based tokenization, as well as providing promising results involving morphologically-aware surprisal estimates and suggesting a new method for evaluating morphological prediction.
Abstract（参考訳）: LLMを精神言語学的データに使用するという重要な仮定は、検証されていない。 LLMに基づく予測は、単語を形態素に分解するのではなく、サブワードトークン化に基づいている。それが問題か? 本研究は, 読み出し時刻データに対して, 正書法, 形態学およびBPEトークン化を用いて, 予備推定値を比較し, 慎重に検証する。以上の結果から,bpeトークン化を用いた予測は形態的および正書法的セグメント化に比較しては耐えられないことが示唆された。しかし、よりきめ細かい分析は、BPEベースのトークン化に頼る際の潜在的な問題と、形態学的に認識された予備推定を含む有望な結果を提供し、形態学的予測の新しい方法を提案する。

関連論文リスト

MorphBPE: A Morpho-Aware Tokenizer Bridging Linguistic Complexity for Efficient LLM Training Across Morphologies [0.8029049649310211]
トークン化は自然言語処理(NLP)の基本である MorphBPEはByte Pairのモルフォロジーを意識した拡張である。統計的効率を保ちながら、言語構造をサブワードトークン化に統合する。
論文参考訳（メタデータ） (2025-02-02T20:06:39Z)
Morphological Typology in BPE Subword Productivity and Language Modeling [0.0]
合成および解析的形態構造を持つ言語に着目し,トークン化時の生産性について検討する。合成特徴を持つ言語は、BPEトークン化により、より高いサブワード規則性と生産性を示す。
論文参考訳（メタデータ） (2024-10-31T06:13:29Z)
From Text to Treatment Effects: A Meta-Learning Approach to Handling Text-Based Confounding [7.5348062792]
本稿では,共起変数をテキストで表現する場合のメタラーナーの性能について検討する。共同創設者の事前学習したテキスト表現を用いた学習者は,CATE推定精度の向上を図っている。テキスト埋め込みの絡み合った性質のため、これらのモデルは、完全な共同創設者の知識を持つメタ学習者のパフォーマンスと完全には一致しない。
論文参考訳（メタデータ） (2024-09-23T19:46:19Z)
On the Role of Context in Reading Time Prediction [50.87306355705826]
我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。提案手法は,言語単位の処理作業が文脈内情報の内容のアフィン関数であることを示す素因的理論に基づいている。
論文参考訳（メタデータ） (2024-09-12T15:52:22Z)
LIPEx-Locally Interpretable Probabilistic Explanations-To Look Beyond The True Class [17.12486200215929]
LIPExは摂動に基づく多クラス説明フレームワークである。重要と思われるすべての機能が、可能なクラス毎に予測確率にどのように影響するかについて、洞察を提供する。
論文参考訳（メタデータ） (2023-10-07T15:31:38Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文参考訳（メタデータ） (2023-05-23T03:55:50Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。複数の臨床データセットに対するTAMLの有効性を示す。
論文参考訳（メタデータ） (2023-03-05T03:54:54Z)
Why Does Surprisal From Larger Transformer-Based Language Models Provide a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文参考訳（メタデータ） (2022-12-23T03:57:54Z)
Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。本研究では,このアプローチをニューラルLMの文脈で再考する。
論文参考訳（メタデータ） (2022-03-21T01:16:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。