論文の概要: What am I missing here?: Evaluating Large Language Models for Masked Sentence Prediction
- arxiv url: http://arxiv.org/abs/2508.07702v1
- Date: Mon, 11 Aug 2025 07:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.989403
- Title: What am I missing here?: Evaluating Large Language Models for Masked Sentence Prediction
- Title(参考訳): ここで何が欠けているのか:マスケ文予測のための大規模言語モデルの評価
- Authors: Charlie Wyatt, Aditya Joshi, Flora Salim,
- Abstract要約: Next Token Prediction (NTP)は、モデルを事前計画したり、長距離コヒーレンスを維持する能力を制限する。
マスケ文予測(MSP)における3つの商用LCMの評価
我々の重要な発見は、商業LLMが、他のタスクにおいて最上級のパフォーマンスにもかかわらず、低構造領域におけるマスキング文の予測に不適であることを明らかにしている。
- 参考スコア(独自算出の注目度): 2.8514881296685113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models primarily rely on Next Token Prediction (NTP), which predicts the next token in a sequence based on the preceding context. However, NTP's focus on single-token prediction often limits a model's ability to plan ahead or maintain long-range coherence, raising questions about how well LLMs can predict longer contexts, such as full sentences within structured documents. While NTP encourages local fluency, it provides no explicit incentive to ensure global coherence across sentence boundaries-an essential skill for reconstructive or discursive tasks. To investigate this, we evaluate three commercial LLMs (GPT-4o, Claude 3.5 Sonnet, and Gemini 2.0 Flash) on Masked Sentence Prediction (MSP) - the task of infilling a randomly removed sentence - from three domains: ROCStories (narrative), Recipe1M (procedural), and Wikipedia (expository). We assess both fidelity (similarity to the original sentence) and cohesiveness (fit within the surrounding context). Our key finding reveals that commercial LLMs, despite their superlative performance in other tasks, are poor at predicting masked sentences in low-structured domains, highlighting a gap in current model capabilities.
- Abstract(参考訳): トランスフォーマーベースのモデルは、主にNext Token Prediction (NTP)に依存し、前のコンテキストに基づいてシーケンス内の次のトークンを予測する。
しかしながら、NTPがシングルトークン予測にフォーカスすることは、モデルが事前計画したり、長距離コヒーレンスを維持する能力を制限することが少なく、構造化文書内の全文など、LLMがいかに長いコンテキストを予測できるかという疑問を提起する。
NTPは局所流布を奨励するが、文境界を越えたグローバルコヒーレンスを確保するための明示的なインセンティブは提供されない。
そこで我々は,3つの領域,ROCStories (ナラティブ), Recipe1M (プロデューラル), Wikipedia (エビデンス) の3つの商用LCM (GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash) をMasked Sentence Prediction (MSP) 上で評価した。
文の忠実度(原文と類似性)と密着度(周囲の文脈に適合)の両方を評価する。
我々の重要な発見は、商業LLMは、他のタスクでは最上位のパフォーマンスにもかかわらず、低構造領域におけるマスキング文の予測が不十分であることを示し、現在のモデル能力のギャップを浮き彫りにしている。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Correlation and Navigation in the Vocabulary Key Representation Space of Language Models [33.747872934103334]
鍵分布がNTP分布に及ぼす影響について検討した。
NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。
提案手法をオープンエンドおよびチェーンオブ思考(推論)生成に拡張する。
論文 参考訳(メタデータ) (2024-10-03T08:07:55Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。