論文の概要: Unmasking the Limits of Large Language Models: A Systematic Evaluation of Masked Text Processing Ability through MskQA and MskCal
- arxiv url: http://arxiv.org/abs/2411.05665v1
- Date: Fri, 08 Nov 2024 16:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:41.059483
- Title: Unmasking the Limits of Large Language Models: A Systematic Evaluation of Masked Text Processing Ability through MskQA and MskCal
- Title(参考訳): 大規模言語モデルの限界を解き明かす:MskQAとMskCalによるマスケテキスト処理能力の体系的評価
- Authors: Fuka Matsuzaki, Haru-Tada Sato,
- Abstract要約: 本稿では,多言語モデル (LLM) の限界に光を当て,マスキングされたテキストの処理能力を厳格に評価する。
MskQA、RealtimeQA、MskCalの2つの新しいタスクを紹介し、マスク付き算術問題に対する数値推論を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper sheds light on the limitations of Large Language Models (LLMs) by rigorously evaluating their ability to process masked text. We introduce two novel tasks: MskQA, measuring reasoning on masked question-answering datasets like RealtimeQA, and MskCal, assessing numerical reasoning on masked arithmetic problems.Testing GPT-4o and 4o-mini reveals that while LLMs exhibit some resilience to masked text, their performance is highly contingent on masking rates and semantic cues. Specifically, "solid masking," where semantic clues are entirely absent, leads to a significant performance drop compared to "partial lifting," where some semantic information is retained, indicating LLMs' reliance on surface-level patterns. Interestingly, GPT-4o consistently outperforms 4o-mini, particularly in MskCal, demonstrating a greater ability to handle numerical reasoning with masked text. This underscores the crucial role of semantic cues in the reasoning process of LLMs. Our study illuminates the interplay between background knowledge and reasoning ability in masked text processing, paving the way for a deeper understanding of LLM capabilities and limitations, and highlighting the need for more robust evaluation methods to accurately assess their true comprehension abilities.
- Abstract(参考訳): 本稿では,多言語モデル(LLM)の限界に光を当てて,マスキングされたテキストの処理能力を厳格に評価する。
MskQA(RealtimeQA)やMskCal(MskCal)のようなマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスシークシークシークシークシークシークシークシークシークシークシークシークシークシークシークシークシークエンス)の2つの新しいタスクを紹介した。
具体的には、セマンティックな手がかりが完全に欠落している「ソリッド・マスキング」は、いくつかのセマンティックな情報が保持されている「部分的リフティング」と比較して大きなパフォーマンス低下をもたらし、LLMが表面レベルのパターンに依存していることを示している。
興味深いことに、GPT-4o は 4o-mini を一貫して上回り、特に MskCal ではマスク付きテキストで数値推論を扱う能力が向上している。
このことは、LLMの推論過程における意味的手がかりの重要な役割を浮き彫りにする。
本研究は、暗黙のテキスト処理における背景知識と推論能力の相互作用を照らし、LLMの能力と限界をより深く理解するための道を開くとともに、それらの真の理解能力を正確に評価するためのより堅牢な評価方法の必要性を強調した。
関連論文リスト
- Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
このフレームワークはLLMの扱いやすいパーティションを提供し、理解を深める。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Quartet Logic: A Four-Step Reasoning (QLFR) framework for advancing
Short Text Classification [5.561563686684933]
短いテキスト分類(STC)は、現代デジタルプラットフォームで広く普及している短いが実質的な内容の処理と理解に不可欠である。
LLM(Large Language Models)とCoT(Chain-of-Thought)の出現により、複雑な推論タスクのパフォーマンスが大幅に向上した。
本稿では、Quartet Logic: A Four-Step Reasoning (QLFR)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-01-06T08:28:20Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。