論文の概要: Context Is Not Comprehension: Unmasking LLM reasoning blind spots with VLO
- arxiv url: http://arxiv.org/abs/2506.04907v3
- Date: Wed, 11 Jun 2025 02:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.709012
- Title: Context Is Not Comprehension: Unmasking LLM reasoning blind spots with VLO
- Title(参考訳): コンテキストは理解できない - VLOで盲点を推論するLLMをアンマキングする
- Authors: Alex Pan, Mary-Anne Williams,
- Abstract要約: 大きな言語モデルはListOps方程式をほぼ完璧に解けるが、VLOのパフォーマンスはわずか10kトークンで崩壊する。
VLOは決定論的でネストされた計算をコヒーレントなストーリーに織り込み、モデルが明示的な値を見つけるのではなく、内部の状態を追跡して更新することを強制する。
実験により,生のListOps方程式をほぼ完全精度で解くことができるLLMが10kトークンでVLOの性能を低下させることを示した。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominant evaluation of Large Language Models has centered on their ability to surface explicit facts from increasingly vast contexts. While today's best models demonstrate near-perfect recall on these tasks, this apparent success is overly simplistic and non-representative of the complexity of human reasoning which is often highly nested. We introduce Verbose ListOps (VLO), a novel benchmark designed to isolate this failure. VLO programmatically weaves deterministic, nested computations into coherent stories, forcing models to track and update internal state rather than simply locate explicit values. Our experiments show that leading LLMs, capable of solving the raw ListOps equations with near-perfect accuracy, collapse in performance on VLO at just 10k tokens. The extensibility of VLO's generation framework to any verifiable reasoning pattern will be a critical tool, enabling model developers to move beyond context windows and robustly test new reasoning architectures; a necessary step to automating the world's knowledge work.
- Abstract(参考訳): 大規模言語モデルの圧倒的な評価は、ますます広い文脈から明らかな事実を明らかにする能力に焦点を当てている。
今日の最高のモデルでは、これらのタスクについてほぼ完璧なリコールが示されていますが、この明らかな成功は、しばしばネストされる人間の推論の複雑さを過度に単純化し、表現しないものです。
私たちは、この障害を分離するために設計された新しいベンチマークであるVerbose ListOps (VLO)を紹介します。
VLOは決定論的でネストされた計算をコヒーレントなストーリーに織り込み、モデルが明示的な値を見つけるのではなく、内部の状態を追跡して更新することを強制する。
実験の結果,LLMは生のListOps方程式をほぼ完全精度で解くことができ,VLOの性能は10kトークンで低下することがわかった。
VLO生成フレームワークの検証可能な推論パターンへの拡張性は重要なツールであり、モデル開発者がコンテキストウィンドウを超えて、新しい推論アーキテクチャを堅牢にテストできるようになる。
関連論文リスト
- END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? [37.399561533852506]
微粒化制御下での難易度と文脈長を無限に低減した算術問題を生成することができる小学校数学問題生成装置を開発した。
複雑性が増大するにつれて、推論性能が一貫したシグマノイドの低下と、体系的な推論スケーリングの傾向が見られます。
論文 参考訳(メタデータ) (2025-02-07T17:05:25Z) - Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - ULTRA: Unleash LLMs' Potential for Event Argument Extraction through Hierarchical Modeling and Pair-wise Self-Refinement [6.035020544588768]
イベント引数抽出(EAE)は、あるイベントのロール固有のテキストスパン(例えば、引数)を特定するタスクである。
本稿では,イベントの議論をよりコスト効率よく抽出する階層的枠組みを提案する。
議論の正確な境界を求める際に, LLM が直面する課題に対処するために LEAFER を導入する。
論文 参考訳(メタデータ) (2024-01-24T04:13:28Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。