論文の概要: Context Is Not Comprehension
- arxiv url: http://arxiv.org/abs/2506.04907v2
- Date: Sun, 08 Jun 2025 00:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.146221
- Title: Context Is Not Comprehension
- Title(参考訳): コンテキストは理解できない
- Authors: Alex Pan, Mary-Anne Williams,
- Abstract要約: 私たちは、この障害を分離するために設計された新しいベンチマークであるVerbose ListOps (VLO)を紹介します。
VLOは決定論的でネストされた計算をコヒーレントなストーリーに織り込み、モデルが明示的な値を見つけるのではなく、内部の状態を追跡して更新することを強制する。
実験の結果,LLMは生のListOps方程式をほぼ完全精度で解くことができ,VLO上では10kトークンで崩壊することがわかった。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominant evaluation of Large Language Models has centered on their ability to surface explicit facts from increasingly vast contexts. While today's best models demonstrate near-perfect recall on these tasks, this apparent success masks a fundamental failure in multi-step computation when information is embedded in a narrative. We introduce Verbose ListOps (VLO), a novel benchmark designed to isolate this failure. VLO programmatically weaves deterministic, nested computations into coherent stories, forcing models to track and update internal state rather than simply locate explicit values. Our experiments show that leading LLMs, capable of solving the raw ListOps equations with near-perfect accuracy, collapse in performance on VLO at just 10k tokens. The VLO framework is extensible to any verifiable reasoning task, providing a critical tool to move beyond simply expanding context windows and begin building models with the robust, stateful comprehension required for complex knowledge work.
- Abstract(参考訳): 大規模言語モデルの圧倒的な評価は、ますます広い文脈から明らかな事実を明らかにする能力に焦点を当てている。
今日の最高のモデルでは、これらのタスクをほぼ完璧にリコールしているが、この明らかな成功は、情報が物語に埋め込まれているときのマルチステップ計算における根本的な失敗を隠蔽している。
私たちは、この障害を分離するために設計された新しいベンチマークであるVerbose ListOps (VLO)を紹介します。
VLOは決定論的でネストされた計算をコヒーレントなストーリーに織り込み、モデルが明示的な値を見つけるのではなく、内部の状態を追跡して更新することを強制する。
実験の結果,LLMは生のListOps方程式をほぼ完全精度で解くことができ,VLOの性能は10kトークンで低下することがわかった。
VLOフレームワークは、検証可能な推論タスクに拡張可能であり、単にコンテキストウィンドウを拡張し、複雑な知識作業に必要な堅牢でステートフルな理解でモデルを構築し始めるための重要なツールを提供する。
関連論文リスト
- END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? [37.399561533852506]
微粒化制御下での難易度と文脈長を無限に低減した算術問題を生成することができる小学校数学問題生成装置を開発した。
複雑性が増大するにつれて、推論性能が一貫したシグマノイドの低下と、体系的な推論スケーリングの傾向が見られます。
論文 参考訳(メタデータ) (2025-02-07T17:05:25Z) - Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - ULTRA: Unleash LLMs' Potential for Event Argument Extraction through Hierarchical Modeling and Pair-wise Self-Refinement [6.035020544588768]
イベント引数抽出(EAE)は、あるイベントのロール固有のテキストスパン(例えば、引数)を特定するタスクである。
本稿では,イベントの議論をよりコスト効率よく抽出する階層的枠組みを提案する。
議論の正確な境界を求める際に, LLM が直面する課題に対処するために LEAFER を導入する。
論文 参考訳(メタデータ) (2024-01-24T04:13:28Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。