論文の概要: Verbose ListOps (VLO): Beyond Long Context -- Unmasking LLM's Reasoning Blind Spots
- arxiv url: http://arxiv.org/abs/2506.04907v1
- Date: Thu, 05 Jun 2025 11:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.678671
- Title: Verbose ListOps (VLO): Beyond Long Context -- Unmasking LLM's Reasoning Blind Spots
- Title(参考訳): Verbose ListOps (VLO): 長いコンテキストを超えた - LLMの推論する盲点を解き放つ
- Authors: Alex Pan, Mary-Anne Williams,
- Abstract要約: 大規模言語モデル(LLM)は、ネストされた物語の推論に苦しむ。
本稿では,新しい計算を長いコヒーレントなストーリーに変換するVerbose ListOpsを紹介する。
実験の結果,LLMは物語長の少ないVerbose ListOpsで性能が低下することがわかった。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), whilst great at extracting facts from text, struggle with nested narrative reasoning. Existing long context and multi-hop QA benchmarks inadequately test this, lacking realistic distractors or failing to decouple context length from reasoning complexity, masking a fundamental LLM limitation. We introduce Verbose ListOps, a novel benchmark that programmatically transposes ListOps computations into lengthy, coherent stories. This uniquely forces internal computation and state management of nested reasoning problems by withholding intermediate results, and offers fine-grained controls for both narrative size \emph{and} reasoning difficulty. Whilst benchmarks like LongReason (2025) advance approaches for synthetically expanding the context size of multi-hop QA problems, Verbose ListOps pinpoints a specific LLM vulnerability: difficulty in state management for nested sub-reasoning amongst semantically-relevant, distracting narrative. Our experiments show that leading LLMs (e.g., OpenAI o4, Gemini 2.5 Pro) collapse in performance on Verbose ListOps at modest (~10k token) narrative lengths, despite effortlessly solving raw ListOps equations. Addressing this failure is paramount for real-world text interpretation which requires identifying key reasoning points, tracking conceptual intermediate results, and filtering irrelevant information. Verbose ListOps, and its extensible generation framework thus enables targeted reasoning enhancements beyond mere context-window expansion; a critical step to automating the world's knowledge work.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストから事実を抽出することに長けている一方で、ネストされた物語の推論と苦労している。
既存のコンテキストとマルチホップのQAベンチマークは、これを不十分にテストし、現実的な障害を欠いたり、コンテキストの長さを複雑さの推論から切り離すことができず、基本的なLCM制限を隠蔽する。
Verbose ListOpsは、ListOpsの計算を長い一貫性のあるストーリーにプログラムで変換する新しいベンチマークである。
このことは、中間結果の保持によってネスト推論問題の内部計算と状態管理を独特に強制し、物語サイズの \emph{and} 推論の難易度をきめ細かな制御を提供する。
LongReason (2025)のようなベンチマークでは、マルチホップQA問題のコンテキストサイズを合成的に拡張するアプローチが進んでいるが、Verbose ListOpsでは、特定のLLM脆弱性を指摘している。
実験の結果,LLM(例: OpenAI o4, Gemini 2.5 Pro)は,生のListOps方程式を熱心に解いたにもかかわらず,平凡な(~10kトークン)ナラティブ長でのVerbose ListOpsのパフォーマンスが低下していることが判明した。
この失敗に対処することは、重要な推論ポイントの特定、概念的な中間結果の追跡、無関係な情報のフィルタリングを必要とする現実世界のテキスト解釈にとって最重要である。
Verbose ListOpsとその拡張可能な生成フレームワークは、単にコンテキストウィンドウの拡張を超えて、ターゲット推論の拡張を可能にする。
関連論文リスト
- END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? [37.399561533852506]
微粒化制御下での難易度と文脈長を無限に低減した算術問題を生成することができる小学校数学問題生成装置を開発した。
複雑性が増大するにつれて、推論性能が一貫したシグマノイドの低下と、体系的な推論スケーリングの傾向が見られます。
論文 参考訳(メタデータ) (2025-02-07T17:05:25Z) - Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - ULTRA: Unleash LLMs' Potential for Event Argument Extraction through Hierarchical Modeling and Pair-wise Self-Refinement [6.035020544588768]
イベント引数抽出(EAE)は、あるイベントのロール固有のテキストスパン(例えば、引数)を特定するタスクである。
本稿では,イベントの議論をよりコスト効率よく抽出する階層的枠組みを提案する。
議論の正確な境界を求める際に, LLM が直面する課題に対処するために LEAFER を導入する。
論文 参考訳(メタデータ) (2024-01-24T04:13:28Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。