論文の概要: LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion
- arxiv url: http://arxiv.org/abs/2501.15089v1
- Date: Sat, 25 Jan 2025 05:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 21:57:03.516119
- Title: LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion
- Title(参考訳): LongReason: コンテキスト拡張による合成ロングコンテキスト推論ベンチマーク
- Authors: Zhan Ling, Kang Liu, Kai Yan, Yifan Yang, Weijian Lin, Ting-Han Fan, Lingfeng Shen, Zhengyin Du, Jiecao Chen,
- Abstract要約: LongReasonは、大規模言語モデルの長文推論能力を評価するための総合ベンチマークである。
LongReasonは、3つのタスクカテゴリにまたがる多様な推論パターンを持つ794の多重選択推論質問で構成されている。
LLMをLongReason上で評価した結果,コンテキスト長の増加に伴い,ほとんどのモデルが大幅な性能低下を経験していることが判明した。
- 参考スコア(独自算出の注目度): 20.293369733522983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable progress in understanding long-context inputs. However, benchmarks for evaluating the long-context reasoning abilities of LLMs fall behind the pace. Existing benchmarks often focus on a narrow range of tasks or those that do not demand complex reasoning. To address this gap and enable a more comprehensive evaluation of the long-context reasoning capabilities of current LLMs, we propose a new synthetic benchmark, LongReason, which is constructed by synthesizing long-context reasoning questions from a varied set of short-context reasoning questions through context expansion. LongReason consists of 794 multiple-choice reasoning questions with diverse reasoning patterns across three task categories: reading comprehension, logical inference, and mathematical word problems. We evaluate 21 LLMs on LongReason, revealing that most models experience significant performance drops as context length increases. Our further analysis shows that even state-of-the-art LLMs still have significant room for improvement in providing robust reasoning across different tasks. We will open-source LongReason to support the comprehensive evaluation of LLMs' long-context reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル (LLM) は長文入力の理解において顕著な進歩を見せている。
しかし,LLMの長文推論能力を評価するためのベンチマークは遅れている。
既存のベンチマークでは、狭い範囲のタスクや複雑な推論を必要としないタスクに重点を置いていることが多い。
このギャップに対処し、より包括的なLLMの長文推論能力の評価を可能にするために、コンテキスト拡張による様々な短文推論質問から長文推論質問を合成して構築した新しい合成ベンチマークであるLongReasonを提案する。
LongReasonは3つのタスクカテゴリにまたがる多様な推論パターンを持つ794の多重選択推論質問で構成されている。
LLMをLongReason上で評価した結果,コンテキスト長の増加に伴い,ほとんどのモデルが大幅な性能低下を経験していることが判明した。
我々のさらなる分析は、最先端のLLMでさえ、さまざまなタスクに対して堅牢な推論を提供するための大きな改善の余地があることを示しています。
我々はLongReasonをオープンソース化し、LLMの長文推論能力の包括的な評価をサポートする。
関連論文リスト
- Flora: Effortless Context Construction to Arbitrary Length and Scale [71.12886910497284]
本稿では,人間/LLMフリーの長文構成戦略であるFloraを紹介する。
Llama3-8B-InstructとQwQ-32Bの実験では、Floraは3つの長文のベンチマークで優れており、短文のタスクでは強いパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-07-26T04:21:21Z) - Ref-Long: Benchmarking the Long-context Referencing Capability of Long-context Language Models [36.69535336525585]
長文言語モデル(LCLM)は、長文理解タスクにおいて印象的な機能を示した。
長文参照は、LCLMが関心のある項目を長文データの特定の部分に属性付けする必要がある重要なタスクである。
本稿では,LCLMの長文参照能力を評価するための新しいベンチマークであるRef-Longを提案する。
論文 参考訳(メタデータ) (2025-07-13T06:17:53Z) - AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models [56.063571989395946]
推論可能な大規模言語モデル(LLM)は、複雑な推論タスクにおいて強力な性能を示す。
最近のアプローチでは、長い推論や短い推論をいつ適用すべきかを手動で決めることによって、この問題に対処しようとしている。
本稿では,LLMが生成した推論経路を動的に圧縮できる動的かつモデルに依存しないフレームワークであるAuto Long-Short Reasoning (AutoL2S)を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:53Z) - 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。
長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2025-05-25T19:58:31Z) - Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning [23.301029291780317]
そこで本研究では,SFT(Supervised Fine-Tuning)に先立って,モデル長文化能力の向上が推論性能の向上に繋がるかどうかを検討する。
その結果,SFT後の推論ベンチマークにおいて,より強い長コンテキスト能力を持つモデルの方が高い精度が得られるという一貫した傾向がみられた。
これらの結果から,長文モデリングは長文入力の処理に必須であるだけでなく,推論において重要な基礎となることが示唆された。
論文 参考訳(メタデータ) (2025-05-22T22:09:47Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。
現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。
本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文 参考訳(メタデータ) (2024-10-04T08:29:12Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。