論文の概要: Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision
- arxiv url: http://arxiv.org/abs/2502.20790v1
- Date: Fri, 28 Feb 2025 07:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:36.299535
- Title: Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision
- Title(参考訳): Chain-of-Thought Matters:Reasoning Path Supervisionによる長期言語モデルの改善
- Authors: Dawei Zhu, Xiyu Wei, Guangxiang Zhao, Wenhao Wu, Haosheng Zou, Junfeng Ran, Xun Wang, Lin Sun, Xiangzheng Zhang, Sujian Li,
- Abstract要約: Chain-of-Thoughtプロンプトは、多段階推論を約束するが、長文シナリオの有効性は未検討のままである。
本稿では,LongRePSを提案する。LongRePSは,長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるフレームワークである。
本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
- 参考スコア(独自算出の注目度): 40.63870977649693
- License:
- Abstract: Recent advances in Large Language Models (LLMs) have highlighted the challenge of handling long-context tasks, where models need to reason over extensive input contexts to aggregate target information. While Chain-of-Thought (CoT) prompting has shown promise for multi-step reasoning, its effectiveness for long-context scenarios remains underexplored. Through systematic investigation across diverse tasks, we demonstrate that CoT's benefits generalize across most long-context scenarios and amplify with increasing context length. Motivated by this critical observation, we propose LongRePS, a process-supervised framework that teaches models to generate high-quality reasoning paths for enhanced long-context performance. Our framework incorporates a self-sampling mechanism to bootstrap reasoning paths and a novel quality assessment protocol specifically designed for long-context scenarios. Experimental results on various long-context benchmarks demonstrate the effectiveness of our approach, achieving significant improvements over outcome supervision baselines on both in-domain tasks (+13.6/+3.8 points for LLaMA/Qwen on MuSiQue) and cross-domain generalization (+9.3/+8.1 points on average across diverse QA tasks). Our code, data and trained models are made public to facilitate future research.
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩は、ターゲット情報を集約するために、広範囲な入力コンテキストをモデルが推論する必要がある、長期コンテキストタスクを扱うという課題を浮き彫りにした。
Chain-of-Thought (CoT) のプロンプトは多段階推論の可能性を示唆しているが、長文シナリオの有効性は未解明のままである。
多様なタスクに対する体系的な調査を通じて、CoTの利点は、多くの長期コンテキストシナリオにまたがって一般化され、コンテキスト長の増大とともに増幅されることを実証する。
この批判的な観察によって動機づけられたLongRePSは、長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるプロセス教師付きフレームワークである。
本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
様々な長期コンテキストベンチマークによる実験結果から,本手法の有効性が示され,各領域のタスク(LLaMA/Qwen on MuSiQueでは+13.6/+3.8ポイント)とクロスドメインの一般化(QAタスク全体で平均+9.3/+8.1ポイント)において,結果の監督基準よりも大幅に向上した。
私たちのコード、データ、トレーニングされたモデルは、将来の研究を促進するために公開されています。
関連論文リスト
- SEAL: Scaling to Emphasize Attention for Long-Context Retrieval [9.446971590056945]
我々は、長期文脈検索(SEAL)における注意を強調するためのスケーリングと呼ばれる新しいアプローチを導入する。
これにより、拡張コンテキスト上での大規模言語モデル(LLM)の検索性能が向上する。
論文 参考訳(メタデータ) (2025-01-25T14:09:39Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。