論文の概要: Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2502.13127v1
- Date: Tue, 18 Feb 2025 18:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:30.466408
- Title: Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning
- Title(参考訳): 教師付きチェーン・オブ・ソート推論による長期的文脈理解の実現
- Authors: Jingyang Lin, Andy Wong, Tian Xia, Shenghua He, Hui Wei, Mei Han, Jiebo Luo,
- Abstract要約: 我々は,Large Language Models (LLMs) にChain-of-Thought推論を統合して,効果的な長文理解を容易にする。
既存の長文合成データとは異なり、LongFinanceQAは最終結論の前に中間的なCoT推論を含む。
我々は,LongベンチマークでGPT-4o-mini w/PAIを評価し,標準GPT-4o-miniを20.0%上回るPAIの推論能力を評価する。
- 参考スコア(独自算出の注目度): 47.30231319060358
- License:
- Abstract: Recent advances in Large Language Models (LLMs) have enabled them to process increasingly longer sequences, ranging from 2K to 2M tokens and even beyond. However, simply extending the input sequence length does not necessarily lead to effective long-context understanding. In this study, we integrate Chain-of-Thought (CoT) reasoning into LLMs in a supervised manner to facilitate effective long-context understanding. To achieve this, we introduce LongFinanceQA, a synthetic dataset in the financial domain designed to improve long-context reasoning. Unlike existing long-context synthetic data, LongFinanceQA includes intermediate CoT reasoning before the final conclusion, which encourages LLMs to perform explicit reasoning, improving accuracy and interpretability in long-context understanding. To generate synthetic CoT reasoning, we propose Property-driven Agentic Inference (PAI), an agentic framework that simulates human-like reasoning steps, including property extraction, retrieval, and summarization. We evaluate PAI's reasoning capabilities by assessing GPT-4o-mini w/ PAI on the Loong benchmark, outperforming standard GPT-4o-mini by 20.0%. Furthermore, we fine-tune LLaMA-3.1-8B-Instruct on LongFinanceQA, achieving a 24.6% gain on Loong's financial subset.
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩により、2Kトークンから2Mトークンまで、さらに長いシーケンスを処理できるようになった。
しかし、入力シーケンスの長さを単純に伸ばすだけでは、必ずしも効果的な長文理解に繋がらない。
本研究では,LLMに対するChain-of-Thought(CoT)推論を教師付き方式で統合し,より効果的な長文理解を実現する。
これを実現するために,LongFinanceQAを導入する。LongFinanceQAは,長期コンテキスト推論を改善するために設計された金融ドメインの合成データセットである。
既存の長文合成データとは異なり、LongFinanceQAには最終結論の前に中間的なCoT推論が含まれており、LLMが明示的な推論を行い、長文理解における精度と解釈性を向上させる。
提案するPAI(Property-driven Agentic Inference)は,プロパティ抽出,検索,要約を含む,人間のような推論ステップをシミュレートするエージェントフレームワークである。
我々は,LongベンチマークでGPT-4o-mini w/PAIを評価し,標準GPT-4o-miniを20.0%上回るPAIの推論能力を評価する。
さらに、LLaMA-3.1-8B-インストラクションをLongFinanceQA上で微調整し、Longの金融サブセットに対して24.6%の上昇を達成した。
関連論文リスト
- LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.79929012055293]
LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。
基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文 参考訳(メタデータ) (2025-02-18T06:40:23Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion [20.293369733522983]
LongReasonは、大規模言語モデルの長文推論能力を評価するための総合ベンチマークである。
LongReasonは、3つのタスクカテゴリにまたがる多様な推論パターンを持つ794の多重選択推論質問で構成されている。
LLMをLongReason上で評価した結果,コンテキスト長の増加に伴い,ほとんどのモデルが大幅な性能低下を経験していることが判明した。
論文 参考訳(メタデータ) (2025-01-25T05:32:14Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。
現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。
本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文 参考訳(メタデータ) (2024-10-04T08:29:12Z) - Can We Verify Step by Step for Incorrect Answer Detection? [22.984011562264147]
本稿では,様々な推論タスクにおける推論連鎖と性能の関係を調査するためのベンチマークR2PEを紹介する。
本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。
本稿では,回答チェックベースラインを大きなマージンで上回るPDS(Process Discernibility score)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-16T09:29:50Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。