論文の概要: Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2502.13127v1
- Date: Tue, 18 Feb 2025 18:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:30.466408
- Title: Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning
- Title(参考訳): 教師付きチェーン・オブ・ソート推論による長期的文脈理解の実現
- Authors: Jingyang Lin, Andy Wong, Tian Xia, Shenghua He, Hui Wei, Mei Han, Jiebo Luo,
- Abstract要約: 我々は,Large Language Models (LLMs) にChain-of-Thought推論を統合して,効果的な長文理解を容易にする。
既存の長文合成データとは異なり、LongFinanceQAは最終結論の前に中間的なCoT推論を含む。
我々は,LongベンチマークでGPT-4o-mini w/PAIを評価し,標準GPT-4o-miniを20.0%上回るPAIの推論能力を評価する。
- 参考スコア(独自算出の注目度): 47.30231319060358
- License:
- Abstract: Recent advances in Large Language Models (LLMs) have enabled them to process increasingly longer sequences, ranging from 2K to 2M tokens and even beyond. However, simply extending the input sequence length does not necessarily lead to effective long-context understanding. In this study, we integrate Chain-of-Thought (CoT) reasoning into LLMs in a supervised manner to facilitate effective long-context understanding. To achieve this, we introduce LongFinanceQA, a synthetic dataset in the financial domain designed to improve long-context reasoning. Unlike existing long-context synthetic data, LongFinanceQA includes intermediate CoT reasoning before the final conclusion, which encourages LLMs to perform explicit reasoning, improving accuracy and interpretability in long-context understanding. To generate synthetic CoT reasoning, we propose Property-driven Agentic Inference (PAI), an agentic framework that simulates human-like reasoning steps, including property extraction, retrieval, and summarization. We evaluate PAI's reasoning capabilities by assessing GPT-4o-mini w/ PAI on the Loong benchmark, outperforming standard GPT-4o-mini by 20.0%. Furthermore, we fine-tune LLaMA-3.1-8B-Instruct on LongFinanceQA, achieving a 24.6% gain on Loong's financial subset.
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩により、2Kトークンから2Mトークンまで、さらに長いシーケンスを処理できるようになった。
しかし、入力シーケンスの長さを単純に伸ばすだけでは、必ずしも効果的な長文理解に繋がらない。
本研究では,LLMに対するChain-of-Thought(CoT)推論を教師付き方式で統合し,より効果的な長文理解を実現する。
これを実現するために,LongFinanceQAを導入する。LongFinanceQAは,長期コンテキスト推論を改善するために設計された金融ドメインの合成データセットである。
既存の長文合成データとは異なり、LongFinanceQAには最終結論の前に中間的なCoT推論が含まれており、LLMが明示的な推論を行い、長文理解における精度と解釈性を向上させる。
提案するPAI(Property-driven Agentic Inference)は,プロパティ抽出,検索,要約を含む,人間のような推論ステップをシミュレートするエージェントフレームワークである。
我々は,LongベンチマークでGPT-4o-mini w/PAIを評価し,標準GPT-4o-miniを20.0%上回るPAIの推論能力を評価する。
さらに、LLaMA-3.1-8B-インストラクションをLongFinanceQA上で微調整し、Longの金融サブセットに対して24.6%の上昇を達成した。
関連論文リスト
- Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。
我々はこの目的のために特別に設計されたアプローチである我々の提案する。
人類の専門家や 先進的なモデルによるデータに依存する 従来のアプローチと比べて 優れたパフォーマンスを達成しています
論文 参考訳(メタデータ) (2024-11-12T19:53:00Z) - FinDVer: Explainable Claim Verification over Long and Hybrid-Content Financial Documents [30.402524394183857]
FinDVerには2,400のエキスパートアノテート例があり、情報抽出、数値推論、知識集約推論という3つのサブセットに分けられている。
以上の結果から,現在の最高性能システムであるGPT-4oでさえ,まだ人間の専門家より遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-08T18:26:17Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。
現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。
本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文 参考訳(メタデータ) (2024-10-04T08:29:12Z) - Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。
証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。
ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。