Fugu-MT 論文翻訳(概要): Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning

論文の概要: Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning

arxiv url: http://arxiv.org/abs/2502.13127v1
Date: Tue, 18 Feb 2025 18:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:09.135117
Title: Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning
Title（参考訳）: 教師付きチェーン・オブ・ソート推論による長期的文脈理解の実現
Authors: Jingyang Lin, Andy Wong, Tian Xia, Shenghua He, Hui Wei, Mei Han, Jiebo Luo,
Abstract要約: 我々は,Large Language Models (LLMs) にChain-of-Thought推論を統合して,効果的な長文理解を容易にする。既存の長文合成データとは異なり、LongFinanceQAは最終結論の前に中間的なCoT推論を含む。我々は,LongベンチマークでGPT-4o-mini w/PAIを評価し,標準GPT-4o-miniを20.0%上回るPAIの推論能力を評価する。
参考スコア（独自算出の注目度）: 47.30231319060358
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Large Language Models (LLMs) have enabled them to process increasingly longer sequences, ranging from 2K to 2M tokens and even beyond. However, simply extending the input sequence length does not necessarily lead to effective long-context understanding. In this study, we integrate Chain-of-Thought (CoT) reasoning into LLMs in a supervised manner to facilitate effective long-context understanding. To achieve this, we introduce LongFinanceQA, a synthetic dataset in the financial domain designed to improve long-context reasoning. Unlike existing long-context synthetic data, LongFinanceQA includes intermediate CoT reasoning before the final conclusion, which encourages LLMs to perform explicit reasoning, improving accuracy and interpretability in long-context understanding. To generate synthetic CoT reasoning, we propose Property-driven Agentic Inference (PAI), an agentic framework that simulates human-like reasoning steps, including property extraction, retrieval, and summarization. We evaluate PAI's reasoning capabilities by assessing GPT-4o-mini w/ PAI on the Loong benchmark, outperforming standard GPT-4o-mini by 20.0%. Furthermore, we fine-tune LLaMA-3.1-8B-Instruct on LongFinanceQA, achieving a 24.6% gain on Loong's financial subset.
Abstract（参考訳）: LLM(Large Language Models)の最近の進歩により、2Kトークンから2Mトークンまで、さらに長いシーケンスを処理できるようになった。しかし、入力シーケンスの長さを単純に伸ばすだけでは、必ずしも効果的な長文理解に繋がらない。本研究では,LLMに対するChain-of-Thought(CoT)推論を教師付き方式で統合し,より効果的な長文理解を実現する。これを実現するために,LongFinanceQAを導入する。LongFinanceQAは,長期コンテキスト推論を改善するために設計された金融ドメインの合成データセットである。既存の長文合成データとは異なり、LongFinanceQAには最終結論の前に中間的なCoT推論が含まれており、LLMが明示的な推論を行い、長文理解における精度と解釈性を向上させる。提案するPAI(Property-driven Agentic Inference)は,プロパティ抽出,検索,要約を含む,人間のような推論ステップをシミュレートするエージェントフレームワークである。我々は,LongベンチマークでGPT-4o-mini w/PAIを評価し,標準GPT-4o-miniを20.0%上回るPAIの推論能力を評価する。さらに、LLaMA-3.1-8B-インストラクションをLongFinanceQA上で微調整し、Longの金融サブセットに対して24.6%の上昇を達成した。

関連論文リスト

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。 QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。 QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文参考訳（メタデータ） (2025-05-23T09:31:55Z)
Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering [59.34894142132706]
既存の作業では、いくつかの例だけをチューニングすることで、長いCoT推論の能力を効率的に引き出すことができる。このことは、LLMの一般的な能力であるCoT推論の長さを調査する動機となっている。 LLMの一般的な長大CoT推論能力を解き放つ新しい表現工学手法であるGLoREを提案する。
論文参考訳（メタデータ） (2025-03-14T11:30:37Z)
MA-LoT: Multi-Agent Lean-based Long Chain-of-Thought Reasoning enhances Formal Theorem Proving [30.112351299773632]
State-of-the-artメソッドは、単一の大規模言語モデル(LLM)をエージェントまたはプロバーとして使用し、完全な証明を生成するか、ツリー検索を実行する。マルチエージェントリーンベースのLong Chain-of-ProverフレームワークであるMA-LoTを提案する。我々のフレームワークはMiniF2F-TestデータセットのLean4バージョンで61.07%の精度を実現している。
論文参考訳（メタデータ） (2025-03-05T05:50:31Z)
LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.79929012055293]
LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文参考訳（メタデータ） (2025-02-18T06:40:23Z)
Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance [35.617409883103335]
FinReasonは、マルチテーブル分析、長期コンテキスト推論、方程式ベースのタスクをカバーする最初の財務推論ベンチマークである。 7つのQAデータセットから抽出した、ファイナンスのための最初のオープンな高忠実度CoTコーパスであるFinCoTを紹介する。我々は、教師付き微調整とGRPOベースのRLを用いて訓練された最初のオープンファイナンシャル推論モデルであるFin-o1を開発した。
論文参考訳（メタデータ） (2025-02-12T05:13:04Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion [20.293369733522983]
LongReasonは、大規模言語モデルの長文推論能力を評価するための総合ベンチマークである。 LongReasonは、3つのタスクカテゴリにまたがる多様な推論パターンを持つ794の多重選択推論質問で構成されている。 LLMをLongReason上で評価した結果,コンテキスト長の増加に伴い,ほとんどのモデルが大幅な性能低下を経験していることが判明した。
論文参考訳（メタデータ） (2025-01-25T05:32:14Z)
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。 LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:55Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文参考訳（メタデータ） (2024-10-04T08:29:12Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [86.93099925711388]
長い文脈内での物語的推論に特化したデータセットである textbfDetectiveQA を提案する。 100万以上のトークンを平均化する探偵小説を活用して、中国語と英語の両方で1200人の注釈付き質問を含むデータセットを作成します。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
Can We Verify Step by Step for Incorrect Answer Detection? [22.984011562264147]
本稿では,様々な推論タスクにおける推論連鎖と性能の関係を調査するためのベンチマークR2PEを紹介する。本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。本稿では,回答チェックベースラインを大きなマージンで上回るPDS(Process Discernibility score)フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-16T09:29:50Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。