論文の概要: $π^2$: Structure-Originated Reasoning Data Improves Long-Context Reasoning Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.05114v1
- Date: Mon, 06 Apr 2026 19:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.460467
- Title: $π^2$: Structure-Originated Reasoning Data Improves Long-Context Reasoning Ability of Large Language Models
- Title(参考訳): $π^2$: 構造化推論データによる大規模言語モデルの長期推論能力の向上
- Authors: Quyet V. Do, Thinh Pham, Nguyen Nguyen, Sha Li, Pratibha Zunjare, Tu Vu,
- Abstract要約: 大規模言語モデル(LLM)における長文推論を改善するために,初期構造化データから推論データをキュレートするパイプラインについて検討する。
当社のアプローチは、厳格なQAキュレーションを通じて高品質な推論データを構築します。
我々のデータセットは自己蒸留を促進するが、textscsmallgpt-oss-20bは平均性能を+4.4%向上させる。
- 参考スコア(独自算出の注目度): 17.718858777963415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a pipeline that curates reasoning data from initial structured data for improving long-context reasoning in large language models (LLMs). Our approach, $π^2$, constructs high-quality reasoning data through rigorous QA curation: 1) extracting and expanding tables from Wikipedia, 2) from the collected tables and relevant context, generating realistic and multi-hop analytical reasoning questions whose answers are automatically determined and verified through dual-path code execution, and 3) back-translating step-by-step structured reasoning traces as solutions of QA pairs given realistic web-search context. Supervised fine-tuning with \textsc{\small{gpt-oss-20b}} and \textsc{\small{Qwen3-4B-Instruct-2507}} on $π^2$ yields consistent improvements across four long-context reasoning benchmarks and our alike $π^2$-Bench, with average absolute accuracy gains of +4.3% and +2.7% respectively. Notably, our dataset facilitates self-distillation, where \textsc{\small{gpt-oss-20b}} even improves its average performance by +4.4% with its own reasoning traces, demonstrating $π^2$'s usefulness. Our code, data, and models are open-source at https://github.com/vt-pi-squared/pi-squared.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)の長文推論を改善するために,初期構造化データから推論データをキュレートするパイプラインについて検討する。
我々のアプローチである$π^2$は厳密なQAキュレーションを通して高品質な推論データを構築する。
1)ウィキペディアから表を抽出し、拡張する。
2) 収集した表と関連状況から, 解答が自動決定され, 二重パスコード実行によって検証される現実的, マルチホップ解析的推論質問を生成する。
3) リアルなWeb検索コンテキストを与えられたQAペアのソリューションとして,ステップバイステップの構造化推論トレースをバック翻訳する。
π^2$ での \textsc{\small{gpt-oss-20b}} と \textsc{\small{Qwen3-4B-Instruct-2507}} による超微調整は、4つの長文推論ベンチマークと我々の類似の $π^2$-Bench で、平均絶対精度は +4.3% と +2.7% である。
特に、我々のデータセットは自己蒸留を促進するが、そこでは \textsc{\small{gpt-oss-20b}} は、その平均性能を+4.4%向上させる。
私たちのコード、データ、モデルはhttps://github.com/vt-pi-squared/pi-squared.comでオープンソース化されています。
関連論文リスト
- A$^2$Search: Ambiguity-Aware Question Answering with Reinforcement Learning [46.81869577197105]
A$2$Searchはアノテーションのないエンドツーエンドのトレーニングフレームワークで、曖昧さを認識し、扱います。
8つのオープンドメインQAベンチマークの実験では、A$2$Searchが新しい最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-09T08:53:31Z) - Complexity-aware fine-tuning [1.6192437783949905]
汎用大規模言語モデル(LLM)は、特定のドメインの性能を高めるために、教師付き微調整(SFT)によってしばしば微調整される。
本稿では,エントロピーによって同定される複雑なデータに対してのみ推論を用いる,効率的な微調整のための新しい青写真を提案する。
論文 参考訳(メタデータ) (2025-06-26T13:13:24Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval [9.136948771060895]
この設定でさらに改善する2つの方法を評価する。
どちらも、より大きな言語モデルによって生成された合理性と、マルチホップ密度検索システムから生成された長いコンテキストを組み合わせることに焦点を当てている。
我々の最高の推論モデルは、見当たらない評価データセットに対して、強い比較前のベースラインを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-09T05:06:39Z) - Interleaving Retrieval with Chain-of-Thought Reasoning for
Knowledge-Intensive Multi-Step Questions [50.114651561111245]
マルチステップ質問応答のための新しいアプローチであるIRCoTを提案する。
CoTのステップで検索をインターリーブし、CoTで検索を誘導し、検索結果を用いてCoTを改善する。
論文 参考訳(メタデータ) (2022-12-20T18:26:34Z) - Program of Thoughts Prompting: Disentangling Computation from Reasoning
for Numerical Reasoning Tasks [108.4568236569645]
CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。
本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。
PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
論文 参考訳(メタデータ) (2022-11-22T21:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。