論文の概要: MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis
- arxiv url: http://arxiv.org/abs/2605.21630v1
- Date: Wed, 20 May 2026 18:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.477565
- Title: MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis
- Title(参考訳): MindLoom:フロンティアレベル推論データ合成のための思考モードの構成
- Authors: Haiyang Shen, Taian Guo, Xuanzhong Chen, Mugeng Liu, Weichen Bi, Wenchun Jing, Sixiong Xie, Zhuofan Shi, Yudong Han, Chongyang Pan, Siqi Zhong, Jinsheng Huang, Ming Zhang, Yun Ma,
- Abstract要約: MindLoomは、作曲思考モードエンジニアリングを通じてフロンティアレベルの推論データを合成するためのフレームワークである。
我々は、5つのSTEM分野と4つの数学的推論タスクをカバーする9つのベンチマークでMindLoomを評価した。
- 参考スコア(独自算出の注目度): 9.069511037667052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although LLMs have made substantial progress in reasoning, systematically producing frontier-level reasoning data remains difficult. Existing synthesis methods often have limited visibility into the structural factors that govern problem difficulty, which can result in narrow diversity and unstable difficulty control. In this work, we view the difficulty of a reasoning problem as arising from the accumulation of atomic knowledge-reasoning transformations, which we term thought modes. Building on this perspective, we propose MindLoom, a framework for synthesizing frontier-level reasoning data through compositional thought mode engineering. Given a collection of hard problems with verified solutions, MindLoom first decomposes those solutions into thought mode chains that reveal each problem's construction logic. It then trains a retrieval model that matches problem states to compatible thought modes, providing guidance on which reasoning challenges to introduce during synthesis. New problems are composed by iteratively applying retrieved thought modes to seed questions, with distribution-aligned sampling to encourage diverse reasoning coverage. Finally, a rollout-based judging stage labels generated questions by difficulty and supplies judged-correct responses for supervised fine-tuning. We evaluate MindLoom on nine benchmarks covering five STEM disciplines and four mathematical reasoning tasks across multiple model families and sizes. Models fine-tuned on MindLoom-generated data achieves favorable performances over base models, distillation, and external-data baselines across the reported benchmarks. Ablation studies indicate the contribution of each component, and further analysis suggests that MindLoom covers a broad range of reasoning patterns while maintaining useful difficulty control. We have open-sourced our implementation at https://github.com/EachSheep/MindLoom.
- Abstract(参考訳): LLMは推論においてかなりの進歩を遂げているが、体系的にフロンティアレベルの推論データを生成することは依然として困難である。
既存の合成法は、しばしば問題の難易度を管理する構造的要因の視認性に限界があり、狭い多様性と不安定な難易度制御をもたらす。
本研究では,原子知識推論変換の蓄積から生じる推論問題の難しさを思考モードと呼ぶ。
この観点から、我々は、作曲思考モード工学を通してフロンティアレベルの推論データを合成するフレームワークであるMindLoomを提案する。
検証されたソリューションに関する難解な問題の集合を考えると、MindLoomはまずこれらのソリューションを思考モードチェーンに分解し、各問題の構築ロジックを明らかにする。
次に、問題状態と互換性のある思考モードとを一致させる検索モデルを訓練し、合成中にどの推論課題を導入するかのガイダンスを提供する。
新しい問題は、抽出された思考モードをシード質問に反復的に適用し、多様な推論カバレッジを促進するために分布整合サンプリングによって構成される。
最後に、ロールアウトに基づく判断段階ラベルは難解な質問を生成し、教師付き微調整のための判断された正しい応答を提供する。
我々はMindLoomを5つのSTEM分野と4つの数学的推論タスクをカバーする9つのベンチマークで評価した。
MindLoomの生成したデータに基づいて微調整されたモデルは、レポートされたベンチマーク全体にわたってベースモデル、蒸留、および外部データベースラインよりも良好なパフォーマンスを達成する。
アブレーション研究は各コンポーネントの寄与を示し、さらなる分析はMindLoomが有用な難易度制御を維持しながら幅広い推論パターンをカバーすることを示唆している。
私たちは実装をhttps://github.com/EachSheep/MindLoom.comでオープンソース化しました。
関連論文リスト
- Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文 参考訳(メタデータ) (2025-10-02T17:36:50Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution [59.39066657300045]
CoT(Chain-of-Thought)は、問題を逐次ステップに分解することで、大きな言語モデル(LLM)の推論を促進する。
思考のシジー(Syzygy of Thoughts, SoT)は,CoTを補助的,相互関連的な推論経路を導入して拡張する新しいフレームワークである。
SoTはより深い論理的依存関係をキャプチャし、より堅牢で構造化された問題解決を可能にする。
論文 参考訳(メタデータ) (2025-04-13T13:35:41Z) - On the Diagram of Thought [20.805936414171892]
大規模言語モデル(LLM)は多くのタスクで優れているが、構造化された多段階の推論を必要とする複雑な問題に悩まされることが多い。
思考のダイアグラム(Diagram of Thought, DoT)は、1つのLCMがその推論のメンタルマップを構築し、ナビゲートすることを可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。