論文の概要: DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2508.12726v1
- Date: Mon, 18 Aug 2025 08:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.088748
- Title: DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
- Title(参考訳): DESIGNER:LLM推論のための設計論理型多分野データ合成
- Authors: Weize Liu, Yongchi Zhao, Yijia Luo, Mingyu Xu, Jiaheng Liu, Yanan Li, Xiguo Hu, Yuchi Xu, Wenbo Su, Bo Zheng,
- Abstract要約: DeSIGNER: DESIGN-logic-guidEd Reasoningデータ合成パイプラインを提案する。
中心となる革新はデザイン論理の概念の導入である。
これらの設計ロジックを学際的な資料と組み合わせることで、既存のデータセットの難易度や多様性をはるかに超える理性的な疑問を生み出すことができる。
- 参考スコア(独自算出の注目度): 20.498029847124034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in many natural language tasks but still struggle with complex, multi-step reasoning, particularly across diverse disciplines. Existing reasoning datasets often either lack disciplinary breadth or the structural depth necessary to elicit robust reasoning behaviors. We propose DESIGNER: a DESIGN-logic-guidEd Reasoning data synthesis pipeline that leverages naturally available, extensive raw documents (book corpus and web corpus) to generate multidisciplinary challenging questions. A core innovation of our approach is the introduction of a Design Logic concept, which mimics the question-creation process of human educators. We use LLMs to reverse-engineer and abstract over 120,000 design logics from existing questions across various disciplines. By matching these design logics with disciplinary source materials, we are able to create reasoning questions that far surpass the difficulty and diversity of existing datasets. Based on this pipeline, we synthesized two large-scale reasoning datasets that span 75 disciplines: Design-Logic-Reasoning-Book (DLR-Book), containing 3.04 million challenging questions synthesized from the book corpus, and Design-Logic-Reasoning-Web (DLR-Web), with 1.66 million challenging questions from the web corpus. Our data analysis demonstrates that the questions synthesized by our method exhibit substantially greater difficulty and diversity than those in the baseline datasets. We validate the effectiveness of these datasets by conducting SFT experiments on the Qwen3-8B-Base and Qwen3-4B-Base models. The results show that our dataset significantly outperforms existing multidisciplinary datasets of the same volume. Training with the full datasets further enables the models to surpass the multidisciplinary reasoning performance of the official Qwen3-8B and Qwen3-4B models.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理において顕著な成功を収めてきたが、それでも複雑で多段階の推論に苦戦している。
既存の推論データセットは、しばしば学際的な幅や、頑健な推論行動を引き起こすために必要な構造的な深さを欠いている。
我々はDESIGNER:DESIGN-logic-guidEd Reasoningデータ合成パイプラインを提案する。
このアプローチの中核的な革新は、人間の教育者の質問作成プロセスを模倣するデザイン論理の概念の導入である。
LLMを使って、さまざまな分野にわたる既存の質問から12万以上の設計ロジックをリバースエンジニアリングし、抽象化します。
これらの設計ロジックを学際的な資料と組み合わせることで、既存のデータセットの難易度や多様性をはるかに超える理性的な疑問を生み出すことができる。
このパイプラインに基づいて、75の分野にまたがる2つの大規模推論データセットを合成した。DLR-Book(Design-Logic-Reasoning-Book)。
データ分析により,本手法で合成した質問は,ベースラインデータセットよりも有意に難易度と多様性を示した。
我々は,これらのデータセットの有効性を,Qwen3-8B-BaseモデルとQwen3-4B-Baseモデルを用いてSFT実験により検証した。
その結果、我々のデータセットは、同じボリュームの既存の複数の学際的データセットよりも大幅に優れていた。
完全なデータセットを使用したトレーニングにより、公式のQwen3-8BとQwen3-4Bモデルの多分野推論性能を上回ることができる。
関連論文リスト
- Understanding LLM-Centric Challenges for Deep Learning Frameworks: An Empirical Analysis [32.10519814607409]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションにおいて大きな進歩をもたらした。
ディープラーニング(DL)フレームワークは、効率的なモデル構築、分散実行、最適化されたデプロイメントを可能にすることによって、この基盤を提供する。
DLフレームワークのユーザビリティの低下、機能制限、微妙なバグにより、開発効率が損なわれ、深刻な障害やリソースの浪費を引き起こす可能性がある。
論文 参考訳(メタデータ) (2025-06-16T05:45:03Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [37.60935581067836]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question Answering with Large Language Models [7.399563588835834]
Interactive-KBQAは知識ベース(KB)との直接インタラクションを通じて論理形式を生成するように設計されたフレームワークである
提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-02-23T06:32:18Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。