論文の概要: DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2508.12726v3
- Date: Wed, 08 Oct 2025 17:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.095262
- Title: DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
- Title(参考訳): DESIGNER:LLM推論のための設計論理型多分野データ合成
- Authors: Weize Liu, Yongchi Zhao, Yijia Luo, Mingyu Xu, Jiaheng Liu, Yanan Li, Xiguo Hu, Zhiqi Bai, Yuchi Xu, Wenbo Su, Bo Zheng,
- Abstract要約: 本稿では,「設計論理」の概念を導入し,人間教育者の質問作成過程を模倣するようにLCMに指示する。
LLMを使って、さまざまな分野にわたる既存の質問から12万以上の設計ロジックをリバースエンジニアリングし、抽象化します。
これらの設計ロジックをソースドキュメントとマッチングすることで、既存のデータセットの難しさや多様性をはるかに超える推論的な質問を作成できるのです。
- 参考スコア(独自算出の注目度): 31.744811175188442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in many natural language tasks but still struggle with complex, multi-step reasoning, particularly across diverse disciplines. Existing reasoning datasets often lack disciplinary breadth, reasoning depth, and diversity, and lack guiding principles for question synthesis. We propose DESIGNER: a DESIGN-logic-guidEd Reasoning data synthesis pipeline that leverages naturally available, extensive raw documents (e.g., book corpus and web corpus) to generate multidisciplinary challenging questions. We introduce the concept of "design logic" and instruct LLMs to mimic human educators' question-creation process, enabling automated synthesis of large-scale, high-difficulty questions. We use LLMs to reverse-engineer and abstract over 120,000 design logics from existing questions across various disciplines. By matching these design logics with source documents, we are able to create reasoning questions that far surpass the difficulty and diversity of existing datasets. Using this pipeline, we synthesized two large-scale reasoning datasets that span 75 disciplines: DLR-Book (3.04 million questions from the book corpus) and DLR-Web (1.66 million questions from the web corpus). Data analysis indicates that the questions synthesized by our method exhibit greater difficulty and diversity compared to those in the baseline datasets. We validate our synthesized data through supervised fine-tuning (SFT) on the Qwen3 and Llama3 model families. Our data substantially enhances their multidisciplinary reasoning capabilities, outperforming existing datasets. Notably, after SFT on our datasets, the base versions of these models even surpass their official instruction-tuned counterparts.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理において顕著な成功を収めてきたが、それでも複雑で多段階の推論に苦戦している。
既存の推論データセットは、しばしば学際的な幅、推論の深さ、多様性を欠き、質問合成の指針を欠いている。
我々はDESIGNER:DESIGN-logic-guidEd Reasoningデータ合成パイプラインを提案する。
我々は「設計論理」の概念を導入し、LLMに人間の教育者の質問作成プロセスを模倣するよう指示し、大規模で難解な質問の自動合成を可能にした。
LLMを使って、さまざまな分野にわたる既存の質問から12万以上の設計ロジックをリバースエンジニアリングし、抽象化します。
これらの設計ロジックをソースドキュメントとマッチングすることで、既存のデータセットの難しさや多様性をはるかに超える推論的な質問を作成できるのです。
このパイプラインを用いて、DLR-Book(本コーパスから3.04万質問)とDLR-Web(ウェブコーパスから1.66万質問)という、75の分野にわたる大規模推論データセットを合成した。
データ分析により,本手法によって合成された質問は,ベースラインデータセットよりも難易度や多様性が高いことが示された。
我々は,Qwen3およびLlama3モデルファミリ上の教師付き微調整(SFT)により合成データを検証した。
我々のデータは、その多分野推論能力を大幅に向上させ、既存のデータセットよりも優れています。
特に、データセットのSFT後、これらのモデルのベースバージョンは、公式の命令指定モデルを超えています。
関連論文リスト
- Understanding LLM-Centric Challenges for Deep Learning Frameworks: An Empirical Analysis [32.10519814607409]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションにおいて大きな進歩をもたらした。
ディープラーニング(DL)フレームワークは、効率的なモデル構築、分散実行、最適化されたデプロイメントを可能にすることによって、この基盤を提供する。
DLフレームワークのユーザビリティの低下、機能制限、微妙なバグにより、開発効率が損なわれ、深刻な障害やリソースの浪費を引き起こす可能性がある。
論文 参考訳(メタデータ) (2025-06-16T05:45:03Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [37.60935581067836]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question Answering with Large Language Models [7.399563588835834]
Interactive-KBQAは知識ベース(KB)との直接インタラクションを通じて論理形式を生成するように設計されたフレームワークである
提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-02-23T06:32:18Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。