論文の概要: DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2508.12726v1
- Date: Mon, 18 Aug 2025 08:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.088748
- Title: DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
- Title(参考訳): DESIGNER:LLM推論のための設計論理型多分野データ合成
- Authors: Weize Liu, Yongchi Zhao, Yijia Luo, Mingyu Xu, Jiaheng Liu, Yanan Li, Xiguo Hu, Yuchi Xu, Wenbo Su, Bo Zheng,
- Abstract要約: DeSIGNER: DESIGN-logic-guidEd Reasoningデータ合成パイプラインを提案する。
中心となる革新はデザイン論理の概念の導入である。
これらの設計ロジックを学際的な資料と組み合わせることで、既存のデータセットの難易度や多様性をはるかに超える理性的な疑問を生み出すことができる。
- 参考スコア(独自算出の注目度): 20.498029847124034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in many natural language tasks but still struggle with complex, multi-step reasoning, particularly across diverse disciplines. Existing reasoning datasets often either lack disciplinary breadth or the structural depth necessary to elicit robust reasoning behaviors. We propose DESIGNER: a DESIGN-logic-guidEd Reasoning data synthesis pipeline that leverages naturally available, extensive raw documents (book corpus and web corpus) to generate multidisciplinary challenging questions. A core innovation of our approach is the introduction of a Design Logic concept, which mimics the question-creation process of human educators. We use LLMs to reverse-engineer and abstract over 120,000 design logics from existing questions across various disciplines. By matching these design logics with disciplinary source materials, we are able to create reasoning questions that far surpass the difficulty and diversity of existing datasets. Based on this pipeline, we synthesized two large-scale reasoning datasets that span 75 disciplines: Design-Logic-Reasoning-Book (DLR-Book), containing 3.04 million challenging questions synthesized from the book corpus, and Design-Logic-Reasoning-Web (DLR-Web), with 1.66 million challenging questions from the web corpus. Our data analysis demonstrates that the questions synthesized by our method exhibit substantially greater difficulty and diversity than those in the baseline datasets. We validate the effectiveness of these datasets by conducting SFT experiments on the Qwen3-8B-Base and Qwen3-4B-Base models. The results show that our dataset significantly outperforms existing multidisciplinary datasets of the same volume. Training with the full datasets further enables the models to surpass the multidisciplinary reasoning performance of the official Qwen3-8B and Qwen3-4B models.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理において顕著な成功を収めてきたが、それでも複雑で多段階の推論に苦戦している。
既存の推論データセットは、しばしば学際的な幅や、頑健な推論行動を引き起こすために必要な構造的な深さを欠いている。
我々はDESIGNER:DESIGN-logic-guidEd Reasoningデータ合成パイプラインを提案する。
このアプローチの中核的な革新は、人間の教育者の質問作成プロセスを模倣するデザイン論理の概念の導入である。
LLMを使って、さまざまな分野にわたる既存の質問から12万以上の設計ロジックをリバースエンジニアリングし、抽象化します。
これらの設計ロジックを学際的な資料と組み合わせることで、既存のデータセットの難易度や多様性をはるかに超える理性的な疑問を生み出すことができる。
このパイプラインに基づいて、75の分野にまたがる2つの大規模推論データセットを合成した。DLR-Book(Design-Logic-Reasoning-Book)。
データ分析により,本手法で合成した質問は,ベースラインデータセットよりも有意に難易度と多様性を示した。
我々は,これらのデータセットの有効性を,Qwen3-8B-BaseモデルとQwen3-4B-Baseモデルを用いてSFT実験により検証した。
その結果、我々のデータセットは、同じボリュームの既存の複数の学際的データセットよりも大幅に優れていた。
完全なデータセットを使用したトレーニングにより、公式のQwen3-8BとQwen3-4Bモデルの多分野推論性能を上回ることができる。
関連論文リスト
- Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - KG-o1: Enhancing Multi-hop Question Answering in Large Language Models via Knowledge Graph Integration [29.320693000484273]
KG-o1は、知識グラフを統合して、大規模言語モデルのマルチホップ推論能力を高める4段階のアプローチである。
簡単な2つのデータセットと複雑な2つのデータセットについて実験を行う。
その結果,KG-o1 モデルでは既存の LRM モデルと比較して,全タスクにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-12T04:29:10Z) - Understanding LLM-Centric Challenges for Deep Learning Frameworks: An Empirical Analysis [32.10519814607409]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションにおいて大きな進歩をもたらした。
ディープラーニング(DL)フレームワークは、効率的なモデル構築、分散実行、最適化されたデプロイメントを可能にすることによって、この基盤を提供する。
DLフレームワークのユーザビリティの低下、機能制限、微妙なバグにより、開発効率が損なわれ、深刻な障害やリソースの浪費を引き起こす可能性がある。
論文 参考訳(メタデータ) (2025-06-16T05:45:03Z) - Synthesis by Design: Controlled Data Generation via Structural Guidance [7.938713951512933]
数学的推論から生成した問題解決コードを用いて構造情報を抽出する。
提案手法は,ラベル付き中間ステップと6.1K-problemベンチマークで39Kの問題を発生させる。
ベンチマークの結果,推論長の増加に伴いモデル性能が低下することが示された。
論文 参考訳(メタデータ) (2025-06-09T11:38:23Z) - SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond [35.80475408913363]
多様な論理的推論データを大規模に生成するデータ合成フレームワークおよびデータセットであるSynLogicを提案する。
7Bおよび32Bモデルに基づくSynLogicデータセットにおけるRLトレーニングの有効性を検証する。
混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bより優れています。
論文 参考訳(メタデータ) (2025-05-26T07:59:36Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [37.60935581067836]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question Answering with Large Language Models [7.399563588835834]
Interactive-KBQAは知識ベース(KB)との直接インタラクションを通じて論理形式を生成するように設計されたフレームワークである
提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-02-23T06:32:18Z) - Structure Guided Prompt: Instructing Large Language Model in Multi-Step
Reasoning by Exploring Graph Structure of the Text [44.81698187939784]
本稿では,大規模言語モデル(LLM)の多段階推論能力向上を目的としたフレームワークであるStructure Guided Promptを紹介する。
実験の結果,このフレームワークはLLMの推論能力を大幅に向上し,より広い範囲の自然言語シナリオを拡張できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T22:56:23Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。