論文の概要: CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
- arxiv url: http://arxiv.org/abs/2603.00889v1
- Date: Sun, 01 Mar 2026 03:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.399876
- Title: CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
- Title(参考訳): CHIMERA:一般化可能なLLM推論のためのコンパクトな合成データ
- Authors: Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng,
- Abstract要約: CHIMERAは、一般化可能なクロスドメイン推論のための9Kサンプルからなるコンパクトな合成推論データセットである。
広範囲にまたがって構造化され、8つの主要な科学分野にまたがり、1万以上のきめ細かいトピックがモデル生成階層分類によってまとめられている。
GPQA-Diamond、AIME 24/25/26、HMMT 25、HumanityのLast Examなど、いくつかの困難な推論ベンチマークで高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 44.519834940763964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,高品質な推論データに基づく教師付き微調整(SFT)と強化学習(RL)に基づくポストトレーニングによって,顕著な推論能力を示した。
しかし、これらの機能をオープンでスケーラブルな環境で再現および拡張することは、(1)詳細で長いチェーン・オブ・ソート(CoT)軌道を初期化するのに必要なシードデータセットの欠如から生じるコールドスタート問題、(2)既存のオープンソース推論データセットの大部分が数学に集中しているため、幅広い科学的分野のカバー範囲が限られていること、(3)フロンティアレベルの推論タスクの難しさが、信頼性の高い人格を不当に高価または不可能にする、という3つの基本的なデータ中心の課題によって妨げられる。
これらの課題に対処するために、一般化可能なクロスドメイン推論のための9Kサンプルからなるコンパクトな合成推論データセットCHIMERAを紹介する。
CHIMERAは、(1)最先端の推論モデルによって合成されたリッチで長いCoT推論軌道を提供し、(2)大規模で構造化されたカバレッジを持ち、8つの主要な科学分野にまたがる、1K以上のきめ細かいトピックをモデル生成階層分類によって整理し、(3)強力な推論モデルを使用して、問題の妥当性と答えの正しさを相互に検証する完全に自動化されたスケーラブルな評価パイプラインを使用する。
4B Qwen3モデルのポストトレーニングにはCHIMERAを使用します。
データセットのサイズは控えめだが、結果のモデルはGPQA-Diamond、AIME 24/25/26、HMMT 25、HumanityのLast Examなどの難解な推論ベンチマークで、DeepSeek-R1やQwen3-235Bのようなかなり大きなモデルの推論性能に近づいたり、一致させたりした。
関連論文リスト
- MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods [41.49799689399879]
我々は、1.8Mサンプルと5.1Bソリューショントークンからなる大規模マルチモーダル推論データセットMMFineReasonを紹介する。
得られたデータセットは、STEM問題、視覚パズル、ゲーム、複雑なダイアグラムにまたがっており、各サンプルには視覚的に根拠付けられた推論トレースが付加されている。
我々のモデルは、彼らのサイズクラスに対して、新しい最先端の結果を確立します。
論文 参考訳(メタデータ) (2026-01-29T15:07:28Z) - Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns [34.16978953994544]
我々は,基礎モデルの推論可能性について,疑問に正しく答えるために必要な独立した試みの数の逆として初めて定義する。
次に、高価値推論パターンを付加した多種多様なデータを活用し、推論可能性を拡張することを提案する。
85A6B Mixture-of-Experts (MoE) モデルは, AIME 2024 と 2025 の挑戦に対して 9.58% 改善可能である。
論文 参考訳(メタデータ) (2025-09-25T13:11:35Z) - Excessive Reasoning Attack on Reasoning LLMs [26.52688123765127]
本研究では,過度な推論行動を活用するために,敵対的入力を作成できるという,新たな脅威を明らかにする。
提案手法は,実用性能に匹敵する推理長を3倍から9倍に向上することを示した。
提案手法は,o3-mini,o1-mini,DeepSeek-R1,QWQモデルで計算オーバーヘッドを誘導するトランスファービリティを示す。
論文 参考訳(メタデータ) (2025-06-17T10:16:52Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models [62.12031550252253]
本稿では,関係推論に対処するための新しいフレームワークであるPath-of-Thoughts(PoT)を提案する。
PoTは、問題コンテキスト内の重要なエンティティ、関係、属性を識別するタスクに依存しないグラフを効率的に抽出する。
PoTは、提案された質問に対応するグラフ内の関連する推論連鎖を特定し、潜在的な答えの推論を容易にする。
論文 参考訳(メタデータ) (2024-12-23T20:27:12Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。