論文の概要: From Atoms to Chains: Divergence-Guided Reasoning Curriculum for Unlabeled LLM Domain Adaptation
- arxiv url: http://arxiv.org/abs/2601.19588v1
- Date: Tue, 27 Jan 2026 13:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.328565
- Title: From Atoms to Chains: Divergence-Guided Reasoning Curriculum for Unlabeled LLM Domain Adaptation
- Title(参考訳): Atomからチェーンへ:未ラベルLLMドメイン適応のためのダイバージェンスガイド推論カリキュラム
- Authors: Yongqi Wang, Xiaofeng Ji, Jie Wang, Qingbin Li, Xiao Xiong, Zheming Yang, Jian Xu, Minghui Qiu, Xinxiao Wu,
- Abstract要約: Divergence-Guided Reasoning Curriculum (DGRC)は、原子知識から推論チェーンへの学習パスを構築する。
様々なサイズの学生モデルに関する医学・法学領域における実験は、我々のDGRCフレームワークの有効性を実証している。
- 参考スコア(独自算出の注目度): 33.26469285646673
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adapting Large Language Models (LLMs) to specialized domains without human-annotated data is a crucial yet formidable challenge. Widely adopted knowledge distillation methods often devolve into coarse-grained mimicry, where the student model inefficiently targets its own weaknesses and risks inheriting the teacher's reasoning flaws. This exposes a critical pedagogical dilemma: how to devise a reliable curriculum when the teacher itself is not an infallible expert. Our work resolves this by capitalizing on a key insight: while LLMs may exhibit fallibility in complex, holistic reasoning, they often exhibit high fidelity on focused, atomic sub-problems. Based on this, we propose Divergence-Guided Reasoning Curriculum (DGRC), which constructs a learning path from atomic knowledge to reasoning chains by dynamically deriving two complementary curricula from disagreements in reasoning pathways. When a student and teacher produce conflicting results, DGRC directs the teacher to perform a diagnostic analysis: it analyzes both reasoning paths to formulate atomic queries that target the specific points of divergence, and then self-answers these queries to create high-confidence atomic question-answer pairs. These pairs then serve a dual purpose: (1) providing an atomic curriculum to rectify the student's knowledge gaps, and (2) serving as factual criteria to filter the teacher's original reasoning chains, yielding a verified CoT curriculum that teaches the student how to integrate atomic knowledge into complete reasoning paths. Experiments across the medical and legal domains on student models of various sizes demonstrate the effectiveness of our DGRC framework. Notably, our method achieves a 7.76% relative improvement for the 1.5B student model in the medical domain over strong unlabeled baseline.
- Abstract(参考訳): 大型言語モデル(LLM)を人間に注釈のない特別なドメインに適応させることは、非常に重要な課題である。
広く採用されている知識蒸留法は、学生モデルが教師の推論欠陥を継承するリスクや弱点を非効率にターゲットする、粗大な模倣に発展することが多い。
これは批判的な教育のジレンマを露呈し、教師自身が失敗することのない専門家でないときに、信頼できるカリキュラムをどうやって作り出すかである。
LLMは複雑な全体論的推論において誤認を示すが、焦点を絞った原子サブプロブレムに対して高い忠実度を示すことが多い。
そこで本研究では,原子知識から推論チェーンへの学習経路を構築するDGRC(Didergence-Guided Reasoning Curriculum)を提案する。
学生と教師が矛盾する結果を生成すると、DGRCは教師に診断分析を行うよう指示する:それは両方の推論経路を分析し、分岐の特定のポイントをターゲットとする原子クエリを定式化し、そして、これらのクエリを自己回答して高信頼の原子質問応答ペアを作成する。
これらのペアは、(1)学生の知識ギャップを正すための原子的カリキュラムを提供すること、(2)教師の元々の推論連鎖をフィルタリングする事実的基準として機能すること、そして、学生に原子的知識を完全な推論経路に組み込む方法を教える検証済みのCoTカリキュラムを提供すること、という2つの目的を果たす。
様々なサイズの学生モデルに関する医学・法学領域における実験は、我々のDGRCフレームワークの有効性を実証している。
特に,本手法は,医学領域における1.5Bの学生モデルに対して,強いラベルのないベースラインよりも相対的に7.76%向上する。
関連論文リスト
- "The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework [16.96094045628127]
CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。
CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。
我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
論文 参考訳(メタデータ) (2026-01-20T14:05:19Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning [49.24235059299745]
我々は、原子レベルで正確な異種知識推論を行うための大規模な言語モデルのためのフレームワークAtomRを紹介する。
AtomRは複雑な質問を、各葉ノードが原子知識演算子に対応する推論木に分解する。
推論実行段階では、AtomRは各原子知識演算子を実行し、弾力的に異種源から原子レベルの知識を選択し、取得し、操作する。
論文 参考訳(メタデータ) (2024-11-25T15:35:51Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。
本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。
本手法は,教師が正しい推理を行う確率を低くする。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。