論文の概要: TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection
- arxiv url: http://arxiv.org/abs/2412.08024v2
- Date: Tue, 04 Feb 2025 08:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:55:01.222013
- Title: TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection
- Title(参考訳): TinyThinker: 自己回帰による粗大な知識内部化による蒸留反応
- Authors: Shengmin Piao, Sanghyun Park,
- Abstract要約: 大規模言語モデルは、様々なタスクにまたがる印象的な推論能力を示す。
これらの機能を、生成された推論データを通じてより小さなモデルに蒸留する試みは、推論プロセスの表面的な模倣につながる可能性がある。
2つの新しいアプローチを紹介するフレームワークであるTinyThinkerを提案する。
- 参考スコア(独自算出の注目度): 2.379928855453728
- License:
- Abstract: Large Language Models exhibit impressive reasoning capabilities across diverse tasks, motivating efforts to distill these capabilities into smaller models through generated reasoning data. However, direct training on such synthesized reasoning data may lead to superficial imitation of reasoning process, rather than fostering a genuine integration of reasoning capabilities with underlying knowledge. To address this, we propose TinyThinker, a framework introducing two novel approaches. First, we introduce a three-stage process that incrementally guides the student model through the reasoning process, progressively refining knowledge from coarse to fine granularity. Second, we develop a two-phase training framework comprising an initial reasoning acquisition phase followed by a self-reflection phase utilizing self-generated data. Experiments on commonsense reasoning benchmarks demonstrate that TinyThinker achieves superior performance compared to baselines. Ablation studies further validate the effectiveness of each component in our framework. We expect that TinyThinker can be extended to other knowledge-intensive reasoning tasks, offering an alternative strategy for developing effective reasoning capabilities in smaller language models. Codes are available at https://github.com/shengminp/TinyThinker
- Abstract(参考訳): 大規模言語モデルは、様々なタスクにまたがる印象的な推論能力を示し、生成された推論データを通じてこれらの機能をより小さなモデルに抽出する努力を動機付けている。
しかし、このような合成推論データの直接的な訓練は、推論能力と基礎知識との真の統合を促進するのではなく、推論プロセスの表面的な模倣につながる可能性がある。
これを解決するために,2つの新しいアプローチを導入したTinyThinkerを提案する。
まず,学生モデルを推論プロセスを通じて段階的にガイドし,粗粒度から粗粒度まで段階的に知識を精錬する3段階プロセスを導入する。
第2に,まず,自己生成データを利用した自己回帰フェーズに続き,最初の推論獲得フェーズを含む2段階の学習フレームワークを開発する。
常識推論ベンチマークの実験では、TinyThinkerはベースラインよりも優れたパフォーマンスを実現している。
アブレーション研究は、我々のフレームワークにおける各コンポーネントの有効性をさらに検証する。
我々はTinyThinkerを他の知識集約推論タスクに拡張し、より小さな言語モデルで効果的な推論機能を開発するための代替戦略を提供することを期待している。
コードはhttps://github.com/shengminp/TinyThinkerで入手できる。
関連論文リスト
- Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - Collapse of Self-trained Language Models [0.0]
私たちは、人間が以前の思考や行動に基づいて学習し、構築する方法に似た、自己学習モデルの自分たちのアウトプットでの可能性を探る。
GPT-2モデルの拡張自己学習により,性能が著しく低下し,繰り返しおよび崩壊したトークンが出力されることがわかった。
論文 参考訳(メタデータ) (2024-04-02T21:03:37Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Learning to Reason and Memorize with Self-Notes [51.17609489687686]
大規模言語モデルは多段階推論に苦しむことが示されている。
本稿では,これらの問題を解決するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-01T14:02:48Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Self-training with Few-shot Rationalization: Teacher Explanations Aid
Student in Few-shot NLU [88.8401599172922]
タスク固有のラベルと合理的性に制限された自己学習言語モデルに基づくフレームワークを開発する。
ニューラルネットワークの性能は,その合理的な予測を意識することで,大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-09-17T00:36:46Z) - Social Commonsense Reasoning with Multi-Head Knowledge Attention [24.70946979449572]
社会的コモンセンス推論には、テキストの理解、社会イベントに関する知識、その実践的な意味、およびコモンセンス推論スキルが必要である。
本稿では,半構造化コモンセンス推論規則を符号化し,それをトランスフォーマーベースの推論セルに組み込むことを学習する,新しいマルチヘッド知識アテンションモデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T10:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。