論文の概要: Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration
- arxiv url: http://arxiv.org/abs/2505.20700v1
- Date: Tue, 27 May 2025 04:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.401921
- Title: Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration
- Title(参考訳): Beyond Templates: 可能性を考慮した探索による推論記述の動的適応
- Authors: Yong Wu, Weihang Pan, Ke Li, Chen Binhui, Ping Li, Binbin Lin,
- Abstract要約: 本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 15.711365331854614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable reasoning capabilities, yet aligning such abilities to small language models (SLMs) remains a challenge due to distributional mismatches and limited model capacity. Existing reasoning datasets, typically designed for powerful LLMs, often lead to degraded performance when directly applied to weaker models. In this work, we introduce Dynamic Adaptation of Reasoning Trajectories (DART), a novel data adaptation framework that bridges the capability gap between expert reasoning trajectories and diverse SLMs. Instead of uniformly imitating expert steps, DART employs a selective imitation strategy guided by step-wise adaptability estimation via solution simulation. When expert steps surpass the student's capacity -- signaled by an Imitation Gap -- the student autonomously explores alternative reasoning paths, constrained by outcome consistency. We validate DART across multiple reasoning benchmarks and model scales, demonstrating that it significantly improves generalization and data efficiency over static fine-tuning. Our method enhances supervision quality by aligning training signals with the student's reasoning capabilities, offering a scalable solution for reasoning alignment in resource-constrained models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顕著な推論能力を示しているが、その能力は、分散ミスマッチと限られたモデル能力のため、小さな言語モデル(SLM)と一致している。
既存の推論データセットは、典型的には強力なLLM用に設計されており、弱いモデルに直接適用した場合、しばしば性能が低下する。
本稿では、専門家の推論軌道と多様なSLMの間の能力ギャップを橋渡しする新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはソリューションシミュレーションによるステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
イミテーションギャップ(Imitation Gap)の信号で、専門家のステップが生徒の能力を超えると、学生は結果の一貫性に制約された代替の推論パスを自律的に探究する。
我々はDARTを複数の推論ベンチマークとモデルスケールで検証し、静的微調整よりも一般化とデータ効率を大幅に向上させることを示した。
本手法は,訓練信号と学生の推論能力との整合性を両立させ,資源制約モデルにおける推論アライメントのためのスケーラブルなソリューションを提供することにより,監督品質を向上させる。
関連論文リスト
- Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。
より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-09T02:51:22Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。
推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。
論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-02-25T03:03:35Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - The Role of Deductive and Inductive Reasoning in Large Language Models [37.430396755248104]
本稿では,大規模言語モデル(LLM)推論を強化するために,DID法を提案する。
DIDはリトルストーン次元と情報エントロピーを組み合わせた2次元複雑度評価システムを実装している。
その結果,推理精度と解の精度は有意に向上した。
論文 参考訳(メタデータ) (2024-10-03T18:30:47Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - Discriminator-Guided Model-Based Offline Imitation Learning [11.856949845359853]
オフライン模倣学習(英: offline mimicion learning, IL)は、報酬ラベルなしで専門家によるデモンストレーションから意思決定問題を解決する強力な手法である。
本稿では,モデルロールアウトデータの動的正当性と準最適性を同時に識別する識別器を導入する,識別器誘導型モデルベースオフライン学習(DMIL)フレームワークを提案する。
実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。
論文 参考訳(メタデータ) (2022-07-01T07:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。