論文の概要: Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks?
- arxiv url: http://arxiv.org/abs/2410.20533v2
- Date: Wed, 30 Oct 2024 17:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:45.187374
- Title: Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks?
- Title(参考訳): 複雑度をガイドする: ハード推論タスクの優れたスーパービジョンとは何か?
- Authors: Xuan He, Da Yin, Nanyun Peng,
- Abstract要約: 複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。
ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。
また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
- 参考スコア(独自算出の注目度): 74.88417042125985
- License:
- Abstract: How can "weak teacher models" such as average human annotators or existing AI systems, effectively supervise LLMs to improve performance on hard reasoning tasks, especially those that challenge and requires expertise or daily practice from the teacher models? In this paper, we seek for empirical answers to this question by investigating various data-driven strategies that offer supervision data at different quality levels upon tasks of varying complexity. Two intuitive strategies emerge for teacher models to provide supervision during alignment training: 1) using lower-quality supervision from complete tasks that match the difficulty of the target reasoning tasks, and 2) leveraging higher-quality supervision from easier subtasks that are less challenging. Interestingly, we find that even when the outcome error rate for hard task supervision is high (e.g., 90\%), training on such data can outperform perfectly correct supervision on easier subtasks on multiple hard math benchmarks. We further identify a more critical factor influencing training performance: step-wise error rates, which indicate the severity of errors in solutions. Specifically, training on hard task supervision with the same outcome error rates but disparate step-wise error rates can lead to a 30\% accuracy gap on MATH benchmark. Our results also reveal that supplementing hard task supervision with the corresponding subtask supervision can yield notable performance improvements than simply combining rephrased hard full task supervision, suggesting new avenues for data augmentation. Data and code are released at \url{https://github.com/hexuan21/Weak-to-Strong}.
- Abstract(参考訳): 平均的な人間アノテータや既存のAIシステムのような"弱い教師モデル"は、LLMを効果的に監督してハード推論タスク、特に専門知識や教師モデルからの日々の実践に挑戦するタスクのパフォーマンスを改善するにはどうすればよいのか?
本稿では,複雑さの異なるタスクに対して,様々な品質レベルの監視データを提供する様々なデータ駆動型戦略を探求することによって,この問題に対する実証的な回答を求める。
アライメントトレーニング中に教師モデルに監督を提供するための2つの直感的な戦略が出現する。
1【目的推論作業の難易度に適合する完全作業からの低品質監視の使用】
2) より容易なサブタスクから高品質な監視を活用すること。
興味深いことに、ハードタスクの監督のための結果エラー率が高くても(例: 90 %)、そのようなデータに対するトレーニングは、複数のハード数学のベンチマークにおいて、より簡単なサブタスクの監督を完璧に上回ります。
さらに、ステップワイズエラー率という、ソリューションにおけるエラーの深刻度を示すトレーニングのパフォーマンスに影響を与える、より重要な要因を特定します。
具体的には、同じ結果エラー率のハードタスクのトレーニングを行うが、ステップワイドなエラー率が異なるため、MATHベンチマークでは30倍の精度のギャップが生じる可能性がある。
また,本研究の結果から,データ強化への新たな道筋が示唆されるだけでなく,対応するサブタスクの監督を補うことで,単に書き直したフルタスクの監督を組み合わせれば,優れたパフォーマンス向上が期待できることが明らかとなった。
データとコードは \url{https://github.com/hexuan21/Weak-to-Strong} でリリースされる。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Boosting Supervised Learning Performance with Co-training [15.986635379046602]
我々は,教師付き学習性能を最小限のコストで向上させることができる,軽量な自己教師付き学習フレームワークを提案する。
以上の結果から,両タスクとも教師付きタスクの精度が向上し,ドメイン適応能力が向上することが示唆された。
論文 参考訳(メタデータ) (2021-11-18T17:01:17Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。