論文の概要: Orca: Progressive Learning from Complex Explanation Traces of GPT-4
- arxiv url: http://arxiv.org/abs/2306.02707v1
- Date: Mon, 5 Jun 2023 08:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 15:59:19.030663
- Title: Orca: Progressive Learning from Complex Explanation Traces of GPT-4
- Title(参考訳): orca:gpt-4の複雑な説明跡から学ぶプログレッシブ学習
- Authors: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal,
Hamid Palangi, Ahmed Awadallah
- Abstract要約: 我々は, LFMの推論過程を模倣する13ビリオンパラメータモデルOrcaを開発した。
Orcaは、説明トレース、ステップバイステップの思考プロセス、その他の複雑な命令を含む、GPT-4から豊富な信号から学習する。
Orcaは、複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回る。
- 参考スコア(独自算出の注目度): 22.526048553548726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has focused on enhancing the capability of smaller models
through imitation learning, drawing on the outputs generated by large
foundation models (LFMs). A number of issues impact the quality of these
models, ranging from limited imitation signals from shallow LFM outputs; small
scale homogeneous training data; and most notably a lack of rigorous evaluation
resulting in overestimating the small model's capability as they tend to learn
to imitate the style, but not the reasoning process of LFMs. To address these
challenges, we develop Orca (We are working with our legal team to publicly
release a diff of the model weights in accordance with LLaMA's release policy
to be published at https://aka.ms/orca-lm), a 13-billion parameter model that
learns to imitate the reasoning process of LFMs. Orca learns from rich signals
from GPT-4 including explanation traces; step-by-step thought processes; and
other complex instructions, guided by teacher assistance from ChatGPT. To
promote this progressive learning, we tap into large-scale and diverse
imitation data with judicious sampling and selection. Orca surpasses
conventional state-of-the-art instruction-tuned models such as Vicuna-13B by
more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard
(BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH
benchmark and shows competitive performance (4 pts gap with optimized system
message) in professional and academic examinations like the SAT, LSAT, GRE, and
GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our
research indicates that learning from step-by-step explanations, whether these
are generated by humans or more advanced AI models, is a promising direction to
improve model capabilities and skills.
- Abstract(参考訳): 近年の研究では、大きな基礎モデル(lfms)によって生成された結果をもとに、模倣学習を通じて、より小さなモデルの能力を高めることに焦点を当てている。
浅いlpm出力からの限られた模倣信号、小規模の均質なトレーニングデータ、そして特に厳密な評価の欠如から、lfmsの推論プロセスではなく、スタイルを模倣するために学習する傾向があるため、小規模モデルの能力は過大評価される。
これらの課題に対処するため、私たちはOrca(LLaMAのリリースポリシーに従ってモデル重量の差分を公開するために、法務チームと協力して、LFMの推論プロセスを模倣することを学ぶ13ビリオンのパラメータモデルであるhttps://aka.ms/orca-lm)を開発しています。
Orcaは、説明トレース、ステップバイステップの思考プロセス、ChatGPTの教師支援によって導かれる他の複雑な指示を含む、GPT-4からの豊富な信号から学習する。
このプログレッシブラーニングを促進するために,大規模かつ多種多様な模倣データを用いて,偏見的なサンプリングと選択を行う。
Orcaは、Big-Bench Hard (BBH)のような複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回り、AGIEvalでは42%である。
さらに、OrcaはBBHベンチマークでChatGPTと同等に到達し、SAT、LSAT、GRE、GMATといった専門的および学術的試験における競争性能(最適化されたシステムメッセージと4ptsの差)を、CoTなしでゼロショット設定で示す。
我々の研究は、ステップバイステップの説明から学ぶことは、それらが人間かより高度なAIモデルによって生成されるかに関わらず、モデル能力とスキルを改善するための有望な方向であることを示唆している。
関連論文リスト
- A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Evaluating and Enhancing Large Language Models for Conversational
Reasoning on Knowledge Graphs [15.480976967871632]
我々は知識グラフ(KG)を用いた現在最先端の大規模言語モデル(GPT-4)の会話推論能力を評価する。
我々は,KG経路の正確かつ適応的な予測を行うために設計された基底KG推論エージェントであるLLM-ARKを紹介する。
LLaMA-2-7B-ARKは、現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%である。
論文 参考訳(メタデータ) (2023-12-18T15:23:06Z) - Orca 2: Teaching Small Language Models How to Reason [35.0285407867139]
Orca 1は、説明トレースのようなリッチな信号から学習し、従来の命令調整モデルより優れている。
Orca 2は、同様のサイズのモデルを大きく上回り、5~10倍のモデルと同等かそれ以上のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-18T11:44:52Z) - Contrastive Post-training Large Language Models on Data Curriculum [62.24656753529541]
複数のモデルから選好ペアを自動的に構築することで、アライメントのための対照的なポストトレーニング手法を検討する。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
対照的にポストトレーニングは、既にGPT-4出力をチューニングした最先端の教育学習モデルであるOrcaの性能をさらに向上させ、ChatGPTよりも優れている。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Lion: Adversarial Distillation of Proprietary Large Language Models [16.245052771463044]
より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。
我々は、ChatGPTから学生モデル(Lionという名前)に、たった70kのトレーニングデータを使って知識を伝達することに成功しました。
論文 参考訳(メタデータ) (2023-05-22T09:49:16Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。