論文の概要: Orca: Progressive Learning from Complex Explanation Traces of GPT-4
- arxiv url: http://arxiv.org/abs/2306.02707v1
- Date: Mon, 5 Jun 2023 08:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 15:59:19.030663
- Title: Orca: Progressive Learning from Complex Explanation Traces of GPT-4
- Title(参考訳): orca:gpt-4の複雑な説明跡から学ぶプログレッシブ学習
- Authors: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal,
Hamid Palangi, Ahmed Awadallah
- Abstract要約: 我々は, LFMの推論過程を模倣する13ビリオンパラメータモデルOrcaを開発した。
Orcaは、説明トレース、ステップバイステップの思考プロセス、その他の複雑な命令を含む、GPT-4から豊富な信号から学習する。
Orcaは、複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回る。
- 参考スコア(独自算出の注目度): 22.526048553548726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has focused on enhancing the capability of smaller models
through imitation learning, drawing on the outputs generated by large
foundation models (LFMs). A number of issues impact the quality of these
models, ranging from limited imitation signals from shallow LFM outputs; small
scale homogeneous training data; and most notably a lack of rigorous evaluation
resulting in overestimating the small model's capability as they tend to learn
to imitate the style, but not the reasoning process of LFMs. To address these
challenges, we develop Orca (We are working with our legal team to publicly
release a diff of the model weights in accordance with LLaMA's release policy
to be published at https://aka.ms/orca-lm), a 13-billion parameter model that
learns to imitate the reasoning process of LFMs. Orca learns from rich signals
from GPT-4 including explanation traces; step-by-step thought processes; and
other complex instructions, guided by teacher assistance from ChatGPT. To
promote this progressive learning, we tap into large-scale and diverse
imitation data with judicious sampling and selection. Orca surpasses
conventional state-of-the-art instruction-tuned models such as Vicuna-13B by
more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard
(BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH
benchmark and shows competitive performance (4 pts gap with optimized system
message) in professional and academic examinations like the SAT, LSAT, GRE, and
GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our
research indicates that learning from step-by-step explanations, whether these
are generated by humans or more advanced AI models, is a promising direction to
improve model capabilities and skills.
- Abstract(参考訳): 近年の研究では、大きな基礎モデル(lfms)によって生成された結果をもとに、模倣学習を通じて、より小さなモデルの能力を高めることに焦点を当てている。
浅いlpm出力からの限られた模倣信号、小規模の均質なトレーニングデータ、そして特に厳密な評価の欠如から、lfmsの推論プロセスではなく、スタイルを模倣するために学習する傾向があるため、小規模モデルの能力は過大評価される。
これらの課題に対処するため、私たちはOrca(LLaMAのリリースポリシーに従ってモデル重量の差分を公開するために、法務チームと協力して、LFMの推論プロセスを模倣することを学ぶ13ビリオンのパラメータモデルであるhttps://aka.ms/orca-lm)を開発しています。
Orcaは、説明トレース、ステップバイステップの思考プロセス、ChatGPTの教師支援によって導かれる他の複雑な指示を含む、GPT-4からの豊富な信号から学習する。
このプログレッシブラーニングを促進するために,大規模かつ多種多様な模倣データを用いて,偏見的なサンプリングと選択を行う。
Orcaは、Big-Bench Hard (BBH)のような複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回り、AGIEvalでは42%である。
さらに、OrcaはBBHベンチマークでChatGPTと同等に到達し、SAT、LSAT、GRE、GMATといった専門的および学術的試験における競争性能(最適化されたシステムメッセージと4ptsの差)を、CoTなしでゼロショット設定で示す。
我々の研究は、ステップバイステップの説明から学ぶことは、それらが人間かより高度なAIモデルによって生成されるかに関わらず、モデル能力とスキルを改善するための有望な方向であることを示唆している。
関連論文リスト
- GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。
エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。
我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文 参考訳(メタデータ) (2024-09-18T17:00:20Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs [4.092862870428798]
我々は知識グラフ(KG)を用いた現在最先端の大規模言語モデル(GPT-4)の会話推論能力を評価する。
我々は,KG経路の正確かつ適応的な予測を行うために設計された基底KG推論エージェントであるLLM-ARKを紹介する。
LLaMA-2-7B-ARKは、現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%である。
論文 参考訳(メタデータ) (2023-12-18T15:23:06Z) - Orca 2: Teaching Small Language Models How to Reason [35.0285407867139]
Orca 1は、説明トレースのようなリッチな信号から学習し、従来の命令調整モデルより優れている。
Orca 2は、同様のサイズのモデルを大きく上回り、5~10倍のモデルと同等かそれ以上のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-18T11:44:52Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Lion: Adversarial Distillation of Proprietary Large Language Models [16.245052771463044]
より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。
我々は、ChatGPTから学生モデル(Lionという名前)に、たった70kのトレーニングデータを使って知識を伝達することに成功しました。
論文 参考訳(メタデータ) (2023-05-22T09:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。