論文の概要: 360Zhinao Technical Report
- arxiv url: http://arxiv.org/abs/2405.13386v1
- Date: Wed, 22 May 2024 06:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:04:57.092819
- Title: 360Zhinao Technical Report
- Title(参考訳): 360 Zhinao 技術報告
- Authors: 360Zhinao Team,
- Abstract要約: 7Bパラメータサイズとコンテキスト長が4K,32K,360Kにまたがる360Zhinaoモデルを提案する。
360Zhinao-7Bのコンテキストウィンドウは32Kと360Kに容易に拡張できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 360Zhinao models with 7B parameter size and context lengths spanning 4K, 32K and 360K, all available at https://github.com/Qihoo360/360zhinao. For rapid development in pretraining, we establish a stable and sensitive ablation environment to evaluate and compare experiment runs with minimal model size. Under such guidance, we perfect our data cleaning and composition strategies to pretrain $\texttt{360Zhinao-7B-Base}$ on 3.4T tokens. We also mainly emphasize data during alignment, where we strive to balance quantity and quality with filtering and reformatting. With tailored data, 360Zhinao-7B's context window is easily extended to 32K and 360K. RMs and RLHF are trained following SFT and credibly applied to specific tasks. All together these contributions lead to 360Zhinao-7B's competitive performance among models of similar size.
- Abstract(参考訳): パラメータサイズが7B、コンテキスト長が4K、32K、360Kで、すべてhttps://github.com/Qihoo360/360zhinaoで利用可能である。
プレトレーニングにおける迅速な開発のために,実験を最小限のモデルサイズで評価・比較するために,安定かつ敏感なアブレーション環境を構築した。
このようなガイダンスの下で、私たちは3.4Tトークン上で$\texttt{360Zhinao-7B-Base}をプリトレーニングするために、データのクリーニングとコンポジション戦略を完成させます。
また、アライメント中のデータにも重点を置いています。そこでは、フィルタリングとリカッティングで量と品質のバランスを保とうとしています。
調整されたデータにより、360Zhinao-7Bのコンテキストウィンドウは32Kと360Kに容易に拡張できる。
RMとRLHFはSFTに従って訓練され、特定のタスクに確実に適用される。
これらの貢献により、同じ大きさのモデル間での360度Zhinao-7Bの競争性能が向上した。
関連論文リスト
- GDeR: Safeguarding Efficiency, Balancing, and Robustness via Prototypical Graph Pruning [44.401418612374286]
トレーニング可能なプロトタイプを用いて,プロセス中のトレーニングを更新するための新しいソフトプルーニング手法であるGDeRを導入する。
GDeRは、トレーニングサンプルの30%削減で、完全なデータセットのパフォーマンスを達成または上回る。
また、不均衡なトレーニングやノイズの多いトレーニングシナリオにおいて、最先端のプルーニング手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-17T16:56:01Z) - Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z) - Does your data spark joy? Performance gains from domain upsampling at the end of training [16.572129046599937]
大規模なFLモデルスケールでのトレーニングにおけるドメイン固有のデータセットの影響を理解することは、費用がかかる。
ドメインアップサンプリングを使用して、さまざまなベンチマークを改善するために、個々のデータセットの有用性を大規模に特徴付ける。
このツールは、さまざまな事前トレーニングデータセットの影響を大規模に実験する機能を開放するが、完全な事前トレーニング実行に比べてコストが低い。
論文 参考訳(メタデータ) (2024-06-05T17:29:15Z) - Evaluation of Few-Shot Learning for Classification Tasks in the Polish Language [0.1534667887016089]
ポーランド語に固有の7つの異なる分類タスクからなる数ショットのベンチマークを導入する。
各種の訓練済み商用およびオープンソースモデルを用いて, 微調整, 線形探索, SetFit, テキスト内学習 (ICL) の0と16ショットを比較した。
ICL は GPT-3.5 や GPT-4 などの商用モデルで最高の性能を達成している。
論文 参考訳(メタデータ) (2024-04-27T08:53:58Z) - Neural Embedding Compression For Efficient Multi-Task Earth Observation Modelling [0.0]
本稿では,生データではなく,データコンシューマへの圧縮埋め込みの転送に基づくNeural Embedding Compression(NEC)を提案する。
我々は、学習したニューラルネットワークを用いて基礎モデル(FM)を適用し、マルチタスク埋め込みを生成する。
シーン分類とセマンティックセグメンテーションという2つのEOタスクにおけるNECの評価を行った。
論文 参考訳(メタデータ) (2024-03-26T17:19:23Z) - Data Engineering for Scaling Language Models to 128K Context [98.41554785106902]
本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。
既存の作業の一般的な実践である書籍のような特定のドメインで、より長いデータを鼻でサンプリングすることで、パフォーマンスが最適以下であることが分かりました。
我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
論文 参考訳(メタデータ) (2024-02-15T18:19:16Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - DiffPack: A Torsional Diffusion Model for Autoregressive Protein
Side-Chain Packing [20.798700756944243]
DiffPackは、側鎖のねじり角度の関節分布を学習するねじり拡散モデルである。
本手法は,タンパク質側鎖パッキングのためのいくつかのベンチマークで評価した。
論文 参考訳(メタデータ) (2023-06-01T09:22:09Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - How to Train PointGoal Navigation Agents on a (Sample and Compute)
Budget [52.17005499269176]
サンプル予算(75万フレーム)と計算予算(1日で1GPU)の両方でPointGoalナビゲーションを研究する。
計算予算では、RGB-DエージェントのパフォーマンスはGibsonで19 SPL、Matterport3Dで35 SPL向上している。
コミュニティの実験をより効率的にするために、私たちの発見と推奨が役立てることを願っています。
論文 参考訳(メタデータ) (2020-12-11T04:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。