論文の概要: Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training
- arxiv url: http://arxiv.org/abs/2405.06932v1
- Date: Sat, 11 May 2024 06:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 19:22:14.375402
- Title: Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training
- Title(参考訳): Piccolo2: マルチタスクハイブリッド損失トレーニングによる汎用テキスト埋め込み
- Authors: Junqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu,
- Abstract要約: CMTEBベンチマークの6つのタスクに対する包括的評価において,他のモデルを上回る埋め込みモデルであるPiccolo2を導入する。
Piccolo2は主に効率的なマルチタスクハイブリッド損失トレーニングアプローチを利用している。
- 参考スコア(独自算出の注目度): 12.12258499094508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce Piccolo2, an embedding model that surpasses other models in the comprehensive evaluation over 6 tasks on CMTEB benchmark, setting a new state-of-the-art. Piccolo2 primarily leverages an efficient multi-task hybrid loss training approach, effectively harnessing textual data and labels from diverse downstream tasks. In addition, Piccolo2 scales up the embedding dimension and uses MRL training to support more flexible vector dimensions. The latest information of piccolo models can be accessed via: https://huggingface.co/sensenova/
- Abstract(参考訳): 本稿では,CMTEBベンチマークの6つのタスクに対する総合的な評価において,他のモデルを上回る埋め込みモデルであるPiccolo2を紹介する。
Piccolo2は主に効率的なマルチタスクハイブリッド損失トレーニングアプローチを活用し、さまざまな下流タスクからテキストデータとラベルを効果的に活用する。
さらに、Piccolo2は埋め込み次元を拡大し、MRLトレーニングを使用してより柔軟なベクトル次元をサポートする。
piccoloモデルの最新の情報は、https://huggingface.co/sensenova/を通じてアクセスすることができる。
関連論文リスト
- Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning [47.37717859805702]
マルチステージ圧縮と15B OpenBAモデルからの継続事前学習から派生した3.4BモデルであるOpenBA-V2を紹介する。
OpenBA-V2は、より多くのデータ、より柔軟な訓練目標、レイヤープルーニング、ニューラルプルーニング、ボキャブラリプルーニングといった技術を利用して、パフォーマンス損失を最小限に抑えた77.3%の圧縮速度を達成する。
論文 参考訳(メタデータ) (2024-05-09T17:53:28Z) - TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [18.954681684239358]
本稿では,様々な視覚言語タスクを対象とした効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。
言語モデル280億のパラメータで、TinyGPT-VはVQAと画像推論タスクにおいて、より大きなパラメータに匹敵する結果を達成している。
論文 参考訳(メタデータ) (2023-12-28T07:11:41Z) - Less is More -- Towards parsimonious multi-task models using structured
sparsity [4.874780144224057]
この作業は、パラメータが少ない複数のタスクに最適化されたスパースモデルを作成することに焦点を当てている。
マルチタスク学習モデルの共有畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。
広範に使用されている2つのマルチタスク学習(MTL)データセットにおいて,シングルタスクとマルチタスク設定の両方においてグループ間隔が生じた結果を分析した。
論文 参考訳(メタデータ) (2023-08-23T13:09:03Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。