論文の概要: Conan-embedding: General Text Embedding with More and Better Negative Samples
- arxiv url: http://arxiv.org/abs/2408.15710v1
- Date: Wed, 28 Aug 2024 11:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:10:57.778857
- Title: Conan-embedding: General Text Embedding with More and Better Negative Samples
- Title(参考訳): Conan-embedding: より優れた負のサンプルを用いた汎用テキスト埋め込み
- Authors: Shiyu Li, Yang Tang, Shizhe Chen, Xi Chen,
- Abstract要約: より高品質な負例の利用を最大化するコナン埋め込みモデルを提案する。
当社のアプローチは,現在,Massiveテキスト埋め込みベンチマークの中国リーダーボードにランクインしている,埋め込みモデルの能力を効果的に向上させる。
- 参考スコア(独自算出の注目度): 30.571206231457932
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the growing popularity of RAG, the capabilities of embedding models are gaining increasing attention. Embedding models are primarily trained through contrastive loss learning, with negative examples being a key component. Previous work has proposed various hard negative mining strategies, but these strategies are typically employed as preprocessing steps. In this paper, we propose the conan-embedding model, which maximizes the utilization of more and higher-quality negative examples. Specifically, since the model's ability to handle preprocessed negative examples evolves during training, we propose dynamic hard negative mining method to expose the model to more challenging negative examples throughout the training process. Secondly, contrastive learning requires as many negative examples as possible but is limited by GPU memory constraints. Therefore, we use a Cross-GPU balancing Loss to provide more negative examples for embedding training and balance the batch size across multiple tasks. Moreover, we also discovered that the prompt-response pairs from LLMs can be used for embedding training. Our approach effectively enhances the capabilities of embedding models, currently ranking first on the Chinese leaderboard of Massive text embedding benchmark
- Abstract(参考訳): RAGの人気が高まり、埋め込みモデルの能力はますます注目を集めている。
埋め込みモデルは、主に対照的な損失学習を通じて訓練される。
以前の研究では、様々な強硬な負の採掘戦略が提案されてきたが、これらの戦略は一般的に前処理の手順として採用されている。
本稿では,より高次かつ高品質な負例の利用を最大化するコナン埋め込みモデルを提案する。
具体的には、事前処理された負の例を扱うモデルの能力が訓練中に進化するので、トレーニングプロセスを通してより困難な負の例にモデルを公開するための動的強硬な負のマイニング法を提案する。
第二に、対照的な学習は可能な限り多くのネガティブな例を必要とするが、GPUメモリの制約によって制限されている。
そのため、クロスGPUバランシングロスを使用して、トレーニングを埋め込み、バッチサイズを複数のタスク間でバランスさせる、よりネガティブな例を提供します。
また,LSMから得た応答対を組込み訓練に用いることも確認した。
当社のアプローチは,現在,Massiveテキスト埋め込みベンチマークの中国リーダボードにランクインしている,埋め込みモデルの能力を効果的に向上させるものだ。
関連論文リスト
- Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - When does loss-based prioritization fail? [18.982933391138268]
ノイズや破損したデータのあるシナリオでは,損失に基づく加速度法が劣化することを示す。
例題の難易度は、ノイズを他のタイプの難易度例から正しく分離する必要がある。
論文 参考訳(メタデータ) (2021-07-16T07:23:15Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z) - SCE: Scalable Network Embedding from Sparsest Cut [20.08464038805681]
大規模ネットワーク埋め込みは、教師なしの方法で各ノードの潜在表現を学習することである。
このような対照的な学習手法の成功の鍵は、正と負のサンプルを引き出す方法である。
本稿では, 負のサンプルのみを用いた教師なしネットワーク埋め込みのためのSCEを提案する。
論文 参考訳(メタデータ) (2020-06-30T03:18:15Z) - Adaptive Offline Quintuplet Loss for Image-Text Matching [102.50814151323965]
既存の画像テキストマッチングアプローチでは、オンラインのハードネガティブによるトリプルト損失を利用してモデルをトレーニングするのが一般的である。
トレーニングセット全体からオフラインで負をサンプリングして解を提案する。
我々は,MS-COCOとFlickr30Kデータセットを用いた3つの最先端画像テキストモデルに対するトレーニング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-07T22:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。