論文の概要: GISTEmbed: Guided In-sample Selection of Training Negatives for Text
Embedding Fine-tuning
- arxiv url: http://arxiv.org/abs/2402.16829v1
- Date: Mon, 26 Feb 2024 18:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:31:54.060359
- Title: GISTEmbed: Guided In-sample Selection of Training Negatives for Text
Embedding Fine-tuning
- Title(参考訳): gistembed: テキスト埋め込み微調整のためのトレーニング負のサンプル内選択
- Authors: Aivin V. Solatorio
- Abstract要約: GISTEmbedは、ガイドモデルによる対照的なトレーニングにおいて、バッチ内のネガティブな選択を強化する新しい戦略である。
MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス改善を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Embedding models are integral to AI applications like semantic search,
personalized recommendations, and retrieval augmented generation for LLMs,
necessitating high-quality training data. However, the limited scalability of
manual data curation prompts the need for automated methods to ensure data
integrity. Traditional unsupervised triplet mining automates training data
generation, crucial for embedding model training, yet inadvertently injects
biases and noise, thereby degrading model performance. Addressing this, we
introduce GISTEmbed, a novel strategy that enhances in-batch negative selection
during contrastive training through a guide model. This approach departs from
reliance on random sampling and equal utility assumption of batch negatives,
significantly reducing noise from data quality issues and improving model
fine-tuning. Benchmarked against the Massive Text Embedding Benchmark (MTEB),
GISTEmbed showcases consistent performance improvements across various model
sizes and achieves state-of-the-art results in select categories. This
framework enables significant enhancements for smaller models by leveraging the
capabilities of powerful yet resource-intensive large models. GISTEmbed can
potentially revolutionize the creation of highly efficient, smaller models,
democratizing access to advanced AI technologies. Making these technologies
more accessible and cost-effective, especially for applications constrained by
resources, significantly expands the impact and accessibility of
state-of-the-art AI solutions across diverse sectors.
- Abstract(参考訳): 埋め込みモデルは、セマンティック検索、パーソナライズされたレコメンデーション、LLMの検索強化生成のようなAIアプリケーションに不可欠なもので、高品質なトレーニングデータを必要とする。
しかし、手動のデータキュレーションのスケーラビリティが制限されているため、データの整合性を確保するために自動メソッドが必要である。
従来の教師なしトリプルトマイニングは、モデルのトレーニングに不可欠なトレーニングデータ生成を自動化するが、不注意にバイアスとノイズを注入することで、モデルのパフォーマンスを低下させる。
そこで本研究では,対照訓練中におけるバッチ内負の選択性を高める新しい手法であるgistembedをガイドモデルとして紹介する。
このアプローチは、ランダムサンプリングとバッチ負の等価効用仮定に依存し、データ品質の問題からノイズを著しく低減し、モデル微調整を改善する。
MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス向上を示し、特定のカテゴリで最先端の結果を達成する。
このフレームワークは、強力なリソース集約型大規模モデルの能力を活用することで、より小さなモデルの大幅な拡張を可能にします。
GISTEmbedは、高度に効率的で小さなモデルの作成に革命をもたらす可能性がある。
これらのテクノロジをよりアクセシビリティにし、コスト効率を向上し、特にリソースに制約されたアプリケーションに対して、さまざまな分野にわたる最先端AIソリューションの影響とアクセシビリティを大きく拡大する。
関連論文リスト
- Enhancing Few-Shot Learning with Integrated Data and GAN Model Approaches [35.431340001608476]
本稿では,データ拡張とモデルファインチューニングを融合することで,少数ショット学習を向上するための革新的なアプローチを提案する。
薬物発見、ターゲット認識、悪意のあるトラフィック検出などの分野で、小さなサンプルデータによって引き起こされる課題に対処することを目的としている。
その結果,本研究で開発されたMhERGANアルゴリズムは,数発の学習に極めて有効であることが確認された。
論文 参考訳(メタデータ) (2024-11-25T16:51:11Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Data Quality Aware Approaches for Addressing Model Drift of Semantic
Segmentation Models [1.6385815610837167]
本研究では,戦闘モデルドリフトに対する2つの顕著な品質意識戦略について検討した。
前者は画像品質評価の指標を活用して、厳密に高品質なトレーニングデータを選択し、モデルの堅牢性を向上させる。
後者は、既存のモデルから学んだベクトル機能を利用して、将来のデータの選択をガイドし、モデルの以前の知識と整合させる。
論文 参考訳(メタデータ) (2024-02-11T18:01:52Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。