Fugu-MT 論文翻訳(概要): Pooling And Attention: What Are Effective Designs For LLm-Based Embedding Models?

論文の概要: Pooling And Attention: What Are Effective Designs For LLm-Based Embedding Models?

arxiv url: http://arxiv.org/abs/2409.02727v1
Date: Wed, 4 Sep 2024 14:01:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-05 17:55:43.333269
Title: Pooling And Attention: What Are Effective Designs For LLm-Based Embedding Models?
Title（参考訳）: プールと注意:LLmベースの埋め込みモデルに効果的な設計は何か?
Authors: Yixuan Tang, Yi Yang,
Abstract要約: 我々は,最後の層だけでなく,すべての隠蔽層の出力を横断的ネットワークを用いて変換する,新しいプーリング戦略であるMulti-Layers Trainable Poolingを提案する。本稿では,LLMをベースとした埋め込みモデルの効果的なトレーニング戦略について述べる。
参考スコア（独自算出の注目度）: 18.990655668481075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The significant advancements of Large Language Models (LLMs) in generative tasks have led to a growing body of work exploring LLM-based embedding models. While these models, employing different pooling and attention strategies, have achieved state-of-the-art performance on public embedding benchmarks, questions still arise about what constitutes an effective design for LLM-based embedding models. However, these models are often trained on different datasets, using different LLM base models or training settings. Moreover, evaluations on public embedding benchmarks often fail to report statistical significance, making it difficult to determine which designs truly contribute to final performance. This complicates the process for practitioners seeking optimal training recipes for LLM-based embedding models. In this study, we conduct a large-scale experiment by training a series of LLM-based embedding models using the same training data and base model but differing in their pooling and attention strategies. The results show that there is no one-size-fits-all solution: while bidirectional attention and an additional trainable pooling layer outperform in text similarity and information retrieval tasks, they do not significantly surpass simpler designs like EOS-last token pooling and default causal attention in clustering and classification tasks. Furthermore, we propose a new pooling strategy, Multi-Layers Trainable Pooling, which transforms the outputs of all hidden layers, rather than just the last layer, using a cross-attention network. This method proves to be statistically superior in text similarity and retrieval tasks compared to existing pooling methods. Overall, this paper sheds light on effective training strategies for LLM-based embedding models.
Abstract（参考訳）: ジェネレーティブタスクにおける大規模言語モデル(LLM)の大幅な進歩は、LLMベースの埋め込みモデルを探究する活動の活発化に繋がった。これらのモデルは、様々なプーリングとアテンション戦略を採用し、公開埋め込みベンチマークで最先端のパフォーマンスを達成したが、LLMベースの埋め込みモデルにとって効果的な設計は何かという疑問が残る。しかしながら、これらのモデルは、異なるLLMベースモデルやトレーニング設定を使用して、異なるデータセットでトレーニングされることが多い。さらに、公開埋め込みベンチマークの評価では、しばしば統計的意義を報告できず、どの設計が最終的な性能に本当に貢献するかを判断することが困難である。これは、LCMベースの埋め込みモデルのための最適なトレーニングレシピを求める実践者にとって、複雑なプロセスである。本研究では,同じトレーニングデータとベースモデルを用いて,LLMをベースとした一連の埋め込みモデルをトレーニングすることで,大規模な実験を行う。双方向の注意と追加のトレーニング可能なプーリング層は、テキスト類似性や情報検索タスクよりも優れているが、EOS-lastトークンプーリングやクラスタリングや分類タスクにおけるデフォルト因果的注意など、より単純な設計をはるかに上回っているわけではない。さらに,最後の層に留まらず,すべての隠蔽層から出力を変換するマルチ層学習型プール方式を提案する。この手法は,既存のプーリング法と比較して,テキスト類似性や検索タスクにおいて統計的に優れていることを示す。本稿では,LLMをベースとした埋め込みモデルの効果的なトレーニング戦略について概説する。

関連論文リスト

Do BERT-Like Bidirectional Models Still Perform Better on Text Classification in the Era of LLMs? [13.077853383476974]
本研究は,3つのカテゴリー法を体系的に比較することで,一般的な「LLM中心」傾向に挑戦する。以上の結果から,BERT様モデルはLLMよりも優れていることが判明した。そこで本稿では,LLM への一大依存に対して,タスク駆動型アプローチを提案する,きめ細かいタスク選択戦略である TaMAS を提案する。
論文参考訳（メタデータ） (2025-05-23T05:46:42Z)
Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文参考訳（メタデータ） (2025-03-19T18:10:12Z)
Large Language Models as Attribution Regularizers for Efficient Model Training [0.0]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。我々は,LLM生成したグローバルタスク特徴属性を,より小さなネットワークのトレーニングプロセスに組み込む方法を提案する。我々のアプローチは、数ショットの学習シナリオにおいて優れたパフォーマンスをもたらす。
論文参考訳（メタデータ） (2025-02-27T16:55:18Z)
A Comprehensive Analysis on LLM-based Node Classification Algorithms [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。 10のデータセット、8つのLLMベースのアルゴリズム、3つの学習パラダイムを含み、新しいメソッドとデータセットで簡単に拡張できるように設計されている。パフォーマンスに影響を与える重要な設定を決定するために、広範な実験、トレーニング、および2200以上のモデルの評価を行います。その結果, LLM法は半教師付き環境で従来の手法を著しく上回り, その利点は教師付き環境ではごくわずかである,という8つの知見が得られた。
論文参考訳（メタデータ） (2025-02-02T15:56:05Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
LLMs are Also Effective Embedding Models: An In-depth Overview [40.53941563464671]
大規模言語モデル(LLM)は、様々なタスクで最先端のパフォーマンスを達成することによって、自然言語処理に革命をもたらした。近年、埋め込みモデルとしての有効性が注目され、ELMoやBERTのような従来のエンコーダのみのモデルから、GPT、LLaMA、Mistralのようなデコーダのみの大規模LLMへとパラダイムシフトした。
論文参考訳（メタデータ） (2024-12-17T06:48:24Z)
Comparative Analysis of Pooling Mechanisms in LLMs: A Sentiment Analysis Perspective [2.2334256816037987]
BERTやGPTのようなトランスフォーマーベースのモデルは、トークンレベルの埋め込みを文レベルの表現に集約するためにプール層に依存している。 Mean、Max、Weighted Sumといった一般的なプール機構は、この集約プロセスにおいて重要な役割を果たす。本稿では,これらのプール機構が文レベル感情分析の文脈における2つの著名なLCMファミリー(BERTとGPT)に与える影響について検討する。
論文参考訳（メタデータ） (2024-11-22T00:59:25Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文参考訳（メタデータ） (2024-10-07T15:55:55Z)
SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文参考訳（メタデータ） (2024-07-11T05:38:15Z)
LTSM-Bundle: A Toolbox and Benchmark on Large Language Models for Time Series Forecasting [69.33802286580786]
LTSM-Bundleは総合的なツールボックスであり、LTSMをトレーニングするためのベンチマークである。複数の次元からLTSMをモジュール化し、ベンチマークし、プロンプト戦略、トークン化アプローチ、ベースモデルの選択、データ量、データセットの多様性を含む。実験により、この組み合わせは最先端のLTSMや従来のTSF法と比較して、ゼロショットと少数ショットのパフォーマンスが優れていることが示された。
論文参考訳（メタデータ） (2024-06-20T07:09:19Z)
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
NV-Embedモデルに様々なアーキテクチャ設計とトレーニング手順を導入する。我々のモデルは、MTEB(Massive Text Embedding Benchmark)で1位、69.32の最高スコアを記録した。私たちはこのモデルを、https://face.co/EIR/NV-Embed-v1.comでオープンソース化しました。
論文参考訳（メタデータ） (2024-05-27T17:59:45Z)
Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文参考訳（メタデータ） (2024-04-19T08:52:22Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文参考訳（メタデータ） (2023-07-31T13:26:03Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。