Fugu-MT 論文翻訳(概要): Retrieval Backward Attention without Additional Training: Enhance Embeddings of Large Language Models via Repetition

論文の概要: Retrieval Backward Attention without Additional Training: Enhance Embeddings of Large Language Models via Repetition

arxiv url: http://arxiv.org/abs/2502.20726v1
Date: Fri, 28 Feb 2025 05:19:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.645246
Title: Retrieval Backward Attention without Additional Training: Enhance Embeddings of Large Language Models via Repetition
Title（参考訳）: 余分な訓練を伴わない検索支援:反復による大規模言語モデルの埋め込みの促進
Authors: Yifei Duan, Raphael Shang, Deng Liang, Yongqiang Cai,
Abstract要約: 本稿では,ゼロショット設定における事前学習言語モデルの性能向上に焦点をあてる。本稿では,コンテキスト情報エンコーディングを強化するための新しい下位アテンション機構を提案する。
参考スコア（独自算出の注目度）: 4.249842620609683
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models can be viewed as functions that embed text into Euclidean space, where the quality of the embedding vectors directly determines model performance, training such neural networks involves various uncertainties. This paper focuses on improving the performance of pre-trained language models in zero-shot settings through a simple and easily implementable method. We propose a novel backward attention mechanism to enhance contextual information encoding. Evaluated on the Chinese Massive Text Embedding Benchmark (C-MTEB), our approach achieves significant improvements across multiple tasks, providing valuable insights for advancing zero-shot learning capabilities.
Abstract（参考訳）: 言語モデルはユークリッド空間にテキストを埋め込む関数として見ることができ、埋め込みベクトルの品質がモデルの性能を直接決定する。本稿では,ゼロショット設定における事前学習言語モデルの性能向上に焦点をあてる。本稿では,コンテキスト情報エンコーディングを強化するための新しい下位アテンション機構を提案する。 C-MTEB (Massive Text Embedding Benchmark) を参考に,本手法は複数のタスクにまたがる大幅な改善を実現し,ゼロショット学習能力を向上するための貴重な洞察を提供する。

関連論文リスト

Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking [21.23826888841565]
本稿では、推論集約型文書ランキングのための小言語モデルをトレーニングするための新しいアプローチを提案する。我々は Web データと教師 LLM を用いて,関連性の説明付き高品質な学習例を自動生成する。私たちのモデルは、他のアプローチよりもはるかに少ないパラメータを使用しながら、リーダーボードで3位です。
論文参考訳（メタデータ） (2025-04-04T21:27:48Z)
Language Model Meets Prototypes: Towards Interpretable Text Classification Models through Prototypical Networks [1.1711824752079485]
論文は、LMをエンコーダとして使用する際に本質的に解釈可能なモデルを開発することに焦点を当てている。ホワイトボックスのマルチヘッドグラフアテンションに基づくプロトタイプネットワークを開発した。私は、解釈可能なグラフニューラルネットワークを再設計するために、コントラスト学習による注意ベースのプロトタイプネットワークの拡張に取り組んでいます。
論文参考訳（メタデータ） (2024-12-04T22:59:35Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
FILM: How can Few-Shot Image Classification Benefit from Pre-Trained Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-09T08:07:43Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。本研究では,映像分類作業における知識の伝達に着目した。予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文参考訳（メタデータ） (2022-07-04T10:00:47Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
Injecting Text and Cross-lingual Supervision in Few-shot Learning from Self-Supervised Models [33.66135770490531]
新しい言語への自己教師付き表現の伝達を改善するために,音声集合音響モデルが言語間監督を活用する方法を示す。また、格子フリーの最大相互情報目標を用いた微調整を実現するために、ターゲット言語テキストをどのように利用できるかを示す。
論文参考訳（メタデータ） (2021-10-10T17:33:44Z)
On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文参考訳（メタデータ） (2020-10-24T04:30:02Z)
Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文参考訳（メタデータ） (2020-04-12T09:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。