Fugu-MT 論文翻訳(概要): BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings

論文の概要: BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings

arxiv url: http://arxiv.org/abs/2311.05296v2
Date: Thu, 14 Mar 2024 08:04:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 02:12:48.829486
Title: BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings
Title（参考訳）: BeLLM: 文の埋め込みのための後方依存の強化された大規模言語モデル
Authors: Xianming Li, Jing Li,
Abstract要約: 後方依存性強化大言語モデル(BeLLM)を提案する。特定の注意層を一方向から双方向に変換することで文の埋め込みを学習する。自動回帰 LLM は文埋め込みの後方依存性の恩恵を受ける。
参考スコア（独自算出の注目度）: 4.545354973721937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sentence embeddings are crucial in measuring semantic similarity. Most recent studies employed large language models (LLMs) to learn sentence embeddings. Existing LLMs mainly adopted autoregressive architecture without explicit backward dependency modeling. Therefore, we examined the effects of backward dependencies in LLMs for semantic similarity measurements. Concretely, we propose a novel model: backward dependency enhanced large language model (BeLLM). It learns sentence embeddings via transforming specific attention layers from uni- to bi-directional. We extensively experiment across various semantic textual similarity (STS) tasks and downstream applications. BeLLM achieves state-of-the-art performance in varying scenarios. It shows that auto-regressive LLMs benefit from backward dependencies for sentence embeddings.
Abstract（参考訳）: 文の埋め込みは意味的類似性を測定するのに不可欠である。最近の研究では、大きな言語モデル(LLM)を用いて文の埋め込みを学習している。既存のLLMは主に、明示的な後方依存性モデリングを伴わない自己回帰型アーキテクチャを採用している。そこで本研究では,LLMの後方依存性が意味的類似度測定に与える影響について検討した。具体的には,後方依存性を拡張した大規模言語モデル(BeLLM)を提案する。特定の注意層を一方向から双方向に変換することで文の埋め込みを学習する。様々な意味的テキスト類似性(STS)タスクや下流アプリケーションに対して広範囲に実験を行った。 BeLLMは様々なシナリオで最先端のパフォーマンスを達成する。自動回帰 LLM は文埋め込みの後方依存性の恩恵を受ける。

関連論文リスト

DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。 dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文参考訳（メタデータ） (2026-02-13T02:18:14Z)
AR-MAP: Are Autoregressive Large Language Models Implicit Teachers for Diffusion Large Language Models? [58.52365018076441]
拡散大言語モデル(DLLM)は自己回帰モデルに代わる強力な代替手段として登場した。エビデンス・ロウアー・バウンド(ELBO)による推定結果から,DLLMの選好アライメントは依然として困難である。本稿では,選択整合型自己回帰LDMを暗黙の教師として活用し,分散Mアライメントのための新しい伝達学習フレームワークであるAR-MAPを提案する。
論文参考訳（メタデータ） (2026-02-02T14:48:40Z)
PlaM: Training-Free Plateau-Guided Model Merging for Better Visual Grounding in MLLMs [59.78917775399492]
マルチモーダル命令の微調整はパラドックス的にこのテキストの推論能力を低下させる。この劣化を緩和するためのトレーニング不要のフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-12T15:27:51Z)
Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文参考訳（メタデータ） (2025-06-16T17:59:08Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。 LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-06T05:15:34Z)
Revisiting Word Embeddings in the LLM Era [0.2999888908665658]
大規模言語モデル(LLM)は、最近、様々なNLPタスクにおいて顕著な進歩を見せている。従来の非コンテクスト化単語と文脈化単語の埋め込みをLLMによる埋め込みで比較した。以上の結果から,LLMは意味的関連語をより緊密にクラスタ化し,非文脈化設定における類似処理をより良く行うことが示唆された。
論文参考訳（メタデータ） (2025-02-26T22:45:08Z)
Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文参考訳（メタデータ） (2025-02-19T12:07:53Z)
Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free [21.59456761618456]
大規模言語モデル(LLM)は生成タスクに優れ、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。我々の研究は、MoE LLMのエキスパートルータが、様々な組込みタスクに対して有望な性能を持つ既製の組込みモデルとして機能できることを示唆している。
論文参考訳（メタデータ） (2024-10-14T17:59:44Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文参考訳（メタデータ） (2024-09-22T14:35:09Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。 AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文参考訳（メタデータ） (2024-05-02T17:32:59Z)
Word Embeddings Revisited: Do LLMs Offer Something New? [2.822851601000061]
意味のある単語の埋め込みを学ぶことは、堅牢な言語モデルをトレーニングする上で鍵となる。最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。
論文参考訳（メタデータ） (2024-02-16T21:47:30Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Towards Measuring Representational Similarity of Large Language Models [1.7228514699394508]
7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
論文参考訳（メタデータ） (2023-12-05T12:48:04Z)
Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文参考訳（メタデータ） (2023-07-31T13:26:03Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)
Retrofitting Multilingual Sentence Embeddings with Abstract Meaning Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2022-10-18T11:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。