Fugu-MT 論文翻訳(概要): A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens

論文の概要: A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens

arxiv url: http://arxiv.org/abs/2406.17378v2
Date: Tue, 22 Oct 2024 06:32:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.114567
Title: A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens
Title（参考訳）: LLMのテキスト埋め込みは、キーのトークンと密接な関係にある
Authors: Zhijie Nie, Richong Zhang, Zhanyu Wu,
Abstract要約: テキストを埋め込みモデルに入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致します。この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。最初のプリンシパルコンポーネントを調整することで、テキストの埋め込みをキートークンと整列することができます。
参考スコア（独自算出の注目度）: 20.37803751979975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text embeddings from large language models (LLMs) have achieved excellent results in tasks such as information retrieval, semantic textual similarity, etc. In this work, we show an interesting finding: when feeding a text into the embedding LLMs, the obtained text embedding will be able to be aligned with the key tokens in the input text. We first fully analyze this phenomenon on eight embedding LLMs and show that this phenomenon is universal and is not affected by model architecture, training strategy, and embedding method. With a deeper analysis, we then find that the main change in embedding space between the embedding LLMs and their original generative LLMs is in the first principal component. By adjusting the first principal component, we can align text embedding with the key tokens. Finally, we give several examples to demonstrate the vast application potential of this finding: (1) we propose a simple and practical sparse retrieval method based on the aligned tokens, which can achieve 80\% of the dense retrieval effect of the same model while reducing the computation significantly; (2) we show that our findings provide a fresh perspective to help understand fuzzy concepts (e.g., semantic relatedness vs. semantic similarity) and emerging technologies (e.g., instruction-following embedding) in this field.
Abstract（参考訳）: 大規模言語モデル(LLM)からのテキスト埋め込みは,情報検索や意味的テキスト類似性などのタスクにおいて,優れた成果を上げている。本研究では, 埋め込み LLM にテキストを埋め込むと, 入力テキストのキートークンと整合性を持たせることができる,という興味深い発見を示す。まず, この現象を 8 つの埋め込み LLM 上で完全に解析し, この現象が普遍的であり, モデルアーキテクチャ, トレーニング戦略, 埋め込み手法の影響を受けないことを示す。より深い解析により、埋め込み LLM と元の生成 LLM との埋め込み空間の主な変化が第一の主成分であることが分かる。最初のプリンシパルコンポーネントを調整することで、テキストの埋め込みをキートークンと整列することができます。最後に,本発見の膨大な応用可能性を示すために,(1) 整列トークンに基づく単純で実用的なスパース検索手法を提案する。(2) ファジィ概念(意味的関連性と意味的類似性)と新興技術(例えば,命令追従埋め込み)を理解する上で,新たな視点を提供することを示す。

関連論文リスト

Beyond Tokens in Language Models: Interpreting Activations through Text Genre Chunks [0.0]
本稿では、テキストのジャンルをアクティベートに基づいて予測する予測フレームワークへの第一歩を示す。 Mistral-7Bと2つのデータセットを用いて、最大98%のF1スコアでジャンルを抽出できることを示す。その結果、テキストのジャンルが浅い学習モデルでLLMから推測できるという概念の証明が得られた。
論文参考訳（メタデータ） (2025-11-20T16:53:12Z)
Rep2Text: Decoding Full Text from a Single LLM Token Representation [38.62008454909388]
本稿では,最後の記述から全文を復号化するための新しいフレームワークを提案する。 Rep2Textはトレーニング可能なアダプタを使用し、ターゲットモデルの内部表現をデコード言語モデルの埋め込み空間に投影する。
論文参考訳（メタデータ） (2025-11-09T23:18:36Z)
Text2Token: Unsupervised Text Representation Learning with Token Target Prediction [33.981873901056765]
教師なしテキスト表現学習(TRL)は、ウェブの未ラベルテキストによる検索とレコメンデーションを改善するのに有用である。最近の実証的研究により、高品質な表現は入力テキストのキートークンと一致していることがわかった。 TRL, Text2Token のための教師なし生成フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-11T14:00:45Z)
Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models [3.8688081072587326]
Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
論文参考訳（メタデータ） (2025-07-31T10:01:11Z)
Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [6.549601823162279]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文参考訳（メタデータ） (2025-07-30T14:49:30Z)
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文参考訳（メタデータ） (2025-03-05T15:33:52Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [44.84219266082269]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文参考訳（メタデータ） (2025-02-05T15:33:00Z)
Reasoning to Attend: Try to Understand How <SEG> Token Works [44.33848900059659]
我々は、$texttSEG>$トークンが、画像とテキストのペア内のセマンティックな類似性に寄与していることを示す。本稿では,高活性点の誘導の下で,LMMの高強度な$textbfREA$soning機能を実現するREADを提案する。
論文参考訳（メタデータ） (2024-12-23T17:44:05Z)
Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。 AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文参考訳（メタデータ） (2024-12-19T17:51:49Z)
Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。 MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文参考訳（メタデータ） (2024-09-24T03:30:19Z)
CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。 LLMはどの程度の間、正書法情報を学ぶことができるのか? LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-23T18:27:03Z)
Scalable and Domain-General Abstractive Proposition Segmentation [20.532804009152255]
我々は、抽象命題セグメンテーション(APS)の課題に焦点を合わせ、テキストを単純で自己完結した、よく表現された文に変換する。まず、タスクの評価基準を導入し、いくつかの品質の次元を計測する。次に、スケーラブルで正確な命題セグメンテーションモデルを提案する。
論文参考訳（メタデータ） (2024-06-28T10:24:31Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文参考訳（メタデータ） (2024-05-26T21:31:59Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
TM-TREK at SemEval-2024 Task 8: Towards LLM-Based Automatic Boundary Detection for Human-Machine Mixed Text [0.0]
本稿では,人文と機械生成の混合テキストにおける境界を識別する大規模言語モデルの能力について検討する。 LLMのアンサンブルモデルは,SemEval'24コンペティションタスク8の「Human-Machine Mixed Text Detection」サブタスクにおいて,第1位を獲得した。
論文参考訳（メタデータ） (2024-04-01T03:54:42Z)
Unifying Latent and Lexicon Representations for Effective Video-Text Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。 MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文参考訳（メタデータ） (2024-02-26T17:36:50Z)
Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文参考訳（メタデータ） (2024-01-20T20:55:21Z)
Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文参考訳（メタデータ） (2023-12-24T15:10:35Z)
Token Prediction as Implicit Classification to Identify LLM-Generated Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文参考訳（メタデータ） (2023-11-15T06:33:52Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文参考訳（メタデータ） (2023-05-21T17:14:31Z)
Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。 LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。本稿では,LLMの研究への3つの貢献について述べる。
論文参考訳（メタデータ） (2023-04-25T01:47:05Z)
Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文参考訳（メタデータ） (2020-05-11T18:00:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。