論文の概要: Text2Token: Unsupervised Text Representation Learning with Token Target Prediction
- arxiv url: http://arxiv.org/abs/2510.10224v1
- Date: Sat, 11 Oct 2025 14:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.849048
- Title: Text2Token: Unsupervised Text Representation Learning with Token Target Prediction
- Title(参考訳): Text2Token:Tokenターゲット予測による教師なしテキスト表現学習
- Authors: Ruize An, Richong Zhang, Zhijie Nie, Zhanyu Wu, Yanzhao Zhang, Dingkun Long,
- Abstract要約: 教師なしテキスト表現学習(TRL)は、ウェブの未ラベルテキストによる検索とレコメンデーションを改善するのに有用である。
最近の実証的研究により、高品質な表現は入力テキストのキートークンと一致していることがわかった。
TRL, Text2Token のための教師なし生成フレームワークを開発した。
- 参考スコア(独自算出の注目度): 33.981873901056765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised text representation learning (TRL) is a fundamental task in natural language processing, which is beneficial for improving search and recommendations with the web's unlabeled texts. A recent empirical study finds that the high-quality representation aligns with the key token of the input text, uncovering the potential connection between representation space and vocabulary space. Inspired by the findings, we revisit the generative tasks and develop an unsupervised generative framework for TRL, Text2Token. The framework is based on the token target prediction task, utilizing carefully constructed target token distribution as supervisory signals. To construct the high-quality target token distribution, we analyze the token-alignment properties with advanced embedders and identify two essential categories of key tokens: (1) the meaningful tokens in the text and (2) semantically derived tokens beyond the text. Based on these insights, we propose two methods -- data-driven and model-derived -- to construct synthetic token targets from data or the LLM backbone. Experiments on the MTEB v2 benchmark demonstrate that Text2Token achieves performance competitive with the state-of-the-art embedder with unsupervised contrastive learning, LLM2Vec. Our analysis further shows that vocabulary and representation spaces optimize together and toward the optimum solution during training, providing new ideas and insights for future work.
- Abstract(参考訳): 非教師付きテキスト表現学習(TRL)は自然言語処理の基本課題であり、Webの未ラベルテキストによる検索とレコメンデーションの改善に有用である。
最近の経験的研究では、高品質な表現は入力テキストのキートークンと一致し、表現空間と語彙空間の間の潜在的な関係を明らかにする。
本研究は, TRL, Text2Tokenの再生作業を再考し, TRLのための教師なし生成フレームワークを開発した。
このフレームワークはトークンターゲット予測タスクに基づいており、注意深く構築されたターゲットトークン分布を監視信号として利用している。
高品質な目標トークン分布を構築するために,先進的な埋め込み器を用いてトークンアライメント特性を分析し,(1)テキスト中の有意義なトークン,(2)テキスト以外の意味的に派生したトークンの2つの重要なカテゴリを識別する。
これらの知見に基づいて,データやLPMのバックボーンから合成トークンターゲットを構築するために,データ駆動型とモデル由来の2つの手法を提案する。
MTEB v2ベンチマークの実験では、Text2Tokenは、教師なしのコントラスト学習(LLM2Vec)を備えた最先端の組込み機と性能的に競合することを示した。
我々の分析は、語彙空間と表現空間が、トレーニング中の最適解を共に最適化し、将来の作業に新たなアイデアと洞察を提供することを示す。
関連論文リスト
- Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。
MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。
我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文 参考訳(メタデータ) (2025-09-11T03:06:22Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。