論文の概要: Language Models As Semantic Indexers
- arxiv url: http://arxiv.org/abs/2310.07815v1
- Date: Wed, 11 Oct 2023 18:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 14:14:18.716036
- Title: Language Models As Semantic Indexers
- Title(参考訳): セマンティック指標としての言語モデル
- Authors: Bowen Jin, Hansi Zeng, Guoyin Wang, Xiusi Chen, Tianxin Wei, Ruirui
Li, Zhengyang Wang, Zheng Li, Yang Li, Hanqing Lu, Suhang Wang, Jiawei Han,
Xianfeng Tang
- Abstract要約: 生成言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMINDEXERを紹介する。
本稿では, 逐次離散表現を生成可能なセマンティックインデクサを導入することで, シーケンシャルなシーケンシャルIDの課題に対処する。
学習したセマンティックインデクサは、レコメンデーションや検索など、さまざまな下流タスクを容易にすることができる。
- 参考スコア(独自算出の注目度): 80.76133595275728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic identifier (ID) is an important concept in information retrieval
that aims to preserve the semantics of objects such as documents and items
inside their IDs. Previous studies typically adopt a two-stage pipeline to
learn semantic IDs by first procuring embeddings using off-the-shelf text
encoders and then deriving IDs based on the embeddings. However, each step
introduces potential information loss and there is usually an inherent mismatch
between the distribution of embeddings within the latent space produced by text
encoders and the anticipated distribution required for semantic indexing.
Nevertheless, it is non-trivial to design a method that can learn the
document's semantic representations and its hierarchical structure
simultaneously, given that semantic IDs are discrete and sequentially
structured, and the semantic supervision is deficient. In this paper, we
introduce LMINDEXER, a self-supervised framework to learn semantic IDs with a
generative language model. We tackle the challenge of sequential discrete ID by
introducing a semantic indexer capable of generating neural sequential discrete
representations with progressive training and contrastive learning. In response
to the semantic supervision deficiency, we propose to train the model with a
self-supervised document reconstruction objective. The learned semantic indexer
can facilitate various downstream tasks, such as recommendation and retrieval.
We conduct experiments on three tasks including recommendation, product search,
and document retrieval on five datasets from various domains, where LMINDEXER
outperforms competitive baselines significantly and consistently.
- Abstract(参考訳): セマンティック識別子 (ID) は情報検索において重要な概念であり、ID内の文書やアイテムなどのオブジェクトの意味を保存することを目的としている。
従来の研究では、2段階のパイプラインを使用してセマンティックIDを学習し、まず既製のテキストエンコーダを使用して埋め込みを取得し、次に埋め込みに基づいてIDを導出する。
しかし、各ステップは潜在的な情報損失をもたらし、通常、テキストエンコーダが生成する潜伏空間における埋め込みの分布と、セマンティックインデックス作成に必要な予測分布との間には、固有のミスマッチがある。
しかし、セマンティックIDが離散的かつシーケンシャルな構造であり、セマンティックな管理が不十分であることを考えると、文書の意味表現とその階層構造を同時に学習できる手法を設計するのは簡単ではない。
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習する自己教師型フレームワークLMINDEXERを紹介する。
逐次離散IDの課題は、逐次学習とコントラスト学習を併用して、ニューラルネットワークの逐次離散表現を生成するセマンティックインデクサを導入することで解決される。
意味的監督の欠如に対応して,自己教師付き文書再構築目標を用いてモデルを訓練することを提案する。
learn semantic indexerは、レコメンデーションや検索など、さまざまな下流タスクを容易にする。
LMINDEXERは,各ドメインの5つのデータセットに対して,推奨,製品検索,文書検索を含む3つのタスクについて実験を行った。
関連論文リスト
- Towards a Unified Language Model for Knowledge-Intensive Tasks Utilizing
External Corpus [22.27534528275182]
各種知識集約型タスクに外部コーパスを利用する統一言語モデルを提案する。
提案手法は, 2種類のバックボーンモデルを用いて, KILTベンチマークを用いて評価した。
実験の結果,検索および下流の知識集約タスクにおいて,モデルの性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric
Learning in Videos [69.85030245036391]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Transferring Semantic Knowledge Into Language Encoders [6.85316573653194]
意味的意味表現から言語エンコーダへ意味的知識を伝達する手法である意味型ミッドチューニングを導入する。
このアライメントは分類や三重項の損失によって暗黙的に学習できることを示す。
提案手法は, 推論, 理解, テキストの類似性, その他の意味的タスクにおいて, 予測性能の向上を示す言語エンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-14T14:11:12Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。