Fugu-MT 論文翻訳(概要): Language Models As Semantic Indexers

論文の概要: Language Models As Semantic Indexers

arxiv url: http://arxiv.org/abs/2310.07815v1
Date: Wed, 11 Oct 2023 18:56:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 14:14:18.716036
Title: Language Models As Semantic Indexers
Title（参考訳）: セマンティック指標としての言語モデル
Authors: Bowen Jin, Hansi Zeng, Guoyin Wang, Xiusi Chen, Tianxin Wei, Ruirui Li, Zhengyang Wang, Zheng Li, Yang Li, Hanqing Lu, Suhang Wang, Jiawei Han, Xianfeng Tang
Abstract要約: 生成言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMINDEXERを紹介する。本稿では, 逐次離散表現を生成可能なセマンティックインデクサを導入することで, シーケンシャルなシーケンシャルIDの課題に対処する。学習したセマンティックインデクサは、レコメンデーションや検索など、さまざまな下流タスクを容易にすることができる。
参考スコア（独自算出の注目度）: 80.76133595275728
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic identifier (ID) is an important concept in information retrieval that aims to preserve the semantics of objects such as documents and items inside their IDs. Previous studies typically adopt a two-stage pipeline to learn semantic IDs by first procuring embeddings using off-the-shelf text encoders and then deriving IDs based on the embeddings. However, each step introduces potential information loss and there is usually an inherent mismatch between the distribution of embeddings within the latent space produced by text encoders and the anticipated distribution required for semantic indexing. Nevertheless, it is non-trivial to design a method that can learn the document's semantic representations and its hierarchical structure simultaneously, given that semantic IDs are discrete and sequentially structured, and the semantic supervision is deficient. In this paper, we introduce LMINDEXER, a self-supervised framework to learn semantic IDs with a generative language model. We tackle the challenge of sequential discrete ID by introducing a semantic indexer capable of generating neural sequential discrete representations with progressive training and contrastive learning. In response to the semantic supervision deficiency, we propose to train the model with a self-supervised document reconstruction objective. The learned semantic indexer can facilitate various downstream tasks, such as recommendation and retrieval. We conduct experiments on three tasks including recommendation, product search, and document retrieval on five datasets from various domains, where LMINDEXER outperforms competitive baselines significantly and consistently.
Abstract（参考訳）: セマンティック識別子 (ID) は情報検索において重要な概念であり、ID内の文書やアイテムなどのオブジェクトの意味を保存することを目的としている。従来の研究では、2段階のパイプラインを使用してセマンティックIDを学習し、まず既製のテキストエンコーダを使用して埋め込みを取得し、次に埋め込みに基づいてIDを導出する。しかし、各ステップは潜在的な情報損失をもたらし、通常、テキストエンコーダが生成する潜伏空間における埋め込みの分布と、セマンティックインデックス作成に必要な予測分布との間には、固有のミスマッチがある。しかし、セマンティックIDが離散的かつシーケンシャルな構造であり、セマンティックな管理が不十分であることを考えると、文書の意味表現とその階層構造を同時に学習できる手法を設計するのは簡単ではない。本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習する自己教師型フレームワークLMINDEXERを紹介する。逐次離散IDの課題は、逐次学習とコントラスト学習を併用して、ニューラルネットワークの逐次離散表現を生成するセマンティックインデクサを導入することで解決される。意味的監督の欠如に対応して,自己教師付き文書再構築目標を用いてモデルを訓練することを提案する。 learn semantic indexerは、レコメンデーションや検索など、さまざまな下流タスクを容易にする。 LMINDEXERは,各ドメインの5つのデータセットに対して,推奨,製品検索,文書検索を含む3つのタスクについて実験を行った。

関連論文リスト

Unleashing the Native Recommendation Potential: LLM-Based Generative Recommendation via Structured Term Identifiers [51.64398574262054]
本稿では,意味的にリッチで標準化されたテキストキーワードの集合として定義された用語ID(TID)を導入し,堅牢な項目識別子として機能する。本稿では,TIDを中心にした新しいフレームワークGRLMを提案し,項目のメタデータを標準化されたTIDに変換し,統合的インストラクションファインタニングを活用して,用語の内部化とシーケンシャルレコメンデーションを協調的に最適化する。
論文参考訳（メタデータ） (2026-01-11T07:53:20Z)
C2T-ID: Converting Semantic Codebooks to Textual Document Identifiers for Generative Search [73.61009656398384]
本稿では,階層クラスタリングによる意味的数値決定法を構築するC2T-IDを提案する。 C2T-IDは、アトミック、セマンティック・コードブック、純粋テキスト・ドシッド・ベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-10-22T04:05:38Z)
MLLM-Driven Semantic Identifier Generation for Generative Cross-Modal Retrieval [7.524529523498721]
本稿では,MLLMに画像キャプチャーペアから構造化意味識別子を生成するための語彙効率のよい識別子生成フレームワークを提案する。これらの識別子は、オブジェクトやアクションのような概念レベルのトークンで構成され、モデルの生成空間と自然に整合している。また、Rationale-Guided Supervision Strategyを導入し、各識別子と並行して一文説明を作成するよう促す。
論文参考訳（メタデータ） (2025-09-22T05:23:06Z)
Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval [28.366331215978445]
非意味トークンを付加することなく、ユニークな意味保存IDを生成するために、純粋に意味インデックスを提案する。我々は、厳密な最寄りのセントロイド選択を緩和し、2つのモデル非依存アルゴリズムを導入することにより、ユニークなID割り当てを可能にする。
論文参考訳（メタデータ） (2025-09-19T21:59:55Z)
Generating Long Semantic IDs in Parallel for Recommendation [29.97624755406803]
セマンティックIDベースのリコメンデーションのための軽量フレームワークであるRPGを提案する。我々は、マルチトークン予測損失を用いて、各トークンを独立して予測するようにモデルを訓練する。実験の結果、セマンティックIDの長さを64にスケールアップすることで、RPGは生成ベースラインを上回ります。
論文参考訳（メタデータ） (2025-06-06T06:20:37Z)
SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文参考訳（メタデータ） (2025-04-17T17:59:27Z)
Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文参考訳（メタデータ） (2025-02-15T15:25:38Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文参考訳（メタデータ） (2024-09-11T13:49:48Z)
Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文参考訳（メタデータ） (2024-07-16T08:42:36Z)
CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文参考訳（メタデータ） (2024-02-02T06:44:22Z)
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文参考訳（メタデータ） (2023-08-19T09:12:13Z)
Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文参考訳（メタデータ） (2023-05-26T06:50:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。