論文の概要: When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2601.14697v1
- Date: Wed, 21 Jan 2026 06:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.258962
- Title: When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study
- Title(参考訳): ジェネレーティブレコメンデーションにおけるテキスト・アズ・ビジョンのセマンティックID : 実証的研究
- Authors: Shutong Qiao, Wei Yuan, Tong Chen, Xiangyu Zhao, Quoc Viet Hung Nguyen, Hongzhi Yin,
- Abstract要約: テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。
項目記述を画像に描画することで得られるOCRに基づくテキスト表現の体系的な実証的研究を行う。
OCR-text は, セマンティックID 学習における標準テキスト埋め込みと一意に一致しているか, 上回っていることがわかった。
- 参考スコア(独自算出の注目度): 48.67151986743594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic ID learning is a key interface in Generative Recommendation (GR) models, mapping items to discrete identifiers grounded in side information, most commonly via a pretrained text encoder. However, these text encoders are primarily optimized for well-formed natural language. In real-world recommendation data, item descriptions are often symbolic and attribute-centric, containing numerals, units, and abbreviations. These text encoders can break these signals into fragmented tokens, weakening semantic coherence and distorting relationships among attributes. Worse still, when moving to multimodal GR, relying on standard text encoders introduces an additional obstacle: text and image embeddings often exhibit mismatched geometric structures, making cross-modal fusion less effective and less stable. In this paper, we revisit representation design for Semantic ID learning by treating text as a visual signal. We conduct a systematic empirical study of OCR-based text representations, obtained by rendering item descriptions into images and encoding them with vision-based OCR models. Experiments across four datasets and two generative backbones show that OCR-text consistently matches or surpasses standard text embeddings for Semantic ID learning in both unimodal and multimodal settings. Furthermore, we find that OCR-based Semantic IDs remain robust under extreme spatial-resolution compression, indicating strong robustness and efficiency in practical deployments.
- Abstract(参考訳): セマンティックID学習(Semantic ID learning)はジェネレーティブ・レコメンデーション(GR)モデルにおいて重要なインタフェースであり、最も一般的には事前訓練されたテキストエンコーダを介して、サイド情報に基づく個別の識別子にアイテムをマッピングする。
しかし、これらのテキストエンコーダは、よくできた自然言語に最適化されている。
現実世界のレコメンデーションデータでは、アイテムの記述はしばしば象徴的で属性中心であり、数字、単位、略語を含む。
これらのテキストエンコーダは、これらの信号を断片化されたトークンに分解し、セマンティックコヒーレンスを弱め、属性間の関係を歪ませる。
さらに悪いことに、マルチモーダルGRに移行する際、標準のテキストエンコーダに依存すると、追加の障害が発生する。
本稿では,テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。
画像に項目記述を描画し,それを視覚ベースのOCRモデルで符号化することで,OCRに基づくテキスト表現の体系的な実証的研究を行う。
4つのデータセットと2つの生成バックボーンにわたる実験によると、OCR-textは、セマンティックID学習のための標準テキスト埋め込みを、一様および多モードの両方で一貫して一致または上回っている。
さらに,OCRをベースとしたセマンティックIDは,空間分解能の強い圧縮条件下では頑健であり,実用展開における堅牢性と効率性が示唆された。
関連論文リスト
- Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。
コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。
提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文 参考訳(メタデータ) (2025-05-30T17:39:14Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition [10.496558786568672]
本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法が用いられている。
論文 参考訳(メタデータ) (2021-06-13T10:36:56Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。