論文の概要: GSE: Evaluating Sticker Visual Semantic Similarity via a General Sticker Encoder
- arxiv url: http://arxiv.org/abs/2511.04977v1
- Date: Fri, 07 Nov 2025 04:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.675303
- Title: GSE: Evaluating Sticker Visual Semantic Similarity via a General Sticker Encoder
- Title(参考訳): GSE:ジェネラルステッカーエンコーダによるステッカーの視覚的セマンティック類似性の評価
- Authors: Heng Er Metilda Chee, Jiayin Wang, Zhiqiang Guo, Weizhi Ma, Min Zhang,
- Abstract要約: ステッカーは視覚コミュニケーションの一般的な形態になっているが、それらの意味的関係を理解することは依然として困難である。
我々はSticker Semantic similarityタスクを正式に定義し、このタスクの最初のベンチマークであるTriple-Sを紹介します。
既存の事前学習された視覚とマルチモーダルモデルは、ニュアンスステッカーのセマンティクスを捉えるのに苦労していることを示す。
我々は、トリプルSと追加データセットの両方を用いて堅牢なステッカー埋め込みを学習する軽量で汎用的なモデルであるGeneral Sticker (GSE)を提案する。
- 参考スコア(独自算出の注目度): 25.86712652829893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stickers have become a popular form of visual communication, yet understanding their semantic relationships remains challenging due to their highly diverse and symbolic content. In this work, we formally {define the Sticker Semantic Similarity task} and introduce {Triple-S}, the first benchmark for this task, consisting of 905 human-annotated positive and negative sticker pairs. Through extensive evaluation, we show that existing pretrained vision and multimodal models struggle to capture nuanced sticker semantics. To address this, we propose the {General Sticker Encoder (GSE)}, a lightweight and versatile model that learns robust sticker embeddings using both Triple-S and additional datasets. GSE achieves superior performance on unseen stickers, and demonstrates strong results on downstream tasks such as emotion classification and sticker-to-sticker retrieval. By releasing both Triple-S and GSE, we provide standardized evaluation tools and robust embeddings, enabling future research in sticker understanding, retrieval, and multimodal content generation. The Triple-S benchmark and GSE have been publicly released and are available here.
- Abstract(参考訳): ステッカーは視覚コミュニケーションの一般的な形態となっているが、その多様で象徴的な内容のため、意味的な関係を理解することは依然として困難である。
本研究では, ステッカーセマンティック類似性タスクを正式に定義し, 905 個の有意な正と負のステッカーペアからなる最初のベンチマークである {Triple-S} を導入する。
広範に評価することで、既存の事前学習された視覚とマルチモーダルモデルは、ニュアンスステッカーのセマンティクスを捉えるのに苦労していることを示す。
そこで本研究では,Triple-Sと追加データセットの両方を用いて,ロバストなステッカー埋め込みを学習する軽量で汎用的なモデルであるジェネラルステッカーエンコーダ(GSE)を提案する。
GSEは、見えないステッカー上での優れたパフォーマンスを実現し、感情分類やステッカー・ツー・ステッカー検索などの下流タスクにおいて強力な結果を示す。
Triple-SとGSEの両方をリリースすることにより、標準化された評価ツールと堅牢な埋め込みを提供し、ステッカー理解、検索、マルチモーダルコンテンツ生成における今後の研究を可能にする。
Triple-SベンチマークとGSEが公開されている。
関連論文リスト
- A Generative Framework for Personalized Sticker Retrieval [73.57899194210141]
我々はパーソナライズされたステッカー検索のための新しい生成フレームワークであるPEARLを提案する。
i) ユーザ固有のステッカー嗜好を符号化するために,識別的ユーザ表現を学習するための表現学習モデルを設計し, (ii) ユーザのクエリ意図に合致したステッカーを生成するために, 新たな意図認識学習目標を提案する。
オフライン評価とオンラインテストの両方による実証的な結果は、PEARLが最先端の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-22T13:11:44Z) - Small Stickers, Big Meanings: A Multilingual Sticker Semantic Understanding Dataset with a Gamified Approach [25.86712652829893]
我々は,多種多様で高品質で,文脈的に共鳴するステッカークエリを収集するために設計された,ゲーミフィケーションアノテーションフレームワークであるSticktionaryを紹介した。
次に、60時間以上のコントリビュータによって注釈付けされた1,115の英語と615の中国語クエリを含む、多言語ステッカークエリデータセットであるStickerQueriesを紹介する。
第3に,本手法がステッカー領域におけるクエリ生成品質,検索精度,意味理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-06-02T13:38:45Z) - PerSRV: Personalized Sticker Retrieval with Vision-Language Model [21.279568613306573]
本稿では,Personalized Sticker Retrieval with Vision-Language Model framework,すなわちPerSRVを提案する。
ステッカーレベルのセマンティック理解のために, 微調整したLLaVA-1.5-7Bを用いて人間のようなステッカーセマンティクスを生成する。
第3に、ユーザの過去のインタラクションに基づいて、スタイルセントロイドをクラスタリングし、個人の嗜好モデリングを実現する。
論文 参考訳(メタデータ) (2024-10-29T07:13:47Z) - Sticker820K: Empowering Interactive Retrieval with Stickers [34.67442172774095]
我々は,820kの画像テキストペアからなる,大規模な中国のステッカーデータセットであるSticker820Kを提案する。
それぞれのステッカーには、説明、光学的文字、感情的ラベル、スタイル分類を含むリッチで高品質なテキストアノテーションがある。
テキスト・ツー・イメージ検索タスクでは、StickerCLIPがCLIPよりも優れていることが示され、平均リコールの66.0%が絶対的に向上した。
論文 参考訳(メタデータ) (2023-06-12T05:06:53Z) - Learning to Respond with Your Favorite Stickers: A Framework of Unifying
Multi-Modality and User Preference in Multi-Turn Dialog [67.91114640314004]
鮮明で魅力的な表現を持つスタンプは、オンラインメッセージングアプリでますます人気が高まっている。
スタンプイメージと過去の発話をマッチングすることで、スタンプ応答を自動的に選択する作業もある。
ユーザ履歴を用いたマルチターン・ダイアログ・コンテキストとステッカーに基づいて,ユーザに対して適切なステッカーを推奨する。
論文 参考訳(メタデータ) (2020-11-05T03:31:17Z) - Learning to Respond with Stickers: A Framework of Unifying
Multi-Modality in Multi-Turn Dialog [65.7021675527543]
鮮明で魅力的な表現を持つスタンプは、オンラインメッセージングアプリでますます人気が高まっている。
スタンプのテキストラベルと以前の発話をマッチングすることで、スタンプ応答を自動的に選択する作業もある。
我々は,外部ラベルを使わずに,マルチターン・ダイアログのコンテキスト履歴に基づいた適切なステッカーをユーザに提案する。
論文 参考訳(メタデータ) (2020-03-10T13:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。