論文の概要: Sticker820K: Empowering Interactive Retrieval with Stickers
- arxiv url: http://arxiv.org/abs/2306.06870v1
- Date: Mon, 12 Jun 2023 05:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:57:04.099031
- Title: Sticker820K: Empowering Interactive Retrieval with Stickers
- Title(参考訳): Sticker820K:ステッカーを使ったインタラクティブ検索
- Authors: Sijie Zhao, Yixiao Ge, Zhongang Qi, Lin Song, Xiaohan Ding, Zehua Xie,
Ying Shan
- Abstract要約: 我々は,820kの画像テキストペアからなる,大規模な中国のステッカーデータセットであるSticker820Kを提案する。
それぞれのステッカーには、説明、光学的文字、感情的ラベル、スタイル分類を含むリッチで高品質なテキストアノテーションがある。
テキスト・ツー・イメージ検索タスクでは、StickerCLIPがCLIPよりも優れていることが示され、平均リコールの66.0%が絶対的に向上した。
- 参考スコア(独自算出の注目度): 34.67442172774095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stickers have become a ubiquitous part of modern-day communication, conveying
complex emotions through visual imagery. To facilitate the development of more
powerful algorithms for analyzing stickers, we propose a large-scale Chinese
sticker dataset, namely Sticker820K, which consists of 820k image-text pairs.
Each sticker has rich and high-quality textual annotations, including
descriptions, optical characters, emotional labels, and style classifications.
Although vision-language tasks in the domain of natural images have been well
studied, directly applying the those models, such as CLIP, to sticker data is
not an optimal solution due to the discrepant nature between natural and
emotive image data. Therefore, we propose StickerCLIP as a benchmark model on
the Sticker820K dataset. For the text-to-image retrieval task, our StickerCLIP
demonstrates strong superiority over the CLIP, which achieves an absolute gain
of 66.0\% in mean recall on the Sticker820K test set. Additionally, we endeavor
to extend the recently popularized LLM by means of prompt tuning, integrating
its ability for sticker retrieval and allowing users to retrieve stickers
through instructions. We validate the feasibility of this method, demonstrating
the immense potential of prompt tuning in expanding LLM abilities while not
affecting the quality of upstream tasks.
- Abstract(参考訳): ステッカーは現代のコミュニケーションのユビキタスな部分となり、視覚イメージを通じて複雑な感情を伝達している。
ステッカー解析のためのより強力なアルゴリズムの開発を容易にするために,820k画像テキストペアからなる大規模中国ステッカーデータセット,sticker820kを提案する。
それぞれのステッカーには、説明、光学文字、感情ラベル、スタイル分類など、リッチで高品質なテキストアノテーションがある。
自然画像領域における視覚言語タスクはよく研究されているが、CLIPなどのモデルを直接ステッカーデータに適用することは、自然画像データと動機画像データの相違による最適解ではない。
そこで我々は,Sticker820KデータセットのベンチマークモデルとしてStickerCLIPを提案する。
テキストから画像への検索タスクでは、stickerclipはクリップに対して強い優位性を示し、sticker820kテストセットの平均リコールで絶対値が66.0\%に達する。
さらに,最近普及したLDMを,即時チューニングにより拡張し,ステッカー検索機能を統合し,ユーザが指示でステッカーを検索できるようにする。
本手法の有効性を検証し, 上流タスクの品質に影響を与えることなく, LLM能力の拡張において, 即時チューニングの可能性を示す。
関連論文リスト
- PerSRV: Personalized Sticker Retrieval with Vision-Language Model [21.279568613306573]
本稿では,Personalized Sticker Retrieval with Vision-Language Model framework,すなわちPerSRVを提案する。
ステッカーレベルのセマンティック理解のために, 微調整したLLaVA-1.5-7Bを用いて人間のようなステッカーセマンティクスを生成する。
第3に、ユーザの過去のインタラクションに基づいて、スタイルセントロイドをクラスタリングし、個人の嗜好モデリングを実現する。
論文 参考訳(メタデータ) (2024-10-29T07:13:47Z) - Impact of Stickers on Multimodal Chat Sentiment Analysis and Intent Recognition: A New Task, Dataset and Baseline [4.375392069380812]
マルチモーダルチャット知覚分析とステッカーを含むインテント認識(MSAIRS)というタスクを提案する。
いくつかの主流ソーシャルメディアプラットフォームから抽出された,中国のチャット記録とステッカーを含む新しいマルチモーダルデータセットを提案する。
データセットとコードは公開されます。
論文 参考訳(メタデータ) (2024-05-14T08:42:49Z) - Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation [58.03255076119459]
視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2023-07-07T06:16:43Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Selecting Stickers in Open-Domain Dialogue through Multitask Learning [51.67855506570727]
本稿では,3つの補助課題からなるマルチタスク学習手法を提案する。
我々のモデルは多モード情報をうまく組み合わせて、強いベースラインよりもはるかに高い精度が得られる。
論文 参考訳(メタデータ) (2022-09-16T03:45:22Z) - Learning to Respond with Your Favorite Stickers: A Framework of Unifying
Multi-Modality and User Preference in Multi-Turn Dialog [67.91114640314004]
鮮明で魅力的な表現を持つスタンプは、オンラインメッセージングアプリでますます人気が高まっている。
スタンプイメージと過去の発話をマッチングすることで、スタンプ応答を自動的に選択する作業もある。
ユーザ履歴を用いたマルチターン・ダイアログ・コンテキストとステッカーに基づいて,ユーザに対して適切なステッカーを推奨する。
論文 参考訳(メタデータ) (2020-11-05T03:31:17Z) - Learning to Respond with Stickers: A Framework of Unifying
Multi-Modality in Multi-Turn Dialog [65.7021675527543]
鮮明で魅力的な表現を持つスタンプは、オンラインメッセージングアプリでますます人気が高まっている。
スタンプのテキストラベルと以前の発話をマッチングすることで、スタンプ応答を自動的に選択する作業もある。
我々は,外部ラベルを使わずに,マルチターン・ダイアログのコンテキスト履歴に基づいた適切なステッカーをユーザに提案する。
論文 参考訳(メタデータ) (2020-03-10T13:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。