論文の概要: Leveraging Customer Feedback for Multi-modal Insight Extraction
- arxiv url: http://arxiv.org/abs/2410.09999v1
- Date: Sun, 13 Oct 2024 20:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:43:37.193022
- Title: Leveraging Customer Feedback for Multi-modal Insight Extraction
- Title(参考訳): マルチモーダルインサイト抽出のための顧客フィードバックの活用
- Authors: Sandeep Sricharan Mukku, Abinesh Kanagarajan, Pushpendu Ghosh, Chetan Aggarwal,
- Abstract要約: 企業は、製品やサービスを強化するために、テキストや画像など、さまざまなモダリティで顧客からのフィードバックの恩恵を受けることができる。
ユーザからのフィードバックから,行動可能なテキストセグメントとイメージのペアをひとつのパスで抽出することは困難である。
本稿では,画像とテキスト情報を潜在空間で融合し,関連したフィードバックセグメントを抽出するためにデコードする,新しいマルチモーダル手法を提案する。
- 参考スコア(独自算出の注目度): 0.998641875699016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Businesses can benefit from customer feedback in different modalities, such as text and images, to enhance their products and services. However, it is difficult to extract actionable and relevant pairs of text segments and images from customer feedback in a single pass. In this paper, we propose a novel multi-modal method that fuses image and text information in a latent space and decodes it to extract the relevant feedback segments using an image-text grounded text decoder. We also introduce a weakly-supervised data generation technique that produces training data for this task. We evaluate our model on unseen data and demonstrate that it can effectively mine actionable insights from multi-modal customer feedback, outperforming the existing baselines by $14$ points in F1 score.
- Abstract(参考訳): 企業は、製品やサービスを強化するために、テキストや画像など、さまざまなモダリティで顧客からのフィードバックの恩恵を受けることができる。
しかし、1回のパスで顧客からのフィードバックから行動可能なテキストセグメントと画像のペアを抽出することは困難である。
本稿では,画像テキストグラウンドドテキストデコーダを用いて,画像とテキスト情報を潜伏空間に融合し,関連するフィードバックセグメントを抽出する,新しいマルチモーダル手法を提案する。
また、このタスクのためのトレーニングデータを生成する弱教師付きデータ生成手法も導入する。
我々は、不適切なデータに基づいてモデルを評価し、F1スコアにおいて既存のベースラインを14ドルポイント上回る、マルチモーダルな顧客フィードバックから実行可能な洞察を効果的にマイニングできることを実証した。
関連論文リスト
- ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。
標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。
画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文 参考訳(メタデータ) (2024-03-02T20:36:10Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Image Search with Text Feedback by Additive Attention Compositional
Learning [1.4395184780210915]
本稿では,深層ニューラルネットワークにシームレスに接続可能な付加的注意に基づく画像テキスト合成モジュールを提案する。
AACLは3つの大規模データセット(FashionIQ、Fashion200k、Shopping100k)で評価される
論文 参考訳(メタデータ) (2022-03-08T02:03:49Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。