論文の概要: Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data
- arxiv url: http://arxiv.org/abs/2402.07640v3
- Date: Fri, 18 Oct 2024 02:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:22:15.459993
- Title: Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data
- Title(参考訳): マルチモーダルテキストと画像データに対する感性制御型フィードバックの合成
- Authors: Puneet Kumar, Sarthak Malik, Balasubramanian Raman, Xiaobai Li,
- Abstract要約: 我々は,大規模な制御可能なマルチモーダルフィードバック合成データセットを構築し,制御可能なフィードバック合成システムを提案する。
このシステムは、テキスト入力と視覚入力のためのエンコーダ、デコーダ、および制御性ブロックを備えている。
CMFeedデータセットには、画像、テキスト、投稿に対する反応、関連スコアによる人間のコメント、これらのコメントに対する反応が含まれている。
これらの反応はモデルに特定の感情でフィードバックを生成するよう訓練し、感情分類の精度は77.23%であり、制御不能な精度より18.82%高い。
- 参考スコア(独自算出の注目度): 21.247650660908484
- License:
- Abstract: The ability to generate sentiment-controlled feedback in response to multimodal inputs comprising text and images addresses a critical gap in human-computer interaction. This capability allows systems to provide empathetic, accurate, and engaging responses, with useful applications in education, healthcare, marketing, and customer service. To this end, we have constructed a large-scale Controllable Multimodal Feedback Synthesis (CMFeed) dataset and propose a controllable feedback synthesis system. The system features an encoder, decoder, and controllability block for textual and visual inputs. It extracts features using a transformer and Faster R-CNN networks, combining them to generate feedback. The CMFeed dataset includes images, texts, reactions to the posts, human comments with relevance scores, and reactions to these comments. These reactions train the model to produce feedback with specified sentiments, achieving a sentiment classification accuracy of 77.23\%, which is 18.82\% higher than the accuracy without controllability. The system also incorporates a similarity module for assessing feedback relevance through rank-based metrics and an interpretability technique to analyze the contributions of textual and visual features during feedback generation. Access to the CMFeed dataset and the system's code is available at https://github.com/MIntelligence-Group/CMFeed.
- Abstract(参考訳): テキストと画像からなるマルチモーダル入力に応答して感情制御されたフィードバックを生成する能力は、人間とコンピュータの相互作用において重要なギャップに対処する。
この能力は、教育、医療、マーケティング、カスタマーサービスに有用な応用で、共感的、正確、そしてエンゲージメントな応答を提供することができる。
そこで我々は,制御可能なマルチモーダルフィードバック合成(CMFeed)データセットを大規模に構築し,制御可能なフィードバック合成システムを提案する。
このシステムは、テキスト入力と視覚入力のためのエンコーダ、デコーダ、および制御性ブロックを備えている。
トランスと高速なR-CNNネットワークを使って機能を抽出し、それらを組み合わせてフィードバックを生成する。
CMFeedデータセットには、画像、テキスト、投稿に対する反応、関連スコアによる人間のコメント、これらのコメントに対する反応が含まれている。
これらの反応はモデルに特定の感情でフィードバックを生成するよう訓練し、感情分類の精度は77.23\%であり、制御不能な精度より18.82\%高い。
このシステムには、ランクベースのメトリクスによるフィードバック関連性を評価するための類似モジュールや、フィードバック生成中のテキストおよび視覚的特徴の寄与を分析するための解釈可能性技術も組み込まれている。
CMFeedデータセットとシステムのコードへのアクセスはhttps://github.com/MIntelligence-Group/CMFeedで確認できる。
関連論文リスト
- Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - Affective Feedback Synthesis Towards Multimodal Text and Image Data [12.768277167508208]
我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。
画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。
生成したフィードバックは、自動評価と人的評価を用いて分析されている。
論文 参考訳(メタデータ) (2022-03-23T19:28:20Z) - Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval [36.50847375135979]
ビデオデータからのマルチモーダル学習は、人間のアノテーションを使わずに意味のある埋め込みを訓練できるため、近年注目を集めている。
本稿では,ビデオ,音声,テキストなどの複数のモーダル間の情報交換を学習し,それらを結合したマルチモーダル表現に統合するマルチモーダル・モーダル融合トランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2021-12-08T18:14:57Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - DAM: Deliberation, Abandon and Memory Networks for Generating Detailed
and Non-repetitive Responses in Visual Dialogue [29.330198609132207]
高品質な応答を生成するための新しい生成復号アーキテクチャを提案する。
このアーキテクチャでは、単語生成は一連の注意に基づく情報選択ステップに分解される。
応答は、意味的正確性を維持しながら、より詳細で反復的でない記述を含む。
論文 参考訳(メタデータ) (2020-07-07T09:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。