論文の概要: Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image
Data
- arxiv url: http://arxiv.org/abs/2402.07640v1
- Date: Mon, 12 Feb 2024 13:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:19:24.492618
- Title: Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image
Data
- Title(参考訳): マルチモーダルテキストと画像データに対する感性制御フィードバックの合成
- Authors: Puneet Kumar, Sarthak Malik, Balasubramanian Raman, Xiaobai Li
- Abstract要約: マルチモーダル入力に応答して感情制御されたフィードバックを生成する能力は、人間とコンピュータの相互作用において重要なギャップに対処する。
大規模な制御可能なマルチモーダルフィードバック合成データセットを構築し,制御可能なフィードバック合成システムを提案する。
感情分類の精度は77.23%で、制御性を用いずに精度より18.82%高い。
- 参考スコア(独自算出の注目度): 23.211531926226524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to generate sentiment-controlled feedback in response to
multimodal inputs, comprising both text and images, addresses a critical gap in
human-computer interaction by enabling systems to provide empathetic, accurate,
and engaging responses. This capability has profound applications in
healthcare, marketing, and education. To this end, we construct a large-scale
Controllable Multimodal Feedback Synthesis (CMFeed) dataset and propose a
controllable feedback synthesis system. The proposed system includes an
encoder, decoder, and controllability block for textual and visual inputs. It
extracts textual and visual features using a transformer and Faster R-CNN
networks and combines them to generate feedback. The CMFeed dataset encompasses
images, text, reactions to the post, human comments with relevance scores, and
reactions to the comments. The reactions to the post and comments are utilized
to train the proposed model to produce feedback with a particular (positive or
negative) sentiment. A sentiment classification accuracy of 77.23% has been
achieved, 18.82% higher than the accuracy without using the controllability.
Moreover, the system incorporates a similarity module for assessing feedback
relevance through rank-based metrics. It implements an interpretability
technique to analyze the contribution of textual and visual features during the
generation of uncontrolled and controlled feedback.
- Abstract(参考訳): テキストと画像の両方を含むマルチモーダル入力に応答して感情制御されたフィードバックを生成する能力は、共感的、正確、そして係わる応答をシステムに提供することによって、人間とコンピュータの相互作用において重要なギャップに対処する。
この能力は医療、マーケティング、教育に深く応用されている。
そこで本研究では,大規模制御可能なマルチモーダルフィードバック合成(cmfeed)データセットを構築し,制御可能なフィードバック合成システムを提案する。
提案システムは,テキスト入力と視覚入力のためのエンコーダ,デコーダ,制御性ブロックを含む。
変換器と高速R-CNNネットワークを使ってテキストと視覚の特徴を抽出し、それらを組み合わせてフィードバックを生成する。
cmfeedデータセットは、画像、テキスト、投稿に対する反応、関連度スコア付き人間コメント、コメントに対する反応を含んでいる。
投稿やコメントに対する反応は、提案されたモデルをトレーニングして、特定の(肯定的あるいは否定的な)感情でフィードバックを生成するために利用される。
感情分類の精度は77.23%で、制御性を用いずに精度より18.82%高い。
さらに、ランクに基づくメトリクスによるフィードバック関連性を評価するための類似モジュールも組み込まれている。
非制御および制御されたフィードバックの生成におけるテキスト的および視覚的特徴の寄与を分析するための解釈可能性技術を実装している。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in
Large Multimodal Models [101.16192912740595]
本稿では、文脈に敏感なテキストリッチな視覚的推論を行うLMMの能力を評価するための新しいベンチマークであるConTextualを紹介する。
LMM, GPT-4V(ision), 人体能力の30.8%に有意な差が認められた。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Interpretable Multimodal Emotion Recognition using Facial Features and
Physiological Signals [16.549488750320336]
視覚的な顔の特徴や、入力ビデオから抽出したr信号から情報を融合することで、感情理解のためのマルチモーダルフレームワークを導入する。
置換重要度分析に基づく解釈可能性技術も実装されている。
論文 参考訳(メタデータ) (2023-06-05T12:57:07Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - Affective Feedback Synthesis Towards Multimodal Text and Image Data [12.768277167508208]
我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。
画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。
生成したフィードバックは、自動評価と人的評価を用いて分析されている。
論文 参考訳(メタデータ) (2022-03-23T19:28:20Z) - SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item
Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。
まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。
そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文 参考訳(メタデータ) (2021-08-18T08:04:38Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Soliciting Human-in-the-Loop User Feedback for Interactive Machine
Learning Reduces User Trust and Impressions of Model Accuracy [8.11839312231511]
混合開始システムにより、ユーザは対話的にフィードバックを提供し、システムパフォーマンスを向上させることができる。
本研究は,フィードバックの提供行為が知的システムのユーザ理解とその正確性に与える影響について検討する。
論文 参考訳(メタデータ) (2020-08-28T16:46:41Z) - A Unified Dual-view Model for Review Summarization and Sentiment
Classification with Inconsistency Loss [51.448615489097236]
ユーザーレビューから正確な要約と感情を取得することは、現代のEコマースプラットフォームにとって不可欠な要素である。
本稿では,これら2つのタスクの性能を協調的に改善する新しいデュアルビューモデルを提案する。
異なる領域の4つの実世界のデータセットに対する実験結果から,本モデルの有効性が示された。
論文 参考訳(メタデータ) (2020-06-02T13:34:11Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。