論文の概要: CMFeed: A Benchmark Dataset for Controllable Multimodal Feedback Synthesis
- arxiv url: http://arxiv.org/abs/2402.07640v2
- Date: Thu, 6 Jun 2024 00:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 23:40:31.356338
- Title: CMFeed: A Benchmark Dataset for Controllable Multimodal Feedback Synthesis
- Title(参考訳): CMFeed: 制御可能なマルチモーダルフィードバック合成のためのベンチマークデータセット
- Authors: Puneet Kumar, Sarthak Malik, Balasubramanian Raman, Xiaobai Li,
- Abstract要約: 制御可能なマルチモーダルフィードバック合成(CMFeed)データセットは、マルチモーダル入力からの感情制御フィードバックの生成を可能にする。
本稿では,エンコーダ,デコーダ,制御性モジュールからなるベンチマークフィードバック合成システムを提案する。
トランスフォーマーと高速なR-CNNネットワークを使用して特徴を抽出し、感情固有のフィードバックを生成し、感情分類精度は77.23%に達する。
- 参考スコア(独自算出の注目度): 21.247650660908484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Controllable Multimodal Feedback Synthesis (CMFeed) dataset enables the generation of sentiment-controlled feedback from multimodal inputs. It contains images, text, human comments, comments' metadata and sentiment labels. Existing datasets for related tasks such as multimodal summarization, visual question answering, visual dialogue, and sentiment-aware text generation do not incorporate training models using human-generated outputs and their metadata, a gap that CMFeed addresses. This capability is critical for developing feedback systems that understand and replicate human-like spontaneous responses. Based on the CMFeed dataset, we define a novel task of controllable feedback synthesis to generate context-aware feedback aligned with the desired sentiment. We propose a benchmark feedback synthesis system comprising encoder, decoder, and controllability modules. It employs transformer and Faster R-CNN networks to extract features and generate sentiment-specific feedback, achieving a sentiment classification accuracy of 77.23%, which is 18.82% higher than models not leveraging the dataset's unique controllability features. Additionally, we incorporate a similarity module for relevance assessment through rank-based metrics.
- Abstract(参考訳): 制御可能なマルチモーダルフィードバック合成(CMFeed)データセットは、マルチモーダル入力からの感情制御フィードバックの生成を可能にする。
画像、テキスト、人間のコメント、コメントのメタデータ、感情ラベルが含まれる。
マルチモーダル要約、視覚的質問応答、視覚対話、感情認識テキスト生成などの関連タスクのための既存のデータセットには、人間の生成した出力とそのメタデータを使用したトレーニングモデル、CMFeedが対処するギャップが組み込まれていない。
この能力は、人間のような自然反応を理解し、複製するフィードバックシステムを開発する上で重要である。
CMFeedデータセットに基づいて、所望の感情に合わせた文脈対応フィードバックを生成するために、制御可能なフィードバック合成の新しいタスクを定義する。
本稿では,エンコーダ,デコーダ,制御性モジュールからなるベンチマークフィードバック合成システムを提案する。
トランスフォーマーと高速なR-CNNネットワークを使用して特徴を抽出し、感情固有のフィードバックを生成し、感情分類精度77.23%を達成する。
さらに、ランクベースのメトリクスによる関連性評価のための類似モジュールも組み込んだ。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - PENTATRON: PErsonalized coNText-Aware Transformer for Retrieval-based
cOnversational uNderstanding [18.788620612619823]
スマートデジタルアシスタントを使用した顧客からのグローバルトラフィックの大部分が、対話の摩擦は誤った理解による可能性がある。
スケーラブルなエンティティ補正システムであるPENTATRONを構築し評価する。
キーメトリック(Exact Match)が最大500.97%上昇することを示す。
論文 参考訳(メタデータ) (2022-10-22T00:14:47Z) - FlexLip: A Controllable Text-to-Lip System [6.15560473113783]
我々はテキストをリップランドマークに変換することによって、テキストからビデオへの生成問題のサブセットに取り組む。
我々のシステムはFlexLipと呼ばれ、テキスト・トゥ・音声と音声・音声・音声の2つのモジュールに分けられる。
音声生成成分に20分のデータを使用し, 音声合成成分に5分のデータを使用することにより, 生成した唇のランドマークの客観的な測定値は, より大きなトレーニングサンプルを用いて得られるものと同等であることを示す。
論文 参考訳(メタデータ) (2022-06-07T11:51:58Z) - Affective Feedback Synthesis Towards Multimodal Text and Image Data [12.768277167508208]
我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。
画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。
生成したフィードバックは、自動評価と人的評価を用いて分析されている。
論文 参考訳(メタデータ) (2022-03-23T19:28:20Z) - SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item
Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。
まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。
そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文 参考訳(メタデータ) (2021-08-18T08:04:38Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。