Fugu-MT 論文翻訳(概要): Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data

論文の概要: Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data

arxiv url: http://arxiv.org/abs/2402.07640v1
Date: Mon, 12 Feb 2024 13:27:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 14:19:24.492618
Title: Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data
Title（参考訳）: マルチモーダルテキストと画像データに対する感性制御フィードバックの合成
Authors: Puneet Kumar, Sarthak Malik, Balasubramanian Raman, Xiaobai Li
Abstract要約: マルチモーダル入力に応答して感情制御されたフィードバックを生成する能力は、人間とコンピュータの相互作用において重要なギャップに対処する。大規模な制御可能なマルチモーダルフィードバック合成データセットを構築し,制御可能なフィードバック合成システムを提案する。感情分類の精度は77.23%で、制御性を用いずに精度より18.82%高い。
参考スコア（独自算出の注目度）: 23.211531926226524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to generate sentiment-controlled feedback in response to multimodal inputs, comprising both text and images, addresses a critical gap in human-computer interaction by enabling systems to provide empathetic, accurate, and engaging responses. This capability has profound applications in healthcare, marketing, and education. To this end, we construct a large-scale Controllable Multimodal Feedback Synthesis (CMFeed) dataset and propose a controllable feedback synthesis system. The proposed system includes an encoder, decoder, and controllability block for textual and visual inputs. It extracts textual and visual features using a transformer and Faster R-CNN networks and combines them to generate feedback. The CMFeed dataset encompasses images, text, reactions to the post, human comments with relevance scores, and reactions to the comments. The reactions to the post and comments are utilized to train the proposed model to produce feedback with a particular (positive or negative) sentiment. A sentiment classification accuracy of 77.23% has been achieved, 18.82% higher than the accuracy without using the controllability. Moreover, the system incorporates a similarity module for assessing feedback relevance through rank-based metrics. It implements an interpretability technique to analyze the contribution of textual and visual features during the generation of uncontrolled and controlled feedback.
Abstract（参考訳）: テキストと画像の両方を含むマルチモーダル入力に応答して感情制御されたフィードバックを生成する能力は、共感的、正確、そして係わる応答をシステムに提供することによって、人間とコンピュータの相互作用において重要なギャップに対処する。この能力は医療、マーケティング、教育に深く応用されている。そこで本研究では,大規模制御可能なマルチモーダルフィードバック合成(cmfeed)データセットを構築し,制御可能なフィードバック合成システムを提案する。提案システムは,テキスト入力と視覚入力のためのエンコーダ,デコーダ,制御性ブロックを含む。変換器と高速R-CNNネットワークを使ってテキストと視覚の特徴を抽出し、それらを組み合わせてフィードバックを生成する。 cmfeedデータセットは、画像、テキスト、投稿に対する反応、関連度スコア付き人間コメント、コメントに対する反応を含んでいる。投稿やコメントに対する反応は、提案されたモデルをトレーニングして、特定の(肯定的あるいは否定的な)感情でフィードバックを生成するために利用される。感情分類の精度は77.23%で、制御性を用いずに精度より18.82%高い。さらに、ランクに基づくメトリクスによるフィードバック関連性を評価するための類似モジュールも組み込まれている。非制御および制御されたフィードバックの生成におけるテキスト的および視覚的特徴の寄与を分析するための解釈可能性技術を実装している。

関連論文リスト

Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding [29.28886512743758]
我々は、テキストプロンプトと意味的に重要な特徴の両方を抽出して送信するハイブリッドなGen-SemComシステムを開発した。テキストプロンプトと臨界特徴を統合することにより、拡散ベース生成モデルを用いて高忠実度画像を再構成する。実験の結果,視力に対するGVIF測定値の感度はPSNRと臨界情報量の両方に相関することがわかった。
論文参考訳（メタデータ） (2025-05-15T15:28:32Z)
LatteReview: A Multi-Agent Framework for Systematic Review Automation Using Large Language Models [0.0]
LatteReviewはPythonベースのフレームワークで、大規模言語モデル(LLM)とマルチエージェントシステムを活用して、体系的なレビュープロセスの重要な要素を自動化する。このフレームワークは、外部コンテキストを組み込むRetrieval-Augmented Generation (RAG)、マルチモーダルレビュー、構造化された入力と出力に対するPydanticベースの検証、大規模データセットを扱う非同期プログラミングなどの機能をサポートしている。
論文参考訳（メタデータ） (2025-01-05T17:53:00Z)
See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文参考訳（メタデータ） (2024-09-29T06:21:05Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文参考訳（メタデータ） (2023-03-10T15:35:11Z)
PENTATRON: PErsonalized coNText-Aware Transformer for Retrieval-based cOnversational uNderstanding [18.788620612619823]
スマートデジタルアシスタントを使用した顧客からのグローバルトラフィックの大部分が、対話の摩擦は誤った理解による可能性がある。スケーラブルなエンティティ補正システムであるPENTATRONを構築し評価する。キーメトリック(Exact Match)が最大500.97%上昇することを示す。
論文参考訳（メタデータ） (2022-10-22T00:14:47Z)
FlexLip: A Controllable Text-to-Lip System [6.15560473113783]
我々はテキストをリップランドマークに変換することによって、テキストからビデオへの生成問題のサブセットに取り組む。我々のシステムはFlexLipと呼ばれ、テキスト・トゥ・音声と音声・音声・音声の2つのモジュールに分けられる。音声生成成分に20分のデータを使用し, 音声合成成分に5分のデータを使用することにより, 生成した唇のランドマークの客観的な測定値は, より大きなトレーニングサンプルを用いて得られるものと同等であることを示す。
論文参考訳（メタデータ） (2022-06-07T11:51:58Z)
Affective Feedback Synthesis Towards Multimodal Text and Image Data [12.768277167508208]
我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。生成したフィードバックは、自動評価と人的評価を用いて分析されている。
論文参考訳（メタデータ） (2022-03-23T19:28:20Z)
SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文参考訳（メタデータ） (2021-08-18T08:04:38Z)
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。その結果,全ての評価指標について最先端の性能を示すことができた。
論文参考訳（メタデータ） (2020-07-08T02:00:22Z)
Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文参考訳（メタデータ） (2020-04-24T14:39:34Z)
Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。 TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文参考訳（メタデータ） (2020-04-20T09:09:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。