Fugu-MT 論文翻訳(概要): Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data

論文の概要: Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data

arxiv url: http://arxiv.org/abs/2402.07640v3
Date: Fri, 18 Oct 2024 02:50:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.738399
Title: Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data
Title（参考訳）: マルチモーダルテキストと画像データに対する感性制御型フィードバックの合成
Authors: Puneet Kumar, Sarthak Malik, Balasubramanian Raman, Xiaobai Li,
Abstract要約: 我々は,大規模な制御可能なマルチモーダルフィードバック合成データセットを構築し,制御可能なフィードバック合成システムを提案する。このシステムは、テキスト入力と視覚入力のためのエンコーダ、デコーダ、および制御性ブロックを備えている。 CMFeedデータセットには、画像、テキスト、投稿に対する反応、関連スコアによる人間のコメント、これらのコメントに対する反応が含まれている。これらの反応はモデルに特定の感情でフィードバックを生成するよう訓練し、感情分類の精度は77.23%であり、制御不能な精度より18.82%高い。
参考スコア（独自算出の注目度）: 21.247650660908484
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to generate sentiment-controlled feedback in response to multimodal inputs comprising text and images addresses a critical gap in human-computer interaction. This capability allows systems to provide empathetic, accurate, and engaging responses, with useful applications in education, healthcare, marketing, and customer service. To this end, we have constructed a large-scale Controllable Multimodal Feedback Synthesis (CMFeed) dataset and propose a controllable feedback synthesis system. The system features an encoder, decoder, and controllability block for textual and visual inputs. It extracts features using a transformer and Faster R-CNN networks, combining them to generate feedback. The CMFeed dataset includes images, texts, reactions to the posts, human comments with relevance scores, and reactions to these comments. These reactions train the model to produce feedback with specified sentiments, achieving a sentiment classification accuracy of 77.23\%, which is 18.82\% higher than the accuracy without controllability. The system also incorporates a similarity module for assessing feedback relevance through rank-based metrics and an interpretability technique to analyze the contributions of textual and visual features during feedback generation. Access to the CMFeed dataset and the system's code is available at https://github.com/MIntelligence-Group/CMFeed.
Abstract（参考訳）: テキストと画像からなるマルチモーダル入力に応答して感情制御されたフィードバックを生成する能力は、人間とコンピュータの相互作用において重要なギャップに対処する。この能力は、教育、医療、マーケティング、カスタマーサービスに有用な応用で、共感的、正確、そしてエンゲージメントな応答を提供することができる。そこで我々は,制御可能なマルチモーダルフィードバック合成(CMFeed)データセットを大規模に構築し,制御可能なフィードバック合成システムを提案する。このシステムは、テキスト入力と視覚入力のためのエンコーダ、デコーダ、および制御性ブロックを備えている。トランスと高速なR-CNNネットワークを使って機能を抽出し、それらを組み合わせてフィードバックを生成する。 CMFeedデータセットには、画像、テキスト、投稿に対する反応、関連スコアによる人間のコメント、これらのコメントに対する反応が含まれている。これらの反応はモデルに特定の感情でフィードバックを生成するよう訓練し、感情分類の精度は77.23\%であり、制御不能な精度より18.82\%高い。このシステムには、ランクベースのメトリクスによるフィードバック関連性を評価するための類似モジュールや、フィードバック生成中のテキストおよび視覚的特徴の寄与を分析するための解釈可能性技術も組み込まれている。 CMFeedデータセットとシステムのコードへのアクセスはhttps://github.com/MIntelligence-Group/CMFeedで確認できる。

関連論文リスト

Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding [29.28886512743758]
我々は、テキストプロンプトと意味的に重要な特徴の両方を抽出して送信するハイブリッドなGen-SemComシステムを開発した。テキストプロンプトと臨界特徴を統合することにより、拡散ベース生成モデルを用いて高忠実度画像を再構成する。実験の結果,視力に対するGVIF測定値の感度はPSNRと臨界情報量の両方に相関することがわかった。
論文参考訳（メタデータ） (2025-05-15T15:28:32Z)
LatteReview: A Multi-Agent Framework for Systematic Review Automation Using Large Language Models [0.0]
LatteReviewはPythonベースのフレームワークで、大規模言語モデル(LLM)とマルチエージェントシステムを活用して、体系的なレビュープロセスの重要な要素を自動化する。このフレームワークは、外部コンテキストを組み込むRetrieval-Augmented Generation (RAG)、マルチモーダルレビュー、構造化された入力と出力に対するPydanticベースの検証、大規模データセットを扱う非同期プログラミングなどの機能をサポートしている。
論文参考訳（メタデータ） (2025-01-05T17:53:00Z)
See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文参考訳（メタデータ） (2024-09-29T06:21:05Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文参考訳（メタデータ） (2023-03-10T15:35:11Z)
PENTATRON: PErsonalized coNText-Aware Transformer for Retrieval-based cOnversational uNderstanding [18.788620612619823]
スマートデジタルアシスタントを使用した顧客からのグローバルトラフィックの大部分が、対話の摩擦は誤った理解による可能性がある。スケーラブルなエンティティ補正システムであるPENTATRONを構築し評価する。キーメトリック(Exact Match)が最大500.97%上昇することを示す。
論文参考訳（メタデータ） (2022-10-22T00:14:47Z)
FlexLip: A Controllable Text-to-Lip System [6.15560473113783]
我々はテキストをリップランドマークに変換することによって、テキストからビデオへの生成問題のサブセットに取り組む。我々のシステムはFlexLipと呼ばれ、テキスト・トゥ・音声と音声・音声・音声の2つのモジュールに分けられる。音声生成成分に20分のデータを使用し, 音声合成成分に5分のデータを使用することにより, 生成した唇のランドマークの客観的な測定値は, より大きなトレーニングサンプルを用いて得られるものと同等であることを示す。
論文参考訳（メタデータ） (2022-06-07T11:51:58Z)
Affective Feedback Synthesis Towards Multimodal Text and Image Data [12.768277167508208]
我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。生成したフィードバックは、自動評価と人的評価を用いて分析されている。
論文参考訳（メタデータ） (2022-03-23T19:28:20Z)
SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文参考訳（メタデータ） (2021-08-18T08:04:38Z)
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。その結果,全ての評価指標について最先端の性能を示すことができた。
論文参考訳（メタデータ） (2020-07-08T02:00:22Z)
Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文参考訳（メタデータ） (2020-04-24T14:39:34Z)
Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。 TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文参考訳（メタデータ） (2020-04-20T09:09:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。