論文の概要: Affective Feedback Synthesis Towards Multimodal Text and Image Data
- arxiv url: http://arxiv.org/abs/2203.12692v1
- Date: Wed, 23 Mar 2022 19:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 02:59:39.617343
- Title: Affective Feedback Synthesis Towards Multimodal Text and Image Data
- Title(参考訳): マルチモーダルテキストと画像データに向けた感情フィードバック合成
- Authors: Puneet Kumar, Gaurav Bhat, Omkar Ingle, Daksh Goyal and
Balasubramanian Raman
- Abstract要約: 我々は、入力テキストと対応する画像に対するフィードバックを生成する感情フィードバック合成の新しいタスクを定義した。
画像テキスト入力とともに,地味な人間のコメントを用いてフィードバック合成システムを提案し,訓練した。
生成したフィードバックは、自動評価と人的評価を用いて分析されている。
- 参考スコア(独自算出の注目度): 12.768277167508208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we have defined a novel task of affective feedback synthesis
that deals with generating feedback for input text & corresponding image in a
similar way as humans respond towards the multimodal data. A feedback synthesis
system has been proposed and trained using ground-truth human comments along
with image-text input. We have also constructed a large-scale dataset
consisting of image, text, Twitter user comments, and the number of likes for
the comments by crawling the news articles through Twitter feeds. The proposed
system extracts textual features using a transformer-based textual encoder
while the visual features have been extracted using a Faster region-based
convolutional neural networks model. The textual and visual features have been
concatenated to construct the multimodal features using which the decoder
synthesizes the feedback. We have compared the results of the proposed system
with the baseline models using quantitative and qualitative measures. The
generated feedbacks have been analyzed using automatic and human evaluation.
They have been found to be semantically similar to the ground-truth comments
and relevant to the given text-image input.
- Abstract(参考訳): 本稿では,人間がマルチモーダルデータに応答するのと同様の方法で,入力テキストと対応する画像に対するフィードバックを生成する,感情フィードバック合成の新しいタスクを定義した。
画像テキスト入力と地対人コメントを用いたフィードバック合成システムの提案と訓練が行われている。
また、画像、テキスト、Twitterユーザーコメント、コメントに対するいいね!の回数などからなる大規模なデータセットを構築しました。
提案システムは,変換器を用いたテキストエンコーダを用いてテキスト特徴を抽出し,高速領域に基づく畳み込みニューラルネットワークモデルを用いて視覚特徴を抽出する。
テキストおよび視覚的特徴は、デコーダがフィードバックを合成するマルチモーダル特徴を構築するために連結されている。
提案システムの結果を定量的および定性的尺度を用いてベースラインモデルと比較した。
生成したフィードバックは自動評価と人間評価を用いて分析された。
これらは意味的に地上のコメントと似ており、与えられたテキスト画像の入力に関連することが判明している。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data [21.247650660908484]
我々は,大規模な制御可能なマルチモーダルフィードバック合成データセットを構築し,制御可能なフィードバック合成システムを提案する。
このシステムは、テキスト入力と視覚入力のためのエンコーダ、デコーダ、および制御性ブロックを備えている。
CMFeedデータセットには、画像、テキスト、投稿に対する反応、関連スコアによる人間のコメント、これらのコメントに対する反応が含まれている。
これらの反応はモデルに特定の感情でフィードバックを生成するよう訓練し、感情分類の精度は77.23%であり、制御不能な精度より18.82%高い。
論文 参考訳(メタデータ) (2024-02-12T13:27:22Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。