論文の概要: ViPE: Visualise Pretty-much Everything
- arxiv url: http://arxiv.org/abs/2310.10543v1
- Date: Mon, 16 Oct 2023 16:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 13:11:38.695641
- Title: ViPE: Visualise Pretty-much Everything
- Title(参考訳): ViPE: あらゆるものを可視化する
- Authors: Hassan Shahmohammadi, Adhiraj Ghosh, Hendrik P. A. Lensch
- Abstract要約: 具体的表現と非文的表現は、人間のコミュニケーションに深く統合されている。
近年のStable Diffusionのようなテキストと画像のモデルでは、非リテラル表現の表現に苦労している。
ViPE: Visualise Pretty-much Everythingを紹介します。
- 参考スコア(独自算出の注目度): 7.885635159451004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Figurative and non-literal expressions are profoundly integrated in human
communication. Visualising such expressions allow us to convey our creative
thoughts, and evoke nuanced emotions. Recent text-to-image models like Stable
Diffusion, on the other hand, struggle to depict non-literal expressions.
Recent works primarily deal with this issue by compiling humanly annotated
datasets on a small scale, which not only demands specialised expertise but
also proves highly inefficient. To address this issue, we introduce ViPE:
Visualise Pretty-much Everything. ViPE offers a series of lightweight and
robust language models that have been trained on a large-scale set of lyrics
with noisy visual descriptions that represent their implicit meaning. The
synthetic visual descriptions are generated by GPT3.5 relying on neither human
annotations nor images. ViPE effectively expresses any arbitrary piece of text
into a visualisable description, enabling meaningful and high-quality image
generation. We provide compelling evidence that ViPE is more robust than GPT3.5
in synthesising visual elaborations. ViPE also exhibits an understanding of
figurative expressions comparable to human experts, providing a powerful and
open-source backbone to many downstream applications such as music video and
caption generation.
- Abstract(参考訳): フィギュラティブ表現とノンリテラル表現は、人間のコミュニケーションに深く統合されている。
このような表現を視覚化することで、創造的な思考を伝達し、ニュアンス的な感情を喚起することができる。
一方、Stable Diffusionのような最近のテキストから画像へのモデルでは、非リテラル表現の表現に苦労している。
最近の研究では主に、人間の注釈付きデータセットを小さなスケールでコンパイルすることでこの問題に対処している。
この問題に対処するために、ViPE: Visualise Pretty-much Everythingを紹介します。
ViPEは、一連の軽量で堅牢な言語モデルを提供し、その暗黙的な意味を表す騒々しい視覚的記述を持つ大規模な歌詞セットで訓練されている。
合成視覚記述は、人間のアノテーションや画像に依存しないGPT3.5によって生成される。
ViPEは任意のテキストを視覚的に表現し、意味のある高品質の画像生成を可能にする。
我々は,視覚的エラボレーションの合成において,VPEがGPT3.5よりも堅牢であることを示す。
ViPEはまた、人間の専門家に匹敵する比喩表現の理解を示し、音楽ビデオやキャプション生成のような下流の多くのアプリケーションに強力でオープンソースのバックボーンを提供する。
関連論文リスト
- Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - IRFL: Image Recognition of Figurative Language [20.472997304393413]
図形は、しばしば複数のモダリティ(例えば、テキストと画像の両方)を通して伝達される。
我々は、図形言語データセットの画像認識を開発する。
マルチモーダルな図形言語理解のためのベンチマークとして,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-03-27T17:59:55Z) - Contextually-rich human affect perception using multimodal scene
information [36.042369831043686]
我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T07:46:41Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - FLUTE: Figurative Language Understanding and Textual Explanations [37.83909874945428]
FLUTEは8000の図式NLIインスタンスのデータセットで、説明とともにリリースします。
我々は、GPT-3を人間の専門家と組み合わせることで、データセットの作成をスケールアップできることを示す。
論文 参考訳(メタデータ) (2022-05-24T23:25:02Z) - ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。
ある画像に対して感じている支配的な感情を示すために、注釈を付けます。
これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文 参考訳(メタデータ) (2021-01-19T01:03:40Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。