論文の概要: Image Content Generation with Causal Reasoning
- arxiv url: http://arxiv.org/abs/2312.07132v1
- Date: Tue, 12 Dec 2023 10:07:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:37:45.779850
- Title: Image Content Generation with Causal Reasoning
- Title(参考訳): 因果推論による画像コンテンツ生成
- Authors: Xiaochuan Li, Baoyu Fan, Runze Zhang, Liang Jin, Di Wang, Zhenhua Guo,
Yaqian Zhao, Rengang Li
- Abstract要約: ChatGPTは、生成人工知能(GAI)の研究に再び火をつけた
視覚的モダリティでは、現在同等の研究は行われていない。
画像を用いた視覚質問応答(VQAI)という画像生成タスクを提案する。
- 参考スコア(独自算出の注目度): 17.89980837508069
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The emergence of ChatGPT has once again sparked research in generative
artificial intelligence (GAI). While people have been amazed by the generated
results, they have also noticed the reasoning potential reflected in the
generated textual content. However, this current ability for causal reasoning
is primarily limited to the domain of language generation, such as in models
like GPT-3. In visual modality, there is currently no equivalent research.
Considering causal reasoning in visual content generation is significant. This
is because visual information contains infinite granularity. Particularly,
images can provide more intuitive and specific demonstrations for certain
reasoning tasks, especially when compared to coarse-grained text. Hence, we
propose a new image generation task called visual question answering with image
(VQAI) and establish a dataset of the same name based on the classic
\textit{Tom and Jerry} animated series. Additionally, we develop a new paradigm
for image generation to tackle the challenges of this task. Finally, we perform
extensive experiments and analyses, including visualizations of the generated
content and discussions on the potentials and limitations. The code and data
are publicly available under the license of CC BY-NC-SA 4.0 for academic and
non-commercial usage. The code and dataset are publicly available at:
https://github.com/IEIT-AGI/MIX-Shannon/blob/main/projects/VQAI/lgd_vqai.md.
- Abstract(参考訳): ChatGPTの出現は、生成人工知能(GAI)の研究を再び引き起こした。
生成した結果に人々は驚いたが、生成したテキストコンテンツに反映される推論の可能性にも気づいた。
しかし、この因果推論の現在の能力は、主にGPT-3のようなモデルのような言語生成の領域に限られている。
視覚的モダリティでは、現在同等の研究はない。
視覚コンテンツ生成における因果推論は重要である。
これは視覚情報が無限の粒度を含むためである。
特に画像は、特定の推論タスク、特に粗いテキストと比較して、より直感的で具体的なデモンストレーションを提供することができる。
そこで,vqai(visual question answering with image)と呼ばれる新しい画像生成タスクを提案し,従来の\textit{tom and jerry}アニメーションシリーズに基づいて,同じ名前のデータセットを確立する。
さらに,この課題に対処するために,画像生成のための新しいパラダイムを開発する。
最後に,生成されたコンテンツの可視化や可能性と限界に関する議論など,広範な実験と分析を行う。
コードとデータはcc by-nc-sa 4.0のライセンスのもと、学術的および非商業的利用のために公開されている。
コードとデータセットは、https://github.com/IEIT-AGI/MIX-Shannon/blob/main/projects/VQAI/lgd_vqai.mdで公開されている。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:58:06Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - Multi-VQG: Generating Engaging Questions for Multiple Images [9.965853054511165]
複数の画像から係わる質問を生成することを提案する。
結果は、画像シーケンスの背後にあるストーリーを構築することで、モデルが魅力的な質問を生成することができることを示している。
これらの結果は、視覚と言語モデルが、一連の写真の背後にあるストーリーを暗黙的に構築する上で、エキサイティングな挑戦を生み出します。
論文 参考訳(メタデータ) (2022-11-14T15:15:00Z) - Visualize Before You Write: Imagination-Guided Open-Ended Text
Generation [68.96699389728964]
我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。
オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
論文 参考訳(メタデータ) (2022-10-07T18:01:09Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - CIGLI: Conditional Image Generation from Language & Image [5.159265382427163]
我々はCIGLI: Conditional Image Generation from Language and Imageを提案する。
テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。
論文 参考訳(メタデータ) (2021-08-20T00:58:42Z) - VisualMRC: Machine Reading Comprehension on Document Images [4.057968826847943]
質問と文書画像が与えられたとき、機械は自然言語で質問に答えるために画像中のテキストを読み、理解する。
VisualMRCは、自然言語の理解と生成能力の開発に重点を置いている。
これには3万以上の質問と、Webページの複数のドメインから得られた1万以上のドキュメントイメージの抽象的な回答が含まれている。
論文 参考訳(メタデータ) (2021-01-27T09:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。