論文の概要: Painter: Teaching Auto-regressive Language Models to Draw Sketches
- arxiv url: http://arxiv.org/abs/2308.08520v1
- Date: Wed, 16 Aug 2023 17:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:25:45.802286
- Title: Painter: Teaching Auto-regressive Language Models to Draw Sketches
- Title(参考訳): 画家: 自動回帰言語モデルを使ってスケッチを描く
- Authors: Reza Pourreza, Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Pulkit
Madan, Roland Memisevic
- Abstract要約: ユーザプロンプトをテキスト記述形式でスケッチに変換するLLMであるPapererを提示する。
テキストプロンプトと組み合わせた多目的スケッチのデータセットを作成する。
自動回帰画像生成にLSMを使うことは、前例のない先駆的な試みであるが、結果は大いに奨励されている。
- 参考スコア(独自算出の注目度): 5.3445140425713245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have made tremendous progress in natural
language understanding and they have also been successfully adopted in other
domains such as computer vision, robotics, reinforcement learning, etc. In this
work, we apply LLMs to image generation tasks by directly generating the
virtual brush strokes to paint an image. We present Painter, an LLM that can
convert user prompts in text description format to sketches by generating the
corresponding brush strokes in an auto-regressive way. We construct Painter
based on off-the-shelf LLM that is pre-trained on a large text corpus, by
fine-tuning it on the new task while preserving language understanding
capabilities. We create a dataset of diverse multi-object sketches paired with
textual prompts that covers several object types and tasks. Painter can
generate sketches from text descriptions, remove objects from canvas, and
detect and classify objects in sketches. Although this is an unprecedented
pioneering work in using LLMs for auto-regressive image generation, the results
are very encouraging.
- Abstract(参考訳): 大規模言語モデル(llm)は自然言語理解において大きな進歩を遂げており、コンピュータビジョン、ロボティクス、強化学習など他の領域でもうまく採用されている。
本研究では,仮想ブラシストロークを直接生成して画像を描くことで,画像生成タスクにLLMを適用する。
本研究では,テキスト記述形式でユーザプロンプトをスケッチに変換し,対応するブラシストロークを自動回帰的に生成するLLMについて述べる。
言語理解機能を保ちつつ,新しいタスクで微調整することで,大きなテキストコーパスで事前学習された既定のllmに基づく画家を構築する。
複数のオブジェクトタイプとタスクをカバーするテキストプロンプトと組み合わせた多種多様なマルチオブジェクトスケッチのデータセットを作成します。
painterはテキスト記述からスケッチを生成し、canvasからオブジェクトを削除し、スケッチ内のオブジェクトを検出し分類することができる。
自動回帰画像生成にLSMを使うことは、前例のない先駆的な試みであるが、結果は大いに奨励されている。
関連論文リスト
- LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language
Models [119.68736808663685]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven
Image Understanding [35.80409077616195]
本稿では,大規模言語モデルによる画像処理を可能にする新しい探索的アプローチを提案する。
画像の代わりにXMLベースの表現記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指している。
提案手法は,LLM機能のみを用いた簡単な画像分類,生成,テキスト内学習を容易にする。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。