論文の概要: Painter: Teaching Auto-regressive Language Models to Draw Sketches
- arxiv url: http://arxiv.org/abs/2308.08520v1
- Date: Wed, 16 Aug 2023 17:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:25:45.802286
- Title: Painter: Teaching Auto-regressive Language Models to Draw Sketches
- Title(参考訳): 画家: 自動回帰言語モデルを使ってスケッチを描く
- Authors: Reza Pourreza, Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Pulkit
Madan, Roland Memisevic
- Abstract要約: ユーザプロンプトをテキスト記述形式でスケッチに変換するLLMであるPapererを提示する。
テキストプロンプトと組み合わせた多目的スケッチのデータセットを作成する。
自動回帰画像生成にLSMを使うことは、前例のない先駆的な試みであるが、結果は大いに奨励されている。
- 参考スコア(独自算出の注目度): 5.3445140425713245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have made tremendous progress in natural
language understanding and they have also been successfully adopted in other
domains such as computer vision, robotics, reinforcement learning, etc. In this
work, we apply LLMs to image generation tasks by directly generating the
virtual brush strokes to paint an image. We present Painter, an LLM that can
convert user prompts in text description format to sketches by generating the
corresponding brush strokes in an auto-regressive way. We construct Painter
based on off-the-shelf LLM that is pre-trained on a large text corpus, by
fine-tuning it on the new task while preserving language understanding
capabilities. We create a dataset of diverse multi-object sketches paired with
textual prompts that covers several object types and tasks. Painter can
generate sketches from text descriptions, remove objects from canvas, and
detect and classify objects in sketches. Although this is an unprecedented
pioneering work in using LLMs for auto-regressive image generation, the results
are very encouraging.
- Abstract(参考訳): 大規模言語モデル(llm)は自然言語理解において大きな進歩を遂げており、コンピュータビジョン、ロボティクス、強化学習など他の領域でもうまく採用されている。
本研究では,仮想ブラシストロークを直接生成して画像を描くことで,画像生成タスクにLLMを適用する。
本研究では,テキスト記述形式でユーザプロンプトをスケッチに変換し,対応するブラシストロークを自動回帰的に生成するLLMについて述べる。
言語理解機能を保ちつつ,新しいタスクで微調整することで,大きなテキストコーパスで事前学習された既定のllmに基づく画家を構築する。
複数のオブジェクトタイプとタスクをカバーするテキストプロンプトと組み合わせた多種多様なマルチオブジェクトスケッチのデータセットを作成します。
painterはテキスト記述からスケッチを生成し、canvasからオブジェクトを削除し、スケッチ内のオブジェクトを検出し分類することができる。
自動回帰画像生成にLSMを使うことは、前例のない先駆的な試みであるが、結果は大いに奨励されている。
関連論文リスト
- SketchAgent: Language-Driven Sequential Sketch Generation [34.96339247291013]
SketchAgentは言語駆動でシーケンシャルなスケッチ生成方法である。
テキスト内例を通してモデルに導入した直感的なスケッチ言語を提案する。
脳卒中をストロークで描くことで、スケッチに固有の進化的でダイナミックな性質を捉えます。
論文 参考訳(メタデータ) (2024-11-26T18:32:06Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。