論文の概要: Leveraging Large Language Models for Scalable Vector Graphics-Driven
Image Understanding
- arxiv url: http://arxiv.org/abs/2306.06094v1
- Date: Fri, 9 Jun 2023 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:03:07.258021
- Title: Leveraging Large Language Models for Scalable Vector Graphics-Driven
Image Understanding
- Title(参考訳): スケーラブルベクターグラフィックス駆動画像理解のための大規模言語モデル活用
- Authors: Mu Cai, Zeyi Huang, Yuheng Li, Haohan Wang, Yong Jae Lee
- Abstract要約: 本稿では,大規模言語モデルによる画像処理を可能にする新しい探索的アプローチを提案する。
画像の代わりにXMLベースの表現記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指している。
提案手法は,LLM機能のみを用いた簡単な画像分類,生成,テキスト内学習を容易にする。
- 参考スコア(独自算出の注目度): 35.80409077616195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large language models (LLMs) have made significant advancements in
natural language understanding and generation. However, their potential in
computer vision remains largely unexplored. In this paper, we introduce a new,
exploratory approach that enables LLMs to process images using the Scalable
Vector Graphics (SVG) format. By leveraging the XML-based textual descriptions
of SVG representations instead of raster images, we aim to bridge the gap
between the visual and textual modalities, allowing LLMs to directly understand
and manipulate images without the need for parameterized visual components. Our
method facilitates simple image classification, generation, and in-context
learning using only LLM capabilities. We demonstrate the promise of our
approach across discriminative and generative tasks, highlighting its (i)
robustness against distribution shift, (ii) substantial improvements achieved
by tapping into the in-context learning abilities of LLMs, and (iii) image
understanding and generation capabilities with human guidance. Our code, data,
and models can be found here https://github.com/mu-cai/svg-llm.
- Abstract(参考訳): 近年,大規模言語モデル(llm)は自然言語理解と生成において大きな進歩を遂げている。
しかし、コンピュータビジョンにおけるその可能性はほとんど解明されていない。
本稿では,LLMがスケーラブルベクトルグラフィックス(SVG)フォーマットで画像を処理できる新しい探索的手法を提案する。
ラスタ画像の代わりに、XMLベースのSVG表現のテキスト記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指しており、LLMはパラメータ化されたビジュアルコンポーネントを必要とせずに、画像を直接理解し、操作することができる。
LLM機能のみを用いた簡単な画像分類、生成、テキスト内学習を容易にする。
我々は、差別的および生成的タスクにまたがるアプローチの可能性を実証し、その特徴を強調する。
(i)分布シフトに対する堅牢性
(II)LLMの文脈内学習能力を活用することで実現した実質的な改善
(iii)人間指導による画像理解・生成能力
私たちのコード、データ、モデルはhttps://github.com/mu-cai/svg-llmで見ることができます。
関連論文リスト
- Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックスはコンピュータビジョンとグラフィックスの基本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Text-Based Reasoning About Vector Graphics [76.42082386029206]
本稿では,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。
プリマルビジュアル記述(PVD)による事前訓練言語モデルを用いたVDLMブリッジ
我々のフレームワークは、その不整合認識と推論プロセスにより、より良い解釈可能性を提供します。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Painter: Teaching Auto-regressive Language Models to Draw Sketches [5.3445140425713245]
ユーザプロンプトをテキスト記述形式でスケッチに変換するLLMであるPapererを提示する。
テキストプロンプトと組み合わせた多目的スケッチのデータセットを作成する。
自動回帰画像生成にLSMを使うことは、前例のない先駆的な試みであるが、結果は大いに奨励されている。
論文 参考訳(メタデータ) (2023-08-16T17:18:30Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。