論文の概要: Leveraging Large Language Models for Scalable Vector Graphics-Driven
Image Understanding
- arxiv url: http://arxiv.org/abs/2306.06094v1
- Date: Fri, 9 Jun 2023 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:03:07.258021
- Title: Leveraging Large Language Models for Scalable Vector Graphics-Driven
Image Understanding
- Title(参考訳): スケーラブルベクターグラフィックス駆動画像理解のための大規模言語モデル活用
- Authors: Mu Cai, Zeyi Huang, Yuheng Li, Haohan Wang, Yong Jae Lee
- Abstract要約: 本稿では,大規模言語モデルによる画像処理を可能にする新しい探索的アプローチを提案する。
画像の代わりにXMLベースの表現記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指している。
提案手法は,LLM機能のみを用いた簡単な画像分類,生成,テキスト内学習を容易にする。
- 参考スコア(独自算出の注目度): 35.80409077616195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large language models (LLMs) have made significant advancements in
natural language understanding and generation. However, their potential in
computer vision remains largely unexplored. In this paper, we introduce a new,
exploratory approach that enables LLMs to process images using the Scalable
Vector Graphics (SVG) format. By leveraging the XML-based textual descriptions
of SVG representations instead of raster images, we aim to bridge the gap
between the visual and textual modalities, allowing LLMs to directly understand
and manipulate images without the need for parameterized visual components. Our
method facilitates simple image classification, generation, and in-context
learning using only LLM capabilities. We demonstrate the promise of our
approach across discriminative and generative tasks, highlighting its (i)
robustness against distribution shift, (ii) substantial improvements achieved
by tapping into the in-context learning abilities of LLMs, and (iii) image
understanding and generation capabilities with human guidance. Our code, data,
and models can be found here https://github.com/mu-cai/svg-llm.
- Abstract(参考訳): 近年,大規模言語モデル(llm)は自然言語理解と生成において大きな進歩を遂げている。
しかし、コンピュータビジョンにおけるその可能性はほとんど解明されていない。
本稿では,LLMがスケーラブルベクトルグラフィックス(SVG)フォーマットで画像を処理できる新しい探索的手法を提案する。
ラスタ画像の代わりに、XMLベースのSVG表現のテキスト記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指しており、LLMはパラメータ化されたビジュアルコンポーネントを必要とせずに、画像を直接理解し、操作することができる。
LLM機能のみを用いた簡単な画像分類、生成、テキスト内学習を容易にする。
我々は、差別的および生成的タスクにまたがるアプローチの可能性を実証し、その特徴を強調する。
(i)分布シフトに対する堅牢性
(II)LLMの文脈内学習能力を活用することで実現した実質的な改善
(iii)人間指導による画像理解・生成能力
私たちのコード、データ、モデルはhttps://github.com/mu-cai/svg-llmで見ることができます。
関連論文リスト
- Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
LLMの推理性能は概して優れていた。
論文 参考訳(メタデータ) (2024-08-15T17:59:57Z) - Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs [14.381188702947949]
LVLM(Large Vision-Language Models)は、主に視覚エンコーダのイメージ特徴とLLM(Large Language Models)を連携させて、その優れたテキスト生成能力を活用する。
このLVLMの不均衡は幻覚の原因となる可能性がある。
本稿では,画像理解と言語推論の平衡点を求める学習自由アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-31T17:46:57Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen
LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。
結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。
提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文 参考訳(メタデータ) (2023-06-30T17:59:07Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。