Fugu-MT 論文翻訳(概要): Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

論文の概要: Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

arxiv url: http://arxiv.org/abs/2306.06094v2
Date: Thu, 11 Jul 2024 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-13 00:07:09.740313
Title: Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding
Title（参考訳）: スケーラブルベクトルグラフ駆動画像理解のための大規模言語モデルの活用
Authors: Mu Cai, Zeyi Huang, Yuheng Li, Utkarsh Ojha, Haohan Wang, Yong Jae Lee,
Abstract要約: 大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。本研究は,LLMが画像の理解も可能かどうかを考察する。
参考スコア（独自算出の注目度）: 46.042197741423365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have made significant advancements in natural language understanding. However, through that enormous semantic representation that the LLM has learnt, is it somehow possible for it to understand images as well? This work investigates this question. To enable the LLM to process images, we convert them into a representation given by Scalable Vector Graphics (SVG). To study what the LLM can do with this XML-based textual description of images, we test the LLM on three broad computer vision tasks: (i) visual reasoning and question answering, (ii) image classification under distribution shift, few-shot learning, and (iii) generating new images using visual prompting. Even though we do not naturally associate LLMs with any visual understanding capabilities, our results indicate that the LLM can often do a decent job in many of these tasks, potentially opening new avenues for research into LLMs' ability to understand image data. Our code, data, and models can be found here https://github.com/mu-cai/svg-llm.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。しかし、LLMが学習した巨大な意味表現を通じて、画像も理解できるようになるだろうか? この研究はこの問題を調査する。 LLMが画像を処理できるようにするため、スケーラブルベクトルグラフィックス(SVG)によって与えられる表現に変換する。このXMLベースの画像のテキスト記述でLLMに何ができるかを研究するため、3つのコンピュータビジョンタスクでLLMをテストする。 (i)視覚的推論と質問応答 (二)分布シフトによる画像分類、少数ショット学習、及び (iii)視覚的プロンプトを用いて新しい画像を生成する。 LLMを視覚的理解能力と自然に関連付けるわけではないが、この結果から、LLMはこれらのタスクの多くにおいて適切な仕事をすることが多く、LLMが画像データを理解する能力について研究するための新たな道を開く可能性が示唆された。私たちのコード、データ、モデルは、https://github.com/mu-cai/svg-llm.comで参照できます。

関連論文リスト

Empowering LLMs to Understand and Generate Complex Vector Graphics [30.21003939248769]
大規模言語モデル(LLM)は、トレーニング中にWebページからベクターグラフィックスの部分的知識を符号化する。最近の知見は, LLM内の意味的曖昧さとトークン化表現が, ベクトルプリミティブ予測における幻覚を引き起こす可能性を示唆している。 LLM4SVGは、LLMがベクトルグラフィックスをよりよく理解し、生成できるようにすることにより、このギャップを埋める最初のステップであるが、実質的なステップである。
論文参考訳（メタデータ） (2024-12-15T07:49:31Z)
Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。 LLMの推理性能は概して優れていた。
論文参考訳（メタデータ） (2024-08-15T17:59:57Z)
Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs [14.381188702947949]
LVLM(Large Vision-Language Models)は、主に視覚エンコーダのイメージ特徴とLLM(Large Language Models)を連携させて、その優れたテキスト生成能力を活用する。このLVLMの不均衡は幻覚の原因となる可能性がある。本稿では,画像理解と言語推論の平衡点を求める学習自由アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-31T17:46:57Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-20T08:23:39Z)
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文参考訳（メタデータ） (2023-06-30T17:59:07Z)
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文参考訳（メタデータ） (2023-05-19T07:44:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。