Fugu-MT 論文翻訳(概要): A Vision Check-up for Language Models

論文の概要: A Vision Check-up for Language Models

arxiv url: http://arxiv.org/abs/2401.01862v1
Date: Wed, 3 Jan 2024 18:09:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 13:22:36.565967
Title: A Vision Check-up for Language Models
Title（参考訳）: 言語モデルの視覚的チェックアップ
Authors: Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez-Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
Abstract要約: テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
参考スコア（独自算出の注目度）: 61.852026871772914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: What does learning to model relationships between strings teach large language models (LLMs) about the visual world? We systematically evaluate LLMs' abilities to generate and recognize an assortment of visual concepts of increasing complexity and then demonstrate how a preliminary visual representation learning system can be trained using models of text. As language models lack the ability to consume or output visual information as pixels, we use code to represent images in our study. Although LLM-generated images do not look like natural images, results on image generation and the ability of models to correct these generated images indicate that precise modeling of strings can teach language models about numerous aspects of the visual world. Furthermore, experiments on self-supervised visual representation learning, utilizing images generated with text models, highlight the potential to train vision models capable of making semantic assessments of natural images using just LLMs.
Abstract（参考訳）: 文字列間の関係をモデル化する学習は、視覚世界に関する大きな言語モデル(LLM)に何を教えるのか? 複雑化に伴う視覚概念の生成と認識を行うLLMの能力を体系的に評価し,テキストのモデルを用いて視覚表現学習システムをどのように訓練するかを実証する。言語モデルにはピクセルとして視覚情報を消費または出力する能力が欠けているため、私たちはコードを使用して画像を表現する。 LLM生成画像は自然画像のようには見えないが、画像生成結果とこれらの生成画像の補正能力は、文字列の正確なモデリングが視覚世界の多くの側面について言語モデルを教えることができることを示している。さらに,テキストモデルを用いた画像を用いた自己教師あり視覚表現学習実験では,自然画像の意味的評価をllmのみで行える視覚モデルの学習の可能性を強調した。

関連論文リスト

Coding the Visual World: From Image to Simulation Using Vision Language Models [2.6034777771586946]
本研究では,視覚言語モデル(VLM)による画像内のシステム認識とシミュレートの能力について検討する。 VLMは現実世界のシステムの自然なイメージを与えられ、システムを記述し、それをシミュレートして生成するコードを書く。このアプローチは、物理的システム(波、光、雲)から植生、都市、材料、地質形成まで、様々な複雑な創発システムでテストされている。
論文参考訳（メタデータ） (2026-01-08T19:49:05Z)
Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文参考訳（メタデータ） (2024-09-05T08:47:34Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文参考訳（メタデータ） (2023-05-24T11:59:13Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)
Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文参考訳（メタデータ） (2020-08-04T08:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。