論文の概要: Do better language models have crisper vision?
- arxiv url: http://arxiv.org/abs/2410.07173v1
- Date: Wed, 9 Oct 2024 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:46:48.786335
- Title: Do better language models have crisper vision?
- Title(参考訳): より良い言語モデルには明快なビジョンがあるか?
- Authors: Jona Ruthardt, Gertjan J. Burghouts, Serge Belongie, Yuki M. Asano,
- Abstract要約: テキストのみのLarge Language Models (LLMs)は、ビジュアル世界をどのように把握するか?
本稿では,ビジュアルワールドに適合する言語モデルを実現するキープロパティを分離するためのVisual Text Representation Benchmark (ViTeRB)を提案する。
これらの知見に基づいて,超軽量CLIP様モデルであるShareLockを提案する。
- 参考スコア(独自算出の注目度): 23.884532179063733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How well do text-only Large Language Models (LLMs) grasp the visual world? As LLMs are increasingly used in computer vision, addressing this question becomes both fundamental and pertinent. However, existing studies have primarily focused on limited scenarios, such as their ability to generate visual content or cluster multimodal data. To this end, we propose the Visual Text Representation Benchmark (ViTeRB) to isolate key properties that make language models well-aligned with the visual world. With this, we identify large-scale decoder-based LLMs as ideal candidates for representing text in vision-centric contexts, counter to the current practice of utilizing text encoders. Building on these findings, we propose ShareLock, an ultra-lightweight CLIP-like model. By leveraging precomputable frozen features from strong vision and language models, ShareLock achieves an impressive 51% accuracy on ImageNet despite utilizing just 563k image-caption pairs. Moreover, training requires only 1 GPU hour (or 10 hours including the precomputation of features) - orders of magnitude less than prior methods. Code will be released.
- Abstract(参考訳): テキストのみのLarge Language Models (LLM)は、ビジュアル世界をどのように把握するか?
LLMはコンピュータビジョンでますます使われているため、この問題に対処することは基本的かつ関連するものとなる。
しかし、既存の研究は主に、視覚コンテンツやクラスタマルチモーダルデータを生成する能力など、限られたシナリオに焦点を当てている。
そこで本稿では,視覚世界と言語モデルを整合させるキープロパティを分離するためのVisual Text Representation Benchmark (ViTeRB)を提案する。
これにより、大規模デコーダベースのLCMを視覚中心の文脈でテキストを表現するための理想的な候補とみなし、テキストエンコーダを利用する現在の実践に対抗できる。
これらの知見に基づいて,超軽量CLIP様モデルであるShareLockを提案する。
強力なビジョンと言語モデルから事前計算可能なフリーズ機能を活用することで、ShareLockは563kのイメージキャプチャペアしか利用していないにも関わらず、ImageNet上で印象的な51%の精度を実現している。
さらに、トレーニングには1GPU時間(または機能の事前計算を含む10時間)しか必要としない。
コードはリリースされる。
関連論文リスト
- Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文 参考訳(メタデータ) (2024-04-09T02:51:05Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Injecting Text and Cross-lingual Supervision in Few-shot Learning from
Self-Supervised Models [33.66135770490531]
新しい言語への自己教師付き表現の伝達を改善するために,音声集合音響モデルが言語間監督を活用する方法を示す。
また、格子フリーの最大相互情報目標を用いた微調整を実現するために、ターゲット言語テキストをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2021-10-10T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。