論文の概要: Large Language Models Implicitly Learn to See and Hear Just By Reading
- arxiv url: http://arxiv.org/abs/2505.17091v1
- Date: Tue, 20 May 2025 22:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.551033
- Title: Large Language Models Implicitly Learn to See and Hear Just By Reading
- Title(参考訳): 大規模言語モデルでは、読み上げだけで聞き耳を学習する
- Authors: Prateek Verma, Mert Pilanci,
- Abstract要約: テキストトークン上で自動回帰LDMモデルをトレーニングすることにより、テキストモデルは本質的に内部で画像や音声を理解する能力を開発する。
本稿では,CIFAR-10とFashion-MNISTの画像分類と画像パッチについて述べる。
- 参考スコア(独自算出の注目度): 46.76681147411957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a fascinating find: By training an auto-regressive LLM model on text tokens, the text model inherently develops internally an ability to understand images and audio, thereby developing the ability to see and hear just by reading. Popular audio and visual LLM models fine-tune text LLM models to give text output conditioned on images and audio embeddings. On the other hand, our architecture takes in patches of images, audio waveforms or tokens as input. It gives us the embeddings or category labels typical of a classification pipeline. We show the generality of text weights in aiding audio classification for datasets FSD-50K and GTZAN. Further, we show this working for image classification on CIFAR-10 and Fashion-MNIST, as well on image patches. This pushes the notion of text-LLMs learning powerful internal circuits that can be utilized by activating necessary connections for various applications rather than training models from scratch every single time.
- Abstract(参考訳): テキストトークン上での自動回帰LPMモデルをトレーニングすることにより、テキストモデルは本質的に内部的に画像や音声を理解する能力を発達させ、読み上げだけで見たり聴いたりすることができる。
ポピュラーなオーディオおよびビジュアルLLMモデルは、画像とオーディオ埋め込みに条件付きテキスト出力を与える微調整テキストLLMモデルである。
一方,我々のアーキテクチャでは,画像,音声波形,トークンのパッチを入力として取り込んでいる。
これにより、分類パイプラインの典型的な埋め込みやカテゴリラベルが得られます。
FSD-50KとGTZANの音声分類におけるテキスト重みの一般性を示す。
さらに,CIFAR-10とFashion-MNISTの画像分類と画像パッチについて検討した。
これにより、テキストLLMが強力な内部回路を学習し、様々なアプリケーションに必要な接続をアクティベートすることで、モデルをスクラッチから毎回トレーニングすることが可能になる。
関連論文リスト
- Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。