論文の概要: Language Is Not All You Need: Aligning Perception with Language Models
- arxiv url: http://arxiv.org/abs/2302.14045v1
- Date: Mon, 27 Feb 2023 18:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:15:57.676975
- Title: Language Is Not All You Need: Aligning Perception with Language Models
- Title(参考訳): 言語は必要なすべてではない:言語モデルによる知覚の調整
- Authors: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal,
Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Qiang Liu, Kriti
Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song,
Furu Wei
- Abstract要約: Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
- 参考スコア(独自算出の注目度): 111.78747318135207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A big convergence of language, multimodal perception, action, and world
modeling is a key step toward artificial general intelligence. In this work, we
introduce Kosmos-1, a Multimodal Large Language Model (MLLM) that can perceive
general modalities, learn in context (i.e., few-shot), and follow instructions
(i.e., zero-shot). Specifically, we train Kosmos-1 from scratch on web-scale
multimodal corpora, including arbitrarily interleaved text and images,
image-caption pairs, and text data. We evaluate various settings, including
zero-shot, few-shot, and multimodal chain-of-thought prompting, on a wide range
of tasks without any gradient updates or finetuning. Experimental results show
that Kosmos-1 achieves impressive performance on (i) language understanding,
generation, and even OCR-free NLP (directly fed with document images), (ii)
perception-language tasks, including multimodal dialogue, image captioning,
visual question answering, and (iii) vision tasks, such as image recognition
with descriptions (specifying classification via text instructions). We also
show that MLLMs can benefit from cross-modal transfer, i.e., transfer knowledge
from language to multimodal, and from multimodal to language. In addition, we
introduce a dataset of Raven IQ test, which diagnoses the nonverbal reasoning
capability of MLLMs.
- Abstract(参考訳): 言語、マルチモーダル認識、行動、世界モデリングの大きな収束は、人工知能にとって重要なステップである。
本稿では,一般モダリティを知覚し,文脈で学習し,指示に従うマルチモーダル大規模言語モデル(mllm)であるkosmos-1を紹介する。
具体的には、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
ゼロショット,少数ショット,マルチモーダル・チェーン・オブ・シークレットなどのさまざまな設定を,勾配更新や微調整を伴わない広範囲なタスクで評価する。
Kosmos-1が優れた性能を発揮することを示す実験結果が得られた。
(i)言語理解、生成、さらにはOCRフリーなNLP(直接文書画像が供給される)
(ii)マルチモーダル対話、画像キャプション、視覚的質問応答等の知覚言語課題
(iii)説明付き画像認識(テキスト指示による分類特定)などの視覚課題
また,MLLMは,言語からマルチモーダル,多モーダルから言語への知識伝達という,クロスモーダル転送のメリットも示している。
さらに,mllmsの非言語的推論能力を診断するraven iqテストのデータセットも紹介する。
関連論文リスト
- VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。