Fugu-MT 論文翻訳(概要): Kosmos-2: Grounding Multimodal Large Language Models to the World

論文の概要: Kosmos-2: Grounding Multimodal Large Language Models to the World

arxiv url: http://arxiv.org/abs/2306.14824v3
Date: Thu, 13 Jul 2023 05:41:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-14 17:18:07.398975
Title: Kosmos-2: Grounding Multimodal Large Language Models to the World
Title（参考訳）: kosmos-2: マルチモーダル大規模言語モデルの世界への接地
Authors: Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei
Abstract要約: マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
参考スコア（独自算出の注目度）: 107.27280175398089
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Kosmos-2, a Multimodal Large Language Model (MLLM), enabling new capabilities of perceiving object descriptions (e.g., bounding boxes) and grounding text to the visual world. Specifically, we represent refer expressions as links in Markdown, i.e., ``[text span](bounding boxes)'', where object descriptions are sequences of location tokens. Together with multimodal corpora, we construct large-scale data of grounded image-text pairs (called GrIT) to train the model. In addition to the existing capabilities of MLLMs (e.g., perceiving general modalities, following instructions, and performing in-context learning), Kosmos-2 integrates the grounding capability into downstream applications. We evaluate Kosmos-2 on a wide range of tasks, including (i) multimodal grounding, such as referring expression comprehension, and phrase grounding, (ii) multimodal referring, such as referring expression generation, (iii) perception-language tasks, and (iv) language understanding and generation. This work lays out the foundation for the development of Embodiment AI and sheds light on the big convergence of language, multimodal perception, action, and world modeling, which is a key step toward artificial general intelligence. Code and pretrained models are available at https://aka.ms/kosmos-2.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)であるKosmos-2を導入し,オブジェクト記述(バウンディングボックスなど)の認識と,視覚の世界へのテキストの接地を可能にする。具体的には、オブジェクト記述が位置トークンのシーケンスである``[text span](bounding box)''のリンクとして参照表現を表現する。マルチモーダルコーパスとともに、グラウンドドイメージテキストペア(GrIT)の大規模データを構築し、モデルを訓練する。 MLLMの既存の機能(例えば、一般的なモダリティの知覚、命令の追従、テキスト内学習の実行など)に加えて、Kosmos-2はダウンストリームアプリケーションにグラウンド機能を統合する。我々はKosmos-2を幅広いタスクで評価する。 (i)表現の理解や句の接頭辞など多様接頭辞 (ii)表現生成の参照等の多元的参照 (iii)知覚言語課題、及び (4)言語理解と生成。本研究は、具体化aiの開発の基礎を整理し、人工知能への重要な一歩である言語、マルチモーダル知覚、行動、世界モデリングの大規模な収束に光を当てる。コードと事前トレーニングされたモデルはhttps://aka.ms/kosmos-2で利用可能である。

関連論文リスト

Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
GenRL: Multimodal-foundation world models for generalization in embodied agents [12.263162194821787]
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。現在の基盤視覚言語モデル(VLM)は、微調整やその他の適応を具体的文脈で適用する必要がある。このような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害である。
論文参考訳（メタデータ） (2024-06-26T03:41:48Z)
ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。 ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation [22.347590874621865]
本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。 GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-26T18:59:33Z)
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation [88.33780780220091]
CoDi-2は汎用的でインタラクティブなマルチモーダル言語モデル(MLLM)である複雑なマルチモーダルなインターリーブ命令に従うことができ、ICL(In-context Learning)、理性、チャット、編集などを実行することができる。
論文参考訳（メタデータ） (2023-11-30T18:21:25Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (2023-02-27T18:55:27Z)
Exploiting BERT For Multimodal Target SentimentClassification Through Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。 2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-08-03T18:02:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。