論文の概要: Grounding Language Models to Images for Multimodal Inputs and Outputs
- arxiv url: http://arxiv.org/abs/2301.13823v3
- Date: Thu, 1 Jun 2023 16:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 00:34:34.770424
- Title: Grounding Language Models to Images for Multimodal Inputs and Outputs
- Title(参考訳): マルチモーダル入力と出力のための画像への接地言語モデル
- Authors: Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried
- Abstract要約: 本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
- 参考スコア(独自算出の注目度): 89.30027812161686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient method to ground pretrained text-only language models
to the visual domain, enabling them to process arbitrarily interleaved
image-and-text data, and generate text interleaved with retrieved images. Our
method leverages the abilities of language models learnt from large scale
text-only pretraining, such as in-context learning and free-form text
generation. We keep the language model frozen, and finetune input and output
linear layers to enable cross-modality interactions. This allows our model to
process arbitrarily interleaved image-and-text inputs, and generate free-form
text interleaved with retrieved images. We achieve strong zero-shot performance
on grounded tasks such as contextual image retrieval and multimodal dialogue,
and showcase compelling interactive abilities. Our approach works with any
off-the-shelf language model and paves the way towards an effective, general
solution for leveraging pretrained language models in visually grounded
settings.
- Abstract(参考訳): 本研究では,事前学習したテキストのみの言語モデルを視覚領域に最適化し,任意にインターリーブされた画像とテキストデータを処理し,検索した画像でインターリーブされたテキストを生成する。
本手法は,インコンテキスト学習やフリーフォームテキスト生成など,大規模テキストのみの事前学習から学習した言語モデルの能力を活用する。
我々は、言語モデルを凍結させ、相互モダリティ相互作用を可能にするために、入出力線形層を微調整する。
これにより、任意にインターリーブされた画像とテキストの入力を処理し、検索した画像でインターリーブされた自由形式のテキストを生成することができる。
本研究では,コンテキスト画像検索やマルチモーダル対話などの接地タスクにおいて,強いゼロショット性能を実現し,魅力的な対話能力を示す。
当社のアプローチは市販の言語モデルと連携し,事前学習した言語モデルを視覚的に基盤とした環境で活用するための,効果的で汎用的なソリューションへの道を開く。
関連論文リスト
- An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation [43.139415423751615]
写真共有マルチモーダル対話生成には、テキスト応答を生成するだけでなく、適切なタイミングで写真を共有するための対話エージェントが必要である。
パイプラインモデルは、この複雑なマルチモーダルタスクを処理するために、画像キャプションモデル、テキスト生成モデル、画像生成モデルを統合する。
本稿では,画像パーセプトロンと画像生成器を大言語モデルに統合した,写真共有マルチモーダル対話生成のための最初のエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2024-08-16T10:33:19Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。