論文の概要: Multimodal Knowledge Alignment with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12630v1
- Date: Wed, 25 May 2022 10:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 03:25:33.920807
- Title: Multimodal Knowledge Alignment with Reinforcement Learning
- Title(参考訳): 強化学習によるマルチモーダル知識アライメント
- Authors: Youngjae Yu, Jiwan Chung, Heeseung Yun, Jack Hessel, JaeSung Park,
Ximing Lu, Prithviraj Ammanabrolu, Rowan Zellers, Ronan Le Bras, Gunhee Kim,
Yejin Choi
- Abstract要約: ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
- 参考スコア(独自算出の注目度): 103.68816413817372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models readily adapt to novel settings, even without
task-specific training data. Can their zero-shot capacity be extended to
multimodal inputs? In this work, we propose ESPER which extends language-only
zero-shot models to unseen multimodal tasks, like image and audio captioning.
Our key novelty is to use reinforcement learning to align multimodal inputs to
language model generations without direct supervision: for example, in the
image case our reward optimization relies only on cosine similarity derived
from CLIP, and thus requires no additional explicitly paired (image, caption)
data. Because the parameters of the language model are left unchanged, the
model maintains its capacity for zero-shot generalization. Experiments
demonstrate that ESPER outperforms baselines and prior work on a variety of
zero-shot tasks; these include a new benchmark we collect+release, ESP dataset,
which tasks models with generating several diversely-styled captions for each
image.
- Abstract(参考訳): 大きな言語モデルは、タスク固有のトレーニングデータなしでも、新しい設定に容易に適応する。
ゼロショット容量はマルチモーダル入力に拡張できるのか?
本研究では,言語のみのゼロショットモデルを拡張し,画像や音声のキャプションなどのマルチモーダルタスクに拡張するESPERを提案する。
例えば、画像の場合、報酬の最適化はCLIPから派生したコサイン類似性にのみ依存するので、明示的なペア(イメージ、キャプション)データを必要としない。
言語モデルのパラメータは変化しないため、ゼロショットの一般化のためのキャパシティは維持される。
実験の結果、ESPERはベースラインとさまざまなゼロショットタスクの事前作業に優れており、新たに収集したベンチマーク、ESPデータセット、各イメージに様々なスタイルのキャプションを生成するタスクモデルなどがある。
関連論文リスト
- Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Multimodal Few-Shot Learning with Frozen Language Models [36.75551859968596]
我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。
得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文 参考訳(メタデータ) (2021-06-25T21:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。