論文の概要: Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language
- arxiv url: http://arxiv.org/abs/2204.00598v1
- Date: Fri, 1 Apr 2022 17:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 13:00:00.956868
- Title: Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language
- Title(参考訳): ソクラテスモデル:ゼロショットのマルチモーダル推論と言語
- Authors: Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico
Tombari, Aveek Purohit, Michael Ryoo, Vikas Sindhwani, Johnny Lee, Vincent
Vanhoucke, Pete Florence
- Abstract要約: 大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。
このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
- 参考スコア(独自算出の注目度): 49.82293730925404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation models can exhibit unique capabilities depending on the
domain of data they are trained on. While these domains are generic, they may
only barely overlap. For example, visual-language models (VLMs) are trained on
Internet-scale image captions, but large language models (LMs) are further
trained on Internet-scale text with no images (e.g. from spreadsheets, to SAT
questions). As a result, these models store different forms of commonsense
knowledge across different domains. In this work, we show that this model
diversity is symbiotic, and can be leveraged to build AI systems with
structured Socratic dialogue -- in which new multimodal tasks are formulated as
a guided language-based exchange between different pre-existing foundation
models, without additional finetuning. In the context of egocentric perception,
we present a case study of Socratic Models (SMs) that can provide meaningful
results for complex tasks such as generating free-form answers to contextual
questions about egocentric video, by formulating video Q&A as short story Q&A,
i.e. summarizing the video into a short story, then answering questions about
it. Additionally, SMs can generate captions for Internet images, and are
competitive with state-of-the-art on zero-shot video-to-text retrieval with
42.8 R@1 on MSR-VTT 1k-A. SMs demonstrate how to compose foundation models
zero-shot to capture new multimodal functionalities, without domain-specific
data collection. Prototypes are available at socraticmodels.github.io.
- Abstract(参考訳): 大規模なファンデーションモデルでは、トレーニング対象のデータドメインによってユニークな能力を発揮することができる。
これらのドメインはジェネリックだが、ほとんど重複することはない。
例えば、視覚言語モデル(VLM)はインターネットスケールの画像キャプションで訓練されるが、大きな言語モデル(LM)は画像のないインターネットスケールのテキスト(スプレッドシートからSAT質問まで)でさらに訓練される。
その結果、これらのモデルは異なるドメインにわたって異なる種類の常識知識を格納する。
本稿では,このモデルの多様性が共生的であることを示し,構造化ソクラテス対話を用いたaiシステムの構築に利用可能であることを示す。
自己中心的知覚の文脈において、ビデオQ&Aを短編Q&Aとして定式化し、短いストーリーに要約し、それに関する質問に答えることによって、自己中心的ビデオに関する文脈的質問に対する自由形式の回答を生成するような複雑なタスクに対して有意義な結果をもたらすソクラティックモデル(SM)のケーススタディを示す。
さらに、SMはインターネット画像のキャプションを生成し、MSR-VTT 1k-Aで42.8R@1でゼロショットビデオテキスト検索の最先端と競合する。
SMは、ドメイン固有のデータ収集なしで、ゼロショットで新しいマルチモーダル機能をキャプチャする方法を示す。
プロトタイプはsocraticmodels.github.ioで入手できる。
関連論文リスト
- UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - FashionVQA: A Domain-Specific Visual Question Answering System [2.6924405243296134]
我々は、ファッション写真画像におけるアパレルに関する複雑な自然言語質問に答えるために、視覚的質問応答システム(VQA)を訓練する。
最高のモデルの正確さは、人間が生成した質問に答える場合でも、人間の専門家レベルを超えます。
大規模マルチモーダルなドメイン特化データセットを生成するための我々のアプローチは、自然言語で通信可能な特殊なモデルを訓練するためのパスを提供する。
論文 参考訳(メタデータ) (2022-08-24T01:18:13Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。