論文の概要: Apollo: Zero-shot MultiModal Reasoning with Multiple Experts
- arxiv url: http://arxiv.org/abs/2310.18369v1
- Date: Wed, 25 Oct 2023 22:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-05 13:56:20.877925
- Title: Apollo: Zero-shot MultiModal Reasoning with Multiple Experts
- Title(参考訳): Apollo: 複数の専門家によるゼロショットマルチモーダル推論
- Authors: Daniela Ben-David, Tzuf Paz-Argaman, Reut Tsarfaty
- Abstract要約: 異なるモダリティやドメインにまたがって、異なる基礎モデルの専門知識を活用するモジュラーフレームワークを提案する。
我々のアプローチは、分散化されたコマンド実行を可能にし、各モデルが他のモデルの専門知識から貢献と利益を得られるようにします。
提案手法は,画像と音声が付与され,提供された音声のコンテキスト内で画像を記述するテキストを生成する,新たなタスクである音声認識画像キャプションで実証する。
- 参考スコア(独自算出の注目度): 14.359111652624899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a modular framework that leverages the expertise of different
foundation models over different modalities and domains in order to perform a
single, complex, multi-modal task, without relying on prompt engineering or
otherwise tailor-made multi-modal training. Our approach enables decentralized
command execution and allows each model to both contribute and benefit from the
expertise of the other models. Our method can be extended to a variety of
foundation models (including audio and vision), above and beyond only language
models, as it does not depend on prompts. We demonstrate our approach on two
tasks. On the well-known task of stylized image captioning, our experiments
show that our approach outperforms semi-supervised state-of-the-art models,
while being zero-shot and avoiding costly training, data collection, and prompt
engineering. We further demonstrate this method on a novel task, audio-aware
image captioning, in which an image and audio are given and the task is to
generate text that describes the image within the context of the provided
audio. Our code is available on GitHub.
- Abstract(参考訳): 本稿では,異なるモダリティやドメインに対する異なる基礎モデルの専門知識を活用し,プロンプトエンジニアリングやその他にカスタマイズされたマルチモーダルトレーニングを必要とせずに,単一の複雑なマルチモーダルタスクを実行するモジュールフレームワークを提案する。
我々のアプローチは、分散化されたコマンド実行を可能にし、各モデルが他のモデルの専門知識の貢献と利益の両方を可能にします。
提案手法は,プロンプトに依存しないため,言語モデルだけでなく,さまざまな基礎モデル(音声や視覚を含む)にも拡張することができる。
私たちは2つのタスクにアプローチを示します。
画像キャプションのスタイル化の課題として,提案手法はゼロショットであり,コストのかかるトレーニングやデータ収集,迅速なエンジニアリングを回避しつつ,半教師付き最先端モデルよりも優れていることを示す。
さらに,この手法を,画像と音声が付与される新たなタスクである音声認識画像キャプションで実証し,提供される音声のコンテキスト内で画像を記述するテキストを生成する。
コードはgithubから入手できます。
関連論文リスト
- ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models [12.265270657795275]
ImageChainは、画像データに対するシーケンシャルな推論機能を備えたMLLMを強化するフレームワークである。
提案手法は,次の場面における記述課題の性能向上に寄与する。
ImageChainは、コミックからロボティクスまで幅広いアプリケーションにおいて、堅牢なゼロショット・アウト・オブ・ドメインのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-26T18:55:06Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。