論文の概要: Multitask and Multimodal Neural Tuning for Large Models
- arxiv url: http://arxiv.org/abs/2408.03001v1
- Date: Tue, 6 Aug 2024 07:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:49:26.939959
- Title: Multitask and Multimodal Neural Tuning for Large Models
- Title(参考訳): 大規模モデルのためのマルチタスクとマルチモーダルニューラルチューニング
- Authors: Hao Sun, Yu Song, Jihong Hu, Yen-Wei Chen, Lanfen Lin,
- Abstract要約: 多様なマルチモーダルタスクを同時に処理するために設計されたニューラルチューニングと呼ばれる新しいチューニング手法を提案する。
ニューラルチューニングは、タスクごとにニューロンの特定のサブセットのみが活性化される、人間の脳内のスパース分散表現をエミュレートする。
本稿では,各サンプルに複数のタスクラベルを付加した新しいベンチマークMMUDを提案する。
- 参考スコア(独自算出の注目度): 15.34250271841119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large-scale multimodal models have demonstrated impressive capabilities across various domains. However, enabling these models to effectively perform multiple multimodal tasks simultaneously remains a significant challenge. To address this, we introduce a novel tuning method called neural tuning, designed to handle diverse multimodal tasks concurrently, including reasoning segmentation, referring segmentation, image captioning, and text-to-image generation. Neural tuning emulates sparse distributed representation in human brain, where only specific subsets of neurons are activated for each task. Additionally, we present a new benchmark, MMUD, where each sample is annotated with multiple task labels. By applying neural tuning to pretrained large models on the MMUD benchmark, we achieve simultaneous task handling in a streamlined and efficient manner. All models, code, and datasets will be publicly available after publication, facilitating further research and development in this field.
- Abstract(参考訳): 近年、大規模マルチモーダルモデルは様々な領域にまたがって印象的な機能を示している。
しかし、これらのモデルが複数のマルチモーダルタスクを同時に効果的に実行できるようにすることは大きな課題である。
そこで本研究では,セグメント化の推論,セグメンテーションの参照,画像キャプション,テキスト・ツー・イメージ生成など,多様なマルチモーダルタスクを同時に処理するニューラルチューニング手法を提案する。
ニューラルチューニングは、タスクごとにニューロンの特定のサブセットのみが活性化される、人間の脳内のスパース分散表現をエミュレートする。
さらに,各サンプルに複数のタスクラベルを付加した新しいベンチマークMMUDを提案する。
MMUDベンチマークで事前学習した大規模モデルにニューラルチューニングを適用することにより、並列処理を合理化して効率的に行うことができる。
すべてのモデル、コード、データセットは公開後公開され、この分野におけるさらなる研究と開発が促進される。
関連論文リスト
- 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文 参考訳(メタデータ) (2024-06-13T17:59:42Z) - Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。
MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。
MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文 参考訳(メタデータ) (2024-05-28T07:24:56Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-09-25T13:16:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Multi-Task Dynamical Systems [5.881614676989161]
時系列データセットは、しばしば同じドメインから、異なるエンティティから、様々なシーケンスから構成される。
本稿では,マルチタスク学習(MTL)を時系列モデルに拡張する一般的な手法であるMTDSについて述べる。
MTDSをマルチタスクリカレントニューラルネットワーク(RNN)を用いて歩く人々のモーションキャプチャーデータに適用し,マルチタスク薬理力学モデルを用いた患者薬物応答データに適用した。
論文 参考訳(メタデータ) (2022-10-08T13:37:55Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。