論文の概要: Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent
- arxiv url: http://arxiv.org/abs/2402.09844v1
- Date: Thu, 15 Feb 2024 10:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:01:19.305660
- Title: Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent
- Title(参考訳): ジャック・オブ・オール・トレード(jack of all trades)、マスター・オブ・サマー(master of some)、多目的変圧器エージェント
- Authors: Quentin Gallou\'edec and Edward Beeching and Cl\'ement Romac and
Emmanuel Dellandr\'ea
- Abstract要約: Jack of All Trades (JAT) は、シーケンシャルな意思決定タスクとマルチモーダルなデータタイプを扱うために最適化された、トランスフォーマーベースのモデルである。
JATは、そのタイプの最初のオープンソースモデルであり、先駆的な汎用データセットを含む。
- 参考スコア(独自算出の注目度): 2.410625015892047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The search for a general model that can operate seamlessly across multiple
domains remains a key goal in machine learning research. The prevailing
methodology in Reinforcement Learning (RL) typically limits models to a single
task within a unimodal framework, a limitation that contrasts with the broader
vision of a versatile, multi-domain model. In this paper, we present Jack of
All Trades (JAT), a transformer-based model with a unique design optimized for
handling sequential decision-making tasks and multimodal data types. The JAT
model demonstrates its robust capabilities and versatility by achieving strong
performance on very different RL benchmarks, along with promising results on
Computer Vision (CV) and Natural Language Processing (NLP) tasks, all using a
single set of weights. The JAT model marks a significant step towards more
general, cross-domain AI model design, and notably, it is the first model of
its kind to be fully open-sourced (see https://huggingface.co/jat-project/jat),
including a pioneering general-purpose dataset.
- Abstract(参考訳): 複数のドメインにまたがってシームレスに動作する汎用モデルの探索は、機械学習研究の重要な目標である。
強化学習(Reinforcement Learning, RL)の一般的な方法論は、モデルを一元的フレームワーク内のひとつのタスクに制限する。
本稿では、連続的な意思決定タスクやマルチモーダルデータ型を扱うために最適化されたユニークな設計のトランスフォーマーベースモデルであるJack of All Trades(JAT)を提案する。
JATモデルは、コンピュータビジョン(CV)と自然言語処理(NLP)タスクの有望な結果とともに、非常に異なるRLベンチマークで強力なパフォーマンスを達成することで、その堅牢性と汎用性を実証している。
JATモデルは、より一般的なクロスドメインAIモデル設計に向けた重要なステップであり、特に、そのタイプが完全にオープンソース化される最初のモデルである(https://huggingface.co/jat-project/jatを参照)。
関連論文リスト
- A Model Is Not Built By A Single Prompt: LLM-Based Domain Modeling With Question Decomposition [4.123601037699469]
現実世界のドメインモデリングでは、エンジニアは通常複雑なタスクを簡単に解けるサブタスクに分解する。
本稿では,開発者のモデリングプロセスに類似した質問分解によるLLMに基づくドメインモデリング手法を提案する。
予備的な結果から,本手法は単発プロンプトによるプロンプトよりも優れていた。
論文 参考訳(メタデータ) (2024-10-13T14:28:04Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。