論文の概要: Divide et Impera: Multi-Transformer Architectures for Complex NLP-Tasks
- arxiv url: http://arxiv.org/abs/2310.16897v1
- Date: Wed, 25 Oct 2023 18:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:56:17.832612
- Title: Divide et Impera: Multi-Transformer Architectures for Complex NLP-Tasks
- Title(参考訳): Divide et Impera: 複雑なNLPタスクのためのマルチトランスフォーマーアーキテクチャ
- Authors: Solveig Helland, Elena Gavagnin, Alexandre de Spindler
- Abstract要約: 複雑なタスクを単純なサブタスクに分割する手法を提案する。
複数のトランスモデルは、それぞれ1つのサブタスクに微調整され、複雑なタスクを達成するために並べられる。
これにより、微調整データセットのコンパイルが簡単になり、全体的な可制御性が向上する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The growing capabilities of transformer models pave the way for solving
increasingly complex NLP tasks. A key to supporting application-specific
requirements is the ability to fine-tune. However, compiling a fine-tuning
dataset tailored to complex tasks is tedious and results in large datasets,
limiting the ability to control transformer output. We present an approach in
which complex tasks are divided into simpler subtasks. Multiple transformer
models are fine-tuned to one subtask each, and lined up to accomplish the
complex task. This simplifies the compilation of fine-tuning datasets and
increases overall controllability. Using the example of reducing gender bias as
a complex task, we demonstrate our approach and show that it performs better
than using a single model.
- Abstract(参考訳): トランスフォーマーモデルの能力の増大は、ますます複雑なnlpタスクを解決する道を開く。
アプリケーション固有の要件をサポートする鍵は、微調整機能である。
しかし、複雑なタスクに適した微調整データセットをコンパイルするのは面倒で、結果として大きなデータセットが発生し、トランスフォーマー出力を制御する能力が制限される。
複雑なタスクを単純なサブタスクに分割する手法を提案する。
複数のトランスモデルは1つのサブタスクに微調整され、複雑なタスクを達成するために並べられる。
これにより、微調整データセットのコンパイルが簡単になり、全体的な可制御性が向上する。
ジェンダーバイアスを複雑なタスクとして削減する例を用いて,我々のアプローチを実証し,単一モデルよりも優れた性能を示す。
関連論文リスト
- Context-Scaling versus Task-Scaling in In-Context Learning [17.36757113301424]
In-Context Learning (ICL: In-Context Learning) の2つの重要なコンポーネント、コンテキストスケーリングとタスクスケーリングを分析します。
コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-16T17:58:08Z) - Sampling Foundational Transformer: A Theoretical Perspective [12.7600763629179]
本稿では,複数のデータモダリティを扱える基本サンプリング変換器(SFT)を提案する。
SFTは多くのベンチマークで競合する結果を得たが、他の非常に特殊なモデルに比べて推論が速い。
論文 参考訳(メタデータ) (2024-08-11T16:53:09Z) - Adaptivity and Modularity for Efficient Generalization Over Task
Complexity [42.748898521364914]
変圧器における適応型およびモジュラー型計算の機構を用いることで,逐次ステップ数に対する一般化を求めるタスクの学習が容易になるかを検討する。
本稿では,ハイパーネットワークからの動的関数生成とユニバーサルトランスの適応深度を組み合わせたHyper-UTアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-13T05:29:09Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.0913507142036]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。
1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。
共同学習はシンプルで実践的であることを示す。
論文 参考訳(メタデータ) (2021-11-25T10:01:05Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。