論文の概要、ライセンス

# (参考訳) 一つのモデル, 複数のモード: テキスト, 音, 画像, ビデオ, コードに対するわずかに活性化されたアプローチ [全文訳有]

One Model, Multiple Modalities: A Sparsely Activated Approach for Text, Sound, Image, Video and Code ( http://arxiv.org/abs/2205.06126v1 )

ライセンス: CC BY 4.0
Yong Dai, Duyu Tang, Liangxin Liu, Minghuan Tan, Cong Zhou, Jingquan Wang, Zhangyin Feng, Fan Zhang, Xueyu Hu, Shuming Shi(参考訳) 人々は複数の感覚で世界を認識する(例えば、聴覚、単語の読み、物を見るなど)。 しかし、既存のAIシステムは個々のモダリティのみを処理する。 本稿では,単一モデルを用いた情報の多様性処理に優れた手法を提案する。 私たちの"{skillnet}"モデルでは、パラメータの異なる部分が、異なるモダリティを処理するために特別です。 すべてのモデルパラメータを常に活性化する従来の密集モデルとは異なり、我々のモデルはタスクに関連するスキルを持つパラメータの一部をわずかに活性化します。 このようなモデル設計により、skillnetはより解釈可能な方法でスキルを学ぶことができる。 我々は,テキスト,画像,音声,ビデオ,コードを含む5つのモードのモデルを開発した。 その結果、skillnetは5つのモダリティ特有の微調整モデルに比較可能な性能を示す。 さらに,本モデルは,同一のスパースに活性化された方法で自己教師付き事前学習をサポートし,異なるモードに対する初期化パラメータが向上する。 プレトレーニングにより,SkillNetの5つのモダリティにおける性能は,モダリティ特異的プレトレーニングのベースラインと同等かそれ以上に向上することがわかった。 中国におけるテキスト画像検索の課題では,Wukong{ViT-B} や Wenlan 2.0 などの既存システムに比べて,活性化パラメータの数が少なく,精度が向上する。

People perceive the world with multiple senses (e.g., through hearing sounds, reading words and seeing objects). However, most existing AI systems only process an individual modality. This paper presents an approach that excels at handling multiple modalities of information with a single model. In our "{SkillNet}" model, different parts of the parameters are specialized for processing different modalities. Unlike traditional dense models that always activate all the model parameters, our model sparsely activates parts of the parameters whose skills are relevant to the task. Such model design enables SkillNet to learn skills in a more interpretable way. We develop our model for five modalities including text, image, sound, video and code. Results show that, SkillNet performs comparably to five modality-specific fine-tuned models. Moreover, our model supports self-supervised pretraining with the same sparsely activated way, resulting in better initialized parameters for different modalities. We find that pretraining significantly improves the performance of SkillNet on five modalities, on par with or even better than baselines with modality-specific pretraining. On the task of Chinese text-to-image retrieval, our final system achieves higher accuracy than existing leading systems including Wukong{ViT-B} and Wenlan 2.0 while using less number of activated parameters.
公開日: Thu, 12 May 2022 14:39:21 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
One Model, Multiple Modalities: A Sparsely 一つのモデル、複数のモード:わずかに 0.69
Activated Approach for Text, Sound, Image, Video テキスト、音声、画像、ビデオに対する活性化アプローチ 0.81
and Code 2 2 0 2 コード 2 2 0 2 0.43
y a M 2 1 y a m 2 1 である。 0.62
] L C . s c [ 1 v 6 2 1 6 0 ]LC。 sc [ 1 v 6 2 1 6 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Yong Dai∗, Duyu Tang∗, Liangxin Liu∗, Minghuan Tan∗, Cong Zhou∗, Jingquan Wang∗, Yong Dai∗, Duyu Tang∗, Liangxin Liu∗, Minghuan Tan∗, Cong Zhou∗, Jingquan Wang∗ 0.42
Zhangyin Feng, Fan Zhang, Xueyu Hu, Shuming Shi Zhangyin Feng, Fan Zhang, Xueyu Hu, Shuming Shi 0.42
Tencent AI Lab Tencent AI Lab 0.42
Abstract People perceive the world with multiple senses (e g , through hearing sounds, reading words and seeing objects). 概要 人々は、複数の感覚で世界を認識する(例えば、聴覚、単語の読み、物を見る)。 0.60
However, most existing AI systems only process an individual modality. しかし、既存のAIシステムは個々のモダリティのみを処理する。 0.70
This paper presents an approach that excels at handling multiple modalities of information with a single model. 本稿では,単一モデルを用いた情報の多様性処理に優れた手法を提案する。 0.75
In our “SkillNet” model, different parts of the parameters are specialized for processing different modalities. 私たちの“SkillNet”モデルでは、パラメータの異なる部分が、異なるモダリティの処理に特化しています。 0.61
Unlike traditional dense models that always activate all the model parameters, our model sparsely activates parts of the parameters whose skills are relevant to the task. すべてのモデルパラメータを常に活性化する従来の密集モデルとは異なり、我々のモデルはタスクに関連するスキルを持つパラメータの一部をわずかに活性化します。 0.71
Such model design enables SkillNet to learn skills in a more interpretable way. このようなモデル設計により、skillnetはより解釈可能な方法でスキルを学ぶことができる。 0.53
We develop our model for five modalities including text, image, sound, video and code. 我々は,テキスト,画像,音声,ビデオ,コードを含む5つのモードのモデルを開発した。 0.71
Results show that, SkillNet performs comparably to five modality-specific fine-tuned models. その結果、skillnetは5つのモダリティ特有の微調整モデルに比較可能な性能を示す。 0.53
Moreover, our model supports selfsupervised pretraining with the same sparsely activated way, resulting in better initialized parameters for different modalities. さらに,本モデルでは,同一のスパースにアクティベートされた方法で自己教師付き事前学習をサポートし,異なるモードに対する初期化パラメータが向上する。 0.54
We find that pretraining significantly improves the performance of SkillNet on five modalities, on par with or even better than baselines with modality-specific pretraining. プレトレーニングにより,SkillNetの5つのモダリティにおける性能は,モダリティ特異的プレトレーニングのベースラインと同等かそれ以上に向上することがわかった。 0.62
On the task of Chinese text-to-image retrieval, our final system achieves higher accuracy than existing leading systems including WukongViT-B and Wenlan 2.0 while using less number of activated parameters. 中国のテキスト画像検索では,WukongViT-B や Wenlan 2.0 などの既存システムに比べて,活性化パラメータの少ない場合に高い精度を達成している。 0.70
1 Introduction In recent years, Transformer [40] and Transformer-based pretrained models [12, 35] have revolutionized natural language processing [33] and there have been growing interests in extending the successful paradigm to broader artificial intelligence areas including computer vision [8, 23, 32], speech processing [4] and program analysis [18]. 1 はじめに 近年,トランスフォーマ [40] とトランスフォーマベースの事前学習モデル [12,35] は自然言語処理 [33] に革命をもたらし,コンピュータビジョン [8,23,32],音声処理[4],プログラム解析 [18] など,より広い人工知能領域にそのパラダイムを展開する関心が高まっている。 0.59
Researchers from different communities have no communication barrier and typically repeat the same process: pretraining for each modality and finetuning all the model parameters for each task. 異なるコミュニティの研究者たちは、コミュニケーションの障壁がなく、通常同じプロセスを繰り返す: 各モダリティの事前トレーニングと、各タスクのモデルパラメータの微調整。 0.73
Despite the remarkable progress made in artificial intelligence, existing methods differ from human learning in the following three aspects [11]. 人工知能の著しい進歩にもかかわらず、既存の手法は次の3つの側面で人間の学習とは異なる [11]。 0.73
First, we human perceive the world using multiple senses. まず、人間は複数の感覚を使って世界を知覚する。 0.67
We know that the word “dog”, the bark of a dog and the image/video of a dog all refer to the same concept. 犬”という言葉や犬の樹皮、犬のイメージやビデオなどは、すべて同じ概念を指しています。
訳抜け防止モード: 犬の樹皮である「犬」という言葉は、 そして、犬の画像やビデオは、すべて同じ概念を指しています。
0.83
However, most existing methods only process one modality of information. しかし、既存の手法のほとんどは情報の1つのモダリティだけを処理する。 0.54
Second, the human brain has around 100 billion neurons, of which different parts are specialized for different skills. 第二に、人間の脳にはおよそ1000億のニューロンがあり、それぞれが異なるスキルに特化している。 0.73
When we accomplish a task, we only call upon a small fraction of neurons that are relevant to the task. タスクが完了すると、タスクに関連する少数のニューロンのみを呼び出します。 0.46
However, most existing methods activate all the model parameters. しかし、既存の手法の多くは全てのモデルパラメータをアクティベートする。 0.69
Third, when we solve a new problem or learn a new skill, we don’t learn from nothing but combine old skills to learn 第三に、新しい問題を解決するとき、あるいは新しいスキルを学ぶとき、私たちは古いスキルを組み合わせるだけで学習するわけではありません。 0.71
∗Correspondence to: Duyu Tang (duyutang@tencent.co m), ∗ indicates equal contribution ∗ 対応:duyu tang (duyutang@tencent.co m) ∗ は等しい貢献を示す。 0.73
英語(論文から抽出)日本語訳スコア
new things quickly. However, existing methods typically learn for each task from scratch (or from a general or foundation model), resulting in hundreds of models for hundreds of tasks. 新しいものを素早く しかしながら、既存のメソッドは通常、各タスクをスクラッチから(あるいは一般的なあるいは基礎モデルから)学習し、数百のタスクに対して数百のモデルを生成する。 0.72
In this work, we propose a multitask multimodal approach called SkillNet. 本稿では,skillnetと呼ばれるマルチタスクマルチモーダル手法を提案する。 0.66
We use a single model to handle multiple tasks that require the understanding of different modalities of information. 我々は1つのモデルを用いて複数のタスクを処理し、異なる情報モダリティの理解を必要とします。
訳抜け防止モード: 一つのモデルを使って 情報の異なるモダリティの理解を必要とする複数のタスクを処理する。
0.80
In SkillNet, different parts of the parameters are specialized for different skills. SkillNetでは、パラメータの異なる部分が異なるスキルに特化されている。 0.75
When the model is applied to a downstream task, unlike traditional “dense” models that always activate all the model parameters, it “sparsely” activates parts of the parameters whose skills are relevant to the target task. モデルがダウンストリームタスクに適用された場合、すべてのモデルパラメータを常に活性化する従来の“dense”モデルとは異なり、ターゲットタスクに関連するスキルを持つパラメータの一部を“sparsely”で活性化する。 0.84
For example, we could define five modality-related skills {stext, simage, ssound, svideo, scode}, which are specialized for understanding text, image, sound, video and code, respectively. 例えば、テキスト、画像、サウンド、ビデオ、コードを理解することに特化した5つのモダリティ関連スキル {stext, simage, ssound, svideo, scode} を定義することができる。 0.79
Consider the task of automatic speech recognition (ASR), which only relates to the skill of auditory understanding (i.e., ssound). 自動音声認識(asr)のタスクを考えてみると、これは聴覚理解のスキル(すなわち音声)にのみ関係している。 0.78
When SkillNet is applied to ASR, model parameters related to other four skills (i.e., {stext, simage, svideo, scode}) are deactivated. SkillNetがASRに適用されると、他の4つのスキル(例えば {stext, simage, svideo, scode})に関連するモデルパラメータが非活性化される。 0.80
Similarly, for text-to-image retrieval, which is to find semantically related images given texts, only stext and simage are activated. 同様に、意味的に関連づけられた画像を見つけるためのテキストから画像への検索では、stextとsimageのみが起動される。 0.64
Figure 1 gives high-level illustrations of the aforementioned situations. 図1は、前述の状況の高レベルな図示です。 0.70
There are many different ways to implement SkillNet. SkillNetを実装するにはさまざまな方法があります。 0.65
In this work, we provide a simple implementation on top of Transformer [40]. この作業では、Transformer [40]の上にシンプルな実装を提供します。 0.75
Instead of producing general K/Q/V vectors for each token, we activate different modality-specific parameters to produce different modality-specific K/Q/V vectors before conducting multi-head attention. トークンごとに一般的なK/Q/Vベクトルを生成する代わりに、異なるモダリティ固有パラメータを活性化して、異なるモダリティ固有K/Q/Vベクトルを生成する。 0.55
The intuition is that we expect the model to call upon different parts as needed to process different types of signals and combine information from multiple senses to form our understanding about a concept (like the aforementioned example about the concept of dog). 直感的には、異なるタイプの信号を処理し、複数の感覚からの情報を組み合わせ、概念についての理解を形成するために、モデルが必要に応じて異なる部分を呼び出すことを期待している(前述の犬の概念に関する例のような)。 0.71
We conduct experiments on tasks of five modalities, including text classification, automatic speech recognition, text-to-image retrieval, text-to-video retrieval and text-to-code retrieval. テキスト分類,自動音声認識,テキストから画像への検索,テキストからビデオへの検索,テキストからコードへの検索の5つのモダリティのタスクについて実験を行った。 0.60
Results show that, SkillNet performs comparably to five modality-specific models with only one model file. その結果,SkillNetは,1つのモデルファイルのみを持つ5つのモダリティ固有モデルに対して比較可能な性能を示した。
訳抜け防止モード: 結果が示すのは skillnetは5つのモダリティ - 1つのモデルファイルのみを持つ特定のモデル。
0.69
Furthermore, after being pretrained, SkillNet performs better than systems with modality-specific pretraining on three of five modalities. さらに、事前トレーニング後、SkillNetは5つのモードのうち3つのモードでモダリティ固有の事前トレーニングを行うシステムよりもパフォーマンスがよい。 0.50
On the task of Chinese text-to-image retrieval, SkillNet obtains higher accuracy than existing systems (e g , WukongViT-B and Wenlan 2.0) while using less number of activated parameters. 中国語のテキストから画像への検索において、skillnetは既存のシステム(wukongvit-b、wenlan 2.0など)よりも少ないアクティベーションパラメータを用いて高い精度が得られる。 0.64
Our work demonstrates the feasibility of developing one general model that is both accuracy and efficient to tackle multiple tasks of different modalities. 本研究は,モーダルの異なる複数のタスクに精度と効率を両立させる1つの汎用モデルの実現可能性を示す。 0.70
2 Comparison to Existing Methods 2 既存手法との比較 0.87
We describe the connections and differences of this work to related multimodal, multitask and mixture-of-experts methods. 本研究とマルチモーダル・マルチタスク・ミックス・オブ・エキスパート手法との関係と相違について述べる。 0.62
Multimodal Since there are large amounts of multimodal works, we only describe the closely related ones. マルチモーダル (multimodal) は多量のマルチモーダル作品が存在するため、密接に関連する作品のみを記述する。 0.69
Omnivore [19] uses a single model to process multiple visual modalities, including single-view 3D data, images and videos. omnivore [19]は単一のモデルを使って、シングルビューの3dデータや画像、ビデオなど、複数の視覚モダリティを処理する。 0.71
VATT [1] learns multimodal representations on raw signals for video, audio and text. VATT [1]はビデオ、オーディオ、テキストの生信号のマルチモーダル表現を学習する。 0.75
Compared to Omnivore and VATT, our work studies more modalities and our approach is sparse. Omnivore や VATT と比較して、我々の研究はよりモダリティを研究しており、我々のアプローチは少ない。
訳抜け防止モード: OmnivoreとVATTとの比較 私たちの研究は 私たちのアプローチは まばらです
0.71
Data2vec [5] is a general learning objective that manipulates over latent representations instead of modality-specific tokens. Data2vec [5]は、モダリティ固有のトークンの代わりに潜在表現を操作する一般的な学習目標です。 0.62
The same learning objective is used to learn for text, speech and vision. 同じ学習目的は、テキスト、スピーチ、ビジョンの学習に使用される。 0.75
However, they don’t perform multitask training. ただし、マルチタスクのトレーニングは行いません。 0.57
Our work is orthogonal to Data2vec and it is interesting to combine the advantages of Data2vec and SkillNet. 私たちの仕事はdata2vecと直交しており、data2vecとskillnetの利点を組み合わせるのは興味深いことです。 0.60
Multitask This work also relates to multitask learning methods. マルチタスク この研究はマルチタスク学習手法にも関係している。 0.64
Systems built upon Transformer typically use shared feature encoder plus task-specific prediction layers for understanding tasks [29] and use natural language prompts to steer encoder-decoder model for generation tasks [37]. トランスフォーマ上に構築されたシステムは、タスクを理解するために共有機能エンコーダとタスク固有の予測レイヤを使い、自然言語プロンプトを使用して生成タスクのエンコーダ-デコーダモデルを制御します [37]。
訳抜け防止モード: Transformer上に構築されたシステムは、通常、共有機能エンコーダとタスクを使用する。 自然言語のプロンプトを使って to steer encoder - 生成タスクのためのデコーダモデル [37 ]。
0.74
Most existing multitask methods are dense —all the model parameters are activated. ほとんどの既存のマルチタスクメソッドは密度が高く、全てのモデルパラメータが活性化される。 0.60
An exception is SkillNet-NLU and SkillNet-NLG [28, 46], recently introduced sparse models that perform multitask learning on text. SkillNet-NLUとSkillNet-NLG [28, 46]は、最近テキストでマルチタスク学習を実行するスパースモデルを導入した。 0.78
This work can be viewed as an extension to the multimodal situation. この作業は、マルチモーダルな状況への拡張と見なすことができる。 0.80
Mixture-of-Expert (MoE) Transformer-based MoE methods typically include multiple homogeneous neural networks (called experts), which can be fully activated or partially activated guided by an additional gating function [15, 16, 27, 38]. Mixture-of-Expert (MoE) TransformerベースのMoEメソッドは通常、複数の同質ニューラルネットワーク(専門家と呼ばれる)を含み、追加のゲーティング関数[15, 16, 27, 38]によって完全に活性化または部分的に活性化される。 0.69
However, it is unclear what type of knowledge is learned in each expert and why an expert is activated. しかし、専門家ごとにどのような知識が学習されるのか、なぜ専門家が活性化されるのかは不明である。 0.62
From this point of view, our approach can be viewed as a sparse multimodal MoE. この観点から、我々のアプローチはスパースマルチモーダルMOEと見なすことができる。 0.65
Unlike traditional MoE methods, each expert in our model has a clear definition and the activation of each expert has a clear reason (judged by human experts). 従来のMoEメソッドとは異なり、モデルの各専門家は明確な定義を持ち、各専門家のアクティベーションには明確な理由(人間の専門家による判断)があります。 0.68
2 2 0.42
英語(論文から抽出)日本語訳スコア
(a) Fully activated dense model (a)完全活性化密度モデル 0.81
(b) Sparsely activated MoE b)わずかに活性化されたMoE 0.60
(c) SkillNet for ASR. (c)asr用スキルネット。 0.59
(d) SkillNet for text-to-image retrieval (d)テキスト画像検索のためのSkillNet 0.71
(e) SkillNet for text-to-video retrieval (e)テキスト対ビデオ検索用スキルネット 0.68
(f) SkillNet for text-to-code retrieval (f)テキスト対コード検索用スキルネット 0.71
Figure 1: purple and red) are activated. 図1:紫と赤)が起動される。 0.80
In SkillNet, each pillar refers to a skill. SkillNetでは、各柱はスキルを指す。 0.75
Pillars filled in color (e g , yellow, blue, green, 色(例えば、黄色、青、緑)で満たされたピラー。 0.66
3 L1L2inputL12output……inputoutput…L1L2L12…inputoutput…L1L2L12…inputoutput…L1L2L12…inputoutput…L1L2L12…inputoutput…L1L2L12… 3 L1L2inputL12output.. ....inputoutput...L1 L2L12...inputoutput. ..L1L2L12...inputout put...L1L2L12...inpu toutput...L1L2L12... inputoutput...L1L2L1 2... 0.22
英語(論文から抽出)日本語訳スコア
For example, the expert corresponding to stext is responsible for understanding text signal and it is activated only if the input signal is text. 例えば、stextに対応する専門家はテキスト信号を理解する責任があり、入力信号がテキストである場合にのみ起動される。 0.79
3 Method This section gives our sparsely activated model SkillNet. 3方法 本節では,sparsely activated model skillnetについて述べる。 0.68
We first give a brief background on Transformer (§3.1). はじめに Transformer について簡単な背景 (3.1) を述べます。 0.64
Then, we describe the model architecture of SkillNet (§3.2). 次に,skillnetのモデルアーキテクチャについて述べる(3.2)。 0.67
Finally, we describe how to produce the embeddings for different modalities (§3.3). 最後に、異なるモジュラリティに対する埋め込みの作り方について述べる(3.3)。 0.57
3.1 Background on Transformer 3.1 Transformer の背景 0.82
To make our paper self-contained, we briefly describe Transformer here. 論文を自己完結させるため、Transformerについて簡単に説明する。 0.54
Transformer [40] is a commonly used model architecture with multiple layers, each of which consists of a multi-head attention layer followed by a feed-forward network (FFN) layer. Transformer[40]は、複数のレイヤを持つ一般的なモデルアーキテクチャであり、それぞれがマルチヘッドアテンション層とフィードフォワードネットワーク(FFN)層で構成されています。 0.78
The multi-head attention mechanism concatenates the output vectors of H different heads and then linearly projects them by W O: マルチヘッドアテンション機構は、H異なるヘッドの出力ベクトルを連結し、WOによって線形に投影する。 0.75
Multi-Head(Q, K, V ) = Concat(head1, ..., headH )W O, Multi-Head(Q, K, V ) = Concat(head1, ..., headH )W O, 0.47
(1) where Q (Query), K (Key), V (Value) are the hidden representations of the previous layer. 1) Q (Query), K (Key), V (Value) が前のレイヤの隠された表現である場合。 0.67
In each head, Q, K and V are transformed with projection matrices before being fed to the attention function: 各ヘッドにおいて、Q、K、Vは、注意関数に供給される前に投影行列で変換される。 0.67
i , W K headi = Attention(QW Q i , w k headi = Attention(QW Q 0.38
i , KW K i where W Q i are model parameters, and i denotes the i-th head. i , KW K i ここで W Q i はモデルパラメータであり、i は i 番目のヘッドを表す。 0.78
The attention function computes the dot products of the query with all keys, and uses softmax to obtain the weights on values: 注意関数はクエリのドット積をすべてのキーで計算し、Softmaxを使って値の重み付けを取得する。 0.70
and W V , V W V そして、wv , v w v である。 0.55
i ), (2) i I)。 (2) 私は 0.51
Attention(Q, K, V ) = softmax( 注意(Q, K, V) = Softmax() 0.42
QK T√ dk QK (複数形 QKs) 0.43
)V, (3) where dk is the dimension of key. )v。 (3) dkはキーの次元です 0.52
Finally, the FNN layer is applied to obtain the final representations. 最後に、FNN層を適用して最終表現を得る。 0.70
Residual connection [22] and layer normalization [3] are adopted for both multi-head attention layer and FFN layer. 多面的注目層とFFN層の両方に残差接続[22]および層正規化[3]を採用する。 0.81
Since Transformer is prevalent, we exclude the details and refer readers to the original paper. トランスフォーマーが普及しているため、詳細を除外し、元の論文を参照する。 0.64
We use image search via Siamese network as the running example to show how to apply Transformer to downstream tasks. 我々は、下流タスクにTransformerを適用する方法を示す例として、Siameseネットワーク経由での画像検索を使用する。 0.71
As shown in Figure 2, two Transformers are used to encode the text and the image, respectively. 図2に示すように、2つのトランスフォーマーを使用してそれぞれテキストとイメージをエンコードする。 0.81
For each side, we take the vector of the first token ([CLS]) to represent the input. それぞれについて、入力を表すために最初のトークン([cls])のベクトルを取ります。 0.63
The semantic similarity between text and image is computed using dot product or cosine. テキストと画像のセマンティックな類似性はドット製品またはコサインを用いて計算される。 0.70
Figure 2: An illustration of image search with Transformer-based Siamese network. 図2: Transformer ベースの Siamese ネットワークによる画像検索の例示。 0.89
3.2 Architecture of SkillNet 3.2 SkillNetのアーキテクチャ 0.76
We build our SkillNet model by using Transformer [40] as the backbone. Transformer[40]をバックボーンとして使用することで、SkillNetモデルを構築します。 0.64
Specifically, we modify the multi-head attention of each Transformer layer as follows. 具体的には,各トランスフォーマー層のマルチヘッドアテンションを次のように修正する。 0.61
Instead of producing general K/Q/V vectors for each token, we activate different modality-specific parameters to produce different modality-specific K/Q/V vectors before conducting multi-head attention. トークンごとに一般的なK/Q/Vベクトルを生成する代わりに、異なるモダリティ固有パラメータを活性化して、異なるモダリティ固有K/Q/Vベクトルを生成する。 0.55
Take Q as an example. q を例にとりましょう。 0.74
Instead of having only one projection matrix W Q for all queries, we have five projection parameter i matrices {W Qtext , W Qvideo , W Qcode }, of which each item stands for a skill of understanding the information of a particular modality. すべてのクエリに対して1つの投影行列 wq を持つ代わりに、5つの投影パラメータ i 行列 {w qtext , w qvideo , w qcode } を持ち、それぞれが特定のモダリティの情報を理解するスキルを表す。 0.73
When the model is applied to a task, we only activate the corresponding projection matrices of relevant skills. モデルがタスクに適用されると、対応する関連するスキルの投影行列のみを活性化する。 0.77
Similar modifications are made for keys and values. 同様の変更はキーと値に対して行われる。 0.67
The computation of a head is modified as follows. 頭部の計算は次のように変更される。 0.79
, W Qimage 画像はw qimage。 0.56
, W Qsound i 、W Qsound 私は 0.62
i i i i 私は 私は 私は 私は 0.53
headskill i = Attention(QW QActivated ヘッドスキル i = Attention(QW QActivated 0.50
i , KW KActivated i 私は 、KW活性化 私は 0.57
, V W VActivated i , V W 活性化 私は 0.67
) (4) 4 dot productMulti-HeadAtt entionFeed ForwardN×TextPoolingAdd & NormAdd & Norm𝑊𝑊𝑄𝑄𝑊𝑊𝐾𝐾𝑊𝑊𝑉𝑉Multi-HeadAttentionF eed ForwardN×ImagePoolingAdd & NormAdd & Norm𝑊𝑊𝑄𝑄𝑊𝑊𝐾𝐾𝑊𝑊𝑉𝑉 ) (4) 4 dot productMulti-HeadAtt entionFeed ForwardN×TextPoolingAdd & NormAdd & NormWQQWKWWVVMulti-H eadAttentionFeed ForwardN×ImagePoolingAdd & NormWQWKKWVV 0.44
英語(論文から抽出)日本語訳スコア
Figure 3: Architecture of SkillNet for image retrieval. 図3:画像検索のためのSkillNetのアーキテクチャ。 0.73
Text encoder and image encoder are two pathways of one shared model — stext and simage are activated for the text encoder and the image encoder, respectively. テキストエンコーダと画像エンコーダは1つの共有モデルの2つの経路であり、それぞれテキストエンコーダと画像エンコーダに対してstextとsimageが活性化される。 0.77
W QActivated i wqアクティベート 私は 0.53
=  =  0.64
i i W Qtext W Qimage W Qsound W Qvideo W Qcode 私は 私は W Qtext W Qimage W Qsound W Qvideo W Qcode 0.50
i i i if stext is activated if simage is activated if ssound is activated if svideo is activated if scode is activated 私は 私は 私は stext がアクティベートされた場合、simage がアクティベートされた場合、ssound がアクティベートされた場合、svideo がアクティベートされた場合、scode がアクティベートされる。 0.52
(5) As shown in Figure 4, we only need one model to handle the the task of image retrieval, where we activate stext and simage for the text encode and image encoder, respectively. (5) 図4に示すように、画像検索のタスクを処理するために1つのモデルしか必要とせず、それぞれテキストエンコーダと画像エンコーダのstextとsimageを起動します。 0.58
3.3 Embeddings We describe how to produce the embeddings for different modalities. 3.3 埋め込み 異なるモダリティに対する埋め込みの作り方について述べる。 0.63
Text Following BERT [12], we tokenize a text into a sequence of wordpiece tokens [45] and build the embedding of each wordpiece by adding up its token embedding, position embedding and segment embedding. bert [12] に続くテキストでは、テキストを単語ピーストークン [45] のシーケンスにトークン化し、トークン埋め込み、位置埋め込み、セグメント埋め込みを追加して各単語ピースの埋め込みを構築します。 0.80
We also add a special classification token [CLStext] at the beginning of a sequence to produce the representation of the sequence. また、シーケンスの先頭に特別な分類トークン[CLStext]を追加して、シーケンスの表現を生成します。 0.68
If the input includes two segments, we add a special token [SEP] between the two segments. 入力が2つのセグメントを含む場合、2つのセグメントの間に特別なトークン[SEP]を追加する。 0.74
Sound Given a raw waveform as the input, we follow wav2vec [4] and use convolutional network to produce a sequence of vectors as the embeddings. 入力として生の波形が与えられ、wav2vec [4] に従い、畳み込みネットワークを用いて埋め込みとしてベクトル列を生成する。 0.77
Specifically, we use seven convolutions with 512 channels, strides of (5,2,2,2,2,2,2) and kernel widths of (10,3,3,3,3,2,2) to generate a vector sequence from a 20ms framerate sampled at 16KHz. 具体的には、512チャンネル(5,2,2,2,2,2,2)のストライドと(10,3,3,3,3,2,2)のカーネル幅の7つの畳み込みを使用して、16khzでサンプリングした20msフレームレートからベクトルシーケンスを生成する。 0.46
After that, we adopt a 1D convolutional network to transform the vector sequence to 768 dimensional embeddings, which are summed up with their corresponding position embeddings as the final sound embeddings. その後、ベクトル列を768次元の埋め込みに変換するために1次元畳み込みネットワークを採用し、対応する位置埋め込みを最終音埋め込みとしてまとめる。 0.66
5 dot product𝑊𝑊𝑄𝑄𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑄𝑄𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑄𝑄𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑄𝑄𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑄𝑄𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡Multi-HeadAttentionF eed ForwardN×PoolingAdd & NormAdd & Norm𝑊𝑊𝐾𝐾𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝐾𝐾𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝐾𝐾𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝐾𝐾𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝐾𝐾𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡𝑊𝑊𝑉𝑉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑉𝑉𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑉𝑉𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑉𝑉𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑉𝑉𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡𝑊𝑊𝑄𝑄𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑄𝑄𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑄𝑄𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑄𝑄𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑄𝑄𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡Multi-HeadAttentionF eed ForwardN×PoolingAdd & NormAdd & Norm𝑊𝑊𝐾𝐾𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝐾𝐾𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝐾𝐾𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝐾𝐾𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝐾𝐾𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡𝑊𝑊𝑉𝑉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑉𝑉𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑉𝑉𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑉𝑉𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑉𝑉𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡A puppy is playing a frisbee with a women. 5 dot product𝑊𝑊𝑄𝑄𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑄𝑄𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑄𝑄𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑄𝑄𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑄𝑄𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡Multi-HeadAttentionF eed ForwardN×PoolingAdd & NormAdd & Norm𝑊𝑊𝐾𝐾𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝐾𝐾𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝐾𝐾𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝐾𝐾𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝐾𝐾𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡𝑊𝑊𝑉𝑉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑉𝑉𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑉𝑉𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑉𝑉𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑉𝑉𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡𝑊𝑊𝑄𝑄𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑄𝑄𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑄𝑄𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑄𝑄𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑄𝑄𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡Multi-HeadAttentionF eed ForwardN×PoolingAdd & NormAdd & Norm𝑊𝑊𝐾𝐾𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝐾𝐾𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝐾𝐾𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝐾𝐾𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝐾𝐾𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡𝑊𝑊𝑉𝑉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑉𝑉𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑉𝑉𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑉𝑉𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑉𝑉𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡A puppy is playing a frisbee with a women. 0.23
英語(論文から抽出)日本語訳スコア
Figure 4: An illustration of the pipeline and the embeddings of different modalities. 図4: パイプラインのイラストと異なるモダリティの埋め込み。 0.53
Image Following Vision Transformer (ViT)[13], we build patch embeddings for each image. image following vision transformer (vit)[13]各イメージに対するパッチ埋め込みを構築します。 0.73
We first reshape each image of x ∈ RH×W×C into 2D patches of xp ∈ RN×(P 2·C), where (H, W ) is the image resolution, (P, P ) is the resolution of each patch, N is the number of patches and C is the number of image channels (e g 3 for RGB). まず、x ∈ RH×W×C の各像を xp ∈ RN×(P 2·C) の2次元パッチに変換し、(H, W ) は画像分解能、(P, P ) は各パッチの分解能、(N はパッチ数、C は画像チャネル数(例えば RGB は3)である。 0.70
Then, a 2D convolutional network is applied to transform patch pixels to 768 dimensional embeddings, which are added with the corresponding position embeddings as the final patch embeddings.2 次に、2次元畳み込みネットワークを適用してパッチ画素を768次元埋め込みに変換し、対応する位置埋め込みをファイナルパッチ埋め込みとして付加する。 0.76
We add a special token [CLSimage] at the beginning of each sequence to produce the representation of the image. 各シーケンスの先頭に特別なトークン[CLSimage]を追加して、画像の表現を生成します。 0.70
Video We follow Vivit [2], an extension of ViT for video, to produce video embeddings. ビデオ vitの拡張であるvivit [2]に従って、ビデオ埋め込みを作成します。
訳抜け防止モード: Video We follow Vivit [2 ], a extension of ViT for video? ビデオの埋め込みを作ります
0.74
Given a video V ∈ RT×H×W×C, where T is the number of sampled frames, we extract [T /t]· [H/h]· [W/w] non-overlapping, spatio-temporal “tubes” and use a 3D convolution to produce a representation for each tube. T がサンプルフレームの数であるビデオ V ∈ RT×H×W×C が与えられると、[T /t]· [H/h]· [W/w] が重複しない時空間 “チューブ” を抽出し、3次元畳み込みを用いて各チューブの表現を生成する。 0.86
We further add [T /t] + [H/h] + [W/w] positional embeddings and concatenate a special token [CLSvideo] at the beginning of each sequence to represent the whole video input. さらに[t /t] + [h/h] + [w/w] の位置埋め込みを追加し、各シーケンスの先頭に特別なトークン [clsvideo] を結合してビデオ入力全体を表現する。 0.77
Code We follow CodeBERT [18] to produce code embeddings. コード コード埋め込みを生成するためにcodebert [18]に従う。 0.73
We tokenize a code snippet to a sequence of code-specific wordpiece tokens. コードスニペットをコード固有のワードピーストークンのシーケンスにトークン化する。 0.68
The final embedding of each token is the sum of token embedding, position embedding and segment embedding. 各トークンの最終的な埋め込みは、トークン埋め込み、位置埋め込み、セグメント埋め込みの合計である。 0.65
A special token [CLScode] is added to the beginning of each sequence to produce the embedding of the entire code. コード全体の埋め込みを生成するために、各シーケンスの先頭に特別なトークン[clscode]が追加される。 0.75
4 Tasks In this section, we first describe downstream tasks involving five modalities in §4.1. 4つの課題 本節では,まず,4.1 における5つのモダリティを含む下流タスクについて述べる。 0.55
Each modality relates to an active research area that covers many tasks. それぞれのモダリティは、多くのタスクをカバーするアクティブな研究領域に関係しています。 0.57
We select one task for each modality with preferences for well recognized tasks (e g , ASR) and tasks relate to multiple modalities (e g , video/code retrieval). 高度に認識されたタスク(asrなど)と複数のモダリティに関連するタスク(ビデオ/コード検索など)を選べるように各モダリティごとに1つのタスクを選択した。 0.70
Since our framework also supports sparsely activated pretraining, we conduct multimodal pretraining to initialize the model parameters. また,本フレームワークは疎活性化プレトレーニングもサポートしているため,モデルパラメータを初期化するためのマルチモーダルプレトレーニングを行う。 0.58
The pretraining tasks are described in §4.2. プリトレーニングタスクは4.2で記述される。 0.56
6 TextSoundImageVideoC odeA puppy is playing a frisbee with a women.defPrintCaptio n():print(A puppy is playing a frisbee with a women')3D-CNN𝑊𝑊𝑄𝑄𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑄𝑄𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑄𝑄𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑄𝑄𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑄𝑄𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡Multi-HeadAttentionF eed ForwardN×Add & NormAdd & Norm𝑊𝑊𝐾𝐾𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝐾𝐾𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝐾𝐾𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝐾𝐾𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝐾𝐾𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡𝑊𝑊𝑉𝑉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑊𝑊𝑉𝑉𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡𝑊𝑊𝑉𝑉𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑊𝑊𝑉𝑉𝑣𝑣𝑖𝑖𝑠𝑠𝑡𝑡𝑠𝑠𝑊𝑊𝑉𝑉𝑐𝑐𝑠𝑠𝑠𝑠𝑡𝑡3D-CNNCNN 6 子犬は、女性と一緒にフリスビーをしている。3D-CNNWQtttttttWWQQi iiiiiiittWWQQsssssss sWWQvviisstsWWQccsss SWQccsssttMulti-Head AttentionFeed ForwardN×Add & NormWWKttttWKKiiiiit tWKKssssssssWWWKKvvi isstsWKKccsttVttVttV tsVtsVtVtsVtsVtsVtsV tsVsVsVsssWWWQccssss sssWWWQVtsVsVsVsVsVs VsVsVsVsVsVsVsVsVsVs VsVsVsVssVsVsVsVsVsV sVsVsVsVsVsVsVsVsVsV sVsVsVsVsVsVsVsVsVsV sVsVsVsVsVsVsVsVsVsV sVsVsVsVsVsVsVsVsVsV sVsVsVsVsVsVsVsVsVsV sVsVsVsVVsVsVsVsVsVs VsVsVsVsVVsVsVsVsVsV sVsVsVsVsVsVsVsVsVsV sVsVsVsVsVsVsVsVsVsV sVsVsVsWVsVsVsVsVsVs VsVsVsVsVsVsVsVsVsVs VsVsVsVsVsVsVsVsVSWS WVSWVSWVSWVSWVSWVSWV SWWWVVSWWWWWWWWWWWWV SWVVSVSWVSWVSVSWVSVS VSVSVSVSVSVSVSVSVSVS VSVSVSWWWWWWWWWWWWVV VVVSVVVVVVSWVVSVSVSV SVSVVVSWWWVVSWWWWWWW WWWWWWWWWWWWWWWWWWWW WWWWWWWWWWWVVVVVVVVV VVVVVVVVVVVVVVVVVVVV VVVVVVVVVVVVVVVVVVVV VVVVVVVVVVVVVVVV
訳抜け防止モード: 6 TextSoundImageVideoC odeA 子犬は、女性とフリスビーをしている。defPrintCaption():pr int()3D - CNNWQQtttttWQQiiiiii iittWQQsssssssWWQQvv iissttsWWQQccssssttM ulti - HeadAttentionFeed ForwardN×Add NormAdd & NormWKKtttttttttWWKK iiiiiiiittWKKKssssss WWKKvviissttsWWKKccs ssstWWVVtttttWWViiii iiittWVVsssssWWWVVVv viissttsWWVVccsssstt 3D - CNNCNN
0.30
英語(論文から抽出)日本語訳スコア
Task Id Task T1 T2 T3 T4 T5 タスクId 課題 T1 T2 T3 T4 T5 0.50
Text Classification Automatic Speech Recognition テキスト分類 音声認識 0.59
Text-to-Image Retrieval Text-to-Video Retrieval Text-to-Code Retrieval テキストから画像への検索 テキストからビデオへの検索 テキストからコードへの検索 0.28
simage (cid:88) s画像 (cid:88) 0.53
stext (cid:88) (cid:88) (cid:88) (cid:88) stext (cid:88) (cid:88) (cid:88) (cid:88) 0.37
Skills ssound (cid:88) 技量 (cid:88) 0.35
svideo scode (cid:88) ビデオ scode (cid:88) 0.47
(cid:88) Table 1: Relations between tasks and skills. (cid:88) 表1: タスクとスキルの関係。 0.52
Relevant skills for each task are marked with ticks. 各タスクの関連スキルは、くすぐりでマークされる。 0.64
4.1 Downstream Tasks Text Text classification is a classic and fundamental text understanding task [34]. 4.1 下流タスク テキスト分類は古典的かつ基本的なテキスト理解タスク [34] である。 0.79
Given a sentence as the input, the task is to predict which category the sentence belongs to. 入力として文が与えられた場合、その文が属するカテゴリを予測する。 0.59
Following BERT [12], we add a [CLStext] token at the beginning of each sentence to represent the meaning of the whole sentence. BERT [12]の後、各文の先頭に[CLStext]トークンを追加し、文全体の意味を表現する。
訳抜け防止モード: BERT [ 12 ] に続いて、各文の先頭に [ CLStext ] トークンを追加します。 文全体の意味を表すためです
0.68
For the task of text classification, only the parameters that relate to stext are activated. テキスト分類のタスクでは、stextに関連するパラメータのみがアクティベートされる。 0.73
Sound Automatic speech recognition (ASR) is to convert speech to text [24]. 音声自動音声認識(ASR)とは、音声をテキストに変換することである。 0.71
Following wave2vec [4], we produce speech features and generate a transcription by performing token-level classification. Wave2vec [4] に続いて音声特徴を生成し,トークンレベルの分類を行うことで書き起こしを生成する。 0.67
Connectionist temporal classification loss [20] is adopted for model training. モデルトレーニングにはコネクショニストの時間的分類損失[20]を採用する。 0.76
For the task of ASR, only the parameters that relate to ssound are activated. ASRのタスクでは、音に関連するパラメータのみを活性化する。 0.73
Image We consider text-to-image retrieval. 画像から画像への検索について検討する。 0.34
Given a text as the query, the task is to find the target image from a set of candidates. クエリとしてテキストが与えられると、タスクは、一連の候補からターゲットイメージを見つけることである。 0.79
Considering the efficiency of the inference stage, we use two separate passes (like Siamese Network) to produce text and image vectors separately with no cross-modality attention. 推論段階の効率を考慮すると、私たちは2つの別々のパス(例えば、シームズネットワーク)を使って、モダリティ間の注意を伴わずにテキストと画像ベクトルを別々に生成する。 0.62
Notably, we use the same model with different activation configurations (i.e., stext is activated for text and the simage is activated for image) to produce text and image vectors. 特に、テキストと画像ベクトルを生成するために、異なるアクティベーション構成の同じモデル(テキストではstextがアクティベートされ、画像ではsimageがアクティベートされる)を使用する。 0.74
The semantic similarity between a text and an image is calculated with dot product or cosine function. テキストと画像の間の意味的類似性は、ドット積またはコサイン関数によって計算される。 0.67
Video We consider text-to-video retrieval. 動画検索について考察する。 0.40
Given a text as the query, the task is to find the target video from a set of candidates. クエリとしてテキストが与えられると、タスクは、一連の候補からターゲットビデオを見つけることである。 0.80
The framework is similar to the aforementioned image retrieval. この枠組みは前述の画像検索と類似している。 0.77
We use the same model with different activated parameters (i.e., stext is avtivated for text and svideo is activated for video) to produce text and video vectors separately. 異なるアクティベートパラメータを持つ同じモデル(テキストに対してstextがアビベートされ、ビデオでsvideoがアクティベートされる)を使用して、テキストとビデオベクトルを別々に生成します。
訳抜け防止モード: 活性化パラメータの異なる同じモデルを使い (stextはテキストにアビベートされ、svideoはビデオにアクティベートされる)。 テキストと映像ベクトルを別々に生成する。
0.85
Code We consider natural language code retrieval. 自然言語コード検索を考慮したコード。 0.78
Given a text as the query, the task is to find the most relevant code from a set of candidates. クエリとしてテキストが与えられると、タスクは一連の候補から最も関連するコードを見つけることである。 0.83
We use the same model with different activated parameters (i.e., stext for text and scode for code) to produce text and code vectors separately. 異なるアクティベートパラメータ(テキスト用のstextとコード用のscode)を持つ同じモデルを使用して、テキストとコードベクトルを別々に生成します。 0.85
The framework is similar to image retrieval. このフレームワークは画像検索に似ている。 0.69
4.2 Pretraining Tasks Recap that our approach also supports multimodal pretraining with sparse activation. 4.2 予習作業 我々のアプローチはスパースアクティベーションを伴うマルチモーダル事前訓練もサポートしている。 0.64
We describe the pretraining tasks for each modality here. ここでは各モダリティの事前学習タスクについて述べる。 0.54
Text We adopt masked language modeling (MLM) as the pre-training task [12, 30]. テキスト プレトレーニングタスクとしてマスク言語モデリング(mlm)を採用しています [12,30]。 0.77
Given a text, we randomly mask 15% of the tokens. テキストが与えられたら、トークンの15%をランダムにマスクします。 0.72
Each masked token is replaced with a special [MASK] token 80% of the time, a random token 10% of the time, and left unchanged for the remaining 10% of the time. 各マスクされたトークンは、特別[MASK]トークンの80%、ランダムトークンの10%に置き換えられ、残りの10%はそのまま残される。
訳抜け防止モード: 各マスクされたトークンは、その時間の80%の特別な[MASK]トークンに置き換えられる。 ランダムトークンの10%の時間と残り 変わらず 残りの10%は...。
0.69
Sound We develop a simplified version of HuBERT [25] and pretrain through predicting the categories of the masked sound tokens, whose target labels are produced with an offline clustering process. サウンドはhubert [25]の簡易バージョンを開発し、オフラインのクラスタリングプロセスでターゲットラベルを生成するマスク付きサウンドトークンのカテゴリを予測して事前トレーニングする。 0.69
We set the number of clusters to 100 and use k-mean clustering with Mel-Frequency Cepstral Coefficients (MFCCs) acoustic features. クラスタ数を100に設定し,Mel-Frequency Cepstral Coefficients (MFCC)音響特性を用いたk平均クラスタリングを行った。 0.79
We use the same masking strategies of wav2vec2 [4], where about 5% of the time-steps are randomly sampled as start indices and the subsequent 10 time-steps are masked. 我々はwav2vec2[4]と同じマスク戦略を用いており、時間ステップの約5%を開始インデックスとしてランダムにサンプリングし、その後10回の時間ステップをマスクする。 0.65
2In this work, we use different positional embeddings for different modalities. 2 この研究では、異なるモーダルに対して異なる位置埋め込みを用いる。 0.62
7 7 0.42
英語(論文から抽出)日本語訳スコア
Method Modality-specific models Dense multimodal baseline MoE multimodal baseline SkillNet w/o pretraining Baselines with modality-specific pretraining SkillNet マルチモーダルベースライン moe multimodal base skillnet w/o pretraining bases with modality-specific pretraining skillnet 0.71
Text 0.48 0.48 0.49 0.48 0.56∗ 0.57 Text 0.48 0.48 0.49 0.48 0.56∗ 0.57 0.22
Image 69.63 55.70 60.93 68.76 71.70† 73.59 Image 69.63 55.70 60.93 68.76 71.70† 73.59 0.22
Sound 0.20 0.23 0.19 0.20 0.17 0.17 Sound 0.20 0.23 0.19 0.20 0.17 0.17 0.24
Video 63.18 19.46 64.81 66.49 77.31 81.77 Video 63.18 19.46 64.81 66.49 77.31 81.77 0.24
Code 53.97 57.59 50.04 60.14 66.33 70.66 Code 53.97 57.59 50.04 60.14 66.33 70.66 0.24
Table 2: Results on five tasks. 表2: 5つのタスクの結果。 0.81
Evaluation metrics for five modalities are accuracy, Recall@10, CER (lower is better), Recall@10 and Recall@10, respectively. 5つのモードに対する評価指標は、それぞれ精度、recall@10、cer(より優れている)、recall@10、recall@10である。 0.74
The result tagged with ∗ is from [46], whose pretraining text corpus is the superset of our work. ∗ でタグ付けされた結果は [46] から来ています。
訳抜け防止モード: ∗ でタグ付けされた結果は [46 ] のテキストコーパスから得られる。 私たちの作品のスーパーセットです
0.63
The result tagged with † is from the previous best system for Chinese text-to-image retrieval [21], whose pretraining image corpus is also the superset of our image pretraining data. 画像コーパスは画像事前学習データの上位セットでもある[21]。
訳抜け防止モード: タグ付きの結果は、以前の中国語テキスト-to-画像検索(21)のベストシステムから得られたものだ。 トレーニング済みのイメージコーパスは イメージの事前トレーニングデータのスーパーセットです。
0.61
Image We follow CLIP [36] and use contrastive objectives for pretraining. 画像 私たちはCLIP[36]に従い、事前トレーニングに対照的な目的を使用します。 0.56
We use the same architecture for image retrieval as illustrated in §4.1 and adopt in-batch negative sampling. 4.1図に示すように、画像検索に同じアーキテクチャを使用し、バッチ内負サンプリングを採用する。 0.58
Video Similar to the configuration of image pretraining, we consider a contrastive pretraining task of text-video matching. ビデオは、画像事前学習の構成と同様、テキスト-ビデオマッチングの対照的な事前訓練タスクを考える。 0.63
In-batch negative sampling is adopted. バッチ内負サンプリングが採用されている。 0.47
Code Like CodeBERT [18], we concatenate code and text, separate them with [SEP] and randomly mask 15% of the tokens. CodeBERT [18]のように、コードとテキストを結合し、[SEP]と分離し、トークンの15%をランダムにマスクします。 0.79
The pretraining task is to predict the masked tokens. 事前トレーニングのタスクは、マスクされたトークンを予測することです。 0.54
5 Experiments 5.1 Setup 5 実験 5.1 設定 0.74
We compare to the following baselines. 我々は以下の基準と比較する。 0.74
• Modality-specific models. •モダリティ固有のモデル。 0.63
We train five different models for different modalities. 私たちは5つの異なるモデルを異なるモダリティで訓練します。 0.54
The model architecture for each modality is the standard Transformer. 各モダリティのモデルアーキテクチャは標準トランスフォーマーである。 0.59
• Dense multimodal baseline. •高密度マルチモーダルベースライン。 0.72
We train a multimodal model that jointly learns for five modalities. 5つのモダリティを共同で学習するマルチモーダルモデルを訓練する。 0.70
This is a dense model in that all these modalities share a common standard Transformer architecture, which is equivalant to SkillNet with only one skill and that skill is always activated. これは、これら全てのモダリティが共通の標準トランスフォーマーアーキテクチャを共有しており、1つのスキルでスキルネットと同値であり、そのスキルは常に活性化されるという、密接なモデルである。 0.55
• MoE multimodal baseline. • MoE マルチモーダルベースライン。 0.69
We train a Mixture-of-Expert (MoE) [27] baseline and set the number of experts as the number of skills of SkillNet (i.e., 5). 我々は,mixed-of-expert (moe) [27]ベースラインをトレーニングし,スキルネットのスキル数(すなわち5)として専門家数を設定する。 0.77
There is a gating function to selectively active top-2 experts for each token. 各トークンに対して、選択的にトップ2専門家をアクティブにするゲーティング機能がある。 0.55
We implement SkillNet on top of HuggingFace’s Transformers [42]. huggingfaceのtransformer [42] 上に skillnet を実装しています。 0.66
We conduct experiment with 12 Transformer encoder layers and 768 hidden state dimensions and leave the extension to larger model scales to the future. 12のトランスコーダ層と768の隠れた状態次元を用いて実験を行い、さらに大きなモデルスケールへの拡張を未来に残す。 0.80
Since the parameters of SkillNet can be pretrained (as described in §4.2), we have two model configurations, depending on whether the parameters are pretrained in the same sparsely activated manner. SkillNetのパラメータを事前トレーニングできるので、パラメータが同じ疎活性化された方法で事前トレーニングされているかどうかによって、2つのモデル構成がある。
訳抜け防止モード: SkillNet のパラメータを事前トレーニングできるので(図4.2 に記載されているように) モデル構成は2つあります パラメータは わずかに活性化されている
0.77
We also compare to baselines with modality-specific pretraining. また、ベースラインとモダリティ特化事前学習を比較した。 0.44
For text, we compare to [46], which uses the superset of our text pretraining corpus to pretrain BERT. テキストについては [46] と比較し, テキスト事前学習コーパスのスーパーセットを用いて BERT を事前訓練する。 0.75
For image, we compare to WukongViT-B [21], which has the similar model scale (with 12 Transformer layers) and is pretrained with a superset of our image pretraining data. 画像については、WukongViT-B[21]と比較し、同様のモデルスケール(12のTransformerレイヤ)を持ち、画像事前学習データのスーパーセットで事前トレーニングする。 0.71
For speech, video and code, we pretrain modality-specific models with the same amount of pretraining data of SkillNet. 音声,ビデオ,コードに対しては,SkillNetの事前学習データと同量のモータリティ特化モデルを事前訓練する。 0.67
Details about the datasets and training process are given in the Appendix. データセットとトレーニングプロセスの詳細はAppendixに記載されている。 0.83
5.2 Results and Analysis Table 2 gives the results on five tasks. 5.2 結果と分析 表2は5つのタスクの結果を与えます。 0.76
Systems in the first group are not pretrained. 第1群のシステムは事前訓練されていない。 0.66
We can see that SkillNet performs comparably to modality-specific models. SkillNetは、モダリティ固有のモデルと互換性がある。 0.61
An interesting finding is that the joint model with a dense encoder is not friendly to the low-resource task like text-to-video, but this phenomenon does not exist in either MoE system or SkillNet. 興味深い発見は、密度の高いエンコーダを持つジョイントモデルが、テキスト対ビデオのような低リソースタスクと親和性がないことだが、この現象はmoeシステムやskillnetには存在していない。 0.62
The second group includes systems with modality-specific pretraining or joint pretraining. 第2グループは、モダリティ特異的プレトレーニングまたは関節プレトレーニングを備えたシステムを含む。 0.50
We can see that pretraining consistently 事前訓練は一貫して行われ 0.53
8 8 0.42
英語(論文から抽出)日本語訳スコア
improves the performance of SkillNet on all five tasks, even better than modality-specific pretraining on image, video and code. SkillNetは、画像、ビデオ、コードに対するモダリティ固有の事前トレーニングよりも、すべての5つのタスクにおけるパフォーマンスを改善する。 0.70
On the task of text-to-image retrieval, SkillNet achieves better accuracy compared to existing leading systems but using less number of activated parameters. テキストから画像への検索のタスクでは、skillnetは既存のリードシステムよりも精度が良いが、アクティベートパラメータの数が少ない。 0.63
Numbers are given in Table 3. 数字は表3に示される。 0.77
Since the parameters of Wenlan 2.0 and WukongViT-B are not reported in their papers, we calculate their parameters based on their model descriptions. Wenlan 2.0 と WukongViT-B のパラメータは論文に記載されていないため,モデル記述に基づいてパラメータを算出する。 0.84
The parameters of Wenlan 2.0 [17] include three parts, an image encoder consisting of an EfficientNet-B7 [39] (66M) and four Transformer encoder layers (50M), a text encoder RoBERTa-Large [10] (326M) and a cross-modal projection layer with two fully-connected layers (3M). Wenlan 2.0[17]のパラメータは、EfficientNet-B7[39](66M)と4つのTransformerエンコーダ層(50M)と、テキストエンコーダRoBERTa-Large[10](326M)と、2つの完全に接続された層(3M)からなるクロスモーダルプロジェクション層からなる3つの部分を含む。 0.76
WukongViT-B [21] includes a Vision Transformer (ViT) [14] (86M) as the image encoder, a standard decoder-only transformer (110M) as the text encoder and a linear cross-modal projection layer (0.6M). wukongvit-b[21]は画像エンコーダとしてvision transformer(vit)[14](86m)、テキストエンコーダとしてstandard decoder-only transformer(110m)、線形クロスモーダルプロジェクション層(0.6m)を含む。 0.73
Method Wenlan 2.0 [17] WukongViT-B [21] SkillNet Method Wenlan 2.0 [17] WukongViT-B [21] SkillNet 0.44
Number of Activated Params R@1 R@10 69.1 71.7 73.6 活性化パラム数 r@1 r@10 69.1 71.7 73.6 0.70
445M 197M 124M 445M197M124M 0.30
34.1 36.7 37.0 34.1 36.7 37.0 0.24
Table 3: Performance and activated model parameters of text-to-image retrieval methods. 表3: テキスト・ツー・イメージ検索手法のパフォーマンスとアクティベートモデルパラメータ。 0.75
Figure 5 shows the learning curves of SkillNet with or without pretraining on different tasks. 図5は、異なるタスクの事前トレーニングの有無に関わらず、skillnetの学習曲線を示しています。 0.55
We can see that in general pretraining gives the model a good starting point and leads to better accuracy. 一般的な事前トレーニングによって、モデルが優れた出発点となり、精度が向上することが分かります。 0.65
(a) SkillNet for text-to-image retrieval. (a)テキスト画像検索のためのSkillNet。 0.66
(b) SkillNet for text-to-video retrieval. (b)テキスト対ビデオ検索用スキルネット。 0.69
(c) SkillNet for ASR. (c)asr用スキルネット。 0.59
(d) SkillNet for text-to-code retrieval. (d)テキストからコードへの検索のためのSkillNet。 0.54
Figure 5: Performance of SkillNet with different finetuning steps. 図5: 異なる微調整ステップによるSkillNetのパフォーマンス。 0.74
X-axis stands for the training steps. X軸はトレーニングステップを表す。 0.80
Y-axis stands for the evaluation metric (lower is better for CER). y軸は評価指標(cerより低い方が良い)の略である。 0.65
Figure 6, 7 and 8 give case studies on image, video and code retrieval, respectively. 図6、7、8はそれぞれ画像、ビデオ、コード検索に関するケーススタディを与える。 0.69
9 1w2w3w4w5w6w7w8w9w10 w11wSteps30405060708 0Recall @10Image training processw/ pretrainw/o pretrain1w2w3w4w5w6w 7w8w9w10w11wSteps304 05060708090Recall @10Video training processw/ pretrainw/o pretrain1w2w3w4w5w6w 7w8w9w10w11wSteps0.0 0.10.20.30.40.50.60. 70.8CERAudio training processw/ pretrainw/o pretrain1w2w3w4w5w6w 7w8w9w10w11wSteps304 050607080Recall @10Code training processw/ pretrainw/o pretrain 9 1w2w3w4w5w5w7w7w7w9w 10w10w11wSteps304060 7080Recall @10Image training processw/pretrainw/o pretrainw/o pretrainw/o pretrainw/o pretrainw/o pretrain1w2w3w5w5w7w 7w5w5w5w5w5w5w5w5w5w 5w5w5w5w5w5w5w5w5w5w 10w11wsteps0.00.20.3 0.40.60.60.70.8CERAu dio training processw/o pretrainw/o pretrainw2w2w5w5w5w5 w5w5w5w5w5w5w5w5w5w5 w5w5w5w5w5w7w7w5w7w7 w7w7w7w70807080Recal l @10Video training processw//pretrainw/ o pretrainw/o pretrainw2w608080808 080808080 0.24
英語(論文から抽出)日本語訳スコア
Figure 6: Case study for text-to-image retrieval. 図6:テキスト・ツー・イメージ検索のケーススタディ 0.72
For each query, we show top-3 returned images and the relevance scores returned by SkillNet. 各クエリに対して、トップ3で返される画像と、SkillNetで返される関連スコアを示す。 0.58
Figure 7: Case study for text-to-video retrieval. 図7:テキスト・ビデオ検索のケーススタディ 0.73
For each query, we show the top-3 returned videos returned by SkillNet and provide three frames for each video. クエリ毎に、skillnetが返したトップ3のビデオを表示して、各ビデオに3つのフレームを提供します。 0.62
6 Conclusion This paper presents a sparsely activated multimodal multitask approach called SkillNet. 6 結論 本稿では,slownetと呼ばれるマルチモーダルマルチタスク方式を提案する。 0.66
We demonstrate the feasibility of using one model to achieve comparable performance compared to multiple modality-specific models. 複数のモダリティ特化モデルと比較して、1つのモデルを用いて同等の性能を実現することが可能であることを示す。 0.58
We further show that sparse pretraining gives a better initialized parameters which leads to improved accuracy, even better than modality-specific pretraining on three of five さらに、スパース事前学習は、5つのうち3つにおいてモダリティ特化事前学習よりも精度が向上する、より良い初期化パラメータを与えることを示す。
訳抜け防止モード: さらに, スパースプリトレーニングにより初期化パラメータが向上し, 精度が向上することを示す。 モダリティよりも優れている - 5つのうち3つに特定の事前トレーニング
0.66
10 QueryModel OutputsGround Truth湍急的河水里有一群穿着救生衣的人在划橡皮艇(Trans: A group of people in life jackets are rowing a rubber dinghy in a fast river)一个戴着墨镜的男人牵着一个穿着白色裙子的女人走在道路上(Trans: A man in sunglasses walks down the road holding a woman’s hand in a white dress)一个背着包的女人走在人来人往的街道上(Trans: A woman with a bag is walking on a busy street)一个双臂抬起的运动员跪在绿茵茵的球场上(Trans: An athlete with raised arms kneels on a green field)展板前的桌子前一个戴着眼镜的男人旁有一个双手相握的男人在讲话(Trans: A man with clasped hands is speaking next to a man with glasses at a table in front of a display board)score = 34.91score =30.88 score =23.377 score =33.03 score =30.69 score =29.40 score =30.90 score = 32.48score =29.65 score =28.20 score =28.01 score =32.60 score = 29.50score = 34.04score =28.29 QueryModel Outputs 一个穿红色衣服的男人坐在鳄鱼身上用手摸着它的嘴巴(Trans: A man in red sits on a crocodile and touches its mouth with his hands)score = 29.63(ground truth)score = 25.66score = 23.344一个穿着红色衣服的人正在和人演戏(Trans: A person in red is acting with others)score = 30.21(ground truth)score = 27.61score = 26.39 10 QueryModel OutputsGround Truth湍急的河水里有一群穿着救生衣的人在划橡皮艇(Trans: A group of people in life jackets are rowing a rubber dinghy in a fast river)一个戴着墨镜的男人牵着一个穿着白色裙子的女人走在道路上(Trans: A man in sunglasses walks down the road holding a woman’s hand in a white dress)一个背着包的女人走在人来人往的街道上(Trans: A woman with a bag is walking on a busy street)一个双臂抬起的运动员跪在绿茵茵的球场上(Trans: An athlete with raised arms kneels on a green field)展板前的桌子前一个戴着眼镜的男人旁有一个双手相握的男人在讲话(Trans: A man with clasped hands is speaking next to a man with glasses at a table in front of a display board)score = 34.91score =30.88 score =23.377 score =33.03 score =30.69 score =29.40 score =30.90 score = 32.48score =29.65 score =28.20 score =28.01 score =32.60 score = 29.50score = 34.04score =28.29 QueryModel Outputs 一个穿红色衣服的男人坐在鳄鱼身上用手摸着它的嘴巴(Trans: A man in red sits on a crocodile and touches its mouth with his hands)score = 29.63(ground truth)score = 25.66score = 23.344一个穿着红色衣服的人正在和人演戏(Trans: A person in red is acting with others)score = 30.21(ground truth)score = 27.61score = 26.39
訳抜け防止モード: 10 問合せモデルによる真理の抽出 ライフジャケットを着た人々のグループは、速い川でゴムのディンギをrowいでいます。 サングラスをかけた男性が、女性の手を白いドレスに着けて道を歩いています。 : A woman with a bag is walking on a busy street)一个双臂抬起的运动员跪在绿茵茵的球场上(Trans : An athlete with raised arms kneels on a green field)展板前的桌子前一个戴着眼镜的男人旁有一个双手相握的男人在讲话(Trans : A man with clasped hands is speaking next to a man with glasses at a table in front of a display board)score = 34.91score = 30.88 score = 23.377 score = 33.03 score = 30.69 score = 29.40 score = 30.90 score = 32.48score = 29.65 score = 28.20 score = 28.01 score = 32.60 score = 29.50score = 34.04score = 28.29 QueryModel Outputs 一个穿红色衣服的男人坐在鳄鱼身上用手摸着它的嘴巴(Trans : A man in red sits on a crocodile スコア = 29.63(根拠真理) スコア = 25.66スコア = 23.344 (18)? 赤の人が他の人と作用している)score = 30.21(根拠真理)score = 27.61score = 26.39
0.55
英語(論文から抽出)日本語訳スコア
Figure 8: Case study for text-to-code retrieval. 図8:テキストからコードへの検索のケーススタディ。 0.70
For each query, we show top-3 returned codes and the relevance scores returned by SkillNet. 各クエリについて、トップ3の返却コードと、SkillNetが返送した関連スコアを示す。 0.56
modalities. On Chinese text-to-image retrieval, our final system yields better accuracy with less activated parameters compared to existing leading systems. モダリティ。 中国語のテキストから画像への検索では,既存の先行システムに比べてアクティベートパラメータが少なく,精度が向上する。 0.51
Our approach is modality-agnostic and task-agnostic. 私たちのアプローチはモダリティ非依存でタスク非依存です。 0.25
We leave the extension to larger number of modalities and tasks to the future. 私たちはこの拡張を、より多くのモダリティとタスクに未来を委ねています。 0.59
References [1] Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, and Boqing Gong. 参照:[1]八山阿波梨、梁江元、類周、威東忠、シーフチャン、yin Cui、Boqing Gong。
訳抜け防止モード: 参考文献 [1 ]Hassan Akbari, Liangzhe Yuan, Rui Qian Wei - Hong Chuang, Shih - Fu Chang, Yin Cui ボーキング・ゴン(Boqing Gong)。
0.72
Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text. vatt: 生のビデオ、音声、テキストからのマルチモーダル自己教師付き学習のためのトランスフォーマー。 0.60
Advances in Neural Information Processing Systems, 34, 2021. ニューラル情報処理システム(34,2021)の進歩 0.67
[2] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luˇci´c, and Cordelia Schmid. アヌラグ・アルナブ、モスタファ・デッハーニ、ゲオルク・ハイゴールド、チェン・サン、マリオ・ルシ、コルデリア・シュミド。 0.36
Vivit: A video vision transformer. Vivit: ビデオビジョントランスフォーマー。 0.60
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6836–6846, 2021. ieee/cvf国際コンピュータビジョン会議の議事録には、6836-6846, 2021ページがある。 0.61
[3] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. ジミー・レイ・バ、ジェイミー・ライアン・キロス、ジェフリー・e・ヒントン。 0.40
Layer normalization. arXiv preprint 層正規化。 arXiv プレプリント 0.71
arXiv:1607.06450, 2016. arxiv:1607.06450, 2016年。 0.43
[4] Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed, and Michael Auli. [4]Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed, Michael Auli。 0.35
wav2vec 2.0: A framework for self-supervised learning of speech representations. wav2vec 2.0: 表現の自己教師型学習のためのフレームワーク。 0.64
Advances in Neural Information Processing Systems, 33:12449–12460, 2020. 神経情報処理システムの進歩 33:12449–12460, 2020 0.82
[5] Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, and Michael Auli. [5]Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli。 0.40
data2vec: A general framework for self-supervised learning in speech, vision and language. data2vec: 音声、視覚、言語における自己教師あり学習のための汎用フレームワーク。 0.60
arXiv preprint arXiv:2202.03555, 2022. arXiv preprint arXiv:2202.03555, 2022 0.40
[6] Mehdi Bahrami, NC Shrikanth, Shade Ruangwan, Lei Liu, Yuji Mizobuchi, Masahiro Fukuyori, Wei-Peng Chen, Kazuki Munakata, and Tim Menzies. 6]Mehdi Bahrami, NC Shrikanth, Shade Ruangwan, Lei Liu, Yuji Mizobuchi, Fukuyori, Wei-Peng Chen, Kazuki Munakata, Tim Menzies。
訳抜け防止モード: [6]Mehdi Bahrami, NC Shrikanth, Shade Ruangwan, Lei Liu, Mizobuchi, Yuji Mizobuchi, Masahiro Fukuyori, Wei - Peng Chen, カズキ・ムナカタとティム・メンジーズ。
0.80
Pytorrent: A python library corpus for large-scale language models. Pytorrent: 大規模言語モデルのためのpythonライブラリコーパス。 0.85
arXiv preprint arXiv:2110.01710, 2021. arXiv preprint arXiv:2110.01710, 2021 0.40
[7] Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman. マックス・ベイン(Max Bain)、アルシャ・ナグラニ(Arsha Nagrani)、ギュル・ヴァロール(Gül Varol)、アンドリュー・ジッサーマン(Andrew Zisserman)。 0.47
Frozen in time: A joint video and image encoder for end-to-end retrieval. frozen in time: エンドツーエンド検索のためのジョイントビデオと画像エンコーダ。 0.81
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1728–1738, 2021. Proceedings of the IEEE/CVF International Conference on Computer Vision, page 1728–1738, 2021。 0.47
[8] Hangbo Bao, Li Dong, and Furu Wei. [8]ハンボ・バオ、リ・ドン、ココ・ウェイ。 0.49
Beit: Bert pre-training of image transformers. Beit: イメージトランスフォーマーのベルト事前トレーニング。 0.71
arXiv preprint arXiv プレプリント 0.83
arXiv:2106.08254, 2021. arxiv:2106.08254、2021年。 0.38
[9] Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, and Hao Zheng. [9]Hui Bu、Jiayu Du、Xingyu Na、Bengu Wu、Hao Zheng。 0.31
Aishell-1: An open-source mandarin speech In 2017 20th Conference of the Oriental Chapter of the corpus and a speech recognition baseline. Aishell-1: オープンソースのマンダリンスピーチ 2017年、コーパスの東洋章と音声認識ベースラインの第20回会議。 0.70
International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O-COCOSDA), pages 1–5. International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O-COCOSDA) 1-5頁。
訳抜け防止モード: 音声データベースと音声I/Oシステムに関する国際調整委員会 and Assessment (O - COCOSDA ) , page 1-5 。
0.69
IEEE, 2017. 2017年、IEEE。 0.63
[10] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, and Guoping Hu. [10]クイ、ワンシャン・チェ、チン・リウ、ビン・チン、シジン・ウォン、グーピング・フー。 0.45
Revisiting pre-trained In Findings of the Association for Computational models for Chinese natural language processing. 中国語自然言語処理のための計算モデル研究会の事前学習結果の再検討 0.73
Linguistics: EMNLP 2020, pages 657–668, Online, November 2020. 言語学:emnlp 2020, pages 657–668, online, november 2020。 0.86
Association for Computational Linguistics. [11] Jeff 計算言語学会会員。 11]ジェフ 0.50
Dean. Google ディーン Google 0.36
A architecture. https://blog.google/ technology/ai/ 建築。 https://blog.google/ technology/ai/ 0.33
next-generation ai In introducing-pathways -next-generation-ai- architecture/. 次世代 アイ in introduction-pathway s-next-generation-ai -architecture/ 0.45
2021. URL Blog, 2021. URL ブログ 0.54
Introducing pathways: [12] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 紹介 経路: [12]Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.59
Bert: Pre-training of deep bidirec- Bert:Deep bidirecの事前トレーニング- 0.84
tional transformers for language understanding. 言語理解のためのオプショントランスフォーマー。 0.63
arXiv preprint arXiv:1810.04805, 2018. arXiv preprint arXiv:1810.04805, 2018 0.39
[13] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al An image is worth 16x16 words: Transformers for image recognition at scale. 13] alexey dosovitskiy, lucas beyer, alexander kolesnikov, dirk weissenborn, xiaohua zhai, thomas unterthiner, mostafa dehghani, matthias minderer, georg heigold, sylvain gelly, et al an image is worth 16x16 words: transformers for image recognition at scale。
訳抜け防止モード: [13 ]Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer Georg Heigold, Sylvain Gelly, et al Image is worth 16x16 words : Transformer for image Recognition at scale。
0.41
arXiv preprint arXiv:2010.11929, 2020. arxiv プレプリント arxiv:2010.11929, 2020 0.44
[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. Alexey Dosovitskiy氏、Lucas Beyer氏、Alexander Kolesnikov氏、Dirk Weissenborn氏、Xiaohua Zhai氏、Thomas Unterthiner氏、Mostafa Dehghani氏、Matthias Minderer氏、Georg Heigold氏、Sylvain Gelly氏、Jakob Uszkoreit氏、Neil Houlsby氏。 0.36
An image is worth 16x16 words: Transformers for image recognition at scale. 画像は16×16ワードで、画像認識のためのトランスフォーマーである。 0.67
In International Conference on Learning Representations, 2021. 2021年、国際学習表現会議に参加。 0.78
11 QueryModel Outputs 删除所有缓存的图像(Trans: delete all cached images)def clear(self):self._ca che.clear()self.curr entsize= 0def clear_cache(grip_cla ss=None) if grip_classis None: grip_class= Grip grip_class(StdinRead er()). 11 QueryModel Outputs は、次のように出力する(Trans: delete all cached images)def clear(self):self._ca che.clear()self.curr entsize= 0def clear_cache(grip_cla ss=None) if grip_classis None: grip_class= Grip grip_class(StdinRead er()))。 0.54
clear_cache()def clear(self): self.display(Image.n ew(self.mode, self.size))score = 138.16score = 108.37score = 107.30 clear_cache()def clear(self): self.new(self.mode, self.size))score = 138.16score = 108.37score = 107.30 0.36
英語(論文から抽出)日本語訳スコア
[15] Nan Du, Yanping Huang, Andrew M Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, et al Glam: Efficient scaling of language models with mixtureof-experts. [15] Nan Du, Yanping Huang, Andrew M Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, et al Glam: 言語モデルと専門家の混在による効率的なスケーリング。 0.90
arXiv preprint arXiv:2112.06905, 2021. arXiv preprint arXiv:2112.06905, 2021 0.40
[16] William Fedus, Barret Zoph, and Noam Shazeer. 16]ウィリアム・フェドゥス、バレット・ゾフ、ノーム・シャイザー 0.54
Switch transformers: Scaling to trillion parameter models switch transformers: 数兆のパラメータモデルへのスケーリング 0.81
with simple and efficient sparsity. シンプルで効率的な空間で 0.60
arXiv preprint arXiv:2101.03961, 2021. arXiv preprint arXiv:2101.03961, 2021 0.40
[17] Nanyi Fei, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen, Haoyu Lu, Ruihua Song, Xin Gao, Tao Xiang, et al Wenlan 2.0: Make ai imagine via a multimodal foundation model. [17]南y Fei, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen, Haoyu Lu, Ruihua Song, Xin Gao, Tao Xiang, et al Wenlan 2.0: マルチモーダル基盤モデルを通じて,aiを想像する。 0.87
arXiv preprint arXiv:2110.14378, 2021. arXiv preprint arXiv:2110.14378, 2021 0.40
[18] Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, et al Codebert: A pre-trained model for programming and natural languages. 18] zhangyin feng, daa guo, duyu tang, nan duan, xiaocheng feng, ming gong, linjun shou, bing qin, ting liu, daxin jiang, et al codebert: プログラミングと自然言語のための事前学習されたモデル。 0.75
arXiv preprint arXiv:2002.08155, 2020. arxiv プレプリント arxiv:2002.08155, 2020 0.44
[19] Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, and Ishan Misra. [19]Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, Ishan Misra。 0.37
Omnivore: A single model for many visual modalities. omnivore: 多くの視覚モダリティのための単一のモデル。 0.82
arXiv preprint arXiv:2201.08377, 2022. arXiv preprint arXiv:2201.08377, 2022 0.40
[20] Alex Graves, Santiago Fernández, Faustino Gomez, and Jürgen Schmidhuber. Alex Graves, Santiago Fernández, Faustino Gomez, Jürgen Schmidhuber. [20] Alex Graves, Santiago Fernández, Faustino Gomez, Jürgen Schmidhuber. 0.33
Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. コネクショニスト時間分類:リカレントニューラルネットワークを用いた非セグメンテーションシーケンスデータのラベル付け。 0.73
In Proceedings of the 23rd international conference on Machine learning, pages 369–376, 2006. 第23回機械学習国際会議の議事録(2006年369-376頁)。 0.76
[21] Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Hang Xu, Xiaodan Liang, Wei Zhang, Xin Jiang, and Chunjing Xu. 〔21〕江西宮、西順満、広東ルー、ル・ウー、ミンジ・ニウ、ハン・スー、シャオダン・リアン、ウェイ・チャン、シン・ジアン、チュニョン・xu
訳抜け防止モード: [21 ]Jiaxi Gu,Xiaojun Meng,Guansong Lu, Lu Hou, Minzhe Niu, Hang Xu, Xiaodan Liang 広東省、新江省、中京省。
0.63
Wukong: 100 million large-scale chinese cross-modal pre-training dataset and a foundation framework. wukong: 中国の大規模クロスモーダルトレーニングデータセットと基盤フレームワークが1億台です。 0.70
arXiv preprint arXiv:2202.06767, 2022. arXiv preprint arXiv:2202.06767, 2022 0.40
[22] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [22]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.52
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 770–778, 2016
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 770-778頁、2016年。
0.83
[23] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. 23]カイミング・ヘ、シンレイ・チェン、サイニン・シー、ヤンハオ・リー、ピョートル・ドルラー、ロス・ガーシック 0.48
Masked autoencoders マスクオートエンコーダ 0.64
are scalable vision learners. スケーラブルなビジョン学習者です 0.63
arXiv preprint arXiv:2111.06377, 2021. arxiv プレプリント arxiv:2111.06377, 2021。 0.41
[24] Geoffrey Hinton, Li Deng, Dong Yu, George E Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N Sainath, et al Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Geoffrey Hinton氏、Li Deng氏、Dong Yu氏、George E Dahl氏、Abdel-rahman Mohamed氏、Navdeep Jaitly氏、Andrew Senior氏、Vincent Vanhoucke氏、Patrick Nguyen氏、Tara N Sainath氏、そして、音声認識における音響モデルのためのDeep Neural Network氏。 0.69
IEEE Signal processing magazine, 29(6):82–97, 2012. IEEE Signal Processing Magazine, 29(6):82-97, 2012 0.45
[25] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, and Abdelrahman Mohamed. [25]Wei-Ning Hsu,Benjamin Bolte,Yao-Hung Hubert Tsai,Kushal Lakhotia,Ruslan Salakhutdinov,Abdelr ahman Mohamed。 0.41
Hubert: Self-supervised speech representation learning by masked prediction of hidden units. Hubert: 隠れたユニットの隠蔽予測による自己教師型音声表現学習。 0.73
IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29:3451–3460, 2021. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29:3451–3460, 2021 0.44
[26] Guoping Huang, Lemao Liu, Xing Wang, Longyue Wang, Huayang Li, Zhaopeng Tu, Chengyan Huang, and Shuming Shi. [26]ングング・ハン、レマオ・リュー、Xing Wang、Longyue Wang、Hhuayang Li、Zhaopeng Tu、Chengyan Huang、Shming Shi。
訳抜け防止モード: [26 ]ングング・フン、レマオ・リュー、Xing Wang、 Longyue Wang, Huayang Li, Zhaopeng Tu, Chengyan Huang そして、シャミング・シー。
0.73
Transmart: A practical interactive machine translation system. Transmart: 実用的な対話型機械翻訳システム。 0.86
arXiv preprint arXiv:2105.13072, 2021. arXiv preprint arXiv:2105.13072, 2021 0.40
[27] Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, and Zhifeng Chen. Dmitry Lepikhin, HyokJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, Zhifeng Chen
訳抜け防止モード: 27 ] ドミトリー・レピキン、ヒョクジュン・リー、センソン・xu、 dehao chen, orhan firat, yanping huang, maxim krikun, noam shazeerとzhifeng chen。
0.52
Gshard: Scaling giant models with conditional computation and automatic sharding. Gshard: 条件計算と自動シャーディングによる巨大なモデルのスケーリング。 0.84
arXiv preprint arXiv:2006.16668, 2020. arxiv プレプリント arxiv:2006.16668, 2020 0.45
[28] Junwei Liao, Duyu Tang, Fan Zhang, and Shuming Shi. [28]淳平理雄、唐冬、文張、修明師。 0.42
Skillnet-nlg: General-purpose natural language Skillnet-nlg: 汎用自然言語 0.79
generation with a sparsely activated approach, 2022. わずかに活性化された 2022年 0.52
URL https://arxiv.org/ab s/2204.12184. URL https://arxiv.org/ab s/2204.12184 0.23
[29] Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng Gao. [29]Xiaodong Liu、Pengcheng He、Weizhu Chen、Jianfeng Gao。 0.34
Multi-task deep neural networks for マルチタスク深層ニューラルネットワーク 0.58
natural language understanding. arXiv preprint arXiv:1901.11504, 2019. 自然言語の理解です arxiv プレプリント arxiv:1901.11504, 2019 0.63
[30] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu氏、Myle Ott氏、Naman Goyal氏、Jingfei Du氏、Mandar Joshi氏、Danqi Chen氏、Omer Levy氏、Mike Lewis氏、Luke Zettlemoyer氏、Veslin Stoyanov氏。
訳抜け防止モード: 30 ] イニハン・リウ マイレ・オット ナマン・ゴヤル jingfei du, mandar joshi, danqi chen, omer levy マイク・ルイス、ルーク・ゼトルモイヤー、ヴェセリン・ストヤノフ。
0.45
Roberta: A robustly optimized bert pretraining approach. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.61
arXiv preprint arXiv:1907.11692, 2019. arXiv preprint arXiv:1907.11692, 2019 0.40
[31] Ilya Loshchilov and Frank Hutter. Ilya Loshchilov氏とFrank Hutter氏。 0.58
Decoupled weight decay regularization. decoupled weight decay regularization の略。 0.68
In International Conference on Learning Representations, 2019. 国際会議において 2019年、卒業。 0.68
[32] Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, and Tianrui Li. [32] ウイシャオ・ルー、レイ・ジ、ミン・ジン、ヤン・チェン、ウェン・レイ、ナン・ドゥアン、天ルイ 0.49
Clip4clip: An Clip4clip: An 0.39
empirical study of clip for end to end video clip retrieval. 端から端までのビデオクリップを検索する実験的な研究。 0.70
arXiv preprint arXiv:2104.08860, 2021. arXiv preprint arXiv:2104.08860, 2021 0.40
[33] Christopher D Manning. クリストファー・D・マニング(Christopher D Manning)。 0.53
Human language understanding & reasoning. 人間の言語理解と推論。 0.87
Daedalus, 151(2):127–138, 2022. デイダルス、151(2):127–138、2022。 0.60
[34] Shervin Minaee, Nal Kalchbrenner, Erik Cambria, Narjes Nikzad, Meysam Chenaghlu, and Jianfeng Gao. 34] シャーヴィン・ミネー、ナル・カルヒブレンナー、エリック・カンブリア、ナルイェス・ニクザド、ミーサム・チェナグル、ジャンフェン・ガオ 0.41
Deep learning–based text classification: a comprehensive review. deep learning-based text classification: 包括的なレビュー。 0.79
ACM Computing Surveys (CSUR), 54(3): 1–40, 2021. ACM Computing Surveys (CSUR), 54(3): 1–40, 2021。 0.84
[35] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al Language [35]Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al Language
訳抜け防止モード: アレック・ラドフォード, ジェフリー・ウー, レウォン・チャイルド. David Luan, Dario Amodei, Ilya Sutskever, et al Language
0.67
models are unsupervised multitask learners. モデルは教師なしマルチタスク学習者です 0.65
OpenAI blog, 1(8):9, 2019. OpenAI blog, 1(8):9, 2019。 0.90
[36] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al Learning transferable visual models from natural language supervision. Alec Radford氏、Jong Wook Kim氏、Chris Hallacy氏、Aditya Ramesh氏、Gabriel Goh氏、Sandhini Agarwal氏、Girish Sastry氏、Amanda Askell氏、Pamela Mishkin氏、Jack Clark氏。
訳抜け防止モード: 36] アレク・ラドフォード、ジョン・ウォック・キム、クリス・ハレシー aditya ramesh, gabriel goh, sandhini agarwal, girish sastry, amanda askell氏、pamela mishkin氏、jack clark氏、およびal learning transferable visual models from natural language supervisor。
0.68
In International Conference on Machine Learning, pages 8748–8763. 機械学習に関する国際会議』8748-8763頁。 0.76
PMLR, 2021. PMLR、2021年。 0.80
12 12 0.42
英語(論文から抽出)日本語訳スコア
[37] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. [37]Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J Liu。
訳抜け防止モード: 37 ] コリン・ラフェル ノーム・シャイザー アダム・ロバーツ キャサリン・リー、sharan narang、michael matena、yanqi zhou イー・リ、ピーター・j・リウ。
0.50
Exploring the limits of transfer learning with a unified text-to-text transformer. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.82
arXiv preprint arXiv:1910.10683, 2019. arXiv preprint arXiv:1910.10683, 2019 0.40
[38] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Noam Shazeer氏、Azalia Mirhoseini氏、Krzysztof Maziarz氏、Andy Davis氏、Quoc Le氏、Geoffrey Hinton氏、Jeff Dean氏。 0.68
Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. 非常に大きなニューラルネットワーク: スパースゲートのMixy-of-experts層。 0.53
arXiv preprint arXiv:1701.06538, 2017. arxiv プレプリント arxiv:1701.06538, 2017 0.44
[39] Mingxing Tan and Quoc Le. [39]mingxing tan と quoc le です。 0.62
Efficientnet: Rethinking model scaling for convolutional neural networks. Efficientnet: 畳み込みニューラルネットワークのモデルスケーリングを再考する。 0.81
In International conference on machine learning, pages 6105–6114. 院 機械学習に関する国際会議、6105-6114頁。 0.58
PMLR, 2019. 2019年、PMLR。 0.72
[40] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Ashish Vaswani氏、Noam Shazeer氏、Niki Parmar氏、Jakob Uszkoreit氏、Llion Jones氏、Aidan N Gomez氏、Sukasz Kaiser氏、Illia Polosukhin氏。 0.63
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Advances in neural information processing systems, pages 5998–6008, 2017. ニューラル・インフォメーション・プロセッシング・システムの進歩により、2017年5998-6008頁。 0.65
[41] Xin Wang, Jiawei Wu, Junkun Chen, Lei Li, Yuan-Fang Wang, and William Yang Wang. [41]新王、江英、陳順君、李礼、元王、ウィリアム・ヤン王。 0.57
Vatex: A large-scale, high-quality multilingual dataset for video-and-language research. vatex: ビデオ言語研究のための大規模で高品質な多言語データセット。 0.63
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4581–4591, 2019. In Proceedings of the IEEE/CVF International Conference on Computer Vision, page 4581–4591, 2019。 0.46
[42] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush. 42] トーマス・ウルフ、リサンドル・デビュー、ジュリアン・シャウモンド、クレメント・ドラング、アンソニー・モイ、ピアリック・シスタック、ティム・ロート、レミ・ルーフ、モーガン・ファントウィッツ、ジョー・デービソン、サム・シュレイファー、パトリック・フォン・プラテン、クララ・マ、ヤシネ・イェルナイト、ジュリアン・プル、カンウェン・xu、ティブン・ル・スカオ、シルヴァイン・グッガー、マリアマ・ドラメ、クエンティン・リュエスト、アレクサンダー・m・ラッシュ
訳抜け防止モード: [42 ]Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac Tim Rault, Rémi Louf, Morgan Funtowicz, Joe Davison Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger マリアマ・ドレーム(Mariama Drame)、クエンティン・ロースト(Quentin Lhoest)、アレクサンダー・M・ラッシュ(Alexander M. Rush)。
0.93
Huggingface’s transformers: State-of-the-art natural language processing. Huggingfaceのトランスフォーマー:最先端の自然言語処理。 0.74
arXiv preprint arXiv:1910.03771, 2020. arXiv preprint arXiv:1910.03771, 2020 0.40
[43] Jiahong Wu, He Zheng, Bo Zhao, Yixin Li, Baoming Yan, Rui Liang, Wenjia Wang, Shipei Zhou, Guosen Lin, Yanwei Fu, et al Ai challenger: A large-scale dataset for going deeper in image understanding. [43]Jeahong Wu, He Zheng, Bo Zhao, Yixin Li, Baoming Yan, Rui Liang, Wenjia Wang, Shipei Zhou, Guosen Lin, Yanwei Fu, et al Ai Challenger: 画像の理解を深めるための大規模なデータセット。 0.82
arXiv preprint arXiv:1711.06475, 2017. arxiv プレプリント arxiv:1711.06475, 2017 0.44
[44] Liang Xu, Hai Hu, Xuanwei Zhang, Lu Li, Chenjie Cao, Yudong Li, Yechen Xu, Kai Sun, Dian Yu, Cong Yu, et al Clue: A chinese language understanding evaluation benchmark. 44] Liang Xu, Hai Hu, Xuanwei Zhang, Lu Li, Chenjie Cao, Yudong Li, Yechen Xu, Kai Sun, Dian Yu, Cong Yu, et al Clue: 中国語理解評価ベンチマーク。
訳抜け防止モード: 44] 梁 周 拝 フ 玄武 張 ] ル・リ、チェンジー・カオ、ユドン・リ、イェチェン・xu kai sun, dian yu, cong yu, et al clue : 中国語理解評価ベンチマーク。
0.53
arXiv preprint arXiv:2004.05986, 2020. arxiv プレプリント arxiv:2004.05986, 2020 0.43
[45] W Yonghui, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al Bridging the gap between human and machine translation. 45] w yonghui, mike schuster, zhifeng chen, quoc v le, mohammad norouzi, wolfgang macherey, maxim krikun, yuan cao, qin gao, klaus macherey, et al 人間の翻訳と機械翻訳のギャップを埋める。 0.63
arXiv preprint arXiv:1609.08144, 2016. arxiv プレプリント arxiv:1609.08144, 2016 0.40
[46] Fan Zhang, Duyu Tang, Yong Dai, Cong Zhou, Shuangzhi Wu, and Shuming Shi. [46]Fan Zhang、Duyu Tang、Yong Dai、Cong Zhou、Shuangzhi Wu、Shuming Shi。 0.64
Skillnet-nlu: A sparsely activated model for general-purpose natural language understanding. Skillnet-nlu: 汎用自然言語理解のための疎活性化モデル。 0.72
arXiv preprint arXiv:2203.03312, 2022. arXiv preprint arXiv:2203.03312, 2022 0.40
A Appendix appendix (複数形 appendixs) 0.35
Configurations for Downstream Tasks We describe the datasets and configurations for the downstream tasks as described in §4.1. ダウンストリームタスクの設定 以下の4.1で説明したように、ダウンストリームタスクのデータセットと設定を記述する。 0.57
For text, we use TNEWS [44], a benchmark dataset for Chinese text classification with 15 categories. テキストには15カテゴリの中国語テキスト分類のためのベンチマークデータセットであるTNEWS [44]を使用する。 0.83
It includes 53,300 sentences for training, 10,000 for development, and 10,000 for testing. トレーニングは53,300、開発は10,000、テストは10,000である。 0.74
Evaluation metric is accuracy. 評価基準は正確です。 0.71
For sound, we adopt the dataset of AISHELL [9] for automatic speech recognition. 音声ではAISHELL [9] のデータセットを自動音声認識に適用する。 0.72
It includes 170 hours of speech data in Mandarin. マンダリンでは170時間の音声データが含まれている。 0.61
The evaluation metric is character error rate (CER), which means the percentage of characters that are incorrectly predicted (the lower the better). 評価基準はキャラクタエラー率(cer)であり、不正確に予測されたキャラクタの割合(低いほど良い)を意味する。 0.70
For image, we use AIC-ICC dataset [43], a benchmark dataset for text-to-image retrieval. 画像には,テキストから画像への検索のためのベンチマークデータセットである aic-icc dataset [43] を用いる。 0.71
It includes 210,000 image-text pairs for training and 30,000 for evaluation. トレーニング用のイメージテキストペアが210,000、評価用が30,000だ。 0.57
We follow Wukong [21] and consider the first 10,000 images and 50,000 texts from the validation set as the final testing set. Wukong [21]に従い、検証セットから最初の1万の画像と5万のテキストを最終テストセットとして検討する。 0.66
Evaluation metric is Recall @K (e g , K = 1 and 10). 評価基準は Recall @K (e g , K = 1, 10) である。 0.78
For video, we carry out text-to-video retrieval on VATEX [41], which includes 25,991 videos for training and 3,000 for validation. VATEX[41]では,トレーニング用25,991本,検証用3000本を含むテキスト・ツー・ビデオ検索を行う。 0.65
Since some videos are unavailable for they are deleted or hidden by either YouTube or the users, we actually obtain 23,453 videos for training and 2,709 videos for validation. 一部のビデオはYouTubeまたはユーザーによって削除または隠されているため、トレーニング用に23,453本、バリデーション用に2,709本が入手できます。
訳抜け防止モード: 一部のビデオは削除できないため、YouTubeかユーザーによって削除または隠されている。 訓練用に23,453本 検証用に2,709本
0.76
We randomly select 1,500 videos from validation set as our testing set and use the remaining videos as the development set. 検証セットから1500本の動画をランダムに選択し、残りの動画を開発セットとして使用します。 0.70
In the original dataset, there are 10 sentences in Chinese and 10 sentences in English to describe each video. 元のデータセットでは、中国語で10文、英語で10文あり、それぞれのビデオを記述する。 0.75
In this work, we only utilize the Chinese captions. 本書では、中国語の字幕のみを使用する。 0.70
Similar to image retrieval, we use Recall @K (e g , K = 1, 5 and 10) as the evaluation metrics. 画像検索と同様に、評価指標としてRecall @K (eg , K = 1, 5, 10) を用いる。 0.75
For code, since there is no publicly available dataset for Chinese language, we create a dataset by translating the PyTorrent [6] dataset. コードについては、中国語用の公開データセットがないので、pytorrent[6]データセットを変換してデータセットを作成します。 0.69
It contains 218,814 Python package libraries from PyPI and Anaconda environment. pypiとanaconda環境からのpythonパッケージライブラリは218,814である。 0.76
We translate English docstrings to Chinese by a translation toolkit Transmart [26]. 翻訳ツールキットtransmart [26] で英語のdocstringsを中国語に翻訳する。 0.79
We delete duplicate code-text pairs and remove instances with low translation quality. 重複するコードテキストペアを削除し、翻訳品質の低いインスタンスを削除します。 0.62
We mix the original training set, development set and test set. オリジナルのトレーニングセット、開発セット、テストセットを混ぜます。 0.71
At last, we shuffle the mixed set and randomly select 100,000/20,000/30,00 0 for training, validation and testing, respectively. 最終的に、混合セットをシャッフルし、トレーニング、検証、テストのためにそれぞれ10000/20,000/30,000をランダムに選択します。 0.54
The evaluation metric is Recall @K. 評価基準は Recall @K である。 0.75
The model configurations are given as follows. モデル構成は以下の通りである。 0.80
For text, the max length is 512, and a special text padding token is padded if the input is shorter. テキストの場合、最大長は512であり、入力が短い場合は特別なテキストパディングトークンをパディングする。 0.60
For sound, we truncate each waveform to no more than 20ms, which leads to the max length of the sound embedding being 1,000. 音に対して、各波形を20ms以下に切り離すと、音の埋め込みの最大長は1,000になる。 0.70
If the input is shorter, the remaining positions are filled with a special sound padding token. 入力が短い場合は、残りの位置が特別な音パディングトークンで満たされる。 0.63
Other configurations can be found in 3.3. その他の構成は 3.3 で見ることができる。 0.60
For image, same 画像の場合も同じです 0.66
13 13 0.85
英語(論文から抽出)日本語訳スコア
with ViT-B/16 from CLIP [36], we first resize and normalize each image to 224 × 224. CLIP [36] の ViT-B/16 では、まず各イメージを 224 × 224 にリサイズし、正規化します。 0.66
Then, we split each image into 196 patches with the patch size of 16 × 16, which are sent into a 3 in-channel and 768 out-channel 2D-convolution with kernel size of (16, 16) and stride step of (16, 16). 次に、各イメージを16×16のパッチサイズで196のパッチに分割し、カーネルサイズ(16,16)とストライドステップ(16,16)の3つのインチャネルと768のアウトチャネル2d畳み込みに送信する。 0.76
For video, we truncate each video to no more than 10 seconds and transform each video into frames by 3 frames per second. ビデオの場合、各動画を10秒未満に切り刻み、各動画を毎秒3フレームのフレームに変換する。 0.71
Then, we randomly sample 6 frames for each video. そして、各ビデオの6フレームをランダムにサンプリングする。 0.79
At last, 6 video frames after cropping and normalizing are sent into a 3 in-channel and 768 output-channel 3D-convolution with a kernel size of (3, 16, 16) and stride step (3, 16, 16). 最後に、トリミングおよび正規化後の6つのビデオフレームを、カーネルサイズ(3,16,16)とストライドステップ(3,16,16)の3つのインチャネル、768の出力チャネル3D畳み込みに送信する。 0.79
For code, we set the whole max length as 512 with the limit of text max length of 64. コードでは、最大長を512に設定し、最大長を64に制限します。 0.66
We use AdamW [31] optimizer and linear scheduler with 1,000 warmup steps. 私たちは1,000のウォームアップステップを持つadamw [31]オプティマイザと線形スケジューラを使用します。 0.43
There are different ways to initialize the model parameters. モデルパラメータを初期化する方法は様々である。 0.87
To accelerate the training process, instead of training from random initialization, we use ViT-B/16 from CLIP [36] to initialize image-related parameters and initialize other parameters from scratch. ランダム初期化からトレーニングを行う代わりに,CLIP[36]からViT-B/16を使用して画像関連パラメータを初期化し,他のパラメータをスクラッチから初期化する。 0.75
Since different modalities have different memory costs, we set the batch sizes as 512/1024/3072/1024/5 12 for text/sound/image/vid eo/code to maximize the memory usage of GPUs. メモリコストが異なるため、バッチサイズを512/1024/3072/1024/5 12 for text/sound/image/vid eo/code to max the memory usage of GPUs。 0.69
We observe that sound and code modalities require longer training steps to converge and the data scale of video is smaller than other modalities. 音声と符号のモダリティが収束するには長いトレーニングステップが必要であり、ビデオのデータスケールは他のモダリティよりも小さいことを観察する。 0.66
Therefore, we sample instances for text/sound/image/vid eo/code modalities with the ratio of 2/4/2/1/4. そこで,2/4/2/1/4の比率でテキスト/音声/画像/ビデオ/コードモダリティのサンプルをサンプリングした。 0.41
For each update, we only sample instances from one modality, which makes the learning process more stable. アップデート毎に、1つのモダリティからインスタンスをサンプリングするだけで、学習プロセスがより安定します。 0.73
We update our model for 200,000 steps in total. われわれのモデルを20万のステップでアップデートする。 0.77
Configurations for Pretraining Tasks We describe the datasets and configurations for the pretraining tasks as described in §4.2. プリトレーニングタスクの設定 4.2で説明したように、プリトレーニングタスクのデータセットと設定を記述する。 0.61
For text, we crawl a collection of raw Chinese texts containing Wikipedia, novels, news, lyrics and poems. テキストについては、ウィキペディア、小説、ニュース、歌詞、詩を含む中国語の原文のコレクションをクロールする。 0.73
We clean the data and finally obtain a dataset of about 300 gigabytes. データをクリーンにし、最終的に約300ギガバイトのデータセットを取得します。 0.62
For sound, we collect audio datasets from an open-source platform 3, which includes about 1,200 hours of Chinese speech data. 音声に関しては、約1200時間の中国語音声データを含むオープンソースのプラットフォーム3からオーディオデータセットを収集します。 0.73
For image, we download the Wukong dataset [21] which originally includes 101,483,885 text-image pairs and filter out low-quality instances that with no Chinese words, too many illegal symbols and the length of captions is less than 4. 画像については、もともと101,483,885のテキストと画像のペアを含むwukongデータセット[21]をダウンロードし、中国語の単語なし、違法なシンボルが多すぎる、字幕の長さが4.5%未満の低品質のインスタンスをフィルタリングします。 0.61
We finally use about 84,000,000 text-image pairs for pretraining. 最後に、トレーニングに8万4000,000のテキストイメージペアを使用しました。 0.42
For video, we use WebVid-2M [7], which comprises of over two million video-text pairs scraped from the internet. ビデオにはWebVid-2M[7]を使用します。
訳抜け防止モード: ビデオでは webvid-2 m [7 ] を使い インターネットから削除された200万以上のビデオとテキストペアで構成される。
0.63
We translate the original English texts to Chinese by the translation tool Transmart and use the translated data for pretraining. 翻訳ツールTransmartにより、原文を中国語に翻訳し、翻訳データを用いて事前学習を行う。 0.77
For code pretraining, we hold out 800,000 code-text pairs from the aforementioned code dataset translated from PyTorrent, which have no overlaps with the datasets used for the downstream task of text-code retrieval. コード事前トレーニングでは、前述のPyTorrentから翻訳されたコードデータセットから80万のコードテキストペアを保持します。
訳抜け防止モード: コードの事前トレーニングには、前述のpytorrentから翻訳されたコードデータセットから80万のコード - テキストペアを保持します。 テキスト - コード検索のダウンストリームタスクで使用されるデータセットと重複しない。
0.61
We pretrain SkillNet using the AdamW [31] optimizer with the learning rate 1e-5 and a linear scheduler with 10,000 warmup steps. 学習率1e-5のadamw[31]オプティマイザと10,000ウォームアップステップの線形スケジューラを用いてスキルネットを事前学習する。 0.55
Same with the configuration for downstream tasks, we use one-modality data to pretrain our model in each update. 下流タスクの設定と同様に、更新毎にモデルを事前トレーニングするために1つのモダリティデータを使用します。
訳抜け防止モード: 下流タスクの設定と同じです。 1つのモダリティデータを使い 更新ごとにモデルを事前訓練します
0.69
The model is pretrained for 1,000,000 steps in total with batch sizes of 1024/512/8192/2048/5 12 for text/sound/image/vid eo/code, respectively. このモデルは、テキスト/サウンド/画像/ビデオ/コードそれぞれ1024/512/8192/2048/5 12のバッチサイズで、合計で1,000,000のステップで事前トレーニングされている。 0.39
Pretraining takes about 14 days on 64 A100 GPUs of 40GB memory size. 事前トレーニングは、64 A100 GPUの40GBメモリサイズで約14日かかる。 0.73
3https://blog.ailemo n.net/2018/11/21/fre e-open-source-chines e-speech-datasets/ 3https://blog.ailemo n.net/2018/11/21/fre e-open-source-chines e-speech-datasets/ 0.08
14 14 0.42
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。