論文の概要、ライセンス

# (参考訳) CLASTER:ゼロショット動作認識のための強化学習によるクラスタリング [全文訳有]

CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action Recognition ( http://arxiv.org/abs/2101.07042v1 )

ライセンス: CC BY 4.0
Shreyank N Gowda, Laura Sevilla-Lara, Frank Keller, Marcus Rohrbach(参考訳) ゼロショットアクション認識は、視覚的な例のないアクションクラスを認識するタスクであり、目に見えないクラスに関連するセマンティックな埋め込みである。 問題は、クラス間の区別を失うことなく、目に見えないクラスのインスタンスによく一般化する関数を学ぶことである。 ニューラルネットワークは、視覚クラス間の複雑な境界をモデル化することができる。 しかし、ゼロショット学習では、これらの高度に専門化されたクラス境界は、目に見えるクラスから見当たらないクラスへうまく移行できないかもしれない。 本稿では,各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に検討するクラスタリングモデルを提案する。 私たちはReinforcement Learningを使ってクラスタリングを最適化します。 我々は提案手法をCLASTERと呼び、標準ゼロショット評価と一般化ゼロショット学習の両方において、標準データセットであるUCF101, HMDB51, オリンピックスポーツの最先端性を常に改善することを確認する。

Zero-shot action recognition is the task of recognizing action classes without visual examples, only with a semantic embedding which relates unseen to seen classes. The problem can be seen as learning a function which generalizes well to instances of unseen classes without losing discrimination between classes. Neural networks can model the complex boundaries between visual classes, which explains their success as supervised models. However, in zero-shot learning, these highly specialized class boundaries may not transfer well from seen to unseen classes. In this paper, we propose a clustering-based model, which considers all training samples at once, instead of optimizing for each instance individually. We optimize the clustering using Reinforcement Learning which we show is critical for our approach to work. We call the proposed method CLASTER and observe that it consistently improves over the state-of-the-art in all standard datasets, UCF101, HMDB51, and Olympic Sports; both in the standard zero-shot evaluation and the generalized zero-shot learning.
公開日: Mon, 18 Jan 2021 12:46:24 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n a J 1 2 0 2 n a J 0.85
8 1 ] V C . 8 1 ] 略称はC。 0.73
s c [ 1 v 2 4 0 7 0 sc [ 1 v 2 4 0 7 0 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
CLASTER: Clustering with Reinforcement Learning CLASTER:強化学習によるクラスタリング 0.89
for Zero-Shot Action Recognition ゼロショット動作認識 0.57
Shreyank N Gowda1 Shreyank N Gowda1 0.94
s.narayana-gowda@sms .ed.ac.uk s.narayana-gowda@sms .ed.ac.uk 0.34
Laura Sevilla-Lara1 l.sevilla@ed.ac.uk Laura Sevilla-Lara1 l.sevilla@ed.ac.uk 0.47
Frank Keller1 frank.keller@ed.ac.u k フランク・ケラー1 frank.keller@ed.ac.u k 0.50
1University of Edinburgh エディンバラ大学1校 0.70
2Facebook AI Research 2Facebook AI研究 0.92
Marcus Rohrbach2 Marcus Rohrbach 0.78
mrf@fb.com mrf@fb.com 0.78
Abstract Zero-shot action recognition is the task of recognizing action classes without visual examples, only with a semantic embedding which relates unseen to seen classes. 概要 ゼロショットアクション認識は、視覚的な例のないアクションクラスを認識するタスクであり、目に見えないクラスに関連するセマンティックな埋め込みである。 0.57
The problem can be seen as learning a function which generalizes well to instances of unseen classes without losing discrimination between classes. 問題は、クラス間の区別を失うことなく、目に見えないクラスのインスタンスによく一般化する関数を学ぶことである。 0.63
Neural networks can model the complex boundaries between visual classes, which explains their success as supervised models. ニューラルネットワークは、視覚クラス間の複雑な境界をモデル化することができる。 0.65
However, in zero-shot learning, these highly specialized class boundaries may not transfer well from seen to unseen classes. しかし、ゼロショット学習では、これらの高度に専門化されたクラス境界は、目に見えるクラスから見当たらないクラスへうまく移行できないかもしれない。 0.44
In this paper we propose a clustering-based model, which considers all training samples at once, instead of optimizing for each instance individually. 本稿では,各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に検討するクラスタリングモデルを提案する。 0.82
We optimize the clustering using Reinforcement Learning which we show is critical for our approach to work. 私たちはReinforcement Learningを使ってクラスタリングを最適化します。
訳抜け防止モード: 強化学習を用いてクラスタリングを最適化し 私たちは仕事へのアプローチにとって重要だと示します。
0.68
We call the proposed method CLASTER and observe that it consistently improves over the state-of-the-art in all standard datasets, UCF101, HMDB51 and Olympic Sports; both in the standard zeroshot evaluation and the generalized zero-shot learning. 提案手法をclasterと呼び,すべての標準データセット,uff101,hmdb51,オリンピックスポーツにおいて,標準ゼロショット評価と一般化ゼロショット学習において,最先端を一貫して改善していることを観察した。 0.63
1. Introduction Research on action recognition in videos has made rapid progress in the last years, with models becoming more accurate and ceiling performance being reached on some datasets. 1. はじめに ビデオにおけるアクション認識の研究は、過去数年間で急速に進歩し、モデルがより正確になり、いくつかのデータセットで天井性能が到達した。 0.67
However, much of this progress has hinged on large scale training sets. しかし、この進歩の多くは大規模なトレーニングセットにかかっている。 0.77
In practice though, it is not practical that each time we want a network to recognize an additional class, we collect thousands of video samples. しかし実際には、ネットワークが追加のクラスを認識する度に、何千ものビデオサンプルを収集することは実用的ではない。 0.70
This idea has led to research in the zero-shot learning (ZSL) domain, where training occurs in a set of seen classes, and testing occurs in a set of unseen classes. このアイデアはゼロショット学習(ZSL)ドメインの研究につながり、そこではトレーニングは一連のクラスで行われ、テストは目に見えない一連のクラスで実行される。 0.72
In particular, in the case of video ZSL, class labels are typically “enriched” with semantic embeddings (which are sometimes manually annotated and some other times inferred automatically) 特にビデオZSLの場合、クラスラベルは通常、セマンティックな埋め込みで“リッチ”される(手動で注釈付けされ、場合によっては自動的に推論される)。 0.73
Figure 1. CLASTER improves the representation and clustering in unseen classes. 図1。 CLASTERは、目に見えないクラスの表現とクラスタリングを改善している。 0.62
The figure shows t-SNE [21] of video instances, where each color corresponds to a unique unseen class label. 図はビデオインスタンスの t-sne [21] を示し、各色は一意に見えないクラスラベルに対応する。 0.80
Our reinforcement learning (RL) optimization improves the representation by making it more compact: in (b) instances of the same class, i.e. 我々の強化学習(RL)最適化は、同じクラスの(b)インスタンスにおいて、よりコンパクトにすることで表現を改善する。 0.81
same color, are together and there are less outliers for each class compared to (a). 同じ色が組み合わされ、クラスごとに(a)よりも外れ値が少ない。 0.68
that help transferring the knowledge from the seen training classes, to the new unseen classes. 目に見えるトレーニングクラスから 新しい目に見えないクラスに 知識を移すのに役立ちます 0.73
In the typical prediction pipeline, at test time a seen class is predicted, and its semantic embedding is used to search for a nearest neighbor in the space of the semantic embeddings of unseen classes. 典型的な予測パイプラインでは、テスト時に見たクラスが予測され、そのセマンティックな埋め込みは、目に見えないクラスのセマンティックな埋め込みの空間における最も近い隣人を探すために使用される。 0.62
The predicted class will be the class corresponding to the nearest neighbor. 予測されたクラスは、最も近い隣人に対応するクラスとなる。 0.75
While ZSL is potentially a very useful technology, it also presents large challenges. ZSLは非常に有用な技術であるが、大きな課題も示している。 0.76
In particular, it requires learning a transfer function that discriminates unseen classes. 特に、見当たらないクラスを判別する転送関数を学習する必要がある。 0.65
This transfer function is defined using the semantic embeddings of each class, and therefore it is defined at the class level. この転送関数は各クラスのセマンティックな埋め込みを使って定義され、したがってクラスレベルで定義される。 0.83
This presents a challenge especially in the case of large intra-class variability, and at boundaries of similar classes, like “horse racing” and “horseback riding”. これは特にクラス内変動が大きい場合や,“競馬”や“乗馬”など,同じようなクラスの境界において問題となる。 0.62
The power of neural networks is that they are very good at learning complex discrimination functions of classes of with many modes, i.e. ニューラルネットワークのパワーは、多くのモードを持つクラスの複雑な識別関数、すなわち、学習に非常に優れています。 0.77
instances of the same class can be very different and still be projected by the neural network to the same category. 同じクラスのインスタンスは、非常に異なることができ、なおもニューラルネットワークによって同じカテゴリに投影される。 0.75
While this works well in supervised training, this can be a problem in zero-shot recognition, where the highly specialized discrimination function might not transfer well to instances of unseen categories. これは教師付きトレーニングではうまく機能するが、ゼロショット認識では問題となりうる。
訳抜け防止モード: これは教師付きトレーニングではうまく機能するが、ゼロでは問題になり得る - ショット認識。 高度に特殊化された識別関数が、見当たらないカテゴリの例にうまく移行できない場合。
0.55
In this 1 この中で 1 0.80
英語(論文から抽出)日本語訳スコア
work, we turn to clustering which considers all training instances at once rather than optimizing for classifying single instances. 単一のインスタンスの分類を最適化するのではなく、すべてのトレーニングインスタンスを一度に検討するクラスタリングに目を向けます。 0.59
The intuition here is that all instances of a class, while different from each other, belong to the same cluster, simplifying the classification problem. ここでの直感では、クラスの全インスタンスは、互いに異なるが、同じクラスタに属し、分類問題を単純化している。 0.73
At the same time, classes that are too similar and difficult to discriminate belong to different clusters. 同時に、類似しすぎて識別が難しいクラスは異なるクラスタに属している。 0.69
Specifically, we use Reinforcement Learning (RL) to optimize the clustering, so that the signal of the classification can be used to learn the clusters. 具体的には、クラスタリングを最適化するために強化学習(rl)を使用して、分類のシグナルをクラスタの学習に利用します。 0.80
To keep the strong discrimination power we combine a cluster centroid representation with an instance level feature representation for the final classification. 強い識別力を維持するために、最終分類のためのクラスタセントロイド表現とインスタンスレベルの特徴表現を組み合わせます。 0.68
As we can see in Figure 1 our approach leads to less noisy and compact representations for unseen classes. 図1で分かるように、我々のアプローチは目に見えないクラスに対するノイズが少なくコンパクトな表現につながる。 0.68
We call our proposed method CLASTER, for CLustering for Action recognition in zero-ShoT lEaRning, and show that it significantly outperforms all existing methods across all standard zero-shot action recognition datasets, and all zero-shot tasks. 提案手法を,ゼロショット学習における行動認識のためのクラスタリングとしてclasterと呼び,すべての標準ゼロショット動作認識データセットおよびゼロショットタスクにおいて,既存の手法を著しく上回っていることを示す。 0.68
Another challenge of ZSL is finding the mapping from seen classes to unseen classes without any visual cues. zslのもうひとつの課題は、目に見えるクラスから見えないクラスへのマッピングを見つけることだ。
訳抜け防止モード: ZSLのもう一つの課題は 目に見えるクラスから見えないクラスへの マッピングを見つけました
0.78
It is common to use semantic embeddings obtained with embedding models such as word2vec [24] on the class labels. クラスラベルに word2vec [24] などの埋め込みモデルで得られる意味的埋め込みを使うのが一般的である。 0.73
In image datasets word embeddings work well, as they can capture hierarchical relationships among labels which are represented as nouns. 画像データセットでは単語埋め込みがうまく機能し、名詞として表されるラベル間の階層的な関係をキャプチャできる。 0.70
Action classes on the other hand are typically represented by verbs, and often have more than one word per label. 一方、アクションクラスは一般的に動詞で表現され、ラベルごとに複数の単語を持つことが多い。 0.80
Previous work [10, 22, 25] averages the embeddings of each word in a multi-word label, to obtain a single semantic embedding for a class. 以前の作業[10, 22, 25]は、各単語のマルチワードラベルへの埋め込みを平均し、クラスに対して単一の意味的埋め込みを得る。 0.77
However, as we show in this paper, this does not always capture the inter-dependency among action classes. しかし、本稿で示すように、これは必ずしもアクションクラス間の依存関係を捉えるものではない。 0.69
Hence, we propose the use of sentence2vec [28], a model that is designed for sentence embeddings rather than word embeddings. そこで本研究では,単語埋め込みではなく文埋め込みのためのモデルである sentence2vec [28] を提案する。 0.79
As action classes are tagged with multi-word labels, using sentence2vec results in more accurate semantic class representations. アクションクラスはマルチワードラベルでタグ付けされるため、 sentence2vec はより正確なセマンティッククラス表現をもたらす。 0.70
We explain this in section 3.8 and visualize the differences in embeddings. これをセクション3.8で説明し、埋め込みの違いを視覚化する。 0.68
Including this also into CLASTER, we obtain a total of up to 11% improvement over previous state-of-the-art methods. これもclasterに含めると,これまでの最先端手法と比較して,合計で11%の改善が得られます。 0.57
Contributions: Our main contribution is CLASTER, a novel model for zero-shot learning which learns a clustering-based representation optimized with reinforcement learning (RL). コントリビューション: 我々の主な貢献は、強化学習(RL)に最適化されたクラスタリングに基づく表現を学習するゼロショット学習の新しいモデルであるCLASTERである。 0.73
Clustering with RL has not previously been explored for this task, and we show in our ablations that the RL optimization is the critical aspect of our approach. RL を用いたクラスタリングは,これまでは検討されていないが,我々は RL 最適化が我々のアプローチの重要な側面であることを示す。 0.79
In our experimental evaluation we find that CLASTER consistently outperforms prior work on three challenging zero-shot action recognition benchmarks, Olympics, HMDB51, and UCF101, both, in zero-shot learning and in the more challenging generalized zero-shot learning (GZSL) task. CLASTERは、ゼロショット学習とより困難な一般化ゼロショット学習(GZSL)タスクにおいて、オリンピック、HMDB51、UCF101の3つの挑戦的なゼロショット行動認識ベンチマークにおいて、常に先行研究より優れていた。 0.59
While we observe consistent improvements independent of the semantic embeddings employed, we show the importance of using sentence-level em- 意味的埋め込みとは無関係に一貫した改善を観察する一方で,文レベルのemの使用の重要性を示す。 0.54
beddings such as sentence2vec for zero-shot action recognition, as actions are frequently described with multiple words. アクションが複数の単語で頻繁に記述されるため、0ショットアクション認識のための sentence2vec などのベディング。 0.62
This improves performance of both our model and prior work. これにより、モデルと事前作業の両方のパフォーマンスが向上します。 0.60
Our improvements over previously reported results are substantial, e g we achieve 50.2% accuracy for ZSL on UCF101 (vs. prior best 43.0% [10]) and 47.4% accuracy on GZSL on HMDB51 (vs. prior best 36.1% [22]). その結果,UCF101では50.2%,HMDB51では47.4%,UCF101では50.2%,HMDB51では47.4%であった。
訳抜け防止モード: 例えば、UCF101上でのZSLの50.2%の精度を達成する(前回の43.0% [10 ])。 また、HMDB51上のGZSLでは47.4%の精度(前回の36.1% [22 ])であった。
0.75
2. Related Work Traditional Fully Supervised Action Recognition. 2. 従来型完全監視行動認識システム。 0.61
The seminal work of Simonyan and Zisserman [35] introduced the now standard two-stream framework, which combines spatial (i.e. simonyan と zisserman [35] の独創的な研究は、空間的(すなわち、空間的)を結合した、現在標準的な2つのストリームフレームワークを導入した。
訳抜け防止モード: Simonyan と Zisserman [35 ] の独創的な仕事は、今や標準の2ストリームフレームワークを導入した。 空間(すなわち
0.73
RGB) and temporal (i.e. RGB) と temporal (すなわち。 0.78
optical flow) information. Also widely used are the spatio-temporal CNNs in C3D [37], P3D Resnet [30] and I3D [3], which has become one of the most commonly used off-the-shelf methods, and is a backbone for many applications, including this work. 光の流れ)情報。 また、c3d [37]、p3d resnet [30]、i3d [3]の時空間cnnも広く使われており、これは最も一般的に市販されているオフ・ザ・棚のメソッドの1つであり、この作品を含む多くのアプリケーションのバックボーンとなっている。
訳抜け防止モード: 光の流れ)情報。 また、C3D[37 ]の時空間CNNも広く使われている。 P3D Resnet [ 30 ] と I3D [ 3 ] は、最もよく使われるオフメソッドの1つになっている。 この作業を含む多くのアプリケーションのためのバックボーンです。
0.77
More recently, action recognition methods have become more sophisticated, using attention [38, 11] and leveraging the multi-modal nature of videos [2]. 近年, アクション認識手法が高度化しており, 注意[38, 11] と, ビデオのマルチモーダルな性質 [2] を活用している。 0.80
The work most related to ours is Ji et al [13], who proposed the use of knowledge maps for coarse-to-fine action recognition. 私たちの最も関係の深い仕事はji et al [13]であり、彼は粒度の細かいアクション認識に知識マップを使うことを提案した。 0.60
We build on this idea and use clusters as coarse representatives for classes, later refined to obtain a fine-grained classification result. このアイデアに基づいて、クラスタをクラスの粗い代表として使用し、後に微細な分類結果を得るために洗練する。 0.63
Zero-shot Learning. Early approaches followed the idea of learning semantic classifiers for seen classes and then classifying the visual patterns by predicting semantic descriptions and comparing them with descriptions of unseen classes. ゼロショット学習。 初期のアプローチは、見知らぬクラスの意味的分類器を学習し、意味的記述を予測し、目に見えないクラスの記述と比較することによって視覚的パターンを分類するというアイデアに従った。
訳抜け防止モード: ゼロショット学習。 初期のアプローチは、目に見えるクラスに対する意味分類器の学習に追従した 視覚パターンを分類し 意味的な記述を予測し 目に見えないクラスの記述と比較します
0.74
Lampert et al [17] propose direct attribute prediction, which infers the posterior of each semantic description and calculate class posteriors, and indirect attribute prediction [17], which computes semantic posteriors from the class posterior of seen categories. Lampert et al [17] は,各意味的記述の後部を推測し,クラス後部を推定する直接属性予測,および,対象カテゴリのクラス後部からの意味的後部を計算する間接属性予測[17]を提案する。 0.82
Follow up work showed how to replace the manual attributes with automatically mined semantic relatedness [32]. フォローアップ作業は、手動属性を自動マイニングされたセマンティック関連性[32]で置き換える方法を示しました。
訳抜け防止モード: フォローアップ作業の方法 手動属性を自動的にマイニングされたセマンティック関連性[32 ]に置き換える。
0.75
The SJE model [1] uses multiple compatibility functions to construct a joint embedding space. SJEモデル[1]は、結合埋め込み空間を構築するために複数の互換性関数を使用する。 0.69
ESZSL [33] uses a Frobenius norm regularizer to learn an embedding space. ESZSL [33] はフロベニウスノルム正規化器を用いて埋め込み空間を学習する。 0.78
In videos, there are additional challenges: action labels need more complex representations than objects and hence give rise to more complexity in recognition and transfer. アクションラベルはオブジェクトよりも複雑な表現を必要とするため、認識と転送の複雑さが増す。
訳抜け防止モード: ビデオにはさらに課題があります : アクションラベルはオブジェクトよりも複雑な表現を必要とするため、認識と転送がより複雑になる。
0.79
ZSL for Action Recognition. アクション認識のためのZSL。 0.72
Early work [31] was restricted to cooking activities, using script data to transfer to unseen classes. 初期の作業[31]は料理活動に制限され、スクリプトデータを使用して見当たらないクラスに転送された。 0.63
Gan et al [8] consider each action class as a domain, and address semantic representation identification as a multi-source domain generalization problem. Gan et al [8] は、各アクションクラスをドメインとみなし、アドレス意味表現の識別をマルチソースのドメイン一般化問題とみなす。 0.73
Manually specified semantic representations are simple and effective [44] but labor-intensive to annotate. 手動で指定した意味表現は単純で効果的な[44]が、注釈を付けるのに手間がかかる。 0.50
To overcome this, the use of label embeddings has proven popular, as only category names are needed. これを解決するためにラベル埋め込みの使用は、カテゴリ名のみを必要とするため、広く普及している。 0.64
Xu et al [41, 40] use label embeddings to build a common embedding space between class labels and video features. xu et al [41, 40] ラベル埋め込みを使用して、クラスラベルとビデオ機能の間の共通の埋め込み空間を構築する。 0.74
The use of error-correcting codes 2 誤り訂正符号の使用 2 0.77
英語(論文から抽出)日本語訳スコア
was proposed by [29]. 提案は[29]でした 0.67
Some approaches use pairwise relationships between classes [6] or inter-class relationships [7]. クラス [6] とクラス間関係 [7] のペア関係を使うアプローチもある。 0.74
An out-of-distribution detector has been used along with GANs [22] to aid GZSL. gzslを支援するためにgans[22]と共に分散検出器が使用されている。 0.58
Graph Neural networks have also been used for ZSL [10]. グラフニューラルネットワークもZSL [10]に使用されている。 0.79
Reinforcement Learning for Zero-Shot Learning. ゼロショット学習のための強化学習 0.75
RL for ZSL is a research topic that has only recently received attention. RL for ZSLは、最近注目されたばかりの研究トピックである。 0.83
To the best of our knowledge, there is no other work using RL for zero-shot action recognition. 我々の知る限りでは、ゼロショット動作認識にRLを用いる研究は他にはない。 0.73
RL for ZSL in images was introduced by Liu et al [19] by using a combination of ontology and RL. 画像中のZSLに対するRLは,LuらによりオントロジーとRLの組み合わせを用いて導入された。 0.74
They use RL to adaptively determine the discriminative degree of hierarchical classification rules. 彼らはRLを用いて階層的分類規則の識別の度合いを適応的に決定する。 0.67
For zero-shot text classification, Ye et al. ゼロショットテキスト分類では、Ye et al。 0.70
[42] propose a self-training method to efficiently leverage unlabeled data. [42] ラベルのないデータを効率的に活用するための自己学習手法を提案する。 0.54
They use the RL framework to learn a data selection strategy automatically and provide a more reliable selection. rlフレームワークを使用して、データ選択戦略を自動的に学習し、より信頼性の高い選択を提供する。 0.66
RL has been used in the zero-shot setting for problems such as task generalization [27], active learning [4], and video object segmentation [12]. rlはタスクの一般化[27]、アクティブラーニング[4]、ビデオオブジェクトのセグメンテーション[12]といった問題に対してゼロショット設定で使われてきた。 0.72
3. CLASTER: Clustering with RL for Zero- 3. CLASTER: RLによるゼロクラスタリング 0.80
Shot Action Recognition In this section we describe our proposed method, CLASTER, which leverages clustering of visual and semantic features for video action recognition and optimizes the clustering with RL. ショットアクション認識 この節では、ビデオアクション認識に視覚的特徴と意味的特徴のクラスタリングを活用し、RLによるクラスタリングを最適化するCLASTERについて述べる。 0.78
Figure 2 shows an overview of the method. 図2はメソッドの概要を示しています。 0.77
3.1. Problem Definition Let S be the training set of seen classes. 3.1. 問題定義 S を見たクラスのトレーニングセットとする。 0.72
S is composed of the tuples (x, y, a(y)), where x ∈ X represents the spatio-temporal features of a video (in our experiments, a pre-trained I3D [3] network, using both RGB and optical flow, concatenated) in the space of possible video representation X, y represents the class label in the set of Ys seen class labels, and a(y) denotes the category-specific semantic representation of class y. S はタプル (x, y, a(y)) で構成されており、x ∈ X はビデオの時空間的特徴(実験では、RGB と光フローの両方を用いて事前訓練された I3D [3] ネットワーク)を表し、y はYs のクラスラベルの集合のクラスラベルを表し、a(y) はクラス y のカテゴリ固有の意味表現を表す。 0.69
These semantic representations are manually annotated in some datasets and computed using a word2vec representation in other datasets. これらの意味表現は、いくつかのデータセットで手動で注釈付けされ、他のデータセットで word2vec 表現を使用して計算される。 0.47
Let U be the set composed of pairs (u, a(u)), where u is a class in the set of unseen classes Yu and a(u) are the corresponding semantic representations. U をペア (u, a(u)) からなる集合とし、u は未確認クラス Yu と a(u) の集合のクラスであり、対応する意味表現である。 0.69
The seen classes Ys and the unseen classes Yu do not overlap. 見たクラス Ys と見えないクラス Yu は重複しない。 0.69
The zero-shot learning (ZSL) task is to train a classifier that takes as input a visual video representation and outputs a class label of the unseen classes, as fZSL : X → YU . ゼロショット学習(ZSL)タスクは、視覚ビデオ表現を入力として、未確認クラスのクラスラベルを fZSL : X → YU として出力する分類器を訓練することである。 0.80
In generalized zero-shot learning (GZSL), the task is to train a classifier that takes as input a visual video representation and outputs a class label of the union of the seen and unseen classes, as fGZSL : X → YS ∪ YU . 一般化ゼロショット学習(GZSL: Generalized zero-shot Learning)では、視覚ビデオ表現を入力として、見知らぬクラスと見えないクラスの結合のクラスラベルをfGZSL : X → YS > YU として出力する分類器を訓練する。 0.73
In the GZSL task, we use a bias detector following Gao et al [9], to decide if the video belongs to a seen class or an unseen class. GZSLタスクでは、Gao et al [9] に続くバイアス検出器を使用して、ビデオが目に見えないクラスに属しているかどうかを判断する。 0.73
3.2. Cluster Initialization 3.2. クラスタ初期化 0.74
We cluster all instances in the training set S. We initialize the clusters with the k-means [5] algorithm and then optimize the centroids with reinforcement learning. k-means [5]アルゴリズムでクラスタを初期化し、強化学習でcentroidsを最適化します。
訳抜け防止モード: トレーニングセットs内のすべてのインスタンスをクラスタ化します。クラスタをk - means [5 ]アルゴリズムで初期化します。 強化学習でセンチロイドを最適化します
0.64
We now describe the initial clustering process, and the optimization in Section 3.5. では、最初のクラスタリングプロセスと最適化について、セクション3.5で説明します。 0.60
We first need to combine the visual features xi and the semantic representation a(yi) of each video sample, to obtain a visual-semantic representation of the video. まず、映像の視覚的表現を得るために、各映像サンプルの視覚特徴xiと意味表現a(yi)を組み合わせる必要がある。 0.68
There are different ways in which these could be combined. これらの組み合わせには様々な方法がある。 0.68
We choose to concatenate them, but first map them to a common space, which is helpful since at test time we will not have the semantic component. まず、それらを共通の空間にマップしますが、これはテスト時に意味的なコンポーネントがないので役に立ちます。
訳抜け防止モード: 私たちはそれらを結合するが、まずそれらを共通の空間にマップする。 テスト時にセマンティクスコンポーネントは持たないので、これは役に立ちます。
0.62
Specifically, we map the semantic representation a(yi) to a space that matches the dimensionality of the visual features xi. 具体的には、意味表現 a(yi) を視覚特徴 xi の次元性に一致する空間に写像する。 0.72
We use a multi-layer perceptron (MLP) for this, which consists of two fully connected (FC) layers and a ReLU. 我々はこのために2つの完全連結(FC)層とReLUからなる多層パーセプトロン(MLP)を用いる。 0.77
This MLP is trained with a least-square embedding loss to minimize the distance between xi and the output from the MLP, which we call a(cid:48)(y). このMLPは、最小2乗の埋め込み損失で訓練され、xi と MLP からの出力との距離を最小に抑え、これを a(cid:48)(y) と呼ぶ。
訳抜け防止モード: このMLPは最小二乗埋め込み損失で訓練される xi と MLP からの出力との距離を最小にするため、a(cid:48)(y ) と呼ぶ。
0.84
We use the visual feature space as the common embedding space [43]. 視覚特徴空間を共通埋め込み空間 [43] として利用する。 0.76
Now we can concatenate xi and a(cid:48)(y) to obtain a visualsemantic representation of each video. これで、xi と a(cid:48)(y) を結合して各ビデオの視覚的表現を得ることができる。 0.64
Using this representation, we compute k clusters using the k-means algorithm. この表現を用いてkクラスタをk-meansアルゴリズムを用いて計算する。 0.74
Each cluster j has an initial cluster centroid or representative cj, that is the average of all visual-semantic representations in that particular cluster. 各クラスタjは、そのクラスタ内のすべてのビジュアル・セマンティクス表現の平均である初期クラスタcentroidまたは代表cjを持っている。 0.77
3.3. Coarse-to-fine Network 3.3. 粗粒間ネットワーク 0.72
We propose to use a coarse-to-fine network for ZSL, where each coarse representation of a video is obtained using the cluster centroids that the input video is closer to, and the fine representation is the final classification result of the input video. 本稿では,ZSLの粗大なネットワークを用いて,入力ビデオが近いクラスタセントロイドを用いて,ビデオの粗大な表現をそれぞれ取得し,その微細な表現が入力ビデオの最終分類結果であることを示す。 0.76
An overview of this network is seen in Figure 3. このネットワークの概要を図3に示す。 0.67
Given input video feature xi, the coarse part of the network outputs an intermediate representation zi. 入力映像特徴xiが与えられると、ネットワークの粗い部分は中間表現ziを出力する。 0.82
Concatenating xi and zi we obtain the coarse representation ωi. xi と zi を連結すると、粗表現 ωi が得られる。 0.49
We now use the clusters to pull the coarse representation closer to the nearest centroids, and thus clean outliers. 現在、クラスタを使用して、粗い表現を最も近いcentroidsにプルすることで、アウトリアーをクリーンにしています。 0.48
For this, we compute the Euclidean distance to each cluster j, which we refer to as di,j, take its inverse (i.e 1/di,j) and normalize the distances using their maximum and minimum values. このために、各クラスター j に対するユークリッド距離を計算し、それを di,j と呼び、その逆(すなわち 1/di,j)を取り、その最大値と最小値を用いて距離を正規化する。 0.76
We represent these normalized values using θi,j, and will serve as the weights of each cluster centroid in the final coarse representation bi: 我々は、これらの正規化値をθi,j を用いて表現し、最終的な粗表現 bi: において各クラスタの重みとして機能する。 0.62
k(cid:88) bi = ωi + k(cid:88) bi = ωi + 0.91
θi,jcj (1) θi,jcj (1) 0.90
This coarse representation bi is the input to the fine network, which is simply an MLP. この粗い表現 bi は、単に MLP であるファインネットワークへの入力である。 0.70
The output of the fine network is a vector corresponding to the total number of seen 細かなネットワークの出力は、見た総数に対応するベクトルである 0.77
j=1 3 j=1 3 0.72
英語(論文から抽出)日本語訳スコア
Figure 2. Overview of CLASTER. 図2。 CLASTERの概要 0.63
We train a MLP to obtain a joint visual-semantic embedding per instance. MLPをトレーニングし、インスタンス毎に共同的な視覚的セマンティックな埋め込みを得る。 0.53
We cluster these with k-means to obtain initial cluster representatives. 我々はこれらをk平均でクラスタリングし、初期クラスタ代表を得る。 0.59
We compute a coarse representation of the video that helps in identifying the nearest clusters. ビデオの粗い表現を計算し、最も近いクラスタを特定するのに役立ちます。 0.68
We then obtain a weighted representation of all clusters and this is used as input to the fine network which performs the final classification. 次に、全てのクラスタの重み付き表現を求め、これを最終分類を行うファインネットワークへの入力として利用する。 0.81
Based on the classification result, we send a reward and optimize the clusters using REINFORCE. 分類結果に基づいて報酬を送信し,強化を用いてクラスタを最適化する。 0.80
At test time, we first perform fully supervised classification on the seen classes and then do a nearest neighbor search with the rectified semantic embeddings to predict the unseen class. テスト時には、まず、見掛けたクラスで完全に教師付き分類を行い、次に直交した意味埋め込みで最寄りの隣接探索を行い、見当たらないクラスを予測します。 0.58
3.4. Loss Function We inject additional supervision right before classification, by using a semantic softmax function, inspired by Ji et al. 3.4. 損失機能 jiやalにインスパイアされたセマンティックソフトマックス関数を使うことで、分類の直前に追加の監督を注入します。
訳抜け防止モード: 3.4. 損失機能 分類の直前に 追加の監督を ji 等にインスパイアされた,セマンティックな softmax 関数の使用。
0.67
[14], defined as: [14] と定義される。 0.74
(cid:80)S ˆyi = (cid:80) ジイ= 0.78
ea(yi)T V (bi) j=1 ea(yj )T V (bi) ea(yi)T V (bi) j=1 ea(yj )T V (bi) 0.94
, (2) Figure 3. Overview of coarse-to-fine network. , (2) 図3。 細粒度ネットワークの概要 0.77
The input to the coarse network is an I3D feature vector and the output of the coarse network is concated with this input to obtain a coarse representation of the video that is then mapped to the clusters. 粗いネットワークへの入力は、i3d特徴ベクトルであり、粗いネットワークの出力は、この入力と結合され、次にクラスタにマッピングされたビデオの粗い表現を得る。 0.69
An aggregated representation of the video with the clusters is obtained and this is used as input to the fine network, which then performs fine-grained classification. クラスタによるビデオの集約表現を求め、これを細かなネットワークへの入力として使用し、細かな粒度の分類を行う。 0.76
where S is the total number of seen classes, V (bi) is the feature representation in the layer before the softmax and the output ˆyi is a vector with a probability distribution over the seen classes. s が観測されるクラスの総数であるとき、v(bi) はソフトマックス以前の層における特徴表現であり、出力 syi は観測されたクラス上の確率分布を持つベクトルである。 0.82
We use the natural choice to train a multi-class probabilistic classifier, which is the cross-entropy loss with a regularization term: 正規化項を持つクロスエントロピー損失である多クラス確率分類器の訓練には自然選択を用いる。 0.71
N(cid:88) minW n(cid:88) ミンウ 0.53
L(xi) + λ(cid:107)W(cid:107)2 F . L(xi) + λ(cid:107)W(cid:107)2 F。 0.86
(3) classes, obtained by using a custom semantic softmax function described in the next subsection. (3) クラスは、次のセクションで記述されたカスタムセマンティックソフトマックス関数を使用して得られる。 0.80
The implementation details of the architecture of both networks is defined in Section 4.2. 両方のネットワークのアーキテクチャの実装の詳細は、セクション4.2で定義されている。 0.63
i=1 3.5. Optimization by Reinforcement Learning i=1 3.5. 強化学習による最適化 0.68
Given the probabilistic prediction ˆyi and the one-hot representation of the ground truth class yi, we compute a classification score sc = yi.ˆyi. 確率的予測 syi と基底真理クラス yi の 1-ホット表現を考えると、分類スコア sc = yi.yi を計算する。 0.76
Also, to obtain the reward we また、報酬を得るためには 0.66
4 4 0.85
英語(論文から抽出)日本語訳スコア
check if argmax of ˆyi and yi lie in the same index. yi と yi の argmax が同じインデックスにあるかどうかチェックする。 0.79
We save this as argi and set it to 1 if TRUE and 0 otherwise. これを argi として保存し、TRUE と 0 がなければ 1 に設定する。 0.77
Now we can update the cluster centroid cj closest to ωi using the REINFORCE [18] algorithm. 強化 [18] アルゴリズムを使って ωi に最も近いクラスタ中心型 cj を更新できる。 0.75
We calculate the reward r based on the classification score obtained, as in: 得られた分類スコアに基づいて報酬rを算出する。 0.58
(cid:26) 1 if argi = 1 (cid:26) 1 if argi = 1 0.96
−1 if argi = 0 −1 argi = 0 の場合 0.84
r = (4) This essentially gives a positive reward if the model has predicted a correct classification and a negative reward if the classification was incorrect. r = (4) このことは、モデルが正しい分類を予測した場合に正の報酬を与え、もしその分類が正しくない場合に負の報酬を与える。
訳抜け防止モード: r = (4) これは本質的に正の報奨を与える。 モデルは正しい分類と 負の報酬を予測した 分類が間違っているなら
0.83
This formulation is inspired by Likas [18], where it is used for competitive learning. この定式化は、競争学習に使用されるlikas [18]に触発されたものである。 0.59
We compute ∆cj as the update of cj as: 我々は、cj の更新を次のように計算する。 0.62
∆cj = α(r − βj) cj = α(r − βj) 0.76
∂ln gj ∂cj ∂ln gj ∂cj 0.78
, (5) where α is a fixed learning rate, r is the reward, βj is called the reinforcement baseline, ∂lngj is called the char∂cj acteristic eligibility of cluster centroid cj, which quantifies the match of a cluster j with respect to a given input, and is approximated as: , (5) α が固定学習率、r が報酬である場合、βj は強化ベースラインと呼ばれ、∂lngj はクラスタ・セントロイド cj の char∂cj アクタリスティックな可視性と呼ばれ、与えられた入力に対するクラスタ j のマッチングを定量化し、次のように近似する。 0.82
, and pj = 2(1−f (θi,j)) and f (x) = 1 と pj = 2(1−f (θi,j)) と f (x) = 1 0.91
= ∂ln gj ∂pj = ∂ln gj ∂pj 0.82
sc − pj pj(1 − pj) sc − pj pj(1 − pj) 0.85
Eq. 6 in Eq 5, we obtain: eqだ 6 in Eq 5: 0.58
(6) 1+e−x . (6) 1+e−x。 0.64
Substituting (cid:88) 代替 (cid:88) 0.67
n∈N network, which in our case is the MLP of the fine network. njn この場合のネットワークは、ファインネットワークのMLPである。 0.55
Specifically, for the unseen classes, we perform rectification by first using the MLP trained on the seen classes to project the semantic embedding and then to that add the average of projected semantic embeddings from the k-nearest neighbors of the seen classes, as in: 具体的には、未発見のクラスに対しては、まず、見たクラスでトレーニングされたmlpを使用して意味埋め込みを投影し、次に、以下のように、見たクラスのk-nearest近傍から投影された意味埋め込みの平均を追加することで修正を行います。 0.48
ˆa(yi) = a(cid:48)(yi) + a(yi) = a(cid:48)(yi) + 0.92
1 k cos (a(cid:48)(yi), n) · n, 1k cos (a(cid:48)(yi), n) · n, 0.80
(10) where, a(cid:48)(y) refers to the projection of y using the trained MLP, cos(a, n) refers to the cosine similarity between a and n, the operator · refers to the dot product and N refers to the k-nearest neighbors of a(cid:48)(yui). (10) a(cid:48)(y) は訓練された MLP を用いた y の射影、cos(a, n) は a と n の間のコサイン類似性、演算子 · は点積、N は a(cid:48)(yui) の k-アネレスト近傍を指す。
訳抜け防止モード: (10) ここで a(cid:48)(y ) は訓練された MLP を用いて y の投影を指す。 cos(a, n ) は a と n の間の余弦的類似性を表し、演算子 · は点積を指す。 N は a(cid:48)(yui ) の k-最も近い隣人を指す。
0.79
3.7. Nearest Neighbor Search 3.7. 最近傍の探索 0.67
At test time in the ZSL, given a test video, we predict a seen class and compute or retrieve its semantic representation. ZSLでのテスト時に、テストビデオが与えられたら、そのクラスを予測し、セマンティック表現を計算または取得する。 0.72
After rectification, we find the nearest neighbor in the set of unseen classes. 修正後、目に見えないクラスの集合の中で最も近い隣人を見つける。 0.65
In the GZSL task, class predictions may be of seen or unseen classes. GZSLタスクでは、クラス予測は目に見えないクラスや見えないクラスである。 0.63
Thus, we first use a bias detector [9] which helps us detect if the video belongs to the seen or unseen class. そこで、まずバイアス検出器[9]を使用し、ビデオが見えないクラスに属しているかどうかを検知する。 0.73
If it belongs to a seen class, we predict the class directly from our model. もしそれが見たクラスに属しているなら、モデルから直接クラスを予測します。 0.76
If the video belongs to an unseen class, we proceed as in ZSL. ビデオが目に見えないクラスに属している場合、ZSLのように進みます。 0.71
(7) 3.8. Semantic embedding of action classes (7) 3.8. アクションクラスの意味的埋め込み 0.79
∆cj = α(r − βj) cj = α(r − βj) 0.76
∂ln gj ∂pj ∂ln gj ∂pj 0.78
∂pj ∂θi,j ∂θi,j ∂cj ∂pj ∂θi,j ∂θi,j ∂cj 0.74
From Eq 6 and the definition of pj, we get to: eq6とpjの定義からすると 0.47
∆cj = α(r − βj)(sc − pj) cj = α(r − βj)(sc − pj) 0.79
∂θi,j ∂cj . ∂θi,j ∂cj . 0.79
(8) If we consider our distance metric as Euclidean and set βj as zero, we obtain Eq 9 as the updating rule for the cluster centroid cj: (8) 距離計量をユークリッドとして、βjをゼロとすると、クラスタ中心cjの更新規則としてeq9が得られる。 0.79
∆cj = α r (sc − pj) (ωi − cj) cj = α r (sc − pj) (ωi − cj) 0.82
(9) For further details on this derivation, please refer to Likas [18]. (9)この導出の詳細については、likas [18]を参照。 0.69
The only difference is that we do not consider our clusters to be Bernoulli units, where the modification of the cluster representative is discrete (either 0 or 1). 唯一の違いは、クラスタをベルヌーイ単位とは考えていないことである。
訳抜け防止モード: 唯一の違いは、我々のクラスターをベルヌーイ単位とは考えていないことである。 ここで、クラスタ代表の修正は離散的(0または1)である。
0.71
Instead, we modify the cluster with the range of values of sc, which is between 0 and 1. その代わりに、0から1の間のscの値の範囲でクラスタを変更します。 0.62
3.6. Rectification of the Semantic Embedding 3.6. セマンティック・エンベディングの定式化 0.63
Sometimes, in ZSL, certain data points tend to appear as nearest-neighbor of many other points in the projection space. ZSLでは、あるデータポイントは射影空間の他の多くの点のすぐ隣に現れる傾向がある。 0.76
This is referred to as the hubness problem [34]. これをハブ性問題[34]と呼ぶ。 0.59
We avoid this problem using semantic representation rectification [20], where the class representation is modified by averaging the output generated by the projection 我々は,射影によって生成された出力を平均してクラス表現を変更する意味表現整流法[20]を用いてこの問題を回避する。 0.66
5 Some datasets, such as HMDB51 [16], do not have semantic manual annotations. 5 HMDB51[16]のようないくつかのデータセットには意味的な手動アノテーションがない。 0.74
Instead, these semantic representations are often computed using a word2vec model pretrained on Google news [24]. 代わりに、これらのセマンティック表現は、しばしばGoogle News[24]で事前訓練された word2vec モデルを使って計算されます。 0.58
In most action recognition datasets, actions labels are phrases rather than single words (e g “playing guitar”). ほとんどのアクション認識データセットでは、アクションラベルはシングルワードではなくフレーズ(例えば”playing guitar”)である。 0.76
In this scenario, the word2vec embeddings of each word are averaged to obtain the embedding for the entire phrase. このシナリオでは、各単語のワード2vec埋め込みを平均化し、フレーズ全体の埋め込みを得る。 0.76
This works in some cases, however, simple averaging does not always capture the interdependency of action classes. しかし、単純な平均化が常にアクションクラスの相互依存を捉えているとは限らない場合もあります。 0.62
For example, pairs such as “jumping jacks” and “jumping ropes” or “horse riding” and “horse racing” lie far apart in the word2vec space, as the average of the words do not lie close to related words in the same space. 例えば、”jumping jacks” や “jumping ropes” や “ horse riding” や “ horse racing” といったペアは、word2vec 空間では遠く離れている。
訳抜け防止モード: 例えば、“ジャンピングジャック”や“ジャンピングロープ”といったペアです。 あるいは “ horse riding ” と “ horse racing ” は word2vec の領域では遠く離れている。 単語の平均は同じ空間の関連語に近くないからである。
0.77
To alleviate this, we propose the use of sentence2vec [28], an embedding model which is designed to capture the meaning of sentences. そこで本研究では,文の意味を捉えた埋め込みモデルである sentence2vec [28] の使用を提案する。 0.73
Specifically, sentence2vec learns embeddings with respect to the sentence context, rather than a fixed window of context words (as in word2vec). 具体的には、word2vecは(word2vecのように)コンテキストワードの固定ウィンドウではなく、文コンテキストに関する埋め込みを学習する。 0.63
It represents the sentence context as n-grams and optimizes the additive combination of the word vectors to obtain sentence embeddings. 文コンテキストをn-gramとして表現し、単語ベクトルの付加結合を最適化して文埋め込みを得る。 0.60
Sentence2vec is capable of producing good embeddings for the phrases that typically make up the labels of action classes. Sentence2vecはアクションクラスのラベルを構成するフレーズに対して優れた埋め込みを生成することができる。 0.78
Figure 4 illustrates how the neighbors 図4は隣人がどのようにして 0.61
英語(論文から抽出)日本語訳スコア
change and become more meaningful when we move from word2vec to sentence2vec. word2vec から sentence2vec に移行すると、変化と意味が増す。 0.73
We show in sections 4.4 and 4.5 that using sentence2vec over word2vec significantly improves performance of some of the recent state-of-the-art approaches. 第4章,第4.5節では, word2vec 上で sentence2vec を用いることで,最近の最先端手法の性能が著しく向上することを示す。
訳抜け防止モード: セクション4.4と4.5では word2vec 上での sentence2vec の使用 最新の状態 – アートアプローチ – のいくつかのパフォーマンス向上。
0.58
It also helps reach performance close to using manual semantic representation. また、手動のセマンティック表現によるパフォーマンス向上にも役立ちます。 0.65
This suggests the potential of using sentence2vec on large scale datasets instead of having to manually annotate them. これは、手動でアノテートするのではなく、大規模なデータセットで sentence2vec を使用する可能性を示している。 0.53
4. Experimental Analysis In this section, we look at the qualitative and quantitative performance of our model. 4. 実験分析 本稿では,モデルの質的,定量的な性能について考察する。 0.77
We first describe the experiment settings, and then show a thorough ablation study, that explores the contribution of each component. まず実験の設定を説明し,各成分の寄与を探索する徹底的なアブレーション研究を示す。 0.74
We then compare the proposed method to the state-of-the-art in the ZSL and GZSL tasks, and give analytical insights into the advantages of CLASTER. 次に,提案手法をZSLおよびGZSLタスクの最先端技術と比較し,CLASTERの利点に関する解析的洞察を与える。 0.81
4.1. Datasets 4.1. データセット 0.66
We choose the Olympic Sports [26], HMDB-51 [16] and UCF-101 [36], so that we can compare to recent state-ofthe-art in zero-shot action recognition [8, 22, 29]. オリンピック[26], HMDB-51[16], UCF-101[36]を選択し, ゼロショットアクション認識[8, 22, 29]における最近の最先端技術と比較できる。 0.74
They contain 783, 6766 and 13320 videos, and have 16, 51 and 101 classes, respectively. 783本、6766本、13320本のビデオがあり、それぞれ16本、51本、101本のクラスがある。 0.65
We follow the commonly used 50/50 splits proposed by Xu et al [40], where 50 percent are seen classes and 50 are unseen classes. xu と al [40] によって提案された 50/50 分割は一般的に使われており、そこでは 50 % が目に見えるクラスであり、50 が目立たないクラスである。 0.55
Similar to other approaches [44, 8, 29, 23, 15], we report average accuracy and standard deviation over 10 independent runs. 他のアプローチ [44, 8, 29, 23 15] と同様に,10個の独立ランの平均精度と標準偏差を報告する。 0.85
4.2. Implementation Details Visual features. 4.2. インプリメンテーション ビジュアル機能の詳細。 0.67
We use RGB and flow features extracted from the Mixed 5c layer of an I3D network pre-trained on the Kinetics [3] dataset. 我々は,ゲネティクス [3] データセット上で事前学習した i3d ネットワークの混合 5c 層から抽出した rgb とフロー特徴を用いた。 0.70
The Mixed 5c output of the flow network is averaged across the temporal dimension and pooled by four in the spatial dimension and then flattened to a vector of size 4096. フローネットワークの混合5c出力は、時間次元にわたって平均され、空間次元で4でプールされ、次いでサイズ4096のベクトルに平坦化される。 0.78
We then concatenate the two to get video features of size 8192. 次に2つを結合して、サイズ8192の動画機能を得る。 0.72
Network architecture. ネットワークアーキテクチャ。 0.70
The coarse part of the network is a two-layer fully connected network, whose output after concatenation with the video feature has the same dimensions as the cluster representatives. ネットワークの粗い部分は2層完全接続されたネットワークであり、その出力はビデオ機能と結合した後、クラスタ代表と同一の次元を持つ。 0.83
The size of the FC layers are 8192 each. fc層の大きさは、それぞれ8192である。 0.79
The fine part of the network consists of two convolutional layers and two fully connected layers, where the last layer equals the number of unseen classes in the dataset we are looking at. ネットワークの細部は、2つの畳み込み層と2つの完全連結層で構成されており、最後の層は私たちが見ているデータセット内の見当たらないクラス数と等しい。
訳抜け防止モード: ネットワークの細部は2つの畳み込み層から構成される 完全に繋がった2つの層が 最後の層は 見ているデータセットの 目に見えないクラスの数と等しい
0.86
All the modules are trained with the Adam optimizer with a learning rate of 0.0001 and weight decay of 0.0005. すべてのモジュールは、adamオプティマイザで0.0001の学習率と0.00005の減量でトレーニングされる。 0.72
RL optimization. We use 10,000 iterations and the learning rate α is fixed to 0.1 for the first 1000 iterations, 0.01 for the next 1000 iterations and then drop it to 0.001 for the remaining iterations. RL最適化。 1万イテレーションを使用し、学習率αを最初の1000イテレーションで0.1に、次の1000イテレーションで0.01に固定し、残りのイテレーションで0.0001に落とします。 0.77
Semantic embeddings. セマンティックな埋め込み。 0.52
We use three types of embeddings to obtain semantic representations of the classes. クラスの意味表現を得るために3種類の埋め込みを使用します。 0.74
We have human annotated semantic representations for UCF101 and the Olympic sports dataset of sizes 40 and 115 respectively. UCF101とオリンピックのスポーツデータセットをそれぞれ40と115に注釈付きで表現する。 0.60
HMDB51 does not have human annotated semantic representations. HMDB51はヒトの注釈付き意味表現を持たない。 0.70
Instead, we use a skip-gram model trained on the news corpus provided by Google to generate word2vec embeddings. 代わりに、Googleが提供するニュースコーパスでトレーニングされたスキップグラムモデルを使用して、 word2vec埋め込みを生成します。 0.65
Using action classes as input, we obtain a vector representation of 300 dimensions. アクションクラスを入力として、300次元のベクトル表現を得る。 0.73
Some class labels contain multiple words. いくつかのクラスラベルは複数の単語を含む。 0.56
In those cases, we use the average of the word2vec embeddings. その場合、word2vecの埋め込みの平均を使用します。 0.74
We also use sentence2vec embeddings, trained on Wikipedia. また、Wikipediaでトレーニングされた sentence2vec 埋め込みも使用しています。 0.55
These can be obtained for both single words and multi-word expressions. これらは単一の単語と複数単語の表現の両方で得られる。 0.66
4.3. Ablation Study 4.3. アブレーション研究 0.70
We test using different number of clusters and show the results in Figure 5. 異なる数のクラスタを使ってテストを行い、その結果を図5に示す。 0.78
These are for 5 runs on random splits. これらはランダムスプリットで5回実行されます。 0.52
As we can see, the average accuracy increases until 6 clusters, and after that remains more or less constant. ご覧の通り、平均精度は6クラスタまで上昇し、その後は多かれ少なかれ一定のままである。 0.65
Thus, we use 6 clusters. したがって、6つのクラスタを使用する。 0.61
We show the performance of using the different components of CLASTER in Table 1. 表1で、CLASTERの異なるコンポーネントを使用することの性能を示す。 0.77
We consider no clustering, (which in our case is the equivalent of having a single cluster) random clustering and the standard k-means. 我々はクラスタリングを考慮せず、(この場合、我々の場合では、単一のクラスタを持つのと同等の)ランダムクラスタリングと標準のk-meansを考えます。
訳抜け防止モード: クラスタリングは考えません (私たちの場合 単一のクラスタを持つ)ランダムクラスタリング 標準の k は を意味する。
0.64
We observe that using clusters is benefitial, but only if they are meaningful, as in the case of K-means. クラスターの利用は有益であるが、K平均の場合のように有意義である場合に限り有益である。 0.71
We observe that using semantic embedding rectification improves the accuracy, as the chances of reaching previously unreachable classes increased to an extent. セマンティクス埋め込み正書法を用いることで,これまで到達できなかったクラスに到達する可能性がある程度増加するため,正確性が向上すると考えられる。 0.56
We also compare the standard softmax function and the semantic softmax function, which provides additional supervision at the time of obtaining the predicted probabilities, and results in a small increase in the accuracy. また,予測された確率を求める際に,標準的なソフトマックス関数とセマンティックソフトマックス関数を比較し,その結果,精度が小さめに向上することを示した。 0.75
We finally show that the clustering optimization with RL causes a huge boost in the performance. 最終的に、RLによるクラスタリング最適化が性能を大幅に向上させることを示した。 0.72
Section 4.6 explores how the clusters change after this optimization. セクション4.6では、最適化後のクラスタの変化について検討している。 0.46
In a nutshell, the RL optimization essentially makes the clusters cleaner moving most instances in a class to the same cluster. 簡単に言うと、RL最適化は本質的に、クラス内のほとんどのインスタンスを同じクラスタに移行するクラスタをクリーンにする。
訳抜け防止モード: 簡単に言うと、RL最適化は基本的に クラス内のほとんどのインスタンスを同じクラスタに移動させるクラスタクリーナー。
0.79
4.4. Results on ZSL 4.4. ZSLの成果 0.72
We compare our approach to several state-of-thethe out-of-distribution detector method art methods: (OD) [22], a generative approach to zero-shot action the evaluation of output emrecognition (GGM) [25], beddings (SJE) the feature generating networks (WGAN) [39] and prototype sampling graph neural network (PS-GNN) [10]. 提案手法は,ゼロショット動作に対する生成的アプローチである (od) [22] 出力認知評価 (ggm) [25] , 寝具 (sje) 特徴生成ネットワーク (wgan) [39] およびプロトタイプサンプリンググラフニューラルネットワーク (ps-gnn) [10] など,いくつかの最先端の分散検出手法と比較した。 0.83
While recent approaches use a pre-trained model on Sports-1M dataset [25] or Kinetics [22, 39], we use a pre-trained model on Kinetics. 近年のアプローチでは,Sports-1Mデータセット [25] や Kinetics [22, 39] の事前学習モデルを用いている。 0.70
[1], We observe that the proposed CLASTER consistently outperforms other state-of-the-art approaches. [1], 我々は,提案したCLASTERが他の最先端手法よりも一貫して優れていることを観察する。 0.55
Results are shown in Table. 結果は表に示します。 0.80
2. On the HMDB51 dataset, it improves 4.0% over the next best performing model PS-GNN [10]. 2. HMDB51データセットでは、次の最高のパフォーマンスモデルPS-GNN [10]よりも4.0%改善されている。 0.75
6 6 0.85
英語(論文から抽出)日本語訳スコア
Figure 4. HMDB51 (a) Averaging word embeddings can produce poor results in certain cases. 図4。 hmdb51 (a) 平均的な単語埋め込みは特定のケースで悪い結果をもたらす。 0.66
For example the nearest neighbor of “shoot ball” is “shoot gun”, and of “sit up” is “sit down” which are not necessarily meaningful (b) Sentence2vec better captures phrase meanings: Nearest neighbors to “sit up” is now “push up”, and for “shoot ball”, is golf. 例えば、「シュートボール」の最も近い隣人は「シュートガン」であり、「シュートアップ」は必ずしも意味を持たない「シュートダウン」である(b) 文2vecはフレーズの意味をよりよく捉えている: 「シュートボール」の最も近い隣人は「プッシュアップ」、そして「シュートボール」はゴルフである。 0.63
UCF101 (c) The same effect is observed, where after averaging word2vec representations, the nearest neighbor of “pommel horse” is ”horse riding” (d) Sentence2vec helps capture phrase meanings: the while nearest neighbor of “pommel horse” is now “balance beam”. UCF101 (c) 同じ効果が観察され、平均的な2vec表現の後、"pommel horse"の隣人が"horse riding" (d) Sentence2vecはフレーズの意味をつかむのに役立つ:"pommel horse"の隣人が" balance beam"になった。 0.81
The circles contain the nearest neighbor to the given unseen class and is for illustration purposes. 円は与えられた見知らぬクラスに最も近い隣人を含み、図示目的である。 0.69
Figure 5. Effect of using different number of clusters. 図5。 異なる数のクラスタを使用することの効果。 0.73
The green line represents the standard deviation. 緑の線は標準偏差を表す。 0.77
The reported accuracy is on the UCF101 dataset. 報告された正確性は、UCF101データセットにある。 0.61
As can be seen, the average cluster accuracy increases till about 6 clusters and then remains more or less constant. ご覧の通り、クラスタの平均精度はおよそ6クラスタまで増加し、その後は多かれ少なかれ一定のままである。 0.71
The vertical lines correspond to the standard deviation. 垂直線は標準偏差に対応している。 0.82
Component No clustering Random clustering (K=6) K-means (K=6) K-means + R K-means + R + Semantic softmax CLASTER: Full model with RL コンポーネントなしクラスタリングランダムクラスタリング(K=6)K平均(K=6)K平均+RK平均+R+Semantic Softmax CLASTER:RL付き完全モデル 0.81
UCF101 accuracy 31.6 ± 4.6 24.1 ± 6.3 35.3 ± 3.9 37.1 ± 2.7 37.5 ± 3.2 46.4 ± 5.1 UCF101の精度 31.6 ± 4.6 24.1 ± 6.3 35.3 ± 3.9 37.1 ± 2.7 37.5 ± 3.2 46.4 ± 5.1 0.59
Table 1. Ablation study of different components of our model on ZSL with word2vec. 表1。 word2vecによるZSL上のモデルの異なる成分のアブレーション 0.71
The accuracies correspond to accuracy averaged over 5 independent test runs along with the standard deviation. 精度は、標準偏差とともに5回以上の独立テストの実行平均値に対応する。 0.73
We first show the effect of using a well defined clustering algorithm. まず,よく定義されたクラスタリングアルゴリズムを用いることの効果を示す。 0.74
Next, we show the effect of adding ’R’ which stands for rectification of semantic embeddings and then replace the standard soft-max with our proposed semantic softmax. 次に、意味埋め込みの修正を意味する'r'を追加し、標準ソフトマックスを提案のセマンティックソフトマックスに置き換える効果を示す。
訳抜け防止モード: 次に,意味埋め込みの修正を意味する'r' を加える効果を示す。 そして、標準のsoft-maxを提案のsemantic softmaxに置き換えました。
0.69
Finally, the last row represents our proposed model. 最後に、最後の行は提案したモデルを表します。 0.64
All the reported accuracies are on the same five splits, note that Table 2 is with 10 splits. 報告された告知はすべて同じ5分割であり、Table 2は10分割である。 0.65
On UCF101 it improves 3.5% over the next best performing model, when using semantic manual annotatations, and 3.7% when using word2vec. ucf101では、semantic manual annotatationを使用する場合、3.5%、word2vecを使用する場合3.7%改善されている。 0.59
On the Olympics dataset, オリンピックのデータセットで 0.65
- Method SE Olympics HMDB51 UCF101 OD [22] 38.3 ± 3.0 M 65.9 ± 8.1 GGM [25] 24.5 ± 2.9 M 57.9 ± 14.1 12.0 ± 1.2 SJE [1] M 47.5 ± 14.8 WGAN [39] M 64.7 ± 7.5 37.5 ± 3.1 CLASTER (ours) M 67.4 ± 7.8 41.8 ± 2.8 30.2 ± 2.7 26.9 ± 2.8 W 50.5 ± 6.9 OD [22] W 61.8 ± 6.8 PS-GNN [10] 32.6 ± 2.9 43.0 ± 4.9 GGM [25] W 41.3 ± 11.4 20.7 ± 3.1 20.3 ± 1.9 13.3 ± 2.4 W 28.6 ± 4.9 SJE [1] 9.9 ± 1.4 29.1 ± 3.8 25.8 ± 3.2 WGAN [39] W 47.1 ± 6.4 36.6 ± 4.6 46.7 ± 5.4 CLASTER (ours) W 63.8 ± 5.7 39.3 ± 3.1 35.9 ± 2.2 50.8 ± 2.1 OD* WGAN* 46.8 ± 4.2 34.7 ± 4.3 32.8 ± 5.4 41.8 ± 2.1 50.2 ± 3.8 64.2 ± 3.3 CLASTER (ours) - Method SE Olympics HMDB51 UCF101 OD [22] 38.3 ± 3.0 M 65.9 ± 8.1 GGM [25] 24.5 ± 2.9 M 57.9 ± 14.1 12.0 ± 1.2 SJE [1] M 47.5 ± 14.8 WGAN [39] M 64.7 ± 7.5 37.5 ± 3.1 CLASTER (ours) M 67.4 ± 7.8 41.8 ± 2.8 30.2 ± 2.7 26.9 ± 2.8 W 50.5 ± 6.9 OD [22] W 61.8 ± 6.8 PS-GNN [10] 32.6 ± 2.9 43.0 ± 4.9 GGM [25] W 41.3 ± 11.4 20.7 ± 3.1 20.3 ± 1.9 13.3 ± 2.4 W 28.6 ± 4.9 SJE [1] 9.9 ± 1.4 29.1 ± 3.8 25.8 ± 3.2 WGAN [39] W 47.1 ± 6.4 36.6 ± 4.6 46.7 ± 5.4 CLASTER (ours) W 63.8 ± 5.7 39.3 ± 3.1 35.9 ± 2.2 50.8 ± 2.1 OD* WGAN* 46.8 ± 4.2 34.7 ± 4.3 32.8 ± 5.4 41.8 ± 2.1 50.2 ± 3.8 64.2 ± 3.3 CLASTER (ours) 0.74
S S S Table 2. ZSL, comparison with prior work. S S S 表2。 ZSL、以前の作業との比較。 0.80
The accuracies correspond to accuracy averaged over 10 independent test runs along with the standard deviation ’SE’: semantic embedding, ’M’: manual representation, W: word2vec embedding, S: sentence2vec. 精度は、10以上の独立したテストの実行の平均値と、標準偏差’SE’: セマンティック埋め込み、’M’: 手動表現、W: word2vec埋め込み、S: sentence2vecと一致します。 0.75
* run by us with author’s code. ※著者のコードで実行します。 0.55
CLASTER improves 1.5% over the next best performing model OD [22] when using manual semantic representations; and 2% when using word2vec. CLASTERは、手動のセマンティック表現を使用する場合のOD[22]を1.5%改善し、Word2vecを使用する場合の2%を改善した。 0.61
We measure the impact of using sentence2vec instead of word2vec. word2vecの代わりに sentence2vec を用いることによる影響を測定する。 0.63
We test this on our own method, as well as as input to OD and WGAN, using the authors’ code. 私たちはこれを自身のメソッドでテストし、著者のコードを使ってodとwganへの入力も行います。 0.64
We show that sentence2vec significantly improves over using word2vec, especially on UCF101 and HMDB51. sentence2vec は word2vec よりも,特に UCF101 と HMDB51 で有意に改善した。 0.72
4.5. Results on GZSL 4.5. GZSLの成果 0.72
We now compare to the same approaches in the GZSL task in Table 3. 現在、テーブル3のGZSLタスクにおける同じアプローチと比較しています。 0.78
Here CLASTER outperforms all previous methods across different modalities. ここでclasterは、以前のすべてのメソッドを異なるモダリティで上回っている。 0.44
We obtain an improvement on average of 2.6% and 5% over the next best per- 次のベストよりも平均2.6%と5%の改善が得られます。 0.77
7 7 0.85
英語(論文から抽出)日本語訳スコア
Figure 6. Analysis of how RL optimization changes the cluster to which an instance belongs. 図6。 RL最適化は、インスタンスが属するクラスタをどのように変更するかを分析する。 0.69
The frequencies are represented as percentages of instances in each cluster. 周波数は各クラスタのインスタンスの割合として表される。 0.75
We can see that the clusters are a lot ”cleaner” after the optimization by RL. RLによる最適化の後に、クラスタが“クリーン”であることは明らかです。 0.69
- SE Olympics HMDB51 UCF101 Method 49.4 ± 2.4 M 66.2 ± 6.3 OD[22] 23.7 ± 1.2 M 52.4 ± 12.2 GGM [25] 44.4 ± 3.0 WGAN [39] M 59.9 ± 5.3 CLASTER (ours) M 68.8 ± 6.6 50.9 ± 3.2 36.1 ± 2.2 37.3 ± 2.1 OD [22] W 53.1 ± 3.6 W 52.9 ± 6.2 PS-GNN [10] 24.2 ± 3.3 35.1 ± 4.6 W 42.2 ± 10.2 20.1 ± 2.1 17.5 ± 2.2 GGM[25] 10.5 ± 2.4 W 32.5 ± 6.7 SJE [1] 8.9 ± 2.2 WGAN [39] W 46.1 ± 3.7 32.7 ± 3.4 32.4 ± 3.3 42.4 ± 3.6 42.1 ± 2.6 CLASTER (ours) W 58.1 ± 2.4 42.3 ± 3.1 45.7 ± 2.3 54.1 ± 2.7 OD* 38.2 ± 4.1 40.2 ± 5.1 47.6 ± 4.2 WGAN* CLASTER (ours) 58.7 ± 3.1 47.4 ± 2.8 48.3 ± 3.1 - SE Olympics HMDB51 UCF101 Method 49.4 ± 2.4 M 66.2 ± 6.3 OD[22] 23.7 ± 1.2 M 52.4 ± 12.2 GGM [25] 44.4 ± 3.0 WGAN [39] M 59.9 ± 5.3 CLASTER (ours) M 68.8 ± 6.6 50.9 ± 3.2 36.1 ± 2.2 37.3 ± 2.1 OD [22] W 53.1 ± 3.6 W 52.9 ± 6.2 PS-GNN [10] 24.2 ± 3.3 35.1 ± 4.6 W 42.2 ± 10.2 20.1 ± 2.1 17.5 ± 2.2 GGM[25] 10.5 ± 2.4 W 32.5 ± 6.7 SJE [1] 8.9 ± 2.2 WGAN [39] W 46.1 ± 3.7 32.7 ± 3.4 32.4 ± 3.3 42.4 ± 3.6 42.1 ± 2.6 CLASTER (ours) W 58.1 ± 2.4 42.3 ± 3.1 45.7 ± 2.3 54.1 ± 2.7 OD* 38.2 ± 4.1 40.2 ± 5.1 47.6 ± 4.2 WGAN* CLASTER (ours) 58.7 ± 3.1 47.4 ± 2.8 48.3 ± 3.1 0.74
S S S Table 3. GZSL, comparison with prior work. S S S 表3。 GZSL、以前の作業との比較。 0.80
The accuracies correspond to accuracy averaged over 10 independent test runs along with the standard deviation ’SE’: semantic embedding, ’M’: manual representation, W: word2vec embedding, S: sentence2vec. 精度は、10以上の独立したテストの実行の平均値と、標準偏差’SE’: セマンティック埋め込み、’M’: 手動表現、W: word2vec埋め込み、S: sentence2vecと一致します。 0.75
* run by us with author’s code. ※著者のコードで実行します。 0.55
forming method on the Olympics dataset using manual representations and word2vec respectively. 手動表現とword2vecを用いたオリンピックデータセットの作成方法。 0.80
We obtain an average improvement of 6.3% over the next best performing model on the HMDB51 dataset using word2vec. 我々は word2vec を用いて,HMDB51 データセット上での次の最高のパフォーマンスモデルに対して平均 6.3% の改善が得られる。 0.61
We obtain an improvement on average performance by 1.5% and 4.8% over the next best performing model on the UCF101 dataset using manual representations and word2vec respectively. 手動表現と word2vec を用いて,UCF101 データセット上での次の最高のパフォーマンスモデルよりも平均性能が 1.5% と 4.8% 向上した。 0.71
Similarly to ZSL, we show generalized performance improvements using sentence2vec. ZSLと同様に, sentence2vec を用いた汎用的な性能向上を示す。 0.63
4.6. Analysis of the RL optimization 4.6. RL最適化の解析 0.75
How do the clusters change after the RL optimization? RL最適化後にクラスタはどのように変化するのか? 0.70
For each class in the training set, we measure the distribution of clusters that they belong to, visualized in Figure 6. トレーニングセットの各クラスについて、図6に示すように、それらが属するクラスタの分布を測定します。 0.80
Here, each column represents a class, and each color a cluster. ここで、各列はクラスを表し、各列はクラスタを色付けする。 0.77
In a perfect clustering, each row would have a single 完全なクラスタリングでは、各行は1つになる 0.69
8 color. We observe that after the RL optimization, the clustering becomes “cleaner”. 8 色 RL最適化後にクラスタリングが“よりクリーン”になるのを観察する。 0.67
This is, most instances in a class belong to a dominant cluster. すなわち、クラスのほとんどのインスタンスは支配的なクラスタに属します。 0.74
This effect can be measured using the purity of the cluster: この効果は、クラスターの純度を用いて測定することができる。 0.67
k(cid:88) i=1 k(cid:88) i=1 0.71
P urity = 1 N p ウニティ = 1N 0.70
maxj |ci ∩ tj| , tj| (複数形 tj|s) 0.26
(11) where N is the number of data points (video instances in our case), k is the number of clusters, ci is a cluster in the set of clusters, and tj is the classification which has the maximum count for cluster ci. (11) N がデータポイントの数(私たちの場合はビデオインスタンス)、k がクラスタの数、ci がクラスタの集合内のクラスタ、tj がクラスタ ci の最大カウントを持つ分類である。 0.76
Poor clustering results in purity values close to 0, and a perfect clustering will return a purity of 1. クラスタリングの貧弱な結果は0に近い純度となり、完全なクラスタリングは1の純度を返す。 0.64
Using k-means, the purity of the clusters is 0.77, while optimizing the clusters with RL results in a purity of 0.89. k平均を用いると、クラスターの純度は0.77であり、RLでクラスターを最適化すると純度は0.89となる。 0.73
Finally, we observe another interesting side effect of clustering. 最後に、クラスタリングの別の興味深い副作用を観察します。 0.60
Some of the most commonly confused classes before clustering (e g (“Baby crawling” vs. “Mopping floor”), (“Breaststroke” vs. “front crawl”), (“Rowing vs. front crawl”) actually are assigned to different clusters, and the confusion is largely resolved after clustering. クラスタリングの前に最も混乱しているクラス(例えば、"Baby crawling" vs. "Mopping floor")、("Breaststroke" vs. "front crawl")、("Rowing vs. front crawl")は、実際には異なるクラスタに割り当てられており、クラスタリング後にその混乱は大部分が解決されている。 0.75
This suggests that clusters are also used as a means to differentiate between similar classes. これは、クラスタが類似したクラスを区別する手段として使われることも示唆している。 0.66
5. Comparison over random splits for ZSL and 5. ZSLとZSLのランダム分割の比較 0.84
GZSL Since we are using random splits, it is important to consider the performance of our model against other state-ofthe-art models OD [22] and WGAN [39] on the same splits for fair comparison. GZSL ランダムスプリットを使用しているため、同じスプリット上での他の最先端モデルOD[22] と WGAN[39] に対するモデルの性能を検討することが重要である。 0.72
We show that on all datasets, we outperform both OD [22] and WGAN [39] for each of the 10 splits used. すべてのデータセットにおいて、使用する10の分割毎にOD[22]とWGAN[39]の両方を上回ります。 0.67
The comparison of this for both ZSL and GZSL can be seen in Figure 7. ZSLとGZSLの比較は図7で見ることができる。 0.65
All the comparisons are done when using sentence2vec as the embedding. sentence2vecを埋め込みとして使用する場合、すべての比較が実行される。 0.62
英語(論文から抽出)日本語訳スコア
Figure 7. Comparison of CLASTER with that of OD [22] and WGAN [39] on the same splits used for fair comparison. 図7。 公平な比較に用いた同一分割におけるクラスターとod [22] およびwgan [39] の比較 0.72
(a)-(c) corresponds to ZSL and (d)-(f) corresponds to GZSL. a)-(c)はZSLに対応し、(d)-(f)はGZSLに対応する。 0.65
We can see that for every split used, we outperform both OD [22] and WGAN [39] in all comparisons. 使用するスプリット毎に、すべての比較においてOD[22]とWGAN[39]よりも優れています。 0.65
6. Statistical Significance We consider the dependent t-test for paired samples. 6. 統計的意義 ペア標本に対する依存性tテストについて検討する。 0.70
This test is utilized in the case of dependent samples, in our case different model performances on the same random data split. このテストは、依存するサンプルの場合、同じランダムデータスプリット上で異なるモデル性能が使用される。 0.70
This is a case of a paired difference test. これは対差テストの例です。 0.59
This is calculated as shown in Eq 12. これはEq 12で示されるように計算される。 0.74
t = ¯XD − µ0 √ n sD/ t = XD − μ0 > n sD/ 0.85
(12) Where ¯XD is the average of the difference between all pairs and sD is the standard deviation of the difference between all pairs. (12) XD がすべての対と sD の差の平均である場合、すべての対の差の標準偏差である。 0.79
The constant µ0 is zero in case we wish to test if the average of the difference is significantly different. 定数 μ0 は、差の平均が著しく異なるかどうかをテストしたい場合にゼロである。 0.83
Also, n represents the number of samples and n − 1 is the degrees of freedom used. また、n はサンプルの数を表し、n − 1 は使用する自由度である。 0.73
The comparisons can be seen in Table 4. 比較は表4で見ることができる。 0.80
Lower the value of ’p’, higher the significance. p’ の値を下げれば、その重要性は高くなる。 0.68
As we can see, our results are statistically significant in comparison to both OD [22] and WGAN [39] in both ZSL and GZSL. この結果は,ZSLおよびGZSLのOD[22]およびWGAN[39]と比較して統計的に有意である。 0.68
However, in GZSL OD [22] also achieves results that are significant in comparison to WGAN [39]. しかし, GZSL OD [22] では WGAN [39] と比較して有意な結果が得られる。 0.84
7. Most Confused Classes 7. ほとんどの混同クラス 0.77
On different random splits, when occurring tothe following classes apgether as unseen classes peared as most confused in UCF101: (Baby crawling, mopping floor),(band marching, military parade),(blow dry hair, rafting),(shaving beard, brushing teeth),(breaststroke , front crawl),(rowing, front crawl),(apply lipstick, apply eye makeup),(pommel horse 違うのは 乱雑な分裂は、UCF101で最も混乱したクラスとして、乱雑なクラスとして出現する: (Baby crawling, mopping floor), (band marching, military parade), (blow dry hair, rafting), (shaving beard, brushing teeth), (breaststroke, front crawl), (rowing, front crawl), (apply lipstick, apply eye makeup), (pommel horse) 0.70
haircut),(kayaking, haircut (複数形 haircuts) 0.62
with other horse activities), (hammer throw and javelin throw). 他の馬の活動とともに、(ハンマー投げとジャベリン投げ)。 0.70
Using word2vec confuses pommel horse with other horse activities; groups all shooting activities together (basketball, table-tennis, billiards, cricket); walk (handstand walking and walking with a dog) hammer throw and javelin throw; word2vecはポンメルの馬と他の馬の活動と混同し、全ての射撃活動(バスケットボール、テーブルテニス、ビリヤード、クリケット)、歩く(犬と一緒に歩いて歩く)ハンマー投げ、ジャベリン投げ。 0.73
Similary the most confused classes in HMDB51: (punch, draw sword),(fencing, shoot bow),(sword exercise, sword fight),(chew, smile),(drink, eat),(fencing, sword exercise) Using word2vec results in all sword related activities being confused; ride bike and ride horse (if both unseen then there is a confusion), all shooting related activities (ball, bow, gun); sit up and sit down; HMDB51の最も混乱しているクラスは、(パンチ、ドローソード)、(フェンシング、シュート)、(ソードエクササイズ、ソードファイト)、(シュー、スマイル)、(ドリンク、ディッシュ)、(フェンシング、ソードエクササイズ) ワード2vecを使用すると、すべての剣関連の活動が混乱し、自転車と乗馬(どちらも見当たらない場合は混乱がある)、すべての射撃活動(ボール、弓、銃)、座れ。 0.61
Similarly the most confused classes in Olympics: (long triple jump),(discus throw, hammer throw),(vault, 同様にオリンピックで最も混乱したクラス:(ロングトリプルジャンプ)、(ディスマススロー、ハンマースロー)、(ヴォー、) 0.65
jump, high jump). ジャンプ、ハイジャンプ)。 0.63
8. Conclusion Zero-shot action recognition is the task of recognizing action classes without any visual examples. 8. 結論 ゼロショットアクション認識は、視覚的な例のないアクションクラスを認識するタスクである。 0.73
The challenge is to map the knowledge of seen classes at training time to that of novel unseen classes at test time. 課題は、トレーニング時に見たクラスの知識を、テスト時に目に見えない新しいクラスの知識にマッピングすることだ。 0.59
We propose a novel model that learns clustering-based representation optimized by reinforcement learning. 強化学習により最適化されたクラスタリングに基づく表現を学習する新しいモデルを提案する。 0.68
Our method consistently outperforms prior work, regardless of the semantic embeddings used, the dataset, and, both, for standard and for generalized zero-shot evaluation (GZSL). 提案手法は,標準および汎用ゼロショット評価(GZSL)において,使用するセマンティック埋め込み,データセット,およびその両方によらず,従来よりも常に優れる。 0.76
Additionally, we show that better semantic representations of action classes can be obtained using sentence2vec instead of word2vec, as the former is specifically trained to capture the meaning of multi- さらに,より優れたアクションクラスのセマンティック表現は,ワード2vecの代わりに sentence2vec を用いて得られることを示す。 0.60
9 9 0.85
英語(論文から抽出)日本語訳スコア
Dataset Pairs CLASTER and OD [22] UCF101 CLASTER and WGAN [39] UCF101 UCF101 OD [22] and WGAN [39] CLASTER and OD [22] HMDB51 CLASTER and WGAN [39] HMDB51 HMDB51 OD [22] and WGAN [39] CLASTER and OD [22] Olympics CLASTER and WGAN [39] Olympics Olympics OD [22] and WGAN [39] CLASTER and OD [22] UCF101 CLASTER and WGAN [39] UCF101 OD [22] and WGAN [39] UCF101 CLASTER and OD [22] HMDB51 CLASTER and WGAN [39] HMDB51 HMDB51 OD [22] and WGAN [39] CLASTER and OD [22] Olympics CLASTER and WGAN [39] Olympics Olympics OD [22] and WGAN [39] Dataset Pairs CLASTER and OD [22] UCF101 CLASTER and WGAN [39] UCF101 UCF101 OD [22] and WGAN [39] CLASTER and OD [22] HMDB51 CLASTER and WGAN [39] HMDB51 HMDB51 OD [22] and WGAN [39] CLASTER and OD [22] Olympics CLASTER and WGAN [39] Olympics Olympics OD [22] and WGAN [39] CLASTER and OD [22] UCF101 CLASTER and WGAN [39] UCF101 OD [22] and WGAN [39] UCF101 CLASTER and OD [22] HMDB51 CLASTER and WGAN [39] HMDB51 HMDB51 OD [22] and WGAN [39] CLASTER and OD [22] Olympics CLASTER and WGAN [39] Olympics Olympics OD [22] and WGAN [39] 0.92
Significant, p<0.00001 Significant, p<0.00001 重要、p<0.00001、p<0.00001 0.79
Not Significant, p=0.12278 重要でない、p=0.12278 0.45
Significant, p=0.00189 Significant, p=0.00036 意義 p=0.00189 意義 p=0.00036 0.54
t-value Statistical significance(p<0.002) Type ZSL -15.77 ZSL -9.08 ZSL -1.70 -4.33 ZSL ZSL -5.54 ZSL -3.71 ZSL -9.06 -11.73 ZSL ZSL -2.47 GZSL -4.51 GZSL -5.49 -3.16 GZSL GZSL -5.08 GZSL -7.51 GZSL -5.27 GZSL -5.79 -8.39 GZSL GZSL -6.22 ZSL -15.77 ZSL -9.08 ZSL -1.70 -4.33 ZSL ZSL -5.54 ZSL -3.71 ZSL -9.06 -11.73 ZSL -2.47 GZSL -4.51 GZSL -5.49 -3.16 GZSL GZSL -5.08 GZSL -7.51 GZSL -5.27 GZSL -5.79 -8.39 GZSL GZSL -6.22 0.58
Significant, p=0.00066 Significant, p=0.00004 Significant, p=0.00051 Significant, p=0.00026 Significant, p=0.00002 Significant, p=0.00014 有意, p=0.00066 有意, p=0.00004 有意, p=0.00051 有意, p=0.00026 有意, p=0.00002 有意, p=0.00014 0.45
Significant, p=0.00148 Significant, p=0.00039 意義 p=0.00148 意義 p=0.00039 0.53
Not Significant, p=0.00483 重要でない、p=0.00483 0.44
Significant, p<0.00001 Significant, p<0.00001 重要、p<0.00001、p<0.00001 0.79
Not Significant, p=0.03547 重要でない、p=0.03547 0.46
Not Significant, p=0.01144 重要でない、p=0.01144 0.47
Table 4. Comparison of the t-test for different pairs of models on the same random split. 表4。 同じランダムスプリット上の異なるモデルの異なるペアに対するt-testの比較。 0.79
Lower the value of ’p’, higher the significance. p’ の値を下げれば、その重要性は高くなる。 0.68
As we can see, our results are statistically significant in comparison to both OD [22] and WGAN [39] in both ZSL and GZSL. この結果は,ZSLおよびGZSLのOD[22]およびWGAN[39]と比較して統計的に有意である。 0.68
However, in GZSL OD [22] also achieves results that are significant in comparison to WGAN [39]. しかし, GZSL OD [22] では WGAN [39] と比較して有意な結果が得られる。 0.84
word expression such as the labels of action classes. アクションクラスのラベルのような単語表現。 0.68
Overall, we achieve remarkable improvements over the previously reported results, up to 11% absolute improvement on HMDB51 for GZSL. GZSLのHMDB51では, これまでに報告した結果よりも11%の絶対改善が得られた。 0.66
References [1] Zeynep Akata, Scott Reed, Daniel Walter, Honglak Lee, and Bernt Schiele. 参考文献 [1]Zeynep Akata、Scott Reed、Daniel Walter、Honglak Lee、Bernt Schiele。 0.67
Evaluation of output embeddings for In Proceedings of the fine-grained image classification. 微粒化画像分類におけるIn Proceedingsの出力埋め込みの評価 0.75
IEEE conference on computer vision and pattern recognition, pages 2927–2936, 2015. IEEE Conference on computer vision and pattern recognition, page 2927–2936, 2015 0.88
2, 6, 7, 8 2, 6, 7, 8 0.85
[2] Humam Alwassel, Dhruv Mahajan, Lorenzo Torresani, Bernard Ghanem, and Du Tran. [2]humam alwassel、dhruv mahajan、lorenzo torresani、bernard ghanem、du tran。 0.55
Self-supervised learning by cross-modal audio-video clustering. クロスモーダルオーディオビデオクラスタリングによる自己教師あり学習 0.56
arXiv preprint arXiv:1911.12667, 2019. arXiv preprint arXiv:1911.12667, 2019 0.81
2 [3] J. Carreira and Andrew Zisserman. 2 J. CarreiraとAndrew Zisserman。 0.72
Quo vadis, action recognition? Quo vadis、アクション認識? 0.70
a new model and the kinetics dataset. 新しいモデルと運動学データセットです 0.64
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., 2017. 平成17年(2017年)。 0.27
2, 3, 6 [4] Yang Fan, Fei Tian, Tao Qin, Jiang Bian, and TiearXiv preprint 2, 3, 6 4]yang fan, fei tian, tao qin, jiang bian, tiearxivプレプリント 0.73
Yan Liu. Learning what data to learn. Yan Liu 学習すべきデータを学ぶこと。 0.70
arXiv:1702.08635, 2017. arXiv:1702.08635, 2017 0.69
3 [5] Edward W Forgy. 3 5] エドワード・w・フォーギー 0.73
Cluster analysis of multivariate data: efficiency versus interpretability of classifications. 多変量データのクラスター分析:分類の効率と解釈可能性 0.88
biometrics, 21:768–769, 1965. バイオメトリックス 21:768–769, 1965。 0.59
3 [6] Chuang Gan, Ming Lin, Yi Yang, Gerard De Melo, and Alexander G Hauptmann. 3 [6]Chuang Gan、Ming Lin、Yi Yang、Gerard De Melo、Alexander G Hauptmann。 0.74
Concepts not alone: Exploring pairwise relationships for zero-shot video activity recognition. コンセプトだけでなく、ゼロショットビデオアクティビティ認識のためのペアワイズ関係を探求する。 0.67
In Thirtieth AAAI conference on artificial intelligence, 2016. 2016年、Thirtyth AAAI Conference on Artificial Intelligenceにて発表。 0.85
3 [7] Chuang Gan, Ming Lin, Yi Yang, Yueting Zhuang, and Alexander G Hauptmann. 3 [7]中広、明林、李陽、Yueting Zhuang、Alexander G Hauptmann。 0.73
Exploring semantic inter-class relationships (sir) for zero-shot action recognition. ゼロショット動作認識のための意味的クラス間関係(sir)の検討 0.62
In Proceedings of the National Conference on Artificial Intelligence, 2015. 2015年、全米人工知能会議(national conference on artificial intelligence)が開催。 0.65
3 [8] Chuang Gan, Tianbao Yang, and Boqing Gong. 3 [8]チャンガン、天馬陽、ボーク・ゴン。 0.69
Learning attributes equals multi-source domain generalization. 学習属性はマルチソース領域の一般化に等しい。 0.54
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 87–97, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 87-97, 2016 0.79
2, 6 [9] Junyu Gao, Tianzhu Zhang, and Changsheng Xu. 2, 6 九] 賀陽純、天津 張、 チャンシェン ジュ。 0.66
I know the relationships: Zero-shot action recognition via two-stream graph convolutional networks and knowledge graphs. 2つのストリームグラフ畳み込みネットワークと知識グラフによるゼロショットアクション認識。 0.62
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 8303–8311, 2019. AAAI Conference on Artificial IntelligenceのProceedings of the Proceedings of the AAAI Conference on Artificial Intelligence, Volume 33, page 8303–8311, 2019。 0.67
3, 5 [10] Junyu Gao, Tianzhu Zhang, and Changsheng Xu. 3, 5 十] 賀陽純、天津 張、 チャンシェン ×u 0.62
Learning to model relationships for zero-shot video classification. ゼロショットビデオ分類のための関係モデルへの学習 0.77
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020 0.76
2, 3, 6, 7, 8 2, 3, 6, 7, 8 0.85
[11] Rohit Girdhar and Deva Ramanan. 11]Rohit Girdhar氏とDeva Ramanan氏。 0.72
Attentional pooling for action recognition. 行動認識のための注意プール 0.73
In Advances in Neural Information Processing Systems, pages 34–45, 2017. In Advances in Neural Information Processing Systems, pages 34–45, 2017 0.85
2 [12] Shreyank N Gowda, Panagiotis Eustratiadis, Timothy Hospedales, and Laura Sevilla-Lara. 2 12] Shreyank N Gowda, Panagiotis Eustratiadis, Timothy Hospedales, Laura Sevilla-Lara。 0.81
Alba: Reinforcement learning for video object segmentation. Alba: ビデオオブジェクトセグメンテーションのための強化学習。 0.84
arXiv preprint arXiv:2005.13039, 2020. arXiv preprint arXiv:2005.13039, 2020 0.81
3 [13] Yanli Ji, Yue Zhan, Yang Yang, Xing Xu, Fumin Shen, and Heng Tao Shen. 3 [13]Yanli Ji、Yue Zhan、Yangang、Xing Xu、Fumin Shen、Hong Tao Shen。
訳抜け防止モード: 3 [13]Yanli Ji,Yue Zhan,Yangang, Xing Xu, Fumin Shen, and Heng Tao Shen
0.76
A context knowledge map guided coarseto-fine action recognition. コンテキスト知識マップは粗大な行動認識を誘導した。 0.61
IEEE Transactions on Image Processing, 29:2742–2752, 2019. IEEE Transactions on Image Processing, 29:2742–2752, 2019 0.89
2 [14] Zhong Ji, Yuxin Sun, Yunlong Yu, Jichang Guo, and Yanwei Pang. 2 [14]Zhong Ji、Yuxin Sun、Yunlong Yu、Jichang Guo、Yanwei Pang。 0.75
Semantic softmax loss for zero-shot learning. ゼロショット学習における意味ソフトマックス損失 0.68
Neuro- 10 神経 10 0.71
英語(論文から抽出)日本語訳スコア
computing, 316:369–375, 2018. 316:369–375, 2018。 0.66
4 [15] Elyor Kodirov, Tao Xiang, Zhenyong Fu, and Shaogang Gong. 4 [15]Elyor Kodirov、Tao Xiang、Zhenyong Fu、Shaogang Gong。 0.75
Unsupervised domain adaptation for zero-shot learning. ゼロショット学習のための教師なしドメイン適応 0.59
In Proceedings of the IEEE international conference on computer vision, pages 2452–2460, 2015. Proceedings of the IEEE International Conference on computer vision, page 2452–2460, 2015 0.80
6 [16] Hildegard Kuehne, Hueihan Jhuang, Est´ıbaliz Garrote, Tomaso Poggio, and Thomas Serre. 6 16]Hildegard Kuehne, Hueihan Jhuang, Est ́ıbaliz Garrote, Tomaso Poggio, Thomas Serre。 0.80
Hmdb: a large video In 2011 Internadatabase for human motion recognition. hmdb: 2011年のinternadatabase for human motion recognitionの大規模ビデオ。 0.82
tional Conference on Computer Vision, pages 2556–2563. Optial Conference on Computer Vision, page 2556–2563。 0.80
IEEE, 2011. 2011年、IEEE。 0.69
5, 6 [17] Christoph H Lampert, Hannes Nickisch, and Stefan Harmeling. 5, 6 Christoph H Lampert氏、Hannes Nickisch氏、Stefan Harmeling氏。 0.72
Learning to detect unseen object classes by betweenclass attribute transfer. クラス間属性転送による未認識オブジェクトクラスの検出の学習。 0.73
In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pages 951–958. 2009年、IEEE Conference on Computer Vision and Pattern Recognition, page 951–958。 0.86
IEEE, 2009. 2009年、IEEE。 0.68
2 [18] Aristidis Likas. 2 アリストテレス・リカス(Aristidis Likas)。 0.66
A reinforcement learning approach to online clustering. オンラインクラスタリングへの強化学習アプローチ。 0.82
Neural computation, 11(8):1915–1932, 1999. 神経計算,11(8):1915–1932, 1999。 0.76
5 [19] Bin Liu, Li Yao, Zheyuan Ding, Junyi Xu, and Junfeng Wu. 5[19]ビン・リ、リ・ヤオ、Zheyuan Ding、Junyi Xu、Junfeng Wu。 0.65
Combining ontology and reinforcement learning for zeroshot classification. ゼロショット分類のためのオントロジーと強化学習の組み合わせ 0.68
Knowledge-Based Systems, 144:42–50, 2018. 知識ベースシステム, 144:42–50, 2018。 0.62
3 [20] Changzhi Luo, Zhetao Li, Kaizhu Huang, Jiashi Feng, and Meng Wang. 3 [20]Changzhi Luo, Zhetao Li, Kaizhu Huang, Jiashi Feng, Meng Wang 0.75
Zero-shot learning via attribute regression and IEEE Transactions on Image class prototype rectification. イメージクラスのプロトタイプ修正における属性回帰とIEEEトランザクションによるゼロショット学習。 0.65
Processing, 27(2):637–648, 2017. 背番号27(2):637–648, 2017。 0.63
5 [21] Laurens van der Maaten and Geoffrey Hinton. 5 21] laurens van der maaten と geoffrey hinton です。 0.71
Visualizing data using t-sne. t-sneによるデータの可視化 0.51
Journal of machine learning research, 9(Nov):2579–2605, 2008. Journal of Machine Learning Research, 9(Nov):2579–2605, 2008 0.90
1 [22] Devraj Mandal, Sanath Narayan, Sai Kumar Dwivedi, Vikram Gupta, Shuaib Ahmed, Fahad Shahbaz Khan, and Ling Shao. 1 [22]Devraj Mandal,Sanath Narayan, Sai Kumar Dwivedi, Vikram Gupta, Shuaib Ahmed, Fahad Shahbaz Khan, Ling Shao。 0.80
Out-of-distribution detection for generalized In Proceedings of the IEEE zero-shot action recognition. IEEEゼロショット動作認識の一般化In Proceedingに対する分布外検出 0.78
Conference on Computer Vision and Pattern Recognition, pages 9985–9993, 2019. Conference on Computer Vision and Pattern Recognition, page 9985–9993, 2019 0.86
2, 3, 6, 7, 8, 9, 10 2, 3, 6, 7, 8, 9, 10 0.85
[23] Pascal Mettes and Cees GM Snoek. [23]Pascal MettesとCees GM Snoek。 0.65
Spatial-aware object embeddings for zero-shot localization and classification of actions. ゼロショットローカライゼーションのための空間認識オブジェクト埋め込みとアクションの分類 0.72
In Proceedings of the IEEE International Conference on Computer Vision, pages 4443–4452, 2017. The Proceedings of the IEEE International Conference on Computer Vision, page 4443–4452, 2017 0.85
6 [24] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 6 [24]Tomas Mikolov氏、Ilya Sutskever氏、Kai Chen氏、Greg S Corrado氏、Jeff Dean氏。 0.80
Distributed representations of words and In Advances in neural phrases and their compositionality. 単語の分散表現とニューラルフレーズの進歩とその構成性 0.59
information processing systems, pages 3111–3119, 2013. 情報処理システム、2013年3111-3119頁。 0.76
2, 5 [25] Ashish Mishra, Vinay Kumar Verma, M Shiva Krishna Reddy, S Arulkumar, Piyush Rai, and Anurag Mittal. 2, 5 [25]Ashish Mishra, Vinay Kumar Verma, M Shiva Krishna Reddy, S Arulkumar, Piyush Rai, Anurag Mittal。 0.81
A generative approach to zero-shot and few-shot action recogniIn 2018 IEEE Winter Conference on Applications of tion. ゼロショットと少数ショットアクションに対する生成的アプローチ 2018年IEEE Winter Conference on Applications of tion。 0.77
Computer Vision (WACV), pages 372–380. Computer Vision (WACV) 372-380頁。 0.75
IEEE, 2018. 2018年、IEEE。 0.52
2, 6, 7, 8 2, 6, 7, 8 0.85
[26] Juan Carlos Niebles, Chih-Wei Chen, and Li Fei-Fei. [26]Juan Carlos Niebles、Chih-Wei Chen、Li Fei-Fei。 0.83
Modeling temporal structure of decomposable motion segments for activity classification. 活動分類のための分解可能な運動セグメントの時間構造モデル化 0.78
In European conference on computer vision, pages 392–405. 欧州コンピュータビジョン会議』392-405頁。 0.66
Springer, 2010. 2010年、スプリンガー。 0.61
6 [27] Junhyuk Oh, Satinder Singh, Honglak Lee, and Pushmeet Kohli. 6 [27]Junhyuk Oh、Satinder Singh、Honglak Lee、Pushmeet Kohli。 0.76
Zero-shot task generalization with multi-task deep reinforcement learning. マルチタスク深部強化学習によるゼロショットタスク一般化 0.70
In International Conference on Machine Learning, pages 2661–2670, 2017. International Conference on Machine Learning, page 2661–2670, 2017 0.80
3 [28] Matteo Pagliardini, Prakhar Gupta, and Martin Jaggi. 3 Matteo Pagliardini氏、Prakhar Gupta氏、Martin Jaggi氏。 0.72
Unsupervised learning of sentence embeddings using compoIn Proceedings of NAACL-HLT, sitional n-gram features. NAACL-HLTの合成による文埋め込みの教師なし学習, 静止n-gramの特徴 0.59
pages 528–540, 2018. 2018年528-540頁。 0.68
2, 5 [29] Jie Qin, Li Liu, Ling Shao, Fumin Shen, Bingbing Ni, Jiaxin Chen, and Yunhong Wang. 2, 5 [29]慈恵秦、李利、林春、普民宗、ビンビンニ、慈明陳、元王。
訳抜け防止モード: 2, 5 [29 ]慈恵秦、李利、林青、 Fumin Shen, Bingbing Ni, Jiaxin Chen, Yunhong Wang
0.73
Zero-shot action recognition In Proceedings of the with error-correcting output codes. 誤り訂正出力符号の手続きにおけるゼロショット動作認識 0.73
IEEE Conference on Computer Vision and Pattern Recognition, pages 2833–2842, 2017. IEEE Conference on Computer Vision and Pattern Recognition, page 2833–2842, 2017 0.87
3, 6 [30] Zhaofan Qiu, Ting Yao, and Tao Mei. 3, 6 [30]Zhaofan Qiu、Ting Yao、Tao Mei。 0.68
Learning spatiotemporal representation with pseudo-3d residual networks. 擬似3d残差ネットワークを用いた時空間表現の学習 0.61
In proceedings of the IEEE International Conference on Computer Vision, pages 5533–5541, 2017. IEEE International Conference on Computer Vision, page 5533–5541, 2017 (英語) 0.72
2 [31] Marcus Rohrbach, Michaela Regneri, Mykhaylo Andriluka, Sikandar Amin, Manfred Pinkal, and Bernt Schiele. 2 31]marcus rohrbach, michaela regneri, mykhaylo andriluka, sikandar amin, manfred pinkal, bernt schiele。 0.71
Script data for attribute-based recognition of composite activities. 属性に基づく複合アクティビティ認識のためのスクリプトデータ 0.86
In Eur. Conf. Comput. Eur! Conf Comput 0.45
Vis., 2012. 2 2012年、入社。 2 0.72
[32] Marcus Rohrbach, Michael Stark, Gy¨orgy Szarvas, Iryna Gurevych, and Bernt Schiele. Marcus Rohrbach氏、Michael Stark氏、Gy sorgy Szarvas氏、Iryna Gurevych氏、Bernt Schiele氏。 0.67
What helps Where - and Why? どこで何が役立つのか? 0.65
Semantic Relatedness for Knowledge Transfer. 知識伝達における意味的関連性 0.65
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., 2010. 2010年、パターン・リコーグ。 0.63
2 [33] Bernardino Romera-Paredes and Philip Torr. 2 [33]Bernardino Romera-ParedesとPhilip Torr。 0.82
An embarrassingly simple approach to zero-shot learning. ゼロショット学習に対する恥ずかしいほどシンプルなアプローチ。 0.67
In International Conference on Machine Learning, pages 2152–2161, 2015. International Conference on Machine Learning, page 2152–2161, 2015 0.80
2 [34] Yutaro Shigeto, 2 [34] 茂藤裕太郎 0.76
Ikumi Suzuki, Kazuo Hara, Masashi Shimbo, and Yuji Matsumoto. 鈴木幾美、原一夫、柴正志、松本祐二。 0.51
Ridge regression, hubness, In Joint European Conference on and zero-shot learning. ridge regression, hubness, in joint european conference on and zero-shot learning(英語) 0.73
Machine Learning and Knowledge Discovery in Databases, pages 135–151. 機械学習と知識発見 データベース、135–151ページ。 0.84
Springer, 2015. 5 2015年、春。 5 0.71
[35] Karen Simonyan and Andrew Zisserman. 35]カレン・シモンヤンとアンドリュー・ジッセルマン 0.60
Two-stream convolutional networks for action recognition in videos. ビデオにおける動作認識のための2ストリーム畳み込みネットワーク 0.70
In Advances in neural information processing systems, pages 568– 576, 2014. 神経情報処理システムの進歩』では、2014年568-576頁。 0.70
2 [36] Khurram Soomro, Amir Roshan Zamir, and Mubarak Shah. 2 [36]Khurram Soomro、Amir Roshan Zamir、Mubarak Shah。 0.75
Ucf101: A dataset of 101 human actions classes from videos in the wild. Ucf101: 野生のビデオから101のヒューマンアクションクラスのデータセット。 0.73
arXiv preprint arXiv:1212.0402, 2012. arXiv preprint arXiv:1212.0402, 2012 0.79
6 [37] Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, and Manohar Paluri. 6 37] ドゥ・トラン、ルボミール・ブルデフ、ロブ・フェルガス、ロレンツォ・トレサニ、マノハル・パウリ。 0.67
Learning spatiotemporal features with 3d convolutional networks. 3次元畳み込みネットワークを用いた時空間特徴の学習 0.64
In Proceedings of the IEEE international conference on computer vision, pages 4489–4497, 2015. Proceedings of the IEEE International Conference on computer vision, page 4489–4497, 2015 0.80
2 [38] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. 2 [38]Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He。 0.81
Non-local neural networks. 非局所ニューラルネットワーク。 0.76
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 7794–7803, 2018。 0.83
2 [39] Yongqin Xian, Tobias Lorenz, Bernt Schiele, and Zeynep Akata. 2 [39]ヨンキン・ジアン、トビアス・ロレンツ、ベルント・シエレ、ゼイネプ・アカタ 0.62
Feature generating networks for zero-shot learning. ゼロショット学習のための特徴生成ネットワーク 0.77
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5542–5551, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 5542–5551, 2018。 0.85
6, 7, 8, 9, 10 6, 7, 8, 9, 10 0.85
[40] Xun Xu, Timothy Hospedales, and Shaogang Gong. [40]Xun Xu、Timothy Hospedales、Shaogang Gong。 0.67
Transductive zero-shot action recognition by word-vector embedding. 単語ベクトル埋め込みによるトランスダクティブゼロショット動作認識 0.66
International Journal of Computer Vision, 123(3):309– 333, 2017. international journal of computer vision, 123(3):309–333, 2017年。 0.83
2, 6 [41] Xun Xu, Timothy M Hospedales, and Shaogang Gong. 2, 6 [41]Xun Xu、Timothy M Hospedales、Shaogang Gong。 0.76
Multi-task zero-shot action recognition with prioritised data 優先データを用いたマルチタスクゼロショット動作認識 0.68
11 11 0.85
英語(論文から抽出)日本語訳スコア
augmentation. In European Conference on Computer Vision, pages 343–359. 拡張。 欧州コンピュータビジョン会議』343-359頁。 0.60
Springer, 2016. スプリンガー、2016年。 0.60
2 [42] Zhiquan Ye, Yuxia Geng, Jiaoyan Chen, Jingmin Chen, Xiaoxiao Xu, SuHang Zheng, Feng Wang, Jun Zhang, and Huajun Chen. 2 [42]Zhiquan Ye, Yuxia Geng, Jiaoyan Chen, Jingmin Chen, Xiaoxiao Xu, SuHang Zheng, Feng Wang, Jun Zhang, Huajun Chen 0.80
Zero-shot text classification via reinforced self-training. 強化自己学習によるゼロショットテキスト分類 0.73
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 3014– 3024, 2020. 58th Annual Meeting of the Association for Computational Linguistics, page 3014–3024, 2020 (英語) 0.76
3 [43] Li Zhang, Tao Xiang, and Shaogang Gong. 3 [43]li zhang、tao xiang、shaogang gong。 0.70
Learning a deep In Proceedings embedding model for zero-shot learning. ゼロショット学習のためのディープIn Proceedings埋め込みモデルを学ぶ。 0.75
of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2021–2030, 2017. IEEE Conference on Computer Vision and Pattern Recognition, page 2021–2030, 2017 0.76
3 [44] Yi Zhu, Yang Long, Yu Guan, Shawn Newsam, and Ling Shao. 3 [44]Yi Zhu、Yang Long、Yu Guan、Shawn Newsam、Ling Shao。 0.75
Towards universal representation for unseen action recognition. 非知覚行動認識のための普遍表現に向けて 0.58
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9436–9445, 2018. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 9436–9445, 2018。 0.89
2, 6 12 2, 6 12 0.85
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。