このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201205となっている論文です。

PDF登録状況(公開日: 20201205)

TitleAuthorsAbstract論文公表日・翻訳日
# 二重単語埋め込み空間モデルの固有解析

Intrinsic analysis for dual word embedding space models ( http://arxiv.org/abs/2012.00728v2 )

ライセンス: Link先を確認
Mohit Mayank(参考訳) 最近の単語埋め込み技術は連続ベクトル空間における単語を表現しており、過去の原子とスパース表現から遠ざかっている。 それぞれのテクニックは、埋め込み次元サイズ、コンテキストウィンドウサイズ、トレーニングメソッドなど、さまざまなハイパーパラメータの設定に基づいて、複数の埋め込みを作成できる。 特に、二つの単語の埋め込みを出力として生成しないデュアル埋め込み空間技術を考えると、追加のバリエーションが現れる。 これは"2つの単語埋め込みのバラエティの1つか1つの組み合わせがあるか、それとも特定のタスクでうまく動作するか"という興味深い疑問を生じさせる。 本稿では,これらの変種をすべて考慮し,この疑問への回答を試みる。 本稿では,2つの異なる手法に属する古典的な埋め込み手法,すなわちウィンドウベースのWord2VecとカウントベースのGloveを比較した。 全てのバリエーションを考慮し、広範囲な評価を行うため、9つのオープンソース言語データセットからなる意味、関連性、類似性評価タスクに対して、84種類のモデルを比較した。 最後のWord2vecレポートでは、3つのタスクのうち2つの非デフォルトモデルが好まれている。 Gloveの場合、非デフォルトモデルは3つの評価タスクすべてでパフォーマンスが向上する。

Recent word embeddings techniques represent words in a continuous vector space, moving away from the atomic and sparse representations of the past. Each such technique can further create multiple varieties of embeddings based on different settings of hyper-parameters like embedding dimension size, context window size and training method. One additional variety appears when we especially consider the Dual embedding space techniques which generate not one but two-word embeddings as output. This gives rise to an interesting question - "is there one or a combination of the two word embeddings variety, which works better for a specific task?". This paper tries to answer this question by considering all of these variations. Herein, we compare two classical embedding methods belonging to two different methodologies - Word2Vec from window-based and Glove from count-based. For an extensive evaluation after considering all variations, a total of 84 different models were compared against semantic, association and analogy evaluations tasks which are made up of 9 open-source linguistics datasets. The final Word2vec reports showcase the preference of non-default model for 2 out of 3 tasks. In case of Glove, non-default models outperform in all 3 evaluation tasks.
翻訳日:2021-05-30 19:53:30 公開日:2020-12-05
# (参考訳) ディープシームズネットワークを用いた差動型顔検出 [全文訳有]

Differential Morphed Face Detection Using Deep Siamese Networks ( http://arxiv.org/abs/2012.01541v2 )

ライセンス: CC BY 4.0
Sobhan Soleymani, Baaria Chaudhary, Ali Dabouei, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 生体認証システムは、急速にセキュリティアプリケーションの一部になりつつあるが、これらのシステムは、顔参照画像が2つ以上の別々のアイデンティティとして検証されるモーフィング攻撃に対して脆弱である。 国境管理のシナリオでは、2人以上の人が同じパスポートを使って国境を横切ることができる。 本稿では,deep siameseネットワークを用いた新しい差分モーフィックアタック検出フレームワークを提案する。 私たちの知る限りでは、これはモーフィックアタック検出にシャムネットワークアーキテクチャを使用する最初の研究作品です。 我々のモデルは、VISAPP17とMorGANの2つの異なる形態データセットを用いて、他の古典的および深層学習モデルと比較する。 本研究では, ユークリッド距離, 特徴差, 支持ベクトルマシン分類器, 特徴連結と支持ベクトルマシン分類器を用いた3つの意思決定フレームワークを用いて, 比較損失によって生じる埋め込み空間を探索する。

Although biometric facial recognition systems are fast becoming part of security applications, these systems are still vulnerable to morphing attacks, in which a facial reference image can be verified as two or more separate identities. In border control scenarios, a successful morphing attack allows two or more people to use the same passport to cross borders. In this paper, we propose a novel differential morph attack detection framework using a deep Siamese network. To the best of our knowledge, this is the first research work that makes use of a Siamese network architecture for morph attack detection. We compare our model with other classical and deep learning models using two distinct morph datasets, VISAPP17 and MorGAN. We explore the embedding space generated by the contrastive loss using three decision making frameworks using Euclidean distance, feature difference and a support vector machine classifier, and feature concatenation and a support vector machine classifier.
翻訳日:2021-05-30 00:11:29 公開日:2020-12-05
# (参考訳) cosine-pruned medial axis: isometric equivariant and noise-free medial axis extraction の新しい方法 [全文訳有]

Cosine-Pruned Medial Axis: A new method for isometric equivariant and noise-free medial axis extraction ( http://arxiv.org/abs/2012.02910v1 )

ライセンス: CC BY 4.0
Diego Pati\~no and John Branch(参考訳) 異方性変換に同値なノイズロバスト性と等価性を有する新しい媒体軸プルーニング法であるCPMAを提案する。 本手法は離散コサイン変換を利用して, 形状の滑らかなバージョンを$\Omega$で作成する。 滑らかな形状を使ってスコア関数$\scorefunction$を計算し、内側軸から散発的な枝をフィルターします。 cpmaを最先端プルーニング法と比較し,ノイズロバスト性および等尺同値性に注目した。 提案手法は, 激しい輪郭摂動を伴うシナリオにおいても, 競争結果が得られ, 安定した中間軸が得られることがわかった。

We present the CPMA, a new method for medial axis pruning with noise robustness and equivariance to isometric transformations. Our method leverages the discrete cosine transform to create smooth versions of a shape $\Omega$. We use the smooth shapes to compute a score function $\scorefunction$ that filters out spurious branches from the medial axis. We extensively compare the CPMA with state-of-the-art pruning methods and highlight our method's noise robustness and isometric equivariance. We found that our pruning approach achieves competitive results and yields stable medial axes even in scenarios with significant contour perturbations.
翻訳日:2021-05-22 18:22:31 公開日:2020-12-05
# (参考訳) 骨格に基づく行動認識のためのマルチスケール時間グラフネットワーク [全文訳有]

Multi Scale Temporal Graph Networks For Skeleton-based Action Recognition ( http://arxiv.org/abs/2012.02970v1 )

ライセンス: CC BY 4.0
Tingwei Li, Ruiwen Zhang, Qing Li(参考訳) グラフ畳み込みネットワーク(GCN)は、関連するノードの特徴を効果的に捉え、モデルの性能を向上させる。 スケルトンに基づく行動認識にGCNを採用することには、より注意が払われる。 しかし、GCNに基づく既存の手法には2つの問題がある。 まず,時間的特徴と空間的特徴の一貫性を無視し,特徴点をノード単位,フレーム単位で抽出する。 時空間の特徴を同時に得るために,動作認識のための骨格配列の汎用表現を設計し,時間グラフネットワーク(TGN)と呼ばれる新しいモデルを提案する。 第二に、ジョイントの関係を記述するグラフの隣接行列は、関節間の物理的接続に大きく依存する。 スケルトングラフにおけるジョイントの関係を適切に記述するために,本尺度グラフ,パートスケールグラフ,コアスケールグラフを用いて,各ジョイントの局所的特徴と重要なジョイントの輪郭特徴を捉えるマルチスケールグラフ戦略を提案する。 2つの大規模データセットで実験を行い, tgnのグラフ戦略が最先端手法よりも優れていることを示した。

Graph convolutional networks (GCNs) can effectively capture the features of related nodes and improve the performance of the model. More attention is paid to employing GCN in Skeleton-Based action recognition. But existing methods based on GCNs have two problems. First, the consistency of temporal and spatial features is ignored for extracting features node by node and frame by frame. To obtain spatiotemporal features simultaneously, we design a generic representation of skeleton sequences for action recognition and propose a novel model called Temporal Graph Networks (TGN). Secondly, the adjacency matrix of the graph describing the relation of joints is mostly dependent on the physical connection between joints. To appropriately describe the relations between joints in the skeleton graph, we propose a multi-scale graph strategy, adopting a full-scale graph, part-scale graph, and core-scale graph to capture the local features of each joint and the contour features of important joints. Experiments were carried out on two large datasets and results show that TGN with our graph strategy outperforms state-of-the-art methods.
翻訳日:2021-05-22 17:20:49 公開日:2020-12-05
# (参考訳) エコー状態ネットワークの設計と応用

A Review of Designs and Applications of Echo State Networks ( http://arxiv.org/abs/2012.02974v1 )

ライセンス: CC BY 4.0
Chenxi Sun and Moxian Song and Shenda Hong and Hongyan Li(参考訳) リカレントニューラルネットワーク(RNN)は、シーケンスタスクにおけるその卓越した能力を示し、産業、医療、経済、言語など幅広い分野で最先端の応用を実現してきた。 Echo State Network(ESN)はシンプルなタイプのRNNであり、勾配降下トレーニングベースのRNNに代わるものとして、過去10年間に登場した。 ESNは強力な理論的根拠を持ち、実用的で概念的にシンプルで実装が容易である。 非収束を回避し、勾配降下法では計算コストがかかる。 2002年にESNが施行されて以降、ESNの進歩が促進され、最近導入されたDeep ESNモデルは、深層学習とESNのメリットを一体化するための道を開いた。 さらに、他の機械学習モデルとESNの組み合わせは、いくつかのアプリケーションでベースラインをオーバーパフォーマンスしている。 しかし、ESNの明らかな単純さは、時に騙され、ESNをうまく適用するにはある程度の経験が必要である。 そこで本稿では,EMSに基づく手法を基本ESN,DeepESN,および組み合わせに分類し,理論的研究,ネットワーク設計,特定の応用の観点から解析する。 最後に,オープンな質問を要約し,将来的な作業を提案することで,ESNの課題と機会について議論する。

Recurrent Neural Networks (RNNs) have demonstrated their outstanding ability in sequence tasks and have achieved state-of-the-art in wide range of applications, such as industrial, medical, economic and linguistic. Echo State Network (ESN) is simple type of RNNs and has emerged in the last decade as an alternative to gradient descent training based RNNs. ESN, with a strong theoretical ground, is practical, conceptually simple, easy to implement. It avoids non-converging and computationally expensive in the gradient descent methods. Since ESN was put forward in 2002, abundant existing works have promoted the progress of ESN, and the recently introduced Deep ESN model opened the way to uniting the merits of deep learning and ESNs. Besides, the combinations of ESNs with other machine learning models have also overperformed baselines in some applications. However, the apparent simplicity of ESNs can sometimes be deceptive and successfully applying ESNs needs some experience. Thus, in this paper, we categorize the ESN-based methods to basic ESNs, DeepESNs and combinations, then analyze them from the perspective of theoretical studies, network designs and specific applications. Finally, we discuss the challenges and opportunities of ESNs by summarizing the open questions and proposing possible future works.
翻訳日:2021-05-22 17:13:02 公開日:2020-12-05
# (参考訳) 相互監視型学習はニューラルマシン翻訳を改善する [全文訳有]

Reciprocal Supervised Learning Improves Neural Machine Translation ( http://arxiv.org/abs/2012.02975v1 )

ライセンス: CC BY 4.0
Minkai Xu, Mingxuan Wang, Zhouhan Lin, Hao Zhou, Weinan Zhang, Lei Li(参考訳) 最近の画像分類の成功にもかかわらず、自己学習はニューラルマシン翻訳(NMT)のような構造化予測タスクにおいて限られた利益しか得られていない。 これは主に、遠方の予測仮説が悪名高い強化された誤り問題に繋がるターゲット空間の構成性に起因する。 本稿では,多種多様なモデルの利用を再考し,Reciprocal-Supervis ed Learning (RSL) というシンプルなアプローチを提案する。 rslはまず個々のモデルを利用して擬似並列データを生成し、次に合成コーパス上で協調的に各モデルを訓練する。 RSLは、異なるパラメータ化モデルが異なる帰納バイアスを持つという事実を活用し、合意を相互に活用することでより良い予測を行うことができる。 従来の知識蒸留法とは異なり、RSLは他の同等またはより弱いモデルを導入することで、1つのモデルの精度を高めることができる。 RSLはアンサンブルのより効率的な代替品と見なすこともできる。 大規模な実験は、有意なマージンを持ついくつかのベンチマークにおいて、RSLの優れた性能を示す。

Despite the recent success on image classification, self-training has only achieved limited gains on structured prediction tasks such as neural machine translation (NMT). This is mainly due to the compositionality of the target space, where the far-away prediction hypotheses lead to the notorious reinforced mistake problem. In this paper, we revisit the utilization of multiple diverse models and present a simple yet effective approach named Reciprocal-Supervise d Learning (RSL). RSL first exploits individual models to generate pseudo parallel data, and then cooperatively trains each model on the combined synthetic corpus. RSL leverages the fact that different parameterized models have different inductive biases, and better predictions can be made by jointly exploiting the agreement among each other. Unlike the previous knowledge distillation methods built upon a much stronger teacher, RSL is capable of boosting the accuracy of one model by introducing other comparable or even weaker models. RSL can also be viewed as a more efficient alternative to ensemble. Extensive experiments demonstrate the superior performance of RSL on several benchmarks with significant margins.
翻訳日:2021-05-22 17:11:56 公開日:2020-12-05
# (参考訳) 構造化光システムのためのU-netに基づく格子点検出法 [全文訳有]

A grid-point detection method based on U-net for a structured light system ( http://arxiv.org/abs/2012.08641v1 )

ライセンス: CC BY 4.0
Dieuthuy Pham, Minhtuan Ha and Changyan Xiao(参考訳) 投影パターンの特徴点の正確な検出は、特に格子パターンを用いた場合、ワンショット3D再構成システムにおいて極めて重要な役割を果たす。 そこで本稿では,u-netに基づくグリッドポイント検出手法を提案する。 2枚撮影方式で撮影した画像と1枚撮影方式で取得した画像とを含む、特定のデータセットをデザインする。 このうち、グランド真理画像としてラベル付けされた第1グループ内の画像と、ワンショット方式で同じポーズで撮影された画像とを、64x64ピクセルの大きさの小さなパッチにカットし、トレーニングセットに供給する。 第2グループ内の残りの画像はテストセットである。 実験結果から,本手法は従来手法と比較して精度が高く,優れた検出性能が得られることが示された。

Accurate detection of the feature points of the projected pattern plays an extremely important role in one-shot 3D reconstruction systems, especially for the ones using a grid pattern. To solve this problem, this paper proposes a grid-point detection method based on U-net. A specific dataset is designed that includes the images captured with the two-shot imaging method and the ones acquired with the one-shot imaging method. Among them, the images in the first group after labeled as the ground truth images and the images captured at the same pose with the one-shot method are cut into small patches with the size of 64x64 pixels then feed to the training set. The remaining of the images in the second group is the test set. The experimental results show that our method can achieve a better detecting performance with higher accuracy in comparison with the previous methods.
翻訳日:2021-05-22 16:55:24 公開日:2020-12-05
# (参考訳) 地震イベント検出のための双方向リカレントニューラルネットワーク [全文訳有]

Bidirectional recurrent neural networks for seismic event detection ( http://arxiv.org/abs/2012.03009v1 )

ライセンス: CC BY 4.0
Claire Birnie and Fredrik Hansteen(参考訳) リアルタイム, 高精度な受動的地震イベント検出は, 貯留層安定性から炭素貯蔵, 火山性微動検出まで, 様々なモニタリング応用において重要な安全対策である。 最も一般的な検出手順は、信号対雑音比が1より大きく、トリガーパラメータに非常に敏感であるという共通の落とし穴にもかかわらず、STA/LTA(Short-Term-A verage to Long-Term-Average)トリガーのままである。 多くの代替案が提案されているが、それらは特定の監視設定に合わせて調整されており、グローバルに適用できないため、計算コストが高すぎるため、リアルタイムに実行できないことが多い。 本稿では,sta/ltaトリガに代わるイベント検出へのディープラーニングアプローチを紹介する。 双方向の長期記憶型ニューラルネットワークは、合成トレースのみに基づいてトレーニングされる。 合成データとフィールドデータで評価すると、ニューラルネットワークアプローチは、正しく検出された到着数と誤検出された事象の数の両方において、sta/ltaトリガーを大きく上回る。 リアルタイム適用性は、1つの処理ユニットで600のトレースをリアルタイムで処理することで証明される。

Real time, accurate passive seismic event detection is a critical safety measure across a range of monitoring applications from reservoir stability to carbon storage to volcanic tremor detection. The most common detection procedure remains the Short-Term-Average to Long-Term-Average (STA/LTA) trigger despite its common pitfalls of requiring a signal-to-noise ratio greater than one and being highly sensitive to the trigger parameters. Whilst numerous alternatives have been proposed, they often are tailored to a specific monitoring setting and therefore cannot be globally applied, or they are too computationally expensive therefore cannot be run real time. This work introduces a deep learning approach to event detection that is an alternative to the STA/LTA trigger. A bi-directional, long-short-term memory, neural network is trained solely on synthetic traces. Evaluated on synthetic and field data, the neural network approach significantly outperforms the STA/LTA trigger both on the number of correctly detected arrivals as well as on reducing the number of falsely detected events. Its real time applicability is proven with 600 traces processed in real time on a single processing unit.
翻訳日:2021-05-22 16:46:03 公開日:2020-12-05
# (参考訳) ParaNet: 3DポイントクラウドのためのDeep Regular Representation [全文訳有]

ParaNet: Deep Regular Representation for 3D Point Clouds ( http://arxiv.org/abs/2012.03028v1 )

ライセンス: CC BY 4.0
Qijian Zhang, Junhui Hou, Yue Qian, Juyong Zhang, Ying He(参考訳) 畳み込みニューラルネットワークは2d画像/ビデオの解析に著しく成功したが、不規則な3dポイントクラウドデータに通常のドメインでよく開発された2d技術を適用することは、いまだに自明ではない。 このギャップを埋めるために,我々は3dポイントクラウドを完全規則的かつほぼ損失のない方法で表現する,新しいエンドツーエンドディープラーニングフレームワークparanetを提案する。 具体的に言うと、ParaNetは不規則な3D点雲を通常の2Dカラー画像(PGI)に変換し、各ピクセルが点の空間座標を符号化する。 多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。 技術的には、ParaNetは3次元曲面点を単位正方形にパラメータ化する曲面埋め込みモジュールと、通常の高密度グリッド上に埋め込まれた2次元多様体を再サンプリングするグリッド再サンプリングモジュールで構成されている。 ParaNetは教師なし、つまり、トレーニングは単に参照不要な幾何制約に依存する。 PGIは、標準および成熟した2D画像/ビデオのタスクネットワークとシームレスに結合して、3Dポイントクラウドの特定のタスクを実現することができる。 形状分類とポイント・クラウド・アップサンプリングによるパラネットの評価を行い,既存の最先端手法に対して有利にソリューションが機能することを示す。 このようなパラダイムは、ディープラーニングベースのポイントクラウド処理と理解の進歩を促進する多くの可能性を開くだろうと考えています。

Although convolutional neural networks have achieved remarkable success in analyzing 2D images/videos, it is still non-trivial to apply the well-developed 2D techniques in regular domains to the irregular 3D point cloud data. To bridge this gap, we propose ParaNet, a novel end-to-end deep learning framework, for representing 3D point clouds in a completely regular and nearly lossless manner. To be specific, ParaNet converts an irregular 3D point cloud into a regular 2D color image, named point geometry image (PGI), where each pixel encodes the spatial coordinates of a point. In contrast to conventional regular representation modalities based on multi-view projection and voxelization, the proposed representation is differentiable and reversible. Technically, ParaNet is composed of a surface embedding module, which parameterizes 3D surface points onto a unit square, and a grid resampling module, which resamples the embedded 2D manifold over regular dense grids. Note that ParaNet is unsupervised, i.e., the training simply relies on reference-free geometry constraints. The PGIs can be seamlessly coupled with a task network established upon standard and mature techniques for 2D images/videos to realize a specific task for 3D point clouds. We evaluate ParaNet over shape classification and point cloud upsampling, in which our solutions perform favorably against the existing state-of-the-art methods. We believe such a paradigm will open up many possibilities to advance the progress of deep learning-based point cloud processing and understanding.
翻訳日:2021-05-22 16:34:21 公開日:2020-12-05
# (参考訳) ソーシャルメディアを用いた都市群集センシング--トランスフォーマーとリカレントニューラルネットワークの実証研究 [全文訳有]

Urban Crowdsensing using Social Media: An Empirical Study on Transformer and Recurrent Neural Networks ( http://arxiv.org/abs/2012.03057v1 )

ライセンス: CC BY 4.0
Jerome Heng, Junhua Liu and Kwan Hui Lim(参考訳) 都市計画の重要な側面は、物理的センサーの使用を必要とする様々な場所での群衆レベルの理解である。 このようなセンサーはコストがかかり、大規模に実装するのに時間がかかります。 この問題に対処するために,ソーシャルメディアデータセットを公開利用し,イベント検出と群衆レベルの予測という2つの都市センシング問題の基盤として利用する。 この研究の主な貢献は、TwitterとFlickrから収集したデータセットと、地上での真実のイベントです。 まず、ソーシャルメディアの投稿がイベントと関連しているかどうかを判断する一連のニューラルネットワークモデルと、ソーシャルメディアのポストカウントを使って実際の群衆レベルを予測する回帰モデルである。 これらのタスクの予備的な結果について議論し、いくつかの課題を強調します。

An important aspect of urban planning is understanding crowd levels at various locations, which typically require the use of physical sensors. Such sensors are potentially costly and time consuming to implement on a large scale. To address this issue, we utilize publicly available social media datasets and use them as the basis for two urban sensing problems, namely event detection and crowd level prediction. One main contribution of this work is our collected dataset from Twitter and Flickr, alongside ground truth events. We demonstrate the usefulness of this dataset with two preliminary supervised learning approaches: firstly, a series of neural network models to determine if a social media post is related to an event and secondly a regression model using social media post counts to predict actual crowd levels. We discuss preliminary results from these tasks and highlight some challenges.
翻訳日:2021-05-22 16:14:52 公開日:2020-12-05
# (参考訳) ラベル非依存的結合対を持つタンパク質言語モデルによる下流作業の性能向上 [全文訳有]

Pre-training Protein Language Models with Label-Agnostic Binding Pairs Enhances Performance in Downstream Tasks ( http://arxiv.org/abs/2012.03084v1 )

ライセンス: CC BY 4.0
Modestas Filipavicius, Matteo Manica, Joris Cadow, Maria Rodriguez Martinez(参考訳) タンパク質配列の1%未満は構造的および機能的にアノテートされている。 自然言語処理(NLP)コミュニティは最近、注目ベースのコンテキスト対応トランスフォーマーモデルのために、ラベルのないテキストから表現を学ぶための強力なアプローチとして、自己教師付き学習を取り入れている。 本研究では,結合タンパク質配列と非結合タンパク質配列の混合を事前学習中に入力することで,RoBERTaモデルを改良する。 しかしながら、シーケンスペアにはバインディング状態を示すラベルがないので、モデルが事前トレーニング中にMasked Language Modeling (MLM)の目的にのみ依存する。 微調整後、この手法はタンパク質-タンパク質結合予測、TCR-エピトープ結合予測、細胞局在化、リモートホモロジー分類タスクのための単一タンパク質配列で訓練されたモデルを超えた。 トランスフォーマーの注意機構はタンパク質結合部位の発見に寄与することが示唆された。 さらに,タンパク質配列を64%圧縮し,約3~4アミノ酸長の10kサブワードからなるbpe(byte pair encoding)語彙をコードした。 最後に,2,048個のトークンをサポートするLongformerモデルを事前訓練し,さらに大きなタンパク質や多タンパク質集合体にモデル入力空間を拡大する。 二次構造予測のためのトークンレベル分類のさらなる研究が必要である。 https://github.com/P accMann/paccmann_pro teomics

Less than 1% of protein sequences are structurally and functionally annotated. Natural Language Processing (NLP) community has recently embraced self-supervised learning as a powerful approach to learn representations from unlabeled text, in large part due to the attention-based context-aware Transformer models. In this work we present a modification to the RoBERTa model by inputting during pre-training a mixture of binding and non-binding protein sequences (from STRING database). However, the sequence pairs have no label to indicate their binding status, as the model relies solely on Masked Language Modeling (MLM) objective during pre-training. After fine-tuning, such approach surpasses models trained on single protein sequences for protein-protein binding prediction, TCR-epitope binding prediction, cellular-localizatio n and remote homology classification tasks. We suggest that the Transformer's attention mechanism contributes to protein binding site discovery. Furthermore, we compress protein sequences by 64% with the Byte Pair Encoding (BPE) vocabulary consisting of 10K subwords, each around 3-4 amino acids long. Finally, to expand the model input space to even larger proteins and multi-protein assemblies, we pre-train Longformer models that support 2,048 tokens. Further work in token-level classification for secondary structure prediction is needed. Code available at: https://github.com/P accMann/paccmann_pro teomics
翻訳日:2021-05-22 15:22:51 公開日:2020-12-05
# (参考訳) 監視分類における一般化蒸留による解釈可能性の理解 [全文訳有]

Understanding Interpretability by generalized distillation in Supervised Classification ( http://arxiv.org/abs/2012.03089v1 )

ライセンス: CC BY 4.0
Adit Agarwal and Dr. K.K. Shukla and Arjan Kuijper and Anirban Mukhopadhyay(参考訳) 機械学習(ML)モデルで決定を解釈する能力は、異なる実践的アプリケーションにおける信頼性と信頼性を促進するのに不可欠である。 最近の解釈戦略は、複雑なMLモデルの根底にある決定機構の人間の理解に焦点を当てている。 しかし、これらの戦略は人間の主観バイアスによって制限されている。 このような人間のバイアスから解離するために、他のMLモデルと比較して定義された解釈・蒸留の定式化を提案する。 本稿では,情報理論の観点から解釈可能性の定量化のための蒸留手法を一般化し,解釈可能性の定義から地下構造の役割を除去する。 我々の研究は教師付き分類モデルのエントロピーを定義し、Piece-Wise Linear Neural Networks (PWLNs)のエントロピーとPWLNの解釈可能性に関する最初の理論的境界を提供する。 提案するmnist, fashion-mnist, stanford40データセットの枠組みを評価し,異なる教師付き分類シナリオにおける提案手法の適用性を示す。

The ability to interpret decisions taken by Machine Learning (ML) models is fundamental to encourage trust and reliability in different practical applications. Recent interpretation strategies focus on human understanding of the underlying decision mechanisms of the complex ML models. However, these strategies are restricted by the subjective biases of humans. To dissociate from such human biases, we propose an interpretation-by-di stillation formulation that is defined relative to other ML models. We generalize the distillation technique for quantifying interpretability, using an information-theoreti c perspective, removing the role of ground-truth from the definition of interpretability. Our work defines the entropy of supervised classification models, providing bounds on the entropy of Piece-Wise Linear Neural Networks (PWLNs), along with the first theoretical bounds on the interpretability of PWLNs. We evaluate our proposed framework on the MNIST, Fashion-MNIST and Stanford40 datasets and demonstrate the applicability of the proposed theoretical framework in different supervised classification scenarios.
翻訳日:2021-05-22 15:05:53 公開日:2020-12-05
# (参考訳) 高階テンソルに対するsparse best rank-1 approximationの近似アルゴリズム [全文訳有]

Approximation Algorithms for Sparse Best Rank-1 Approximation to Higher-Order Tensors ( http://arxiv.org/abs/2012.03092v1 )

ライセンス: CC BY 4.0
Xianpeng Mao and Yuning Yang(参考訳) スパーステンソルの最良ランク1近似(sparse tensor best rank-1 approximation, br1approx)は、密度テンソルbr1近似のスパース性一般化であり、スパース行列br1近似の高次拡張であり、スパーステンソル分解や統計や機械学習から生じる関連する問題において最も重要な問題の1つである。 多重線形性と問題のスパーシティ構造を利用することにより、計算複雑性が低く、反復アルゴリズムの初期手順として機能する4つの近似アルゴリズムが提案されている。 さらに、理論上保証された最悪のケース近似の下限を全てのアルゴリズムで証明する。 提案手法の有効性を示すために,合成および実データに関する数値実験を行った。

Sparse tensor best rank-1 approximation (BR1Approx), which is a sparsity generalization of the dense tensor BR1Approx, and is a higher-order extension of the sparse matrix BR1Approx, is one of the most important problems in sparse tensor decomposition and related problems arising from statistics and machine learning. By exploiting the multilinearity as well as the sparsity structure of the problem, four approximation algorithms are proposed, which are easily implemented, of low computational complexity, and can serve as initial procedures for iterative algorithms. In addition, theoretically guaranteed worst-case approximation lower bounds are proved for all the algorithms. We provide numerical experiments on synthetic and real data to illustrate the effectiveness of the proposed algorithms.
翻訳日:2021-05-22 14:48:26 公開日:2020-12-05
# (参考訳) 条件付き生成逆数ネットワークを用いた中解像度衛星画像のセマンティックセグメンテーション [全文訳有]

Semantic Segmentation of Medium-Resolution Satellite Imagery using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2012.03093v1 )

ライセンス: CC BY 4.0
Aditya Kulkarni, Tharun Mohandoss, Daniel Northrup, Ernest Mwebaze, Hamed Alemohammad(参考訳) 衛星画像のセマンティクスセグメンテーションは、惑星周辺のパターンを特定し、変化を検出する一般的なアプローチである。 最先端のセマンティクスセグメンテーションモデルのほとんどは、畳み込みニューラルネットワーク(cnn)を使用して完全に教師ありの方法で訓練される。 cnnの一般化性は、地形や画像の解像度、異なる地形や季節のラベルの不足など、非常に多様なデータが得られるため、衛星画像では貧弱である。 したがって、CNNのパフォーマンスは、目に見えない地域や季節の画像とよく一致しない。 本研究では,高解像度衛星画像に対する画像と画像の変換手法であるCGAN(Conditional Generative Adversarial Networks)にヒントを得て,中解像度Sentinel-2画像を用いた土地被覆分類のためのCGANフレームワークを提案する。 CGANモデルは、見当たらない不均衡なテストデータセットにおいて、同様の複雑性のCNNモデルよりもかなりのマージンで優れていることがわかった。

Semantic segmentation of satellite imagery is a common approach to identify patterns and detect changes around the planet. Most of the state-of-the-art semantic segmentation models are trained in a fully supervised way using Convolutional Neural Network (CNN). The generalization property of CNN is poor for satellite imagery because the data can be very diverse in terms of landscape types, image resolutions, and scarcity of labels for different geographies and seasons. Hence, the performance of CNN doesn't translate well to images from unseen regions or seasons. Inspired by Conditional Generative Adversarial Networks (CGAN) based approach of image-to-image translation for high-resolution satellite imagery, we propose a CGAN framework for land cover classification using medium-resolution Sentinel-2 imagery. We find that the CGAN model outperforms the CNN model of similar complexity by a significant margin on an unseen imbalanced test dataset.
翻訳日:2021-05-22 14:20:48 公開日:2020-12-05
# (参考訳) sentinel-2による合成多スペクトル衛星画像の生成 [全文訳有]

Generating Synthetic Multispectral Satellite Imagery from Sentinel-2 ( http://arxiv.org/abs/2012.03108v1 )

ライセンス: CC BY 4.0
Tharun Mohandoss, Aditya Kulkarni, Daniel Northrup, Ernest Mwebaze, Hamed Alemohammad(参考訳) マルチスペクトル衛星画像は、多くの環境・社会経済的応用において、世界規模で貴重なデータを提供する。 しかし、これらの画像に基づいて教師付き機械学習モデルを構築するには、グローバルスケールでは利用できない地上参照ラベルが必要である。 本研究では,sentinel-2データに基づくマルチレゾリューションマルチスペクトル画像を生成する生成モデルを提案する。 得られた合成画像は、人間によって実際のものと区別できない。 この技術は、データ不足領域やアプリケーションにおけるデータ拡張に使用できるラベル付き合成画像を生成するための将来の研究の道を開く。

Multi-spectral satellite imagery provides valuable data at global scale for many environmental and socio-economic applications. Building supervised machine learning models based on these imagery, however, may require ground reference labels which are not available at global scale. Here, we propose a generative model to produce multi-resolution multi-spectral imagery based on Sentinel-2 data. The resulting synthetic images are indistinguishable from real ones by humans. This technique paves the road for future work to generate labeled synthetic imagery that can be used for data augmentation in data scarce regions and applications.
翻訳日:2021-05-22 13:51:55 公開日:2020-12-05
# (参考訳) LandCoverNet: グローバルベンチマークによる土地被覆分類トレーニングデータセット [全文訳有]

LandCoverNet: A global benchmark land cover classification training dataset ( http://arxiv.org/abs/2012.03111v1 )

ライセンス: CC BY 4.0
Hamed Alemohammad, Kevin Booth(参考訳) 17の持続可能な開発目標のうち14の監視には、定期的に更新され正確な土地被覆マップが不可欠である。 マルチスペクトル衛星画像は、地球規模で高品質で貴重な情報を提供し、土地被覆分類モデルの開発に使用できる。 しかし、このようなグローバルアプリケーションは地理的に多様なトレーニングデータセットを必要とする。 ここでは10m空間分解能でのSentinel-2観測に基づく土地被覆分類のためのグローバルトレーニングデータセットであるLandCoverNetを提案する。 土地被覆クラスラベルは、センチネル-2の年次時系列に基づいて定義され、3人のアノテータ間のコンセンサスによって検証される。

Regularly updated and accurate land cover maps are essential for monitoring 14 of the 17 Sustainable Development Goals. Multispectral satellite imagery provide high-quality and valuable information at global scale that can be used to develop land cover classification models. However, such a global application requires a geographically diverse training dataset. Here, we present LandCoverNet, a global training dataset for land cover classification based on Sentinel-2 observations at 10m spatial resolution. Land cover class labels are defined based on annual time-series of Sentinel-2, and verified by consensus among three human annotators.
翻訳日:2021-05-22 13:43:22 公開日:2020-12-05
# (参考訳) 映画推薦対話におけるユーザの内部状態のモデル化と活用 [全文訳有]

Modeling and Utilizing User's Internal State in Movie Recommendation Dialogue ( http://arxiv.org/abs/2012.03118v1 )

ライセンス: CC BY 4.0
Takashi Kodama, Ribeka Tanaka, Sadao Kurohashi(参考訳) インテリジェントな対話システムは、人間と機械の新しいインターフェースとして期待されている。 このようなインテリジェントな対話システムは,対話中のユーザの内部状態(UIS)を推定し,その評価結果に応じて適切な応答を変更すべきである。 本稿では,映画レコメンデーション対話を例に,対話におけるUISをモデル化し,その応答をUISに基づいて変化させる対話システムを構築する。 対話データ分析に基づいて、UISを知識、関心、エンゲージメントの3つの要素としてモデル化する。 モデル化されたUISアノテーションと対話コーパスでUIS推定器をトレーニングする。 推定器は高い推定精度を達成した。 また、各UISに応じてシステムの応答を変更する応答変更ルールを設計する。 UIS推定器による応答変化は,対話的評価と発話的評価の両方において,システム発話の自然性を改善した。

Intelligent dialogue systems are expected as a new interface between humans and machines. Such an intelligent dialogue system should estimate the user's internal state (UIS) in dialogues and change its response appropriately according to the estimation result. In this paper, we model the UIS in dialogues, taking movie recommendation dialogues as examples, and construct a dialogue system that changes its response based on the UIS. Based on the dialogue data analysis, we model the UIS as three elements: knowledge, interest, and engagement. We train the UIS estimators on a dialogue corpus with the modeled UIS's annotations. The estimators achieved high estimation accuracy. We also design response change rules that change the system's responses according to each UIS. We confirmed that response changes using the result of the UIS estimators improved the system utterances' naturalness in both dialogue-wise evaluation and utterance-wise evaluation.
翻訳日:2021-05-22 13:37:39 公開日:2020-12-05
# (参考訳) GpuShareSat: 句共有にGPUを使用するSATソルバ [全文訳有]

GpuShareSat: a SAT solver using the GPU for clause sharing ( http://arxiv.org/abs/2012.03119v1 )

ライセンス: CC BY 4.0
Nicolas Prevot(参考訳) 本稿では,新しい節交換戦略を用いて,gpu(cuda)とcpuの両方を用いたsatソルバについて述べる。 CPUは古典的なマルチスレッドCDCLSATソルバを実行する。 各CPUスレッドは、学習したすべての節をGPUにエクスポートする。 GPUはビット演算を多用している。 CPUスレッドが節をいつ使用していたかを認識し、そのスレッドに通知し、その場合その節をインポートする。 これはGPUが数百の代入に対して数百万の条項を繰り返しテストすることに依存する。 すべての節は互いに独立してテストされる(GPUが大規模に並列なアプローチを可能にする)が、ビットワイズ操作を使用してすべての代入に対して同時に行われる。 これにより、CPUスレッドは、それらにとって有用な節だけをインポートできる。 我々の解法はグルコースシロップに基づいている。 実験の結果、sat 2020のコンペティションでは、グルコースシロップよりも22インスタンスのインスタンスが解決され、パフォーマンスが向上することが示された。

We describe a SAT solver using both the GPU (CUDA) and the CPU with a new clause exchange strategy. The CPU runs a classic multithreaded CDCL SAT solver. EachCPU thread exports all the clauses it learns to the GPU. The GPU makes a heavy usage of bitwise operations. It notices when a clause would have been used by a CPU thread and notifies that thread, in which case it imports that clause. This relies on the GPU repeatedly testing millions of clauses against hundreds of assignments. All the clauses are tested independantly from each other (which allows the GPU massively parallel approach), but against all the assignments at once, using bitwise operations. This allows CPU threads to only import clauses which would have been useful for them. Our solver is based upon glucose-syrup. Experiments show that this leads to a strong performance improvement, with 22 more instances solved on the SAT 2020 competition than glucose-syrup.
翻訳日:2021-05-22 13:27:43 公開日:2020-12-05
# (参考訳) Deep Archimedean Copulas [全文訳有]

Deep Archimedean Copulas ( http://arxiv.org/abs/2012.03137v1 )

ライセンス: CC BY 4.0
Chun Kai Ling, Fei Fang, J. Zico Kolter(参考訳) 機械学習と統計学における中心的な問題は、データからランダム変数の結合密度をモデル化することである。 コプラは一様辺縁分布を持つ合同累積分布関数であり、辺縁分布から分離した相互依存性を捉えるために用いられる。 コプラは統計学で広く使われているが、現代のディープラーニングの文脈では注目されていない。 本稿では,構造特性を強制し,コピュラス-アルキメデスコピュラスの重要なクラスを学習可能な,新しい微分可能なニューラルネットワークアーキテクチャであるacnetを提案する。 密度や生成過程を直接学習する生成的適応ネットワークや変分オートエンコーダ、正規化フロー法とは異なり、ACNetはコプラの生成器を学習し、共同分布の累積分布関数を暗黙的に定義する。 我々はacnetのネットワークパラメータを確率論的に解釈し,これを用いて学習したcopulaの簡易かつ効率的なサンプリングアルゴリズムを導出する。 実験の結果, acnet は, 近似的なアルキメデスコピュラと, データに適合する新たなコピュラを生成することができることがわかった。

A central problem in machine learning and statistics is to model joint densities of random variables from data. Copulas are joint cumulative distribution functions with uniform marginal distributions and are used to capture interdependencies in isolation from marginals. Copulas are widely used within statistics, but have not gained traction in the context of modern deep learning. In this paper, we introduce ACNet, a novel differentiable neural network architecture that enforces structural properties and enables one to learn an important class of copulas--Archimedean Copulas. Unlike Generative Adversarial Networks, Variational Autoencoders, or Normalizing Flow methods, which learn either densities or the generative process directly, ACNet learns a generator of the copula, which implicitly defines the cumulative distribution function of a joint distribution. We give a probabilistic interpretation of the network parameters of ACNet and use this to derive a simple but efficient sampling algorithm for the learned copula. Our experiments show that ACNet is able to both approximate common Archimedean Copulas and generate new copulas which may provide better fits to data.
翻訳日:2021-05-22 13:16:32 公開日:2020-12-05
# (参考訳) ソーシャルネットワークにおける多数意見拡散 : 敵対的アプローチ [全文訳有]

Majority Opinion Diffusion in Social Networks: An Adversarial Approach ( http://arxiv.org/abs/2012.03143v1 )

ライセンス: CC BY 4.0
Ahad N. Zehmakan(参考訳) 我々は、新しい多数意見拡散モデルを導入し、研究する。 ソーシャルネットワークを表すグラフ$g$を考えてみよう。 当初、シードノードまたはアーリーアダプターと呼ばれるノードのサブセットは、消費者製品や技術革新に関する肯定的あるいは否定的な意見に対応する、黒または白で色付けされていると仮定する。 そして、各ラウンドにおいて、少なくとも1つの有色ノードに隣接した無色ノードが、隣ノードの中で最も頻繁な色を選択する。 品質の悪い製品を宣伝するマーケティングキャンペーンを考えてみて、その最終的な目標は、人口の半数以上が意見拡散プロセスの最後に製品の品質を信じることである。 我々は,シードノードを決定論的あるいはランダムに選択し,そのほぼ半数を操作し,製品に対する肯定的な意見(すなわち,黒色を選択する)を採用する3種類の攻撃者に焦点を当てた。 攻撃者は、ほとんどのノードがプロセスの終了時にブラックになった場合に成功すると言う。 私たちの主な目的は、攻撃者が成功できないグラフのクラスを特徴付けることです。 特に、基礎となるグラフの最大次数が大きすぎなかったり、拡張性が強い場合、そのような攻撃に対してかなり弾力性があることを示す。 さらに, シードノードを決定論的, ランダムに選択する両方の設定において, プロセスの安定化時間(つまり, 終了すべきラウンド数)の厳密な境界を証明した。 また,シードノードの安定化時間と選択に関する最適化問題に対して,いくつかの硬度結果を提供する。

We introduce and study a novel majority-based opinion diffusion model. Consider a graph $G$, which represents a social network. Assume that initially a subset of nodes, called seed nodes or early adopters, are colored either black or white, which correspond to positive or negative opinion regarding a consumer product or a technological innovation. Then, in each round an uncolored node, which is adjacent to at least one colored node, chooses the most frequent color among its neighbors. Consider a marketing campaign which advertises a product of poor quality and its ultimate goal is that more than half of the population believe in the quality of the product at the end of the opinion diffusion process. We focus on three types of attackers which can select the seed nodes in a deterministic or random fashion and manipulate almost half of them to adopt a positive opinion toward the product (that is, to choose black color). We say that an attacker succeeds if a majority of nodes are black at the end of the process. Our main purpose is to characterize classes of graphs where an attacker cannot succeed. In particular, we prove that if the maximum degree of the underlying graph is not too large or if it has strong expansion properties, then it is fairly resilient to such attacks. Furthermore, we prove tight bounds on the stabilization time of the process (that is, the number of rounds it needs to end) in both settings of choosing the seed nodes deterministically and randomly. We also provide several hardness results for some optimization problems regarding stabilization time and choice of seed nodes.
翻訳日:2021-05-22 12:58:23 公開日:2020-12-05
# グラフ混合密度ネットワーク

Graph Mixture Density Networks ( http://arxiv.org/abs/2012.03085v1 )

ライセンス: Link先を確認
Federico Errica, Davide Bacciu, Alessio Micheli(参考訳) 任意の入力グラフに条件付きマルチモーダル出力分布を適合させることができる機械学習モデルの新しいファミリーであるグラフ混合密度ネットワークを導入する。 混合モデルとグラフ表現学習のアイデアを組み合わせることで、構造化データに依存する幅広い難解な回帰問題に対処する。 本研究の主な貢献は,ランダムグラフを用いた大規模確率的流行シミュレーションの設計と評価である。 マルチモダリティと構造を両面から考えると,疫病発生の可能性に大きな改善があることが示唆された。 さらに, 隣接ノードの分布間距離を計算し, ノード表現中の構造情報を‘textit{implicitly’で保持する方法を検討する。 グラフ混合密度ネットワークは、非自明な条件付き出力分布を示す構造依存現象の研究の機会をアピールする。

We introduce the Graph Mixture Density Network, a new family of machine learning models that can fit multimodal output distributions conditioned on arbitrary input graphs. By combining ideas from mixture models and graph representation learning, we address a broad class of challenging regression problems that rely on structured data. Our main contribution is the design and evaluation of our method on large stochastic epidemic simulations conditioned on random graphs. We show that there is a significant improvement in the likelihood of an epidemic outcome when taking into account both multimodality and structure. In addition, we investigate how to \textit{implicitly} retain structural information in node representations by computing the distance between distributions of adjacent nodes, and the technique is tested on two structure reconstruction tasks with very good accuracy. Graph Mixture Density Networks open appealing research opportunities in the study of structure-dependent phenomena that exhibit non-trivial conditional output distributions.
翻訳日:2021-05-22 12:15:53 公開日:2020-12-05
# データ拡張に関する知識蒸留の取り組み

Knowledge Distillation Thrives on Data Augmentation ( http://arxiv.org/abs/2012.02909v1 )

ライセンス: Link先を確認
Huan Wang, Suhas Lohit, Michael Jones, Yun Fu(参考訳) 知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。 多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。 本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。 kd lossは、daがもたらしたさまざまな入力ビューからの余分な情報を利用することができます。 本稿では,より強固なデータ拡張スキーム(例えばmixup,cutmix)によりkdを強化することを提案する。 さらに、アクティブラーニングの概念に基づいて、KD用にさらに強力な新しいDAアプローチが開発された。 CIFAR-100, Tiny ImageNet, ImageNetデータセットの広範な実験により, 提案手法の発見と有用性を検証した。 我々は, 従来の蒸留技術に比べて, 従来のKD損失と強化方式の併用により, 改良された性能を実現することができる。 また, より先進的な蒸留損失と組み合わせることで, 最先端の性能をさらに向上させることができる。 本論文は, 促進性能に加えて, 知識蒸留の成功の解説にも光を当てている。 KDとDAの相互作用は、より高度なKDアルゴリズムを引き起こす可能性がある。

Knowledge distillation (KD) is a general deep neural network training framework that uses a teacher model to guide a student model. Many works have explored the rationale for its success, however, its interplay with data augmentation (DA) has not been well recognized so far. In this paper, we are motivated by an interesting observation in classification: KD loss can benefit from extended training iterations while the cross-entropy loss does not. We show this disparity arises because of data augmentation: KD loss can tap into the extra information from different input views brought by DA. By this explanation, we propose to enhance KD via a stronger data augmentation scheme (e.g., mixup, CutMix). Furthermore, an even stronger new DA approach is developed specifically for KD based on the idea of active learning. The findings and merits of the proposed method are validated by extensive experiments on CIFAR-100, Tiny ImageNet, and ImageNet datasets. We can achieve improved performance simply by using the original KD loss combined with stronger augmentation schemes, compared to existing state-of-the-art methods, which employ more advanced distillation losses. In addition, when our approaches are combined with more advanced distillation losses, we can advance the state-of-the-art performance even more. On top of the encouraging performance, this paper also sheds some light on explaining the success of knowledge distillation. The discovered interplay between KD and DA may inspire more advanced KD algorithms.
翻訳日:2021-05-22 12:15:41 公開日:2020-12-05
# モデル圧縮のためのマルチヘッド知識蒸留

Multi-head Knowledge Distillation for Model Compression ( http://arxiv.org/abs/2012.02911v1 )

ライセンス: Link先を確認
Huan Wang, Suhas Lohit, Michael Jones, Yun Fu(参考訳) ニューラルネットワーク圧縮のための知識蒸留法が開発されている。 学生モデルのソフトアウトプットを教師のソフトアウトプットとより緊密に整合させるためにKL分散損失を用いるが、学生の中間的特徴が教師のものとどのように一致するかは様々な方法が異なる。 本稿では,マルチヘッド知識蒸留(MHKD)と呼ぶ,中間層における補助的分類器を用いた簡易な実装法を提案する。 補助分類器の学生と教師の出力の相違を計測する学生の訓練のための損失項を追加する。 同時に,本手法は,内部教師の次元や学生の特徴が異なるとしても,中間層の違いを測定する自然な方法も提供する。 複数のデータセットにおける画像分類実験を通じて,提案手法が文献に提示される先行手法よりも優れていることを示す。

Several methods of knowledge distillation have been developed for neural network compression. While they all use the KL divergence loss to align the soft outputs of the student model more closely with that of the teacher, the various methods differ in how the intermediate features of the student are encouraged to match those of the teacher. In this paper, we propose a simple-to-implement method using auxiliary classifiers at intermediate layers for matching features, which we refer to as multi-head knowledge distillation (MHKD). We add loss terms for training the student that measure the dissimilarity between student and teacher outputs of the auxiliary classifiers. At the same time, the proposed method also provides a natural way to measure differences at the intermediate layers even though the dimensions of the internal teacher and student features may be different. Through several experiments in image classification on multiple datasets we show that the proposed method outperforms prior relevant approaches presented in the literature.
翻訳日:2021-05-22 12:15:19 公開日:2020-12-05
# オンボード型単眼カメラによる鳥眼視意味hdマップの理解

Understanding Bird's-Eye View Semantic HD-Maps Using an Onboard Monocular Camera ( http://arxiv.org/abs/2012.03040v1 )

ライセンス: Link先を確認
Yigit Baran Can, Alexander Liniger, Ozan Unal, Danda Paudel, Luc Van Gool(参考訳) 自律ナビゲーションは、イベントを移動または予測するためにアクションスペースのシーン理解を必要とする。 自律走行車などの地上機上を移動するプランナーエージェントにとって、これは鳥の目から見たシーン理解を意味する。 しかし、自動運転車の搭載カメラは、周囲をよりよく見るために、通常水平に設置される。 本研究では,1台のオンボードカメラからの映像入力を用いて,セマンティックバードズ・アイビューhdマップのオンライン推定方式によるシーン理解について検討する。 本稿では,この課題の3つの重要な側面,画像レベルの理解,BEVレベルの理解,時間情報の集約について検討する。 これら3つの柱に基づいて,これら3つの側面を組み合わせた新しいアーキテクチャを提案する。 広範な実験により,hdマップ理解のために検討した側面が相互補完的であることを実証した。 さらに、提案したアーキテクチャは現在の最先端をはるかに上回っている。

Autonomous navigation requires scene understanding of the action-space to move or anticipate events. For planner agents moving on the ground plane, such as autonomous vehicles, this translates to scene understanding in the bird's-eye view. However, the onboard cameras of autonomous cars are customarily mounted horizontally for a better view of the surrounding. In this work, we study scene understanding in the form of online estimation of semantic bird's-eye-view HD-maps using the video input from a single onboard camera. We study three key aspects of this task, image-level understanding, BEV level understanding, and the aggregation of temporal information. Based on these three pillars we propose a novel architecture that combines these three aspects. In our extensive experiments, we demonstrate that the considered aspects are complementary to each other for HD-map understanding. Furthermore, the proposed architecture significantly surpasses the current state-of-the-art.
翻訳日:2021-05-22 12:15:05 公開日:2020-12-05
# ヨガで幸せになれる? テキスト情報と時間情報を用いたtwitterユーザの幸福度の分析

Does Yoga Make You Happy? Analyzing Twitter User Happiness using Textual and Temporal Information ( http://arxiv.org/abs/2012.02939v1 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser(参考訳) ヨガは、身体と心を磨き、不安と抑うつを減らすために知られている多成分のプラクティスであるが、ソーシャルメディアでは、ヨガに関連する人々の感情状態を理解するためのギャップがある。 本研究では, ヨーガの実践と幸福感の因果関係を, グランガー因果関係を用いた利用者のテキスト情報と時間情報を用いて検討した。 テキストから因果的特徴を明らかにするために,コンテンツ分析に基づく2つの変数(i)ヨーガ活動レベルと,感情状態に基づく幸福度(ii)を測定した。 ユーザのヨガ活動を理解するために,ユーザの社会的・テキスト情報を活用することで,ニューラルネットワークと注意機構の融合に基づく共同埋め込みモデルを提案する。 ヨガ利用者(対象領域)の感情状態を測定するために、ソースドメインでトレーニングされた注意に基づくニューラルネットワークモデルから知識を伝達するトランスファー学習手法を提案する。 twitterのデータセットに関する実験では,“yoga granger- causes happiness”が1447ユーザであることを実証しています。

Although yoga is a multi-component practice to hone the body and mind and be known to reduce anxiety and depression, there is still a gap in understanding people's emotional state related to yoga in social media. In this study, we investigate the causal relationship between practicing yoga and being happy by incorporating textual and temporal information of users using Granger causality. To find out causal features from the text, we measure two variables (i) Yoga activity level based on content analysis and (ii) Happiness level based on emotional state. To understand users' yoga activity, we propose a joint embedding model based on the fusion of neural networks with attention mechanism by leveraging users' social and textual information. For measuring the emotional state of yoga users (target domain), we suggest a transfer learning approach to transfer knowledge from an attention-based neural network model trained on a source domain. Our experiment on Twitter dataset demonstrates that there are 1447 users where "yoga Granger-causes happiness".
翻訳日:2021-05-22 12:14:52 公開日:2020-12-05
# 10年以上にわたる社会的意見のマイニング

Over a Decade of Social Opinion Mining ( http://arxiv.org/abs/2012.03091v1 )

ライセンス: Link先を確認
Keith Cortis and Brian Davis(参考訳) ソーシャルメディアの人気と重要性は、複数のチャンネルをまたいで様々なタイプのソーシャルインタラクションに利用している人々によって増大している。 オンラインユーザによるこのソーシャルインタラクションには、さまざまな個人、エンティティ、トピック、イベントに関するフィードバックや意見、レコメンデーションが含まれる。 この体系的なレビューは、複数のソーシャルメディアプラットフォームにまたがるユーザー生成コンテンツから、テキスト、画像、ビデオ、オーディオなどの様々なメディアフォーマットで、主観性、感情の極性、感情、感情、皮肉、皮肉などの複数の意見の次元を識別するタスクである、ソーシャル・オピニオン・マイニング(Social Opinion Mining)の進化する研究領域に焦点を当てる。 したがって、社会的意見マイニングを通じて、自然言語は人間によって表現されるように、異なる意見次元の観点で理解することができる。 これは人工知能の進化に寄与し、それによって顧客のサービスや意思決定といった現実的なユースケースの進展に寄与する。 社会オピニオン鉱業の研究について、2007年から2018年までの12年間にわたる485の研究を網羅的に検討した。 詳細な分析は、ソーシャルメディアプラットフォーム、技術、社会データセット、言語、モダリティ、ツールと技術、自然言語処理タスク、および公表された研究から派生したその他の側面に焦点を当てている。 このようなマルチソース情報融合は、ソーシャルメディアプラットフォームからの人々の社会的意見のマイニングにおいて、基本的な役割を果たす。 これらは、製品/サービス管理のためのマーケティング、広告、販売から、政治、技術、金融、医療、スポーツ、政府といった複数の分野や産業まで、多くのアプリケーション分野で利用することができる。 今後の研究の方向性が提示される一方、さらなる研究と開発はより広範な学術的・社会的影響を残す可能性がある。

Social media popularity and importance is on the increase, due to people using it for various types of social interaction across multiple channels. This social interaction by online users includes submission of feedback, opinions and recommendations about various individuals, entities, topics, and events. This systematic review focuses on the evolving research area of Social Opinion Mining, tasked with the identification of multiple opinion dimensions, such as subjectivity, sentiment polarity, emotion, affect, sarcasm and irony, from user-generated content represented across multiple social media platforms and in various media formats, like text, image, video and audio. Therefore, through Social Opinion Mining, natural language can be understood in terms of the different opinion dimensions, as expressed by humans. This contributes towards the evolution of Artificial Intelligence, which in turn helps the advancement of several real-world use cases, such as customer service and decision making. A thorough systematic review was carried out on Social Opinion Mining research which totals 485 studies and spans a period of twelve years between 2007 and 2018. The in-depth analysis focuses on the social media platforms, techniques, social datasets, language, modality, tools and technologies, natural language processing tasks and other aspects derived from the published studies. Such multi-source information fusion plays a fundamental role in mining of people's social opinions from social media platforms. These can be utilised in many application areas, ranging from marketing, advertising and sales for product/service management, and in multiple domains and industries, such as politics, technology, finance, healthcare, sports and government. Future research directions are presented, whereas further research and development has the potential of leaving a wider academic and societal impact.
翻訳日:2021-05-22 12:14:33 公開日:2020-12-05
# ドメイン内コントラスト学習によるクロスドメイン感情分類

Cross-Domain Sentiment Classification with In-Domain Contrastive Learning ( http://arxiv.org/abs/2012.02943v1 )

ライセンス: Link先を確認
Tian Li and Xiang Chen and Shanghang Zhang and Zhen Dong and Kurt Keutzer(参考訳) コントラスト学習(CL)は強力な表現学習手法として成功している。 本稿では,クロスドメイン感情分類のためのコントラスト学習フレームワークを提案する。 分布マッチングよりもドメイン不変な最適分類器を誘導することを目指している。 この目的のために,ドメイン内コントラスト学習とエントロピー最小化を導入する。 また,ラベル分布シフトが大きい場合,これら2つの手法は異なる挙動を示すこと,ラベル分布シフトに応じて1つを適応的に選択することがベストプラクティスであると結論付けた。 本モデルが標準ベンチマークで達成した最新の成果は,提案手法の有効性を示すものである。

Contrastive learning (CL) has been successful as a powerful representation learning method. In this paper, we propose a contrastive learning framework for cross-domain sentiment classification. We aim to induce domain invariant optimal classifiers rather than distribution matching. To this end, we introduce in-domain contrastive learning and entropy minimization. Also, we find through ablation studies that these two techniques behaviour differently in case of large label distribution shift and conclude that the best practice is to choose one of them adaptively according to label distribution shift. The new state-of-the-art results our model achieves on standard benchmarks show the efficacy of the proposed method.
翻訳日:2021-05-22 12:14:03 公開日:2020-12-05
# データ強化:強化学習の条件付き生成によるテキストデータ拡張

Data Boost: Text Data Augmentation Through Reinforcement Learning Guided Conditional Generation ( http://arxiv.org/abs/2012.02952v1 )

ライセンス: Link先を確認
Ruibo Liu, Guangxuan Xu, Chenyan Jia, Weicheng Ma, Lili Wang, Soroush Vosoughi(参考訳) データ拡張は多くのNLUタスク、特にデータ不足に苦しむ人たちに有効であることが証明されている。 本稿では,強化学習支援条件生成によるデータ拡張を実現する,強力でデプロイが容易なテキスト拡張フレームワークdata boostを提案する。 5つの異なる分類器アーキテクチャの下で、3つの多様なテキスト分類タスクでデータブーストを評価する。 その結果、特に低リソースのデータシナリオにおいて、Data Boostは分類器のパフォーマンスを向上できることがわかった。 例えば、トレーニング用のデータ全体の10%しか与えていない場合、3つのタスクのf1を平均で8.7%改善する。 また、Data Boostを6つの前のテキスト拡張方法と比較します。 人間の評価(N=178)により、可読性とクラス整合性に関して、データブースト拡張が元のデータと同等の品質であることを確認した。

Data augmentation is proven to be effective in many NLU tasks, especially for those suffering from data scarcity. In this paper, we present a powerful and easy to deploy text augmentation framework, Data Boost, which augments data through reinforcement learning guided conditional generation. We evaluate Data Boost on three diverse text classification tasks under five different classifier architectures. The result shows that Data Boost can boost the performance of classifiers especially in low-resource data scenarios. For instance, Data Boost improves F1 for the three tasks by 8.7% on average when given only 10% of the whole data for training. We also compare Data Boost with six prior text augmentation methods. Through human evaluations (N=178), we confirm that Data Boost augmentation has comparable quality as the original data with respect to readability and class consistency.
翻訳日:2021-05-22 12:13:56 公開日:2020-12-05
# データ拡張による攻撃的言語検出の強化

Enhanced Offensive Language Detection Through Data Augmentation ( http://arxiv.org/abs/2012.02954v1 )

ライセンス: Link先を確認
Ruibo Liu, Guangxuan Xu, Soroush Vosoughi(参考訳) ソーシャルメディア上で攻撃的言語を検出することは重要な課題である。 ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。 しかしデータセットはクラスの不均衡に苦しんでおり、特定のラベルは他のクラスと比較すると極めて稀である(例えば、ヘイトフルクラスはデータのわずか5%)。 本研究では,攻撃言語データセットなどの不均衡・低リソースデータに対する分類性能を向上させる,世代別データ拡張手法であるdager(data augmenteder)を提案する。 dager氏は与えられたクラスの語彙的特徴を抽出し、これらの特徴を使ってgpt-2上に構築された条件付きジェネレータの生成をガイドしている。 生成されたテキストは、拡張データとしてトレーニングセットに追加できる。 Dagerを適用することで、トレーニングにデータセット全体の1%(分類にBERTを使用する)を使用する場合、データチャレンジのF1スコアを11%向上させることができる。 我々は,Daggerを4つの異なる分類器(BERT,CNN,Bi-LSTM,Tr ansformer)でテストし,検出の普遍的改善を観察し,本手法が有効であり,分類器に依存しないことを示す。

Detecting offensive language on social media is an important task. The ICWSM-2020 Data Challenge Task 2 is aimed at identifying offensive content using a crowd-sourced dataset containing 100k labelled tweets. The dataset, however, suffers from class imbalance, where certain labels are extremely rare compared with other classes (e.g, the hateful class is only 5% of the data). In this work, we present Dager (Data Augmenter), a generation-based data augmentation method, that improves the performance of classification on imbalanced and low-resource data such as the offensive language dataset. Dager extracts the lexical features of a given class, and uses these features to guide the generation of a conditional generator built on GPT-2. The generated text can then be added to the training set as augmentation data. We show that applying Dager can increase the F1 score of the data challenge by 11% when we use 1% of the whole dataset for training (using BERT for classification); moreover, the generated data also preserves the original labels very well. We test Dager on four different classifiers (BERT, CNN, Bi-LSTM with attention, and Transformer), observing universal improvement on the detection, indicating our method is effective and classifier-agnostic.
翻訳日:2021-05-22 12:13:42 公開日:2020-12-05
# FAIROD:Fairness-awar e Outlier Detection

FAIROD: Fairness-aware Outlier Detection ( http://arxiv.org/abs/2012.03063v1 )

ライセンス: Link先を確認
Shubhranshu Shekhar, Neil Shah, Leman Akoglu(参考訳) フェアネス・アンド・アウトリエ検出(OD: Fairness and Outlier Detection, OD)は、特定の人口の希少な少数サンプルを見つけるためのODの目的である。 少数派である場合(保護変数で定義される場合など) race/ethnicity/sex/a ge)は、ポジティブクラスのメンバーシップ(例)を反映しない。 しかし、ODは不正な結果をもたらす。 驚いたことに、フェアネスを意識したodは、以前の作業ではほとんど触れられておらず、公正な機械学習の文献は、主に監督された設定に焦点を当てている。 私たちの仕事は、このギャップを埋めることを目的としています。 具体的には,odに対する十分に動機づけられた公平性基準を捉えたdesiderataを開発し,fair od問題を体系的に定式化する。 さらに,desiderataに導かれたfairodは,以下の望ましい特性を有するフェアネスアウェアな異常検出器である。fairod (1)試験時に異種処理を行わず,(2)すべてのグループから採取したサンプルの等しい比率(すなわち,試験時)にフラグを付けることを目的としている。 グループフェアネス(統計パリティ)を取得し、(3)各グループ内で真に高いリスクのサンプルをフラグ付けしようとする。 多様な合成および実世界のデータセットに関する広範囲な実験により、fairodは保護された変数に対して公正な結果を生み出す一方で、検出性能の観点からはフェアネス非依存の検出器に匹敵する(場合によっては、より優れている)。

Fairness and Outlier Detection (OD) are closely related, as it is exactly the goal of OD to spot rare, minority samples in a given population. When being a minority (as defined by protected variables, e.g. race/ethnicity/sex/a ge) does not reflect positive-class membership (e.g. criminal/fraud), however, OD produces unjust outcomes. Surprisingly, fairness-aware OD has been almost untouched in prior work, as fair machine learning literature mainly focus on supervised settings. Our work aims to bridge this gap. Specifically, we develop desiderata capturing well-motivated fairness criteria for OD, and systematically formalize the fair OD problem. Further, guided by our desiderata, we propose FairOD, a fairness-aware outlier detector, which has the following, desirable properties: FairOD (1) does not employ disparate treatment at test time, (2) aims to flag equal proportions of samples from all groups (i.e. obtain group fairness, via statistical parity), and (3) strives to flag truly high-risk fraction of samples within each group. Extensive experiments on a diverse set of synthetic and real world datasets show that FairOD produces outcomes that are fair with respect to protected variables, while performing comparable to (and in some cases, even better than) fairness-agnostic detectors in terms of detection performance.
翻訳日:2021-05-22 12:13:10 公開日:2020-12-05
# ブールマトリックス分解の最近の進歩

Recent Developments in Boolean Matrix Factorization ( http://arxiv.org/abs/2012.03127v1 )

ライセンス: Link先を確認
Pauli Miettinen, Stefan Neumann(参考訳) ブール行列分解(bmf)の目標は、与えられた二元行列を2つの低階二元因子行列の積として近似することであり、そこでは因子行列の積はブール代数の下で計算される。 問題は計算が難しいが、因子行列の2元性により高い解釈性を持つため、魅力的でもある。 過去10年間で、BMFはデータマイニングと形式的概念分析のコミュニティでかなりの注目を集めており、最近では機械学習と理論のコミュニティもBMFの研究を始めています。 本調査では,これらすべてのコミュニティの取り組みを簡潔に要約するとともに,今後の調査を必要とするオープンな質問を提起する。

The goal of Boolean Matrix Factorization (BMF) is to approximate a given binary matrix as the product of two low-rank binary factor matrices, where the product of the factor matrices is computed under the Boolean algebra. While the problem is computationally hard, it is also attractive because the binary nature of the factor matrices makes them highly interpretable. In the last decade, BMF has received a considerable amount of attention in the data mining and formal concept analysis communities and, more recently, the machine learning and the theory communities also started studying BMF. In this survey, we give a concise summary of the efforts of all of these communities and raise some open questions which in our opinion require further investigation.
翻訳日:2021-05-22 12:12:46 公開日:2020-12-05
# Noisy Labelsによるディープラーニングに関する調査: アノテーションを信頼できないときにモデルをトレーニングする方法?

A Survey on Deep Learning with Noisy Labels: How to train your model when you cannot trust on the annotations? ( http://arxiv.org/abs/2012.03061v1 )

ライセンス: Link先を確認
Filipe R. Cordeiro and Gustavo Carneiro(参考訳) ノイズラベルは、インターネットから自動的に収集されるデータセットに一般的に存在し、非専門的な注釈者や医療分野のような困難なタスクの専門家によって誤ってラベル付けされる。 ディープラーニングモデルは、異なるドメインで大幅に改善されているが、オープンな問題は、トレーニング中にノイズの多いラベルを記憶し、一般化の可能性を減らすことだ。 ディープラーニングモデルは正しくラベル付けされたデータセットに依存しており、ラベルの正確性を保証するのが難しいため、ディープラーニングトレーニングにおいてノイズの多いラベルの存在を考慮することが重要である。 雑音ラベルの存在下でディープラーニングモデルのトレーニングを改善するためのいくつかのアプローチが文献に提案されている。 本稿では,ロバスト損失,サンプル重み付け,サンプル選択,メタラーニング,コンバインドアプローチという,アルゴリズムを分類する文献における主な手法に関する調査を行う。 また、一般に使われている実験装置、データセット、および最先端モデルの結果についても述べる。

Noisy Labels are commonly present in data sets automatically collected from the internet, mislabeled by non-specialist annotators, or even specialists in a challenging task, such as in the medical field. Although deep learning models have shown significant improvements in different domains, an open issue is their ability to memorize noisy labels during training, reducing their generalization potential. As deep learning models depend on correctly labeled data sets and label correctness is difficult to guarantee, it is crucial to consider the presence of noisy labels for deep learning training. Several approaches have been proposed in the literature to improve the training of deep learning models in the presence of noisy labels. This paper presents a survey on the main techniques in literature, in which we classify the algorithm in the following groups: robust losses, sample weighting, sample selection, meta-learning, and combined approaches. We also present the commonly used experimental setup, data sets, and results of the state-of-the-art models.
翻訳日:2021-05-22 12:12:13 公開日:2020-12-05
# atariゲームにおける模倣学習強化のための選択的アイ・ガゼ強化

Selective Eye-gaze Augmentation To Enhance Imitation Learning In Atari Games ( http://arxiv.org/abs/2012.03145v1 )

ライセンス: Link先を確認
Chaitanya Thammineni, Hemanth Manjunatha, Ehsan T. Esfahani(参考訳) 本稿では,アタリゲームにおける人間の行動学習における視線情報の選択的利用について述べる。 我々の眼球運動は、我々の注意と精神状態の方向性に関する豊富な情報を伝達し、タスクを完了させるために必要な情報を符号化している。 この証拠に基づき,注意方向の手がかりとしてアイガゼを選択的に使用することで,実演からの学習を促進すると仮定した。 そこで本稿では,眼球情報の利用時期を学習するSEA(elective eye-gaze augmentation)ネットワークを提案する。 提案するネットワークアーキテクチャは,視線予測,ゲーティング,行動予測ネットワークの3つのサブネットワークで構成される。 前の4つのゲームフレームを用いて、入力フレームの増大に使用される視線予測ネットワークにより視線マップを予測する。 ゲーティングネットワークは、予測された視線マップが学習に使用されるかどうかを判断し、最終ネットワークに供給して現在のフレームでの動作を予測する。 このアプローチを検証するために、atari human eye-tracking and demonstration (atari-head)データセットは、20のatariゲームから成り、4つの被験者から収集された3億2800万のeye-gazes (over game frames) からなる。 本研究は,Attention Guided Imitation Learning (AGIL), Behavior Cloning (BC) に比較して,選択的視線増強の有効性を示す。 以上の結果から,選択的拡張アプローチ (SEAネットワーク) はAGILやBCよりも高い性能を示した。 さらに、ゲーティングネットワークを介して視線を選択的に利用することの重要性を示すために、我々のアプローチと視線のランダムな選択を比較した。 この場合でさえ、sea networkは、デモンストレーション学習における視線を選択的に利用する利点を著しく検証している。

This paper presents the selective use of eye-gaze information in learning human actions in Atari games. Vast evidence suggests that our eye movement convey a wealth of information about the direction of our attention and mental states and encode the information necessary to complete a task. Based on this evidence, we hypothesize that selective use of eye-gaze, as a clue for attention direction, will enhance the learning from demonstration. For this purpose, we propose a selective eye-gaze augmentation (SEA) network that learns when to use the eye-gaze information. The proposed network architecture consists of three sub-networks: gaze prediction, gating, and action prediction network. Using the prior 4 game frames, a gaze map is predicted by the gaze prediction network which is used for augmenting the input frame. The gating network will determine whether the predicted gaze map should be used in learning and is fed to the final network to predict the action at the current frame. To validate this approach, we use publicly available Atari Human Eye-Tracking And Demonstration (Atari-HEAD) dataset consists of 20 Atari games with 28 million human demonstrations and 328 million eye-gazes (over game frames) collected from four subjects. We demonstrate the efficacy of selective eye-gaze augmentation in comparison with state of the art Attention Guided Imitation Learning (AGIL), Behavior Cloning (BC). The results indicate that the selective augmentation approach (the SEA network) performs significantly better than the AGIL and BC. Moreover, to demonstrate the significance of selective use of gaze through the gating network, we compare our approach with the random selection of the gaze. Even in this case, the SEA network performs significantly better validating the advantage of selectively using the gaze in demonstration learning.
翻訳日:2021-05-22 12:11:56 公開日:2020-12-05
# 縦断データにおける抑うつ検出と予測のための深部マルチタスク学習

Deep Multi-task Learning for Depression Detection and Prediction in Longitudinal Data ( http://arxiv.org/abs/2012.02950v1 )

ライセンス: Link先を確認
Guansong Pang, Ngoc Thien Anh Pham, Emma Baker, Rebecca Bentley, Anton van den Hengel(参考訳) うつ病は最も一般的な精神疾患の1つであり、世界中の何百万人もの年齢層に影響を与えている。 機械学習技術は、早期介入と治療のためのうつ病の自動検出と予測を可能にしている。 しかし、データ内のうつ病の例が比較的少ないことが課題となっている。 本研究では,この課題に対処するために,新しい深層マルチタスクリカレントニューラルネットワークを導入し,抑うつ分類と1クラスメトリック学習と異常ランキングの2つの補助タスクを共同で最適化する。 補助タスクは、小さなうつ病サンプルに対する分類モデルの一般化性を改善する帰納的バイアスを導入する。 また,静的なデータからうつ病徴候を経時的ダイナミクスを考慮せずに学習する既存の研究とは異なり,i)個人の発達と家族環境の時間的変化が精神疾患に重要な手がかりとなりうること,ii)うつ病が実際に起こる前に予測できることから,縦断データに注目している。 小児うつ病データによる広範囲な実験結果から, うつ病検出の精度は, 臨床診断より2~4年後のうつ病を正確に予測し, 競合する7つの方法よりかなり優れていたことが示唆された。

Depression is among the most prevalent mental disorders, affecting millions of people of all ages globally. Machine learning techniques have shown effective in enabling automated detection and prediction of depression for early intervention and treatment. However, they are challenged by the relative scarcity of instances of depression in the data. In this work we introduce a novel deep multi-task recurrent neural network to tackle this challenge, in which depression classification is jointly optimized with two auxiliary tasks, namely one-class metric learning and anomaly ranking. The auxiliary tasks introduce an inductive bias that improves the classification model's generalizability on small depression samples. Further, unlike existing studies that focus on learning depression signs from static data without considering temporal dynamics, we focus on longitudinal data because i) temporal changes in personal development and family environment can provide critical cues for psychiatric disorders and ii) it may enable us to predict depression before the illness actually occurs. Extensive experimental results on child depression data show that our model is able to i) achieve nearly perfect performance in depression detection and ii) accurately predict depression 2-4 years before the clinical diagnosis, substantially outperforming seven competing methods.
翻訳日:2021-05-22 12:11:23 公開日:2020-12-05
# データストリームにおけるビクラスタリングとブール行列分解

Biclustering and Boolean Matrix Factorization in Data Streams ( http://arxiv.org/abs/2012.03138v1 )

ライセンス: Link先を確認
Stefan Neumann, Pauli Miettinen(参考訳) データストリームにおける二部グラフのクラスタリングとブール行列分解について検討する。 グラフの左側から頂点が1つずつ入ってくるようなストリーミング設定を,すべての入射エッジと共に考慮する。 ストリームを渡った後、サブ線形空間を用いてグラフの右側のクラスタの集合を復元するアルゴリズムを提供する。 また,ストリームを2度通過すると,二部グラフの左クラスタを復元し,ブール行列因数分解問題(ブール行列と二部グラフの対応を利用して)を解く方法を示す。 本研究では,合成データおよび実世界データに対するアルゴリズムの実装を評価する。 実世界のデータセットでは、アルゴリズムは静的ベースラインアルゴリズムよりも桁違いに高速であり、ベースラインアルゴリズムの係数2内で品質結果を提供する。 我々のアルゴリズムはグラフの辺の数を線形にスケールする。 最後に,このアルゴリズムを理論的に解析し,標準ランダムグラフモデルの下で植込みクラスタ群を復元するのに十分な条件を提供する。

We study the clustering of bipartite graphs and Boolean matrix factorization in data streams. We consider a streaming setting in which the vertices from the left side of the graph arrive one by one together with all of their incident edges. We provide an algorithm that, after one pass over the stream, recovers the set of clusters on the right side of the graph using sublinear space; to the best of our knowledge, this is the first algorithm with this property. We also show that after a second pass over the stream, the left clusters of the bipartite graph can be recovered and we show how to extend our algorithm to solve the Boolean matrix factorization problem (by exploiting the correspondence of Boolean matrices and bipartite graphs). We evaluate an implementation of the algorithm on synthetic data and on real-world data. On real-world datasets the algorithm is orders of magnitudes faster than a static baseline algorithm while providing quality results within a factor 2 of the baseline algorithm. Our algorithm scales linearly in the number of edges in the graph. Finally, we analyze the algorithm theoretically and provide sufficient conditions under which the algorithm recovers a set of planted clusters under a standard random graph model.
翻訳日:2021-05-22 12:10:59 公開日:2020-12-05
# 多出力ガウスプロセスによるLAIギャップ充填のための光・SAR時系列の融合

Fusing Optical and SAR time series for LAI gap filling with multioutput Gaussian processes ( http://arxiv.org/abs/2012.02998v1 )

ライセンス: Link先を確認
Luca Pipia, Jordi Mu\~noz-Mar\'i, Eatidal Amin, Santiago Belda, Gustau Camps-Valls, Jochem Verrelst(参考訳) 衛星光情報の入手は、多くのアプリケーションで問題となる雲の自然の存在によって妨げられることが多い。 農耕地における持続的な雲は作物の生育の重要な段階を覆い隠しており、信頼できない収量予測に繋がる。 SAR(Synthetic Aperture Radar)は、この制限を克服できるオールウェザー画像を提供するが、異なる表面特性に対して高感度で異なる感度を持つため、SARと光学データの融合は依然として未解決の課題である。 本研究では,多センサ時系列間の統計的関係を自動的に学習する機械学習手法であるmulti-output gaussian process (mogp) regressionを用いて,sar-optical imageries間の相乗効果が有益な植生領域を検出する手法を提案する。 この目的のために,イベリア半島北西部の地域を対象に,Sentinel-1 Radar Vegetation Index (RVI) とSentinel-2 Leaf Area Index (LAI) の時系列データを用いた。 我々はMOGP訓練モデルの物理的解釈を通じて、実測値と常に結びついていることを保証し、RVIと共有する情報を用いて、雲上においてもLAIの推定を行う能力を示す。 その結果、特に光ベースの手法が失敗する長いデータギャップに対するMOGPの利点が示された。 植生全体に適用された左1画像評価手法は、mogp予測が、短時間ギャップ(r$^2$ of 74\% vs 68\%、rmse: 0.4 vs 0.44 $[m^2m^{-2}]$)、特に長時間ギャップ(r$^2$ of 33\% vs 12\%、rmse: 0.5 vs 1.09 $[m^2m^{-2}]$)において標準gp推定を改善することを示している。

The availability of satellite optical information is often hampered by the natural presence of clouds, which can be problematic for many applications. Persistent clouds over agricultural fields can mask key stages of crop growth, leading to unreliable yield predictions. Synthetic Aperture Radar (SAR) provides all-weather imagery which can potentially overcome this limitation, but given its high and distinct sensitivity to different surface properties, the fusion of SAR and optical data still remains an open challenge. In this work, we propose the use of Multi-Output Gaussian Process (MOGP) regression, a machine learning technique that learns automatically the statistical relationships among multisensor time series, to detect vegetated areas over which the synergy between SAR-optical imageries is profitable. For this purpose, we use the Sentinel-1 Radar Vegetation Index (RVI) and Sentinel-2 Leaf Area Index (LAI) time series over a study area in north west of the Iberian peninsula. Through a physical interpretation of MOGP trained models, we show its ability to provide estimations of LAI even over cloudy periods using the information shared with RVI, which guarantees the solution keeps always tied to real measurements. Results demonstrate the advantage of MOGP especially for long data gaps, where optical-based methods notoriously fail. The leave-one-image-out assessment technique applied to the whole vegetation cover shows MOGP predictions improve standard GP estimations over short-time gaps (R$^2$ of 74\% vs 68\%, RMSE of 0.4 vs 0.44 $[m^2m^{-2}]$) and especially over long-time gaps (R$^2$ of 33\% vs 12\%, RMSE of 0.5 vs 1.09 $[m^2m^{-2}]$).
翻訳日:2021-05-22 12:10:43 公開日:2020-12-05
# 3層ニューラルネットワークは不連続多変量関数を表現できる

A three layer neural network can represent any discontinuous multivariate function ( http://arxiv.org/abs/2012.03016v1 )

ライセンス: Link先を確認
Vugar Ismailov(参考訳) 1987年、hecht-nielsenは、任意の連続多変量関数は、あるタイプの3層ニューラルネットワークによって実装できることを示した。 この結果はニューラルネットワークの文献でよく議論された。 本稿では、連続関数だけでなく、全ての不連続関数もそのようなニューラルネットワークによって実装できることを示す。

In 1987, Hecht-Nielsen showed that any continuous multivariate function could be implemented by a certain type three-layer neural network. This result was very much discussed in neural network literature. In this paper we prove that not only continuous functions but also all discontinuous functions can be implemented by such neural networks.
翻訳日:2021-05-22 12:10:04 公開日:2020-12-05
# Rejoinder: 政策学習の新しい目標

Rejoinder: New Objectives for Policy Learning ( http://arxiv.org/abs/2012.03130v1 )

ライセンス: Link先を確認
Nathan Kallus(参考訳) 私は、oliver dukes と stijn vansteelandt と sijia li, xiudi li, alex luedtkeand と muxuan liang and yingqi zhao の議論とともに、journal of the american statistical association に掲載する「最適再ターゲティングによるより効率的な政策学習」に関する議論の場を提供する。

I provide a rejoinder for discussion of "More Efficient Policy Learning via Optimal Retargeting" to appear in the Journal of the American Statistical Association with discussion by Oliver Dukes and Stijn Vansteelandt; Sijia Li, Xiudi Li, and Alex Luedtkeand; and Muxuan Liang and Yingqi Zhao.
翻訳日:2021-05-22 12:09:57 公開日:2020-12-05
# 3dオブジェクト検出のためのレンジガイド付き円筒型ネットワーク

It's All Around You: Range-Guided Cylindrical Network for 3D Object Detection ( http://arxiv.org/abs/2012.03121v1 )

ライセンス: Link先を確認
Meytal Rapoport-Lavie and Dan Raviv(参考訳) 自動運転分野の現代の知覚システムは、3dデータ分析に依存している。 LiDARセンサは、異なる照明条件に対するレジリエンスの向上により、このようなデータを取得するために頻繁に使用される。 回転するlidarスキャナは空間にリング状のパターンを生成するが、ほとんどのネットワークは直交ボクセルサンプリング戦略を用いてデータを解析する。 本研究では,360度深度スキャナが生成する3次元データを,走査パターンに整合したより適切な座標系を用いて解析する手法を提案する。 さらに,エゴ車と物体のスケールからの距離で受容場を適応させる,レンジ誘導畳み込みという新しい概念を導入する。 我々のネットワークは、現在の最先端アーキテクチャに匹敵するnuScenesチャレンジにおいて、強力な結果を示す。 この作業で導入されたバックボーンアーキテクチャは、他のパイプラインにも簡単に統合できる。

Modern perception systems in the field of autonomous driving rely on 3D data analysis. LiDAR sensors are frequently used to acquire such data due to their increased resilience to different lighting conditions. Although rotating LiDAR scanners produce ring-shaped patterns in space, most networks analyze their data using an orthogonal voxel sampling strategy. This work presents a novel approach for analyzing 3D data produced by 360-degree depth scanners, utilizing a more suitable coordinate system, which is aligned with the scanning pattern. Furthermore, we introduce a novel notion of range-guided convolutions, adapting the receptive field by distance from the ego vehicle and the object's scale. Our network demonstrates powerful results on the nuScenes challenge, comparable to current state-of-the-art architectures. The backbone architecture introduced in this work can be easily integrated onto other pipelines as well.
翻訳日:2021-05-22 12:09:35 公開日:2020-12-05
# 対話システムのためのデータ効率向上手法

Data-Efficient Methods for Dialogue Systems ( http://arxiv.org/abs/2012.02929v1 )

ライセンス: Link先を確認
Igor Shalyminov(参考訳) 会話型ユーザインターフェース(CUI)は、SiriやAlexa、あるいはビジネス指向のソリューションといったコンシューマ指向の製品において、日常的に広く普及している。 ディープラーニングは、対話システムにおける最近のブレークスルーの根底にあるが、専門家によって注釈付けされることが多い大量のトレーニングデータを必要とする。 より小さなデータで訓練されたこれらの手法は、ロバスト性(例:ロバスト性)を著しく欠いている。 分散とドメイン外入力に)、そして多くの場合、一般化の力が少ない。 本論文では,最小データからロバスト対話システムを学習するための一連の手法を導入することで,上記の課題を解決する。 まず,データ効率の観点から,言語情報と機械学習に基づく対話の直交的アプローチについて検討する。 いずれのアプローチでも,データ効率のよいソリューションを得るためのステップを概説する。 次に、潜在変数の対話表現に基づく対話知識伝達ネットワークと、DSTC 8 Fast Domain Adaptation Taskで最初に引用される)ハイブリッド生成・検索変換モデルという、対話応答生成のための2つのデータ効率モデルを導入する。 次に,最小データに対するロバスト性の問題に対処する。 そこで、ドメイン一般不整合検出のためのマルチタスクlstmベースモデルを提案する。 ドメイン外入力の問題に対して,ドメイン内データのみを用いた異常検出のためのデータ拡張手法であるTurn Dropoutを提案し,Turn Dropoutを用いた効率的なトレーニングのためのオートエンコーダ拡張モデルを提案する。 最後に、ソーシャル対話に焦点を当て、Amazon Alexa Prize 2017と2018で3位を獲得したAlanaで使用されているソーシャル会話における応答ランキングのニューラルモデルを導入します。 そこで本研究では,対話長を主ランク付け対象とする新たな手法を用いて,データ効率の面から評価に基づく手法を改良し,その性能を比較検討する。

Conversational User Interface (CUI) has become ubiquitous in everyday life, in consumer-focused products like Siri and Alexa or business-oriented solutions. Deep learning underlies many recent breakthroughs in dialogue systems but requires very large amounts of training data, often annotated by experts. Trained with smaller data, these methods end up severely lacking robustness (e.g. to disfluencies and out-of-domain input), and often just have too little generalisation power. In this thesis, we address the above issues by introducing a series of methods for training robust dialogue systems from minimal data. Firstly, we study two orthogonal approaches to dialogue: linguistically informed and machine learning-based - from the data efficiency perspective. We outline the steps to obtain data-efficient solutions with either approach. We then introduce two data-efficient models for dialogue response generation: the Dialogue Knowledge Transfer Network based on latent variable dialogue representations, and the hybrid Generative-Retrieval Transformer model (ranked first at the DSTC 8 Fast Domain Adaptation task). Next, we address the problem of robustness given minimal data. As such, propose a multitask LSTM-based model for domain-general disfluency detection. For the problem of out-of-domain input, we present Turn Dropout, a data augmentation technique for anomaly detection only using in-domain data, and introduce autoencoder-augmente d models for efficient training with Turn Dropout. Finally, we focus on social dialogue and introduce a neural model for response ranking in social conversation used in Alana, the 3rd place winner in the Amazon Alexa Prize 2017 and 2018. We employ a novel technique of predicting the dialogue length as the main ranking objective and show that this approach improves upon the ratings-based counterpart in terms of data efficiency while matching it in performance.
翻訳日:2021-05-22 12:09:04 公開日:2020-12-05
# 非構造化テキストのオンデバイスタグ生成

On-Device Tag Generation for Unstructured Text ( http://arxiv.org/abs/2012.02983v1 )

ライセンス: Link先を確認
Manish Chugani, Shubham Vatsal, Gopi Ramena, Sukumar Moharana, Naresh Purre(参考訳) スマートフォンへの圧倒的な移行に伴い、重要な情報を構造化されていないテキスト形式で保存することは、モバイルデバイスのユーザにとって習慣になっている。 食料品のリストからメールや重要なスピーチのドラフトまで、ユーザーはデバイスに大量のデータを構造化されていないテキスト(例えばNotesアプリケーション)として保存し、データの散らかしにつながる。 これにより、ユーザはアプリケーションの効率的なナビゲーションを防げるだけでなく、それらのアプリケーションのデータにまたがる関係を認識できなくなる。 本稿では,非構造化テキストデータに存在するキーワードや概念に基づいて,世界知識を用いたタグセットを生成する新しいパイプラインを提案する。 これらのタグは、望まれる情報を要約、分類、検索するために使用でき、したがって、構造化されていないテキストの形式で格納された情報の全体的な展望をユーザエクスペリエンスを高めることができる。 提案システムでは,pruned conceptnetリソースを用いたオンデバイス(携帯電話)効率的なcnnモデルを用いて目標を達成している。 アーキテクチャはまた、任意のテキストからトップnタグを抽出する新しいランキングアルゴリズムも提示する。

With the overwhelming transition to smart phones, storing important information in the form of unstructured text has become habitual to users of mobile devices. From grocery lists to drafts of emails and important speeches, users store a lot of data in the form of unstructured text (for eg: in the Notes application) on their devices, leading to cluttering of data. This not only prevents users from efficient navigation in the applications but also precludes them from perceiving the relations that could be present across data in those applications. This paper proposes a novel pipeline to generate a set of tags using world knowledge based on the keywords and concepts present in unstructured textual data. These tags can then be used to summarize, categorize or search for the desired information thus enhancing user experience by allowing them to have a holistic outlook of the kind of information stored in the form of unstructured text. In the proposed system, we use an on-device (mobile phone) efficient CNN model with pruned ConceptNet resource to achieve our goal. The architecture also presents a novel ranking algorithm to extract the top n tags from any given text.
翻訳日:2021-05-22 12:08:35 公開日:2020-12-05
# 依存構文解析を用いたコード切り換え文生成

Codeswitched Sentence Creation using Dependency Parsing ( http://arxiv.org/abs/2012.02990v1 )

ライセンス: Link先を確認
Dhruval Jain, Arun D Prabhu, Shubham Vatsal, Gopi Ramena, Naresh Purre(参考訳) 特にインドのような国では、23の公用語があり、バイリンガルの話者は約3億人である。 Codeswitchedデータの不足は、さまざまな自然言語処理(NLP)タスクに関して、この領域の探索においてボトルネックとなる。 そこで本研究では,英語文法の構文構造を活用し,英語-ヒンディー語,英語-マラティ語,英語-カンナダ語データの文法的に知覚可能なコード切り換え版を開発する新しいアルゴリズムを提案する。 本手法は,文法的な正当性を維持しつつも,与えられたデータの微妙なスナップショットから大量のデータを生成することを保証する。 アルゴリズムの能力を示すために複数のデータセットを使用し、同時に、いくつかの定性的指標を使用して生成されたCodeswitchedデータの品質を評価し、いくつかのNLPタスクのベースライン結果を提供する。

Codeswitching has become one of the most common occurrences across multilingual speakers of the world, especially in countries like India which encompasses around 23 official languages with the number of bilingual speakers being around 300 million. The scarcity of Codeswitched data becomes a bottleneck in the exploration of this domain with respect to various Natural Language Processing (NLP) tasks. We thus present a novel algorithm which harnesses the syntactic structure of English grammar to develop grammatically sensible Codeswitched versions of English-Hindi, English-Marathi and English-Kannada data. Apart from maintaining the grammatical sanity to a great extent, our methodology also guarantees abundant generation of data from a minuscule snapshot of given data. We use multiple datasets to showcase the capabilities of our algorithm while at the same time we assess the quality of generated Codeswitched data using some qualitative metrics along with providing baseline results for couple of NLP tasks.
翻訳日:2021-05-22 12:08:18 公開日:2020-12-05
# 言語理解のためのニューロシンボリックAI

Neurosymbolic AI for Situated Language Understanding ( http://arxiv.org/abs/2012.02947v1 )

ライセンス: Link先を確認
Nikhil Krishnaswamy and James Pustejovsky(参考訳) 近年、データ集約型AI、特に自然言語処理と理解の領域は、この分野へのより古典的なAIアプローチを横取りした大規模なデータセットとディープニューラルネットワークの出現によって大きく進歩している。 これらのシステムは明らかに洗練された言語理解や生成能力を示すが、しばしばそれまで遭遇したことのない状況にスキルを移すことに失敗する。 我々は,これらの学習課題の解法として,有能な現象の形式的モデルとして機能する状況表現を作成し,新しいフレキシブルな計算モデルをトレーニングするための多量のタスク適合データを含むことを論じる。 我々のモデルは、対話的状況、イベント、およびオブジェクト特性のマルチモーダルな文脈モデリングを用いて、古典的AIのアイデアをニューロシンボリックインテリジェンス(英語版)のフレームワークに再組み込む。 我々は、さまざまなAI学習課題に対して、さまざまなデータと複数のレベルのモデリングを提供することについて論じる。例えば、オブジェクトの空き地とのインタラクションの学習、新しい構造や構成のセマンティクスの学習、学習した知識を新しいオブジェクトや状況に転送するなどである。

In recent years, data-intensive AI, particularly the domain of natural language processing and understanding, has seen significant progress driven by the advent of large datasets and deep neural networks that have sidelined more classic AI approaches to the field. These systems can apparently demonstrate sophisticated linguistic understanding or generation capabilities, but often fail to transfer their skills to situations they have not encountered before. We argue that computational situated grounding provides a solution to some of these learning challenges by creating situational representations that both serve as a formal model of the salient phenomena, and contain rich amounts of exploitable, task-appropriate data for training new, flexible computational models. Our model reincorporates some ideas of classic AI into a framework of neurosymbolic intelligence, using multimodal contextual modeling of interactive situations, events, and object properties. We discuss how situated grounding provides diverse data and multiple levels of modeling for a variety of AI learning challenges, including learning how to interact with object affordances, learning semantics for novel structures and configurations, and transferring such learned knowledge to new objects and situations.
翻訳日:2021-05-22 12:07:46 公開日:2020-12-05
# Cirrus: 長距離二パターンLiDARデータセット

Cirrus: A Long-range Bi-pattern LiDAR Dataset ( http://arxiv.org/abs/2012.02938v1 )

ライセンス: Link先を確認
Ze Wang, Sihao Ding, Ying Li, Jonas Fenn, Sohini Roychowdhury, Andreas Wallin, Lane Martin, Scott Ryvola, Guillermo Sapiro, and Qiang Qiu(参考訳) 本稿では,3次元物体検出や高速道路走行やタイムリーな意思決定に不可欠な自動運転タスクのための,新たな長距離バイパターンlidarパブリックデータセットであるcirrusを紹介する。 我々のプラットフォームは高解像度のビデオカメラと250メートルの有効範囲を持つLiDARセンサーを備えており、これは既存の公開データセットよりもかなり長い。 対の点雲をガウス型と一様走査型の両方のパターンで同時に記録する。 点密度はこのような長い範囲で大きく異なり、異なる走査パターンはLiDARのオブジェクト表現をさらに多様化させる。 Cirrusでは、8つのカテゴリのオブジェクトが、有効範囲全体のLiDAR点雲に完全に注釈付けされている。 この新しいデータセットがサポートする研究の種類を説明するために、さまざまな範囲にわたるLiDARモデル適応、走査パターン、センサデバイスを導入している。 有望な結果は、この新しいデータセットがロボティクスとコンピュータビジョンのコミュニティにとって大きな可能性を示している。

In this paper, we introduce Cirrus, a new long-range bi-pattern LiDAR public dataset for autonomous driving tasks such as 3D object detection, critical to highway driving and timely decision making. Our platform is equipped with a high-resolution video camera and a pair of LiDAR sensors with a 250-meter effective range, which is significantly longer than existing public datasets. We record paired point clouds simultaneously using both Gaussian and uniform scanning patterns. Point density varies significantly across such a long range, and different scanning patterns further diversify object representation in LiDAR. In Cirrus, eight categories of objects are exhaustively annotated in the LiDAR point clouds for the entire effective range. To illustrate the kind of studies supported by this new dataset, we introduce LiDAR model adaptation across different ranges, scanning patterns, and sensor devices. Promising results show the great potential of this new dataset to the robotics and computer vision communities.
翻訳日:2021-05-22 12:07:26 公開日:2020-12-05
# FloodNet: ポストフラッドシーン理解のための高解像度空中画像データセット

FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding ( http://arxiv.org/abs/2012.02951v1 )

ライセンス: Link先を確認
Maryam Rahnemoonfar, Tashnim Chowdhury, Argho Sarkar, Debvrat Varshney, Masoud Yari, Robin Murphy(参考訳) 視覚的なシーン理解は、コンピュータビジョンシステムにおいて重要な決定を下す上で重要なタスクである。 Cityscapes、MS-COCO、PASCALのような一般的なコンピュータビジョンデータセットは、いくつかのタスク(例えば)に良いベンチマークを提供する。 画像分類、セグメンテーション、オブジェクト検出) これらのデータセットは、災害後の損傷評価にはあまり適していない。 一方,既存の自然災害データには,空間分解能が低く,再訪期間が高い衛星画像が多く含まれている。 したがって、迅速なかつ効率的な損害評価タスクを提供するためのスコープはない。 無人航空機(UAV)は、災害時に困難な場所にアクセスし、前述のコンピュータビジョンのタスクに必要な高解像度画像を収集することができる。 これらの問題に対処するため、ハリケーン・ハーヴェイの後に撮影された高解像度UAV画像FloodNetを提示する。 このデータセットは、被災地域の浸水被害を示している。 画像はセマンティックセグメンテーションタスクにピクセル単位でラベル付けされ、視覚的質問応答タスクに質問を生成する。 FloodNetは、浸水した道路や建物を検出し、自然水と浸水した水を区別するなど、いくつかの課題を提起している。 深層学習アルゴリズムの進歩により、災害の影響を分析し、影響を受ける地域を正確に理解することができる。 本稿では,画像分類,セマンティックセグメンテーション,視覚的質問応答におけるベースライン手法の性能を比較し,比較する。

Visual scene understanding is the core task in making any crucial decision in any computer vision system. Although popular computer vision datasets like Cityscapes, MS-COCO, PASCAL provide good benchmarks for several tasks (e.g. image classification, segmentation, object detection), these datasets are hardly suitable for post disaster damage assessments. On the other hand, existing natural disaster datasets include mainly satellite imagery which have low spatial resolution and a high revisit period. Therefore, they do not have a scope to provide quick and efficient damage assessment tasks. Unmanned Aerial Vehicle(UAV) can effortlessly access difficult places during any disaster and collect high resolution imagery that is required for aforementioned tasks of computer vision. To address these issues we present a high resolution UAV imagery, FloodNet, captured after the hurricane Harvey. This dataset demonstrates the post flooded damages of the affected areas. The images are labeled pixel-wise for semantic segmentation task and questions are produced for the task of visual question answering. FloodNet poses several challenges including detection of flooded roads and buildings and distinguishing between natural water and flooded water. With the advancement of deep learning algorithms, we can analyze the impact of any disaster which can make a precise understanding of the affected areas. In this paper, we compare and contrast the performances of baseline methods for image classification, semantic segmentation, and visual question answering on our dataset.
翻訳日:2021-05-22 12:07:12 公開日:2020-12-05
# 高速画像変換のための空間適応型ピクセルワイズネットワーク

Spatially-Adaptive Pixelwise Networks for Fast Image Translation ( http://arxiv.org/abs/2012.02992v1 )

ライセンス: Link先を確認
Tamar Rott Shaham, Michael Gharbi, Richard Zhang, Eli Shechtman, Tomer Michaeli(参考訳) 高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。 我々は、全解像度画像の極めて軽量な機能としてジェネレータを設計する。 実際には、各ピクセルは互いに独立して処理され、単純なアフィン変換と非線形性の合成によって処理される。 このような一見単純な関数に適切な表現性を持たせるために、3つの重要なステップを踏む。 第一に、ピクセルワイズネットワークのパラメータは空間的に変化しており、単純な1x1畳み込みよりも広い関数クラスを表現できる。 第2に、これらのパラメータは、入力の積極的な低解像度表現を処理する高速畳み込みネットワークによって予測され、第3に、入力画像を空間座標の正弦波符号化で拡張することで、現実的な新しい高周波画像コンテンツを生成するための効果的なインダクティブバイアスを提供する。 その結果、我々のモデルは最先端のベースラインよりも最大18倍高速である。 このスピードアップを実現し、異なる画像解像度と翻訳ドメインで同等のビジュアル品質を生成します。

We introduce a new generator architecture, aimed at fast and efficient high-resolution image-to-image translation. We design the generator to be an extremely lightweight function of the full-resolution image. In fact, we use pixel-wise networks; that is, each pixel is processed independently of others, through a composition of simple affine transformations and nonlinearities. We take three important steps to equip such a seemingly simple function with adequate expressivity. First, the parameters of the pixel-wise networks are spatially varying so they can represent a broader function class than simple 1x1 convolutions. Second, these parameters are predicted by a fast convolutional network that processes an aggressively low-resolution representation of the input; Third, we augment the input image with a sinusoidal encoding of spatial coordinates, which provides an effective inductive bias for generating realistic novel high-frequency image content. As a result, our model is up to 18x faster than state-of-the-art baselines. We achieve this speedup while generating comparable visual quality across different image resolutions and translation domains.
翻訳日:2021-05-22 12:06:49 公開日:2020-12-05
# マルチラベル画像認識のための注意駆動動的グラフ畳み込みネットワーク

Attention-Driven Dynamic Graph Convolutional Network for Multi-Label Image Recognition ( http://arxiv.org/abs/2012.02994v1 )

ライセンス: Link先を確認
Jin Ye, Junjun He, Xiaojiang Peng, Wenhao Wu, and Yu Qiao(参考訳) 近年の研究では、グラフ畳み込みネットワーク(GCN)を用いてラベル依存をモデル化し、マルチラベル画像認識の認識精度を向上させる。 しかし、トレーニングデータのラベル共起可能性をカウントしてグラフを構築することは、特にテスト画像に時折共起オブジェクトが存在する場合、モデルの一般化性を低下させる可能性がある。 私たちの目標は、このようなバイアスを排除し、学習機能の堅牢性を高めることです。 この目的のために,各画像の特定のグラフを動的に生成するアテンション駆動動的グラフ畳み込みネットワーク(ADD-GCN)を提案する。 ADD-GCNは動的グラフ畳み込みネットワーク(D-GCN)を採用し、セマンティック・アテンション・モジュール(SAM)によって生成されるコンテンツ対応のカテゴリ表現の関係をモデル化する。 また,MS-COCO,VOC2007,VOC 2012において,mAPの85.2%,96.0%,95.5%を達成し,最先端の手法よりも高い性能を示した。 すべてのコードはhttps://github.com/Y ejin0111/ADD-GCNで見ることができる。

Recent studies often exploit Graph Convolutional Network (GCN) to model label dependencies to improve recognition accuracy for multi-label image recognition. However, constructing a graph by counting the label co-occurrence possibilities of the training data may degrade model generalizability, especially when there exist occasional co-occurrence objects in test images. Our goal is to eliminate such bias and enhance the robustness of the learnt features. To this end, we propose an Attention-Driven Dynamic Graph Convolutional Network (ADD-GCN) to dynamically generate a specific graph for each image. ADD-GCN adopts a Dynamic Graph Convolutional Network (D-GCN) to model the relation of content-aware category representations that are generated by a Semantic Attention Module (SAM). Extensive experiments on public multi-label benchmarks demonstrate the effectiveness of our method, which achieves mAPs of 85.2%, 96.0%, and 95.5% on MS-COCO, VOC2007, and VOC2012, respectively, and outperforms current state-of-the-art methods with a clear margin. All codes can be found at https://github.com/Y ejin0111/ADD-GCN.
翻訳日:2021-05-22 12:06:33 公開日:2020-12-05
# ProMask:スケルトン検出のための確率マスク

ProMask: Probability Mask for Skeleton Detection ( http://arxiv.org/abs/2012.03003v1 )

ライセンス: Link先を確認
Xiuxiu Bai, Lele Ye, Zhe Liu(参考訳) 自然画像から物体の骨格を検出することは、様々な物体スケール、背景の複雑さ、様々なノイズのために困難である。 骨格は高度に圧縮された形状の表現であり、いくつかの重要な利点をもたらすが、検出の困難を引き起こす。 この骨格線は画像の稀な割合を占め、空間的位置に対して過度に敏感である。 これらの問題に触発されて,新しい骨格検出モデルであるProMaskを提案する。 ProMaskは確率マスクとベクトルルータを含む。 スケルトン確率マスク表現は、スケルトンをセグメンテーション信号で明示的に符号化し、より教師ありの情報を提供し、地下のスケルトンピクセルにより多くの注意を払うことができる。 さらに、ベクトルルータモジュールは2次元空間に2組の直交基底ベクトルを持ち、予測された骨格位置を動的に調整することができる。 本手法はよく知られたスケルトンデータセット上で評価し,最先端のアプローチよりも優れた性能を実現する。 特にProMaskは、競争力のあるDeepFluxを6.2%上回っている。 提案するスケルトン確率マスクは,非常に効果的で約10行のコードを必要とするため,将来のスケルトン検出のベースラインとして有効であると考えられる。

Detecting object skeletons in natural images presents challenging, due to varied object scales, the complexity of backgrounds and various noises. The skeleton is a highly compressing shape representation, which can bring some essential advantages but cause the difficulties of detection. This skeleton line occupies a rare proportion of an image and is overly sensitive to spatial position. Inspired by these issues, we propose the ProMask, which is a novel skeleton detection model. The ProMask includes the probability mask and vector router. The skeleton probability mask representation explicitly encodes skeletons with segmentation signals, which can provide more supervised information to learn and pay more attention to ground-truth skeleton pixels. Moreover, the vector router module possesses two sets of orthogonal basis vectors in a two-dimensional space, which can dynamically adjust the predicted skeleton position. We evaluate our method on the well-known skeleton datasets, realizing the better performance than state-of-the-art approaches. Especially, ProMask significantly outperforms the competitive DeepFlux by 6.2% on the challenging SYM-PASCAL dataset. We consider that our proposed skeleton probability mask could serve as a solid baseline for future skeleton detection, since it is very effective and it requires about 10 lines of code.
翻訳日:2021-05-22 12:06:13 公開日:2020-12-05
# CIA-SSD:ポイントクラウドからIoU対応のシングルステージオブジェクト検出器を発見

CIA-SSD: Confident IoU-Aware Single-Stage Object Detector From Point Cloud ( http://arxiv.org/abs/2012.03015v1 )

ライセンス: Link先を確認
Wu Zheng, Weiliang Tang, Sijin Chen, Li Jiang, Chi-Wing Fu(参考訳) 点雲中の物体を位置決めするための既存の単段検出器は、しばしば物体の局所化と分類を別のタスクとして扱うため、位置決め精度と分類信頼性はよく一致しない。 この問題に対処するため、CIA-SSD(Confident IoU-Aware Single-Stage Object Detector)と呼ばれる新しい単段検出器を提案する。 まず,高度に抽象的な意味的特徴と低レベルの空間的特徴を適応的に融合させ,境界ボックスの正確な予測と分類信頼度を得る軽量な空間論的特徴集約モジュールを設計した。 また,我々の設計したiou-aware confidence rectificationモジュールにより予測信頼度をさらに補正し,信頼度を局所化精度と一致させる。 補正された信頼度に基づいて、距離可変IoU重み付きNMSをさらに定式化し、よりスムーズな回帰を求め、冗長な予測を避ける。 我々は、KITTIテストセットでCIA-SSDを3Dカー検出実験し、公式のランキング基準(AP 80.28%)と32 FPS推論速度で最高性能を達成し、以前の全単段検出器より優れていたことを示す。 コードはhttps://github.com/v egeta2020/cia-ssdで入手できる。

Existing single-stage detectors for locating objects in point clouds often treat object localization and category classification as separate tasks, so the localization accuracy and classification confidence may not well align. To address this issue, we present a new single-stage detector named the Confident IoU-Aware Single-Stage object Detector (CIA-SSD). First, we design the lightweight Spatial-Semantic Feature Aggregation module to adaptively fuse high-level abstract semantic features and low-level spatial features for accurate predictions of bounding boxes and classification confidence. Also, the predicted confidence is further rectified with our designed IoU-aware confidence rectification module to make the confidence more consistent with the localization accuracy. Based on the rectified confidence, we further formulate the Distance-variant IoU-weighted NMS to obtain smoother regressions and avoid redundant predictions. We experiment CIA-SSD on 3D car detection in the KITTI test set and show that it attains top performance in terms of the official ranking metric (moderate AP 80.28%) and above 32 FPS inference speed, outperforming all prior single-stage detectors. The code is available at https://github.com/V egeta2020/CIA-SSD.
翻訳日:2021-05-22 12:05:53 公開日:2020-12-05
# 階層的グループ化による自己監督型視覚表現学習

Self-Supervised Visual Representation Learning from Hierarchical Grouping ( http://arxiv.org/abs/2012.03044v1 )

ライセンス: Link先を確認
Xiao Zhang, Michael Maire(参考訳) プリミティブなビジュアルグループ化機能から視覚表現学習をブートストラップするフレームワークを開発した。 我々は、画像を領域に分割する輪郭検出器を介してグループ化を運用し、それらの領域をツリー階層にマージする。 このグループ化プリミティブをトレーニングするために、小さな教師付きデータセットが十分です。 ラベルなしの大きなデータセット全体にわたって、この学習プリミティブを適用し、階層的な領域構造を自動的に予測する。 これらの予測は、自己教師ありの対比的特徴学習のためのガイダンスとなる:我々は、ペアワイズ距離が領域階層を尊重するピクセル単位の埋め込みを生成するディープネットワークをタスクします。 実験により、我々のアプローチは、下流タスクの恩恵を受けながら、最先端の汎用的な事前トレーニングとして機能することを示した。 さらに,セマンティック領域検索やビデオベースのオブジェクトインスタンス追跡への応用も検討する。

We create a framework for bootstrapping visual representation learning from a primitive visual grouping capability. We operationalize grouping via a contour detector that partitions an image into regions, followed by merging of those regions into a tree hierarchy. A small supervised dataset suffices for training this grouping primitive. Across a large unlabeled dataset, we apply this learned primitive to automatically predict hierarchical region structure. These predictions serve as guidance for self-supervised contrastive feature learning: we task a deep network with producing per-pixel embeddings whose pairwise distances respect the region hierarchy. Experiments demonstrate that our approach can serve as state-of-the-art generic pre-training, benefiting downstream tasks. We additionally explore applications to semantic region search and video-based object instance tracking.
翻訳日:2021-05-22 12:05:29 公開日:2020-12-05
# MyFood:栄養モニタリングを支援する食品セグメンテーションと分類システム

MyFood: A Food Segmentation and Classification System to Aid Nutritional Monitoring ( http://arxiv.org/abs/2012.03087v1 )

ライセンス: Link先を確認
Charles N. C. Freitas, Filipe R. Cordeiro and Valmir Macario(参考訳) 食料モニタリングの欠如は、人口の体重増加に大きく寄与している。 時間と忙しいルーチンの欠如のため、ほとんどの人は食事で消費されるものをコントロールすることも記録もしない。 食品画像を認識するためにコンピュータビジョンでいくつかのソリューションが提案されているが、栄養モニタリングに特化しているものはほとんどない。 本研究は,画像に提示される食品の分類とセグメント化を行い,ユーザ食と栄養摂取の自動モニタリングを支援するインテリジェントシステムの開発について述べる。 本研究は,食品認識に応用される画像分類とセグメンテーションの最先端手法の比較研究である。 本手法では,FCN,ENet,SegNet,Dee pLabV3+,Mask RCNNのアルゴリズムを比較した。 ブラジルで最も消費されている食品の9つのクラスと合計1250の画像からなるデータセットを構築した。 モデルは以下の指標を用いて評価された。 統一性、感度、特異性、バランス精度、正の事前定義値。 また,食事中の栄養素を自動的に認識し,推定し,よりよい栄養モニタリングを行うモバイルアプリケーションに統合するシステムを提案する。 提案したソリューションは,既存のソリューションよりも優れた結果を示した。 データセットは以下のリンクで公開されている。 http://doi.org/10.52 81/zenodo.4041488

The absence of food monitoring has contributed significantly to the increase in the population's weight. Due to the lack of time and busy routines, most people do not control and record what is consumed in their diet. Some solutions have been proposed in computer vision to recognize food images, but few are specialized in nutritional monitoring. This work presents the development of an intelligent system that classifies and segments food presented in images to help the automatic monitoring of user diet and nutritional intake. This work shows a comparative study of state-of-the-art methods for image classification and segmentation, applied to food recognition. In our methodology, we compare the FCN, ENet, SegNet, DeepLabV3+, and Mask RCNN algorithms. We build a dataset composed of the most consumed Brazilian food types, containing nine classes and a total of 1250 images. The models were evaluated using the following metrics: Intersection over Union, Sensitivity, Specificity, Balanced Precision, and Positive Predefined Value. We also propose an system integrated into a mobile application that automatically recognizes and estimates the nutrients in a meal, assisting people with better nutritional monitoring. The proposed solution showed better results than the existing ones in the market. The dataset is publicly available at the following link http://doi.org/10.52 81/zenodo.4041488
翻訳日:2021-05-22 12:05:17 公開日:2020-12-05
# コンテキスト認識型ハッシュタグレコメンデーションの逐次生成法

A Sequence-Oblivious Generation Method for Context-Aware Hashtag Recommendation ( http://arxiv.org/abs/2012.02957v1 )

ライセンス: Link先を確認
Junmo Kang, Jeonghwan Kim, Suwon Shin, Sung-Hyon Myaeng(参考訳) 検索と同様に、レコメンデーションタスクは入力クエリやキューを受け取り、しばしばランキング関数に基づいて望ましいアイテムを提供する。 このようなランク付けアプローチは推奨項目間の明示的な依存をほとんど考慮しない。 そこで本研究では,生成したタグの相互依存性をモデル化するために,以前に生成したタグに条件付きでセマンティックタグを1つずつ選択する手法を提案する。 このタグレコメンデーションアプローチをInstagramのデータセットに適用し、コンテクストの特徴型(画像、場所、時間、テキスト)の配列が投稿に利用できるようにします。 特徴の異なるタイプ間の相互依存を利用するため、我々は自己着想を用いてシンプルで効果的なアーキテクチャを採用し、深い相互作用を可能にした。 実験の結果,提案手法は,通常のランキング方式よりもタグ推薦のための自己回帰モデルよりも有意に優れていることがわかった。 彼らは、繰り返しフィードバックループでタグを生成する際に、相互に補完する機能を早期に融合させることが、コンテキスト間相互作用の広範かつ包括的なビューを誘導することが重要であることを示唆している。

Like search, a recommendation task accepts an input query or cue and provides desirable items, often based on a ranking function. Such a ranking approach rarely considers explicit dependency among the recommended items. In this work, we propose a generative approach to tag recommendation, where semantic tags are selected one at a time conditioned on the previously generated tags to model inter-dependency among the generated tags. We apply this tag recommendation approach to an Instagram data set where an array of context feature types (image, location, time, and text) are available for posts. To exploit the inter-dependency among the distinct types of features, we adopt a simple yet effective architecture using self-attention, making deep interactions possible. Empirical results show that our method is significantly superior to not only the usual ranking schemes but also autoregressive models for tag recommendation. They indicate that it is critical to fuse mutually supporting features at an early stage to induce extensive and comprehensive view on inter-context interaction in generating tags in a recurrent feedback loop.
翻訳日:2021-05-22 12:04:49 公開日:2020-12-05
# ニューラルネットのトレーニング時間を短縮するweight update skipping

Weight Update Skipping: Reducing Training Time for Artificial Neural Networks ( http://arxiv.org/abs/2012.02792v1 )

ライセンス: Link先を確認
Pooneh Safayenikoo, Ismail Akturk(参考訳) ANN(Artificial Neural Networks)は、機械学習(ML)における最先端技術として知られ、認識、分類、セグメンテーションといったデータ集約型アプリケーションにおいて、優れた成果を上げている。 これらのネットワークは、主に深い畳み込み層または完全に接続された層を使い、各層に多くのフィルタがあり、競争精度を達成するために大量のデータと調整可能なハイパーパラメータを必要とする。 結果として、トレーニングの記憶、コミュニケーション、計算コスト(特にトレーニング時間)は、それらをスケールアップするための制限要因となる。 本稿では,ANNの精度向上の観察を活かした新しいトレーニング手法を提案し,その変動が極小である場合の更新重みを省略できるようにする。 このような時間窓の間、我々はネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けるが、更新重み(およびその時間を要する計算)を選択的に省略する。 このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。 CIFARデータセット上で、AlexNet、VGG-11、VGG-16、ResNet-18の4つの最先端モデルを分析し、重みを更新し評価する2つの方法を提案する。 提案手法であるwusとwus+lrでは,cifar-10ではトレーニング時間を54%,cifar-100では50%,cifar-100では43%,35%削減した。

Artificial Neural Networks (ANNs) are known as state-of-the-art techniques in Machine Learning (ML) and have achieved outstanding results in data-intensive applications, such as recognition, classification, and segmentation. These networks mostly use deep layers of convolution or fully connected layers with many filters in each layer, demanding a large amount of data and tunable hyperparameters to achieve competitive accuracy. As a result, storage, communication, and computational costs of training (in particular training time) become limiting factors to scale them up. In this paper, we propose a new training methodology for ANNs that exploits the observation of improvement of accuracy shows temporal variations which allow us to skip updating weights when the variation is minuscule. During such time windows, we keep updating bias which ensures the network still trains and avoids overfitting; however, we selectively skip updating weights (and their time-consuming computations). Such a training approach virtually achieves the same accuracy with considerably less computational cost, thus lower training time. We propose two methods for updating weights and evaluate them by analyzing four state-of-the-art models, AlexNet, VGG-11, VGG-16, ResNet-18 on CIFAR datasets. On average, our two proposed methods called WUS and WUS+LR reduced the training time (compared to the baseline) by 54%, and 50%, respectively on CIFAR-10; and 43% and 35% on CIFAR-100, respectively.
翻訳日:2021-05-22 12:04:31 公開日:2020-12-05
# MFES-HB:マルチファイダリティ品質測定による高効率ハイパーバンド

MFES-HB: Efficient Hyperband with Multi-Fidelity Quality Measurements ( http://arxiv.org/abs/2012.03011v1 )

ライセンス: Link先を確認
Yang Li, Yu Shen, Jiawei Jiang, Jinyang Gao, Ce Zhang, Bin Cui(参考訳) ハイパーパラメータ最適化(HPO)は自動機械学習(AutoML)の基本的な問題である。 しかしながら、モデル(例えば、ディープラーニングモデルや大規模データセットのトレーニングモデル)の高価な評価コストのため、バニラベイズ最適化(BO)は一般に計算不可能である。 この問題を緩和するために、Hyperband (HB) は早期停止機構を使用して、これらのひどい性能の構成を事前に停止することで構成評価を高速化する。 その結果,(1)早期に停止する構成の低忠実度測定が多数あり,(2)早期に停止しない構成の高忠実度測定がほとんどない,という2つの品質測定結果が得られた。 最先端のHBスタイルのBOHBはBOとHBの利点を組み合わせることを目的としている。 HBでランダムに構成をサンプリングする代わりに、BOサロゲートモデルに基づいてBOHBは高忠実度測定のみで構成される構成をサンプリングする。 しかし、高忠実度測定の不足はBOの効率を著しく損なうため、構成探索を誘導する。 本稿では,HPOタスクの収束を早めるために,高忠実度と低忠実度の測定の両方を有効活用できる効率的なハイパーバンド手法であるMFES-HBを提案する。 mfes-hbの設計は、低忠実度の測定値が偏っても構成探索のガイドに役立てることができるため、自明ではない。 そこで本研究では,MFES(Multi-Fidelity Ensemble Surrogate)を,多要素計測から有用な情報を効果的に統合可能な一般化されたProduct of Expertsフレームワークに基づいて構築することを提案する。 実世界のAutoMLタスクに関する実証研究は、MFES-HBが最先端のアプローチであるBOHBよりも3.3-8.9倍のスピードアップを達成できることを示した。

Hyperparameter optimization (HPO) is a fundamental problem in automatic machine learning (AutoML). However, due to the expensive evaluation cost of models (e.g., training deep learning models or training models on large datasets), vanilla Bayesian optimization (BO) is typically computationally infeasible. To alleviate this issue, Hyperband (HB) utilizes the early stopping mechanism to speed up configuration evaluations by terminating those badly-performing configurations in advance. This leads to two kinds of quality measurements: (1) many low-fidelity measurements for configurations that get early-stopped, and (2) few high-fidelity measurements for configurations that are evaluated without being early stopped. The state-of-the-art HB-style method, BOHB, aims to combine the benefits of both BO and HB. Instead of sampling configurations randomly in HB, BOHB samples configurations based on a BO surrogate model, which is constructed with the high-fidelity measurements only. However, the scarcity of high-fidelity measurements greatly hampers the efficiency of BO to guide the configuration search. In this paper, we present MFES-HB, an efficient Hyperband method that is capable of utilizing both the high-fidelity and low-fidelity measurements to accelerate the convergence of HPO tasks. Designing MFES-HB is not trivial as the low-fidelity measurements can be biased yet informative to guide the configuration search. Thus we propose to build a Multi- Fidelity Ensemble Surrogate (MFES) based on the generalized Product of Experts framework, which can integrate useful information from multi-fidelity measurements effectively. The empirical studies on the real-world AutoML tasks demonstrate that MFES-HB can achieve 3.3-8.9x speedups over the state-of-the-art approach - BOHB.
翻訳日:2021-05-22 12:04:07 公開日:2020-12-05
# 深部ニューラルネットワーク圧縮のための並列ブロックワイド知識蒸留

Parallel Blockwise Knowledge Distillation for Deep Neural Network Compression ( http://arxiv.org/abs/2012.03096v1 )

ライセンス: Link先を確認
Cody Blakeney, Xiaomin Li, Yan Yan, Ziliang Zong(参考訳) ディープニューラルネットワーク(DNN)は、近年、自然言語処理、音声認識、コンピュータビジョンにおいて、多くの困難なAIタスクを解決することに成功している。 しかしながら、DNNは通常、計算集約、メモリ要求、電力不足であり、制約のあるリソースを持つプラットフォーム上での使用を著しく制限している。 そのため、様々な圧縮技術(例)がある。 DNNのサイズと消費電力を減らすため、量子化、プルーニング、および知識蒸留が提案されている。 ブロックワイズ知識蒸留は、高度に複雑なdnnのサイズを効果的に削減できる圧縮技術の1つである。 しかし、訓練期間が長いため広くは採用されていない。 本稿では,高度なdnnの蒸留過程を高速化する並列ブロックワイズ蒸留アルゴリズムを提案する。 アルゴリズムは局所情報を活用して独立なブロックワイド蒸留を行い、分離層を効率的な置換ブロックアーキテクチャとして利用し、制限要因(例)を適切に解決する。 並列性に影響を与える依存性、同期、ロードバランシング。 4つのgeforce rtx 2080ti gpuを搭載したamdサーバ上で行った実験の結果,vgg蒸留における3倍の速度アップと19%の省エネ,3.5倍の速度アップと29%のresnet蒸留での省エネを実現できた。 ResNet蒸留の高速化は、分散クラスタで4つのRTX6000 GPUを使用する場合、さらに3.87に改善できる。

Deep neural networks (DNNs) have been extremely successful in solving many challenging AI tasks in natural language processing, speech recognition, and computer vision nowadays. However, DNNs are typically computation intensive, memory demanding, and power hungry, which significantly limits their usage on platforms with constrained resources. Therefore, a variety of compression techniques (e.g. quantization, pruning, and knowledge distillation) have been proposed to reduce the size and power consumption of DNNs. Blockwise knowledge distillation is one of the compression techniques that can effectively reduce the size of a highly complex DNN. However, it is not widely adopted due to its long training time. In this paper, we propose a novel parallel blockwise distillation algorithm to accelerate the distillation process of sophisticated DNNs. Our algorithm leverages local information to conduct independent blockwise distillation, utilizes depthwise separable layers as the efficient replacement block architecture, and properly addresses limiting factors (e.g. dependency, synchronization, and load balancing) that affect parallelism. The experimental results running on an AMD server with four Geforce RTX 2080Ti GPUs show that our algorithm can achieve 3x speedup plus 19% energy savings on VGG distillation, and 3.5x speedup plus 29% energy savings on ResNet distillation, both with negligible accuracy loss. The speedup of ResNet distillation can be further improved to 3.87 when using four RTX6000 GPUs in a distributed cluster.
翻訳日:2021-05-22 12:03:18 公開日:2020-12-05
# ポアソンニューラルネットワークによる自律システムのポアソン系と軌道の学習

Learning Poisson systems and trajectories of autonomous systems via Poisson neural networks ( http://arxiv.org/abs/2012.03133v1 )

ライセンス: Link先を確認
Pengzhan Jin, Zhen Zhang, Ioannis G. Kevrekidis and George Em Karniadakis(参考訳) データからポアソンシステムと自律システムの軌跡を学習するために,ポアソンニューラルネットワーク(PNN)を提案する。 ダルブックス=リーの定理に基づき、ポアソン系の位相フローは(1)座標変換、(2)拡張シンプレクティック写像、(3)変換の逆の合成として記述することができる。 本研究では、この結果を自律システムの無注軌跡にまで拡張する。 我々は、前述の3つのマップを近似するために、物理的に先行した構造化ニューラルネットワークを用いる。 我々は,pnnが電磁ポテンシャル中の粒子の動きや非線形schr{\"o}dinger方程式,二体問題のピクセル観測など,いくつかの課題を非常に正確に処理できることをシミュレーションにより実証する。

We propose the Poisson neural networks (PNNs) to learn Poisson systems and trajectories of autonomous systems from data. Based on the Darboux-Lie theorem, the phase flow of a Poisson system can be written as the composition of (1) a coordinate transformation, (2) an extended symplectic map and (3) the inverse of the transformation. In this work, we extend this result to the unknotted trajectories of autonomous systems. We employ structured neural networks with physical priors to approximate the three aforementioned maps. We demonstrate through several simulations that PNNs are capable of handling very accurately several challenging tasks, including the motion of a particle in the electromagnetic potential, the nonlinear Schr{\"o}dinger equation, and pixel observations of the two-body problem.
翻訳日:2021-05-22 12:02:52 公開日:2020-12-05
# 生成的逆ネットワーク訓練のための適応重み付き判別器

Adaptive Weighted Discriminator for Training Generative Adversarial Networks ( http://arxiv.org/abs/2012.03149v1 )

ライセンス: Link先を確認
Vasily Zadorozhnyy, Qiang Cheng, Qiang Ye(参考訳) GAN(Generative Adversarial Network)は、従来の教師なし機械学習において最も重要なニューラルネットワークモデルのひとつとなっている。 ganの判別器を訓練するために様々な識別器損失関数が開発されており、それらはすべて共通の構造を持っている:実データと生成されたデータのみに依存する実データと偽データの合計である。 2つの損失の重み付けによる1つの課題は、トレーニングが1つの損失に恩恵を与えるが、もう1つの損失に害を与える可能性があることだ。 本稿では,実部品の重み付き和と偽部品の重み付き和を採用し,適応重み付き損失関数やaw損失関数と呼ぶ新しい判別器損失関数の族を提案する。 損失の現実的および偽的部分の勾配を用いて、GANの安定性の恩恵を受ける方向に判別器を訓練するために重量を適応的に選択することができる。 本手法は,実部品と偽部品の和である損失を持つ任意の判別器モデルに適用することができる。 CIFAR-10, STL-10, CIFAR-100データセットをインセプションスコアとFIDで有意差で改善し, 非条件画像生成タスクにおける損失関数の有効性を検証した。

Generative adversarial network (GAN) has become one of the most important neural network models for classical unsupervised machine learning. A variety of discriminator loss functions have been developed to train GAN's discriminators and they all have a common structure: a sum of real and fake losses that only depends on the actual and generated data respectively. One challenge associated with an equally weighted sum of two losses is that the training may benefit one loss but harm the other, which we show causes instability and mode collapse. In this paper, we introduce a new family of discriminator loss functions that adopts a weighted sum of real and fake parts, which we call adaptive weighted loss functions or aw-loss functions. Using the gradients of the real and fake parts of the loss, we can adaptively choose weights to train a discriminator in the direction that benefits the GAN's stability. Our method can be potentially applied to any discriminator model with a loss that is a sum of the real and fake parts. Experiments validated the effectiveness of our loss functions on an unconditional image generation task, improving the baseline results by a significant margin on CIFAR-10, STL-10, and CIFAR-100 datasets in Inception Scores and FID.
翻訳日:2021-05-22 12:02:39 公開日:2020-12-05
# 移動ロボットナビゲーションにおける障害物回避と経路探索

Obstacle avoidance and path finding for mobile robot navigation ( http://arxiv.org/abs/2012.03105v1 )

ライセンス: Link先を確認
Poojith Kotikalapudi and Vinayak Elangovan(参考訳) 本稿では,ロボットのカメラ,空中カメラ,超音波センサを用いて,ロボット前方の障害物を検出する方法について検討する。 また,ロボットが目標源へ移動するための経路探索法についても検討した。 シングルおよびマルチイテレーション角に基づくナビゲーションアルゴリズムを開発した。 thetaに基づく経路探索アルゴリズムをdijkstraアルゴリズムと比較し,その性能解析を行った。

This paper investigates different methods to detect obstacles ahead of a robot using a camera in the robot, an aerial camera, and an ultrasound sensor. We also explored various efficient path finding methods for the robot to navigate to the target source. Single and multi-iteration angle-based navigation algorithms were developed. The theta-based path finding algorithms were compared with the Dijkstra Algorithm and their performance were analyzed.
翻訳日:2021-05-22 12:02:15 公開日:2020-12-05
# 階層クラスタリングのための選択推論

Selective Inference for Hierarchical Clustering ( http://arxiv.org/abs/2012.02936v1 )

ライセンス: Link先を確認
Lucy L. Gao, Jacob Bien and Daniela Witten(参考訳) 2つのグループ間の手段の違いに対するテストは、事実上すべての科学領域にまたがる研究質問に答える上で基本です。 古典的なテストは、グループが優先順位を定義するときにタイプIエラー率を制御する。 しかし、群がクラスタリングアルゴリズムによって定義される場合、群間の平均差に対する古典的なテストを適用すると、非常に膨らんだタイプIエラー率が得られる。 特に、この問題は、2つの独立したデータセットがグループを定義し、その手段の違いをテストするために使われても持続する。 この問題に対処するため,本論文では,任意のクラスタリング法から得られた2つのクラスタ間の手段の差をテストするための選択的推論手法を提案する。 提案手法は,データからNull仮説が生成されたという事実を考慮し,選択型Iエラー率を制御する。 本稿では,集合的階層クラスタリングを用いて得られたクラスタの正確なp値の計算方法を述べる。 本手法はシミュレーションデータおよび単細胞rna-seqデータに適用する。

Testing for a difference in means between two groups is fundamental to answering research questions across virtually every scientific area. Classical tests control the Type I error rate when the groups are defined a priori. However, when the groups are instead defined via a clustering algorithm, then applying a classical test for a difference in means between the groups yields an extremely inflated Type I error rate. Notably, this problem persists even if two separate and independent data sets are used to define the groups and to test for a difference in their means. To address this problem, in this paper, we propose a selective inference approach to test for a difference in means between two clusters obtained from any clustering method. Our procedure controls the selective Type I error rate by accounting for the fact that the null hypothesis was generated from the data. We describe how to efficiently compute exact p-values for clusters obtained using agglomerative hierarchical clustering with many commonly used linkages. We apply our method to simulated data and to single-cell RNA-seq data.
翻訳日:2021-05-22 12:02:09 公開日:2020-12-05
# 選好推論と説明を用いた適応支援への知識駆動アプローチ

A Knowledge Driven Approach to Adaptive Assistance Using Preference Reasoning and Explanation ( http://arxiv.org/abs/2012.02904v1 )

ライセンス: Link先を確認
Jason R. Wilson, Leilani Gilpin, Irina Rabkina(参考訳) 社会的支援ロボット (SAR) は, 理屈を説明することによって, 行動の透明性を提供する必要がある。 さらに、推論と説明はユーザの好みと目標を表すべきである。 解釈可能な推論と表現の必要性を満たすために,ロボットはマインド理論を用いて,ユーザが何をしようとしているのかを推測し,ヒントエンジンを用いて,ユーザがしようとしていることに基づいて適切な支援を求める。 ユーザが不確実あるいは混乱している場合は、説明合成装置によって生成された説明を提供する。 この説明は、ロボットがユーザの好みについて何を推論したか、そして、ロボットが与えた援助を提供することを決めた理由を理解するのに役立つ。 知識駆動アプローチは、好み、援助、説明に関する推論に対する透明性を提供し、それによって、ユーザのフィードバックの取り込みを促進し、ロボットが学習し、ユーザに適応できるようにする。

There is a need for socially assistive robots (SARs) to provide transparency in their behavior by explaining their reasoning. Additionally, the reasoning and explanation should represent the user's preferences and goals. To work towards satisfying this need for interpretable reasoning and representations, we propose the robot uses Analogical Theory of Mind to infer what the user is trying to do and uses the Hint Engine to find an appropriate assistance based on what the user is trying to do. If the user is unsure or confused, the robot provides the user with an explanation, generated by the Explanation Synthesizer. The explanation helps the user understand what the robot inferred about the user's preferences and why the robot decided to provide the assistance it gave. A knowledge-driven approach provides transparency to reasoning about preferences, assistance, and explanations, thereby facilitating the incorporation of user feedback and allowing the robot to learn and adapt to the user.
翻訳日:2021-05-22 12:01:56 公開日:2020-12-05
# 単眼4次元顔面アバター再建のための動的神経放射野

Dynamic Neural Radiance Fields for Monocular 4D Facial Avatar Reconstruction ( http://arxiv.org/abs/2012.03065v1 )

ライセンス: Link先を確認
Guy Gafni, Justus Thies, Michael Zollh\"ofer, Matthias Nie{\ss}ner(参考訳) 人間の顔の外観や動態をモデル化するための動的神経放射場を提案する。 話す人間のデジタルモデリングと再構築は、さまざまなアプリケーションにとって重要なビルディングブロックである。 特に、ARやVRにおけるテレプレゼンス応用には、新しい視点や見出しを含む外観の忠実な再現が必要である。 形状や材料特性を明示的にモデル化する最先端の手法とは対照的に,シーン表現ネットワークに基づく頭部の暗黙的な表現を導入する。 顔のダイナミックスを扱うために,ポーズや表情を明示的に制御する低次元形態素モデルとシーン表現ネットワークを組み合わせる。 このハイブリッド表現から画像を生成するのにボリュームレンダリングを使用し、特殊なキャプチャ設定を必要とせずに、そのような動的ニューラルネットワークシーン表現を単眼入力データのみから学習できることを実証する。 実験では,この学習されたボリューム表現により,最先端のビデオベース再現法を超越した写真リアリスティック画像生成が可能となった。

We present dynamic neural radiance fields for modeling the appearance and dynamics of a human face. Digitally modeling and reconstructing a talking human is a key building-block for a variety of applications. Especially, for telepresence applications in AR or VR, a faithful reproduction of the appearance including novel viewpoints or head-poses is required. In contrast to state-of-the-art approaches that model the geometry and material properties explicitly, or are purely image-based, we introduce an implicit representation of the head based on scene representation networks. To handle the dynamics of the face, we combine our scene representation network with a low-dimensional morphable model which provides explicit control over pose and expressions. We use volumetric rendering to generate images from this hybrid representation and demonstrate that such a dynamic neural scene representation can be learned from monocular input data only, without the need of a specialized capture setup. In our experiments, we show that this learned volumetric representation allows for photo-realistic image generation that surpasses the quality of state-of-the-art video-based reenactment methods.
翻訳日:2021-05-22 12:00:50 公開日:2020-12-05
# 胸部ctアトラスの開発と特性評価

Development and Characterization of a Chest CT Atlas ( http://arxiv.org/abs/2012.03124v1 )

ライセンス: Link先を確認
Kaiwen Xu, Riqiang Gao, Mirza S. Khan, Shunxing Bao, Yucheng Tang, Steve A. Deppen, Yuankai Huo, Kim L. Sandler, Pierre P. Massion, Mattias P. Heinrich, Bennett A. Landman(参考訳) 肺癌スクリーニングの主な目的は、がんのリスクが高い特定の表現型を持つ個体を特定することである。 関連表現型を同定することは、体の位置や体組成の変化によって複雑になる。 脳では、標準化された座標系(例えばアトラス)は、グロース/グローバル構造から局所的な特徴を別々に考慮することができる。 これまで、胸部計算トモグラフィ(ct)における空間マッピングと調和を可能にする類似の標準atlasは提示されていない。 本稿では,肺がん検診プログラムの大規模低線量ct(ldct)データベースを基盤とした胸部アトラスを提案する。 調査コホートは466名の男性と387名の女性で、スクリーニングが検出されていない(46-79歳、平均64.9歳)。 空間マッピングを実現するため,胸腔全体に対して多段階間非剛性登録パイプラインを最適化する。 2つのベースラインに対して最適化されたパイプラインを,デフォルトパラメータを持つソフトウェアと代替ソフトウェアという,代替の非厳格登録モジュールで評価する。 手動のQAに基づいて登録成功率を大幅に改善する。 全研究コホートにおいて、最適化されたパイプラインは91.7%の登録成功率を達成する。 開発したatlasの有効性は,身体質量指数(bmi),慢性閉塞性肺疾患(copd),冠動脈石灰化(cac)などの異なる解剖学的表現型に対する識別能力の観点から評価した。

A major goal of lung cancer screening is to identify individuals with particular phenotypes that are associated with high risk of cancer. Identifying relevant phenotypes is complicated by the variation in body position and body composition. In the brain, standardized coordinate systems (e.g., atlases) have enabled separate consideration of local features from gross/global structure. To date, no analogous standard atlas has been presented to enable spatial mapping and harmonization in chest computational tomography (CT). In this paper, we propose a thoracic atlas built upon a large low dose CT (LDCT) database of lung cancer screening program. The study cohort includes 466 male and 387 female subjects with no screening detected malignancy (age 46-79 years, mean 64.9 years). To provide spatial mapping, we optimize a multi-stage inter-subject non-rigid registration pipeline for the entire thoracic space. We evaluate the optimized pipeline relative to two baselines with alternative non-rigid registration module: the same software with default parameters and an alternative software. We achieve a significant improvement in terms of registration success rate based on manual QA. For the entire study cohort, the optimized pipeline achieves a registration success rate of 91.7%. The application validity of the developed atlas is evaluated in terms of discriminative capability for different anatomic phenotypes, including body mass index (BMI), chronic obstructive pulmonary disease (COPD), and coronary artery calcification (CAC).
翻訳日:2021-05-22 12:00:33 公開日:2020-12-05
# 模擬小脳における対向性の評価

Evaluating adversarial robustness in simulated cerebellum ( http://arxiv.org/abs/2012.02976v1 )

ライセンス: Link先を確認
Liu Yuezhang, Bo Li, Qifeng Chen(参考訳) ニューラルネットワークは、ロバスト性を改善するために多大な努力がなされた敵の例に弱いことがよく知られている。 しかしながら、そのような例は通常ヒトには受容できないため、生物学的神経回路に対する影響はほとんど分かっていない。 本稿では,計算神経科学における教師付き学習システムであるシミュレート小脳における対向的ロバスト性について検討する。 具体的には,小脳の3つの特徴について検討することを提案する。 (i) ネットワーク幅, (ii) パラレルファイバー-プルキンエ細胞シナプスの長期抑制, (iii) 顆粒層の疎結合, およびそれらが堅牢性向上に有用であるという仮説である。 我々の知る限りでは、シミュレートされた小脳モデルにおける対角的堅牢性を調べる最初の試みである。 肯定的な結果と否定的な結果の両方が本当に有意義である – 肯定的な答えであれば,より堅牢な学習システムを設計するための生物学的モデルから,工学的な洞察が得られます。

It is well known that artificial neural networks are vulnerable to adversarial examples, in which great efforts have been made to improve the robustness. However, such examples are usually imperceptible to humans, thus their effect on biological neural circuits is largely unknown. This paper will investigate the adversarial robustness in a simulated cerebellum, a well-studied supervised learning system in computational neuroscience. Specifically, we propose to study three unique characteristics revealed in the cerebellum: (i) network width; (ii) long-term depression on the parallel fiber-Purkinje cell synapses; (iii) sparse connectivity in the granule layer, and hypothesize that they will be beneficial for improving robustness. To the best of our knowledge, this is the first attempt to examine the adversarial robustness in simulated cerebellum models. We wish to remark that both of the positive and negative results are indeed meaningful -- if the answer is in the affirmative, engineering insights are gained from the biological model into designing more robust learning systems; otherwise, neuroscientists are encouraged to fool the biological system in experiments with adversarial attacks -- which makes the project especially suitable for a pre-registration study.
翻訳日:2021-05-22 11:59:47 公開日:2020-12-05
# RLOC:強化学習と最適制御を用いた地形認識型脚移動

RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and Optimal Control ( http://arxiv.org/abs/2012.03094v1 )

ライセンス: Link先を確認
Siddhant Gangapurwala, Mathieu Geisert, Romeo Orsolino, Maurice Fallon and Ioannis Havoutis(参考訳) 本研究では,不均一な地形上での動的移動を実現するために,四面体計画と制御のためのモデルベースとデータ駆動の統一アプローチを提案する。 本研究は,広範囲の手続き的に発生する地形のシミュレーションで訓練された強化学習(RL)ポリシーを用いて,センサ情報と所望のベースベロシティコマンドを足踏み計画にマッピングする。 オンラインで実行されると、システムはモデルベースのコントローラを使って生成されたステッププランを追跡する。 我々は,様々な複雑な地形におけるロバスト性を評価する。 攻撃的な移動よりも安定性を優先する行動を示す。 さらに,全身運動追跡と回復制御のための2つの補助的RLポリシーを導入する。 これらのポリシーは、物理的パラメータと外部摂動の変化を規定している。 我々は,複雑な四足歩行システムであるanymalバージョンb上でフレームワークを訓練し,評価し,再訓練を必要とせず,より大型で重いanymal cへの移動性を示す。

We present a unified model-based and data-driven approach for quadrupedal planning and control to achieve dynamic locomotion over uneven terrain. We utilize on-board proprioceptive and exteroceptive feedback to map sensory information and desired base velocity commands into footstep plans using a reinforcement learning (RL) policy trained in simulation over a wide range of procedurally generated terrains. When ran online, the system tracks the generated footstep plans using a model-based controller. We evaluate the robustness of our method over a wide variety of complex terrains. It exhibits behaviors which prioritize stability over aggressive locomotion. Additionally, we introduce two ancillary RL policies for corrective whole-body motion tracking and recovery control. These policies account for changes in physical parameters and external perturbations. We train and evaluate our framework on a complex quadrupedal system, ANYmal version B, and demonstrate transferability to a larger and heavier robot, ANYmal C, without requiring retraining.
翻訳日:2021-05-22 11:59:27 公開日:2020-12-05
# 機械的・疲労特性を有する高エントロピー材料の設計・製造のための機械学習とデータ分析

Machine Learning and Data Analytics for Design and Manufacturing of High-Entropy Materials Exhibiting Mechanical or Fatigue Properties of Interest ( http://arxiv.org/abs/2012.07583v1 )

ライセンス: Link先を確認
Baldur Steingrimsson, Xuesong Fan, Anand Kulkarni, Michael C. Gao, Peter K. Liaw(参考訳) 本章は、特定の目的特性を示す合金や複合材料の識別に機械学習とデータ分析を応用するための革新的な枠組みを提案する。 主な焦点は構造材料のための大きな組成空間を持つ合金と複合材料である。 このような合金や複合材料は高エントロピー材料(HEM)と呼ばれ、主に構造的応用の文脈で提示される。 各利子の出力特性について、対応する駆動(入力)因子を特定する。 これらの入力要因には、材料組成、熱処理、製造プロセス、微細構造、温度、ひずみ速度、環境、試験モードが含まれる。 フレームワークは、手元にあるアプリケーションと利用可能なデータに適した最適化技術の選択を想定している。 物理学に基づくモデルは、究極の引張強度(UTS)や疲労抵抗を予測するために提示される。 我々は物理ベースの依存関係を計算できるモデルを考案する。 このような依存関係を優先順位情報としてモデルに分解する。 人工ニューラルネットワーク(ANN)が応用に適していると考えられる場合、より緊密な結合、より良い予測、通常利用可能な制限された入力データの最も多くを抽出するために、基礎となる物理学と整合したカスタムカーネル関数を採用することが提案されている。

This chapter presents an innovative framework for the application of machine learning and data analytics for the identification of alloys or composites exhibiting certain desired properties of interest. The main focus is on alloys and composites with large composition spaces for structural materials. Such alloys or composites are referred to as high-entropy materials (HEMs) and are here presented primarily in context of structural applications. For each output property of interest, the corresponding driving (input) factors are identified. These input factors may include the material composition, heat treatment, manufacturing process, microstructure, temperature, strain rate, environment, or testing mode. The framework assumes the selection of an optimization technique suitable for the application at hand and the data available. Physics-based models are presented, such as for predicting the ultimate tensile strength (UTS) or fatigue resistance. We devise models capable of accounting for physics-based dependencies. We factor such dependencies into the models as a priori information. In case that an artificial neural network (ANN) is deemed suitable for the applications at hand, it is suggested to employ custom kernel functions consistent with the underlying physics, for the purpose of attaining tighter coupling, better prediction, and for extracting the most out of the - usually limited - input data available.
翻訳日:2021-05-22 11:58:50 公開日:2020-12-05
# ニューラルネットワークによる可視化波動関数の学習による量子多体ハミルトニアンのパラメータ予測

Deep neural network predicts parameters of quantum many-body Hamiltonians by learning visualized wave-functions ( http://arxiv.org/abs/2012.03019v1 )

ライセンス: Link先を確認
Xinran Ma, Z. C. Tu, Shi-Ju Ran(参考訳) 過去数十年間、量子多体ハミルトニアンを与えられた基底状態を解決する方法が確立されてきた。 本研究では,畳み込みニューラルネットワーク(CNN)が結合強度や磁場などの相互作用するハミルトニアンの物理パラメータを予測し,量子多体波動関数を基底状態とすることができることを示す。 画像として基底状態(あるいは純化密度行列)を可視化するQubism Mapと、対象の物理パラメータに画像をマッピングするCNNの2つの主要な部分からなるQubismNetを提案する。 QubismNetは、いくつかの量子スピンモデルで学習と一般化の印象的な能力を示す。 トレーニングサンプルはパラメータの特定の範囲から状態に制限されるが、QubismNetはそのようなトレーニング領域を超えた状態のパラメータを正確に予測することができる。 例えば, qubismnetは臨界点に近い状態から学習することで臨界点近傍の磁場を予測できることを示した。 私たちの研究は、設計された基底状態を与えるハミルトニアンを推論するためのデータ駆動型手法を提供し、ハミルトニアンベースの量子シミュレーションのような、現在および将来の量子技術に利益をもたらす。

In the past decades, methods to solve the ground state given a quantum many-body Hamiltonian have been well established. In this work, we consider an inverse problem and demonstrate that convolutional neural network (CNN) can predict the physical parameters of interacting Hamiltonians, such as coupling strengths and magnetic fields, providing the quantum many-body wave-functions as the ground states. We propose QubismNet that consists of two main parts: the Qubism map that visualizes the ground states (or the purified reduced density matrices) as images, and a CNN that maps the images to the target physical parameters. QubismNet exhibits impressive powers of learning and generalization on several quantum spin models. While the training samples are restricted to the states from certain ranges of the parameters, QubismNet can accurately predict the parameters of the states beyond such training regions. For instance, our results show that QubismNet can predict the magnetic fields near the critical point by learning from the states away from the critical vicinity. Our work provides a data-driven way to infer the Hamiltonians that give the designed ground states, and therefore would benefit the existing and future generations of quantum technologies such as Hamiltonian-based quantum simulations.
翻訳日:2021-05-22 11:57:55 公開日:2020-12-05
# MRIにおける効率的な腫瘍内パーティショニングのためのベイズ最適化による教師なし学習とグリオーマ患者の生存予測

Bayesian optimization assisted unsupervised learning for efficient intra-tumor partitioning in MRI and survival prediction for glioblastoma patients ( http://arxiv.org/abs/2012.03115v1 )

ライセンス: Link先を確認
Yifan Li, Chao Li, Stephen Price, Carola-Bibiane Sch\"onlieb, Xi Chen(参考訳) グリオブラスト腫は組織と血管に非常に不均一であり、腫瘍領域の多様性と異なる治療反応をもたらす可能性がある。 腫瘍部分領域のセグメンテーションと生存予測に成功しているが、機械学習アルゴリズムに基づく放射能は、あいまいな中間過程と軌跡の変化のため、その堅牢性に挑戦されている。 また, モデルの弱い解釈性は臨床応用に課題をもたらす。 本稿では,クラスタリングアルゴリズムを半自動微調整する機械学習フレームワークを提案し,信頼性の高い臨床生存予測のための安定サブリージョンを定量的に同定した。 ハイパーパラメータはベイズ最適化(BO)を通して訓練されたガウス過程(GP)サロゲートモデルの全球最小値で自動的に決定され、臨床研究者のパラメータ調整の困難さを軽減する。 生存予測モデルの解釈性を高めるため,腫瘍部分領域を分割し,局所的特徴を抽出し,腫瘍内異種性の事前知識を組み込んだ。 その結果, GPサロゲートのグローバル最小値は, 最適準パラメータ解として有効であることがわかった。 生理的MRIに基づくサブリージョンは、患者の生存を予測するために応用でき、機械学習モデルの臨床的解釈可能性を高めることができる。

Glioblastoma is profoundly heterogeneous in microstructure and vasculature, which may lead to tumor regional diversity and distinct treatment response. Although successful in tumor sub-region segmentation and survival prediction, radiomics based on machine learning algorithms, is challenged by its robustness, due to the vague intermediate process and track changes. Also, the weak interpretability of the model poses challenges to clinical application. Here we proposed a machine learning framework to semi-automatically fine-tune the clustering algorithms and quantitatively identify stable sub-regions for reliable clinical survival prediction. Hyper-parameters are automatically determined by the global minimum of the trained Gaussian Process (GP) surrogate model through Bayesian optimization(BO) to alleviate the difficulty of tuning parameters for clinical researchers. To enhance the interpretability of the survival prediction model, we incorporated the prior knowledge of intra-tumoral heterogeneity, by segmenting tumor sub-regions and extracting sub-regional features. The results demonstrated that the global minimum of the trained GP surrogate can be used as sub-optimal hyper-parameter solutions for efficient. The sub-regions segmented based on physiological MRI can be applied to predict patient survival, which could enhance the clinical interpretability for the machine learning model.
翻訳日:2021-05-22 11:57:33 公開日:2020-12-05
# 深層強化学習と従来のパスフィンディングアルゴリズムに基づくマルチエージェントナビゲーション

Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm ( http://arxiv.org/abs/2012.09134v1 )

ライセンス: Link先を確認
Hongda Qiu(参考訳) マルチエージェント衝突回避問題のための新しいフレームワークを開発する。 このフレームワークは従来のパスフィニングアルゴリズムと強化学習を組み合わせた。 このアプローチでは、エージェントは、各ステップで強化学習によって訓練されたディープニューラルネットワークを介して、ナビゲートするか、あるいは簡単なアクションをとるべきかを学ぶ。 このフレームワークにより、抽象的な新しいシナリオでエージェントが端末ポイントに到達することができる。 実験では、シナリオのモデルと環境を構築するためにUnity3DとTensorflowを使用します。 結果を分析し、パラメータを変更してエージェントの適切な戦略にアプローチします。 当社の戦略は、特に規模が大きい場合には、異なるケース下で異なる環境にアタッチできます。

We develop a new framework for multi-agent collision avoidance problem. The framework combined traditional pathfinding algorithm and reinforcement learning. In our approach, the agents learn whether to be navigated or to take simple actions to avoid their partners via a deep neural network trained by reinforcement learning at each time step. This framework makes it possible for agents to arrive terminal points in abstract new scenarios. In our experiments, we use Unity3D and Tensorflow to build the model and environment for our scenarios. We analyze the results and modify the parameters to approach a well-behaved strategy for our agents. Our strategy could be attached in different environments under different cases, especially when the scale is large.
翻訳日:2021-05-22 11:57:12 公開日:2020-12-05