このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201201となっている論文です。

PDF登録状況(公開日: 20201201)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 一様スパース接続によるニューラルネットワークの改善 [全文訳有]

Improving Neural Network with Uniform Sparse Connectivity ( http://arxiv.org/abs/2011.14420v2 )

ライセンス: CC BY 4.0
Weijun Luo(参考訳) ニューラルネットワークは、ディープラーニングと多数のAIアプリケーションの基礎を形成する。 古典的なニューラルネットワークは、完全に接続され、トレーニングに費用がかかり、オーバーフィットしがちである。 スパースネットワークは、畳み込み構造検索、サブ最適性能、限られた使用量を持つ傾向がある。 そこで我々は,各層に均等で疎結合な一様スパースネットワーク (USN) を提案する。 usnは、その性能が実質的なトポロジーの変化と巨大なモデル空間から独立しているという驚くべき特性を持ち、前述のニューラルネットワークのすべての問題に対して、検索不要なソリューションを提供する。 USNは、予測精度、速度、堅牢性において最先端のスパースネットワークモデルより一貫して、実質的に優れている。 0.55%のパラメータと1/4の計算時間とリソースを持つ完全接続ネットワークよりも高い予測精度を達成している。 重要なことは、USNは、完全に接続されたネットワークの自然な一般化として概念的に単純であり、正確性、堅牢性、スケーラビリティが多岐にわたって改善されている。 USNは、さまざまなアプリケーション、データタイプ、ディープラーニングアーキテクチャで後者を置き換えることができる。 usnをhttps://github.com/d atapplab/sparsenetでオープンソースにしました。

Neural network forms the foundation of deep learning and numerous AI applications. Classical neural networks are fully connected, expensive to train and prone to overfitting. Sparse networks tend to have convoluted structure search, suboptimal performance and limited usage. We proposed the novel uniform sparse network (USN) with even and sparse connectivity within each layer. USN has one striking property that its performance is independent of the substantial topology variation and enormous model space, thus offers a search-free solution to all above mentioned issues of neural networks. USN consistently and substantially outperforms the state-of-the-art sparse network models in prediction accuracy, speed and robustness. It even achieves higher prediction accuracy than the fully connected network with only 0.55% parameters and 1/4 computing time and resources. Importantly, USN is conceptually simple as a natural generalization of fully connected network with multiple improvements in accuracy, robustness and scalability. USN can replace the latter in a range of applications, data types and deep learning architectures. We have made USN open source at https://github.com/d atapplab/sparsenet.
翻訳日:2021-06-07 10:03:24 公開日:2020-12-01
# 微細解像度リモートセンシング画像のセマンティックセグメンテーションのための多段階アテンションResU-Net

Multi-stage Attention ResU-Net for Semantic Segmentation of Fine-Resolution Remote Sensing Images ( http://arxiv.org/abs/2011.14302v2 )

ライセンス: Link先を確認
Rui Li, Shunyi Zheng, Chenxi Duan, Jianlin Su, and Ce Zhang(参考訳) 注目機構は抽出した特徴マップを洗練させ、深層ネットワークの分類性能を高めることができ、コンピュータビジョンや自然言語処理において重要な技術となっている。 しかし,dot-product attention機構のメモリと計算コストは入力の時空間サイズと2乗的に増加する。 このような成長は、大規模な入力を持つアプリケーションシナリオにおいて、注意機構の使用をかなり妨げます。 本稿では,この問題に対処するための線形注意機構(LAM)を提案する。 このような設計により、注意機構とディープネットワークの一体化はより柔軟で汎用性が高い。 提案する lam に基づいて,u-net のスキップ接続をリファクタリングし,マルチステージアテンション resu-net (maresu-net) を設計,精細なリモートセンシング画像から意味セグメンテーションを行う。 Vaihingenデータセットで行った実験では、MAResU-Netの有効性と効率が示された。 オープンソースコードはhttps://github.com/l ironui/multistage-at tention-resu-netで入手できる。

The attention mechanism can refine the extracted feature maps and boost the classification performance of the deep network, which has become an essential technique in computer vision and natural language processing. However, the memory and computational costs of the dot-product attention mechanism increase quadratically with the spatio-temporal size of the input. Such growth hinders the usage of attention mechanisms considerably in application scenarios with large-scale inputs. In this Letter, we propose a Linear Attention Mechanism (LAM) to address this issue, which is approximately equivalent to dot-product attention with computational efficiency. Such a design makes the incorporation between attention mechanisms and deep networks much more flexible and versatile. Based on the proposed LAM, we re-factor the skip connections in the raw U-Net and design a Multi-stage Attention ResU-Net (MAResU-Net) for semantic segmentation from fine-resolution remote sensing images. Experiments conducted on the Vaihingen dataset demonstrated the effectiveness and efficiency of our MAResU-Net. Open-source code is available at https://github.com/l ironui/Multistage-At tention-ResU-Net.
翻訳日:2021-06-07 09:03:47 公開日:2020-12-01
# 教師なしのDeep Video Denoising

Unsupervised Deep Video Denoising ( http://arxiv.org/abs/2011.15045v2 )

ライセンス: Link先を確認
Dev Yashpal Sheth, Sreyas Mohan, Joshua L. Vincent, Ramon Manzorro, Peter A. Crozier, Mitesh M. Khapra, Eero P. Simoncelli, Carlos Fernandez-Granda(参考訳) deep convolutional neural networks (cnns)は現在、デノイジングビデオで最先端のパフォーマンスを達成している。 それらは通常、ネットワーク出力と地上のクリーンビデオの間のエラーを最小限に抑えるために、監督によって訓練される。 しかし、顕微鏡のような多くのアプリケーションでは、ノイズレスビデオは利用できない。 これらの問題に対処するため,教師なし静止画像の最近の進歩を基盤として,教師なし深層映像デノイザ(UDVD)を開発した。 UDVDは、単一の短いノイズの多いビデオシーケンスでのみトレーニングされた場合でも、ベンチマークデータセット上で現在の最先端の教師付き手法と競合して動作する。 蛍光顕微鏡および電子顕微鏡データを用いた実験は, 地中清浄データが一般に利用できないような撮像モードへのアプローチが期待できることを示す。 さらに,訓練されたCNNがビデオデノーミングを行うメカニズムについて検討した。 入力に対するネットワーク出力の勾配を解析したところ、これらのネットワークは特定の空間構造や基盤となるコンテンツの運動に適応した時空間フィルタリングを行うことが明らかとなった。 我々はこれを、従来のビデオデノゲーション、圧縮、分析において広く使われている、暗黙的で効果的な動き補償形式と解釈する。 私たちの分析用のコードとiPythonノートブックはhttps://sreyas-mohan .github.io/udvd/ で入手できる。

Deep convolutional neural networks (CNNs) currently achieve state-of-the-art performance in denoising videos. They are typically trained with supervision, minimizing the error between the network output and ground-truth clean videos. However, in many applications, such as microscopy, noiseless videos are not available. To address these cases, we build on recent advances in unsupervised still image denoising to develop an Unsupervised Deep Video Denoiser (UDVD). UDVD is shown to perform competitively with current state-of-the-art supervised methods on benchmark datasets, even when trained only on a single short noisy video sequence. Experiments on fluorescence-microsc opy and electron-microscopy data illustrate the promise of our approach for imaging modalities where ground-truth clean data is generally not available. In addition, we study the mechanisms used by trained CNNs to perform video denoising. An analysis of the gradient of the network output with respect to its input reveals that these networks perform spatio-temporal filtering that is adapted to the particular spatial structures and motion of the underlying content. We interpret this as an implicit and highly effective form of motion compensation, a widely used paradigm in traditional video denoising, compression, and analysis. Code and iPython notebooks for our analysis are available in https://sreyas-mohan .github.io/udvd/ .
翻訳日:2021-06-06 15:02:41 公開日:2020-12-01
# 微分原始凸機械学習の性能向上のためのグラディエントスパシフィケーション

Gradient Sparsification Can Improve Performance of Differentially-Priva te Convex Machine Learning ( http://arxiv.org/abs/2011.14572v2 )

ライセンス: Link先を確認
Farhad Farokhi(参考訳) 個人機械学習モデルの性能に対する差分プライバシノイズの悪影響を軽減するために勾配スペーシフィケーションを用いる。 この目的のために、差分プライベート勾配を評価するために圧縮センシングと付加ラプラス雑音を用いる。 ノイズの多いプライバシー保護勾配は、機械学習モデルをトレーニングするための確率的勾配降下を実行するために使用される。 最小の勾配エントリをゼロにすることでスパーシフィケーションが達成され、トレーニングアルゴリズムの収束速度を低減できる。 しかし、スペーシフィケーションと圧縮センシングにより、通信勾配の寸法と付加音の大きさを低減できる。 これらの効果の相互作用は、勾配スパーシフィケーションが微分プライベート機械学習モデルの性能を改善するかどうかを決定する。 論文の中でこれを分析的に検討する。 私たちは、小さなプライバシー予算で、圧縮がプライバシ保存機械学習モデルのパフォーマンスを向上させることを証明します。 しかし、大きなプライバシー予算では、圧縮が必ずしもパフォーマンスを改善するとは限らない。 直感的には、大きなプライバシー予算体制では、プライバシー保護ノイズの影響は最小限であり、グラデーションスペーシフィケーションの改善は、その緩やかな収束を補うことができないためである。

We use gradient sparsification to reduce the adverse effect of differential privacy noise on performance of private machine learning models. To this aim, we employ compressed sensing and additive Laplace noise to evaluate differentially-priva te gradients. Noisy privacy-preserving gradients are used to perform stochastic gradient descent for training machine learning models. Sparsification, achieved by setting the smallest gradient entries to zero, can reduce the convergence speed of the training algorithm. However, by sparsification and compressed sensing, the dimension of communicated gradient and the magnitude of additive noise can be reduced. The interplay between these effects determines whether gradient sparsification improves the performance of differentially-priva te machine learning models. We investigate this analytically in the paper. We prove that, for small privacy budgets, compression can improve performance of privacy-preserving machine learning models. However, for large privacy budgets, compression does not necessarily improve the performance. Intuitively, this is because the effect of privacy-preserving noise is minimal in large privacy budget regime and thus improvements from gradient sparsification cannot compensate for its slower convergence.
翻訳日:2021-06-06 14:55:57 公開日:2020-12-01
# 人工意識モデルと心の哲学との関係

An Artificial Consciousness Model and its relations with Philosophy of Mind ( http://arxiv.org/abs/2011.14475v2 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an and Martin Molina and Francisco M. Mendoza(参考訳) 本研究は、意識的な存在と類似した認知的アーキテクチャを実装することにより、自律的なエージェントが得る有益性を研究することを目的としている。 本論文では,グローバルワークスペースアーキテクチャに基づく自律エージェントの意識モデルについて述べる。 このエージェントが心の哲学の異なる視点からどのように見られているかを説明する。 このモデルの目標は、複数の独立したマグニチュードからなる環境内をナビゲートできる自律エージェントを作ることであり、その周囲に適応して、内部の好みに基づいて最適な位置を見つけることである。 モデルの目的は、マグニチュード選択のための注意機構、内的感情と好みのポースセッション、信念や過去の経験を記憶するためのメモリシステムの使用、モデルの全サブシステムで処理される情報を制御および統合するグローバルワークスペースなど、多くの認知メカニズムが組み込まれていることの有効性をテストすることである。 筆者らは、自律エージェントが、例えば、認知的アーキテクチャーを持つことのメリットを、大規模な実験で示す。

This work seeks to study the beneficial properties that an autonomous agent can obtain by implementing a cognitive architecture similar to the one of conscious beings. Along this document, a conscious model of autonomous agent based in a global workspace architecture is presented. We describe how this agent is viewed from different perspectives of philosophy of mind, being inspired by their ideas. The goal of this model is to create autonomous agents able to navigate within an environment composed of multiple independent magnitudes, adapting to its surroundings in order to find the best possible position in base of its inner preferences. The purpose of the model is to test the effectiveness of many cognitive mechanisms that are incorporated, such as an attention mechanism for magnitude selection, pos-session of inner feelings and preferences, usage of a memory system to storage beliefs and past experiences, and incorporating a global workspace which controls and integrates information processed by all the subsystem of the model. We show in a large experiment set how an autonomous agent can benefit from having a cognitive architecture such as the one described.
翻訳日:2021-06-06 14:51:22 公開日:2020-12-01
# DUT:不安定なビデオを見るだけでビデオの安定化を学べる

DUT: Learning Video Stabilization by Simply Watching Unstable Videos ( http://arxiv.org/abs/2011.14574v2 )

ライセンス: Link先を確認
Yufei Xu, Jing Zhang, Stephen J. Maybank, Dacheng Tao(参考訳) 本稿では,Deep Unsupervised Trajectory-based stabilization framework (DUT)を提案する。 従来のスタビライザーは、手作りの特徴の使用に関して、制御可能であるが、隠蔽された、テクスチャのないケースでは壊れやすい軌跡ベースの平滑化に焦点を当てている。 一方,従来のディープ・ビデオ・スタビライザは,明示的な軌跡推定を行わず,教師付きで直接安定な映像を生成するが,ロバストだが制御不能であり,適切なペア・データを得るのが困難である。 制御可能でロバストな安定化装置を構築するため、dutは、グリッドベースの軌道を生成するdnnベースのキーポイント検出器とモーション推定器と、動画を安定させるdnnベースの軌道スムーサとからなる教師なしのディープラーニング方式で、軌道を明示的に推定・平滑化することにより、不安定なビデオの安定化を初めて試みる。 運動における連続性の性質と,教師なし学習の安定化前後におけるキーポイントとグリッド頂点の一貫性を両立する。 公開ベンチマーク実験の結果、DUTは定性的かつ定量的に代表的最先端の手法よりも優れていた。

We propose a Deep Unsupervised Trajectory-based stabilization framework (DUT) in this paper. Traditional stabilizers focus on trajectory-based smoothing, which is controllable but fragile in occluded and textureless cases regarding the usage of hand-crafted features. On the other hand, previous deep video stabilizers directly generate stable videos in a supervised manner without explicit trajectory estimation, which is robust but less controllable and the appropriate paired data are hard to obtain. To construct a controllable and robust stabilizer, DUT makes the first attempt to stabilize unstable videos by explicitly estimating and smoothing trajectories in an unsupervised deep learning manner, which is composed of a DNN-based keypoint detector and motion estimator to generate grid-based trajectories, and a DNN-based trajectory smoother to stabilize videos. We exploit both the nature of continuity in motion and the consistency of keypoints and grid vertices before and after stabilization for unsupervised training. Experiment results on public benchmarks show that DUT outperforms representative state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2021-06-06 14:49:18 公開日:2020-12-01
# 教師なしメタラーニングの再考:小ショットタスクの特性の増幅と補償

Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for the Characteristics of Few-Shot Tasks ( http://arxiv.org/abs/2011.14663v2 )

ライセンス: Link先を確認
Han-Jia Ye, Lu Han, De-Chuan Zhan(参考訳) メタラーニングは、限定された注釈データで視覚認識システムを構築する、少数ショット画像分類への実用的なアプローチとなる。 埋め込みのような帰納的バイアスは、豊富なラベル付き例を持つ基底クラス集合から学び、新しいクラスを持つ少数のタスクに一般化する。 驚いたことに、ベースクラスセットラベルは不要であり、差別的な埋め込みは教師なしの方法でメタ学習することができる。 包括的な分析によると、半正規化距離メトリックと十分なサンプリングの2つの修正により、教師なしメタラーニング(uml)が大幅に改善された。 修正されたベースラインに基づいて、UMLモデルをトレーニングする際のタスクの特性をさらに増幅または補償する。 まず、混合埋め込みが組み込まれ、少数タスクの難易度が高まる。 次に、タスク固有の埋め込み変換を用いてタスク間の特定の特性に対処し、バニラ埋め込みへの一般化能力を維持する。 数ショットの学習ベンチマークの実験では、我々のアプローチが従来のUMLメソッドよりも4-10%パフォーマンスギャップで優れていることが確認されています。

Meta-learning becomes a practical approach towards few-shot image classification, where a visual recognition system is constructed with limited annotated data. Inductive bias such as embedding is learned from a base class set with ample labeled examples and then generalizes to few-shot tasks with novel classes. Surprisingly, we find that the base class set labels are not necessary, and discriminative embeddings could be meta-learned in an unsupervised manner. Comprehensive analyses indicate two modifications -- the semi-normalized distance metric and the sufficient sampling -- improves unsupervised meta-learning (UML) significantly. Based on the modified baseline, we further amplify or compensate for the characteristic of tasks when training a UML model. First, mixed embeddings are incorporated to increase the difficulty of few-shot tasks. Next, we utilize a task-specific embedding transformation to deal with the specific properties among tasks, maintaining the generalization ability into the vanilla embeddings. Experiments on few-shot learning benchmarks verify that our approaches outperform previous UML methods by a 4-10% performance gap, and embeddings learned with our UML achieve comparable or even better performance than its supervised variants.
翻訳日:2021-06-06 14:46:58 公開日:2020-12-01
# 動的埋め込みによるグラフ編集距離の組合せ学習

Combinatorial Learning of Graph Edit Distance via Dynamic Embedding ( http://arxiv.org/abs/2011.15039v2 )

ライセンス: Link先を確認
Runzhong Wang, Tianqi Zhang, Tianshu Yu, Junchi Yan, Xiaokang Yang(参考訳) グラフ編集距離 (Graph Edit Distance, GED) は、ペアグラフの類似度測定として人気があり、ソースグラフからターゲットグラフへの編集パスの回復も指している。 従来のa*アルゴリズムは、探索ヒューリスティックが人間の事前知識に大きく依存しているため、拡張性の問題に苦しんでいる。 本稿では,従来の検索に基づく編集パス作成手法の解釈可能性と,コスト効率の高いgedソルバを実現するための深層埋め込みモデルの効率と適応性を組み合わせたハイブリッド手法を提案する。 動的プログラミングにインスパイアされたノードレベルの埋め込みは、動的再利用方式で指定され、サブ最適分岐がプルーニングされる。 この目的のために,本手法は動的にA*プロシージャに容易に組み込むことができ,学習ヒューリスティックによる計算負担を大幅に削減することができる。 異なるグラフデータセットを用いた実験結果から,A* の探索処理は精度を犠牲にすることなく極めて容易であることがわかった。 我々の知る限りでは、この研究は編集パスを復元する最初のディープラーニングベースのGED手法でもある。

Graph Edit Distance (GED) is a popular similarity measurement for pairwise graphs and it also refers to the recovery of the edit path from the source graph to the target graph. Traditional A* algorithm suffers scalability issues due to its exhaustive nature, whose search heuristics heavily rely on human prior knowledge. This paper presents a hybrid approach by combing the interpretability of traditional search-based techniques for producing the edit path, as well as the efficiency and adaptivity of deep embedding models to achieve a cost-effective GED solver. Inspired by dynamic programming, node-level embedding is designated in a dynamic reuse fashion and suboptimal branches are encouraged to be pruned. To this end, our method can be readily integrated into A* procedure in a dynamic fashion, as well as significantly reduce the computational burden with a learned heuristic. Experimental results on different graph datasets show that our approach can remarkably ease the search process of A* without sacrificing much accuracy. To our best knowledge, this work is also the first deep learning-based GED method for recovering the edit path.
翻訳日:2021-06-06 14:40:18 公開日:2020-12-01
# twitterのスパム検出:体系的なレビュー

Twitter Spam Detection: A Systematic Review ( http://arxiv.org/abs/2011.14754v2 )

ライセンス: Link先を確認
Sepideh Bazzaz Abkenar, Mostafa Haghi Kashani, Mohammad Akbari, Ebrahim Mahdipour(参考訳) 近年、インターネットアクセスやモバイル機器の普及に伴い、ソーシャルネットワークをコラボレーションやリアルタイム情報の受信に利用している人が増えている。 マイクロブログがコミュニケーションとニュースの拡散の重要源になりつつあるtwitterは、スパマーの注意をそらしてユーザーの注意をそらした。 これまでのところ、研究者はTwitter上でスパムの検出やスパム対策に様々な防御技術を導入している。 この問題を克服するために、近年、研究者から多くの新しい技術が提供され、スパム検出性能が大幅に向上している。 それゆえ、twitter上でスパム検出の異なるアプローチについて体系的なレビューを行う動機が浮かび上がっている。 本稿では,twitterのスパム検出に関する既存の研究手法を体系的に比較する。 文献レビュー分析によると、既存の手法のほとんどは機械学習ベースのアルゴリズムに依存している。 これらの機械学習アルゴリズムのうち、主な違いは様々な特徴選択法に関連している。 そこで本研究では,コンテンツ分析,ユーザ分析,つぶやき分析,ネットワーク解析,ハイブリッド分析など,さまざまな特徴選択手法と分析に基づく分類法を提案する。 そこで,本稿では,現状のアプローチに関する数値解析と比較研究を行い,このトピックにおけるソリューション開発を支援するオープンな課題を提起する。

Nowadays, with the rise of Internet access and mobile devices around the globe, more people are using social networks for collaboration and receiving real-time information. Twitter, the microblogging that is becoming a critical source of communication and news propagation, has grabbed the attention of spammers to distract users. So far, researchers have introduced various defense techniques to detect spams and combat spammer activities on Twitter. To overcome this problem, in recent years, many novel techniques have been offered by researchers, which have greatly enhanced the spam detection performance. Therefore, it raises a motivation to conduct a systematic review about different approaches of spam detection on Twitter. This review focuses on comparing the existing research techniques on Twitter spam detection systematically. Literature review analysis reveals that most of the existing methods rely on Machine Learning-based algorithms. Among these Machine Learning algorithms, the major differences are related to various feature selection methods. Hence, we propose a taxonomy based on different feature selection methods and analyses, namely content analysis, user analysis, tweet analysis, network analysis, and hybrid analysis. Then, we present numerical analyses and comparative studies on current approaches, coming up with open challenges that help researchers develop solutions in this topic.
翻訳日:2021-06-06 14:29:10 公開日:2020-12-01
# agnet: ブラックホールを機械学習で測る

AGNet: Weighing Black Holes with Machine Learning ( http://arxiv.org/abs/2011.15095v2 )

ライセンス: Link先を確認
Joshua Yao-Yu Lin, Sneh Pandya, Devanshi Pratap, Xin Liu, Matias Carrasco Kind(参考訳) 超大質量ブラックホール(SMBHs)は、ほとんどの銀河の中心にある。 SMBHの質量を測定することは、SMBHの起源と進化を理解する上で重要である。 しかし、従来の手法では収集に費用がかかるスペクトルデータが必要となる。 この問題を解決するために、クエーサー光時間系列を用いてSMBHを重み付けし、高価なスペクトルの必要性を回避するアルゴリズムを提案する。 我々は、sloan digital sky survey (sdss) stripe 82データから直接学習するニューラルネットワークのトレーニング、検証、テストを行い、9,038ドルの分光学的に確認されたクエーサーを用いてブラックホール質量と多色光度曲線の間の非線形エンコーディングをマッピングした。 1$\sigma$ scatter of 0.35 dex between the expected mass and the fiducial virial mass based on SDSS single-epoch spectra。 この結果は、ヴェラ・ルービン天文台の将来の観測による効率的な応用に直接的な意味を持つ。

Supermassive black holes (SMBHs) are ubiquitously found at the centers of most galaxies. Measuring SMBH mass is important for understanding the origin and evolution of SMBHs. However, traditional methods require spectral data which is expensive to gather. To solve this problem, we present an algorithm that weighs SMBHs using quasar light time series, circumventing the need for expensive spectra. We train, validate, and test neural networks that directly learn from the Sloan Digital Sky Survey (SDSS) Stripe 82 data for a sample of $9,038$ spectroscopically confirmed quasars to map out the nonlinear encoding between black hole mass and multi-color optical light curves. We find a 1$\sigma$ scatter of 0.35 dex between the predicted mass and the fiducial virial mass based on SDSS single-epoch spectra. Our results have direct implications for efficient applications with future observations from the Vera Rubin Observatory.
翻訳日:2021-06-06 14:28:19 公開日:2020-12-01
# (参考訳) 開発途上国におけるクラウドソーシング道路品質マッピング [全文訳有]

Crowd-Sourced Road Quality Mapping in the Developing World ( http://arxiv.org/abs/2012.00179v1 )

ライセンス: CC BY 4.0
Benjamin Choi, John Kamalu(参考訳) 道路網は国のインフラの最も重要な構成要素である。 商品、人々、アイデアの移動と交換を促進することで、国境内および国境を越えた経済・文化活動を支援している。 道路の地理的分布とその品質の最新のマッピングは、土地利用計画から荒野保全まで、ハイインパクトな応用に不可欠である。 地図作成は、ドキュメンテーションが貧弱で、今後数十年で大量の道路建設が行われると予想される発展途上国で特に厳しい課題となっている。 我々は,道路の質を評価し,深層学習に基づく手法をドメイン間で伝達する上での重要な課題と機会を特定する,クラウドソースによる新たなアプローチを提案する。

Road networks are among the most essential components of a country's infrastructure. By facilitating the movement and exchange of goods, people, and ideas, they support economic and cultural activity both within and across borders. Up-to-date mapping of the the geographical distribution of roads and their quality is essential in high-impact applications ranging from land use planning to wilderness conservation. Mapping presents a particularly pressing challenge in developing countries, where documentation is poor and disproportionate amounts of road construction are expected to occur in the coming decades. We present a new crowd-sourced approach capable of assessing road quality and identify key challenges and opportunities in the transferability of deep learning based methods across domains.
翻訳日:2021-06-01 09:48:56 公開日:2020-12-01
# (参考訳) リサイクル・巻取・添加物製造用オープンソースの3次元フィラメント径センサ [全文訳有]

Open Source 3-D Filament Diameter Sensor for Recycling, Winding and Additive Manufacturing Machines ( http://arxiv.org/abs/2012.00191v1 )

ライセンス: CC BY-SA 4.0
Aliaksei L. Petsiuk and Joshua M. Pearce(参考訳) 分散リサイクルおよび添加物製造システムにおけるプラスチック廃棄物の3dプリントフィラメントへのリサイクルの課題を克服するため, リサイクル・巻取機用オープンソースの3dフィラメント径センサの設計, 施工, 試験, 検証を行った。 リサイクルされた3dプリントフィラメントの直径を多軸光制御するためのモジュラーシステムにより、加工されたフィラメントの表面構造を分析し、スプールの全長さに沿った測定履歴を保存し、またマーク欠陥領域を保存できる。 センサーは独立したモジュールとして開発され、リサイクルボットに統合される。 直径センサーは、プラスチック(リサイクル3Dプリントとヴァージンプラスチック廃棄物)の異なる種類のポリマー(ABS、PLA)と透明プラスチックを含む異なる色で試験された。 カメラを用いた直径測定の結果を手作業による測定と,1次元デジタル光キャリパを用いた測定と比較した。 その結果, オープンソースのフィラメントセンシング技術により, 基礎的な1次元光センサに比べてはるかに多くの情報を得ることができ, より正確な直径測定だけでなく, リサイクルフィラメント表面の詳細な解析にも利用することができることがわかった。 本手法は, 製造コミュニティにおけるプラスチックリサイクル技術の普及を保証し, 複合材料の創製を促進させるものである。 提案システムは, 使用可能性を大幅に向上させるとともに, 所望のフィラメント径を達成するためのモータパラメータを制御し, フィラメントの不規則性から回復するプリンタの押出速度を制御できる完全リサイクル制御システムの出発点として機能する。

To overcome the challenge of upcycling plastic waste into 3-D printing filament in the distributed recycling and additive manufacturing systems, this study designs, builds, tests and validates an open source 3-D filament diameter sensor for recycling and winding machines. The modular system for multi-axis optical control of the diameter of the recycled 3-D-printer filament makes it possible to analyze the surface structure of the processed filament, save the history of measurements along the entire length of the spool, as well as mark defective areas. The sensor is developed as an independent module and integrated into a recyclebot. The diameter sensor was tested on different kinds of polymers (ABS, PLA) different sources of plastic (recycled 3-D prints and virgin plastic waste) and different colors including clear plastic. The results of the diameter measurements using the camera were compared with the manual measurements, and the measurements obtained with a one-dimensional digital light caliper. The results found that the developed open source filament sensing method allows users to obtain significantly more information in comparison with basic one-dimensional light sensors and using the received data not only for more accurate diameter measurements, but also for a detailed analysis of the recycled filament surface. The developed method ensures greater availability of plastics recycling technologies for the manufacturing community and stimulates the growth of composite materials creation. The presented system can greatly enhance the user possibilities and serve as a starting point for a complete recycling control system that will regulate motor parameters to achieve the desired filament diameter with acceptable deviations and even control the extrusion rate on a printer to recover from filament irregularities.
翻訳日:2021-06-01 09:01:17 公開日:2020-12-01
# (参考訳) 破損したセンサのクロスモーダル補償を検出、拒否、修正 [全文訳有]

Detect, Reject, Correct: Crossmodal Compensation of Corrupted Sensors ( http://arxiv.org/abs/2012.00201v1 )

ライセンス: CC BY 4.0
Michelle A. Lee, Matthew Tan, Yuke Zhu, Jeannette Bohg(参考訳) 複数のモダリティからのセンサデータを使用することで、一方のモダリティが破損したりうるさい場合に有用な冗長で補完的な機能をエンコードする機会が得られる。 視覚障がいのある環境では、人間は触覚と固有感覚のフィードバックに頼り、毎日これを行う。 しかし、壊れたセンサーでさえ有効な値を返すことができるので、ロボットはいつセンサーが破損するかを常に知るとは限らない。 本研究では,劣化したセンサのモダリティを検知して補償するクロスモーダル補償モデル(ccm)を提案する。 CMMは自己超越性を用いて学習した表現モデルであり、不定形再構成損失を利用して汚損検出を行う。 ccmは破損したモダリティを破棄し、残りのセンサーからの情報を補償する。 我々は,CCMが,学習時間中に見つからない方法で入力モダリティが破損しても,コンタクトリッチな操作ポリシーに使用できるリッチな状態表現を学習していることを示す。

Using sensor data from multiple modalities presents an opportunity to encode redundant and complementary features that can be useful when one modality is corrupted or noisy. Humans do this everyday, relying on touch and proprioceptive feedback in visually-challenging environments. However, robots might not always know when their sensors are corrupted, as even broken sensors can return valid values. In this work, we introduce the Crossmodal Compensation Model (CCM), which can detect corrupted sensor modalities and compensate for them. CMM is a representation model learned with self-supervision that leverages unimodal reconstruction loss for corruption detection. CCM then discards the corrupted modality and compensates for it with information from the remaining sensors. We show that CCM learns rich state representations that can be used for contact-rich manipulation policies, even when input modalities are corrupted in ways not seen during training time.
翻訳日:2021-06-01 08:42:12 公開日:2020-12-01
# (参考訳) 数ショットの学習でディープニューラルネットワークを微調整する方法 [全文訳有]

How to fine-tune deep neural networks in few-shot learning? ( http://arxiv.org/abs/2012.00204v1 )

ライセンス: CC BY 4.0
Peng Peng and Jiugen Wang(参考訳) ディープラーニングは、データ集約型アプリケーションで広く使われている。 しかし、ディープニューラルネットワークのトレーニングには大きなデータセットが必要になることが多い。 トレーニングに十分なデータがない場合、ディープラーニングモデルのパフォーマンスは、浅いネットワークよりもさらに悪くなります。 数少ない学習は、トレーニングサンプルの少ない新しいタスクに一般化できることが証明されている。 深層モデルの微調整は単純で効果的な数ショット学習法である。 しかし、ディープラーニングモデル(ファインチューン畳み込み層かBN層か)を微調整する方法 まだ深い調査がない そこで本論文では,深層模型の微調整方法について実験的比較により検討する。 さらに, モデルの重みを解析し, 微調整法の有効性を検証した。

Deep learning has been widely used in data-intensive applications. However, training a deep neural network often requires a large data set. When there is not enough data available for training, the performance of deep learning models is even worse than that of shallow networks. It has been proved that few-shot learning can generalize to new tasks with few training samples. Fine-tuning of a deep model is simple and effective few-shot learning method. However, how to fine-tune deep learning models (fine-tune convolution layer or BN layer?) still lack deep investigation. Hence, we study how to fine-tune deep models through experimental comparison in this paper. Furthermore, the weight of the models is analyzed to verify the feasibility of the fine-tuning method.
翻訳日:2021-06-01 08:25:48 公開日:2020-12-01
# (参考訳) 高品質リアルタイム構造化議論生成 [全文訳有]

High Quality Real-Time Structured Debate Generation ( http://arxiv.org/abs/2012.00209v1 )

ライセンス: CC BY 4.0
Eric Bolton, Alex Calderwood, Niles Christensen, Jerome Kafrouni, Iddo Drori(参考訳) 議論を自動的に生成することは、議論の理解と、議論の無効化やサポートの方法を必要とする難しいタスクである。 本研究では,ハイレベルな構造と文法を適用しつつ,議論を起こすための木と経路を定義する。 各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。 文埋め込みモデルと無関係な議論を生成できるフレームワークを開発した。 この結果から,人間に近い品質の複雑なトピックをリアルタイムに議論する能力が,競争力のある人間の議論を判断するために使用されるスタイル,内容,戦略指標によって評価された。 再現可能な研究の精神では、データ、モデル、コードを公開しています。

Automatically generating debates is a challenging task that requires an understanding of arguments and how to negate or support them. In this work we define debate trees and paths for generating debates while enforcing a high level structure and grammar. We leverage a large corpus of tree-structured debates that have metadata associated with each argument. We develop a framework for generating plausible debates which is agnostic to the sentence embedding model. Our results demonstrate the ability to generate debates in real-time on complex topics at a quality that is close to humans, as evaluated by the style, content, and strategy metrics used for judging competitive human debates. In the spirit of reproducible research we make our data, models, and code publicly available.
翻訳日:2021-06-01 08:20:46 公開日:2020-12-01
# (参考訳) 深層学習による宇宙の高速かつ高精度な非線形予測 [全文訳有]

Fast and Accurate Non-Linear Predictions of Universes with Deep Learning ( http://arxiv.org/abs/2012.00240v1 )

ライセンス: CC BY 4.0
Renan Alves de Oliveira, Yin Li, Francisco Villaescusa-Navarro, Shirley Ho, David N. Spergel(参考訳) 宇宙学者は、最初は低振幅のガウス密度変動を銀河や星団の非線型な「宇宙のウェブ」へとモデル化することを目指している。 彼らは、この構造形成過程のシミュレーションと、銀河が追跡する大規模構造の観測を比較し、宇宙の95%を占める暗黒エネルギーと暗黒物質の性質を推測することを目的としている。 数十億の銀河のシミュレーションのこれらのアンサンブルは計算上必要であり、構造の非線形成長を追跡するためのより効率的なアプローチが必要である。 数値シミュレーションから高速線形予測を完全非線形予測に変換するv-netモデルを構築する。 我々のNNモデルはシミュレーションを小さなスケールにエミュレートすることを学び、現在の最先端の近似手法よりも高速かつ高精度である。 また、宇宙論的なパラメータが訓練で使われたものとは大きく異なる宇宙でテストすると、同等の精度が得られる。 これは、我々のモデルはトレーニングセットを超えて非常に一般化していることを示唆している。

Cosmologists aim to model the evolution of initially low amplitude Gaussian density fluctuations into the highly non-linear "cosmic web" of galaxies and clusters. They aim to compare simulations of this structure formation process with observations of large-scale structure traced by galaxies and infer the properties of the dark energy and dark matter that make up 95% of the universe. These ensembles of simulations of billions of galaxies are computationally demanding, so that more efficient approaches to tracing the non-linear growth of structure are needed. We build a V-Net based model that transforms fast linear predictions into fully nonlinear predictions from numerical simulations. Our NN model learns to emulate the simulations down to small scales and is both faster and more accurate than the current state-of-the-art approximate methods. It also achieves comparable accuracy when tested on universes of significantly different cosmological parameters from the one used in training. This suggests that our model generalizes well beyond our training set.
翻訳日:2021-06-01 08:14:25 公開日:2020-12-01
# (参考訳) セマンティックセグメンテーションの3Dガイド [全文訳有]

3D Guided Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2012.00242v1 )

ライセンス: CC BY 4.0
Weixuan Sun, Jing Zhang, Nick Barnes(参考訳) ピクセル単位でクリーンなアノテーションは、完全に教師付きセマンティックセグメンテーションのために必要です。 本稿では,3次元情報にスパースバウンディングボックスラベルを組み込んだ2次元セマンティクスセグメンテーションモデルを提案する。 手動で2D-3D Semantics(2D-3D-S)データセットのサブセットにバウンディングボックスをラベル付けし、2D-3D推論モジュールを導入し、正確なピクセルワイドセグメント提案マスクを生成する。 3次元情報に導かれ,まず物体の点群を生成し,各点に対する対象性確率スコアを計算する。 次に,2次元画像にオブジェクトの確率を持つ点雲を投影し,さらにセグメントの提案を改良し,擬似ラベルとして扱い,意味的セグメンテーションネットワークを訓練する。 本手法は上記のセグメント提案を徐々に洗練するために再帰的に機能する。 2d-3d-sデータセットの広範な実験結果から,学習画像のごく一部でのみバウンディングボックスラベルが使用可能な場合に,提案手法が正確なセグメント提案を生成できることが確認された。 近年の最先端手法との比較により,本手法の有効性がさらに示唆された。

Pixel-wise clean annotation is necessary for fully-supervised semantic segmentation, which is laborious and expensive to obtain. In this paper, we propose a weakly supervised 2D semantic segmentation model by incorporating sparse bounding box labels with available 3D information, which is much easier to obtain with advanced sensors. We manually labeled a subset of the 2D-3D Semantics(2D-3D-S) dataset with bounding boxes, and introduce our 2D-3D inference module to generate accurate pixel-wise segment proposal masks. Guided by 3D information, we first generate a point cloud of objects and calculate objectness probability score for each point. Then we project the point cloud with objectness probabilities back to 2D images followed by a refinement step to obtain segment proposals, which are treated as pseudo labels to train a semantic segmentation network. Our method works in a recursive manner to gradually refine the above-mentioned segment proposals. Extensive experimental results on the 2D-3D-S dataset show that the proposed method can generate accurate segment proposals when bounding box labels are available on only a small subset of training images. Performance comparison with recent state-of-the-art methods further illustrates the effectiveness of our method.
翻訳日:2021-06-01 08:03:58 公開日:2020-12-01
# (参考訳) スポーツイベントにおける映像ハイライト要約のための新しい行動認識フレームワーク [全文訳有]

A New Action Recognition Framework for Video Highlights Summarization in Sporting Events ( http://arxiv.org/abs/2012.00253v1 )

ライセンス: CC BY 4.0
Cheng Yan, Xin Li, Guoqiang Li(参考訳) これまで,ビデオにおける人間の行動認識のための機械学習は,スポーツ活動において広く実装されてきた。 過去にはいくつかの研究が成功したが、精度は依然として重要な関心事である。 本研究では,2つの古典的オープンソース構造,すなわちYOLO-v3とOpenPoseに基づく3レベル予測アルゴリズムを用いて,スポーツビデオストリームを自動的にクリップする高精度フレームワークを提案する。 その結果,少量のスポーツビデオトレーニングデータを用いることで,クリッピングのスポーツ活動のハイライトを精度良く行うことができることがわかった。 従来のシステムと比較すると,精度にいくつかの利点がある。 本研究は,スポーツ分野における映像要約の応用可能性を広げる新たなクリッピングシステムとして機能すると同時に,マッチ分析システムの開発を促進する。

To date, machine learning for human action recognition in video has been widely implemented in sports activities. Although some studies have been successful in the past, precision is still the most significant concern. In this study, we present a high-accuracy framework to automatically clip the sports video stream by using a three-level prediction algorithm based on two classical open-source structures, i.e., YOLO-v3 and OpenPose. It is found that by using a modest amount of sports video training data, our methodology can perform sports activity highlights clipping accurately. Comparing with the previous systems, our methodology shows some advantages in accuracy. This study may serve as a new clipping system to extend the potential applications of the video summarization in sports field, as well as facilitates the development of match analysis system.
翻訳日:2021-06-01 07:49:11 公開日:2020-12-01
# (参考訳) Confluence:オブジェクト検出における非最大抑圧に対するロバストな非IoU代替 [全文訳有]

Confluence: A Robust Non-IoU Alternative to Non-Maxima Suppression in Object Detection ( http://arxiv.org/abs/2012.00257v1 )

ライセンス: CC BY 4.0
Andrew Shepley, Greg Falzon, Paul Kwan(参考訳) 本稿では,物体検出におけるボックス選択と抑制のタスクにおいて,Greedy Non-Maxima Suppression (NMS) に代わる新しい方法を提案する。 最適なバウンディングボックスを選択するために個々の信頼度スコアのみに依存しないアルゴリズムであるconfluenceや、偽陽性を取り除くためにiou(intersection over union)に依存するアルゴリズムを提案する。 マンハッタン距離を用いて、クラスタ内の他の全てのバウンディングボックスに最も近いバウンディングボックスを選択し、高度に合流した隣り合うボックスを削除する。 このように、Confluenceは、Greedy NMSとその変種に対する根本的に異なる理論原理に基づいているため、境界ボックスの選択と抑制のパラダイムシフトを表している。 MS COCOとPASCAL VOC 2007データセットを使用して、RetinaNet、YOLOv3、Mask-RCNNでコンフルエンスを実験的に検証した。 Confluenceは、難易度0.50:0.95 mAP評価基準を使用して、両方のmAPでGreedy NMSを上回り、両方のデータセットでリコールする。 各検出器とデータセットでは、mAPは0.3-0.7%改善され、リコールは1.4-2.5%改善された。 グリーディ nms と合流アルゴリズムの理論的比較を行い, 定量的な結果を広範囲な定性的結果解析により支援する。 さらに、mAP閾値に対する感度解析実験は、ConfluenceがNMSよりも堅牢であるという結論を支持している。

This paper presents a novel alternative to Greedy Non-Maxima Suppression (NMS) in the task of bounding box selection and suppression in object detection. It proposes Confluence, an algorithm which does not rely solely on individual confidence scores to select optimal bounding boxes, nor does it rely on Intersection Over Union (IoU) to remove false positives. Using Manhattan Distance, it selects the bounding box which is closest to every other bounding box within the cluster and removes highly confluent neighboring boxes. Thus, Confluence represents a paradigm shift in bounding box selection and suppression as it is based on fundamentally different theoretical principles to Greedy NMS and its variants. Confluence is experimentally validated on RetinaNet, YOLOv3 and Mask-RCNN, using both the MS COCO and PASCAL VOC 2007 datasets. Confluence outperforms Greedy NMS in both mAP and recall on both datasets, using the challenging 0.50:0.95 mAP evaluation metric. On each detector and dataset, mAP was improved by 0.3-0.7% while recall was improved by 1.4-2.5%. A theoretical comparison of Greedy NMS and the Confluence Algorithm is provided, and quantitative results are supported by extensive qualitative results analysis. Furthermore, sensitivity analysis experiments across mAP thresholds support the conclusion that Confluence is more robust than NMS.
翻訳日:2021-06-01 07:41:36 公開日:2020-12-01
# (参考訳) フェデレーションラーニングに関する体系的文献レビュー:モデル品質の観点から [全文訳有]

A Systematic Literature Review on Federated Learning: From A Model Quality Perspective ( http://arxiv.org/abs/2012.01973v1 )

ライセンス: CC0 1.0
Yi Liu, Li Zhang, Ning Ge, Guanghao Li(参考訳) 新たな技術として、フェデレートラーニング(FL)は、グローバルモデルをローカルに残したデータと共同でトレーニングすることで、暗号化メカニズムを通じてデータプライバシ保護の問題を効果的に解決することができる。 クライアントはローカルモデルをトレーニングし、サーバは収束するまでモデルを集約する。 このプロセスでは、サーバはインセンティブメカニズムを使用して、クライアントに高品質で大量のデータを提供し、グローバルモデルを改善するように促します。 FLをIoT(Internet of Things, モノのインターネット)や医療, 製造などに適用する研究もあるが, FLの適用はまだ初期段階であり, 関連する課題も数多く解決する必要がある。 FLモデルの品質向上は、現在の研究ホットスポットの1つであり、課題である。 本稿では,FLモデルの品質向上へのアプローチを体系的に検討し,客観的に分析する。 また,プライバシ保護の実現は学習品質を損なう必要があるという懸念から,fl と non-fl の比較研究や応用動向にも関心がある。 flに関する最新論文147件を系統的レビュー手法を用いて分析した。 このレビューは、業界の学界と実践者の両方に有用な情報と洞察を提供する。 FLモデルの品質に影響を及ぼす重要な要因であるFLの学術研究と産業応用動向について研究を行い、FLと非FLのアルゴリズムを学習品質の観点から比較した。 レビューの結論に基づき、FLモデルの品質を改善するためのいくつかの提案を行う。 最後に,実践者のためのFLアプリケーションフレームワークを提案する。

As an emerging technique, Federated Learning (FL) can jointly train a global model with the data remaining locally, which effectively solves the problem of data privacy protection through the encryption mechanism. The clients train their local model, and the server aggregates models until convergence. In this process, the server uses an incentive mechanism to encourage clients to contribute high-quality and large-volume data to improve the global model. Although some works have applied FL to the Internet of Things (IoT), medicine, manufacturing, etc., the application of FL is still in its infancy, and many related issues need to be solved. Improving the quality of FL models is one of the current research hotspots and challenging tasks. This paper systematically reviews and objectively analyzes the approaches to improving the quality of FL models. We are also interested in the research and application trends of FL and the effect comparison between FL and non-FL because the practitioners usually worry that achieving privacy protection needs compromising learning quality. We use a systematic review method to analyze 147 latest articles related to FL. This review provides useful information and insights to both academia and practitioners from the industry. We investigate research questions about academic research and industrial application trends of FL, essential factors affecting the quality of FL models, and compare FL and non-FL algorithms in terms of learning quality. Based on our review's conclusion, we give some suggestions for improving the FL model quality. Finally, we propose an FL application framework for practitioners.
翻訳日:2021-06-01 07:14:04 公開日:2020-12-01
# (参考訳) HVAC制御のためのMILPに基づく模倣学習 [全文訳有]

MILP-based Imitation Learning for HVAC control ( http://arxiv.org/abs/2012.00286v1 )

ライセンス: CC BY 4.0
Huy Truong Dinh and Daehee Kim(参考訳) 人工ニューラルネットワークのような高度な技術でHVACシステムの動作を最適化するには、従来の研究では予測情報が必要である。 しかし、予測情報は必然的に常にエラーを含むため、hvac動作の性能が低下する。 そこで本研究では, エネルギーコストを低減し, 熱快適性を維持するために, 予測情報を用いずに空調システムを制御するミルプ型模倣学習手法を提案する。 提案するコントローラは,MILPソルバによってラベル付けされたデータに履歴データを用いてトレーニングしたディープニューラルネットワーク(DNN)である。 トレーニング後、コントローラはリアルタイムデータでhvacシステムを制御するために使用されます。 また,予測情報を用いてHVACシステムを制御する第2の予測ベースMILPを開発した。 この2つの手法の性能は、ミシガン州デトロイト市における実際の屋外温度と実日頭価格を用いて検証される。 シミュレーションの結果,MILPを用いた模倣学習の性能は,時間当たりの消費電力,日当たりのエネルギーコスト,熱的快適性などの観点から予測に基づくMILP法よりも優れていることがわかった。 さらに,MILPを用いた模倣学習手法の結果と最適な結果との差はほとんど無視できる。 これらの最適な結果は、一日の天気や価格に関する完全な情報が得られる日の終わりにmilpソルバを使用することによってのみ達成されます。

To optimize the operation of a HVAC system with advanced techniques such as artificial neural network, previous studies usually need forecast information in their method. However, the forecast information inevitably contains errors all the time, which degrade the performance of the HVAC operation. Hence, in this study, we propose MILP-based imitation learning method to control a HVAC system without using the forecast information in order to reduce energy cost and maintain thermal comfort at a given level. Our proposed controller is a deep neural network (DNN) trained by using data labeled by a MILP solver with historical data. After training, our controller is used to control the HVAC system with real-time data. For comparison, we also develop a second method named forecast-based MILP which control the HVAC system using the forecast information. The performance of the two methods is verified by using real outdoor temperatures and real day-ahead prices in Detroit city, Michigan, United States. Numerical results clearly show that the performance of the MILP-based imitation learning is better than that of the forecast-based MILP method in terms of hourly power consumption, daily energy cost, and thermal comfort. Moreover, the difference between results of the MILP-based imitation learning method and optimal results is almost negligible. These optimal results are achieved only by using the MILP solver at the end of a day when we have full information on the weather and prices for the day.
翻訳日:2021-06-01 06:32:00 公開日:2020-12-01
# (参考訳) BAN-ABSA:ベンガル語に対するアスペクトベース感性分析データセットとそのベースライン評価 [全文訳有]

BAN-ABSA: An Aspect-Based Sentiment Analysis dataset for Bengali and it's baseline evaluation ( http://arxiv.org/abs/2012.00288v1 )

ライセンス: CC BY 4.0
Mahfuz Ahmed Masum, Sheikh Junayed Ahmed, Ayesha Tasnim, Md Saiful Islam(参考訳) ソーシャルメディアや新聞のユーザーコメントの増加により、オンライン製品レビューのコメント、感情分析(SA)が研究者からかなりの関心を集めている。 ドメインの急速な増加により、SA作業は、文や文書の感情を予測するだけでなく、文や文書の様々な側面(すなわち、文書)について必要な詳細を提供することを目的としている。 アスペクトベースの感情分析)。 SAとアスペクトベースの感情分析(ABSA)のためのかなりの数のデータセットが、英語や他の有名なヨーロッパの言語で利用可能になっている。 本稿では,高品質なベンガル語データセットであるBAN-ABSAについて述べる。 データセットは、ベンガルの有名なニュースポータルから収集された9,009のユニークなコメントから、2,619のポジティブ、4,721のネガティブ、1,669の中立データサンプルで構成されている。 さらに、ディープラーニングモデルに着目したベースライン評価を行い、アスペクト項抽出の精度78.75%、感情分類の精度71.08%を実現した。 BAN-ABSAデータセットの実験では、平均F1スコアでCNNモデルよりも精度が良いが、Bi-LSTMはCNNモデルよりも優れていた。

Due to the breathtaking growth of social media or newspaper user comments, online product reviews comments, sentiment analysis (SA) has captured substantial interest from the researchers. With the fast increase of domain, SA work aims not only to predict the sentiment of a sentence or document but also to give the necessary detail on different aspects of the sentence or document (i.e. aspect-based sentiment analysis). A considerable number of datasets for SA and aspect-based sentiment analysis (ABSA) have been made available for English and other well-known European languages. In this paper, we present a manually annotated Bengali dataset of high quality, BAN-ABSA, which is annotated with aspect and its associated sentiment by 3 native Bengali speakers. The dataset consists of 2,619 positive, 4,721 negative and 1,669 neutral data samples from 9,009 unique comments gathered from some famous Bengali news portals. In addition, we conducted a baseline evaluation with a focus on deep learning model, achieved an accuracy of 78.75% for aspect term extraction and accuracy of 71.08% for sentiment classification. Experiments on the BAN-ABSA dataset show that the CNN model is better in terms of accuracy though Bi-LSTM significantly outperforms CNN model in terms of average F1-score.
翻訳日:2021-06-01 06:17:14 公開日:2020-12-01
# (参考訳) 確率過程を近似する新しいアルゴリズムと高速な実装 [全文訳有]

New Algorithms And Fast Implementations To Approximate Stochastic Processes ( http://arxiv.org/abs/2012.01185v1 )

ライセンス: CC BY 4.0
Kipngeno Benard Kirui, Georg Ch. Pflug, Alois Pichler(参考訳) 確率過程をモデル化するための効率的な近似を求めるアルゴリズムと高速な実装を提案する。 多くの数値計算では、確率過程の有限近似を開発することが不可欠である。 While the goal is always to find a finite model, which represents a given knowledge about the real data process as accurate as possible, the ways of estimating the discrete approximating model may be quite different: (i) if the stochastic model is known as a solution of a stochastic differential equation, e.g., one may generate the scenario tree directly from the specified model; (ii) if a simulation algorithm is available, which allows simulating trajectories from all conditional distributions, a scenario tree can be generated by stochastic approximation; (iii) if only some observed trajectories of the scenario process are available, the construction of the approximating process can be based on non-parametric conditional density estimates.

We present new algorithms and fast implementations to find efficient approximations for modelling stochastic processes. For many numerical computations it is essential to develop finite approximations for stochastic processes. While the goal is always to find a finite model, which represents a given knowledge about the real data process as accurate as possible, the ways of estimating the discrete approximating model may be quite different: (i) if the stochastic model is known as a solution of a stochastic differential equation, e.g., one may generate the scenario tree directly from the specified model; (ii) if a simulation algorithm is available, which allows simulating trajectories from all conditional distributions, a scenario tree can be generated by stochastic approximation; (iii) if only some observed trajectories of the scenario process are available, the construction of the approximating process can be based on non-parametric conditional density estimates.
翻訳日:2021-06-01 06:10:41 公開日:2020-12-01
# (参考訳) インターバルデータとクラウドモデルを用いた不確かさ下での複数基準群決定- [全文訳有]

Multicriteria Group Decision-Making Under Uncertainty Using Interval Data and Cloud Models ( http://arxiv.org/abs/2012.01569v1 )

ライセンス: CC BY 4.0
Hadi A. Khorshidi and Uwe Aickelin(参考訳) 本研究では,データを間隔として収集する不確実性下でのマルチクリテリア群意思決定(mcgdm)アルゴリズムを提案する。 提案したMCGDMアルゴリズムは、データを集約し、基準の最適な重みを決定し、さらに入力なしで代替品をランク付けする。 インターバルは、基準に対する代替案を評価する専門家に柔軟性を与え、最大情報を得る機会を提供する。 また,クラウドモデルを用いて専門家判断を集約する新しい手法を提案する。 本稿では,アグリゲーション手法の有効性を確認する実験手法を提案する。 その後,MCGDM問題に対してアグリゲーション法を用いる。 ここでは,二値最適化モデルを提案することにより,各基準に対する最適重みを求める。 次に、クラウドモデルに基づくデータに対する理想解(TOPSIS)と類似性による選好順序の決定手法を拡張し、代替案を優先する。 その結果、アルゴリズムは不確実性のレベルが異なる意思決定者から情報を取得し、意思決定者からの情報のない代替案を調べることができる。 提案アルゴリズムは,サイバーセキュリティ問題のケーススタディに実装され,その実現可能性と有効性を示す。 その結果, 感度解析と既存アルゴリズムとの比較により, MCGDMのロバスト性と妥当性を検証した。

In this study, we propose a multicriteria group decision making (MCGDM) algorithm under uncertainty where data is collected as intervals. The proposed MCGDM algorithm aggregates the data, determines the optimal weights for criteria and ranks alternatives with no further input. The intervals give flexibility to experts in assessing alternatives against criteria and provide an opportunity to gain maximum information. We also propose a novel method to aggregate expert judgements using cloud models. We introduce an experimental approach to check the validity of the aggregation method. After that, we use the aggregation method for an MCGDM problem. Here, we find the optimal weights for each criterion by proposing a bilevel optimisation model. Then, we extend the technique for order of preference by similarity to ideal solution (TOPSIS) for data based on cloud models to prioritise alternatives. As a result, the algorithm can gain information from decision makers with different levels of uncertainty and examine alternatives with no more information from decision-makers. The proposed MCGDM algorithm is implemented on a case study of a cybersecurity problem to illustrate its feasibility and effectiveness. The results verify the robustness and validity of the proposed MCGDM using sensitivity analysis and comparison with other existing algorithms.
翻訳日:2021-06-01 05:50:02 公開日:2020-12-01
# (参考訳) 癌および出生率データにおける無月経状態予測のための移行学習 [全文訳有]

Transfer learning to enhance amenorrhea status prediction in cancer and fertility data with missing values ( http://arxiv.org/abs/2012.01974v1 )

ライセンス: CC BY 4.0
Xuetong Wu, Hadi Akbarzadeh Khorshidi, Uwe Aickelin, Zobaida Edib, Michelle Peate(参考訳) 健康・医療問題に対する十分なラベル付きトレーニングデータ収集は困難である(Antropova, et al., 2018)。 また、健康や医療のデータセットでは値の欠如は避けられず、不適切なインスタンスから生じる問題に取り組むことは簡単ではない(snell, et al)。 2017年、sterne, et al。 2009). しかし、機械学習アルゴリズムは、回帰や分類など、現実世界の多くの医療問題で大きな成功を収めており、これらのテクニックは、この問題を解決する方法になり得る。

Collecting sufficient labelled training data for health and medical problems is difficult (Antropova, et al., 2018). Also, missing values are unavoidable in health and medical datasets and tackling the problem arising from the inadequate instances and missingness is not straightforward (Snell, et al. 2017, Sterne, et al. 2009). However, machine learning algorithms have achieved significant success in many real-world healthcare problems, such as regression and classification and these techniques could possibly be a way to resolve the issues.
翻訳日:2021-06-01 05:34:04 公開日:2020-12-01
# (参考訳) 患者類似性:方法と応用 [全文訳有]

Patient similarity: methods and applications ( http://arxiv.org/abs/2012.01976v1 )

ライセンス: CC BY 4.0
Leyu Dai, He Zhu, Dianbo Liu(参考訳) 患者類似性分析は医療応用において重要である。 電子カルテや遺伝データなどの患者情報を入力として取り、患者間のペアの類似性を計算する。 典型的な患者類似性研究の手順は、データ統合、類似度測定、近隣同定など、いくつかの段階に分けられる。 患者の類似性の分析によれば、医師は最も適切な治療法を簡単に見つけることができる。 クラスター分析のような類似性を分析する方法は数多く存在する。 機械学習が普及するにつれて、cnnのようなニューラルネットワークの利用がホットな話題になっている。 本稿では各ステップで使用される代表的手法を概説し,特に精密医療における患者類似性ネットワークの適用について論じる。

Patient similarity analysis is important in health care applications. It takes patient information such as their electronic medical records and genetic data as input and computes the pairwise similarity between patients. Procedures of typical a patient similarity study can be divided into several steps including data integration, similarity measurement, and neighborhood identification. And according to an analysis of patient similarity, doctors can easily find the most suitable treatments. There are many methods to analyze the similarity such as cluster analysis. And during machine learning become more and more popular, Using neural networks such as CNN is a new hot topic. This review summarizes representative methods used in each step and discusses applications of patient similarity networks especially in the context of precision medicine.
翻訳日:2021-06-01 05:14:37 公開日:2020-12-01
# (参考訳) 機能アライメントによる教師なし部分発見 [全文訳有]

Unsupervised Part Discovery via Feature Alignment ( http://arxiv.org/abs/2012.00313v1 )

ライセンス: CC BY 4.0
Mengqi Guo, Yutong Bai, Zhishuai Zhang, Adam Kortylewski, Alan Yuille(参考訳) オブジェクトを個々の部分で理解することは、オブジェクトの幾何学的構造を正確に理解し、新しいポーズや部分的閉塞下でオブジェクトが見られたときにオブジェクト認識を強化するために重要である。 しかし、大規模なデータセットのパーツのマニュアルアノテーションは時間がかかり高価である。 本稿では,非教師的手法,すなわち,基幹部分やキーポイントアノテーションを使わずに,対象部分の発見を目指す。 我々のアプローチは、同じポーズで同じクラスのオブジェクトが同じ空間の場所に配置されるべきという直観に基づいている。 ニューラルネットワークの特徴はニュアンス変数にほとんど不変であり、同じオブジェクトカテゴリの画像間の変化の主な原因はオブジェクトのポーズである。 具体的には、訓練画像が与えられた場合、同じポーズで同じ対象カテゴリのインスタンスを示す類似画像セットを、対応する特徴マップのアフィンアラインメントを通じて見つける。 調整された機能マップの平均は、ディープネットワークバックボーンの教師付きトレーニングのための擬似基底アノテーションとして機能する。 推論の間、部品検出は単純で高速であり、フィードフォワードニューラルネットワーク以外のモジュールやオーバーヘッドは不要である。 提案手法の有効性を検証するため,複数の異なる領域のデータセットを用いた実験を行った。 例えば、自動車部品の37.8 mAPは、以前の方法よりも少なくとも4.2良い。

Understanding objects in terms of their individual parts is important, because it enables a precise understanding of the objects' geometrical structure, and enhances object recognition when the object is seen in a novel pose or under partial occlusion. However, the manual annotation of parts in large scale datasets is time consuming and expensive. In this paper, we aim at discovering object parts in an unsupervised manner, i.e., without ground-truth part or keypoint annotations. Our approach builds on the intuition that objects of the same class in a similar pose should have their parts aligned at similar spatial locations. We exploit the property that neural network features are largely invariant to nuisance variables and the main remaining source of variations between images of the same object category is the object pose. Specifically, given a training image, we find a set of similar images that show instances of the same object category in the same pose, through an affine alignment of their corresponding feature maps. The average of the aligned feature maps serves as pseudo ground-truth annotation for a supervised training of the deep network backbone. During inference, part detection is simple and fast, without any extra modules or overheads other than a feed-forward neural network. Our experiments on several datasets from different domains verify the effectiveness of the proposed method. For example, we achieve 37.8 mAP on VehiclePart, which is at least 4.2 better than previous methods.
翻訳日:2021-06-01 05:02:19 公開日:2020-12-01
# (参考訳) オンラインハッシュのための高速なクラスワイド更新 [全文訳有]

Fast Class-wise Updating for Online Hashing ( http://arxiv.org/abs/2012.00318v1 )

ライセンス: CC BY 4.0
Mingbao Lin, Rongrong Ji, Xiaoshuai Sun, Baochang Zhang, Feiyue Huang, Yonghong Tian, Dacheng Tao(参考訳) オンライン画像ハッシュは近年,大規模データをストリーミング形式で処理し,ハッシュ機能をオンザフライで更新する研究の注目を集めている。 この目的のために、既存のほとんどの研究は、教師付き設定の下でこの問題を利用する。すなわち、クラスラベルを使用してハッシュ性能を向上し、適応性と効率の両面での欠陥に悩まされる: まず、最新のハッシュ関数を学ぶために大量のトレーニングバッチが必要である。 第二に、トレーニングは時間がかかり、オンライン学習のコアニーズと矛盾する。 本稿では,オンラインハッシュのための高速クラスワイド更新(FCOH, Fast Class-wise Updating for Online Hashing)と呼ばれる新しいオンラインハッシュ方式を提案する。 高速なオンライン適応性を実現するために、バイナリコードの学習を分解し、クラス毎の方法でハッシュ関数を再更新するクラス毎更新法が開発され、大量のトレーニングバッチの負担に十分対処している。 定量的には、このような分解は少なくとも75%のストレージの節約につながる。 オンライン効率をさらに高めるために,異なるバイナリ制約を独立に扱うことでオンライントレーニングを高速化する準相対化最適化を提案する。 追加の制約や変数がなければ、時間の複雑さは大幅に減少する。 このようなスキームは、ハッシュ関数の更新中に過去の情報を適切に保存するように定量的に示される。 我々は,クラスワイズ更新とセミレラクゼーション最適化の総合的な取り組みが,多種多様な最先端手法と比較して優れた性能をもたらすことを定量的に証明した。

Online image hashing has received increasing research attention recently, which processes large-scale data in a streaming fashion to update the hash functions on-the-fly. To this end, most existing works exploit this problem under a supervised setting, i.e., using class labels to boost the hashing performance, which suffers from the defects in both adaptivity and efficiency: First, large amounts of training batches are required to learn up-to-date hash functions, which leads to poor online adaptivity. Second, the training is time-consuming, which contradicts with the core need of online learning. In this paper, a novel supervised online hashing scheme, termed Fast Class-wise Updating for Online Hashing (FCOH), is proposed to address the above two challenges by introducing a novel and efficient inner product operation. To achieve fast online adaptivity, a class-wise updating method is developed to decompose the binary code learning and alternatively renew the hash functions in a class-wise fashion, which well addresses the burden on large amounts of training batches. Quantitatively, such a decomposition further leads to at least 75% storage saving. To further achieve online efficiency, we propose a semi-relaxation optimization, which accelerates the online training by treating different binary constraints independently. Without additional constraints and variables, the time complexity is significantly reduced. Such a scheme is also quantitatively shown to well preserve past information during updating hashing functions. We have quantitatively demonstrated that the collective effort of class-wise updating and semi-relaxation optimization provides a superior performance comparing to various state-of-the-art methods, which is verified through extensive experiments on three widely-used datasets.
翻訳日:2021-06-01 04:46:51 公開日:2020-12-01
# (参考訳) 深部生成モデルを用いた低帯域ビデオチャット圧縮 [全文訳有]

Low Bandwidth Video-Chat Compression using Deep Generative Models ( http://arxiv.org/abs/2012.00328v1 )

ライセンス: CC BY 4.0
Maxime Oquab, Pierre Stock, Oran Gafni, Daniel Haziza, Tao Xu, Peizhao Zhang, Onur Celebi, Yana Hasson, Patrick Labatut, Bobo Bose-Kolanu, Thibault Peyronel, Camille Couprie(参考訳) 接続性や不便なデータコストに悩まされる数億の人々のビデオチャットをアンロックするために,送信側で抽出された顔のランドマークを用いて受信者の端末の顔の聴覚的に再構成し,ネットワークを介して送信することを提案する。 この文脈では、いくつかの深い敵対的アプローチの利点とデメリットを議論し、評価する。 特に,静的ランドマークや動的ランドマーク,セグメンテーションマップに基づくアプローチの品質と帯域幅のトレードオフについて検討する。 我々はSiarohinらの一階アニメーションモデルに基づくモバイル互換アーキテクチャを設計する。 また,SPADEブロックを利用して目や唇などの重要な領域で結果を洗練する。 ネットワークを約3MBまで圧縮し、iPhone 8(CPU)上でモデルをリアルタイムで実行できるようにします。 このアプローチでは、数kbit/秒でビデオ通話が可能で、現在利用可能な代替手段よりも桁違いに低い。

To unlock video chat for hundreds of millions of people hindered by poor connectivity or unaffordable data costs, we propose to authentically reconstruct faces on the receiver's device using facial landmarks extracted at the sender's side and transmitted over the network. In this context, we discuss and evaluate the benefits and disadvantages of several deep adversarial approaches. In particular, we explore quality and bandwidth trade-offs for approaches based on static landmarks, dynamic landmarks or segmentation maps. We design a mobile-compatible architecture based on the first order animation model of Siarohin et al. In addition, we leverage SPADE blocks to refine results in important areas such as the eyes and lips. We compress the networks down to about 3MB, allowing models to run in real time on iPhone 8 (CPU). This approach enables video calling at a few kbits per second, an order of magnitude lower than currently available alternatives.
翻訳日:2021-06-01 04:16:11 公開日:2020-12-01
# (参考訳) 植物病理分類のための高効率ネットアーキテクチャに関する半教師付きノイズ学生事前学習 [全文訳有]

Semi-Supervised Noisy Student Pre-training on EfficientNet Architectures for Plant Pathology Classification ( http://arxiv.org/abs/2012.00332v1 )

ライセンス: CC BY 4.0
Sedrick Scott Keh(参考訳) 近年、深層学習は植物の様々な疾患の同定と診断を大幅に改善している。 本報告では,単一葉の画像を用いた病理分類の問題点について検討する。 本稿では、VGG16、ResNet101、DenseNet 161などの標準ベンチマークモデルを用いて、タスクの0.945のスコアを得る。 さらに,新しいefficiantnetモデルの利用について検討し,0.962に精度を改善した。 最後に,半教師付きノイズ学生教育の最先端概念をEfficientNetに導入し,精度と収束率の両面で大きな改善をもたらした。 最終的な無音な学生モデルは非常にうまく動作し、0.982のテストスコアに達した。

In recent years, deep learning has vastly improved the identification and diagnosis of various diseases in plants. In this report, we investigate the problem of pathology classification using images of a single leaf. We explore the use of standard benchmark models such as VGG16, ResNet101, and DenseNet 161 to achieve a 0.945 score on the task. Furthermore, we explore the use of the newer EfficientNet model, improving the accuracy to 0.962. Finally, we introduce the state-of-the-art idea of semi-supervised Noisy Student training to the EfficientNet, resulting in significant improvements in both accuracy and convergence rate. The final ensembled Noisy Student model performs very well on the task, achieving a test score of 0.982.
翻訳日:2021-06-01 04:02:42 公開日:2020-12-01
# (参考訳) ステレオカメラによる自律走行用ロバスト・高精度物体速度検出 [全文訳有]

Robust and Accurate Object Velocity Detection by Stereo Camera for Autonomous Driving ( http://arxiv.org/abs/2012.00353v1 )

ライセンス: CC BY 4.0
Toru Saito, Toshimi Okubo, Naoki Takahashi(参考訳) 近年,車両に搭載されたカメラ搭載センサの数は劇的に増加したが,ロバストで高精度な物体速度検出は困難である。 また、レーダーを核融合システムとして用いることも一般的である。 我々は,自動車メーカーSUBARUが20年以上にわたって収集した大規模データセットに基づいて,カメラを用いて物体の速度を正確に検出する手法を開発した。 提案手法は,複数の立体差像を融合する高ダイナミックレンジ(HDR)検出法と,単分子および立体認識の結果を組み合わせた融合法と,新しい速度計算法とからなる。 試作したステレオカメラを実車に装着することにより,重症環境を定量的に再現できる測定装置と試験コースを用いて評価を行った。

Although the number of camera-based sensors mounted on vehicles has recently increased dramatically, robust and accurate object velocity detection is difficult. Additionally, it is still common to use radar as a fusion system. We have developed a method to accurately detect the velocity of object using a camera, based on a large-scale dataset collected over 20 years by the automotive manufacturer, SUBARU. The proposed method consists of three methods: an High Dynamic Range (HDR) detection method that fuses multiple stereo disparity images, a fusion method that combines the results of monocular and stereo recognitions, and a new velocity calculation method. The evaluation was carried out using measurement devices and a test course that can quantitatively reproduce severe environment by mounting the developed stereo camera on an actual vehicle.
翻訳日:2021-05-31 13:20:07 公開日:2020-12-01
# (参考訳) 勾配法における正の凝集と勾配伝播の再考 [全文訳有]

Rethinking Positive Aggregation and Propagation of Gradients in Gradient-based Saliency Methods ( http://arxiv.org/abs/2012.00362v1 )

ライセンス: CC BY 4.0
Ashkan Khakzar, Soroosh Baselizadeh, Nassir Navab(参考訳) Saliencyメソッドは、ニューラルネットワークの予測を、その予測に入力要素の重要性を示すことによって解釈する。 公衆衛生手法の一般的なファミリーは、勾配情報を利用する。 本研究では, 勾配情報を扱う2つの手法, 正の凝集, 正の伝播, がこれらの手法を破ることを示す。 これらの方法は入力中の視覚的なサルエント情報を反映するが、生成されたサルエンシーマップは予測された出力に影響を受けず、モデルパラメータのランダム化に敏感であるため、モデル予測をもはや説明しない。 具体的には、GradCAM++やFullGradのような選択された層の勾配を集約するメソッドでは、正の勾配を排他的に集約することは有害である。 さらに,グラデーション情報の正のハンドリングを伴うアグリゲーション手法の変種を複数提案することで,これをさらに支持する。 LRP, RectGrad, Guided Backpropagationなどの勾配情報をバックプロパゲートする手法では, 正勾配情報のみを伝播させることによる破壊効果を示す。

Saliency methods interpret the prediction of a neural network by showing the importance of input elements for that prediction. A popular family of saliency methods utilize gradient information. In this work, we empirically show that two approaches for handling the gradient information, namely positive aggregation, and positive propagation, break these methods. Though these methods reflect visually salient information in the input, they do not explain the model prediction anymore as the generated saliency maps are insensitive to the predicted output and are insensitive to model parameter randomization. Specifically for methods that aggregate the gradients of a chosen layer such as GradCAM++ and FullGrad, exclusively aggregating positive gradients is detrimental. We further support this by proposing several variants of aggregation methods with positive handling of gradient information. For methods that backpropagate gradient information such as LRP, RectGrad, and Guided Backpropagation, we show the destructive effect of exclusively propagating positive gradient information.
翻訳日:2021-05-31 13:10:10 公開日:2020-12-01
# (参考訳) コモンセンス生成のための拡張知識注入モデル [全文訳有]

An Enhanced Knowledge Injection Model for Commonsense Generation ( http://arxiv.org/abs/2012.00366v1 )

ライセンス: CC BY 4.0
Zhihao Fan, Yeyun Gong, Zhongyu Wei, Siyuan Wang, Yameng Huang, Jian Jiao, Xuanjing Huang, Nan Duan, Ruofei Zhang(参考訳) Commonsenseジェネレーションは、提供された概念のセットに基づいて、妥当な日常シナリオ記述を生成することを目的としている。 概念の関係をスクラッチから掘り下げることは自明ではないため、外部の知識からプロトタイプを取り出してシナリオの理解を支援し、より良い記述を生成する。 我々は,知識注入手順を強化するために,プリトレーニングエンコーダ・デコーダモデルに位置指示モジュールとスケーリングモジュールという2つの追加モジュールを統合する。 我々はcommongenベンチマークを用いて実験を行い,実験結果から全メトリクスの性能が大幅に向上することを確認した。

Commonsense generation aims at generating plausible everyday scenario description based on a set of provided concepts. Digging the relationship of concepts from scratch is non-trivial, therefore, we retrieve prototypes from external knowledge to assist the understanding of the scenario for better description generation. We integrate two additional modules, namely position indicator and scaling module, into the pretrained encoder-decoder model for prototype modeling to enhance the knowledge injection procedure. We conduct experiment on CommonGen benchmark, and experimental results show that our method significantly improves the performance on all the metrics.
翻訳日:2021-05-31 12:59:39 公開日:2020-12-01
# (参考訳) 明示的意味分析におけるウィキペディア記事間の相互関連性の導入 [全文訳有]

Introducing Inter-Relatedness between Wikipedia Articles in Explicit Semantic Analysis ( http://arxiv.org/abs/2012.00398v1 )

ライセンス: CC BY 4.0
Naveen Elango, Pawan Prasad K(参考訳) 明示的意味分析(Explicit Semantic Analysis, ESA)は、ウィキペディアにある記事のような概念空間のベクトルとしてテキストを表現するための技法である。 本研究では,ESAから得られるベクトルに,Wikipedia記事間の相互関連性に関する知識を組み込む手法を提案する。 特に、ノードを記事として、エッジを2つの記事間の相互関係として表現するために、無向グラフを使用します。 また, コーパスを用いたベクトル表現と, 記事間の関連性であるトップダウン知識の具体化により, コーパスを用いたボトムアップ手法としてESAのステップが重要であることも強調した。 我々は,ウィキペディアコーパスのいくつかの小部分集合で仮説を検証し,提案手法がスピアマンのランク相関係数などの性能改善につながることを示す。

Explicit Semantic Analysis (ESA) is a technique used to represent a piece of text as a vector in the space of concepts, such as Articles found in Wikipedia. We propose a methodology to incorporate knowledge of Inter-relatedness between Wikipedia Articles to the vectors obtained from ESA using a technique called Retrofitting to improve the performance of subsequent tasks that use ESA to form vector embeddings. Especially we use an undirected Graph to represent this knowledge with nodes as Articles and edges as inter relations between two Articles. Here, we also emphasize how the ESA step could be seen as a predominantly bottom-up approach using a corpus to come up with vector representations and the incorporation of top-down knowledge which is the relations between Articles to further improve it. We test our hypothesis on several smaller subsets of the Wikipedia corpus and show that our proposed methodology leads to decent improvements in performance measures including Spearman's Rank correlation coefficient in most cases.
翻訳日:2021-05-31 10:31:32 公開日:2020-12-01
# (参考訳) replicadpapers.org: 機械学習再現性をオープンに教える [全文訳有]

ReproducedPapers.org : Openly teaching and structuring machine learning reproducibility ( http://arxiv.org/abs/2012.01172v1 )

ライセンス: CC BY 4.0
Burak Yildiz, Hayley Hung, Jesse H. Krijthe, Cynthia C. S. Liem, Marco Loog, Gosia Migut, Frans Oliehoek, Annibale Panichella, Przemyslaw Pawelczak, Stjepan Picek, Mathijs de Weerdt, and Jan van Gemert(参考訳) ReproducedPapers.org : 機械学習再現性教育と構造化のためのオープンオンラインリポジトリ。 我々は,学生間で複製プロジェクトを行うことと,AI研究者間でオンライン複製リポジトリの付加価値を評価する。 匿名の自己評価調査を行い,144回答を得た。 その結果, 再生プロジェクトを行う学生は, 科学的再生を重視し, より批判的思考者となることが示唆された。 学生とAI研究者は、オンラインレクリエーションレポジトリが価値があることに同意します。

We present ReproducedPapers.org : an open online repository for teaching and structuring machine learning reproducibility. We evaluate doing a reproduction project among students and the added value of an online reproduction repository among AI researchers. We use anonymous self-assessment surveys and obtained 144 responses. Results suggest that students who do a reproduction project place more value on scientific reproductions and become more critical thinkers. Students and AI researchers agree that our online reproduction repository is valuable.
翻訳日:2021-05-31 10:08:16 公開日:2020-12-01
# (参考訳) 期待最大化アルゴリズムを用いた弱修正任意字型テキスト検出 [全文訳有]

Weakly-Supervised Arbitrary-Shaped Text Detection with Expectation-Maximiza tion Algorithm ( http://arxiv.org/abs/2012.00424v1 )

ライセンス: CC BY 4.0
Mengbiao Zhao, Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) 任意字型テキスト検出はコンピュータビジョンにおいて重要かつ困難な課題である。 既存の手法の多くは、教師付きトレーニングのためにポリゴンレベルテキスト領域ラベルを作成するために、重いデータラベリングを必要とする。 データラベリングのコストを削減するため、様々な弱い監督形式(画像レベルタグ、粗い、ゆるい、狭いバウンディングボックスなど)を組み合わせるために、弱い教師付き任意のテキスト検出について検討した。 本稿では,少量のポリゴンレベルアノテートデータと大量の弱アノテートデータとを組み合わせることで,正確な任意形状のテキスト検出器を訓練するための,期待最大化(em)ベースの弱教師付き学習フレームワークを提案する。 一方,弱教師付き学習を組み込むのに適した輪郭型任意形テキスト検出器を提案する。 任意の3つのテキストベンチマーク (CTW1500, Total-Text, ICDAR-ArT) において,(1) 10%の強い注釈付きデータと90%の弱い注釈付きデータを用いて, 提案手法は, 100%強い注釈付きデータと同等の性能を示す。 弱いアノテートされたデータセットを将来的に公開する予定です。

Arbitrary-shaped text detection is an important and challenging task in computer vision. Most existing methods require heavy data labeling efforts to produce polygon-level text region labels for supervised training. In order to reduce the cost in data labeling, we study weakly-supervised arbitrary-shaped text detection for combining various weak supervision forms (e.g., image-level tags, coarse, loose and tight bounding boxes), which are far easier for annotation. We propose an Expectation-Maximiza tion (EM) based weakly-supervised learning framework to train an accurate arbitrary-shaped text detector using only a small amount of polygon-level annotated data combined with a large amount of weakly annotated data. Meanwhile, we propose a contour-based arbitrary-shaped text detector, which is suitable for incorporating weakly-supervised learning. Extensive experiments on three arbitrary-shaped text benchmarks (CTW1500, Total-Text and ICDAR-ArT) show that (1) using only 10% strongly annotated data and 90% weakly annotated data, our method yields comparable performance to state-of-the-art methods, (2) with 100% strongly annotated data, our method outperforms existing methods on all three benchmarks. We will make the weakly annotated datasets publicly available in the future.
翻訳日:2021-05-31 10:01:38 公開日:2020-12-01
# (参考訳) てんかん発作予測のための脳波データを合成する生成モデル [全文訳有]

A Generative Model to Synthesize EEG Data for Epileptic Seizure Prediction ( http://arxiv.org/abs/2012.00430v1 )

ライセンス: CC BY 4.0
Khansa Rasheed, Junaid Qadir, Terence J.O'Brien, Levin Kuhlmann, Adeel Razi(参考訳) 発作が起こる前の発作の予測は、患者の生活に正常さをもたらすのに不可欠である。 研究者は、入力予測に手作りの特徴を用いた機械学習手法を採用した。 しかし、MLメソッドは、最高のMLモデルや最高の機能を選択するには複雑すぎる。 ディープラーニング手法は自動特徴抽出の分野で有用である。 正確な発作予測の障害の1つはてんかん発作データの不足である。 本稿では,脳波の合成サンプルを生成するために,深層畳み込み生成対向ネットワークを提案する。 我々は,合成データ,すなわち1クラスSVMと,畳み込みてんかん発作予測器(CESP)と呼ばれる新しい提案を2つの手法で検証する。 本研究のもう一つの目的は、真の予測と発作発生の間に平均10分間の移動学習を用いた拡張データに対するトレーニングモデルにより、よく知られたディープラーニングモデル(VGG16, VGG19, ResNet50, Inceptionv3)の性能を評価することである。 以上の結果から,CESPモデルは78.11%,88.21%,FPRは0.27/h,0.14/hであり,それぞれ実エピレプシエコシステムとCHB-MITのデータセットを用いて合成および試験を行った。 合成データを用いたcespの効果的な評価結果から,合成データは特徴とラベルの相関性が非常に良好であった。 また,inceptionv3 で達成した 90.03% と 0.03 fpr/h の感度が最も高く,dcgan から生成したサンプルによるデータ拡張により cesp モデルとinceptionv3 の予測結果が,従来手法と比較して4~5%向上することを示した。 最後に、拡張データを用いたcespの予測結果が、両方のデータセットの確率レベルよりも優れていることに注意する。

Prediction of seizure before they occur is vital for bringing normalcy to the lives of patients. Researchers employed machine learning methods using hand-crafted features for seizure prediction. However, ML methods are too complicated to select the best ML model or best features. Deep Learning methods are beneficial in the sense of automatic feature extraction. One of the roadblocks for accurate seizure prediction is scarcity of epileptic seizure data. This paper addresses this problem by proposing a deep convolutional generative adversarial network to generate synthetic EEG samples. We use two methods to validate synthesized data namely, one-class SVM and a new proposal which we refer to as convolutional epileptic seizure predictor (CESP). Another objective of our study is to evaluate performance of well-known deep learning models (e.g., VGG16, VGG19, ResNet50, and Inceptionv3) by training models on augmented data using transfer learning with average time of 10 min between true prediction and seizure onset. Our results show that CESP model achieves sensitivity of 78.11% and 88.21%, and FPR of 0.27/h and 0.14/h for training on synthesized and testing on real Epilepsyecosystem and CHB-MIT datasets, respectively. Effective results of CESP trained on synthesized data shows that synthetic data acquired the correlation between features and labels very well. We also show that employment of idea of transfer learning and data augmentation in patient-specific manner provides highest accuracy with sensitivity of 90.03% and 0.03 FPR/h which was achieved using Inceptionv3, and that augmenting data with samples generated from DCGAN increased prediction results of our CESP model and Inceptionv3 by 4-5% as compared to state-of-the-art traditional augmentation techniques. Finally, we note that prediction results of CESP achieved by using augmented data are better than chance level for both datasets.
翻訳日:2021-05-31 09:49:06 公開日:2020-12-01
# (参考訳) SRG-Net: 3D Pointwise CNN法によるTerracotta Warrior Point Cloudの教師なしセグメンテーション [全文訳有]

SRG-Net: Unsupervised Segmentation for Terracotta Warrior Point Cloud with 3D Pointwise CNN methods ( http://arxiv.org/abs/2012.00433v1 )

ライセンス: CC BY 4.0
Yao Hu, Guohua Geng, Kang Li, Wei Zhou, Xingxing Hao, Xin Cao(参考訳) 本稿では,terracotta warriorsの3dポイントクラウドを用いた非教師なし部分セグメンテーションのためのシード領域成長cnn(srg-net)を提案する。 3dにおける従来のニューラルネットワークの研究は、主に教師付き分類、クラスタリング、教師なし表現、再構成に関するものである。 教師なしのポイントクラウド部分のセグメンテーションに焦点を当てた研究は少ない。 これらの問題に対処するために,terracotta warriorsの3dポイントクラウドを用いた非教師なし部分セグメンテーションのためのシード領域成長型cnn(srg-net)を提案する。 まず,大まかにポイントクラウドを分割する独自のシード領域成長アルゴリズムを提案する。 次に,3次元点雲の特性をよりよく理解するために,教師ありセグメント化と教師なし再構成ネットワークを提案する。 最後に、SRGアルゴリズムと改良されたCNNをSRG-Netと呼ばれる改良手法で組み合わせ、テラコッタ戦士のセグメンテーション作業を行う。 提案するSRG-Netは, タラコッタ戦士のデータとShapeNetのベンチマークデータセットを用いて, 結合平均交点(mIoU)と遅延の測定を行った。 実験の結果,SRG-Netは最先端手法よりも優れていた。 私たちのコードはhttps://github.com/h yoau/srg-netで利用可能です。

In this paper, we present a seed-region-growing CNN(SRG-Net) for unsupervised part segmentation with 3D point clouds of terracotta warriors. Previous neural network researches in 3D are mainly about supervised classification, clustering, unsupervised representation and reconstruction. There are few researches focusing on unsupervised point cloud part segmentation. To address these problems, we present a seed-region-growing CNN(SRG-Net) for unsupervised part segmentation with 3D point clouds of terracotta warriors. Firstly, we propose our customized seed region growing algorithm to coarsely segment the point cloud. Then we present our supervised segmentation and unsupervised reconstruction networks to better understand the characteristics of 3D point clouds. Finally, we combine the SRG algorithm with our improved CNN using a refinement method called SRG-Net to conduct the segmentation tasks on the terracotta warriors. Our proposed SRG-Net are evaluated on the terracotta warriors data and the benchmark dataset of ShapeNet with measuring mean intersection over union(mIoU) and latency. The experimental results show that our SRG-Net outperforms the state-of-the-art methods. Our code is available at https://github.com/h yoau/SRG-Net.
翻訳日:2021-05-31 09:33:14 公開日:2020-12-01
# (参考訳) 効率的なRGBとRGB-Dサルエント物体検出のための統一構造 [全文訳有]

A Unified Structure for Efficient RGB and RGB-D Salient Object Detection ( http://arxiv.org/abs/2012.00437v1 )

ライセンス: CC BY 4.0
Peng Peng, Yong-Jie Li(参考訳) 局所物体検出(SOD)は近年,特にディープニューラルネットワークを用いてよく研究されている。 しかしながら、RGBとRGB-Dの画像を持つSODは通常、2つの異なるネットワーク構造を持つタスクとして扱われる。 本稿では,SODの両タスクを効率的に扱うために,クロスアテンションコンテキスト抽出(CRACE)モジュールを用いた統一的で効率的な構造を提案する。 提案したCRACEモジュールは2つ(RGB SOD)または3つ(RGB-D SOD)の入力を受信し、適切に融合する。 CRACEモジュールを備えた単純な統合機能ピラミッドネットワーク(FPN)のような構造は、サリエンシとバウンダリの多層監視の下で結果を伝達し、洗練する。 提案した構造は単純だが有効であり、RGBと深さの豊富なコンテキスト情報を適切に抽出し、効率的に融合することができる。 実験の結果,rgbとrgb-dのsodタスクにおいて,従来の手法よりも多くの測定値において優れていた。

Salient object detection (SOD) has been well studied in recent years, especially using deep neural networks. However, SOD with RGB and RGB-D images is usually treated as two different tasks with different network structures that need to be designed specifically. In this paper, we proposed a unified and efficient structure with a cross-attention context extraction (CRACE) module to address both tasks of SOD efficiently. The proposed CRACE module receives and appropriately fuses two (for RGB SOD) or three (for RGB-D SOD) inputs. The simple unified feature pyramid network (FPN)-like structure with CRACE modules conveys and refines the results under the multi-level supervisions of saliency and boundaries. The proposed structure is simple yet effective; the rich context information of RGB and depth can be appropriately extracted and fused by the proposed structure efficiently. Experimental results show that our method outperforms other state-of-the-art methods in both RGB and RGB-D SOD tasks on various datasets and in terms of most metrics.
翻訳日:2021-05-31 09:15:25 公開日:2020-12-01
# (参考訳) 正規化流れによる変分ベイズ系統推定の改良 [全文訳有]

Improved Variational Bayesian Phylogenetic Inference with Normalizing Flows ( http://arxiv.org/abs/2012.00459v1 )

ライセンス: CC BY 4.0
Cheng Zhang(参考訳) variational bayesian phylogenetic inference (vbpi) は、系統的後方の効率的な推定のための、有望な一般的な変分的枠組みを提供する。 しかし、現在の対角形対数正規分岐長近似は近似分布の品質を著しく制限する。 本稿では, 深層学習技術を用いた系統的後生推定の活用に向けた第一歩として, 新たなVBPI, VBPI-NFを提案する。 系統学モデルの非ユークリッド分岐長空間を注意深く設計された置換同変変換で扱うことにより、vbpi-nfは正規化フローを使用して、異なるツリートポロジーにまたがる柔軟な分岐長分布のリッチな族を提供する。 vbpi-nfは実データベイズ型系統推定問題のベンチマークにおいてバニラvbpiを著しく改善することを示した。 さらに、これらの置換同変変換における構造的パラメタライゼーションが、さらなるアモーティゼーションの恩恵をもたらすことも明らかにした。

Variational Bayesian phylogenetic inference (VBPI) provides a promising general variational framework for efficient estimation of phylogenetic posteriors. However, the current diagonal Lognormal branch length approximation would significantly restrict the quality of the approximating distributions. In this paper, we propose a new type of VBPI, VBPI-NF, as a first step to empower phylogenetic posterior estimation with deep learning techniques. By handling the non-Euclidean branch length space of phylogenetic models with carefully designed permutation equivariant transformations, VBPI-NF uses normalizing flows to provide a rich family of flexible branch length distributions that generalize across different tree topologies. We show that VBPI-NF significantly improves upon the vanilla VBPI on a benchmark of challenging real data Bayesian phylogenetic inference problems. Further investigation also reveals that the structured parameterization in those permutation equivariant transformations can provide additional amortization benefit.
翻訳日:2021-05-31 08:22:31 公開日:2020-12-01
# (参考訳) IoTボットネット攻撃検出のためのユニバーサル機能セットを目指して [全文訳有]

Towards a Universal Features Set for IoT Botnet Attacks Detection ( http://arxiv.org/abs/2012.00463v1 )

ライセンス: CC BY 4.0
Faisal Hussain, Syed Ghazanfar Abbas, Ubaid U. Fayyaz, Ghalib A. Shah, Abdullah Toqeer, Ahmad Ali(参考訳) IoTデバイスのセキュリティの落とし穴は、攻撃者がIoTデバイスを悪用し、ボットネットの一部にすることを容易にする。 数十万のIoTデバイスが侵入されてボットネットの一部となると、攻撃者はこのボットネットを使用して、ターゲットのWebサイトやサービスを取り除き、正当なユーザに対応することができない、大規模で複雑な分散サービス拒否(DDoS)攻撃を起動する。 これまでに多くのボットネット検出技術が提案されているが、その性能はトレーニング対象の特定のデータセットに限られている。 これは、あるボットネットデータセットで機械学習モデルをトレーニングするために使用される機能は、攻撃パターンの多様性のため、他のデータセットではうまく動作しないためである。 そこで本稿では,基盤となるデータセットに関係なく,ボットネット攻撃をよりよく検出するための普遍的な特徴セットを提案する。 提案した機能は、トレーニングされた機械学習モデルを3つの異なるボットネット攻撃データセット上でテストする際に、ボットネット攻撃を検出するために顕著な結果を示す。

The security pitfalls of IoT devices make it easy for the attackers to exploit the IoT devices and make them a part of a botnet. Once hundreds of thousands of IoT devices are compromised and become the part of a botnet, the attackers use this botnet to launch the large and complex distributed denial of service (DDoS) attacks which take down the target websites or services and make them unable to respond the legitimate users. So far, many botnet detection techniques have been proposed but their performance is limited to a specific dataset on which they are trained. This is because the features used to train a machine learning model on one botnet dataset, do not perform well on other datasets due to the diversity of attack patterns. Therefore, in this paper, we propose a universal features set to better detect the botnet attacks regardless of the underlying dataset. The proposed features set manifest preeminent results for detecting the botnet attacks when tested the trained machine learning models over three different botnet attack datasets.
翻訳日:2021-05-31 07:36:03 公開日:2020-12-01
# (参考訳) 重力を考慮したパノラマ縫合の最小解法 [全文訳有]

Minimal Solutions for Panoramic Stitching Given Gravity Prior ( http://arxiv.org/abs/2012.00465v1 )

ライセンス: CC BY 4.0
Yaqing Ding, Daniel Barath, Zuzana Kukelova(参考訳) パノラマを撮影する場合、人々はカメラを垂直軸、すなわち重力の向きに合わせる傾向にある。 さらに、スマートフォンやタブレットなどの現代のデバイスには、重力ベクトルを正確に測定できるIMU(Inertial Measurement Unit)が搭載されている。 この前もって、カメラのy軸はアライメントされるか、既にアライメントされていると仮定できるため、相対方向は1-DOF(自由度)に低下する。 この仮定を実行し、光学中心を持つカメラによって撮影された画像のパノラマ画像縫合(パノラマ画像縫合)に対する新しい最小限の解を提案する。 我々は4つの実用的カメラ構成を考察し, 半径歪みの有無に関わらず, 焦点距離の変動や不確かさを仮定した。 このソルバーは、合成シーンと、sun360データセットの500万以上の実画像ペアの両方と、imusを搭載した2台のスマートフォンで撮影されたシーンの両方でテストされている。 精度と処理時間の両方において、最先端技術よりも優れていることを示す。

When capturing panoramas, people tend to align their cameras with the vertical axis, i.e., the direction of gravity. Moreover, modern devices, such as smartphones and tablets, are equipped with an IMU (Inertial Measurement Unit) that can measure the gravity vector accurately. Using this prior, the y-axes of the cameras can be aligned or assumed to be already aligned, reducing their relative orientation to 1-DOF (degree of freedom). Exploiting this assumption, we propose new minimal solutions to panoramic image stitching of images taken by cameras with coinciding optical centers, i.e., undergoing pure rotation. We consider four practical camera configurations, assuming unknown fixed or varying focal length with or without radial distortion. The solvers are tested both on synthetic scenes and on more than 500k real image pairs from the Sun360 dataset and from scenes captured by us using two smartphones equipped with IMUs. It is shown, that they outperform the state-of-the-art both in terms of accuracy and processing time.
翻訳日:2021-05-31 07:20:01 公開日:2020-12-01
# (参考訳) 機能再スケーリング因子によるクラスタリカバリの改善 [全文訳有]

Improving cluster recovery with feature rescaling factors ( http://arxiv.org/abs/2012.00477v1 )

ライセンス: CC BY-SA 4.0
Renato Cordeiro de Amorim and Vladimir Makarenkov(参考訳) データプリプロセッシングステージは、クラスタリングにおいて不可欠である。 特徴は異なるスケールを使ってエンティティを記述することができる。 これを正すために、通常は、選択したクラスタリングアルゴリズムの目的関数で他の機能を上回らないように、再スケーリングを目的とした機能正規化を適用する。 本稿では,再スケーリング手順がすべての特徴を同一に扱うべきではないことを論じる。 その代わり、クラスタリングにもっと意味のある機能を好むべきです。 このことを念頭に置いて,各機能のクラスタ内関連性を考慮した機能再スケーリング手法を提案する。 提案手法を用いたクラスタリング手法は, 従来のデータ正規化手法よりも明らかに優れていることを示す。

The data preprocessing stage is crucial in clustering. Features may describe entities using different scales. To rectify this, one usually applies feature normalisation aiming at rescaling features so that none of them overpowers the others in the objective function of the selected clustering algorithm. In this paper, we argue that the rescaling procedure should not treat all features identically. Instead, it should favour the features that are more meaningful for clustering. With this in mind, we introduce a feature rescaling method that takes into account the within-cluster degree of relevance of each feature. Our comprehensive simulation study, carried out on real and synthetic data, with and without noise features, clearly demonstrates that clustering methods that use the proposed data normalization strategy clearly outperform those that use traditional data normalization.
翻訳日:2021-05-31 06:37:54 公開日:2020-12-01
# (参考訳) 三角面の最も遠いサンプリングセグメンテーション [全文訳有]

Farthest sampling segmentation of triangulated surfaces ( http://arxiv.org/abs/2012.00478v1 )

ライセンス: CC BY 4.0
Victoria Hern\'andez-Mederos, Dimas Mart\'inez, Jorge Estrada-Sarlabous and Valia Guerra-Ones(参考訳) 本稿では,親和性行列のサブ行列である$W^k$の計算と,k平均クラスタリングアルゴリズムの$W^k$の行への適用の2つの基本ステップからなる,三角曲面の分節化のための新しい手法であるFarthest Smpling Segmentation(FSS)を紹介する。 準行列 $w^k$ は、すべての三角形といくつかの特別な三角形の間の親和性を計算することで得られる。 これは、完全に構築せずに$w$の列のサンプルを選択することと等価である。 提案手法は,$W$の列数のみを計算し,$W$の固有分解や$W$の任意の部分行列を必要としないため,他のセグメンテーションアルゴリズムよりも計算的に安価である。 我々は、$W^k$ の列によって生成される空間上の$W$の直交射影が、$W$ のサンプルとして$W^k$ の列を用いて Nystr\"om が計算した$k$ 固有ベクトルによって生成される空間上の$W$の直交射影と一致することを証明した。 さらに,$k$ を増加させるには,$w^k$ の行間の近接関係は,対応する$w$ の行間の近接関係を忠実に反映する傾向があることが示された。 FSS法は手動で調整しなければならないパラメータに依存しず、三角形間の距離を定義するために任意の計量を扱えるので非常に柔軟である。 いくつかの測定値と多種多様な3次元三角形メッシュによる数値実験により、W$の10%未満の計算で得られたセグメンテーションは、完全な行列の行をクラスタリングすることによって得られるものと同等であることが示された。

In this paper we introduce Farthest Sampling Segmentation (FSS), a new method for segmentation of triangulated surfaces, which consists of two fundamental steps: the computation of a submatrix $W^k$ of the affinity matrix $W$ and the application of the k-means clustering algorithm to the rows of $W^k$. The submatrix $W^k$ is obtained computing the affinity between all triangles and only a few special triangles: those which are farthest in the defined metric. This is equivalent to select a sample of columns of $W$ without constructing it completely. The proposed method is computationally cheaper than other segmentation algorithms, since it only calculates few columns of $W$ and it does not require the eigendecomposition of $W$ or of any submatrix of $W$. We prove that the orthogonal projection of $W$ on the space generated by the columns of $W^k$ coincides with the orthogonal projection of $W$ on the space generated by the $k$ eigenvectors computed by Nystr\"om's method using the columns of $W^k$ as a sample of $W$. Further, it is shown that for increasing size $k$, the proximity relationship among the rows of $W^k$ tends to faithfully reflect the proximity among the corresponding rows of $W$. The FSS method does not depend on parameters that must be tuned by hand and it is very flexible, since it can handle any metric to define the distance between triangles. Numerical experiments with several metrics and a large variety of 3D triangular meshes show that the segmentations obtained computing less than the 10% of columns $W$ are as good as those obtained from clustering the rows of the full matrix $W$.
翻訳日:2021-05-31 06:14:38 公開日:2020-12-01
# (参考訳) 高次元データ解析のための一貫性表現学習 [全文訳有]

Consistent Representation Learning for High Dimensional Data Analysis ( http://arxiv.org/abs/2012.00481v1 )

ライセンス: CC BY 4.0
Stan Z. Li, Lirong Wu and Zelin Zang(参考訳) 探索と発見のための高次元データ分析には、3つの基本的なタスクが含まれる。 3つの関連するタスクが別々に実行される場合、これまでの場合と同様に、データジオメトリなどの観点からは、タスク間に矛盾が発生することがある。 これはデータ解釈の混乱や誤解を招く可能性がある。 本稿では,3つのタスクをエンドツーエンドに達成し,構成性を改善するために,一貫性表現学習(CRL)と呼ばれるニューラルネットワークに基づく新しい手法を提案する。 CRLネットワークは、2つの非線形次元減少(NLDR)変換からなる:(1)入力データ空間からクラスタリングのための潜在特徴空間への変換、(2)クラスタリング空間から可視化のための最終2Dまたは3D空間への変換。 重要なことに、2つのnldr変換は、空間層やネットワーク層にまたがる局所幾何保存(lgp)制約を最善に満たし、処理フローに沿ったデータ構成を改善するために行われる。 また,この不整合を評価するための新しい指標であるクラスタリング・ビジュアライゼーション・アンコンシスタンシー(cvi)を提案する。 大規模比較の結果,提案したCRLニューラルネットワーク手法は,評価指標や可視化の観点から,一般的なt-SNEやUMAPベースのクラスタリングや可視化アルゴリズムよりも優れていた。

High dimensional data analysis for exploration and discovery includes three fundamental tasks: dimensionality reduction, clustering, and visualization. When the three associated tasks are done separately, as is often the case thus far, inconsistencies can occur among the tasks in terms of data geometry and others. This can lead to confusing or misleading data interpretation. In this paper, we propose a novel neural network-based method, called Consistent Representation Learning (CRL), to accomplish the three associated tasks end-to-end and improve the consistencies. The CRL network consists of two nonlinear dimensionality reduction (NLDR) transformations: (1) one from the input data space to the latent feature space for clustering, and (2) the other from the clustering space to the final 2D or 3D space for visualization. Importantly, the two NLDR transformations are performed to best satisfy local geometry preserving (LGP) constraints across the spaces or network layers, to improve data consistencies along with the processing flow. Also, we propose a novel metric, clustering-visualiza tion inconsistency (CVI), for evaluating the inconsistencies. Extensive comparative results show that the proposed CRL neural network method outperforms the popular t-SNE and UMAP-based and other contemporary clustering and visualization algorithms in terms of evaluation metrics and visualization.
翻訳日:2021-05-31 05:37:06 公開日:2020-12-01
# (参考訳) 混合帯域音声データのための統合深層話者埋め込みフレームワーク [全文訳有]

A Unified Deep Speaker Embedding Framework for Mixed-Bandwidth Speech Data ( http://arxiv.org/abs/2012.00486v1 )

ライセンス: CC BY 4.0
Weicheng Cai, Ming Li(参考訳) 本稿では,異なるサンプリング率で音声データをモデル化するための統合型深層話者埋め込みフレームワークを提案する。 広帯域スペクトログラムのサブイメージとして,狭帯域スペクトログラムを考慮し,画像分類手法を用いて混合帯域データの合同モデリング問題に取り組む。 この観点から,異なるトレーニングシナリオとテストデータシナリオにおいて,複数の混合帯域幅合同トレーニング戦略を詳述する。 提案するシステムは,単一の話者埋め込みモデルにおいて,帯域幅の混合音声データを柔軟に処理でき,追加のダウンサンプリングやアップサンプリング,帯域幅拡張,パディング操作が不要である。 voxceleb1データセットに関する広範な実験を行った。 さらに,提案手法の有効性をSITWとNIST SRE 2016データセットで検証した。

This paper proposes a unified deep speaker embedding framework for modeling speech data with different sampling rates. Considering the narrowband spectrogram as a sub-image of the wideband spectrogram, we tackle the joint modeling problem of the mixed-bandwidth data in an image classification manner. From this perspective, we elaborate several mixed-bandwidth joint training strategies under different training and test data scenarios. The proposed systems are able to flexibly handle the mixed-bandwidth speech data in a single speaker embedding model without any additional downsampling, upsampling, bandwidth extension, or padding operations. We conduct extensive experimental studies on the VoxCeleb1 dataset. Furthermore, the effectiveness of the proposed approach is validated by the SITW and NIST SRE 2016 datasets.
翻訳日:2021-05-31 05:17:27 公開日:2020-12-01
# (参考訳) 畳み込みニューラルネットワークにおける心電図表現の問題点 [全文訳有]

Problems of representation of electrocardiograms in convolutional neural networks ( http://arxiv.org/abs/2012.00493v1 )

ライセンス: CC BY 4.0
Iana Sereda, Sergey Alekseev, Aleksandra Koneva, Alexey Khorkin, Grigory Osipov(参考訳) 例えば、心電図を用いて、標準畳み込みネットワークによる不正確な繰り返しパターンを含む1次元信号のモデル化時に生じる特徴的問題を示す。 これらの問題は本質的に体系的であることを示す。 これらは、畳み込みネットワークが複合オブジェクトでどのように機能するかに起因するが、その一部は厳格に固定されていないが、大きな移動性を持っている。 また,ディープネットワークの一般化に関する直観に反する効果を示す。

Using electrocardiograms as an example, we demonstrate the characteristic problems that arise when modeling one-dimensional signals containing inaccurate repeating pattern by means of standard convolutional networks. We show that these problems are systemic in nature. They are due to how convolutional networks work with composite objects, parts of which are not fixed rigidly, but have significant mobility. We also demonstrate some counterintuitive effects related to generalization in deep networks.
翻訳日:2021-05-31 04:31:32 公開日:2020-12-01
# (参考訳) 複数の個体群を持つ進化的アルゴリズムを用いたDNA混合脱畳畳み込み、ヒルクライミングおよび誘導突然変異 [全文訳有]

DNA mixture deconvolution using an evolutionary algorithm with multiple populations, hill-climbing, and guided mutation ( http://arxiv.org/abs/2012.00513v1 )

ライセンス: CC BY 4.0
S{\o}ren B. Vilsen, Torben Tvedebrink, and Poul Svante Eriksen(参考訳) DNAは、法医学遺伝学で分析された犯罪事例をサンプリングし、しばしば複数のコントリビュータのDNAを含む。 これらは、DNAサンプルへの個々のコントリビュータのDNAプロファイルの畳み込みとして起こる。 したがって、貢献者が1人以上いない場合、関心の対象は、これらの未知のプロファイルの分離(しばしばデコンボリューションと呼ばれる)である。 未知のDNAプロファイルのデコンボリューションを得るため,多集団進化アルゴリズム(MEA)を導入した。 我々は、MEAの突然変異演算子に対して、その適合性は確率モデルに基づいており、符号化された個体のすべての要素に対する観測値と期待値との偏差を利用して誘導することを許した。 この誘導突然変異演算子(GM)は、より大きいほど突然変異の確率が高くなるように設計された。 さらにgmは時間的に不均一であり,イテレーション数の増加に伴い,一定の下限まで低下した。 異なる混合割合で102人のDNA混合物を解析した。 サンプルは2つの異なるDNAプレップを用いて定量化した。 キット: (1) Illumina ForenSeq Panel B (30サンプル), (2) Applied Biosystems Precision ID Globalfiler NGS STR panel (72サンプル)。 DNA混合物はMEAによって分解され、サンプルの真のDNAプロファイルと比較された。 そこで本研究では,(1)主犯のDNAプロファイルが不明,(2)未成年者のDNAプロファイルが不明,(3)両DNAプロファイルが不明であった3つのシナリオを分析した。 さらに,ForenSeqパネルのサブポピュレーションサイズを変動させ,完全ランダムな同種突然変異演算子と誘導演算子を比較し,変異崩壊率を変動させ,親集団の丘登りを可能にする一連の感度実験を行った。

DNA samples crime cases analysed in forensic genetics, frequently contain DNA from multiple contributors. These occur as convolutions of the DNA profiles of the individual contributors to the DNA sample. Thus, in cases where one or more of the contributors were unknown, an objective of interest would be the separation, often called deconvolution, of these unknown profiles. In order to obtain deconvolutions of the unknown DNA profiles, we introduced a multiple population evolutionary algorithm (MEA). We allowed the mutation operator of the MEA to utilise that the fitness is based on a probabilistic model and guide it by using the deviations between the observed and the expected value for every element of the encoded individual. This guided mutation operator (GM) was designed such that the larger the deviation the higher probability of mutation. Furthermore, the GM was inhomogeneous in time, decreasing to a specified lower bound as the number of iterations increased. We analysed 102 two-person DNA mixture samples in varying mixture proportions. The samples were quantified using two different DNA prep. kits: (1) Illumina ForenSeq Panel B (30 samples), and (2) Applied Biosystems Precision ID Globalfiler NGS STR panel (72 samples). The DNA mixtures were deconvoluted by the MEA and compared to the true DNA profiles of the sample. We analysed three scenarios where we assumed: (1) the DNA profile of the major contributor was unknown, (2) DNA profile of the minor was unknown, and (3) both DNA profiles were unknown. Furthermore, we conducted a series of sensitivity experiments on the ForenSeq panel by varying the sub-population size, comparing a completely random homogeneous mutation operator to the guided operator with varying mutation decay rates, and allowing for hill-climbing of the parent population.
翻訳日:2021-05-31 04:19:51 公開日:2020-12-01
# (参考訳) Semantic AnsweR Type Prediction Task (SMART) at ISWC 2020 Semantic Web Challenge (英語) [全文訳有]

SeMantic AnsweR Type prediction task (SMART) at ISWC 2020 Semantic Web Challenge ( http://arxiv.org/abs/2012.00555v1 )

ライセンス: CC BY 4.0
Nandana Mihindukulasooriya and Mohnish Dubey and Alfio Gliozzo and Jens Lehmann and Axel-Cyrille Ngonga Ngomo and Ricardo Usbeck(参考訳) 毎年、国際セマンティックウェブ会議(international semantic web conference)は、特定の問題領域におけるアートソリューションの状態を前進させるコンペティションを確立するための一連のセマンティックwebチャレンジを受け入れている。 Semantic AnsweR Type予測タスク(SMART)は、ISWC 2020の課題の一部であった。 質問タイプと回答タイプの予測は、正しい質問を生成するのに役立つ洞察を提供する知識ベース質問応答システムにおいて重要な役割を果たす。 より具体的には、自然言語の質問が与えられた場合、SMARTチャレンジのタスクは、ターゲットオントロジー(DBpediaやWikidataなど)を使って答えの型を予測することである。

Each year the International Semantic Web Conference accepts a set of Semantic Web Challenges to establish competitions that will advance the state of the art solutions in any given problem domain. The SeMantic AnsweR Type prediction task (SMART) was part of ISWC 2020 challenges. Question type and answer type prediction can play a key role in knowledge base question answering systems providing insights that are helpful to generate correct queries or rank the answer candidates. More concretely, given a question in natural language, the task of SMART challenge is, to predict the answer type using a target ontology (e.g., DBpedia or Wikidata).
翻訳日:2021-05-31 03:50:23 公開日:2020-12-01
# (参考訳) 高速かつロバストな特徴選択:オートエンコーダのためのエネルギー効率のよいスパーストレーニングの強み [全文訳有]

Quick and Robust Feature Selection: the Strength of Energy-efficient Sparse Training for Autoencoders ( http://arxiv.org/abs/2012.00560v1 )

ライセンス: CC BY 4.0
Zahra Atashgahi, Ghada Sokar, Tim van der Lee, Elena Mocanu, Decebal Constantin Mocanu, Raymond Veldhuis, Mykola Pechenizkiy(参考訳) 主な合併症は、計算コストやメモリ要求などを含む最近の高次元データの量の増加から生じる。 データセットの最も関連性の高い情報的属性を特定する機能選択が,この問題に対する解決策として導入されている。 既存の特徴選択法の多くは計算的に非効率であり、非効率なアルゴリズムは高いエネルギー消費をもたらす。 本稿では,教師なし特徴選択のための新しい柔軟な手法を提案する。 QuickSelectionと名付けられたこの方法は、特徴の重要性を測定するための基準としてスパースニューラルネットワークにおけるニューロンの強度を導入する。 この基準は、スパース進化的訓練手順で訓練されたスパース連結のデノージングオートエンコーダとブレンドされ、全ての入力機能の重要性を導出する。 我々は、接続上のバイナリマスクを用いて空間をシミュレートする典型的なアプローチとは対照的に、純粋にスパースな方法でQuickSelectionを実装した。 その結果、かなりの速度向上とメモリ削減がもたらされる。 提案手法は,5つの低次元および3つの高次元データセットを含む複数のベンチマークデータセットで検証し,分類とクラスタリングの精度,実行時間,最大メモリ使用量の最良のトレードオフを実現する。 また,提案手法は,最先端のオートエンコーダに基づく特徴選択法の中で最小限のエネルギーを必要とする。

Major complications arise from the recent increase in the amount of high-dimensional data, including high computational costs and memory requirements. Feature selection, which identifies the most relevant and informative attributes of a dataset, has been introduced as a solution to this problem. Most of the existing feature selection methods are computationally inefficient; inefficient algorithms lead to high energy consumption, which is not desirable for devices with limited computational and energy resources. In this paper, a novel and flexible method for unsupervised feature selection is proposed. This method, named QuickSelection, introduces the strength of the neuron in sparse neural networks as a criterion to measure the feature importance. This criterion, blended with sparsely connected denoising autoencoders trained with the sparse evolutionary training procedure, derives the importance of all input features simultaneously. We implement QuickSelection in a purely sparse manner as opposed to the typical approach of using a binary mask over connections to simulate sparsity. It results in a considerable speed increase and memory reduction. When tested on several benchmark datasets, including five low-dimensional and three high-dimensional datasets, the proposed method is able to achieve the best trade-off of classification and clustering accuracy, running time, and maximum memory usage, among widely used approaches for feature selection. Besides, our proposed method requires the least amount of energy among the state-of-the-art autoencoder-based feature selection methods.
翻訳日:2021-05-31 03:43:49 公開日:2020-12-01
# (参考訳) 多段階知識蒸留 [全文訳有]

Multi-level Knowledge Distillation ( http://arxiv.org/abs/2012.00573v1 )

ライセンス: CC BY 4.0
Fei Ding, Feng Luo, Hongxin Hu, Yin Yang(参考訳) 知識蒸留はモデル圧縮と加速において重要な技術となっている。 従来の知識蒸留手法は,教師と学生のネットワーク表現の相互関係を考慮し,確率的出力間のKL分割を最小化し,教師から学生ネットワークへ知識を伝達することを目的としている。 近年, 教師のインスタンス識別知識を, 同じ画像と異なる画像とを表現空間から遠ざかってマッピングすることで, 教師のインスタンス識別知識を学習できるようにするために, 比較的損失に基づく知識蒸留法が提案されている。 しかし、これらの手法はすべて、教師の知識が多レベルであることを無視している。 これらの異なるレベルの知識は、1種類の監視信号だけで効果的に取得できない。 本稿では,教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。 MLKDは,教師ネットワークにおいて,個人的類似性,関係的類似性,カテゴリー的類似性という3つの新しい教師・学生の類似性を用いて,教師ネットワークにおけるサンプル・ワイド・構造的・カテゴリー的知識の学習を促す。 実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。 さらに,学生ネットワークにおける学習表現の転送性の向上が期待できることを示した。

Knowledge distillation has become an important technique for model compression and acceleration. The conventional knowledge distillation approaches aim to transfer knowledge from teacher to student networks by minimizing the KL-divergence between their probabilistic outputs, which only consider the mutual relationship between individual representations of teacher and student networks. Recently, the contrastive loss-based knowledge distillation is proposed to enable a student to learn the instance discriminative knowledge of a teacher by mapping the same image close and different images far away in the representation space. However, all of these methods ignore that the teacher's knowledge is multi-level, e.g., individual, relational and categorical level. These different levels of knowledge cannot be effectively captured by only one kind of supervisory signal. Here, we introduce Multi-level Knowledge Distillation (MLKD) to transfer richer representational knowledge from teacher to student networks. MLKD employs three novel teacher-student similarities: individual similarity, relational similarity, and categorical similarity, to encourage the student network to learn sample-wise, structure-wise and category-wise knowledge in the teacher network. Experiments demonstrate that MLKD outperforms other state-of-the-art methods on both similar-architecture and cross-architecture tasks. We further show that MLKD can improve the transferability of learned representations in the student network.
翻訳日:2021-05-31 03:10:00 公開日:2020-12-01
# (参考訳) 非凸$C^{1+\alpha}$コスト関数の勾配アルゴリズムの収束性 [全文訳有]

Convergence of Gradient Algorithms for Nonconvex $C^{1+\alpha}$ Cost Functions ( http://arxiv.org/abs/2012.00628v1 )

ライセンス: CC BY 4.0
Zixuan Wang and Shanjian Tang(参考訳) 本稿では,非凸条件における運動量項を持つ確率勾配アルゴリズムの収束について述べる。 確率的勾配降下、重球、ネステロフの加速勾配を含む確率的モーメントのクラスは、非常に穏やかな仮定の下で一般的な枠組みで解析される。 予測された勾配が収束し、収束率の明示的な上限を与えることを示す。 そして、ノイズと運動量項の適切な近似によってスーパーマーチンゲールを構築することができる。 これにより、ドゥーブの超マーチンゲール収束定理(supermartingale convergence theorem)によってほぼ確実に収束することを示すことができる。 対象関数の勾配の既存のリプシッツ条件は H より古い連続性の条件に緩和されることに注意する必要がある。 もう1つの改善は、stepizesに追加の制限が課されないことである。 副産物として,確率的ステップズに結果を拡張するために局所化手順を適用する。

This paper is concerned with convergence of stochastic gradient algorithms with momentum terms in the nonconvex setting. A class of stochastic momentum methods, including stochastic gradient descent, heavy ball, and Nesterov's accelerated gradient, is analyzed in a general framework under quite mild assumptions. We show that the expected gradient converges and provide an explicit upper bound on the convergence rate. Then a supermartingale can be constructed by proper approximations of the noise and momentum terms. This allows us to prove the almost sure convergence by Doob's supermartingale convergence theorem and a discussion of the number of upcrossings in detail. It is worth noting that the existing Lipschitz condition of the gradient of the objective function is relaxed into the condition of H\"older continuity. Another improvement is that there are no additional restrictions imposed on stepsizes. As a byproduct, we apply a localization procedure to extend our results to stochastic stepsizes.
翻訳日:2021-05-31 02:51:56 公開日:2020-12-01
# (参考訳) 通信効率の高い連系蒸留 [全文訳有]

Communication-Effici ent Federated Distillation ( http://arxiv.org/abs/2012.00632v1 )

ライセンス: CC BY 4.0
Felix Sattler and Arturo Marban and Roman Rischke and Wojciech Samek(参考訳) コミュニケーションの制約は、連合学習システムの普及を妨げる大きな課題の1つである。 近年,コミュニケーション特性が根本的に異なるフェデレーション学習のための新しいアルゴリズムパラダイムであるフェデレーション蒸留(fd)が出現した。 FD法は、中央サーバと参加クライアントの間の未ラベルの公開データセットにソフトラベルとして提示されるアンサンブル蒸留技術と交換モデル出力を利用する。 フェデレーション平均化(FA)のような従来のフェデレーション学習アルゴリズムでは、共同で訓練されたモデルのサイズの通信スケールは、蒸留データセットのサイズのFD通信スケールに比例し、特に大規模なモデルが訓練された場合、有利な通信特性をもたらす。 本研究では, アクティブ蒸留データキュレーション, ソフトラベル量子化, デルタ符号化技術の効果を分析し, 通信効率の観点からFDについて検討する。 この分析から得られた知見に基づき,効率的な連系蒸留法である圧縮連系蒸留(cfd)を提案する。 フェデレーション画像分類と言語モデル問題に関する大規模な実験により,FDと比較して2桁以上,FAと比較して4桁以上,固定性能目標達成に必要な通信量を2桁以上削減できることが実証された。

Communication constraints are one of the major challenges preventing the wide-spread adoption of Federated Learning systems. Recently, Federated Distillation (FD), a new algorithmic paradigm for Federated Learning with fundamentally different communication properties, emerged. FD methods leverage ensemble distillation techniques and exchange model outputs, presented as soft labels on an unlabeled public data set, between the central server and the participating clients. While for conventional Federated Learning algorithms, like Federated Averaging (FA), communication scales with the size of the jointly trained model, in FD communication scales with the distillation data set size, resulting in advantageous communication properties, especially when large models are trained. In this work, we investigate FD from the perspective of communication efficiency by analyzing the effects of active distillation-data curation, soft-label quantization and delta-coding techniques. Based on the insights gathered from this analysis, we present Compressed Federated Distillation (CFD), an efficient Federated Distillation method. Extensive experiments on Federated image classification and language modeling problems demonstrate that our method can reduce the amount of communication necessary to achieve fixed performance targets by more than two orders of magnitude, when compared to FD and by more than four orders of magnitude when compared with FA.
翻訳日:2021-05-31 02:28:49 公開日:2020-12-01
# (参考訳) 自然言語推論のためのメタ埋め込みと意味的類似性課題 [全文訳有]

Meta-Embeddings for Natural Language Inference and Semantic Similarity tasks ( http://arxiv.org/abs/2012.00633v1 )

ライセンス: CC BY 4.0
Shree Charran R, Rahul Kumar Dubey (Senior Member IEEE)(参考訳) Word Representationsは、テキストマイニング、質問回答、テキスト要約など、ほぼ全ての高度な自然言語処理(NLP)アプリケーションの中核となるコンポーネントである。 過去20年間で、すべての主要なNLPタスクを解決するために、1つのモデルを考えるという膨大な研究が行われました。 現在大きな問題は、異なるNLPタスクに多くの選択肢があることだ。 したがって、NLP実践者にとって、使用する適切なモデルを選択することが課題となる。 このように、複数の事前訓練された単語の埋め込みとメタ埋め込みを組み合わせることで、NLPタスクへの取り組みを改善することが可能なアプローチとなっている。 メタ埋め込み学習は、与えられた訓練済みの入力単語の埋め込みセットから単一の単語埋め込みを生成するプロセスである。 本稿では,SOTA(State-of-the-A rt)モデルから派生したメタ埋め込みを用いて,分類や意味的関連性,テキスト類似性といった主要なNLPタスクに効率的に取り組むことを提案する。 我々は、効率的なアプローチを特定するためにアンサンブルと動的変種の両方を比較した。 その結果、最高の最先端モデルでも改善できることがわかった。 したがって、メタ埋め込みは、複数の個々の表現のパワーを活用することで、複数のNLPタスクに使用できることを示す。

Word Representations form the core component for almost all advanced Natural Language Processing (NLP) applications such as text mining, question-answering, and text summarization, etc. Over the last two decades, immense research is conducted to come up with one single model to solve all major NLP tasks. The major problem currently is that there are a plethora of choices for different NLP tasks. Thus for NLP practitioners, the task of choosing the right model to be used itself becomes a challenge. Thus combining multiple pre-trained word embeddings and forming meta embeddings has become a viable approach to improve tackle NLP tasks. Meta embedding learning is a process of producing a single word embedding from a given set of pre-trained input word embeddings. In this paper, we propose to use Meta Embedding derived from few State-of-the-Art (SOTA) models to efficiently tackle mainstream NLP tasks like classification, semantic relatedness, and text similarity. We have compared both ensemble and dynamic variants to identify an efficient approach. The results obtained show that even the best State-of-the-Art models can be bettered. Thus showing us that meta-embeddings can be used for several NLP tasks by harnessing the power of several individual representations.
翻訳日:2021-05-31 01:54:25 公開日:2020-12-01
# (参考訳) 相関顕微鏡における点雲とグラフマッチングを用いたクロスモーダル登録 [全文訳有]

Cross-modal registration using point clouds and graph-matching in the context of correlative microscopies ( http://arxiv.org/abs/2012.00656v1 )

ライセンス: CC BY 4.0
Stephan Kunne (1), Guillaume Potier (1), Jean M\'erot (1), Perrine Paul-Gilloteaux (1 and 2) ((1) l'institut du thorax Nantes (2) MicroPICell SFR Sante F. Bonamy)(参考訳) 相関顕微鏡は、2つ以上のモダリティを組み合わせることで、同じ生体構造上の1つのモダリティによって提供されるものよりも多くの情報を得る。 相関顕微鏡ワークフローの異なるステップで登録が必要である。 生物学者は、未知の構造の相関にバイアスを生じさせないために、登録に使用される画像の内容を選択したい。 強度に基づく方法は、この選択を許さないかもしれないし、画像がとても大きいと遅すぎるかもしれない。 生物学者が選択したコンテンツから生成された点雲に基づくアプローチを提案する。 これらの点の雲は密度の大きな違いを引き起こすが、部品や外れ値も欠落している。 本稿では,グラフ構築とグラフマッチングに基づくポイントクラウドの登録方法を提案し,反復的最接近点ベース手法と比較する。

Correlative microscopy aims at combining two or more modalities to gain more information than the one provided by one modality on the same biological structure. Registration is needed at different steps of correlative microscopies workflows. Biologists want to select the image content used for registration not to introduce bias in the correlation of unknown structures. Intensity-based methods might not allow this selection and might be too slow when the images are very large. We propose an approach based on point clouds created from selected content by the biologist. These point clouds may be prone to big differences in densities but also missing parts and outliers. In this paper we present a method of registration for point clouds based on graph building and graph matching, and compare the method to iterative closest point based methods.
翻訳日:2021-05-31 01:40:34 公開日:2020-12-01
# (参考訳) Pythonにおける画像処理を用いた感情検出 [全文訳有]

Emotion Detection using Image Processing in Python ( http://arxiv.org/abs/2012.00659v1 )

ライセンス: CC BY 4.0
Raghav Puri, Archit Gupta, Manas Sikri, Mohit Tiwari, Nitish Pathak, Shivendra Goel(参考訳) 本研究では,表情を用いたユーザの感情を検出する。 これらの表現は、システムのカメラまたはメモリで利用可能な既存のイメージを介してライブフィードから導出することができる。 人間による感情は認識でき、コンピュータビジョン業界ではいくつかの研究がすでに行われている広い範囲で研究されている。 Python (2.7)、OpenCV (Open Source Computer Vision Library)、NumPyを使って実装されている。 スキャンされた画像(テストデータセット)をトレーニングデータセットと比較することにより、感情を予測する。 本研究の目的は,画像を解析し,その人物の表情を予測するシステムを開発することである。 この研究は、この手順が動作可能であり、有効な結果をもたらすことを証明している。

In this work, user's emotion using its facial expressions will be detected. These expressions can be derived from the live feed via system's camera or any pre-exisiting image available in the memory. Emotions possessed by humans can be recognized and has a vast scope of study in the computer vision industry upon which several researches have already been done. The work has been implemented using Python (2.7, Open Source Computer Vision Library (OpenCV) and NumPy. The scanned image(testing dataset) is being compared to the training dataset and thus emotion is predicted. The objective of this paper is to develop a system which can analyze the image and predict the expression of the person. The study proves that this procedure is workable and produces valid results.
翻訳日:2021-05-31 01:30:51 公開日:2020-12-01
# (参考訳) 畳み込みネットワークによる表面波動のシミュレーション [全文訳有]

Simulating Surface Wave Dynamics with Convolutional Networks ( http://arxiv.org/abs/2012.00718v1 )

ライセンス: CC BY 4.0
Mario Lino, Chris Cantwell, Stathi Fotiadis, Eduardo Pignatelli, Anil Bharath(参考訳) 開かつ閉複素幾何学における表面波の運動と相互作用をシミュレートする完全畳み込みネットワークの性能について検討する。 我々は、U-Netアーキテクチャに注目し、トレーニング中に見えない幾何学的構成にどのように一般化するかを分析する。 改良されたU-Netアーキテクチャは、訓練中に単純なボックスと右角の角のジオメトリーしか見つからなかったとき、曲面および多面の開かつ閉じたジオメトリー内の液体表面の波高分布を正確に予測できることを示した。 また, u-net が生成する予測の時間補間を行うため, 独立した3次元 cnn も検討する。 これにより、U-Netがトレーニングしたものよりも時間ステップの小さいシミュレーションを生成することができる。

We investigate the performance of fully convolutional networks to simulate the motion and interaction of surface waves in open and closed complex geometries. We focus on a U-Net architecture and analyse how well it generalises to geometric configurations not seen during training. We demonstrate that a modified U-Net architecture is capable of accurately predicting the height distribution of waves on a liquid surface within curved and multi-faceted open and closed geometries, when only simple box and right-angled corner geometries were seen during training. We also consider a separate and independent 3D CNN for performing time-interpolation on the predictions produced by our U-Net. This allows generating simulations with a smaller time-step size than the one the U-Net has been trained for.
翻訳日:2021-05-31 01:23:14 公開日:2020-12-01
# (参考訳) 深層強化学習におけるカバレッジの評価と加速 [全文訳有]

Assessing and Accelerating Coverage in Deep Reinforcement Learning ( http://arxiv.org/abs/2012.00724v1 )

ライセンス: CC BY 4.0
Arpan Kusari(参考訳) 現在の深部強化学習(DRL)アルゴリズムは、シミュレーション環境におけるランダム性を利用して、状態空間の完全なカバレッジを仮定する。 しかし、特に高次元において、ランダム性に依存すると、訓練されたDRLニューラルネットワークモデルの範囲が狭くなる可能性があり、その結果、劇的で致命的な現実世界の状況に繋がる可能性がある。 著者の知識を最大限に活用するために、DRLのカバレッジ評価は現在の研究文献に欠けている。 そこで本研究では,DRL アプリケーションにおける適用範囲を評価するために,新しい尺度である Approximate Pseudo-Coverage (APC) を提案する。 我々は,高次元状態空間を下次元多様体に投影し,占有空間を定量化することにより,APCを計算することを提案する。 さらに,高速探索型ランダムツリー(rrt)を用いた範囲最大化のための探索探索戦略を用いる。 カートポール,ハイウェイ-envなどの標準作業において,評価の有効性とカバレッジの加速が示された。

Current deep reinforcement learning (DRL) algorithms utilize randomness in simulation environments to assume complete coverage in the state space. However, particularly in high dimensions, relying on randomness may lead to gaps in coverage of the trained DRL neural network model, which in turn may lead to drastic and often fatal real-world situations. To the best of the author's knowledge, the assessment of coverage for DRL is lacking in current research literature. Therefore, in this paper, a novel measure, Approximate Pseudo-Coverage (APC), is proposed for assessing the coverage in DRL applications. We propose to calculate APC by projecting the high dimensional state space on to a lower dimensional manifold and quantifying the occupied space. Furthermore, we utilize an exploration-exploita tion strategy for coverage maximization using Rapidly-Exploring Random Tree (RRT). The efficacy of the assessment and the acceleration of coverage is demonstrated on standard tasks such as Cartpole, highway-env.
翻訳日:2021-05-31 01:11:16 公開日:2020-12-01
# (参考訳) GLEAN:大容量画像超解像のための次世代潜伏銀行

GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution ( http://arxiv.org/abs/2012.00739v1 )

ライセンス: CC BY 4.0
Kelvin C.K. Chan, Xintao Wang, Xiangyu Xu, Jinwei Gu, Chen Change Loy(参考訳) 本稿では,大因子画像超解像(SR)の復元品質を向上させるために,事前訓練された生成逆数ネットワーク(GAN),例えばStyleGANが潜時バンクとして使用できることを示す。 既存のほとんどのSRアプローチは、敵対的損失を伴う学習を通じて現実的なテクスチャを創出しようとするが、我々の手法であるGenerative LatEnt bANk(GLEAN)は、事前訓練されたGANにカプセル化されているリッチで多様な事前情報を直接活用することによって、既存のプラクティスを越えている。 しかし、実行時に高価な画像固有最適化を必要とする一般的なGANインバージョン手法とは異なり、我々のアプローチでは、アップスケールされた画像を生成するために単一のフォワードパスしか必要としない。 GLEANは、マルチ解像度スキップ接続を備えた単純なエンコーダバンクデコーダアーキテクチャに簡単に組み込むことができる。 銀行を切り替えることで、猫、建物、人間の顔、車などの様々なカテゴリの画像を扱うことができる。 GLEANによりアップスケールされた画像は、既存手法と比較して忠実度とテクスチャ忠実度において明らかに改善されている。

We show that pre-trained Generative Adversarial Networks (GANs), e.g., StyleGAN, can be used as a latent bank to improve the restoration quality of large-factor image super-resolution (SR). While most existing SR approaches attempt to generate realistic textures through learning with adversarial loss, our method, Generative LatEnt bANk (GLEAN), goes beyond existing practices by directly leveraging rich and diverse priors encapsulated in a pre-trained GAN. But unlike prevalent GAN inversion methods that require expensive image-specific optimization at runtime, our approach only needs a single forward pass to generate the upscaled image. GLEAN can be easily incorporated in a simple encoder-bank-decoder architecture with multi-resolution skip connections. Switching the bank allows the method to deal with images from diverse categories, e.g., cat, building, human face, and car. Images upscaled by GLEAN show clear improvements in terms of fidelity and texture faithfulness in comparison to existing methods.
翻訳日:2021-05-31 00:57:30 公開日:2020-12-01
# (参考訳) gcnとbertを用いたポーズに基づく手話認識 [全文訳有]

Pose-based Sign Language Recognition using GCN and BERT ( http://arxiv.org/abs/2012.00781v1 )

ライセンス: CC BY 4.0
Anirudh Tunga, Sai Vidyaranya Nuthalapati, Juan Wachs(参考訳) 手話認識(SLR)は、聴覚と聴覚障害のあるコミュニティと他の社会とのコミュニケーションギャップを埋める上で重要な役割を担っている。 単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。 しかし、言葉の意味は微妙な体の動き、手の動き、その他の動きの組み合わせに依存するため、ビデオからサインを認識することは難しい作業である。 WSLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。 本稿では,空間的および時間的情報を分離し,遅延融合を行う新しいポーズベースアプローチを用いて,wslrの問題に取り組む。 提案するアーキテクチャは,ビデオ内の空間的相互作用をグラフ畳み込みネットワーク(gcn)を用いて明示的に捉える。 フレーム間の時間的依存関係は、変換器(BERT)からの双方向エンコーダ表現を用いてキャプチャされる。 標準の単語レベル手話認識データセットであるwlaslの実験結果は, 予測精度を最大5%向上させることで, ポーズベース手法の最先端を著しく上回っていることを示している。

Sign language recognition (SLR) plays a crucial role in bridging the communication gap between the hearing and vocally impaired community and the rest of the society. Word-level sign language recognition (WSLR) is the first important step towards understanding and interpreting sign language. However, recognizing signs from videos is a challenging task as the meaning of a word depends on a combination of subtle body motions, hand configurations, and other movements. Recent pose-based architectures for WSLR either model both the spatial and temporal dependencies among the poses in different frames simultaneously or only model the temporal information without fully utilizing the spatial information. We tackle the problem of WSLR using a novel pose-based approach, which captures spatial and temporal information separately and performs late fusion. Our proposed architecture explicitly captures the spatial interactions in the video using a Graph Convolutional Network (GCN). The temporal dependencies between the frames are captured using Bidirectional Encoder Representations from Transformers (BERT). Experimental results on WLASL, a standard word-level sign language recognition dataset show that our model significantly outperforms the state-of-the-art on pose-based methods by achieving an improvement in the prediction accuracy by up to 5%.
翻訳日:2021-05-31 00:47:22 公開日:2020-12-01
# (参考訳) 表現空間における対向ロバスト性 [全文訳有]

Adversarial Robustness Across Representation Spaces ( http://arxiv.org/abs/2012.00802v1 )

ライセンス: CC BY 4.0
Pranjal Awasthi, George Yu, Chun-Sung Ferng, Andrew Tomkins, Da-Cheng Juan(参考訳) 敵対的ロバスト性は、テスト時に生じる知覚不能な摂動に対するディープニューラルネットワークの感受性に対応する。 画像タスクの文脈では、ニューラルネットワークを入力ピクセルに対する逆摂動に頑健にするために、多くのアルゴリズムが提案されている。 これらの摂動は通常$\ell_p$ノルムで測定される。 しかし、堅牢性は訓練に使用される特定の攻撃に対してのみ維持されることが多い。 本研究では,複数の自然表現空間に適用できる摂動にロバストな深層ニューラルネットワークの学習問題を検討するために,上記の設定を拡張した。 画像データの例としては、標準的なピクセル表現や離散コサイン変換~(DCT)基底での表現がある。 上記の問題に対する公式な保証付き理論的に健全なアルゴリズムを設計する。 さらに、当社の保証は、複数の$\ell_p$標準ベースの攻撃に対して堅牢性を必要とする場合にも有効です。 次に、効率的な実践的実装を導き、画像分類のための標準データセットに対するアプローチの有効性を実証する。

Adversarial robustness corresponds to the susceptibility of deep neural networks to imperceptible perturbations made at test time. In the context of image tasks, many algorithms have been proposed to make neural networks robust to adversarial perturbations made to the input pixels. These perturbations are typically measured in an $\ell_p$ norm. However, robustness often holds only for the specific attack used for training. In this work we extend the above setting to consider the problem of training of deep neural networks that can be made simultaneously robust to perturbations applied in multiple natural representation spaces. For the case of image data, examples include the standard pixel representation as well as the representation in the discrete cosine transform~(DCT) basis. We design a theoretically sound algorithm with formal guarantees for the above problem. Furthermore, our guarantees also hold when the goal is to require robustness with respect to multiple $\ell_p$ norm based attacks. We then derive an efficient practical implementation and demonstrate the effectiveness of our approach on standard datasets for image classification.
翻訳日:2021-05-31 00:30:49 公開日:2020-12-01
# (参考訳) 静的コールグラフにおける関数表現を用いたマルウェア分類 [全文訳有]

Classifying Malware Using Function Representations in a Static Call Graph ( http://arxiv.org/abs/2012.01939v1 )

ライセンス: CC BY 4.0
Thomas Dalton, Mauritius Schmidtler, Alireza Hadj Khodabakhshi(参考訳) 本稿では,x86アセンブリ命令の関数呼び出しグラフを用いてマルウェアファミリーを同定する深層学習手法を提案する。 静的なコールグラフ解析に関する先行研究は存在するが、問題への現代的な原則付き特徴学習技術の応用はほとんどない。 本稿では,x86命令のシーケンスを高密度の潜在ベクトルにマッピングするリカレントニューラルネットワーク(RNN)オートエンコーダを用いて,関数表現が得られた実行可能な関数コールグラフを利用するシステムを提案する。 これらの関数埋め込みは、呼び出し依存性を示すエッジを持つグラフの頂点としてモデル化される。 実行可能ファイルのリッチでノードレベルの表現とグローバルなトポロジ的特性の取得は、マルウェアのファミリー検出率を大幅に向上させ、退屈な機能エンジニアリングやドメインの専門知識を意図的に回避する方法で、この問題に対するより原則的なアプローチに寄与する。 われわれは,Microsoftのマルウェア分類データセット上でいくつかの実験を行い,99.41%の精度でマルウェア群を分離した。

We propose a deep learning approach for identifying malware families using the function call graphs of x86 assembly instructions. Though prior work on static call graph analysis exists, very little involves the application of modern, principled feature learning techniques to the problem. In this paper, we introduce a system utilizing an executable's function call graph where function representations are obtained by way of a recurrent neural network (RNN) autoencoder which maps sequences of x86 instructions into dense, latent vectors. These function embeddings are then modeled as vertices in a graph with edges indicating call dependencies. Capturing rich, node-level representations as well as global, topological properties of an executable file greatly improves malware family detection rates and contributes to a more principled approach to the problem in a way that deliberately avoids tedious feature engineering and domain expertise. We test our approach by performing several experiments on a Microsoft malware classification data set and achieve excellent separation between malware families with a classification accuracy of 99.41%.
翻訳日:2021-05-30 23:37:11 公開日:2020-12-01
# (参考訳) FFD:高速機能検出器 [全文訳有]

FFD: Fast Feature Detector ( http://arxiv.org/abs/2012.00859v1 )

ライセンス: CC BY 4.0
Morteza Ghahremani and Yonghuai Liu and Bernard Tiddeman(参考訳) スケール不変性、良い位置化、ノイズや歪みに対する堅牢性は、局所的特徴検出器が持つべき主な特性である。 既存のほとんどの局所特徴検出器は、マッチングすべきキーポイントの数とマッチングステップの計算時間を増やす過度な不安定な特徴点を見つける。 本稿では,特定のスケール空間領域にロバストかつ正確なキーポイントが存在することを示す。 この目的のために、まず重ね合わせ問題を数学的モデルに定式化し、次にマルチスケール解析のための閉形式解を導出する。 このモデルは連続的スケール空間領域における差分ガウス(DoG)カーネルを介して定式化され、スケール空間ピラミッドのぼやけた比と滑らかさを2と0.627に設定することで、信頼性の高いキーポイントの検出を容易にすることが証明された。 提案手法を離散画像に適用するために,非効率なウェーブレット変換と立方スプライン関数を用いて離散化を行う。 理論的には、本手法の複雑性は、一般的なベースラインスケール不変特徴変換(sift)の5\%以下である。 広範囲な実験結果から,既存の手作り・学習技術よりも精度と計算時間に優れた特徴検出器が提案されている。 コードと補足資料は~{\url{https://github.com/m ogvision/FFD}}にある。

Scale-invariance, good localization and robustness to noise and distortions are the main properties that a local feature detector should possess. Most existing local feature detectors find excessive unstable feature points that increase the number of keypoints to be matched and the computational time of the matching step. In this paper, we show that robust and accurate keypoints exist in the specific scale-space domain. To this end, we first formulate the superimposition problem into a mathematical model and then derive a closed-form solution for multiscale analysis. The model is formulated via difference-of-Gaussi an (DoG) kernels in the continuous scale-space domain, and it is proved that setting the scale-space pyramid's blurring ratio and smoothness to 2 and 0.627, respectively, facilitates the detection of reliable keypoints. For the applicability of the proposed model to discrete images, we discretize it using the undecimated wavelet transform and the cubic spline function. Theoretically, the complexity of our method is less than 5\% of that of the popular baseline Scale Invariant Feature Transform (SIFT). Extensive experimental results show the superiority of the proposed feature detector over the existing representative hand-crafted and learning-based techniques in accuracy and computational time. The code and supplementary materials can be found at~{\url{https://github.com/m ogvision/FFD}}.
翻訳日:2021-05-30 23:02:11 公開日:2020-12-01
# (参考訳) 自己指導型表現学習の実践に向けて [全文訳有]

Towards Good Practices in Self-supervised Representation Learning ( http://arxiv.org/abs/2012.00868v1 )

ライセンス: CC BY 4.0
Srikar Appalaraju, Yi Zhu, Yusheng Xie, Istv\'an Feh\'erv\'ari(参考訳) 自己指導型表現学習はここ数年で顕著な進歩を遂げている。 近年、対照的なインスタンス学習は、教師付き学習と比較すると印象的な結果を示している。 しかし、相反的なインスタンス学習への関心がますます高まっているにもかかわらず、これらの方法がなぜそんなにうまく機能するのかは、いまだによく分かっていない。 本稿では,その成功の背景にある謎のいくつかを明らかにすることを目的としている。 広範な実証分析を通じて、洞察を提供するだけでなく、近年の自己指導型表現学習の成功に繋がる一連のベストプラクティスを策定したいと考えています。

Self-supervised representation learning has seen remarkable progress in the last few years. More recently, contrastive instance learning has shown impressive results compared to its supervised learning counterparts. However, even with the ever increased interest in contrastive instance learning, it is still largely unclear why these methods work so well. In this paper, we aim to unravel some of the mysteries behind their success, which are the good practices. Through an extensive empirical analysis, we hope to not only provide insights but also lay out a set of best practices that led to the success of recent work in self-supervised representation learning.
翻訳日:2021-05-30 22:17:36 公開日:2020-12-01
# (参考訳) 内因性障害タンパク質の集積構造生物学のための人工知能技術 [全文訳有]

Artificial intelligence techniques for integrative structural biology of intrinsically disordered proteins ( http://arxiv.org/abs/2012.00885v1 )

ライセンス: CC BY 4.0
Arvind Ramanathan and Heng Ma and Akash Parvatikar and Chakra S. Chennubhotla(参考訳) 本稿では,人工知能(AI)と機械学習(ML)による内因性障害タンパク質(IDP)アンサンブルの集積構造生物学の最近の進歩について概説する。 IDPは、特定の結合パートナーに応答してコンフォメーションを適応し、生物学的シグナル伝達、自己組織化、区画化などの多様で複雑な細胞機能を仲介することで、従来のタンパク質構造-機能パラダイムに挑戦する。 したがって、それらの機能に対する機械的な洞察を得ることは、伝統的な構造決定技術にとって困難である。 しばしば、科学者は機能メカニズムを特徴付けるために様々な実験技術から得られた断片的な証拠に頼る必要がある。 マルチスケールシミュレーションは、IDP構造関数の関係に関する重要な知識ギャップを橋渡しするのに役立つが、これらの技術はIDPコンフォーメーション・アンサンブル内の創発的な現象を解決するための課題にも直面する。 スケーラブルな統計的推論技術は、複数の実験手法から得られた情報とシミュレーションを効果的に統合し、これらの現象の原子学的詳細にアクセスできるようにする。

We outline recent developments in artificial intelligence (AI) and machine learning (ML) techniques for integrative structural biology of intrinsically disordered proteins (IDP) ensembles. IDPs challenge the traditional protein structure-function paradigm by adapting their conformations in response to specific binding partners leading them to mediate diverse, and often complex cellular functions such as biological signaling, self organization and compartmentalization . Obtaining mechanistic insights into their function can therefore be challenging for traditional structural determination techniques. Often, scientists have to rely on piecemeal evidence drawn from diverse experimental techniques to characterize their functional mechanisms. Multiscale simulations can help bridge critical knowledge gaps about IDP structure function relationships - however, these techniques also face challenges in resolving emergent phenomena within IDP conformational ensembles. We posit that scalable statistical inference techniques can effectively integrate information gleaned from multiple experimental techniques as well as from simulations, thus providing access to atomistic details of these emergent phenomena.
翻訳日:2021-05-30 22:08:40 公開日:2020-12-01
# (参考訳) 最大エントロピー逆強化学習の再検討--新しい展望とアルゴリズム [全文訳有]

Revisiting Maximum Entropy Inverse Reinforcement Learning: New Perspectives and Algorithms ( http://arxiv.org/abs/2012.00889v1 )

ライセンス: CC BY 4.0
Aaron J. Snoswell, Surya P. N. Singh, Nan Ye(参考訳) 我々は,最大エントロピー(MaxEnt)逆強化学習(IRL)のための新しい視点と推論アルゴリズムを提供し,多くの一貫した報酬関数のうち,与えられた専門家の実証と整合した最も非コミット的な報酬関数を求めるための原則的手法を提供する。 まず、エントロピーの最大化ではなく、KL分割の最小化に基づく一般化MaxEntの定式化を提案する。 これにより、MaxEnt IRLモデルの以前のヒューリスティックな導出が改善され、MaxEnt IRLとRelative Entropy IRLの統一的なビューが可能になり、MaxEnt IRLモデルのモデルフリー学習アルゴリズムが実現される。 第二に、既存の推論アルゴリズムと実装を慎重にレビューした結果、モデルを学ぶのに必要な限界をほぼ計算できた。 本稿では、これを例示し、効率的かつ正確な推論アルゴリズムを提案する。 提案アルゴリズムは, 可変長実演の処理が可能であり, また, 基本バージョンは最大実演長さLで2次時間を要するが, 改良版ではパディングトリックを用いて線形化できる。 実験の結果,我々のアルゴリズムは近似アルゴリズムに比べて報酬学習を改善することがわかった。 さらに,運転行動予測を含む大規模実世界のデータセットまでスケールアップする。 OpenAI Gymインタフェースと互換性のある最適化実装を提供する。 我々の新しい洞察とアルゴリズムは、元のMaxEnt IRLモデルのさらなる関心と探索につながる可能性がある。

We provide new perspectives and inference algorithms for Maximum Entropy (MaxEnt) Inverse Reinforcement Learning (IRL), which provides a principled method to find a most non-committal reward function consistent with given expert demonstrations, among many consistent reward functions. We first present a generalized MaxEnt formulation based on minimizing a KL-divergence instead of maximizing an entropy. This improves the previous heuristic derivation of the MaxEnt IRL model (for stochastic MDPs), allows a unified view of MaxEnt IRL and Relative Entropy IRL, and leads to a model-free learning algorithm for the MaxEnt IRL model. Second, a careful review of existing inference algorithms and implementations showed that they approximately compute the marginals required for learning the model. We provide examples to illustrate this, and present an efficient and exact inference algorithm. Our algorithm can handle variable length demonstrations; in addition, while a basic version takes time quadratic in the maximum demonstration length L, an improved version of this algorithm reduces this to linear using a padding trick. Experiments show that our exact algorithm improves reward learning as compared to the approximate ones. Furthermore, our algorithm scales up to a large, real-world dataset involving driver behaviour forecasting. We provide an optimized implementation compatible with the OpenAI Gym interface. Our new insight and algorithms could possibly lead to further interest and exploration of the original MaxEnt IRL model.
翻訳日:2021-05-30 21:40:22 公開日:2020-12-01
# (参考訳) 歪み画像品質評価のための深層マルチスケール特徴学習 [全文訳有]

Deep Multi-Scale Features Learning for Distorted Image Quality Assessment ( http://arxiv.org/abs/2012.01980v1 )

ライセンス: CC BY 4.0
Wei Zhou and Zhibo Chen(参考訳) 画像品質評価(IQA)は、人間の知覚に基づく視覚的品質を推定することを目的としている。 既存のディープニューラルネットワーク(DNN)はIQA問題に取り組む上で大きな効果を示しているが、効率的なマルチスケール機能を利用することで、DNNベースの品質評価モデルを改善する必要がある。 本稿では,人間の視覚システム(HVS)がマルチスケールの知覚機能を組み合わせることを目的として,ピラミッド特徴学習を用いて階層的なマルチスケール特徴を持つDNNを構築することを提案する。 本モデルは,空間的ピラミッドプールと特徴ピラミッドをネットワーク構造から含む輝度領域における残差マップと歪み画像の両方に基づいている。 提案するネットワークは、エンドツーエンドの監視方法に最適化されている。 提案手法の有効性を検証するため,広範に利用されている4つの画像品質評価データベース上で広範囲な実験を行い,アルゴリズムの優位性を実証した。

Image quality assessment (IQA) aims to estimate human perception based image visual quality. Although existing deep neural networks (DNNs) have shown significant effectiveness for tackling the IQA problem, it still needs to improve the DNN-based quality assessment models by exploiting efficient multi-scale features. In this paper, motivated by the human visual system (HVS) combining multi-scale features for perception, we propose to use pyramid features learning to build a DNN with hierarchical multi-scale features for distorted image quality prediction. Our model is based on both residual maps and distorted images in luminance domain, where the proposed network contains spatial pyramid pooling and feature pyramid from the network structure. Our proposed network is optimized in a deep end-to-end supervision manner. To validate the effectiveness of the proposed method, extensive experiments are conducted on four widely-used image quality assessment databases, demonstrating the superiority of our algorithm.
翻訳日:2021-05-30 21:20:02 公開日:2020-12-01
# (参考訳) 説明の評価:教員助成生からの説明はどの程度か? [全文訳有]

Evaluating Explanations: How much do explanations from the teacher aid students? ( http://arxiv.org/abs/2012.00893v1 )

ライセンス: CC BY 4.0
Danish Pruthi, Bhuwan Dhingra, Livio Baldini Soares, Michael Collins, Zachary C. Lipton, Graham Neubig, William W. Cohen(参考訳) 健全な特徴を強調して予測を説明する方法が多いが、これらの説明の正確な目的と有用性を評価する方法はしばしば定かではない。 本研究は,説明が利用可能でない未確認例の教師モデルシミュレーションを学習中の生徒モデル改善の程度を測定する学生・教師パラダイムを用いて,説明の価値を定式化する。 学生モデルは(予測ではなく)訓練手順に説明を取り入れている。 説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にする。 このフレームワークを用いて,複数の帰属方法を比較し,複数の学習戦略で一貫性と定量的な差異を観察する。

While many methods purport to explain predictions by highlighting salient features, what precise aims these explanations serve and how to evaluate their utility are often unstated. In this work, we formalize the value of explanations using a student-teacher paradigm that measures the extent to which explanations improve student models in learning to simulate the teacher model on unseen examples for which explanations are unavailable. Student models incorporate explanations in training (but not prediction) procedures. Unlike many prior proposals to evaluate explanations, our approach cannot be easily gamed, enabling principled, scalable, and automatic evaluation of attributions. Using our framework, we compare multiple attribution methods and observe consistent and quantitative differences amongst them across multiple learning strategies.
翻訳日:2021-05-30 21:05:41 公開日:2020-12-01
# 感情分析のための統一フレームワークを目指して

Towards a Unified Framework for Emotion Analysis ( http://arxiv.org/abs/2012.00190v1 )

ライセンス: Link先を確認
Sven Buechel, Luise Modersohn, and Udo Hahn(参考訳) 我々は,異なるタスク(意味レベル,単語レベル,ラベル間マッピング),ドメイン(自然言語とそのレジスタ),ラベル形式(例えば,極性クラス,基本的な感情,感情的次元)に対する感情分析を一般化した,モジュール化されたエンコーダ・デコーダアーキテクチャであるemocoderを提案する。 14のデータセットに関する実験は、エモコーダが感情の解釈可能な言語に依存しない表現を学習し、最先端のモデルのシームレスな吸収を可能にし、ドメインとラベルフォーマットの見当たらない組み合わせでテストしても強力な予測品質を維持することを示している。

We present EmoCoder, a modular encoder-decoder architecture that generalizes emotion analysis over different tasks (sentence-level, word-level, label-to-label mapping), domains (natural languages and their registers), and label formats (e.g., polarity classes, basic emotions, and affective dimensions). Experiments on 14 datasets indicate that EmoCoder learns an interpretable language-independent representation of emotions, allows seamless absorption of state-of-the-art models, and maintains strong prediction quality, even when tested on unseen combinations of domains and label formats.
翻訳日:2021-05-30 20:13:29 公開日:2020-12-01
# モンテカルロ目的のための相互情報制約

Mutual Information Constraints for Monte-Carlo Objectives ( http://arxiv.org/abs/2012.00708v1 )

ライセンス: Link先を確認
G\'abor Melis, Andr\'as Gy\"orgy, Phil Blunsom(参考訳) 変分オートエンコーダとして訓練された密度モデルの一般的な失敗モードは、潜在変数に頼ることなくデータをモデル化することであり、これらの変数は役に立たない。 モデルの過小分類と変分下界のゆるさという2つの寄与因子は、文献の中で別々に研究されている。 これら2つの研究、特にモンテカルロの目的の厳密な境界と観測変数と潜伏変数の間の相互情報に関する制約を共に織り込んだ。 q(z|x)$ はモデルの真の後値 $p(z|x)$ の直接近似ではないため、容易に使用可能な変分後値$q(z|x)$ とモンテカルロ目的との間の平均的なkullback-leibler 分岐として相互情報を推定することは、もはや機能しない。 そこで, 本研究の目的は, 連続潜水モデルと離散潜水モデルの訓練を行い, 速度歪みを著しく改善し, 後部崩壊を起こさないことで, 真後部のKulback-Leibler偏差の推定器を構築することである。 緩和しつつも、データモデリングと潜在子の使用の間のトレードオフは依然として残っており、様々な相互情報値に対する推論手法の評価を推奨する。

A common failure mode of density models trained as variational autoencoders is to model the data without relying on their latent variables, rendering these variables useless. Two contributing factors, the underspecification of the model and the looseness of the variational lower bound, have been studied separately in the literature. We weave these two strands of research together, specifically the tighter bounds of Monte-Carlo objectives and constraints on the mutual information between the observable and the latent variables. Estimating the mutual information as the average Kullback-Leibler divergence between the easily available variational posterior $q(z|x)$ and the prior does not work with Monte-Carlo objectives because $q(z|x)$ is no longer a direct approximation to the model's true posterior $p(z|x)$. Hence, we construct estimators of the Kullback-Leibler divergence of the true posterior from the prior by recycling samples used in the objective, with which we train models of continuous and discrete latents at much improved rate-distortion and no posterior collapse. While alleviated, the tradeoff between modelling the data and using the latents still remains, and we urge for evaluating inference methods across a range of mutual information values.
翻訳日:2021-05-30 20:13:10 公開日:2020-12-01
# ASR再構成のためのFederated Marginal Personalization

Federated Marginal Personalization for ASR Rescoring ( http://arxiv.org/abs/2012.00898v1 )

ライセンス: Link先を確認
Zhe Liu, Fuchun Peng(参考訳) 本稿では,federated marginal personalization (fmp) について紹介する。federated learning (fl) を用いた個人用ニューラルネットワークモデル(nnlms)の連続更新手法である。 FMPは、個人データに基づいてNNLMのパラメータを微調整する代わりに、グローバルおよびパーソナライズされた単語の辺縁分布を定期的に推定し、各単語固有の適応係数によってNNLMの確率を調整する。 提案手法は,federated fine-tuningの限界を克服し,デバイス上でパーソナライズされたnnlmを効率的に学習する。 第二パスASR再構成タスクにおけるFMPの適用について検討する。 2つの音声評価データセットに関する実験では、控えめな単語誤り率(wer)低減を示す。 また、FMPが音声認識精度を無視できるコストで適切なプライバシーを提供できることを示した。

We introduce federated marginal personalization (FMP), a novel method for continuously updating personalized neural network language models (NNLMs) on private devices using federated learning (FL). Instead of fine-tuning the parameters of NNLMs on personal data, FMP regularly estimates global and personalized marginal distributions of words, and adjusts the probabilities from NNLMs by an adaptation factor that is specific to each word. Our presented approach can overcome the limitations of federated fine-tuning and efficiently learn personalized NNLMs on devices. We study the application of FMP on second-pass ASR rescoring tasks. Experiments on two speech evaluation datasets show modest word error rate (WER) reductions. We also demonstrate that FMP could offer reasonable privacy with only a negligible cost in speech recognition accuracy.
翻訳日:2021-05-30 20:09:19 公開日:2020-12-01
# 変圧器モデルにおける記憶の修正

Modifying Memories in Transformer Models ( http://arxiv.org/abs/2012.00363v1 )

ライセンス: Link先を確認
Chen Zhu, Ankit Singh Rawat, Manzil Zaheer, Srinadh Bhojanapalli, Daliang Li, Felix Yu, Sanjiv Kumar(参考訳) 大規模なトランスフォーマーモデルは、多くの自然言語タスクで素晴らしいパフォーマンスを達成しました。 特にトランスフォーマーに基づく言語モデルは、膨大な量のパラメータで事実知識を符号化する優れた能力を持っていることが示されている。 トランスフォーマーの記憶と一般化を改善するタスクは広く研究されているが、トランスフォーマーが特定の古い事実を忘れ、新しい事実を記憶する方法はよく分かっていない。 本稿では,トランスフォーマーモデルにおける具体的事実知識を複雑に修正しつつ,モデル性能が無修正の事実に劣化しないようにするための新しいタスクを提案する。 このタスクは、古い知識の更新、プライバシの保護、モデルに格納された意図しないバイアスの排除など、多くのシナリオで有用である。 このタスクで自然なベースラインのパフォーマンスを提供するいくつかのアプローチをベンチマークした。 これにより、特に知識の修正に有効なトランスフォーマーモデルのキーコンポーネントが発見される。 この研究は、異なるトレーニングフェーズ(事前トレーニングや微調整など)が記憶と知識の修正に果たす役割についての洞察も提供する。

Large Transformer models have achieved impressive performance in many natural language tasks. In particular, Transformer based language models have been shown to have great capabilities in encoding factual knowledge in their vast amount of parameters. While the tasks of improving the memorization and generalization of Transformers have been widely studied, it is not well known how to make transformers forget specific old facts and memorize new ones. In this paper, we propose a new task of \emph{explicitly modifying specific factual knowledge in Transformer models while ensuring the model performance does not degrade on the unmodified facts}. This task is useful in many scenarios, such as updating stale knowledge, protecting privacy, and eliminating unintended biases stored in the models. We benchmarked several approaches that provide natural baseline performances on this task. This leads to the discovery of key components of a Transformer model that are especially effective for knowledge modifications. The work also provides insights into the role that different training phases (such as pretraining and fine-tuning) play towards memorization and knowledge modification.
翻訳日:2021-05-30 20:08:56 公開日:2020-12-01
# XAIのためのシンボリックAI:公正かつ説明可能な自動リクルートのためのLFITインダクティブプログラミングの評価

Symbolic AI for XAI: Evaluating LFIT Inductive Programming for Fair and Explainable Automatic Recruitment ( http://arxiv.org/abs/2012.00360v1 )

ライセンス: Link先を確認
Alfonso Ortega and Julian Fierrez and Aythami Morales and Zilong Wang and Tony Ribeiro(参考訳) 機械学習の手法は、法医学、eヘルス、採用、eラーニングといった分野におけるバイオメトリックスと個人情報処理の関連性が高まっている。 これらのドメインでは、機械学習手法に基づいて構築されたシステムのホワイトボックス(人間可読性)の説明が重要である。 帰納的論理プログラミング(ilp)は、データ処理に関する宣言的理論を自動的に学習することを目的としたシンボリックaiのサブフィールドである。 LFIT(Learning from Interpretation Transition)は、特定のブラックボックスシステム(特定の条件下で)と同等の命題論理理論を学習できるICP技術である。 本研究は,ソフトバイオメトリック情報(性別と民族性)を組み込んだCurricula Vitaeのランク付けのための機械学習手法によって生成された,公正な採用方法に基づく,特定のAIアプリケーションシナリオにおけるLFITの有効性をチェックすることによって,古典的機械学習に正確な宣言的説明を組み込むための一般的な方法論への第一歩である。 本稿では,この問題に対するLFITの表現性を示し,他の領域に適用可能なスキームを提案する。

Machine learning methods are growing in relevance for biometrics and personal information processing in domains such as forensics, e-health, recruitment, and e-learning. In these domains, white-box (human-readable) explanations of systems built on machine learning methods can become crucial. Inductive Logic Programming (ILP) is a subfield of symbolic AI aimed to automatically learn declarative theories about the process of data. Learning from Interpretation Transition (LFIT) is an ILP technique that can learn a propositional logic theory equivalent to a given black-box system (under certain conditions). The present work takes a first step to a general methodology to incorporate accurate declarative explanations to classic machine learning by checking the viability of LFIT in a specific AI application scenario: fair recruitment based on an automatic tool generated with machine learning methods for ranking Curricula Vitae that incorporates soft biometric information (gender and ethnicity). We show the expressiveness of LFIT for this specific problem and propose a scheme that can be applicable to other domains.
翻訳日:2021-05-30 20:08:29 公開日:2020-12-01
# latent programmers: プログラム合成のための離散的潜在コード

Latent Programmer: Discrete Latent Codes for Program Synthesis ( http://arxiv.org/abs/2012.00377v1 )

ライセンス: Link先を確認
Joey Hong and David Dohan and Rishabh Singh and Charles Sutton and Manzil Zaheer(参考訳) プログラム合成や文書要約などの多くのシーケンス学習タスクにおいて、重要な問題は出力シーケンスの広い空間を探索することである。 検索に特有な出力の表現を学習することを提案する: 望ましい出力を指定できるほどリッチだが、検索をより効率的にするためのコンパクトである。 離散潜在コードは、自然に高度な組合せ探索戦略を可能にするため、この目的のために魅力的である。 潜在コードは、最初に出力シーケンスで離散オートエンコーダを訓練し、その後、エンドツーエンドシーケンス予測タスクの中間目標として使用する自己教師付き学習原理を用いて学習される。 これらの知見に基づいて,まず入力/出力サンプルから離散潜在コードを予測するプログラム合成法である \emph{Latent Programmer} を導入し,そのプログラムを対象言語で生成する。 我々は,文字列変換プログラムの合成と自然言語記述からのプログラム生成という2つの領域で潜在プログラマを評価する。 離散潜在表現が合成精度を大幅に向上させることを示す。

In many sequence learning tasks, such as program synthesis and document summarization, a key problem is searching over a large space of possible output sequences. We propose to learn representations of the outputs that are specifically meant for search: rich enough to specify the desired output but compact enough to make search more efficient. Discrete latent codes are appealing for this purpose, as they naturally allow sophisticated combinatorial search strategies. The latent codes are learned using a self-supervised learning principle, in which first a discrete autoencoder is trained on the output sequences, and then the resulting latent codes are used as intermediate targets for the end-to-end sequence prediction task. Based on these insights, we introduce the \emph{Latent Programmer}, a program synthesis method that first predicts a discrete latent code from input/output examples, and then generates the program in the target language. We evaluate the Latent Programmer on two domains: synthesis of string transformation programs, and generation of programs from natural language descriptions. We demonstrate that the discrete latent representation significantly improves synthesis accuracy.
翻訳日:2021-05-30 20:07:59 公開日:2020-12-01
# 非定常ラテントバンド

Non-Stationary Latent Bandits ( http://arxiv.org/abs/2012.00386v1 )

ライセンス: Link先を確認
Joey Hong, Branislav Kveton, Manzil Zaheer, Yinlam Chow, Amr Ahmed, Mohammad Ghavamzadeh, Craig Boutilier(参考訳) 推奨システムのユーザは、時間とともに好みや好みが変化するため、非定常的な振る舞いをすることが多い。 本研究では,非定常ユーザに対する高速パーソナライゼーションのための実践的アプローチを提案する。 鍵となるアイデアは、この問題を潜在バンディットとして、ユーザ行動のプロトタイプモデルがオフラインで学習され、潜在状態がモデルとのインタラクションからオンラインに推論される、というものである。 我々はこの問題を非定常潜伏バンディットと呼んでいる。 我々は,非定常潜在バンディットにおける後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。 提案手法の主な強みは,オフライン学習モデルと組み合わせることが可能であることだ。 このようにして、オフラインとオンライン学習の強みを自然に組み合わせます。

Users of recommender systems often behave in a non-stationary fashion, due to their evolving preferences and tastes over time. In this work, we propose a practical approach for fast personalization to non-stationary users. The key idea is to frame this problem as a latent bandit, where the prototypical models of user behavior are learned offline and the latent state of the user is inferred online from its interactions with the models. We call this problem a non-stationary latent bandit. We propose Thompson sampling algorithms for regret minimization in non-stationary latent bandits, analyze them, and evaluate them on a real-world dataset. The main strength of our approach is that it can be combined with rich offline-learned models, which can be misspecified, and are subsequently fine-tuned online using posterior sampling. In this way, we naturally combine the strengths of offline and online learning.
翻訳日:2021-05-30 20:07:32 公開日:2020-12-01
# 分布一般化のための予測脳モデルとしての反復的vae

Iterative VAE as a predictive brain model for out-of-distribution generalization ( http://arxiv.org/abs/2012.00557v1 )

ライセンス: Link先を確認
Victor Boutin, Aimen Zerroug, Minju Jung, Thomas Serre(参考訳) トレーニングデータを超えて、新たな分散的画像分解に一般化する能力は、霊長類のビジョンの目印です。 予測脳は、予測符号化ネットワーク(PCN)によって実証され、神経計算の顕著な神経科学理論となっている。 近年の機械学習における変分オートエンコーダ(VAE)の成功に触発されて,PCNとVAEの対応関係を厳格に導き出した。 これはvaes (ivaes) の反復拡張を pcn の可算な変分拡張として考える動機付けである。 さらに,iVAEsは,PCNやVAEよりも分布シフトに優れることを示した。 また,人間の心理物理学的データに対して検査できる個別サンプルの認識可能性の新たな尺度を提案する。 全体として、この研究が神経科学のモデリングの新しい方向性としてiVAEへの関心を喚起することを願っている。

Our ability to generalize beyond training data to novel, out-of-distribution, image degradations is a hallmark of primate vision. The predictive brain, exemplified by predictive coding networks (PCNs), has become a prominent neuroscience theory of neural computation. Motivated by the recent successes of variational autoencoders (VAEs) in machine learning, we rigorously derive a correspondence between PCNs and VAEs. This motivates us to consider iterative extensions of VAEs (iVAEs) as plausible variational extensions of the PCNs. We further demonstrate that iVAEs generalize to distributional shifts significantly better than both PCNs and VAEs. In addition, we propose a novel measure of recognizability for individual samples which can be tested against human psychophysical data. Overall, we hope this work will spur interest in iVAEs as a promising new direction for modeling in neuroscience.
翻訳日:2021-05-30 20:06:29 公開日:2020-12-01
# バイリンガル辞書からの構文抽出

Extracting Synonyms from Bilingual Dictionaries ( http://arxiv.org/abs/2012.00600v1 )

ライセンス: Link先を確認
Mustafa Jarrar, Eman Karajah, Muhammad Khalifa, Khaled Shaalan(参考訳) 本稿では,バイリンガル辞書から同義語を抽出する新しいアルゴリズムの開発について述べる。 同義語の識別と使用は情報アクセスアプリケーションの性能向上に重要な役割を果たしている。 そのアイデアは、翻訳対から翻訳グラフを構築し、巡回経路を抽出・統合し、同義語のバイリンガル集合を形成することである。 このアルゴリズムの最初の評価は、アラビア語と英語の両言語同義語を抽出する有望な結果を示している。 評価では、アラビア語のWordNetのシンセセットを翻訳ペア(つまり、単語センスの会員を失う)に変換した。 次に、これらの合成集合を再構築するためにアルゴリズムを適用した。 アラビア語と英語のシンセットをそれぞれ82.3%と82.1%のf-測定値を得たオリジナルと抽出されたシンセットを比較した。

We present our progress in developing a novel algorithm to extract synonyms from bilingual dictionaries. Identification and usage of synonyms play a significant role in improving the performance of information access applications. The idea is to construct a translation graph from translation pairs, then to extract and consolidate cyclic paths to form bilingual sets of synonyms. The initial evaluation of this algorithm illustrates promising results in extracting Arabic-English bilingual synonyms. In the evaluation, we first converted the synsets in the Arabic WordNet into translation pairs (i.e., losing word-sense memberships). Next, we applied our algorithm to rebuild these synsets. We compared the original and extracted synsets obtaining an F-Measure of 82.3% and 82.1% for Arabic and English synsets extraction, respectively.
翻訳日:2021-05-30 20:05:22 公開日:2020-12-01
# 安全制約のある分散マルチエージェント線形バンディット

Decentralized Multi-Agent Linear Bandits with Safety Constraints ( http://arxiv.org/abs/2012.00314v1 )

ライセンス: Link先を確認
Sanae Amani, Christos Thrampoulidis(参考訳) 本研究では,n$エージェントのネットワークが協調して作用し,d$次元空間上の線形バンディット最適化問題を効率的に解く分散確率的線形バンディットについて検討する。 そこで本研究では,ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズムDLUCBを提案する。 アルゴリズムの各ラウンドにおいて、各エージェントは、uper confidence bound(ucb)戦略に従ってそのアクションを選択し、エージェントは、サイクルを繰り返す注意深く設計されたコンセンサス手順を通じて情報を共有する。 提案手法は,1ラウンドあたり$\mathcal{o}(dn^2)$の通信速度で,ほぼ最適の後悔性能である$\mathcal{o}(d\log{nt}\sqrt{nt})$を保証する。 ネットワークの構造は、基礎となるグラフのスペクトルギャップに依存する小さな加算項(遅延の後悔)を通して、後悔のパフォーマンスに影響を与える。 特に,サーバとして機能する専用エージェントを必要とせず,任意のネットワークトポロジに適用した。 通信コストの高い状況を考慮して,DLUCBとエージェント間の通信が希少であるRC-DLUCBを提案する。 新しいアルゴリズムは、すべてのT$ラウンドで$\mathcal{O}(d^3N^{2.5})$の通信コストを大幅に削減するために、後悔のパフォーマンスをトレードオフする。 そして最後に、私たちのアイデアが、より困難ではあるが、より安全な盗賊の設定へと自然に広がることを示す。 線形安全制約が未知な線形バンディットの最近研究された問題に対して,我々は最初の安全な分散アルゴリズムを提案する。 本研究は,未知の確率環境に繰り返し対処する安全クリティカル分散システムにおける帯域幅技術の適用に寄与する。 理論的な知見を裏付ける様々なネットワークトポロジーの数値シミュレーションを提案する。

We study decentralized stochastic linear bandits, where a network of $N$ agents acts cooperatively to efficiently solve a linear bandit-optimization problem over a $d$-dimensional space. For this problem, we propose DLUCB: a fully decentralized algorithm that minimizes the cumulative regret over the entire network. At each round of the algorithm each agent chooses its actions following an upper confidence bound (UCB) strategy and agents share information with their immediate neighbors through a carefully designed consensus procedure that repeats over cycles. Our analysis adjusts the duration of these communication cycles ensuring near-optimal regret performance $\mathcal{O}(d\log{NT}\sqrt{NT})$ at a communication rate of $\mathcal{O}(dN^2)$ per round. The structure of the network affects the regret performance via a small additive term - coined the regret of delay - that depends on the spectral gap of the underlying graph. Notably, our results apply to arbitrary network topologies without a requirement for a dedicated agent acting as a server. In consideration of situations with high communication cost, we propose RC-DLUCB: a modification of DLUCB with rare communication among agents. The new algorithm trades off regret performance for a significantly reduced total communication cost of $\mathcal{O}(d^3N^{2.5})$ over all $T$ rounds. Finally, we show that our ideas extend naturally to the emerging, albeit more challenging, setting of safe bandits. For the recently studied problem of linear bandits with unknown linear safety constraints, we propose the first safe decentralized algorithm. Our study contributes towards applying bandit techniques in safety-critical distributed systems that repeatedly deal with unknown stochastic environments. We present numerical simulations for various network topologies that corroborate our theoretical findings.
翻訳日:2021-05-30 20:05:02 公開日:2020-12-01
# 漂流特性の解析

Analysis of Drifting Features ( http://arxiv.org/abs/2012.00499v1 )

ライセンス: Link先を確認
Fabian Hinder, Jonathan Jakob, Barbara Hammer(参考訳) 概念ドリフトの概念は、観測データの背後にある分布が時間とともに変化する現象を指す。 我々は、観測された漂流に最も関係のあるこれらの特徴の同定に興味を持っている。 我々は,観測された特徴のドリフトが他の特徴によって説明できないドリフト誘発特徴と,他の特徴の現在のドリフトと相関する忠実なドリフト特徴とを区別する。 この概念は、観測されたドリフト全体を特徴づけることのできる特徴空間の最小部分集合をもたらす。 この問題を特徴選択問題と特徴関連学習問題に関連付け,検出アルゴリズムの導出を可能にした。 異なるベンチマークでその有用性を示す。

The notion of concept drift refers to the phenomenon that the distribution, which is underlying the observed data, changes over time. We are interested in an identification of those features, that are most relevant for the observed drift. We distinguish between drift inducing features, for which the observed feature drift cannot be explained by any other feature, and faithfully drifting features, which correlate with the present drift of other features. This notion gives rise to minimal subsets of the feature space, which are able to characterize the observed drift as a whole. We relate this problem to the problems of feature selection and feature relevance learning, which allows us to derive a detection algorithm. We demonstrate its usefulness on different benchmarks.
翻訳日:2021-05-30 20:04:16 公開日:2020-12-01
# 2つのタイムポイントによる深い動的モデリング: 個々のトラジェクタを許容できるのか?

Deep dynamic modeling with just two time points: Can we still allow for individual trajectories? ( http://arxiv.org/abs/2012.00634v1 )

ライセンス: Link先を確認
Maren Hackenberg, Philipp Harms, Thorsten Schmidt, Harald Binder(参考訳) 縦断的バイオメディカルデータは、しばしばスパースタイムグリッドと個人固有の開発パターンによって特徴づけられる。 具体的には、疫学的コホート研究や臨床登録では、基礎的特徴と1つのフォローアップ測定のみが利用可能である場合、研究の初期段階でデータから何が学べるかという問題に直面している。 深層学習と動的モデリングを組み合わせることを可能にする最近の進歩に触発されて、そのアプローチが複雑な構造を明らかにするのに有用であるかどうか、特に個々の観測時間点を2つしか持たない極小データセットについて検討する。 時間の不規則な間隔は、個人の類似性を活用することで、個人のダイナミクスに関するより多くの情報を得るために使うことができる。 本稿では, 変分自己エンコーダ (VAE) を動的モデリングのための常微分方程式 (ODE) とどのように関連づけるかを概観し, 正規性仮定と個人類似性を含むことによって, 個人固有の潜在軌道を推定する手法の有効性について検討する。 また,この深層学習アプローチを統計的視点を与えるためのフィルタリングタスクとして記述する。 シミュレーションデータを用いて,2 と 4 つの未知のパラメータを持つ ode システムから個々の軌道を復元し,類似した軌道を持つ個人群を推定し,分解の程度を示す。 その結果、このような動的深層学習アプローチは、極端に小さなデータ設定でも有用であるが、慎重に適応する必要があることがわかった。

Longitudinal biomedical data are often characterized by a sparse time grid and individual-specific development patterns. Specifically, in epidemiological cohort studies and clinical registries we are facing the question of what can be learned from the data in an early phase of the study, when only a baseline characterization and one follow-up measurement are available. Inspired by recent advances that allow to combine deep learning with dynamic modeling, we investigate whether such approaches can be useful for uncovering complex structure, in particular for an extreme small data setting with only two observations time points for each individual. Irregular spacing in time could then be used to gain more information on individual dynamics by leveraging similarity of individuals. We provide a brief overview of how variational autoencoders (VAEs), as a deep learning approach, can be linked to ordinary differential equations (ODEs) for dynamic modeling, and then specifically investigate the feasibility of such an approach that infers individual-specific latent trajectories by including regularity assumptions and individuals' similarity. We also provide a description of this deep learning approach as a filtering task to give a statistical perspective. Using simulated data, we show to what extent the approach can recover individual trajectories from ODE systems with two and four unknown parameters and infer groups of individuals with similar trajectories, and where it breaks down. The results show that such dynamic deep learning approaches can be useful even in extreme small data settings, but need to be carefully adapted.
翻訳日:2021-05-30 20:03:58 公開日:2020-12-01
# Sim2Real for Self-Supervised Monocular Depth and Segmentation

Sim2Real for Self-Supervised Monocular Depth and Segmentation ( http://arxiv.org/abs/2012.00238v1 )

ライセンス: Link先を確認
Nithin Raghavan, Punarjay Chakravarty, Shubham Shrivastava(参考訳) 自動運転車の認識タスクのための画像ベースの学習手法は、過度に適合することなく適切にトレーニングするために、大量のラベル付き実データを必要とする。 シミュレーションデータのパワーを活用することで、これらのコストを軽減することができるが、シミュレーション領域で訓練されたネットワークは通常、実際のドメインの画像に適用された場合、適切に動作しない。 ドメイン適応の最近の進歩は、共有潜在空間仮定がシミュレーションと実際のドメインの間のギャップを埋めるのに役立ち、シミュレーションドメインから実際のドメインへのネットワークの予測能力の移譲を可能にすることを示唆している。 共用した潜在空間と補助的なデコーダを持つ2つのvaeベースのアーキテクチャは、実領域におけるペアリングされた接地データを必要としないsim2real gapをブリッジできることを実証する。 このアーキテクチャでは,シミュレーション領域における基底構造データのみを用いて,深度やセグメンテーションマップなどの知覚タスクを生成することができる。 この手法を教師付きで訓練されたネットワークと比較し,結果のメリットを示す。

Image-based learning methods for autonomous vehicle perception tasks require large quantities of labelled, real data in order to properly train without overfitting, which can often be incredibly costly. While leveraging the power of simulated data can potentially aid in mitigating these costs, networks trained in the simulation domain usually fail to perform adequately when applied to images in the real domain. Recent advances in domain adaptation have indicated that a shared latent space assumption can help to bridge the gap between the simulation and real domains, allowing the transference of the predictive capabilities of a network from the simulation domain to the real domain. We demonstrate that a twin VAE-based architecture with a shared latent space and auxiliary decoders is able to bridge the sim2real gap without requiring any paired, ground-truth data in the real domain. Using only paired, ground-truth data in the simulation domain, this architecture has the potential to generate perception tasks such as depth and segmentation maps. We compare this method to networks trained in a supervised manner to indicate the merit of these results.
翻訳日:2021-05-30 20:03:09 公開日:2020-12-01
# 人の流れを推定して人を数える

Counting People by Estimating People Flows ( http://arxiv.org/abs/2012.00452v1 )

ライセンス: Link先を確認
Weizhe Liu, Mathieu Salzmann, Pascal Fua(参考訳) 混み合ったシーンの人物を数える現代の方法は、個々の画像の人物密度を推定するためにディープネットワークに依存している。 このように、ビデオシーケンスの時間的一貫性を活かすものはほとんどなく、連続するフレームに弱い滑らかさの制約を課すだけである。 本稿では,連続する画像間の画像位置間の流れを推定し,直接レグレッションするのではなく,これらの流れから人物密度を推定することを提案する。 これにより、人数の保存を規定するより強い制約を課すことができます。 その結果、より複雑なアーキテクチャを必要とせずに、パフォーマンスが大幅に向上する。 さらに, 人流と光流の相関を利用して, 結果をさらに改善することができる。 また,空間的制約と時間的制約を両立させることで,より少ないアノテーションで積極的学習環境において,深い群集数モデルを訓練できることを示す。 これはアノテーションのコストを大幅に削減すると同時に、完全な監視ケースと同じようなパフォーマンスを実現している。

Modern methods for counting people in crowded scenes rely on deep networks to estimate people densities in individual images. As such, only very few take advantage of temporal consistency in video sequences, and those that do only impose weak smoothness constraints across consecutive frames. In this paper, we advocate estimating people flows across image locations between consecutive images and inferring the people densities from these flows instead of directly regressing them. This enables us to impose much stronger constraints encoding the conservation of the number of people. As a result, it significantly boosts performance without requiring a more complex architecture. Furthermore, it allows us to exploit the correlation between people flow and optical flow to further improve the results. We also show that leveraging people conservation constraints in both a spatial and temporal manner makes it possible to train a deep crowd counting model in an active learning setting with much fewer annotations. This significantly reduces the annotation cost while still leading to similar performance to the full supervision case.
翻訳日:2021-05-30 20:01:35 公開日:2020-12-01
# 教師なしクラスタリングによる半教師付き学習の性能向上

Boosting the Performance of Semi-Supervised Learning with Unsupervised Clustering ( http://arxiv.org/abs/2012.00504v1 )

ライセンス: Link先を確認
Boaz Lerner, Guy Shiran, Daphna Weinshall(参考訳) 最近、SSL(Semi-Supervised Learning)はラベルのないデータを活用する上で、非常に少数のラベルが提供されている。 本稿では,訓練期間中に断続的にラベルを無視することで,小規模サンプルシステムの性能が著しく向上することを示す。 具体的には,2つのタスクのネットワークを協調的にトレーニングすることを提案する。 一次分類タスクはラベルのないデータと少ない注釈付きデータの両方に露出するが、二次分類タスクはラベルなしでデータをクラスタ化しようとする。 自己スーパービジョンで頻繁に使用される手作りのプリテキストタスクとは対照的に、クラスタリングフェーズでは、同じ分類ネットワークとヘッドを使用して、プライマリタスクを緩和し、ラベルから情報をオーバーフィットすることなく伝達する。 さらに、教師なし学習フェーズ中に、画像回転を分類する自己教師あり技術が組み込まれ、トレーニングを安定させる。 本手法は,いくつかの最先端sslアルゴリズムを高速化し,その性能を著しく改善し,cifar-10における92.6%の精度とsvhnでの96.9%を含む様々な標準半教師付きベンチマークで実行時間を短縮する効果を示す。 また、クラス毎に1,2ラベルと3ラベルの極端なケースで結果を改善し、モデルによって学習された特徴がデータ分離に有意義であることを示す。

Recently, Semi-Supervised Learning (SSL) has shown much promise in leveraging unlabeled data while being provided with very few labels. In this paper, we show that ignoring the labels altogether for whole epochs intermittently during training can significantly improve performance in the small sample regime. More specifically, we propose to train a network on two tasks jointly. The primary classification task is exposed to both the unlabeled and the scarcely annotated data, whereas the secondary task seeks to cluster the data without any labels. As opposed to hand-crafted pretext tasks frequently used in self-supervision, our clustering phase utilizes the same classification network and head in an attempt to relax the primary task and propagate the information from the labels without overfitting them. On top of that, the self-supervised technique of classifying image rotations is incorporated during the unsupervised learning phase to stabilize training. We demonstrate our method's efficacy in boosting several state-of-the-art SSL algorithms, significantly improving their results and reducing running time in various standard semi-supervised benchmarks, including 92.6% accuracy on CIFAR-10 and 96.9% on SVHN, using only 4 labels per class in each task. We also notably improve the results in the extreme cases of 1,2 and 3 labels per class, and show that features learned by our model are more meaningful for separating the data.
翻訳日:2021-05-30 20:01:09 公開日:2020-12-01
# 複数モーダル検索におけるペアデータからの非絡み付き潜伏因子の学習:暗黙の特定可能なVAEアプローチ

Learning Disentangled Latent Factors from Paired Data in Cross-Modal Retrieval: An Implicit Identifiable VAE Approach ( http://arxiv.org/abs/2012.00682v1 )

ライセンス: Link先を確認
Minyoung Kim, Ricardo Guerrero, Vladimir Pavlovic(参考訳) クロスモーダル検索において,ペアのバイモーダルデータ間で共有される不連続な潜在要因を学習する問題に対処する。 我々の仮定では、両モードのデータは複雑で構造化され、高次元(画像やテキストなど)であり、従来の変分オートエンコーダ(VAE)のような遅延変数モデルでは正確なデコーダ訓練や現実的な合成が困難であることが多い。 最適に訓練されたデコーダは、真の要因を特定するモデルの能力を傷つける可能性がある。 本稿では,低次元埋め込み関数のヤコビアン正則化によって達成された暗黙エンコーダインバージョンを通じて,潜在変数モデルから環境データ復号モジュールを完全に削除する,暗黙的デコーダの新たなアイデアを提案する。 近年の Identible VAE (IVAE) モデルから動機付けされ,クエリのモダリティデータを条件付補助入力として組み込むことで,モデルの真のパラメータが一定の規則性条件下で識別可能であることを示す。 本モデルでは,真の因子が完全かつ部分的に利用可能である各種データセットを用いて,それらの因子を正確に同定し,従来のエンコーダ・デコーダ・潜在変数モデルよりも有意に優れていることを示す。 また,大規模食品画像/レシピデータセットである recipe1m では,本手法による学習要素と,鮮度,水度,緑度など,最も明確な食品要因との一致度が高かった。

We deal with the problem of learning the underlying disentangled latent factors that are shared between the paired bi-modal data in cross-modal retrieval. Our assumption is that the data in both modalities are complex, structured, and high dimensional (e.g., image and text), for which the conventional deep auto-encoding latent variable models such as the Variational Autoencoder (VAE) often suffer from difficulty of accurate decoder training or realistic synthesis. A suboptimally trained decoder can potentially harm the model's capability of identifying the true factors. In this paper we propose a novel idea of the implicit decoder, which completely removes the ambient data decoding module from a latent variable model, via implicit encoder inversion that is achieved by Jacobian regularization of the low-dimensional embedding function. Motivated from the recent Identifiable VAE (IVAE) model, we modify it to incorporate the query modality data as conditioning auxiliary input, which allows us to prove that the true parameters of the model can be identified under some regularity conditions. Tested on various datasets where the true factors are fully/partially available, our model is shown to identify the factors accurately, significantly outperforming conventional encoder-decoder latent variable models. We also test our model on the Recipe1M, the large-scale food image/recipe dataset, where the learned factors by our approach highly coincide with the most pronounced food factors that are widely agreed on, including savoriness, wateriness, and greenness.
翻訳日:2021-05-30 20:00:31 公開日:2020-12-01
# 教師なしドメイン適応のための標準VAEによるデータ拡張

Data Augmentation with norm-VAE for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2012.00848v1 )

ライセンス: Link先を確認
Qian Wang, Fanlin Meng, Toby P. Breckon(参考訳) 画像分類におけるUnsupervised Domain Adaptation (UDA) 問題に新しい視点から対処する。 データ分布を調整するかドメイン不変性を学ぶかのどちらかの既存の作品と対照的に、明示的なドメイン適応を伴わずに、高次元に均質な特徴空間内の両方の領域の統一分類器を直接学習する。 そこで本研究では,SPL(Selective Pseudo-Labelling)技術を用いて,対象領域の未ラベルサンプルを有効活用する。 驚いたことに、ソースとターゲットドメイン間のデータ分散の相違は、計算学的に単純な分類器(例えば、浅層パーセプトロン)によって、元の特徴空間で訓練される。 さらに,データ拡張戦略として,対象領域の合成特徴を生成する新しい生成モデルノルムVAEを提案する。 いくつかのベンチマークデータセットの実験結果は、擬似ラベリング戦略自体が、多くの最先端メソッドに匹敵するパフォーマンスをもたらすことを示し、一方、機能拡張に標準VAEを使用することは、ほとんどのケースでパフォーマンスをさらに向上させる。 その結果,提案手法(すなわち,提案手法)が得られた。 Naive-SPL と norm-VAE-SPL は、平均精度93.4% と 90.4% の Office-Caltech と ImageCLEF-DA のデータセットで、平均精度97.2% と 87.6% と 67.9% の Digits と Office31 と Office-Home のデータセットで同等のパフォーマンスが得られる。

We address the Unsupervised Domain Adaptation (UDA) problem in image classification from a new perspective. In contrast to most existing works which either align the data distributions or learn domain-invariant features, we directly learn a unified classifier for both domains within a high-dimensional homogeneous feature space without explicit domain adaptation. To this end, we employ the effective Selective Pseudo-Labelling (SPL) techniques to take advantage of the unlabelled samples in the target domain. Surprisingly, data distribution discrepancy across the source and target domains can be well handled by a computationally simple classifier (e.g., a shallow Multi-Layer Perceptron) trained in the original feature space. Besides, we propose a novel generative model norm-VAE to generate synthetic features for the target domain as a data augmentation strategy to enhance classifier training. Experimental results on several benchmark datasets demonstrate the pseudo-labelling strategy itself can lead to comparable performance to many state-of-the-art methods whilst the use of norm-VAE for feature augmentation can further improve the performance in most cases. As a result, our proposed methods (i.e. naive-SPL and norm-VAE-SPL) can achieve new state-of-the-art performance with the average accuracy of 93.4% and 90.4% on Office-Caltech and ImageCLEF-DA datasets, and comparable performance on Digits, Office31 and Office-Home datasets with the average accuracy of 97.2%, 87.6% and 67.9% respectively.
翻訳日:2021-05-30 19:59:44 公開日:2020-12-01
# ディープニューラルネットワークの正確なプラットフォーム対応性能モデリングに向けて

Toward Accurate Platform-Aware Performance Modeling for Deep Neural Networks ( http://arxiv.org/abs/2012.00211v1 )

ライセンス: Link先を確認
Chuan-Chi Wang, Ying-Chiao Liao, Ming-Chang Kao, Wen-Yew Liang, Shih-Hao Hung(参考訳) 本稿では,様々なGPUアクセラレータ上でのニューラルネットワーク性能をモデル化するための従来の作業の精度を向上させる,微細粒度機械学習ベースのPerfNetV2を提案する。 アプリケーションが与えられた場合、提案手法は、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測するために使用することができ、システム開発者はニューラルネットワークを選択したり、ハードウェアアクセラレータを組み込んだりすることで、パフォーマンスを最適化することができる。 さらに、提案手法は、例えば、見当たらない、または存在しない装置の性能を予測することができる。 プロセッサコアが少なく、メモリ容量も大きい、高い動作周波数を持つ新しいGPU。 これにより、システム開発者はハードウェア設計スペースを素早く検索したり、システム構成を微調整したりできる。 以前の研究と比較すると、PerfNetV2は完全なニューラルネットワークの実行において詳細なホスト-アクセラレータインタラクションをモデル化し、予測器で使用される機械学習モデルのアーキテクチャを改善することで、より正確な結果を提供する。 我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。

In this paper, we provide a fine-grain machine learning-based method, PerfNetV2, which improves the accuracy of our previous work for modeling the neural network performance on a variety of GPU accelerators. Given an application, the proposed method can be used to predict the inference time and training time of the convolutional neural networks used in the application, which enables the system developer to optimize the performance by choosing the neural networks and/or incorporating the hardware accelerators to deliver satisfactory results in time. Furthermore, the proposed method is capable of predicting the performance of an unseen or non-existing device, e.g. a new GPU which has a higher operating frequency with less processor cores, but more memory capacity. This allows a system developer to quickly search the hardware design space and/or fine-tune the system configuration. Compared to the previous works, PerfNetV2 delivers more accurate results by modeling detailed host-accelerator interactions in executing the full neural networks and improving the architecture of the machine learning model used in the predictor. Our case studies show that PerfNetV2 yields a mean absolute percentage error within 13.1% on LeNet, AlexNet, and VGG16 on NVIDIA GTX-1080Ti, while the error rate on a previous work published in ICBD 2018 could be as large as 200%.
翻訳日:2021-05-30 19:58:54 公開日:2020-12-01
# 対向通信におけるロバストなマルチエージェント協調のためのガウス過程に基づくメッセージフィルタリング

Gaussian Process Based Message Filtering for Robust Multi-Agent Cooperation in the Presence of Adversarial Communication ( http://arxiv.org/abs/2012.00508v1 )

ライセンス: Link先を確認
Rupert Mitchell, Jan Blumenkamp and Amanda Prorok(参考訳) 本稿では,マルチエージェントシステムにおける対角通信に堅牢性を提供することの問題点について考察する。 具体的には,誤り,誤解,操作的情報を伝達する非協力的エージェントの存在下で,マルチエージェントシステムが高いパフォーマンスを維持することを可能にする,堅牢な協調に向けたソリューションを提案する。 この目的を追求するために,グラフニューラルネットワーク(GNN)に基づく通信アーキテクチャを提案する。これはガウス過程(GP)に基づく新しい確率論的モデルで,各エージェントの物理的近接と相対位置による相互情報の特徴付けを行う。 このモデルにより、エージェントは、通信相手の1つが真であるという、およその後方確率または信頼を局所的に計算することができる。 これらの信頼感は、メッセージフィルタリングスキームの重みとして使用できるため、受信者の判断に不審なコミュニケーションの影響が抑えられる。 本手法の有効性を評価するため,非協力的エージェントの分類を導入し,それらの情報量で識別する。 我々は,本手法が他の方法よりも優れていることを示す2つの実験を行った。 提案手法は,非協力的エージェントが引き起こす影響を軽減し,無視できる点まで低減し,かつ,敵のいない場合のパフォーマンスに無視できるコストを削減できる。

In this paper, we consider the problem of providing robustness to adversarial communication in multi-agent systems. Specifically, we propose a solution towards robust cooperation, which enables the multi-agent system to maintain high performance in the presence of anonymous non-cooperative agents that communicate faulty, misleading or manipulative information. In pursuit of this goal, we propose a communication architecture based on Graph Neural Networks (GNNs), which is amenable to a novel Gaussian Process (GP)-based probabilistic model characterizing the mutual information between the simultaneous communications of different agents due to their physical proximity and relative position. This model allows agents to locally compute approximate posterior probabilities, or confidences, that any given one of their communication partners is being truthful. These confidences can be used as weights in a message filtering scheme, thereby suppressing the influence of suspicious communication on the receiving agent's decisions. In order to assess the efficacy of our method, we introduce a taxonomy of non-cooperative agents, which distinguishes them by the amount of information available to them. We demonstrate in two distinct experiments that our method performs well across this taxonomy, outperforming alternative methods. For all but the best informed adversaries, our filtering method is able to reduce the impact that non-cooperative agents cause, reducing it to the point of negligibility, and with negligible cost to performance in the absence of adversaries.
翻訳日:2021-05-30 19:58:15 公開日:2020-12-01
# RR-Interval Framed Electrocardiogram を用いたディープラーニングによる不整脈検出

Deep Learning-Based Arrhythmia Detection Using RR-Interval Framed Electrocardiograms ( http://arxiv.org/abs/2012.00348v1 )

ライセンス: Link先を確認
Song-Kyoo Kim, Chan Yeob Yeun, Paul D. Yoo, Nai-Wei Lo, Ernesto Damiani(参考訳) 心電図(ECG)データに応用された深層学習は生体認証の応用において個人認証に利用できるが、心血管疾患の診断には広く使われていない。 畳み込みニューラルネットワーク(CNN)の入力として,連続Rピーク間の距離を表す時間スライスECGデータを用いた不整脈検出のための深層学習モデルを開発した。 主な目的は、データセットを最小に使用するが、不整脈検出の自信のある精度を提供する、コンパクトなディープラーニングベースの検出システムを開発することである。 この小型システムは、複雑なECG波形に特徴抽出ステップを必要としないため、ウェアラブルデバイスやリアルタイム監視装置に実装でき、Rピークデータのみを必要とする。 両試験の結果, CADS (Compact Arrhythmia Detection System) は2回の連続試験において, 不整脈検出システムの性能と一致した。 CADSのすべての機能は完全に実装されており、MATLABで公開されている。

Deep learning applied to electrocardiogram (ECG) data can be used to achieve personal authentication in biometric security applications, but it has not been widely used to diagnose cardiovascular disorders. We developed a deep learning model for the detection of arrhythmia in which time-sliced ECG data representing the distance between successive R-peaks are used as the input for a convolutional neural network (CNN). The main objective is developing the compact deep learning based detect system which minimally uses the dataset but delivers the confident accuracy rate of the Arrhythmia detection. This compact system can be implemented in wearable devices or real-time monitoring equipment because the feature extraction step is not required for complex ECG waveforms, only the R-peak data is needed. The results of both tests indicated that the Compact Arrhythmia Detection System (CADS) matched the performance of conventional systems for the detection of arrhythmia in two consecutive test runs. All features of the CADS are fully implemented and publicly available in MATLAB.
翻訳日:2021-05-30 19:57:34 公開日:2020-12-01
# 評価によってバイアスを受ける評価

Debiasing Evaluations That are Biased by Evaluations ( http://arxiv.org/abs/2012.00714v1 )

ライセンス: Link先を確認
Jingyan Wang, Ivan Stelmakh, Yuting Wei, Nihar B. Shah(参考訳) 評価を依頼することで、一連の項目を評価するのが一般的である。 例えば、大学は生徒にインストラクタの教育品質の評価を依頼し、会議の主催者はレビューの質を評価するために投稿の著者に依頼する。 しかし、これらのアプリケーションでは、学生はコースの成績が上がればコースに高い評価を与えることが多く、論文がカンファレンスに受理された場合、レビューに高い評価を与えることが多い。 本研究では,これらの外部要因を,人々が経験する「アウトカム」と呼び,結果に関する情報が得られれば,与えられた評価でこれらの結果に誘発されるバイアスを緩和する問題を考察する。 結果に関する情報を偏見に基づく既知の部分順序として定式化する。 この順序付け制約の下で正規化最適化問題を解くことでデバイアス化法を提案し、また適切な正規化量を適応的に選択するクロスバリデーション法を提案する。 我々は,提案アルゴリズムの性能に関する理論的保証と実験評価を提供する。

It is common to evaluate a set of items by soliciting people to rate them. For example, universities ask students to rate the teaching quality of their instructors, and conference organizers ask authors of submissions to evaluate the quality of the reviews. However, in these applications, students often give a higher rating to a course if they receive higher grades in a course, and authors often give a higher rating to the reviews if their papers are accepted to the conference. In this work, we call these external factors the "outcome" experienced by people, and consider the problem of mitigating these outcome-induced biases in the given ratings when some information about the outcome is available. We formulate the information about the outcome as a known partial ordering on the bias. We propose a debiasing method by solving a regularized optimization problem under this ordering constraint, and also provide a carefully designed cross-validation method that adaptively chooses the appropriate amount of regularization. We provide theoretical guarantees on the performance of our algorithm, as well as experimental evaluations.
翻訳日:2021-05-30 19:56:43 公開日:2020-12-01
# 浅い線形ニューラルネットワークにおけるDropoutの漸近収束速度

Asymptotic convergence rate of Dropout on shallow linear neural networks ( http://arxiv.org/abs/2012.01978v1 )

ライセンス: Link先を確認
Albert Senen-Cerda, Jaron Sanders(参考訳) 本研究では, 直交線形ニューラルネットワーク (NN) に適用する場合, ドロップアウトやドロップコネクションによって誘導される目的関数の勾配流の収束速度を解析し, 特定の正則化器を用いて行列分解を行うことができることを示した。 このようなドロップアウトアルゴリズムは、0,1値の確率変数を用いてトレーニング中に重みをフィルタリングし、特徴の共適応を避けるための正規化手法である。 非凸最適化の最近の結果を利用して、最小化器の集合と損失関数のヘシアンを慎重に解析することにより、(i)勾配流の局所収束証明と(ii)データ、ドロップアウト確率、NNの幅に依存する収束率のバウンドを得ることができる。 最後に、この理論バウンドを数値シミュレーションと比較し、収束バウンドと定性的に一致し、最小化器に十分近づいたときにそれと一致させる。

We analyze the convergence rate of gradient flows on objective functions induced by Dropout and Dropconnect, when applying them to shallow linear Neural Networks (NNs) - which can also be viewed as doing matrix factorization using a particular regularizer. Dropout algorithms such as these are thus regularization techniques that use 0,1-valued random variables to filter weights during training in order to avoid coadaptation of features. By leveraging a recent result on nonconvex optimization and conducting a careful analysis of the set of minimizers as well as the Hessian of the loss function, we are able to obtain (i) a local convergence proof of the gradient flow and (ii) a bound on the convergence rate that depends on the data, the dropout probability, and the width of the NN. Finally, we compare this theoretical bound to numerical simulations, which are in qualitative agreement with the convergence bound and match it when starting sufficiently close to a minimizer.
翻訳日:2021-05-30 19:56:15 公開日:2020-12-01
# スライド画像全体における癌検出のためのパッチベース学習の限界克服

Overcoming the limitations of patch-based learning to detect cancer in whole slide images ( http://arxiv.org/abs/2012.00617v1 )

ライセンス: Link先を確認
Ozan Ciga, Tony Xu, Sharon Nofech-Mozes, Shawna Noy, Fang-I Lu, Anne L. Martel(参考訳) ディープラーニングモデルをトレーニングする際、WSI(Whole Slide Image)がユニークな課題となる。 これらは非常に大きく、分析のために各イメージを小さなパッチに分割する必要がある。細部とコンテキストの両方をキャプチャするために、画像の特徴を複数のスケールで抽出しなければならず、極端なクラスの不均衡が存在する可能性がある。 公開アノテートされたデータセットが利用できるため、これらの画像の解析においてかなりの進歩があった。 しかし,本手法が課題に対してうまくスコアを付けたとしても,この成功はより臨床的に関係のあるワークフローにおいて,優れたパフォーマンスに変換されない可能性がある。 多くのデータセットは、データのキュレーションバイアスに悩まされるイメージパッチで構成されており、他のデータセットは、スライドレベル全体においてのみラベル付けされ、画像全体のアノテーションの欠如は、最終的な決定が正しい限り、誤ったローカル予測を隠蔽する可能性がある。 本稿では,スライド全体にわたって,がんの局所化や分節化に必要なパッチやスライドレベルの分類方法の違いを概説し,両者のベストプラクティスの違いを実験的に検証する。 乳がん治療後wsisに二分性がん検出ネットワークを適用し,がんの程度を概説する腫瘍床の探索を行った。 アーキテクチャや拡張など,複数の設計選択とその成果への影響を幅広く研究する。 さらに,偽陽性率(スライドレベルでは7%)を劇的に低減し,腫瘍範囲の誤差を15%削減し,この問題に関連する各指標を改善できる負のデータサンプリング戦略を提案する。

Whole slide images (WSIs) pose unique challenges when training deep learning models. They are very large which makes it necessary to break each image down into smaller patches for analysis, image features have to be extracted at multiple scales in order to capture both detail and context, and extreme class imbalances may exist. Significant progress has been made in the analysis of these images, thanks largely due to the availability of public annotated datasets. We postulate, however, that even if a method scores well on a challenge task, this success may not translate to good performance in a more clinically relevant workflow. Many datasets consist of image patches which may suffer from data curation bias; other datasets are only labelled at the whole slide level and the lack of annotations across an image may mask erroneous local predictions so long as the final decision is correct. In this paper, we outline the differences between patch or slide-level classification versus methods that need to localize or segment cancer accurately across the whole slide, and we experimentally verify that best practices differ in both cases. We apply a binary cancer detection network on post neoadjuvant therapy breast cancer WSIs to find the tumor bed outlining the extent of cancer, a task which requires sensitivity and precision across the whole slide. We extensively study multiple design choices and their effects on the outcome, including architectures and augmentations. Furthermore, we propose a negative data sampling strategy, which drastically reduces the false positive rate (7% on slide level) and improves each metric pertinent to our problem, with a 15% reduction in the error of tumor extent.
翻訳日:2021-05-30 19:55:26 公開日:2020-12-01
# CPM: 大規模生成中国語事前訓練言語モデル

CPM: A Large-scale Generative Chinese Pre-trained Language Model ( http://arxiv.org/abs/2012.00413v1 )

ライセンス: Link先を確認
Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun(参考訳) プレトレーニング言語モデル(PLM)は、様々な下流のNLPタスクに有用であることが証明されている。 最近、GPT-3は1750億のパラメータと570GBのトレーニングデータを持ち、数ショット(ゼロショット)の学習能力のために多くの注目を集めている。 しかし、GPT-3のトレーニングコーパスは主に英語であり、パラメータは公開されていないため、中国のNLPタスクにGPT-3を適用することは依然として難しい。 本技術報告では,大規模な中国語学習データに基づく生成事前学習を伴う中国語事前学習言語モデル(CPM)をリリースする。 我々の知る限り、CPMは260億のパラメータと100GBの中国語のトレーニングデータを持ち、中国最大の事前訓練された言語モデルであり、会話、エッセイ生成、クローゼテスト、言語理解など、いくつかの中国語のNLPタスクを促進することができる。 大規模な実験により、CPMは、少数ショット(ゼロショット)学習の設定において、多くのNLPタスクで高いパフォーマンスを達成することが示された。 コードとパラメータはhttps://github.com/t singhuaai/cpm-genera teで入手できる。

Pre-trained Language Models (PLMs) have proven to be beneficial for various downstream NLP tasks. Recently, GPT-3, with 175 billion parameters and 570GB training data, drew a lot of attention due to the capacity of few-shot (even zero-shot) learning. However, applying GPT-3 to address Chinese NLP tasks is still challenging, as the training corpus of GPT-3 is primarily English, and the parameters are not publicly available. In this technical report, we release the Chinese Pre-trained Language Model (CPM) with generative pre-training on large-scale Chinese training data. To the best of our knowledge, CPM, with 2.6 billion parameters and 100GB Chinese training data, is the largest Chinese pre-trained language model, which could facilitate several downstream Chinese NLP tasks, such as conversation, essay generation, cloze test, and language understanding. Extensive experiments demonstrate that CPM achieves strong performance on many NLP tasks in the settings of few-shot (even zero-shot) learning. The code and parameters are available at https://github.com/T singhuaAI/CPM-Genera te.
翻訳日:2021-05-30 19:54:14 公開日:2020-12-01
# 変圧器を用いたRDFバーバリゼーション向上のための事前学習とデータ拡張戦略

Denoising Pre-Training and Data Augmentation Strategies for Enhanced RDF Verbalization with Transformers ( http://arxiv.org/abs/2012.00571v1 )

ライセンス: Link先を確認
Sebastien Montella, Betty Fabre, Tanguy Urvoy, Johannes Heinecke, Lina Rojas-Barahona(参考訳) RDF三重項の動詞化の課題は、知識ベース(KB)の普及により人気が高まっていることが知られている。 RDF三重項の形式主義は、事実を大規模に保存する単純かつ効率的な方法である。 しかし、その抽象表現は人間の解釈を困難にしている。 この目的のために、WebNLGの課題は、RDF-to-text生成の自動化である。 本稿では,データ拡張戦略を用いて,拡張データからの事前学習をTransformerモデルで活用することを提案する。 実験の結果, BLEUでは, 標準トレーニングよりも最低相対比が3.73%, 126.05%, 88.16%上昇した。

The task of verbalization of RDF triples has known a growth in popularity due to the rising ubiquity of Knowledge Bases (KBs). The formalism of RDF triples is a simple and efficient way to store facts at a large scale. However, its abstract representation makes it difficult for humans to interpret. For this purpose, the WebNLG challenge aims at promoting automated RDF-to-text generation. We propose to leverage pre-trainings from augmented data with the Transformer model using a data augmentation strategy. Our experiment results show a minimum relative increases of 3.73%, 126.05% and 88.16% in BLEU score for seen categories, unseen entities and unseen categories respectively over the standard training.
翻訳日:2021-05-30 19:53:47 公開日:2020-12-01
# ニューラルネットワークと強化学習に基づく従業員の離職率と最適削減戦略の獲得

Obtain Employee Turnover Rate and Optimal Reduction Strategy Based On Neural Network and Reinforcement Learning ( http://arxiv.org/abs/2012.00583v1 )

ライセンス: Link先を確認
Xiaohan Cheng(参考訳) 現在、人材は企業の様々な資源の重要な部分を占めている。 企業にとって、高いロイヤリティと質の高い人材は、しばしば企業の中核的な競争力である。 したがって、従業員の離職や離職率の低下を予測できることは、非常に実用的である。 まず,従業員の転職率の多層パーセプトロン予測モデルを構築した。 強化学習アルゴリズムの一種であるsarsaに基づくモデルを提案し、従業員の離職率を低減するための一連の戦略を自動的に生成する。 これらの戦略は、企業の観点から従業員の離職率を最大かつ少ないコストで削減できる戦略の集合であり、企業が従業員のシステムを最適化するための参照計画として使用できる。 実験の結果、アルゴリズムは特定の戦略の効率と精度を実際に向上できることがわかった。

Nowadays, human resource is an important part of various resources of enterprises. For enterprises, high-loyalty and high-quality talented persons are often the core competitiveness of enterprises. Therefore, it is of great practical significance to predict whether employees leave and reduce the turnover rate of employees. First, this paper established a multi-layer perceptron predictive model of employee turnover rate. A model based on Sarsa which is a kind of reinforcement learning algorithm is proposed to automatically generate a set of strategies to reduce the employee turnover rate. These strategies are a collection of strategies that can reduce the employee turnover rate the most and cost less from the perspective of the enterprise, and can be used as a reference plan for the enterprise to optimize the employee system. The experimental results show that the algorithm can indeed improve the efficiency and accuracy of the specific strategy.
翻訳日:2021-05-30 19:52:59 公開日:2020-12-01
# UPFlow: 教師なし光学フロー学習のためのアップサンプリングピラミッド

UPFlow: Upsampling Pyramid for Unsupervised Optical Flow Learning ( http://arxiv.org/abs/2012.00212v1 )

ライセンス: Link先を確認
Kunming Luo, Chuan Wang, Shuaicheng Liu, Haoqiang Fan, Jue Wang, Jian Sun(参考訳) ピラミッドネットワークのアップサンプリングと学習を改善し,光学的フロー推定のための教師なし学習手法を提案する。 ピラミッドレベル間のバイリニアアップサンプリングに起因する補間ボケ問題に対処するために,自己誘導型アップサンプルモジュールを設計した。 さらに,最も微細な流れを擬似ラベルとして蒸留することにより中間レベルの管理を付加するピラミッド蒸留損失を提案する。 MPI-SIntel, KITTI 2012, KITTI 2015 など,これら2つのコンポーネントを統合することで,MPI-SIntel や KITTI 2015 など複数の主要なベンチマーク上での教師なし光フロー学習に最適な性能を実現する。 特に,kitti 2012ではepe=1.4,kitti 2015ではf1=9.38%をそれぞれ22.2%,state-of-the-a rtメソッドを15.7%上回った。

We present an unsupervised learning approach for optical flow estimation by improving the upsampling and learning of pyramid network. We design a self-guided upsample module to tackle the interpolation blur problem caused by bilinear upsampling between pyramid levels. Moreover, we propose a pyramid distillation loss to add supervision for intermediate levels via distilling the finest flow as pseudo labels. By integrating these two components together, our method achieves the best performance for unsupervised optical flow learning on multiple leading benchmarks, including MPI-SIntel, KITTI 2012 and KITTI 2015. In particular, we achieve EPE=1.4 on KITTI 2012 and F1=9.38% on KITTI 2015, which outperform the previous state-of-the-art methods by 22.2% and 15.7%, respectively.
翻訳日:2021-05-30 19:52:38 公開日:2020-12-01
# Dual Pixel Exploration: 深度推定と画像復元の同時実施

Dual Pixel Exploration: Simultaneous Depth Estimation and Image Restoration ( http://arxiv.org/abs/2012.00301v1 )

ライセンス: Link先を確認
Liyuan Pan, Shah Chowdhury, Richard Hartley, Miaomiao Liu, Hongguang Zhang, and Hongdong Li(参考訳) デュアルピクセル(DP)ハードウェアは、各ピクセルを半分に分割し、1枚のスナップショットでイメージペアを作成する。 dp対をステレオ対として扱うことで深さ/逆深さを推定するいくつかの作品がある。 しかし、二重画素差はデフォーカスがぼやけた画像領域でのみ発生する。 dp対の重度のデフォーカスぼけは、マッチングに基づく深さ推定手法の性能に影響する。 ブラー効果を盲目的に除去する代わりに,ブラー効果と深度情報をリンクするDPペアの形成について検討する。 本稿では,ボーリングによる深さ推定に有効である数学的DPモデルを提案する。 これらの調査は、画像の深さを共同で見積り、復元するためのエンドツーエンドDDDNet(DPベースのDepth and Deblur Network)を提案する動機となります。 さらに,DP画像形成過程と深度情報との関係を反映した残響損失を定義し,トレーニングにおける深度推定を規則化する。 学習に必要な大量のデータを満たすため,既存のRGBDデータセットからDPペアのデータセットを作成することができる最初のDPイメージシミュレータを提案する。 副次的な貢献として、さらなる研究のために実際のデータセットを収集します。 合成データと実データの両方に対する広範囲な実験評価により,本手法は最先端の手法に比べて競争力が向上することが示された。

The dual-pixel (DP) hardware works by splitting each pixel in half and creating an image pair in a single snapshot. Several works estimate depth/inverse depth by treating the DP pair as a stereo pair. However, dual-pixel disparity only occurs in image regions with the defocus blur. The heavy defocus blur in DP pairs affects the performance of matching-based depth estimation approaches. Instead of removing the blur effect blindly, we study the formation of the DP pair which links the blur and the depth information. In this paper, we propose a mathematical DP model which can benefit depth estimation by the blur. These explorations motivate us to propose an end-to-end DDDNet (DP-based Depth and Deblur Network) to jointly estimate the depth and restore the image. Moreover, we define a reblur loss, which reflects the relationship of the DP image formation process with depth information, to regularise our depth estimate in training. To meet the requirement of a large amount of data for learning, we propose the first DP image simulator which allows us to create datasets with DP pairs from any existing RGBD dataset. As a side contribution, we collect a real dataset for further research. Extensive experimental evaluation on both synthetic and real datasets shows that our approach achieves competitive performance compared to state-of-the-art approaches.
翻訳日:2021-05-30 19:51:21 公開日:2020-12-01
# HORAE:数時間の注釈付き書籍データセット

HORAE: an annotated dataset of books of hours ( http://arxiv.org/abs/2012.00351v1 )

ライセンス: Link先を確認
M\'elodie Boillet, Marie-Laurence Bonhomme, Dominique Stutzmann and Christopher Kermorvant(参考訳) 本稿では,中世後期に富裕層が所有・使用していた手書きの祈願書である,時間帯の書物からの注釈付きページのデータセットについて紹介する。 このデータセットは、この時代のヨーロッパにおける宗教思想の進化に関する歴史的研究を行うために作られたもので、この本は、豊かなイラストとそれらが含む様々な宗教資料の両方のおかげで、主要な情報源の1つとなっている。 まず,コーパスの収集と手作業による注釈付けを行い,テキスト行検出とゾーン検出とタイピングのための最先端システムの評価を行った。 コーパスは無料で研究が可能である。

We introduce in this paper a new dataset of annotated pages from books of hours, a type of handwritten prayer books owned and used by rich lay people in the late middle ages. The dataset was created for conducting historical research on the evolution of the religious mindset in Europe at this period since the book of hours represent one of the major sources of information thanks both to their rich illustrations and the different types of religious sources they contain. We first describe how the corpus was collected and manually annotated then present the evaluation of a state-of-the-art system for text line detection and for zone detection and typing. The corpus is freely available for research.
翻訳日:2021-05-30 19:49:31 公開日:2020-12-01
# ボックスのロバスト性:ブラックボックスのパッチ攻撃を自然に防御する構成的表現

Robustness Out of the Box: Compositional Representations Naturally Defend Against Black-Box Patch Attacks ( http://arxiv.org/abs/2012.00558v1 )

ライセンス: Link先を確認
Christian Cosgrove, Adam Kortylewski, Chenglin Yang, Alan Yuille(参考訳) パッチベースの敵攻撃は、誤分類を引き起こす入力に知覚できるが局所的な変化をもたらす。 不可避な攻撃に対する防御は進展しているが、パッチベースの攻撃にどう抵抗できるかは不明だ。 本研究では,ブラックボックスパッチ攻撃に対する防御手法を2つ検討した。 第1に,不可避な攻撃に対して有効な攻撃訓練は,最先端のロケーション最適化パッチ攻撃に対して限定的な効果を示す。 第2に,自然閉塞への自然的堅牢性をもたらす部分ベース表現を持つ合成ディープネットワークが,PASCAL3D+およびドイツ交通信号認識ベンチマークに対する攻撃に対して,敵の訓練を伴わずに頑健であることを見出した。 さらに、構成モデルのロバスト性は、敵対的に訓練された標準モデルよりも大きなマージンで優れている。 しかし、GTSRBでは、類似の交通標識と微妙な相違点の区別に問題がある。 この制限を克服するために、微粒子認識を改善する部分ベースファインタニングを導入する。 構成表現を利用することで、高価な敵のトレーニングなしでブラックボックスパッチ攻撃を防御する最初の作業となる。 この防御は敵の訓練よりも堅牢であり、敵のパッチを発見・無視できるため解釈可能である。

Patch-based adversarial attacks introduce a perceptible but localized change to the input that induces misclassification. While progress has been made in defending against imperceptible attacks, it remains unclear how patch-based attacks can be resisted. In this work, we study two different approaches for defending against black-box patch attacks. First, we show that adversarial training, which is successful against imperceptible attacks, has limited effectiveness against state-of-the-art location-optimized patch attacks. Second, we find that compositional deep networks, which have part-based representations that lead to innate robustness to natural occlusion, are robust to patch attacks on PASCAL3D+ and the German Traffic Sign Recognition Benchmark, without adversarial training. Moreover, the robustness of compositional models outperforms that of adversarially trained standard models by a large margin. However, on GTSRB, we observe that they have problems discriminating between similar traffic signs with fine-grained differences. We overcome this limitation by introducing part-based finetuning, which improves fine-grained recognition. By leveraging compositional representations, this is the first work that defends against black-box patch attacks without expensive adversarial training. This defense is more robust than adversarial training and more interpretable because it can locate and ignore adversarial patches.
翻訳日:2021-05-30 19:48:33 公開日:2020-12-01
# マルチビューステレオのための顔のメッシュリファインメント

Facetwise Mesh Refinement for Multi-View Stereo ( http://arxiv.org/abs/2012.00564v1 )

ライセンス: Link先を確認
Andrea Romanoni and Matteo Matteucci(参考訳) メッシュリファインメントは、正確なMulti-View Stereoの基本的なステップである。 初期多様体メッシュの幾何学を修正し、カメラ対の集合で誘導される測光誤差を最小限にする。 この初期メッシュは、通常、Delaunay Triangulations上のmin-cutに基づくボリューム3D再構成の出力である。 このような手法は、かなりの量の非多様体頂点を生成するため、それらを明示的に修復するために頂点分割ステップが必要となる。 本稿では,この手法を拡張して,デラウネー三角法を直接推論することで,非多様体頂点をプリエンプティブに修正し,ほとんどの頂点分割を避ける。 本論文の主な貢献は、精細化プロセスで採用されるカメラペアの選択の問題である。 我々は,この問題をメッシュラベリングプロセスとして扱い,各ラベルがカメラペアに対応する。 各カメラペアを使用してメッシュの可視部分をすべて洗練する最先端の方法とは違って、私たちは、全体の可視性とカバレッジの両方を強制する最善のペアを選択します。 精製工程は、選択されたカメラ対のみを用いて各面に適用される。 この面的な改善は、最も均等な方法でプロセスを適用するのに役立つ。

Mesh refinement is a fundamental step for accurate Multi-View Stereo. It modifies the geometry of an initial manifold mesh to minimize the photometric error induced in a set of camera pairs. This initial mesh is usually the output of volumetric 3D reconstruction based on min-cut over Delaunay Triangulations. Such methods produce a significant amount of non-manifold vertices, therefore they require a vertex split step to explicitly repair them. In this paper, we extend this method to preemptively fix the non-manifold vertices by reasoning directly on the Delaunay Triangulation and avoid most vertex splits. The main contribution of this paper addresses the problem of choosing the camera pairs adopted by the refinement process. We treat the problem as a mesh labeling process, where each label corresponds to a camera pair. Differently from the state-of-the-art methods, which use each camera pair to refine all the visible parts of the mesh, we choose, for each facet, the best pair that enforces both the overall visibility and coverage. The refinement step is applied for each facet using only the camera pair selected. This facetwise refinement helps the process to be applied in the most evenly way possible.
翻訳日:2021-05-30 19:48:00 公開日:2020-12-01
# アダム最適化器による逆例の伝達性向上

Improving the Transferability of Adversarial Examples with the Adam Optimizer ( http://arxiv.org/abs/2012.00567v1 )

ライセンス: Link先を確認
Heng Yin, Hengwei Zhang, Jindong Wang and Ruiyu Dou(参考訳) 畳み込みニューラルネットワークは、画像認識タスクにおいて人間を上回っているが、敵からの攻撃に対して脆弱である。 これらのデータは通常の画像に不可避なノイズを加えることで生成されるため、その存在はディープラーニングシステムに潜在的なセキュリティの脅威をもたらす。 強力な攻撃性能を持つ高度な敵の例は、モデルの堅牢性を評価するツールとしても使用できる。 しかし、ブラックボックス環境では敵の攻撃の成功率がさらに向上している。 そこで本研究では,改良されたアダム勾配降下アルゴリズムと反復勾配に基づく攻撃法を組み合わせた。 得られたAdam Iterative Fast Gradient Methodは、逆例の転送性を改善するために使用される。 ImageNetの大規模な実験により,提案手法は既存の反復手法よりも高い攻撃成功率を示すことが示された。 我々の最高のブラックボックス攻撃は、通常訓練されたネットワークで81.9%、敵訓練されたネットワークで38.7%の成功率を達成した。

Convolutional neural networks have outperformed humans in image recognition tasks, but they remain vulnerable to attacks from adversarial examples. Since these data are produced by adding imperceptible noise to normal images, their existence poses potential security threats to deep learning systems. Sophisticated adversarial examples with strong attack performance can also be used as a tool to evaluate the robustness of a model. However, the success rate of adversarial attacks remains to be further improved in black-box environments. Therefore, this study combines an improved Adam gradient descent algorithm with the iterative gradient-based attack method. The resulting Adam Iterative Fast Gradient Method is then used to improve the transferability of adversarial examples. Extensive experiments on ImageNet showed that the proposed method offers a higher attack success rate than existing iterative methods. Our best black-box attack achieved a success rate of 81.9% on a normally trained network and 38.7% on an adversarially trained network.
翻訳日:2021-05-30 19:47:30 公開日:2020-12-01
# 指紋提示攻撃の有効化:偽指紋作成技術と認識性能

Enabling Fingerprint Presentation Attacks: Fake Fingerprint Fabrication Techniques and Recognition Performance ( http://arxiv.org/abs/2012.00606v1 )

ライセンス: Link先を確認
Christof Kauba, Luca Debiasi and Andreas Uhl(参考訳) 偽指紋表現は、指紋ベースの認証システムに深刻な脅威をもたらす。 多くの場合、指紋スキャナデバイスに直接組み込まれているプレゼンテーション攻撃検出技術の進歩にもかかわらず、多くの指紋スキャナは、物理的な偽指紋表現を用いたプレゼンテーション攻撃の影響を受けやすい。 本研究では,光学,光マルチスペクトル,受動的キャパシタ,アクティブキャパシタ,サーマルの5種類のセンシング技術を用いて,偽指紋を用いたプレゼンテーション攻撃に対する感受性について評価した。 偽造表現を作成するために, ワックス, 鋳造, ラテックス, シリコーン, 接着剤の種類, 窓の色, 粘土のモデル化など, さまざまな材料を試験, 評価した。 定量的評価は、偽の表現から得られたサンプルの指紋品質の評価と、偽の表現の達成された実際の指紋との一致スコアが偽の表現の有効性を示す比較実験を含む。 以上の結果から,偽の指紋表現の少なくとも1つのタイプ/素材に対して,テスト対象のデバイス以外はすべて影響を受けやすいことを確認した。

Fake fingerprint representation pose a severe threat for fingerprint based authentication systems. Despite advances in presentation attack detection technologies, which are often integrated directly into the fingerprint scanner devices, many fingerprint scanners are still susceptible to presentation attacks using physical fake fingerprint representation. In this work we evaluate five different commercial-off-the-s helf fingerprint scanners based on different sensing technologies, including optical, optical multispectral, passive capacitive, active capacitive and thermal regarding their susceptibility to presentation attacks using fake fingerprint representations. Several different materials to create the fake representation are tested and evaluated, including wax, cast, latex, silicone, different types of glue, window colours, modelling clay, etc. The quantitative evaluation includes assessing the fingerprint quality of the samples captured from the fake representations as well as comparison experiments where the achieved matching scores of the fake representations against the corresponding real fingerprints indicate the effectiveness of the fake representations. Our results confirmed that all except one of the tested devices are susceptible to at least one type/material of fake fingerprint representations.
翻訳日:2021-05-30 19:47:06 公開日:2020-12-01
# 物体検出のための動的特徴ピラミッドネットワーク

Dynamic Feature Pyramid Networks for Object Detection ( http://arxiv.org/abs/2012.00779v1 )

ライセンス: Link先を確認
Mingjian Zhu, Kai Han, Changbin Yu, Yunhe Wang(参考訳) 本稿では,オブジェクト検出システムにおいて,マルチスケール特徴情報を集約するためのモジュールであるピラミッドネットワーク(fpn)について述べる。 既存の作業の大部分のパフォーマンス向上は、主に計算負荷の増加、特に浮動小数点演算(FLOP)に寄与している。 さらに,FPNの各層内のマルチスケール情報についても検討されていない。 この目的のために、まず、各層が異なるカーネルサイズを持つ畳み込みフィルタを含み、受容フィールドを拡大し、より有用な情報を統合したインセプションfpnを導入する。 さらに、全てのオブジェクトがそのような複雑な計算モジュールを必要とするわけではないことを指摘し、新しい動的FPN(DyFPN)を提案する。 DyFPNの各レイヤは計算コストの異なる複数のブランチで構成されている。 具体的には、学習可能なゲーティング操作に応じて適応的に選択された分岐を用いてDyFPNの出力特性を算出する。 そのため,提案手法は,精度と検出性能のトレードオフを向上するための,より効率的な動的推論を提供することができる。 ベンチマーク実験により,提案したDyFPNは計算資源の最適割り当てにより性能を著しく向上することが示された。 例えば、FPNをFPNに置き換えることで、COCOミニバル上のFaster R-CNNパラダイムを使用した1.6 APによる検出精度が向上し、DyFPNは同様の性能を維持しながらFLOPの約40%を削減する。

This paper studies feature pyramid network (FPN), which is a widely used module for aggregating multi-scale feature information in the object detection system. The performance gain in most of the existing works is mainly contributed to the increase of computation burden, especially the floating number operations (FLOPs). In addition, the multi-scale information within each layer in FPN has not been well investigated. To this end, we first introduce an inception FPN in which each layer contains convolution filters with different kernel sizes to enlarge the receptive field and integrate more useful information. Moreover, we point out that not all objects need such a complicated calculation module and propose a new dynamic FPN (DyFPN). Each layer in the DyFPN consists of multiple branches with different computational costs. Specifically, the output features of DyFPN will be calculated by using the adaptively selected branch according to a learnable gating operation. Therefore, the proposed method can provide a more efficient dynamic inference for achieving a better trade-off between accuracy and detection performance. Extensive experiments conducted on benchmarks demonstrate that the proposed DyFPN significantly improves performance with the optimal allocation of computation resources. For instance, replacing the FPN with the inception FPN improves detection accuracy by 1.6 AP using the Faster R-CNN paradigm on COCO minival, and the DyFPN further reduces about 40% of its FLOPs while maintaining similar performance.
翻訳日:2021-05-30 19:43:56 公開日:2020-12-01
# 半教師付きセマンティックセグメンテーションのための3段階自己学習フレームワーク

A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2012.00827v1 )

ライセンス: Link先を確認
Rihuan Ke, Angelica Aviles-Rivero, Saurabh Pandey, Saikumar Reddy and Carola-Bibiane Sch\"onlieb(参考訳) セマンティックセグメンテーションはコミュニティで広く研究されており、そこでは技術の現状が教師付きモデルに基づいている。 これらのモデルは、大量の高品質セグメンテーションマスクを必要とするコストで前例のない性能を報告している。 このようなアノテーションを得るには、特にピクセルレベルのアノテーションを必要とするセマンティックセグメンテーションにおいて、非常に高価で時間を要する。 本研究では,半教師付きセマンティックセグメンテーションのための3段階の自己学習フレームワークとして,包括的解を提案する。 本手法の鍵となる考え方は,マルチタスク方式でセグメンテーション一貫性を保ちながら,予測確率の不確実性を低下させる擬似マスク統計情報の抽出である。 これを3段階の解法で達成する。 まず,セグメンテーションネットワークを訓練し,予測確率が極めて不確かである粗い擬似マスクを生成する。 次に、データの豊富な統計情報を活用しながら一貫性を強制するマルチタスクモデルを用いて、疑似マスクの不確実性を低減する。 提案手法を半教師付きセマンティックセグメンテーションの既存手法と比較し,その最先端性能を広範な実験で実証する。

Semantic segmentation has been widely investigated in the community, in which the state of the art techniques are based on supervised models. Those models have reported unprecedented performance at the cost of requiring a large set of high quality segmentation masks. To obtain such annotations is highly expensive and time consuming, in particular, in semantic segmentation where pixel-level annotations are required. In this work, we address this problem by proposing a holistic solution framed as a three-stage self-training framework for semi-supervised semantic segmentation. The key idea of our technique is the extraction of the pseudo-masks statistical information to decrease uncertainty in the predicted probability whilst enforcing segmentation consistency in a multi-task fashion. We achieve this through a three-stage solution. Firstly, we train a segmentation network to produce rough pseudo-masks which predicted probability is highly uncertain. Secondly, we then decrease the uncertainty of the pseudo-masks using a multi-task model that enforces consistency whilst exploiting the rich statistical information of the data. We compare our approach with existing methods for semi-supervised semantic segmentation and demonstrate its state-of-the-art performance with extensive experiments.
翻訳日:2021-05-30 19:43:18 公開日:2020-12-01
# HRIアプリケーションにおけるオンライン人間行動認識のためのコンパクトシーケンス符号化方式

A compact sequence encoding scheme for online human activity recognition in HRI applications ( http://arxiv.org/abs/2012.00873v1 )

ライセンス: Link先を確認
Georgios Tsatiris, Kostas Karpouzis, Stefanos Kollias(参考訳) 人間の行動認識と分析は常にパターン認識と機械学習の最も活発な分野の1つであり、運動ゲーム、監視、スポーツ分析、医療など様々な分野に応用されている。 特に人間-ロボットインタラクションでは、家庭用ロボットアシスタントが近い将来のトレンドとなるため、人間の活動理解が重要な役割を果たす。 しかし、複雑なマシンインテリジェンスタスクをサポートする最先端のインフラストラクチャは、常に利用可能ではなく、ロボットハードウェアが高価であるため、平均的な消費者には提供されないかもしれない。 本稿では,マハラノビス距離に基づく形状特徴とラドン変換を用いて,時空間的動作列をコンパクトな表現に変換する新しい動作系列符号化方式を提案する。 この表現は、軽量畳み込みニューラルネットワークの入力として使用できる。 実験によると、提案されたパイプラインは最先端の人間のポーズ推定技術に基づいて、高度なコンピューティング能力を持たないハードウェア上にデプロイ可能な、堅牢なエンドツーエンドのオンラインアクション認識スキームを提供することができる。

Human activity recognition and analysis has always been one of the most active areas of pattern recognition and machine intelligence, with applications in various fields, including but not limited to exertion games, surveillance, sports analytics and healthcare. Especially in Human-Robot Interaction, human activity understanding plays a crucial role as household robotic assistants are a trend of the near future. However, state-of-the-art infrastructures that can support complex machine intelligence tasks are not always available, and may not be for the average consumer, as robotic hardware is expensive. In this paper we propose a novel action sequence encoding scheme which efficiently transforms spatio-temporal action sequences into compact representations, using Mahalanobis distance-based shape features and the Radon transform. This representation can be used as input for a lightweight convolutional neural network. Experiments show that the proposed pipeline, when based on state-of-the-art human pose estimation techniques, can provide a robust end-to-end online action recognition scheme, deployable on hardware lacking extreme computing capabilities.
翻訳日:2021-05-30 19:42:45 公開日:2020-12-01
# 効率的なステレオマッチングのための変位不変コスト計算

Displacement-Invaria nt Cost Computation for Efficient Stereo Matching ( http://arxiv.org/abs/2012.00899v1 )

ライセンス: Link先を確認
Yiran Zhong, Charles Loop, Wonmin Byeon, Stan Birchfield, Yuchao Dai, Kaihao Zhang, Alexey Kamenev, Thomas Breuel, Hongdong Li, Jan Kautz(参考訳) 深層学習に基づく手法は、前例のない不一致の精度でステレオマッチングのリーダーボードを支配してきたが、その推論時間は典型的には540p画像の秒順に遅い。 主な理由は、4D特徴量に適用される時間を要する3D畳み込みを用いる方法である。 計算をスピードアップする一般的な方法は、特徴量の縮小であるが、これは高周波の詳細を失う。 これらの課題を克服するために,4次元特徴量を必要としないマッチングコストを計算するために,emph{displacement-invaria nt cost compute module}を提案する。 むしろ、各差分シフトした特徴写像対に同じ2D畳み込みネットワークを適用してコストを算出する。 入力と不均一マップ間のコンテキストマッピングを簡易に行う従来の2次元畳み込み法とは異なり,提案手法は2つの画像間の特徴に一致することを学習する。 また, エントロピーに基づく改良手法を提案し, 右画像上の第2の差分マップの計算を不要にすることで, 高速化を図る。 標準データセット(SceneFlow,KITTI,ETH 3D,Middlebury)の大規模な実験により,提案手法がより少ない推論時間で競合精度を実現することを示す。 典型的な画像サイズでは、デスクトップGPU上で100FPS以上を処理し、自律運転のような時間クリティカルなアプリケーションに適合する。 また, 提案手法は, 4D-volumetric法よりも優れていることを示す。

Although deep learning-based methods have dominated stereo matching leaderboards by yielding unprecedented disparity accuracy, their inference time is typically slow, on the order of seconds for a pair of 540p images. The main reason is that the leading methods employ time-consuming 3D convolutions applied to a 4D feature volume. A common way to speed up the computation is to downsample the feature volume, but this loses high-frequency details. To overcome these challenges, we propose a \emph{displacement-invaria nt cost computation module} to compute the matching costs without needing a 4D feature volume. Rather, costs are computed by applying the same 2D convolution network on each disparity-shifted feature map pair independently. Unlike previous 2D convolution-based methods that simply perform context mapping between inputs and disparity maps, our proposed approach learns to match features between the two images. We also propose an entropy-based refinement strategy to refine the computed disparity map, which further improves speed by avoiding the need to compute a second disparity map on the right image. Extensive experiments on standard datasets (SceneFlow, KITTI, ETH3D, and Middlebury) demonstrate that our method achieves competitive accuracy with much less inference time. On typical image sizes, our method processes over 100 FPS on a desktop GPU, making our method suitable for time-critical applications such as autonomous driving. We also show that our approach generalizes well to unseen datasets, outperforming 4D-volumetric methods.
翻訳日:2021-05-30 19:42:15 公開日:2020-12-01
# 人間言語の確率的性質を示唆する単語頻度の統計的パターン

Statistical patterns of word frequency suggesting the probabilistic nature of human languages ( http://arxiv.org/abs/2012.00187v1 )

ライセンス: Link先を確認
Shuiyuan Yu, Chunshan Xu, Haitao Liu(参考訳) 伝統的な言語理論は、言語を厳格な規則からなる形式的な体系と見なす。 しかし、実際の言語処理の失敗、統計的自然言語処理の最近の成功、多くの心理学実験の結果は、言語は形式的なシステムよりも確率的システムである可能性があり、したがって形式言語理論のどちらの規則とも忠実にモデル化できないことを示唆している。 本研究は, 正真正銘の言語データに基づいて, 言語普遍, ダイアクロニックドリフト, 言語変動などの重要な言語問題は, 仮釈放時の確率パターン, 頻度パターンに翻訳可能であることを確認した。 これらの結果から,人間の言語は自然の確率論的システムである可能性が示唆され,統計学が人間の言語の性質を成す可能性が示唆された。

Traditional linguistic theories have largely regard language as a formal system composed of rigid rules. However, their failures in processing real language, the recent successes in statistical natural language processing, and the findings of many psychological experiments have suggested that language may be more a probabilistic system than a formal system, and thus cannot be faithfully modeled with the either/or rules of formal linguistic theory. The present study, based on authentic language data, confirmed that those important linguistic issues, such as linguistic universal, diachronic drift, and language variations can be translated into probability and frequency patterns in parole. These findings suggest that human language may well be probabilistic systems by nature, and that statistical may well make inherent properties of human languages.
翻訳日:2021-05-30 19:41:34 公開日:2020-12-01
# エビデンスに基づく医学におけるテキスト分類のための言語モデル

Neural language models for text classification in evidence-based medicine ( http://arxiv.org/abs/2012.00584v1 )

ライセンス: Link先を確認
Andres Carvallo, Denis Parra, Gabriel Rada, Daniel Perez, Juan Ignacio Vasquez and Camilo Vergara(参考訳) 新型コロナウイルス(covid-19)は、人類全体に大きな課題をもたらしたが、医療コミュニティに特別な負担を負った。 臨床医は、絶え間なく続く科学文献の洪水下で、症状、診断、創発的治療の有効性について継続的に更新し続けなければならない。 この文脈では、公衆衛生および臨床実践を支援するための最も重要な証拠をキュレートするエビデンスベースの医療(EBM)の役割は不可欠であるが、毎日発行される大量の研究論文とプレプリントのために、これまでなかったほどに挑戦されている。 人工知能はこの状況において重要な役割を果たす可能性がある。 本稿では,ESMを実践する国際的に最も活発な基盤の一つであるEpistemonikosを支援するために,学術論文を分類するための応用研究プロジェクトの結果を報告する。 我々はいくつかの方法を試し、XLNetニューラルネットワークモデルに基づいて、現在のアプローチを平均F1スコアで93%改善し、新型コロナウイルス研究記事を手作業でキュレートしようとする医師から貴重な時間を節約する。

The COVID-19 has brought about a significant challenge to the whole of humanity, but with a special burden upon the medical community. Clinicians must keep updated continuously about symptoms, diagnoses, and effectiveness of emergent treatments under a never-ending flood of scientific literature. In this context, the role of evidence-based medicine (EBM) for curating the most substantial evidence to support public health and clinical practice turns essential but is being challenged as never before due to the high volume of research articles published and pre-prints posted daily. Artificial Intelligence can have a crucial role in this situation. In this article, we report the results of an applied research project to classify scientific articles to support Epistemonikos, one of the most active foundations worldwide conducting EBM. We test several methods, and the best one, based on the XLNet neural language model, improves the current approach by 93\% on average F1-score, saving valuable time from physicians who volunteer to curate COVID-19 research articles manually.
翻訳日:2021-05-30 19:41:10 公開日:2020-12-01
# 低資源シナリオにおける音響事例からの言語家族の自動同定

Automatically Identifying Language Family from Acoustic Examples in Low Resource Scenarios ( http://arxiv.org/abs/2012.00876v1 )

ライセンス: Link先を確認
Peter Wu, Yifan Zhong, Alan W Black(参考訳) 既存の多言語音声NLPは比較的少数の言語に焦点を合わせており、現代の言語理解は主に古典的アプローチに由来する。 本研究では,ディープラーニングを用いて言語類似性を分析する手法を提案する。 すなわち,荒野データセット上でモデルを訓練し,その潜在空間と古典語族との比較について検討する。 提案手法は,音声に基づくNLPタスクにおいて,言語間データ拡張のための新たな方向を提供する。

Existing multilingual speech NLP works focus on a relatively small subset of languages, and thus current linguistic understanding of languages predominantly stems from classical approaches. In this work, we propose a method to analyze language similarity using deep learning. Namely, we train a model on the Wilderness dataset and investigate how its latent space compares with classical language family findings. Our approach provides a new direction for cross-lingual data augmentation in any speech-based NLP task.
翻訳日:2021-05-30 19:40:38 公開日:2020-12-01
# マルチフィールド分類データのためのフィールドワイズ学習

Field-wise Learning for Multi-field Categorical Data ( http://arxiv.org/abs/2012.00202v1 )

ライセンス: Link先を確認
Zhibin Li, Jian Zhang, Yongshun Gong, Yazhou Yao, Qiang Wu(参考訳) マルチフィールド分類データを用いた新しい学習法を提案する。 マルチフィールド分類データは、通常、多くの異種群で収集される。 これらの群は、フィールドの下のカテゴリで反映することができる。 既存の手法は、すべてのデータに適合する普遍的なモデルを学習しようとするが、それは困難であり、必然的に複雑なモデルを学習する。 対照的に、データの自然な構造を利用したフィールドワイズ学習手法を提案し、適切な制約を伴って、シンプルで効率的なワンツーワンのフィールド中心モデルを学ぶ。 これにより、モデルが各カテゴリに適合し、基礎となるデータの違いをよりよく捉えることができる。 本稿では,分散と低ランク制約を持つ線形モデルを用いて,より一般化しパラメータ数を減らすためのモデルを提案する。 モデルはまた、フィールド的な方法で解釈可能である。 マルチフィールド分類データの次元性は非常に高いため、そのようなデータに適用されたモデルは概ね過パラメータ化される。 我々の理論解析は、過度パラメトリゼーションがモデルの一般化に与える影響を説明できる可能性がある。 また、学習目標における分散制約もサポートする。 実験結果は,2つの大規模データセットにおいて,モデルの優れた性能,一般化誤差の傾向,学習結果の解釈可能性を示した。 私たちのコードはhttps://github.com/l zb5600/field-wise-le arningで利用可能です。

We propose a new method for learning with multi-field categorical data. Multi-field categorical data are usually collected over many heterogeneous groups. These groups can reflect in the categories under a field. The existing methods try to learn a universal model that fits all data, which is challenging and inevitably results in learning a complex model. In contrast, we propose a field-wise learning method leveraging the natural structure of data to learn simple yet efficient one-to-one field-focused models with appropriate constraints. In doing this, the models can be fitted to each category and thus can better capture the underlying differences in data. We present a model that utilizes linear models with variance and low-rank constraints, to help it generalize better and reduce the number of parameters. The model is also interpretable in a field-wise manner. As the dimensionality of multi-field categorical data can be very high, the models applied to such data are mostly over-parameterized. Our theoretical analysis can potentially explain the effect of over-parametrization on the generalization of our model. It also supports the variance constraints in the learning objective. The experiment results on two large-scale datasets show the superior performance of our model, the trend of the generalization error bound, and the interpretability of learning outcomes. Our code is available at https://github.com/l zb5600/Field-wise-Le arning.
翻訳日:2021-05-30 19:40:26 公開日:2020-12-01
# 条件付き生成逆数ネットワークを用いたクラス不均衡の欠落データの計算

Imputation of Missing Data with Class Imbalance using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2012.00220v1 )

ライセンス: Link先を確認
Saqib Ejaz Awan, Mohammed Bennamoun, Ferdous Sohel, Frank M Sanfilippo, Girish Dwivedi(参考訳) データ不足は、現実のデータセットで直面する一般的な問題である。 インプテーションはデータの欠落を推定するのに広く使われている手法である。 GAIN(Generative Adversarial Imputation Nets)のような最先端の計算手法は、観測データの分布をモデル化し、欠落した値を近似する。 このようなアプローチは通常、データセット全体の単一ディストリビューションをモデル化します。 クラス固有の特徴は、クラス不均衡がある場合に特に有用である。 本研究では,cgan(popular conditional generative adversarial networks)を応用し,クラス固有の特徴に基づく欠落データを示唆する新しい手法を提案する。 CGAIN(Conditional Generative Adversarial Imputation Network)は、クラス固有の分布を用いて欠落したデータをインプットし、欠落した値に対して最適な推定値を生成する。 提案手法をベンチマークデータセットで検証し,最新かつ一般的な計算手法と比較して優れた性能を示した。

Missing data is a common problem faced with real-world datasets. Imputation is a widely used technique to estimate the missing data. State-of-the-art imputation approaches, such as Generative Adversarial Imputation Nets (GAIN), model the distribution of observed data to approximate the missing values. Such an approach usually models a single distribution for the entire dataset, which overlooks the class-specific characteristics of the data. Class-specific characteristics are especially useful when there is a class imbalance. We propose a new method for imputing missing data based on its class-specific characteristics by adapting the popular Conditional Generative Adversarial Networks (CGAN). Our Conditional Generative Adversarial Imputation Network (CGAIN) imputes the missing data using class-specific distributions, which can produce the best estimates for the missing values. We tested our approach on benchmark datasets and achieved superior performance compared with the state-of-the-art and popular imputation approaches.
翻訳日:2021-05-30 19:39:57 公開日:2020-12-01
# 人工蜂コロニーアルゴリズムを用いたマルウェア検出

Malware Detection using Artificial Bee Colony Algorithm ( http://arxiv.org/abs/2012.00845v1 )

ライセンス: Link先を確認
Farid Ghareh Mohammadi, Farzan Shenavarmasouleh, M. Hadi Amini and Hamid R. Arabnia(参考訳) マルウェア検出は、マルウェアファミリーの数が増えているため、難しい課題となっている。 すべてのマルウェアファミリーを検出できるユニバーサルマルウェア検出アルゴリズムは、プロセス全体を実行可能にするために必要である。 しかし、アルゴリズムがより普遍的になればなるほど、それを扱う必要のある特徴次元の数が増加し、必然的に、Curse of dimensionality(CoD)という問題が発生する。 また,マルウェア解析のリアルタイムな動作により,この問題の解決も困難である。 本稿では,この問題に対処し,ABC(Artificial Bee Colony)と呼ばれる進化的アルゴリズムを用いて特徴選択に基づくマルウェア検出アルゴリズムを提案する。 提案アルゴリズムにより,研究者は特徴量を減らすことができ,その結果,マルウェア検出のプロセスが向上する。 実験の結果,提案手法が最先端技術よりも優れていることがわかった。

Malware detection has become a challenging task due to the increase in the number of malware families. Universal malware detection algorithms that can detect all the malware families are needed to make the whole process feasible. However, the more universal an algorithm is, the higher number of feature dimensions it needs to work with, and that inevitably causes the emerging problem of Curse of Dimensionality (CoD). Besides, it is also difficult to make this solution work due to the real-time behavior of malware analysis. In this paper, we address this problem and aim to propose a feature selection based malware detection algorithm using an evolutionary algorithm that is referred to as Artificial Bee Colony (ABC). The proposed algorithm enables researchers to decrease the feature dimension and as a result, boost the process of malware detection. The experimental results reveal that the proposed method outperforms the state-of-the-art.
翻訳日:2021-05-30 19:39:31 公開日:2020-12-01
# スマートホームにおける行動認識のための単語エンコーディングと埋め込みによる完全畳み込みネットワーク

Fully Convolutional Network Bootstrapped by Word Encoding and Embedding for Activity Recognition in Smart Homes ( http://arxiv.org/abs/2012.02300v1 )

ライセンス: Link先を確認
Damien Bouchabou (IMT Atlantique - INFO), Sao Nguyen, Christophe Lohr, Benoit Leduc, Ioannis Kanellos(参考訳) 住民に自動サービスを提案するためには,スマートホームにおける活動認識が不可欠である。 しかし、環境の変動性、センサー・モベレーター・システム、そしてユーザーの習慣に関しても問題となる。 したがって、エンド・ツー・エンドのシステムは、広範囲の事前処理なしにキー機能を自動的に抽出できない。 本稿では,NLP(Natural Language Processing)とTSC(Time Series Classification)を融合したスマートホームにおける活動認識のための特徴抽出手法を提案する。 本稿では,CASAS(Center for Advanced Studies in Adaptive Systems)から発行された2つのデータセットに対して,本手法の性能を評価する。 さらに,Bag-Of-Word と Embedding を用いた NLP 符号化の貢献と,FCN アルゴリズムによる特徴の自動抽出と分類機能の解析を行った。 本手法は,オフライン活動分類における優れた性能を示す。 また, FCNはスマートホーム活動認識に適したアルゴリズムであり, 自動特徴抽出の利点を高く評価する。

Activity recognition in smart homes is essential when we wish to propose automatic services for the inhabitants. However, it poses challenges in terms of variability of the environment, sensorimotor system, but also user habits. Therefore, endto-end systems fail at automatically extracting key features, without extensive pre-processing. We propose to tackle feature extraction for activity recognition in smart homes by merging methods from the Natural Language Processing (NLP) and the Time Series Classification (TSC) domains. We evaluate the performance of our method on two datasets issued from the Center for Advanced Studies in Adaptive Systems (CASAS). Moreover, we analyze the contributions of the use of NLP encoding Bag-Of-Word with Embedding as well as the ability of the FCN algorithm to automatically extract features and classify. The method we propose shows good performance in offline activity classification. Our analysis also shows that FCN is a suitable algorithm for smart home activity recognition and hightlights the advantages of automatic feature extraction.
翻訳日:2021-05-30 19:39:08 公開日:2020-12-01
# ターゲット依存音声分離のための話者抽出に基づく深部アドホックビームフォーミング

Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent Speech Separation ( http://arxiv.org/abs/2012.00403v1 )

ライセンス: Link先を確認
Ziye Yang, Shanzheng Guan and Xiao-Lei Zhang(参考訳) 近年,特に音声強調と分離において,深層学習を伴うアドホックマイクロホンアレイの研究が注目されている。 アドホックマイクロホンアレイは、複数の話者が遠く離れた場所から独立して話すことができるほど広い領域をカバーする可能性があるため、混合音声からターゲット話者を抽出することを目的としたターゲット依存音声分離は、アドホックアレー内の特定の話者を抽出・追跡する上で重要である。 しかし、この技術はまだ研究されていない。 本稿では,話者抽出に基づく深部アドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレーと深部学習に基づくターゲット依存音声分離の最初の仕事である。 アルゴリズムは3つのコンポーネントを含む。 まず、話者抽出に基づく教師付きチャンネル選択フレームワークを提案し、対象音声の発話レベルSNRをチャネル選択の基盤として利用する。 次に、選択したチャネルを深層学習に基づくMVDRアルゴリズムに適用し、ターゲット音声のマスクを推定するために、選択したチャネル毎に単一チャネル話者抽出アルゴリズムを適用する。 wsj0-adhocコーパスの広範な実験を行った。 実験の結果,提案手法の有効性が示された。

Recently, the research on ad-hoc microphone arrays with deep learning has drawn much attention, especially in speech enhancement and separation. Because an ad-hoc microphone array may cover such a large area that multiple speakers may locate far apart and talk independently, target-dependent speech separation, which aims to extract a target speaker from a mixed speech, is important for extracting and tracing a specific speaker in the ad-hoc array. However, this technique has not been explored yet. In this paper, we propose deep ad-hoc beamforming based on speaker extraction, which is to our knowledge the first work for target-dependent speech separation based on ad-hoc microphone arrays and deep learning. The algorithm contains three components. First, we propose a supervised channel selection framework based on speaker extraction, where the estimated utterance-level SNRs of the target speech are used as the basis for the channel selection. Second, we apply the selected channels to a deep learning based MVDR algorithm, where a single-channel speaker extraction algorithm is applied to each selected channel for estimating the mask of the target speech. We conducted an extensive experiment on a WSJ0-adhoc corpus. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-30 19:38:41 公開日:2020-12-01
# mlOSP: 回帰モンテカルロアルゴリズムの統一実装に向けて

mlOSP: Towards a Unified Implementation of Regression Monte Carlo Algorithms ( http://arxiv.org/abs/2012.00729v1 )

ライセンス: Link先を確認
Mike Ludkovski(参考訳) 最適停止問題に対する機械学習のための計算テンプレートであるmlospを提案する。 テンプレートはR統計環境で実装され、GitHubリポジトリ経由で公開されている。 mlOSPは、Regression Monte Carlo(RMC)アプローチの統一的な数値実装を最適停止に提供し、最先端、オープンソース、再現可能、透明なプラットフォームを提供する。 そのモジュラー性を強調し、特にレグレプタのトレーニングのためのシミュレーション設計や機械学習回帰モジュールの観点で、rmcアルゴリズムの複数の新しい変種を提示する。 同時に、mlOSPは既存のRCCスキームのほとんどをネストし、既存のアルゴリズムの一貫性と検証可能なベンチマークを可能にする。 この記事にはRのコードスニペットとフィギュアが含まれており、新しいRCC機能を示し、基盤となるソフトウェアパッケージにウィグレットとしての役割を兼ねている。

We introduce mlOSP, a computational template for Machine Learning for Optimal Stopping Problems. The template is implemented in the R statistical environment and publicly available via a GitHub repository. mlOSP presents a unified numerical implementation of Regression Monte Carlo (RMC) approaches to optimal stopping, providing a state-of-the-art, open-source, reproducible and transparent platform. Highlighting its modular nature, we present multiple novel variants of RMC algorithms, especially in terms of constructing simulation designs for training the regressors, as well as in terms of machine learning regression modules. At the same time, mlOSP nests most of the existing RMC schemes, allowing for a consistent and verifiable benchmarking of extant algorithms. The article contains extensive R code snippets and figures, and serves the dual role of presenting new RMC features and as a vignette to the underlying software package.
翻訳日:2021-05-30 19:38:08 公開日:2020-12-01
# エンドエッジクラウドコンピューティングに基づく多機能車両協調制御

A Multi-intersection Vehicular Cooperative Control based on End-Edge-Cloud Computing ( http://arxiv.org/abs/2012.00500v1 )

ライセンス: Link先を確認
Mingzhi Jiang, Tianhao Wu, Zhe Wang, Yi Gong, Lin Zhang, Ren Ping Liu(参考訳) 協調型知的交通システム(c-its)は、特に信号機のない交差点、すなわち無信号交差点において、道路安全と交通管理のモードを変える。 既存の研究は、無信号交差点周辺の小さな領域における車両制御に焦点を当てている。 本稿では,制御領域を複数の交差点を持つ広い領域に拡張する。 特に,複数交差点を有する広いエリアにおける車両間の協調を実現するために,Multi-intersection Vehicular Cooperative Control (MiVeCC)を提案する。 まず、車両間のエッジクラウド垂直協調と水平協調を容易にするために、車両用エンドエッジクラウドコンピューティングフレームワークを提案する。 次に、雲とエッジ層の車両協調制御問題をマルコフ決定過程(MDP)として定式化し、2段階強化学習により解いた。 さらに, 高密度トラフィックに対応するために, 車両選択法を提案し, 性能劣化を伴わずに, 状態空間を小さくし, アルゴリズム収束を加速する。 提案手法を評価するためにマルチインターセクションシミュレーションプラットフォームを開発した。 シミュレーションの結果,提案したMiVeCCは既存手法と比較して衝突なく複数交差点での走行効率を最大4.59倍向上できることがわかった。

Cooperative Intelligent Transportation Systems (C-ITS) will change the modes of road safety and traffic management, especially at intersections without traffic lights, namely unsignalized intersections. Existing researches focus on vehicle control within a small area around an unsignalized intersection. In this paper, we expand the control domain to a large area with multiple intersections. In particular, we propose a Multi-intersection Vehicular Cooperative Control (MiVeCC) to enable cooperation among vehicles in a large area with multiple unsignalized intersections. Firstly, a vehicular end-edge-cloud computing framework is proposed to facilitate end-edge-cloud vertical cooperation and horizontal cooperation among vehicles. Then, the vehicular cooperative control problems in the cloud and edge layers are formulated as Markov Decision Process (MDP) and solved by two-stage reinforcement learning. Furthermore, to deal with high-density traffic, vehicle selection methods are proposed to reduce the state space and accelerate algorithm convergence without performance degradation. A multi-intersection simulation platform is developed to evaluate the proposed scheme. Simulation results show that the proposed MiVeCC can improve travel efficiency at multiple intersections by up to 4.59 times without collision compared with existing methods.
翻訳日:2021-05-30 19:37:42 公開日:2020-12-01
# 偽画像検出法に対するチェッカーボードのないCycleGAN

CycleGAN without checkerboard artifacts for counter-forensics of fake-image detection ( http://arxiv.org/abs/2012.00287v1 )

ライセンス: Link先を確認
Takayuki Osakabe, Miki Tanaka, Yuma Kinoshita, Hitoshi Kiya(参考訳) 本稿では,偽画像検出のカウンターフォリシスのためのチェッカーボードアーティファクトを持たない新しいサイクガンを提案する。 近年,画像操作ツールの急速な進歩と,gan(generative adversarial network)などの深層画像合成技術がフェイク画像を容易に生成しているため,操作画像の検出が急務となっている。 多くの最先端の偽造検出手法では、画像にはDNNを用いて生成されたチェッカーボードアーティファクトが含まれていると仮定している。 そこで本研究では,チェックボードを伴わないganの例として,フェイクメージ検出手法の反フォリシスのためのチェッカーボードアーティファクトを含まない新しいサイクガンを提案する。

In this paper, we propose a novel CycleGAN without checkerboard artifacts for counter-forensics of fake-image detection. Recent rapid advances in image manipulation tools and deep image synthesis techniques, such as Generative Adversarial Networks (GANs) have easily generated fake images, so detecting manipulated images has become an urgent issue. Most state-of-the-art forgery detection methods assume that images include checkerboard artifacts which are generated by using DNNs. Accordingly, we propose a novel CycleGAN without any checkerboard artifacts for counter-forensics of fake-mage detection methods for the first time, as an example of GANs without checkerboard artifacts.
翻訳日:2021-05-30 19:36:25 公開日:2020-12-01
# 深部画像アニメーションを用いた超低ビットレートビデオ会議

Ultra-low bitrate video conferencing using deep image animation ( http://arxiv.org/abs/2012.00346v1 )

ライセンス: Link先を確認
Goluck Konuko, Giuseppe Valenzise, St\'ephane Lathuili\`ere(参考訳) 本研究では,ビデオ会議用超低ビットレートビデオ圧縮のための新しい深層学習手法を提案する。 利用可能な帯域幅が極端に限られている場合の現在のビデオ圧縮パラダイムの欠点に対処するために、深層ニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成するモデルベースのアプローチを採用する。 エンコーダ出力の再構成誤差を最小化するエンドツーエンド方式でシステム全体を訓練する。 客観的および主観的品質評価実験により,提案手法はHEVCと比較して80%以上の視覚的品質に対して平均ビットレート低減を提供することを示した。

In this work we propose a novel deep learning approach for ultra-low bitrate video compression for video conferencing applications. To address the shortcomings of current video compression paradigms when the available bandwidth is extremely limited, we adopt a model-based approach that employs deep neural networks to encode motion information as keypoint displacement and reconstruct the video signal at the decoder side. The overall system is trained in an end-to-end fashion minimizing a reconstruction error on the encoder output. Objective and subjective quality evaluation experiments demonstrate that the proposed approach provides an average bitrate reduction for the same visual quality of more than 80% compared to HEVC.
翻訳日:2021-05-30 19:36:03 公開日:2020-12-01
# プロファイル予測:タンパク質配列モデルのアライメントに基づく事前学習タスク

Profile Prediction: An Alignment-Based Pre-Training Task for Protein Sequence Models ( http://arxiv.org/abs/2012.00195v1 )

ライセンス: Link先を確認
Pascal Sturmfels, Jesse Vig, Ali Madani, Nazneen Fatema Rajani(参考訳) タンパク質配列データセットでは、ラベルなしのデータがラベル付きデータを大幅に上回っている。 タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示した。 しかし、最適な事前学習戦略は未解決のままである。 自然言語処理(nlp)からマスクや自己回帰型言語モデリングの形で厳密に借用する代わりに、複数の配列アライメントから派生したタンパク質プロファイルを直接予測する新しい事前学習タスクを導入する。 タンパク質モデルのための標準化された5つの下流タスクのセットを用いて、我々の事前学習タスクとマルチタスク目的タスクが5つのタスクすべてにおいてマスク付き言語モデリングよりも優れていることを示す。 以上の結果から,タンパク質配列モデルは,NLPの既存の言語モデリング技術を超えて生物学的にインスパイアされた誘導バイアスを活用できる可能性が示唆された。

For protein sequence datasets, unlabeled data has greatly outpaced labeled data due to the high cost of wet-lab characterization. Recent deep-learning approaches to protein prediction have shown that pre-training on unlabeled data can yield useful representations for downstream tasks. However, the optimal pre-training strategy remains an open question. Instead of strictly borrowing from natural language processing (NLP) in the form of masked or autoregressive language modeling, we introduce a new pre-training task: directly predicting protein profiles derived from multiple sequence alignments. Using a set of five, standardized downstream tasks for protein models, we demonstrate that our pre-training task along with a multi-task objective outperforms masked language modeling alone on all five tasks. Our results suggest that protein sequence models may benefit from leveraging biologically-inspire d inductive biases that go beyond existing language modeling techniques in NLP.
翻訳日:2021-05-30 19:34:29 公開日:2020-12-01
# HPCシステム上のPythonワークフロー

Python Workflows on HPC Systems ( http://arxiv.org/abs/2012.00365v1 )

ライセンス: Link先を確認
Dominik Strassel, Philipp Reusch and Janis Keuper(参考訳) 計算集約型機械学習とデータ分析手法の最近の成功と広範な応用により、HPCシステムにおけるPythonプログラミング言語の使用が促進されている。 Pythonはユーザに対して多くのメリットを提供しているが、マルチユーザ環境や並列プログラミングに重点を置いて設計されていないため、HPCシステム上で安定的でセキュアなPythonワークフローを維持することは極めて困難である。 本稿では,HPCクラスタ上でのPythonの利用によって引き起こされる重要な問題を分析し,マルチユーザPythonソフトウェア環境の効率的なメンテナンス,Pythonジョブのリソースの確保と制限,およびPythonプロセスを含むための適切な回避策のスケッチを行う。

The recent successes and wide spread application of compute intensive machine learning and data analytics methods have been boosting the usage of the Python programming language on HPC systems. While Python provides many advantages for the users, it has not been designed with a focus on multi-user environments or parallel programming - making it quite challenging to maintain stable and secure Python workflows on a HPC system. In this paper, we analyze the key problems induced by the usage of Python on HPC clusters and sketch appropriate workarounds for efficiently maintaining multi-user Python software environments, securing and restricting resources of Python jobs and containing Python processes, while focusing on Deep Learning applications running on GPU clusters.
翻訳日:2021-05-30 19:34:04 公開日:2020-12-01
# 分子特性予測のための3次元座標を用いたグラフ注意ニューラルネットワーク

Directed Graph Attention Neural Network Utilizing 3D Coordinates for Molecular Property Prediction ( http://arxiv.org/abs/2012.00404v1 )

ライセンス: Link先を確認
Chen Qian, Yunhai Xiong and Xiang Chen(参考訳) 近年のコンピュータビジョン(cv)と自然言語処理(nlp)の繁栄は、他の多くの分野におけるディープラーニングの発展を促している。 機械学習の進歩は、計算に高価な密度汎関数理論(DFT)以外の選択肢を提供する。 カーネル法とグラフニューラルネットワークは、プロパティ予測の2つの主要な手法として広く研究されている。 有望なグラフニューラルネットワークは、最近の研究では、特定のオブジェクトに対するDFT法と同等の精度を達成した。 しかし、これまでのグラフニューラルネットワークの多くは、エッジ情報としてペア距離分布の完全な連結グラフを必要とする。 この研究で我々は、化学結合のみをエッジとして取り、結合や分子の原子を操作するDirected Graph Attention Neural Network(DGANN)に光を当てた。 1) 化学結合のグラフアテンション機構を用いて局所的な化学環境の符号化を学習する。 初期エッジメッセージは、すべてのメッセージパッシング軌跡に一度だけ流れ込む。 2) トランスブロックは局所的な原子エンコーディングからグローバルな分子表現を集約する。 (3)位置ベクトルと座標は距離の代わりに入力として使用される。 我々のモデルは、徹底したハイパーパラメーター探索がなくても、QM9データセット上のほとんどのベースライングラフニューラルネットワークに適合または性能を向上した。 さらに, 3次元座標を直接利用するモデルでは, 回転や翻訳の不変性が組み込まれなくても, 分子表現の精度が高いことが示唆された。

The prosperity of computer vision (CV) and natural language procession (NLP) in recent years has spurred the development of deep learning in many other domains. The advancement in machine learning provides us with an alternative option besides the computationally expensive density functional theories (DFT). Kernel method and graph neural networks have been widely studied as two mainstream methods for property prediction. The promising graph neural networks have achieved comparable accuracy to the DFT method for specific objects in the recent study. However, most of the graph neural networks with high precision so far require fully connected graphs with pairwise distance distribution as edge information. In this work, we shed light on the Directed Graph Attention Neural Network (DGANN), which only takes chemical bonds as edges and operates on bonds and atoms of molecules. DGANN distinguishes from previous models with those features: (1) It learns the local chemical environment encoding by graph attention mechanism on chemical bonds. Every initial edge message only flows into every message passing trajectory once. (2) The transformer blocks aggregate the global molecular representation from the local atomic encoding. (3) The position vectors and coordinates are used as inputs instead of distances. Our model has matched or outperformed most baseline graph neural networks on QM9 datasets even without thorough hyper-parameters searching. Moreover, this work suggests that models directly utilizing 3D coordinates can still reach high accuracies for molecule representation even without rotational and translational invariance incorporated.
翻訳日:2021-05-30 19:33:46 公開日:2020-12-01
# IoTにおける機械学習システム - エッジインテリジェンスに対する信頼性のトレードオフ

Machine Learning Systems in the IoT: Trustworthiness Trade-offs for Edge Intelligence ( http://arxiv.org/abs/2012.00419v1 )

ライセンス: Link先を確認
Wiebke Toussaint and Aaron Yi Ding(参考訳) マシンラーニングシステム(MLSys)は、エッジインテリジェンスを提供するために、IoT(Internet of Things)に登場しています。 しかしながら、マシンラーニングシステムとIoTの成熟にもかかわらず、MLSysとIoTを実践的に統合する上で、深刻な課題に直面しています。 例えば、大規模なプロダクション(クラウド環境など)のために多くの機械学習システムが開発されているが、iotには、異種でリソースに制約のあるデバイスと分散した運用環境による追加の要求がある。 MLSysとIoTのこの収束について、この記事では、クラウド、エッジ、IoTデバイスにわたるMLのスケーリングと分散に関する最新の開発(2020年まで)をカバーして、トレードオフを分析する。 我々は、機械学習システムをIoTのコンポーネントとして位置づけ、エッジインテリジェンスを社会技術システムとして位置づける。 信頼性の高いエッジインテリジェンスを設計する上での課題として,マルチステークホルダーの懸念や設計要件,トレードオフを考慮に入れ,エッジインテリジェンスの将来的な研究機会を強調する,包括的な設計アプローチを提唱する。

Machine learning systems (MLSys) are emerging in the Internet of Things (IoT) to provision edge intelligence, which is paving our way towards the vision of ubiquitous intelligence. However, despite the maturity of machine learning systems and the IoT, we are facing severe challenges when integrating MLSys and IoT in practical context. For instance, many machine learning systems have been developed for large-scale production (e.g., cloud environments), but IoT introduces additional demands due to heterogeneous and resource-constrained devices and decentralized operation environment. To shed light on this convergence of MLSys and IoT, this paper analyzes the trade-offs by covering the latest developments (up to 2020) on scaling and distributing ML across cloud, edge, and IoT devices. We position machine learning systems as a component of the IoT, and edge intelligence as a socio-technical system. On the challenges of designing trustworthy edge intelligence, we advocate a holistic design approach that takes multi-stakeholder concerns, design requirements and trade-offs into consideration, and highlight the future research opportunities in edge intelligence.
翻訳日:2021-05-30 19:33:16 公開日:2020-12-01
# (k, l)-連続動的時間ワープを用いた軌道の中間子クラスタリング

(k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time Warping ( http://arxiv.org/abs/2012.00464v1 )

ライセンス: Link先を確認
Milutin Brankovic, Kevin Buchin, Koen Klaren, Andr\'e Nusser, Aleksandr Popov, Sampson Wong(参考訳) 利用可能な地理空間データの量が急増し、それを理解可能な方法で提示する必要があるため、このデータのクラスタリングはこれまで以上に重要である。 クラスタには多数のオブジェクトが含まれる可能性があるため、各クラスタに代表を持つことによって、クラスタの理解が大幅に容易になる。 このような代表に依存するクラスタリング手法をセンターベースと呼ぶ。 本研究では,軌跡中心クラスタリングの問題について考察する。 この設定では、クラスタの代表は再び軌跡となる。 クラスタのコンパクトな表現とオーバーフィッティングを避けるため,パラメータ l による代表軌道の複雑さを制限する。 近年,連続距離測度,すなわちfr\'echet距離を用いた軌道の中心的クラスタリングが研究されている。 fr\'echet距離は中心複雑性の制限を可能にするが、外れ値にも敏感であるが、dtwのような平均型距離測度はそうではない。 中心複雑性を制限し,アウトレーラに対して堅牢なトラジェクトリクラスタリングアルゴリズムを実現するために,DTWの連続バージョンを距離測定として使用することを提案し,これを連続動的時間ワープ(CDTW)と呼ぶ。 私たちの貢献は2つあります。 cdtwの実用的アルゴリズムの欠如に対処するために,計算を行う近似アルゴリズムを開発した。 2. 本研究では,この距離測定に基づく最初のクラスタリングアルゴリズムを開発し,一連の軌道から中心を計算し,反復的に改善する実用的な方法を示す。 実測データに基づくCDTWによるクラスタリングの結果の洞察を得るために,我々は広範な実験を行った。

Due to the massively increasing amount of available geospatial data and the need to present it in an understandable way, clustering this data is more important than ever. As clusters might contain a large number of objects, having a representative for each cluster significantly facilitates understanding a clustering. Clustering methods relying on such representatives are called center-based. In this work we consider the problem of center-based clustering of trajectories. In this setting, the representative of a cluster is again a trajectory. To obtain a compact representation of the clusters and to avoid overfitting, we restrict the complexity of the representative trajectories by a parameter l. This restriction, however, makes discrete distance measures like dynamic time warping (DTW) less suited. There is recent work on center-based clustering of trajectories with a continuous distance measure, namely, the Fr\'echet distance. While the Fr\'echet distance allows for restriction of the center complexity, it can also be sensitive to outliers, whereas averaging-type distance measures, like DTW, are less so. To obtain a trajectory clustering algorithm that allows restricting center complexity and is more robust to outliers, we propose the usage of a continuous version of DTW as distance measure, which we call continuous dynamic time warping (CDTW). Our contribution is twofold: 1. To combat the lack of practical algorithms for CDTW, we develop an approximation algorithm that computes it. 2. We develop the first clustering algorithm under this distance measure and show a practical way to compute a center from a set of trajectories and subsequently iteratively improve it. To obtain insights into the results of clustering under CDTW on practical data, we conduct extensive experiments.
翻訳日:2021-05-30 19:31:08 公開日:2020-12-01
# Alexaって何をタイプしたの? 音声アシスタントでスマートフォンの音をデコードする

Hey Alexa what did I just type? Decoding smartphone sounds with a voice assistant ( http://arxiv.org/abs/2012.00687v1 )

ライセンス: Link先を確認
Almos Zarandy, Ilia Shumailov, Ross Anderson(参考訳) 音声アシスタントは今やユビキタスで、日々の生活に耳を傾けている。 商用化されて以来、プライバシ擁護者たちは、収集したデータが悪用される可能性があることを心配している。 本稿では、プライバシーの脅威は会話以上のものであり、近隣のスマートフォンに入力された機密データを含んでいることを示す。 2つの異なるスマートフォンとタブレットを使って、攻撃者は最大50m離れた音声アシスタントが収集した録音からPINコードとテキストメッセージを抽出できることを示した。 これは、リモートキーボード参照攻撃が物理キーボードに限らず、仮想キーボードにも及んでいることを示している。 家庭が常時オンのマイクに満ちている中、私たちはその影響を乗り越える必要がある。

Voice assistants are now ubiquitous and listen in on our everyday lives. Ever since they became commercially available, privacy advocates worried that the data they collect can be abused: might private conversations be extracted by third parties? In this paper we show that privacy threats go beyond spoken conversations and include sensitive data typed on nearby smartphones. Using two different smartphones and a tablet we demonstrate that the attacker can extract PIN codes and text messages from recordings collected by a voice assistant located up to half a meter away. This shows that remote keyboard-inference attacks are not limited to physical keyboards but extend to virtual keyboards too. As our homes become full of always-on microphones, we need to work through the implications.
翻訳日:2021-05-30 19:29:13 公開日:2020-12-01
# 中心多様体近似のための核法と中心多様体定理のデータベース版

Kernel methods for center manifold approximation and a data-based version of the Center Manifold Theorem ( http://arxiv.org/abs/2012.00338v1 )

ライセンス: Link先を確認
Bernard Haasdonk and Boumediene Hamzi and Gabriele Santin and Dominik Wittwar(参考訳) 非双曲的平衡を持つ力学系では、中心多様体理論を用いて安定性の研究を著しく単純化することができる。 この理論は、平衡点に近い系の複雑な漸近挙動を分離し、いわゆる中心多様体上の縮小順序系を解析することによって、その挙動の有意義な予測を得ることを可能にする。 中心多様体は通常知られていないので、中心多様体の定理は、縮小順序系の原点の安定性が全順序系の原点のそれと同じであることを示すので、よい近似法が重要である。 本研究では、正則多様体の代わりに近似を考えることによって機能する中心多様体定理のデータベースのバージョンを確立する。 また、近似と元の還元ダイナミクスの間の誤差を定量化する。 次に,平均誤差理論と適合する平衡に近い多様体の適切な近似を構築するために,アポサイトデータに基づくカーネル法を用いる。 データは、高精度解法を用いて全システムの繰り返し数値シミュレーションによって収集され、トレーニングセットとして使用される離散的軌道の集合を生成する。 提案手法は,有望な性能と精度を示す様々な例で検証される。

For dynamical systems with a non hyperbolic equilibrium, it is possible to significantly simplify the study of stability by means of the center manifold theory. This theory allows to isolate the complicated asymptotic behavior of the system close to the equilibrium point and to obtain meaningful predictions of its behavior by analyzing a reduced order system on the so-called center manifold. Since the center manifold is usually not known, good approximation methods are important as the center manifold theorem states that the stability properties of the origin of the reduced order system are the same as those of the origin of the full order system. In this work, we establish a data-based version of the center manifold theorem that works by considering an approximation in place of an exact manifold. Also the error between the approximated and the original reduced dynamics are quantified. We then use an apposite data-based kernel method to construct a suitable approximation of the manifold close to the equilibrium, which is compatible with our general error theory. The data are collected by repeated numerical simulation of the full system by means of a high-accuracy solver, which generates sets of discrete trajectories that are then used as a training set. The method is tested on different examples which show promising performance and good accuracy.
翻訳日:2021-05-30 19:28:07 公開日:2020-12-01
# 隙間のある線路:確率的手法を電車に適用する

Train Tracks with Gaps: Applying the Probabilistic Method to Trains ( http://arxiv.org/abs/2012.00589v1 )

ライセンス: Link先を確認
William Kuszmaul(参考訳) 列車車両の車輪数と、車両が常に車両に支えられていることを保証するために設置しなければならない線路量とのトレードオフ曲線を同定する。 ゴールは、いくつかの大きな距離($\ell$)をカバーする高架線路を構築することであるが、それは主に隙間で構成されているため、実際に設置される線路の総フィートは$\ell$のほんの一部に過ぎない。 列車がすべての地点で列車を支えられるようにするためには、列車が線路を横断するときに、後部から少なくとも1組の車輪と前部から少なくとも1組の車輪が常に線路に触れなければならない。 列車車両が後方に均等に間隔を置き、前方に均等に間隔を割った車輪セットがn$である場合、列車車両を支持するが、わずか$\Theta( \ell / n )$ feet の線路を使用することができる。 次に、電車の車輪が均等に空間化されていない場合(逆向きに設定される場合)に何が起こるかを考える。 車両の前部および後部の四分の一に$n$の車輪を持つ車両の任意の構成について、距離$\ell$で車を支えるトラックを構築することができ、わずか$O\left(\frac{\ell \log n}{n}\right)$ feet of trackを使用することができる。 さらに、このトレードオフ曲線が漸近的に最適である列車車両の構成が存在することを示す。 上界と下界の両方は確率的手法の適用によって達成される。

We identify a tradeoff curve between the number of wheels on a train car, and the amount of track that must be installed in order to ensure that the train car is supported by the track at all times. The goal is to build an elevated track that covers some large distance $\ell$, but that consists primarily of gaps, so that the total amount of feet of train track that is actually installed is only a small fraction of $\ell$. In order so that the train track can support the train at all points, the requirement is that as the train drives across the track, at least one set of wheels from the rear quarter and at least one set of wheels from the front quarter of the train must be touching the track at all times. We show that, if a train car has $n$ sets of wheels evenly spaced apart in its rear and $n$ sets of wheels evenly spaced apart in its front, then it is possible to build a train track that supports the train car but uses only $\Theta( \ell / n )$ feet of track. We then consider what happens if the wheels on the train car are not evenly spaced (and may even be configured adversarially). We show that for any configuration of the train car, with $n$ wheels in each of the front and rear quarters of the car, it is possible to build a track that supports the car for distance $\ell$ and uses only $O\left(\frac{\ell \log n}{n}\right)$ feet of track. Additionally, we show that there exist configurations of the train car for which this tradeoff curve is asymptotically optimal. Both the upper and lower bounds are achieved via applications of the probabilistic method.
翻訳日:2021-05-30 19:27:35 公開日:2020-12-01
# GANにおけるSGDの収束と試料複合体

Convergence and Sample Complexity of SGD in GANs ( http://arxiv.org/abs/2012.00732v1 )

ライセンス: Link先を確認
Vasilis Kontonis, Sihan Liu, Christos Tzamos(参考訳) SGDによるGAN(Generative Adversarial Networks)のトレーニングに関する理論的収束保証を提供する。 非線形活性化関数 $\phi(\cdot)$ を持つ1層生成ネットワークによってモデル化された対象分布の学習を、$d \times d$ weight matrix $\mathbf w_*$,すなわち $f_*(\mathbf x) = \phi(\mathbf w_* \mathbf x)$ でパラメトリライズする。 我々の主な成果は、Goodfellowらによって提案された確率的勾配降下-上昇反復に基づいて、ジェネレータを識別器と共に訓練することである。 は$f_*$のターゲット分布に近づくジェネレータ分布を生成する。 具体的には、(ほぼ)情報論的に最適である$\tilde O(d^2/\epsilon^2)$サンプルを用いて、全変量距離$\epsilon$内のターゲット分布を学習することができる。 本研究は,relusを含む非線形活性化関数 $\phi$ の幅広いクラスに適用され,切断統計と識別器ネットワークの適切な設計との接続により実現される。 我々のアプローチは、バニラSGDAが機能することを示すために、双方向最適化フレームワークに依存しています。

We provide theoretical convergence guarantees on training Generative Adversarial Networks (GANs) via SGD. We consider learning a target distribution modeled by a 1-layer Generator network with a non-linear activation function $\phi(\cdot)$ parametrized by a $d \times d$ weight matrix $\mathbf W_*$, i.e., $f_*(\mathbf x) = \phi(\mathbf W_* \mathbf x)$. Our main result is that by training the Generator together with a Discriminator according to the Stochastic Gradient Descent-Ascent iteration proposed by Goodfellow et al. yields a Generator distribution that approaches the target distribution of $f_*$. Specifically, we can learn the target distribution within total-variation distance $\epsilon$ using $\tilde O(d^2/\epsilon^2)$ samples which is (near-)information theoretically optimal. Our results apply to a broad class of non-linear activation functions $\phi$, including ReLUs and is enabled by a connection with truncated statistics and an appropriate design of the Discriminator network. Our approach relies on a bilevel optimization framework to show that vanilla SGDA works.
翻訳日:2021-05-30 19:26:48 公開日:2020-12-01
# mystiko : クラウドを介する,プライベートな,フェデレーション勾配

MYSTIKO : : Cloud-Mediated, Private, Federated Gradient Descent ( http://arxiv.org/abs/2012.00740v1 )

ライセンス: Link先を確認
K. R. Jayaram, Archit Verma, Ashish Verma, Gegi Thomas and Colin Sutcher-Shepard(参考訳) フェデレーション学習は、複数の分散参加者(潜在的には異なるクラウド上で)が、パラメータ/勾配を共有することで、機械/深層学習モデルのコラボレーションとトレーニングを可能にする。 しかし、データの集中化ではなく、共有のグラデーションは、期待するほどプライベートではないかもしれない。 平文勾配に対するリバースエンジニアリング攻撃は事実上実現可能であることが示されている。 差分プライベートな連合学習のための既存のソリューションは、有望ではあるが、精度の低いモデルにつながり、非自明なハイパーパラメータチューニングを必要とする。 In this paper, we examine the use of additive homomorphic encryption (specifically the Paillier cipher) to design secure federated gradient descent techniques that (i) do not require addition of statistical noise or hyperparameter tuning, (ii) does not alter the final accuracy or utility of the final model, (iii) ensure that the plaintext model parameters/gradients of a participant are never revealed to any other participant or third party coordinator involved in the federated learning job, (iv) minimize the trust placed in any third party coordinator and (v) are efficient, with minimal overhead, and cost effective.

Federated learning enables multiple, distributed participants (potentially on different clouds) to collaborate and train machine/deep learning models by sharing parameters/gradients . However, sharing gradients, instead of centralizing data, may not be as private as one would expect. Reverse engineering attacks on plaintext gradients have been demonstrated to be practically feasible. Existing solutions for differentially private federated learning, while promising, lead to less accurate models and require nontrivial hyperparameter tuning. In this paper, we examine the use of additive homomorphic encryption (specifically the Paillier cipher) to design secure federated gradient descent techniques that (i) do not require addition of statistical noise or hyperparameter tuning, (ii) does not alter the final accuracy or utility of the final model, (iii) ensure that the plaintext model parameters/gradients of a participant are never revealed to any other participant or third party coordinator involved in the federated learning job, (iv) minimize the trust placed in any third party coordinator and (v) are efficient, with minimal overhead, and cost effective.
翻訳日:2021-05-30 19:26:16 公開日:2020-12-01
# 永続ホモロジーによる解釈可能な位相検出と分類

Interpretable Phase Detection and Classification with Persistent Homology ( http://arxiv.org/abs/2012.00783v1 )

ライセンス: Link先を確認
Alex Cole, Gregory J. Loges, Gary Shiu(参考訳) 統計物理学の格子スピンモデルを用いて、相転移の発見と特徴付けのタスクに永続ホモロジーを適用する。 永続画像は、統計処理を行うホモロジーデータの有用な表現を提供する。 位相遷移を特定するために、これらの画像に対する単純なロジスティック回帰は、我々が検討するモデルに十分であり、解釈可能な順序パラメータは回帰の重みから読み出される。 相転移の特徴として磁化, フラストレーション, 渦反渦構造が同定された。

We apply persistent homology to the task of discovering and characterizing phase transitions, using lattice spin models from statistical physics for working examples. Persistence images provide a useful representation of the homological data for conducting statistical tasks. To identify the phase transitions, a simple logistic regression on these images is sufficient for the models we consider, and interpretable order parameters are then read from the weights of the regression. Magnetization, frustration and vortex-antivortex structure are identified as relevant features for characterizing phase transitions.
翻訳日:2021-05-30 19:25:47 公開日:2020-12-01
# スケーラブルプラズモニックエンコーダを用いたニューラルネットワークに基づくオンチップ分光

Neural network-based on-chip spectroscopy using a scalable plasmonic encoder ( http://arxiv.org/abs/2012.00878v1 )

ライセンス: Link先を確認
Calvin Brown, Artem Goncharov, Zachary Ballard, Mason Fordham, Ashley Clemens, Yunzhe Qiu, Yair Rivenson and Aydogan Ozcan(参考訳) 従来の分光器はサイズ、コスト、信号対雑音比(snr)、スペクトル分解能によって制限されている。 本稿では,小型で低コストなオンチップセンシング方式を用いて,grating-based spectroscopyに固有の設計トレードオフに制約されない深層学習に基づくスペクトル再構成の枠組みを示す。 スケーラブルで低コストなインプリントリソグラフィー法を用いて作製した252種類のナノホールアレイを含むプラズモニックスペクトルエンコーダチップを用いており、各タイルはユニークな形状を有し、そのためユニークな光透過スペクトルを有する。 関心の照明スペクトルはプラズモンエンコーダに直接干渉し、CMOSイメージセンサは、レンズ、格子、その他の光学部品を介さずに透過光を捕捉し、ハードウェア全体が非常にコンパクトで、軽量で、フィールド可搬性になる。 トレーニングされたニューラルネットワークは、スペクトルエンコーダから送信された強度情報を用いて未知のスペクトルをフィードフォワードおよび非イテレーティブな方法で再構成する。 ニューラルネットワークの並列化の恩恵を受けると、スペクトルごとの平均推定時間は28マイクロ秒であり、これは他の計算分光法のアプローチよりも桁違いに速い。 複雑度が異なる新しいスペクトル (n = 14648) を盲目的に測定したところ, 平均ピーク局在誤差, 帯域誤差, 高さ誤差はそれぞれ0.19 nm, 0.18 nm, 7.60%のスペクトルピーク96.86%であった。 このシステムは、インプリントリソグラフィプロセス中に生じる可能性のある製造欠陥にも耐性があり、コスト効率が高く、フィールドポータブルで感度の高い高分解能分光ツールを必要とするアプリケーションにはさらに理想的である。

Conventional spectrometers are limited by trade-offs set by size, cost, signal-to-noise ratio (SNR), and spectral resolution. Here, we demonstrate a deep learning-based spectral reconstruction framework, using a compact and low-cost on-chip sensing scheme that is not constrained by the design trade-offs inherent to grating-based spectroscopy. The system employs a plasmonic spectral encoder chip containing 252 different tiles of nanohole arrays fabricated using a scalable and low-cost imprint lithography method, where each tile has a unique geometry and, thus, a unique optical transmission spectrum. The illumination spectrum of interest directly impinges upon the plasmonic encoder, and a CMOS image sensor captures the transmitted light, without any lenses, gratings, or other optical components in between, making the entire hardware highly compact, light-weight and field-portable. A trained neural network then reconstructs the unknown spectrum using the transmitted intensity information from the spectral encoder in a feed-forward and non-iterative manner. Benefiting from the parallelization of neural networks, the average inference time per spectrum is ~28 microseconds, which is orders of magnitude faster compared to other computational spectroscopy approaches. When blindly tested on unseen new spectra (N = 14,648) with varying complexity, our deep-learning based system identified 96.86% of the spectral peaks with an average peak localization error, bandwidth error, and height error of 0.19 nm, 0.18 nm, and 7.60%, respectively. This system is also highly tolerant to fabrication defects that may arise during the imprint lithography process, which further makes it ideal for applications that demand cost-effective, field-portable and sensitive high-resolution spectroscopy tools.
翻訳日:2021-05-30 19:25:35 公開日:2020-12-01
# TensorFlowでOpenFOAMにディープラーニングをデプロイする

Deploying deep learning in OpenFOAM with TensorFlow ( http://arxiv.org/abs/2012.00900v1 )

ライセンス: Link先を確認
Romit Maulik, Himanshu Sharma, Saumil Patel, Bethany Lusch, Elise Jennings(参考訳) 汎用予測タスクのための訓練されたディープラーニングアーキテクチャをその場で展開可能にするopenfoamにおけるデータサイエンスモジュールの開発について概説する。 このモジュールはTensorFlow C APIで構築されており、実行時にリンク可能なアプリケーションとしてOpenFOAMに統合されている。 特に、私たちの定式化は、ニューラルネットワークアーキテクチャのタイプ(畳み込み、完全接続など)に関する制限を妨げます。 これにより、実用的なCFD問題に対する複雑なニューラルネットワークアーキテクチャの研究が可能になる。 さらに、提案モジュールは、計算流体力学と機械学習のためのオープンソースで統一的で透明なフレームワークへの道筋を概説している。

We outline the development of a data science module within OpenFOAM which allows for the in-situ deployment of trained deep learning architectures for general-purpose predictive tasks. This module is constructed with the TensorFlow C API and is integrated into OpenFOAM as an application that may be linked at run time. Notably, our formulation precludes any restrictions related to the type of neural network architecture (i.e., convolutional, fully-connected, etc.). This allows for potential studies of complicated neural architectures for practical CFD problems. In addition, the proposed module outlines a path towards an open-source, unified and transparent framework for computational fluid dynamics and machine learning.
翻訳日:2021-05-30 19:24:41 公開日:2020-12-01