このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210620となっている論文です。

PDF登録状況(公開日: 20210620)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習支援光性能モニタリング技術の概要

An Overview of Machine Learning-aided Optical Performance Monitoring Techniques ( http://arxiv.org/abs/2107.07338v1 )

ライセンス: Link先を確認
Dativa K. Tizikara, Jonathan Serugunda, and Andrew Katumba(参考訳) 将来の通信システムは、高容量、動的帯域幅、信頼性、異種トラフィックの需要の増加に直面している。 これらの要件を満たすために、ネットワークはより複雑になり、自律性へと進化するにつれて、新しい設計方法や監視技術が必要になる。 近年、機械学習は、この進化を支援する有望な技術として、最前線に来ている。 光ファイバ通信は、ほとんどのアプリケーションに必要な高い容量を提供することができるが、ユーザ要求の変化とリンク条件へのスケーラビリティと適応性の向上が必要である。 正確なパフォーマンス監視は、この変換の不可欠な部分です。 本稿では,機械学習アルゴリズムを適用した光学性能モニタリング手法について述べる。 さらに,OPMのアロットは信号型の知識に依存するため,変調形式認識やビットレート識別の作業も検討する。 さらに,この領域に最近適用されたばかりの新しい技術として,opmに対する神経形態的アプローチを簡潔に紹介する。

Future communication systems are faced with increased demand for high capacity, dynamic bandwidth, reliability and heterogeneous traffic. To meet these requirements, networks have become more complex and thus require new design methods and monitoring techniques, as they evolve towards becoming autonomous. Machine learning has come to the forefront in recent years as a promising technology to aid in this evolution. Optical fiber communications can already provide the high capacity required for most applications, however, there is a need for increased scalability and adaptability to changing user demands and link conditions. Accurate performance monitoring is an integral part of this transformation. In this paper we review optical performance monitoring techniques where machine learning algorithms have been applied. Moreover, since alot of OPM depends on knowledge of the signal type, we also review work for modulation format recognition and bitrate identification. We additionally briefly introduce a neuromorphic approach to OPM as an emerging technique that has only recently been applied to this domain.
翻訳日:2021-07-18 12:19:55 公開日:2021-06-20
# (参考訳) サイバーセキュリティのためのニューラルネットワーク:包括的レビュー [全文訳有]

Artificial Neural Network for Cybersecurity: A Comprehensive Review ( http://arxiv.org/abs/2107.01185v1 )

ライセンス: CC BY 4.0
Prajoy Podder, Subrato Bharati, M. Rubaiyat Hossain Mondal, Pinto Kumar Paul, Utku Kose(参考訳) サイバーセキュリティは、デジタル攻撃からシステム、ネットワーク、データを保護する非常に新興の分野である。 インターネットの規模の拡大とサイバー攻撃の進化により、特にIoT(Internet of Things)ネットワークにおいて、新しいサイバーセキュリティツールの開発が重要になっている。 本稿では,サイバーセキュリティへの深層学習(dl)アプローチの適用に関する体系的レビューを行う。 本稿では,深層信念ネットワーク,生成的敵ネットワーク,リカレントニューラルネットワークなど,サイバーセキュリティで使用されるdlメソッドの簡単な説明を提供する。 次に,浅層学習とDLの違いについて述べる。 さらに、IoTや他のネットワークにおける現在普及しているサイバーアタックと、これらのアタックを管理するためのDLメソッドの有効性について議論する。 さらに, DL技術, サイバーセキュリティアプリケーション, およびデータセットのソースを明らかにする研究について述べる。 次に,マルウェアの検出と分類,侵入検出,ファイルタイプ,スパム,ネットワークトラフィックなどのサイバー攻撃に対するdlシステムの実現可能性に関する議論を行う。 我々のレビューでは、カスタムデータセットに適用した場合、制限されたボルツマンマシン(RBM)によって99.72%の高い分類精度が得られ、長い短期記憶(LSTM)はKDDカップ99の99.80%の精度が得られる。 最後に、信頼性と実践可能なIoT駆動医療システムにおけるサイバーセキュリティの重要性について論じる。

Cybersecurity is a very emerging field that protects systems, networks, and data from digital attacks. With the increase in the scale of the Internet and the evolution of cyber attacks, developing novel cybersecurity tools has become important, particularly for Internet of things (IoT) networks. This paper provides a systematic review of the application of deep learning (DL) approaches for cybersecurity. This paper provides a short description of DL methods which is used in cybersecurity, including deep belief networks, generative adversarial networks, recurrent neural networks, and others. Next, we illustrate the differences between shallow learning and DL. Moreover, a discussion is provided on the currently prevailing cyber-attacks in IoT and other networks, and the effectiveness of DL methods to manage these attacks. Besides, this paper describes studies that highlight the DL technique, cybersecurity applications, and the source of datasets. Next, a discussion is provided on the feasibility of DL systems for malware detection and classification, intrusion detection, and other frequent cyber-attacks, including identifying file type, spam, and network traffic. Our review indicates that high classification accuracy of 99.72% is obtained by restricted Boltzmann machine (RBM) when applied to a custom dataset, while long short-term memory (LSTM) achieves an accuracy of 99.80% for KDD Cup 99 dataset. Finally, this article discusses the importance of cybersecurity for reliable and practicable IoT-driven healthcare systems.
翻訳日:2021-07-11 13:20:51 公開日:2021-06-20
# (参考訳) ニューラルネットワークによる多凸異方性超弾性 [全文訳有]

Polyconvex anisotropic hyperelasticity with neural networks ( http://arxiv.org/abs/2106.14623v1 )

ライセンス: CC BY 4.0
Dominik Klein, Mauricio Fern\'andez, Robert J. Martin, Patrizio Neff and Oliver Weeger(参考訳) 本研究では,有限変形に対する2つの機械学習に基づく構成モデルを提案する。 入力凸ニューラルネットワークを使用すると、モデルは超弾性、異方性を持ち、多凸性条件を満たす。 最初の構成モデルは、多凸、異方性および客観的不変量の集合に基づいている。 第2のアプローチは、変形勾配、その共因子および行列式で定式化され、材料対称性条件を満たすために群対称性を使い、データ拡張によりほぼ客観性を満たす。 データ拡張アプローチのためのデータセットの拡張は、機械的考慮に基づいており、追加の実験データやシミュレーションデータを必要としない。 モデルは、有限変形や格子不安定性を含む立方体格子メタマテリアルの非常に困難なシミュレーションデータで校正される。 実験調査に一般的に適用される変形に基づいて、適度な量の校正データを用いる。 不変モデルでは, 変形モードの欠点を示すが, 変形勾配のみに基づくモデルでは, 有効物質挙動の再現と予測が極めて良好であり, 優れた一般化能力を示す。 したがって、特に第2のモデルは、数学的によく考えられた問題につながる非常に柔軟な構成的モデリングアプローチを示す。

In the present work, two machine learning based constitutive models for finite deformations are proposed. Using input convex neural networks, the models are hyperelastic, anisotropic and fulfill the polyconvexity condition, which implies ellipticity and thus ensures material stability. The first constitutive model is based on a set of polyconvex, anisotropic and objective invariants. The second approach is formulated in terms of the deformation gradient, its cofactor and determinant, uses group symmetrization to fulfill the material symmetry condition, and data augmentation to fulfill objectivity approximately. The extension of the dataset for the data augmentation approach is based on mechanical considerations and does not require additional experimental or simulation data. The models are calibrated with highly challenging simulation data of cubic lattice metamaterials, including finite deformations and lattice instabilities. A moderate amount of calibration data is used, based on deformations which are commonly applied in experimental investigations. While the invariant-based model shows drawbacks for several deformation modes, the model based on the deformation gradient alone is able to reproduce and predict the effective material behavior very well and exhibits excellent generalization capabilities. Thus, in particular the second model presents a highly flexible constitutive modeling approach, that leads to a mathematically well-posed problem.
翻訳日:2021-07-04 22:40:28 公開日:2021-06-20
# さらなる影響: 意思決定における破壊的干渉

More Causes Less Effect: Destructive Interference in Decision Making ( http://arxiv.org/abs/2106.13320v1 )

ライセンス: Link先を確認
Irina Basieva, Vijitashwa Pandey, Polina Khrennikova(参考訳) 製品故障の条件付き確率の顧客推定における破壊的干渉を示す新しい実験を行った。 消費者製品のメーカーの視点から、原因と効果の2つの状況を考察する。 個々の原因の影響は似ているが、結合すると2つの原因が反対の効果を生み出すことが観察される。 このような2つ以上の理由に対する否定的な干渉は、顧客の心の中で起こる認知過程をよりよくモデル化するために利用することができる。 そうすることで、製造業者がより良い製品やその中の機能の設計ができる可能性を高めることができる。 量子確率は、疑問順序や応答の再現性効果などのよく見られる偏差や、確実な原理違反やマキナとエルスベルクのパラドックスなどパラドックスを説明するために用いられる。 本研究では,複数の症状が車両の乾燥性に及ぼす影響について調査した結果を報告する。 応答の集合は古典的確率では説明できないが、量子定式化はイベント間の正と負の両方の「干渉」を可能にするので、容易にそれをモデル化できる。 量子ホルマリズムは古典確率の予測にも関係しているため、工学設計や行動経済学における意思決定の振る舞いをモデル化するよりリッチなパラダイムとして機能する。

We present a new experiment demonstrating destructive interference in customers' estimates of conditional probabilities of product failure. We take the perspective of a manufacturer of consumer products, and consider two situations of cause and effect. Whereas individually the effect of the causes is similar, it is observed that when combined, the two causes produce the opposite effect. Such negative interference of two or more reasons may be exploited for better modeling the cognitive processes taking place in the customers' mind. Doing so can enhance the likelihood that a manufacturer will be able to design a better product, or a feature within it. Quantum probability has been used to explain some commonly observed deviations such as question order and response replicability effects, as well as in explaining paradoxes such as violations of the sure-thing principle, and Machina and Ellsberg paradoxes. In this work, we present results from a survey conducted regarding the effect of multiple observed symptoms on the drivability of a vehicle. We demonstrate that the set of responses cannot be explained using classical probability, but quantum formulation easily models it, as it allows for both positive and negative "interference" between events. Since quantum formulism also accounts for classical probability's predictions, it serves as a richer paradigm for modeling decision making behavior in engineering design and behavioral economics.
翻訳日:2021-07-04 19:41:01 公開日:2021-06-20
# (参考訳) 予測符号化とバックプロパゲーションの関係について [全文訳有]

On the relationship between predictive coding and backpropagation ( http://arxiv.org/abs/2106.13082v1 )

ライセンス: CC BY 4.0
Robert Rosenbaum(参考訳) 本稿では,教師付き学習タスクにおけるニューラルネットワーク学習のための予測符号化とバックプロパゲーションの関係について概説する。 また,これらの結果が生物学習モデルとして予測符号化とディープニューラルネットワークの解釈に与える影響について論じ,pytorchニューラルネットワークモデルを用いた予測符号化を行うための関数リポジトリtorch2pcについて述べる。

In this manuscript, I review and extend recent work on the relationship between predictive coding and backpropagation for training artificial neural networks on supervised learning tasks. I also discuss some implications of these results for the interpretation of predictive coding and deep neural networks as models of biological learning and I describe a repository of functions, Torch2PC, for performing predictive coding with PyTorch neural network models.
翻訳日:2021-06-26 13:05:30 公開日:2021-06-20
# 差分プライバシーを持つ無線チャネル上での低レイテンシフェデレーション学習

Low-Latency Federated Learning over Wireless Channels with Differential Privacy ( http://arxiv.org/abs/2106.13039v1 )

ライセンス: Link先を確認
Kang Wei, Jun Li, Chuan Ma, Ming Ding, Cailian Chen, Shi Jin, Zhu Han and H. Vincent Poor(参考訳) 統合学習(FL)では、モデルトレーニングはクライアントに分散され、ローカルモデルは中央サーバによって集約される。 このような状況下でのアップロードされたモデルの性能は、不均衡なデータ分散、プライバシー保護に対する潜在的な要求、および送信品質によって大きく異なる可能性がある。 本稿では,各クライアントのディファレンシャルプライバシ(dp)要件に加えて,全体的なトレーニング性能によって制約される無線チャネル上でのflトレーニング遅延を最小限に抑えることを目的とする。 本稿では,マルチエージェントマルチアーム付きバンディット(mamab)の枠組みでこの問題を解決し,チャネルフェージングや干渉など,未知の伝送環境を複数のクライアントで強制する状況に対処する。 具体的には、まず、学習性能と各クライアントのDPの長期的制約をリアプノフドリフト技術に基づく仮想キューに変換する。 次に,MAMABを各通信ラウンドにおける最大二分項マッチング問題に変換し,上限信頼度(UCB)アプローチで報酬を推定する。 より重要なことは、このマッチング問題に対する2つの効率的な解、すなわち、改良されたハンガリーのアルゴリズムとより優れた代替案(GMBA)との欲求整合(greedy matching)を提案することである。 さらに,このMAMABをベースとしたFLフレームワークは,通信ラウンドの対数に対して線形に成長し,その理論的実現可能性の正当化を図る。 また,提案アルゴリズムの有効性を検証するために広範囲な実験を行い,無線エッジネットワーク上でのfl性能に対する各種パラメータの影響について検討した。

In federated learning (FL), model training is distributed over clients and local models are aggregated by a central server. The performance of uploaded models in such situations can vary widely due to imbalanced data distributions, potential demands on privacy protections, and quality of transmissions. In this paper, we aim to minimize FL training delay over wireless channels, constrained by overall training performance as well as each client's differential privacy (DP) requirement. We solve this problem in the framework of multi-agent multi-armed bandit (MAMAB) to deal with the situation where there are multiple clients confornting different unknown transmission environments, e.g., channel fading and interferences. Specifically, we first transform the long-term constraints on both training performance and each client's DP into a virtual queue based on the Lyapunov drift technique. Then, we convert the MAMAB to a max-min bipartite matching problem at each communication round, by estimating rewards with the upper confidence bound (UCB) approach. More importantly, we propose two efficient solutions to this matching problem, i.e., modified Hungarian algorithm and greedy matching with a better alternative (GMBA), in which the first one can achieve the optimal solution with a high complexity while the second one approaches a better trade-off by enabling a verified low-complexity with little performance loss. In addition, we develop an upper bound on the expected regret of this MAMAB based FL framework, which shows a linear growth over the logarithm of communication rounds, justifying its theoretical feasibility. Extensive experimental results are conducted to validate the effectiveness of our proposed algorithms, and the impacts of various parameters on the FL performance over wireless edge networks are also discussed.
翻訳日:2021-06-25 14:52:30 公開日:2021-06-20
# (参考訳) 数値気象予報システムにおけるグローバル降水量改善のための深層学習 [全文訳有]

Deep learning for improved global precipitation in numerical weather prediction systems ( http://arxiv.org/abs/2106.12045v1 )

ライセンス: CC BY 4.0
Manmeet Singh, Bipin Kumar, Dev Niyogi, Suryachandra Rao, Sukhpal Singh Gill, Rajib Chattopadhyay, Ravi S Nanjundiah(参考訳) 最先端の気象と気候モデルにおける降水の形成は重要な過程である。 他の変数との関係を理解することは、特に降雨に依存するモンスーン地域において、生活支援として無限の利益をもたらす可能性がある。 様々な要因が降雨の形成に重要な役割を担い、これらの物理過程は運用天気予報に重大なバイアスをもたらす。 我々は, 残留学習を概念実証として, 深層畳み込みニューラルネットワークのunetアーキテクチャを用いて, 降水量のグローバルデータ駆動モデルを学ぶ。 モデルでは、球面の歪みによる誤差を最小限に抑えるため、立方体球面投影に投影されたデータセットの再分析を訓練する。 その結果,インド気象局が使用した操作力学モデルと比較した。 理論的深層学習に基づくモデルでは、グリッド点の倍増と、運用システムに対するピアソン相関係数で測定された領域平均スキルが示される。 本研究は, 残差学習に基づくUNETが, 目標降水に対する物理的関係を解き明かし, 降水予測の改善に向けた動的操作モデルにおいて, それらの物理的制約を利用できることを示す概念実証である。 私たちの結果は、将来的にオンラインハイブリッドモデルの開発への道を開くものです。

The formation of precipitation in state-of-the-art weather and climate models is an important process. The understanding of its relationship with other variables can lead to endless benefits, particularly for the world's monsoon regions dependent on rainfall as a support for livelihood. Various factors play a crucial role in the formation of rainfall, and those physical processes are leading to significant biases in the operational weather forecasts. We use the UNET architecture of a deep convolutional neural network with residual learning as a proof of concept to learn global data-driven models of precipitation. The models are trained on reanalysis datasets projected on the cubed-sphere projection to minimize errors due to spherical distortion. The results are compared with the operational dynamical model used by the India Meteorological Department. The theoretical deep learning-based model shows doubling of the grid point, as well as area averaged skill measured in Pearson correlation coefficients relative to operational system. This study is a proof-of-concept showing that residual learning-based UNET can unravel physical relationships to target precipitation, and those physical constraints can be used in the dynamical operational models towards improved precipitation forecasts. Our results pave the way for the development of online, hybrid models in the future.
翻訳日:2021-06-25 04:41:09 公開日:2021-06-20
# (参考訳) フェデレーションエッジ学習のエネルギー効率向上のための微粒化データ選択 [全文訳有]

Fine-Grained Data Selection for Improved Energy Efficiency of Federated Edge Learning ( http://arxiv.org/abs/2106.12561v1 )

ライセンス: CC BY 4.0
Abdullatif Albaseer, Mohamed Abdallah, Ala Al-Fuqaha, Aiman Erbad(参考訳) フェデレーションエッジ学習(FEEL)では、ネットワークエッジのエネルギー制約されたデバイスは、ローカル機械学習モデルのトレーニングとアップロード時にかなりのエネルギーを消費し、寿命を短縮する。 本研究は,ローカルトレーニングデータ,利用可能な計算資源,通信資源,エネルギー消費削減のためのフェルトラウンドの期限制約を共同で考慮し,エネルギー効率の良い感触のための新しいソリューションを提案する。 本稿では、エッジサーバにビームフォーミング技術を用いた複数のアンテナを組み、直交チャネルを介してローカルユーザと通信するシステムモデルについて考察する。 具体的には,コミュニケーション・ラウンドの制限を満たした総エネルギー消費量を最小化することを目的として,関連するトレーニングサンプル,帯域幅,伝送電力,ビームフォーミング重量,処理速度の細粒度選択など,ユーザの最適なリソースを求めることを目的とした。 そこで,まず,より関係の低いトレーニングサンプルを除外し,モデルの性能を向上させるサンプルのみを効果的に選択する,新しいきめ細かいトレーニングアルゴリズムを提案する。 その後、閉形式解を導出し、続いてGolden-Sectionに基づく反復アルゴリズムを用いて、エネルギー消費を最小限に抑える最適な計算と通信資源を求める。 MNISTとCIFAR-10データセットを用いた実験により,提案アルゴリズムはMNISTの79%,CIFAR-10データセットの73%のエネルギー消費が減少し,最先端のソリューションを著しく上回った。

In Federated edge learning (FEEL), energy-constrained devices at the network edge consume significant energy when training and uploading their local machine learning models, leading to a decrease in their lifetime. This work proposes novel solutions for energy-efficient FEEL by jointly considering local training data, available computation, and communications resources, and deadline constraints of FEEL rounds to reduce energy consumption. This paper considers a system model where the edge server is equipped with multiple antennas employing beamforming techniques to communicate with the local users through orthogonal channels. Specifically, we consider a problem that aims to find the optimal user's resources, including the fine-grained selection of relevant training samples, bandwidth, transmission power, beamforming weights, and processing speed with the goal of minimizing the total energy consumption given a deadline constraint on the communication rounds of FEEL. Then, we devise tractable solutions by first proposing a novel fine-grained training algorithm that excludes less relevant training samples and effectively chooses only the samples that improve the model's performance. After that, we derive closed-form solutions, followed by a Golden-Section-based iterative algorithm to find the optimal computation and communication resources that minimize energy consumption. Experiments using MNIST and CIFAR-10 datasets demonstrate that our proposed algorithms considerably outperform the state-of-the-art solutions as energy consumption decreases by 79% for MNIST and 73% for CIFAR-10 datasets.
翻訳日:2021-06-25 04:27:58 公開日:2021-06-20
# シャッフルおよびオンラインPSNGDの反復によるプライバシ増幅

Privacy Amplification via Iteration for Shuffled and Online PNSGD ( http://arxiv.org/abs/2106.11767v1 )

ライセンス: Link先を確認
Matteo Sordello, Zhiqi Bu, Jinshuo Dong(参考訳) 本稿では,feldmanらによって提唱された反復によるプライバシ増幅の枠組みについて考察する。 そしてAsoodehらによって単純化された。 収縮係数を通して分析します この一連の研究は、隠れた中間更新を伴う雑音性確率勾配勾配(PNSGD)アルゴリズムによって得られるプライバシー保証の研究に焦点を当てている。 既存の文献では、早期に停止したNSGDのみが研究されているが、より広く使われているNSGDがシャッフルデータセットに適用されることは証明されていない。 また、新しいデータがオンライン形式で受信された場合の注入ノイズの低減方法については、まだ提案されていない。 本研究は,まず,Shuffled PNSGDのプライバシ保証を証明し,サンプルサイズ毎のノイズが$n$で固定されるが,$n$が増加すると所定の速度で低減され,プライバシ損失の収束を実現するための漸近的に検討する。 次に、オンライン設定を分析し、注入されたノイズの大きさのより高速な減衰スキームを提供し、プライバシー損失の収束を保証します。

In this paper, we consider the framework of privacy amplification via iteration, which is originally proposed by Feldman et al. and subsequently simplified by Asoodeh et al. in their analysis via the contraction coefficient. This line of work focuses on the study of the privacy guarantees obtained by the projected noisy stochastic gradient descent (PNSGD) algorithm with hidden intermediate updates. A limitation in the existing literature is that only the early stopped PNSGD has been studied, while no result has been proved on the more widely-used PNSGD applied on a shuffled dataset. Moreover, no scheme has been yet proposed regarding how to decrease the injected noise when new data are received in an online fashion. In this work, we first prove a privacy guarantee for shuffled PNSGD, which is investigated asymptotically when the noise is fixed for each sample size $n$ but reduced at a predetermined rate when $n$ increases, in order to achieve the convergence of privacy loss. We then analyze the online setting and provide a faster decaying scheme for the magnitude of the injected noise that also guarantees the convergence of privacy loss.
翻訳日:2021-06-23 15:02:31 公開日:2021-06-20
# 自己教師付き学習と注意機構を用いた唇画像からの超音波舌画像再構成の改善

Improving Ultrasound Tongue Image Reconstruction from Lip Images Using Self-supervised Learning and Attention Mechanism ( http://arxiv.org/abs/2106.11769v1 )

ライセンス: Link先を確認
Haiyang Liu, Jihan Zhang(参考訳) 音声生成は、舌、顎、唇を含む複数の人間の器官を含むダイナミックな手順である。 声道変形のダイナミクスのモデル化は、人間の日常コミュニケーションの最も一般的な方法である音声を理解するための基本的な問題である。 研究者は複数の感覚の流れを使って同時にプロセスを記述する。 本稿では, 唇の観察可能な画像列が与えられた場合, 対応する舌の動きを画像化することができる。 本研究では,この問題を自己教師付き学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用いた。 提案手法の性能評価は,未ラベルのリップビデオを用いて,今後の超音波舌画像列の予測を行う。 以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,2つの画像モダリティの一致が得られた。

Speech production is a dynamic procedure, which involved multi human organs including the tongue, jaw and lips. Modeling the dynamics of the vocal tract deformation is a fundamental problem to understand the speech, which is the most common way for human daily communication. Researchers employ several sensory streams to describe the process simultaneously, which are incontrovertibly statistically related to other streams. In this paper, we address the following question: given an observable image sequences of lips, can we picture the corresponding tongue motion. We formulated this problem as the self-supervised learning problem, and employ the two-stream convolutional network and long-short memory network for the learning task, with the attention mechanism. We evaluate the performance of the proposed method by leveraging the unlabeled lip videos to predict an upcoming ultrasound tongue image sequence. The results show that our model is able to generate images that close to the real ultrasound tongue images, and results in the matching between two imaging modalities.
翻訳日:2021-06-23 15:02:14 公開日:2021-06-20
# DeepMesh: 微分可能なアイソ面抽出

DeepMesh: Differentiable Iso-Surface Extraction ( http://arxiv.org/abs/2106.11795v1 )

ライセンス: Link先を確認
Benoit Guillard, Edoardo Remelli, Artem Lukoianov, Stephan Richter, Timur Bagautdinov, Pierre Baque and Pascal Fua(参考訳) Geometric Deep Learningは最近、継続的なDeep Implicit Fieldsの出現で大きな進歩を遂げた。 これにより、3次元ユークリッド格子に依存しない任意のトポロジーの水密な曲面の詳細なモデリングが可能となり、学習可能なパラメータ化が可能となり、解像度は無制限となる。 残念ながらこれらの手法は、暗黙の場をそのような表現に変換するため、暗黙の場に対して区別できないマーチングキューブアルゴリズムに依存するため、明示的なメッシュベースの表面表現を必要とするアプリケーションには適さないことが多い。 本研究では,この制限を除去し,Deep Implicit Fieldsから表面メッシュを明示的に表現する方法を提案する。 私たちの重要な洞察は、暗黙的場の摂動が局所的な表面幾何にどのように影響するかを推論することで、基礎となる深い暗黙的場に関して最終的に表面サンプルの3d位置を区別できるということです。 これはdeepmesh -- トポロジーを変更可能なエンドツーエンドの差別化可能なメッシュ表現を定義するために利用します。 我々は2つの異なるアプリケーションを用いて理論的な洞察を検証している: 微分レンダリングによる単一ビュー3D再構成と物理的駆動形状最適化。 どちらの場合も、エンドツーエンドの微分可能なパラメータ化は最先端のアルゴリズムよりも優れている。

Geometric Deep Learning has recently made striking progress with the advent of continuous Deep Implicit Fields. They allow for detailed modeling of watertight surfaces of arbitrary topology while not relying on a 3D Euclidean grid, resulting in a learnable parameterization that is unlimited in resolution. Unfortunately, these methods are often unsuitable for applications that require an explicit mesh-based surface representation because converting an implicit field to such a representation relies on the Marching Cubes algorithm, which cannot be differentiated with respect to the underlying implicit field. In this work, we remove this limitation and introduce a differentiable way to produce explicit surface mesh representations from Deep Implicit Fields. Our key insight is that by reasoning on how implicit field perturbations impact local surface geometry, one can ultimately differentiate the 3D location of surface samples with respect to the underlying deep implicit field. We exploit this to define DeepMesh -- end-to-end differentiable mesh representation that can vary its topology. We use two different applications to validate our theoretical insight: Single view 3D Reconstruction via Differentiable Rendering and Physically-Driven Shape Optimization. In both cases our end-to-end differentiable parameterization gives us an edge over state-of-the-art algorithms.
翻訳日:2021-06-23 14:56:30 公開日:2021-06-20
# 局所-グローバル背景モデリングによる微弱な時間的行動局在化

Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling ( http://arxiv.org/abs/2106.11811v1 )

ライセンス: Link先を確認
Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Yuanjie Shao, Nong Sang(参考訳) weakly-supervised temporal action localization (ws-tal)タスクは、ビデオレベルのラベル監督だけで、未トリミングビデオ内のアクションインスタンスの時間的開始と終了を認識し、ローカライズすることを目的としている。 背景カテゴリーの負のサンプルが欠如しているため、ネットワークが前景と背景を分離することは困難であり、結果として検出性能が低下する。 本稿では,BaSNetをベースとした2021 HACS Challenge-Weakly-sup ervised Learning Trackソリューションについて述べる。 具体的には、まず、事前訓練されたCSN、Slowfast、TDN、ViViTを特徴抽出器として採用し、特徴系列を得る。 次に,提案するlgbm-net(local-globa l background modeling network)を用いて,マルチインスタンス学習(multi-instance learning,mil)に基づくビデオレベルラベルのみを用いて,インスタンスのローカライズを行う。 最後に、複数のモデルをアンサンブルして最終検出結果を取得し、テストセット上で22.45% mAPに達する。

Weakly-Supervised Temporal Action Localization (WS-TAL) task aims to recognize and localize temporal starts and ends of action instances in an untrimmed video with only video-level label supervision. Due to lack of negative samples of background category, it is difficult for the network to separate foreground and background, resulting in poor detection performance. In this report, we present our 2021 HACS Challenge - Weakly-supervised Learning Track solution that based on BaSNet to address above problem. Specifically, we first adopt pre-trained CSN, Slowfast, TDN, and ViViT as feature extractors to get feature sequences. Then our proposed Local-Global Background Modeling Network (LGBM-Net) is trained to localize instances by using only video-level labels based on Multi-Instance Learning (MIL). Finally, we ensemble multiple models to get the final detection results and reach 22.45% mAP on the test set
翻訳日:2021-06-23 14:55:43 公開日:2021-06-20
# 時間的行動検出のための提案関係ネットワーク

Proposal Relation Network for Temporal Action Detection ( http://arxiv.org/abs/2106.11812v1 )

ライセンス: Link先を確認
Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Changxin Gao, Nong Sang(参考訳) 本報告では, acitivitynet challenge 2021における時間的行動検出タスクの解法を提案する。 このタスクの目的は、長い未編集ビデオの興味ある行動を特定し、特定することである。 タスクの重要な課題は、アクションの時間的持続時間が劇的に変化し、ターゲットアクションが通常、無関係なアクティビティのバックグラウンドに埋め込まれることである。 本ソリューションはBMN上に構築され,1) Slowfast, CSN, ViViTによる動作分類と特徴符号化, 2)提案生成の3段階を含む。 本研究では,提案するprn(prn)を組み込んだbmnの改良を行い,高品質な提案を実現する。 提案提案を対応する分類結果に割り当てて検出結果を算出する。 最後に、異なる設定下で結果をアンサンブルし、テストセットで44.7%を達成することで、平均的なマップの観点から、activitynet 2020のチャンピオン結果が1.9%向上する。

This technical report presents our solution for temporal action detection task in AcitivityNet Challenge 2021. The purpose of this task is to locate and identify actions of interest in long untrimmed videos. The crucial challenge of the task comes from that the temporal duration of action varies dramatically, and the target actions are typically embedded in a background of irrelevant activities. Our solution builds on BMN, and mainly contains three steps: 1) action classification and feature encoding by Slowfast, CSN and ViViT; 2) proposal generation. We improve BMN by embedding the proposed Proposal Relation Network (PRN), by which we can generate proposals of high quality; 3) action detection. We calculate the detection results by assigning the proposals with corresponding classification results. Finally, we ensemble the results under different settings and achieve 44.7% on the test set, which improves the champion result in ActivityNet 2020 by 1.9% in terms of average mAP.
翻訳日:2021-06-23 14:55:23 公開日:2021-06-20
# SISA:Selective Alterationによる画像のセキュア化

SISA: Securing Images by Selective Alteration ( http://arxiv.org/abs/2106.11770v1 )

ライセンス: Link先を確認
Prutha Gaherwar, Shraddha Joshi, Raviraj Joshi, Rahul Khengare(参考訳) モバイルやカメラ機器の人気が高まり、画像形式のデジタルコンテンツは劇的に増加した。 個人生活が継続的に写真に記録されているため、盗難者を失うリスクは重大な懸念事項である。 二次記憶装置は、個人や他の画像の保存に最も好まれる媒体である。 私たちの仕事はそのような画像のセキュリティに関するものです。 暗号化は画像のセキュリティを確保する最善の方法だが、完全な暗号化と復号化は計算集約的なプロセスである。 さらに、毎日カメラが良くなっているため、画質が向上し、ピクセル密度が大幅に向上した。 ピクセル密度の増大により、暗号化と復号化はより高価になる。 したがって、興味のある領域に基づいて、選択的暗号化と選択的ぼやけを掘り下げる。 写真全体を暗号化したり、ぼかす代わりに、選択した領域だけをエンコードする。 画像の部分暗号化と完全暗号化の比較分析を行った。 このようなエンコーディングは、セキュリティを損なうことなく、暗号化オーバーヘッドの低減に役立ちます。 この技術を利用したアプリケーションは、復号化時間の短縮により、より使いやすくなるだろう。 さらに、ぼやけた画像は暗号化画像よりも読みやすく、セキュリティレベルを定義することができます。 Mask-RCNN(Regionベースの畳み込みニューラルネットワーク)やYOLO(You Only Look Once)といった機械学習アルゴリズムを利用して、関心のある領域を選択する。 これらのアルゴリズムは、オブジェクト認識の新しいベンチマークを設定した。 我々は、選択的暗号化のアイデアを実証するエンド・ツー・エンド・システムを開発した。

With an increase in mobile and camera devices' popularity, digital content in the form of images has increased drastically. As personal life is being continuously documented in pictures, the risk of losing it to eavesdroppers is a matter of grave concern. Secondary storage is the most preferred medium for the storage of personal and other images. Our work is concerned with the security of such images. While encryption is the best way to ensure image security, full encryption and decryption is a computationally-inte nsive process. Moreover, as cameras are getting better every day, image quality, and thus, the pixel density has increased considerably. The increased pixel density makes encryption and decryption more expensive. We, therefore, delve into selective encryption and selective blurring based on the region of interest. Instead of encrypting or blurring the entire photograph, we only encode selected regions of the image. We present a comparative analysis of the partial and full encryption of the photos. This kind of encoding will help us lower the encryption overhead without compromising security. The applications utilizing this technique will become more usable due to the reduction in the decryption time. Additionally, blurred images being more readable than encrypted ones, allowed us to define the level of security. We leverage the machine learning algorithms like Mask-RCNN (Region-based convolutional neural network) and YOLO (You Only Look Once) to select the region of interest. These algorithms have set new benchmarks for object recognition. We develop an end to end system to demonstrate our idea of selective encryption.
翻訳日:2021-06-23 14:42:51 公開日:2021-06-20
# (参考訳) 低ランク特性テンソル密度推定 第2報:圧縮および潜在密度推定 [全文訳有]

Low-rank Characteristic Tensor Density Estimation Part II: Compression and Latent Density Estimation ( http://arxiv.org/abs/2106.10591v1 )

ライセンス: CC BY 4.0
Magda Amiridi, Nikos Kargas, and Nicholas D. Sidiropoulos(参考訳) 生成確率モデルの学習は機械学習の中核的な問題であり、次元の呪いによって大きな課題が生じる。 本稿では、入力データの適切な縮小次元表現の基底分布を明示的に把握できる新しい推定器を用いて、共同次元減少と非パラメトリック密度推定フレームワークを提案する。 この考え方は、非線形次元還元オートエンコーダを共同で設計し、潜在確率変数の並列集合を用いてトレーニングデータをモデル化し、フーリエ領域における潜在変数の結合分布の正準低ランクテンソルモデルを学ぶことである。 提案する潜在密度モデルは、変分オートエンコーダで想定される事前定義とは対照的に、非パラメトリックで普遍的である。 潜在ドメインにおける負のログ様相と自己エンコーダ再構成損失の組合せを最小化することにより学習する定式化により、オートエンコーダと潜在密度推定器の合同最適化を追求する。 提案モデルは, 回帰作業, サンプリング, 異常検出における玩具, 表, 画像データセットに対して, 極めて有望な結果が得られることを示す。

Learning generative probabilistic models is a core problem in machine learning, which presents significant challenges due to the curse of dimensionality. This paper proposes a joint dimensionality reduction and non-parametric density estimation framework, using a novel estimator that can explicitly capture the underlying distribution of appropriate reduced-dimension representations of the input data. The idea is to jointly design a nonlinear dimensionality reducing auto-encoder to model the training data in terms of a parsimonious set of latent random variables, and learn a canonical low-rank tensor model of the joint distribution of the latent variables in the Fourier domain. The proposed latent density model is non-parametric and universal, as opposed to the predefined prior that is assumed in variational auto-encoders. Joint optimization of the auto-encoder and the latent density estimator is pursued via a formulation which learns both by minimizing a combination of the negative log-likelihood in the latent domain and the auto-encoder reconstruction loss. We demonstrate that the proposed model achieves very promising results on toy, tabular, and image datasets on regression tasks, sampling, and anomaly detection.
翻訳日:2021-06-23 14:37:27 公開日:2021-06-20
# (参考訳) 専門的多様性を持つ異種多タスク学習 [全文訳有]

Heterogeneous Multi-task Learning with Expert Diversity ( http://arxiv.org/abs/2106.10595v1 )

ライセンス: CC BY 4.0
Raquel Aoki, Frederick Tung and Gabriel L. Oliveira(参考訳) 複数の異質な生物学的および医学的ターゲットを予測することは、従来のディープラーニングモデルの課題である。 目標毎に個別のモデルを訓練するシングルタスク学習とは対照的に、マルチタスク学習(MTL)は単一のモデルを最適化し、複数の関連するターゲットを同時に予測する。 この課題に対処するため,MMOEEx(Multi-gate Mixture-of-Experts with Exclusivity)を提案する。 本研究の目的は、同一モデルが異なる特徴を持つ複数のタスクを最適化する異種MPL設定に取り組むことである。 このようなシナリオは、共有およびタスク固有の表現のバランスと、競合する最適化パスでタスクを最適化する必要があるため、現在のmtlアプローチを圧倒することができる。 提案手法は2つの重要な貢献をする: まず, 専門家間でより多様性を誘導する手法を導入し, 高度に不均衡で不均質なmtl学習に適した表現を作成する。 本手法は,MIMIC-III (Messical Information Mart for Intensive Care) とPCBA (PubChem BioAssay) の3つのMTLベンチマークデータセットに対して検証を行った。

Predicting multiple heterogeneous biological and medical targets is a challenge for traditional deep learning models. In contrast to single-task learning, in which a separate model is trained for each target, multi-task learning (MTL) optimizes a single model to predict multiple related targets simultaneously. To address this challenge, we propose the Multi-gate Mixture-of-Experts with Exclusivity (MMoEEx). Our work aims to tackle the heterogeneous MTL setting, in which the same model optimizes multiple tasks with different characteristics. Such a scenario can overwhelm current MTL approaches due to the challenges in balancing shared and task-specific representations and the need to optimize tasks with competing optimization paths. Our method makes two key contributions: first, we introduce an approach to induce more diversity among experts, thus creating representations more suitable for highly imbalanced and heterogenous MTL learning; second, we adopt a two-step optimization [6, 11] approach to balancing the tasks at the gradient level. We validate our method on three MTL benchmark datasets, including Medical Information Mart for Intensive Care (MIMIC-III) and PubChem BioAssay (PCBA).
翻訳日:2021-06-23 14:18:22 公開日:2021-06-20
# (参考訳) アイテムとアノテーションの協調モデリングによるラベル品質の向上 [全文訳有]

Improving Label Quality by Jointly Modeling Items and Annotators ( http://arxiv.org/abs/2106.10600v1 )

ライセンス: CC BY 4.0
Tharindu Cyril Weerasooriya, Alexander G. Ororbia, Christopher M. Homan(参考訳) 雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。 我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。 初期の研究では、ラベルの分布を完全に組み込んでおらず、注釈者のみによるクラスタリングやデータのみを調査していなかった。 筆者らのフレームワークは, これらすべての特性を包含している: 1) 'emph{any} ブラックボックス教師付き学習アルゴリズムの入力としてアノテータ応答の基底的真理推定を提供するように設計されたグラフィカルモデル, (2) 内部構造がグラフィカルモデルの多くの特性を捉える独立したニューラルモデル。 両方のモデルを用いて教師あり学習実験を行い,1つのベースラインと最先端モデルのパフォーマンスと比較した。

We propose a fully Bayesian framework for learning ground truth labels from noisy annotators. Our framework ensures scalability by factoring a generative, Bayesian soft clustering model over label distributions into the classic David and Skene joint annotator-data model. Earlier research along these lines has neither fully incorporated label distributions nor explored clustering by annotators only or data only. Our framework incorporates all of these properties as: (1) a graphical model designed to provide better ground truth estimates of annotator responses as input to \emph{any} black box supervised learning algorithm, and (2) a standalone neural model whose internal structure captures many of the properties of the graphical model. We conduct supervised learning experiments using both models and compare them to the performance of one baseline and a state-of-the-art model.
翻訳日:2021-06-23 14:04:57 公開日:2021-06-20
# (参考訳) rego: イメージの参照ガイド付きアウトペインティング [全文訳有]

ReGO: Reference-Guided Outpainting for Scenery Image ( http://arxiv.org/abs/2106.10601v1 )

ライセンス: CC BY 4.0
Yaxiong Wang, Yunchao Wei, Xueming Qian, Li Zhu and Yi Yang(参考訳) 本研究の課題は, 現実的かつ困難な景観イメージに対処することである。 近年,画像のセマンティックな一貫したコンテンツを生成することによって,生成的対角学習が画像の画質を著しく向上させている。 しかし、既存の手法は常にぼやけたテクスチャや生成部分のアーティファクトに苦しむため、全体的な老朽化の結果は正確性に欠ける。 この弱さを克服するため、近隣のピクセル(参考画像)から「textbf{Re}ference-\textbf{G}uided \textbf{O}utpainting (ReGO)」を借用し、テクスチャに富んだ結果を合成する原理を考察した。 特に、ReGOは、ターゲット画像のテクスチャ補償のための参照画像のピクセルを転送するための適応コンテンツ選択(ACS)モジュールを設計する。 生成された部分のスタイルが参照画像の影響を受けないようにするために、ReGOを増強し、スタイル一貫性のある結果を合成するスタイルランキングロスが提案されている。 NS6K~\cite{yangzx} と NS8K~\cite{wang} の2つの人気のあるベンチマーク実験は、我々のReGOの有効性をよく示している。

We aim to tackle the challenging yet practical scenery image outpainting task in this work. Recently, generative adversarial learning has significantly advanced the image outpainting by producing semantic consistent content for the given image. However, the existing methods always suffer from the blurry texture and the artifacts of the generative part, making the overall outpainting results lack authenticity. To overcome the weakness, this work investigates a principle way to synthesize texture-rich results by borrowing pixels from its neighbors (\ie, reference images), named \textbf{Re}ference-\textbf{G}uided \textbf{O}utpainting (ReGO). Particularly, the ReGO designs an Adaptive Content Selection (ACS) module to transfer the pixel of reference images for texture compensating of the target one. To prevent the style of the generated part from being affected by the reference images, a style ranking loss is further proposed to augment the ReGO to synthesize style-consistent results. Extensive experiments on two popular benchmarks, NS6K~\cite{yangzx} and NS8K~\cite{wang}, well demonstrate the effectiveness of our ReGO.
翻訳日:2021-06-23 13:41:43 公開日:2021-06-20
# (参考訳) 自己監督型コントラスト学習法を用いた一般リモートセンシングビジョンモデルを用いたリモートセンシング画像セマンティックセマンティックセグメンテーション [全文訳有]

Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method ( http://arxiv.org/abs/2106.10605v1 )

ライセンス: CC BY 4.0
Haifeng Li, Yi Li, Guo Zhang, Ruoyun Liu, Haozhe Huang, Qing Zhu, Chao Tao(参考訳) 新しい学習パラダイムであるself-supervised learning(ssl)は、大きなラベルのない画像で一般的なモデルを事前学習し、ラベル付きサンプルの少ない下流タスクを微調整することで、このような問題を解決するのに使用できる。 対照的な学習はSSLの典型的な方法であり、一般的な不変機能を学ぶことができる。 しかし、既存のコントラスト学習のほとんどは画像レベルの表現を得るために分類タスクのために設計されており、ピクセルレベルの識別を必要とする意味的セグメンテーションタスクには最適ではないかもしれない。 そこで我々は,リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。 具体的には、グローバルなスタイルのコントラッシブモジュールは、画像レベルの表現をより良く学習するために使用され、スタイルの特徴が全体像の特徴をよりよく表現できると考えている。 本研究では,4つのリモートセンシングセマンティクスセグメンテーションデータセットを評価し,本手法が最先端の自己教師付き手法やイメージネットの事前学習よりも優れていることを示す。 具体的には、元のデータセットからの1\%のアノテーションで、ISPRS Potsdamデータセットでは6\%、Deep Globe Land Cover Classificationデータセットでは3\%の改善を行った。 さらに,上流タスクのデータセットと下流タスクの差異がある場合,教師あり学習よりも優れる。 本研究は,リモートセンシング意味セグメンテーションにおける自己教師あり学習の開発を促進する。 ソースコードはhttps://github.com/G eoX-Lab/G-RSIMで入手できる。

A new learning paradigm, self-supervised learning (SSL), can be used to solve such problems by pre-training a general model with large unlabeled images and then fine-tuning on a downstream task with very few labeled samples. Contrastive learning is a typical method of SSL, which can learn general invariant features. However, most of the existing contrastive learning is designed for classification tasks to obtain an image-level representation, which may be sub-optimal for semantic segmentation tasks requiring pixel-level discrimination. Therefore, we propose Global style and Local matching Contrastive Learning Network (GLCNet) for remote sensing semantic segmentation. Specifically, the global style contrastive module is used to learn an image-level representation better, as we consider the style features can better represent the overall image features; The local features matching contrastive module is designed to learn representations of local regions which is beneficial for semantic segmentation. We evaluate four remote sensing semantic segmentation datasets, and the experimental results show that our method mostly outperforms state-of-the-art self-supervised methods and ImageNet pre-training. Specifically, with 1\% annotation from the original dataset, our approach improves Kappa by 6\% on the ISPRS Potsdam dataset and 3\% on Deep Globe Land Cover Classification dataset relative to the existing baseline. Moreover, our method outperforms supervised learning when there are some differences between the datasets of upstream tasks and downstream tasks. Our study promotes the development of self-supervised learning in the field of remote sensing semantic segmentation. The source code is available at https://github.com/G eoX-Lab/G-RSIM.
翻訳日:2021-06-23 13:21:32 公開日:2021-06-20
# (参考訳) 凝集不均質データの疫学的モデリングにおける相違 [全文訳有]

Discrepancies in Epidemiological Modeling of Aggregated Heterogeneous Data ( http://arxiv.org/abs/2106.10610v1 )

ライセンス: CC BY 4.0
Anna L. Trella, Peniel N. Argaw, Michelle M. Li, James A. Hay(参考訳) 疫学のモデルでは、分析の大半は地対地データを生成するための単一の流行過程を想定している。 しかし,この推定データ生成プロセスは,地域やコミュニティにまたがって集約されることが多いため,非現実的である可能性がある。 結果として、複雑なシステムに直面すると、例えば〜送信率などの疫学パラメータを推定するための最先端モデルが不適切となる。 我々の研究は、集合データセットに疫学モデルを適用する際のいくつかの限界を実証的に示している。 異なるパラメータのSEIRモデルを用いて個別にシミュレートされた複数の流行からの入射曲線を組み合わせることで、複雑なアウトブレイクシナリオを3つ生成する。 これらのシナリオを用いて,ウイルスの負荷監視データから流行経路を推定する最先端ベイズ推定法のロバスト性を評価する。 我々は,このベイズ推定フレームワークにおける2つのデータ生成モデルを評価する:単純な指数関数的成長モデルと高度に柔軟なガウス過程事前モデルである。 以上の結果から, 両モデルとも, 発生頻度曲線の正確な伝達率推定を, 発病率の偏りを発生させるコストで生成し, 人口動態を反映していることがわかった。 指数的成長モデルは解釈可能であるが、根底にある流行の複雑さを捉えることはできない。 十分な監視データがあれば、ガウス過程の先行モデルは複雑な軌道の形状を捉えるが、データカバレッジが低い期間は不正確である。 以上の結果から,データ生成プロセスにおける複雑さや不均一性を無視する潜在的な落とし穴が浮き彫りになる。

Within epidemiological modeling, the majority of analyses assume a single epidemic process for generating ground-truth data. However, this assumed data generation process can be unrealistic, since data sources for epidemics are often aggregated across geographic regions and communities. As a result, state-of-the-art models for estimating epidemiological parameters, e.g.~transmission rates, can be inappropriate when faced with complex systems. Our work empirically demonstrates some limitations of applying epidemiological models to aggregated datasets. We generate three complex outbreak scenarios by combining incidence curves from multiple epidemics that are independently simulated via SEIR models with different sets of parameters. Using these scenarios, we assess the robustness of a state-of-the-art Bayesian inference method that estimates the epidemic trajectory from viral load surveillance data. We evaluate two data-generating models within this Bayesian inference framework: a simple exponential growth model and a highly flexible Gaussian process prior model. Our results show that both models generate accurate transmission rate estimates for the combined incidence curve at the cost of generating biased estimates for each underlying epidemic, reflecting highly heterogeneous underlying population dynamics. The exponential growth model, while interpretable, is unable to capture the complexity of the underlying epidemics. With sufficient surveillance data, the Gaussian process prior model captures the shape of complex trajectories, but is imprecise for periods of low data coverage. Thus, our results highlight the potential pitfalls of neglecting complexity and heterogeneity in the data generation process, which can mask underlying location- and population-specific epidemic dynamics.
翻訳日:2021-06-23 13:00:07 公開日:2021-06-20
# (参考訳) 意味的損失を伴う生成対話モデルの訓練効果に関する簡単な研究 [全文訳有]

A Brief Study on the Effects of Training Generative Dialogue Models with a Semantic loss ( http://arxiv.org/abs/2106.10619v1 )

ライセンス: CC BY 4.0
Prasanna Parthasarathi, Mohamed Abdelsalam, Joelle Pineau, Sarath Chandar(参考訳) 対話タスクにおける次の発話生成のために訓練されたニューラルモデルは、負の対数類似度(NLL)やクロスエントロピーといったトレーニング目標を持つトレーニングセットのn-gramシーケンスを模倣することを学ぶ。 このような一般的なトレーニング目標は、コンテキストに対する代替応答の生成を助長しない。 しかし, モデルが生成し, セマンティックな類似度にスコアを付けるための代替学習目標を最小化する効果は, 十分に研究されていない。 言語生成モデルは、学習中に代替テキストを生成し、意味的損失を補助目的として最小化することで、その多様性を向上させることができると仮定する。 目標指向対話における次の発話生成タスクにおける2つの異なるデータセットについて、このアイデアを探求する。 意味的目的を最小化する 小さいデータセット(フレーム)の応答の多様性を改善するが、大きなデータセット(multiwoz)のnllを最小化するのと同様に、単に、大きな言語モデル埋め込みは、トークン埋め込みの初期化よりも意味的損失目標として有用である。

Neural models trained for next utterance generation in dialogue task learn to mimic the n-gram sequences in the training set with training objectives like negative log-likelihood (NLL) or cross-entropy. Such commonly used training objectives do not foster generating alternate responses to a context. But, the effects of minimizing an alternate training objective that fosters a model to generate alternate response and score it on semantic similarity has not been well studied. We hypothesize that a language generation model can improve on its diversity by learning to generate alternate text during training and minimizing a semantic loss as an auxiliary objective. We explore this idea on two different sized data sets on the task of next utterance generation in goal oriented dialogues. We make two observations (1) minimizing a semantic objective improved diversity in responses in the smaller data set (Frames) but only as-good-as minimizing the NLL in the larger data set (MultiWoZ) (2) large language model embeddings can be more useful as a semantic loss objective than as initialization for token embeddings.
翻訳日:2021-06-23 12:47:01 公開日:2021-06-20
# (参考訳) Apache Sparkに組み込む大規模ネットワーク [全文訳有]

Large-Scale Network Embedding in Apache Spark ( http://arxiv.org/abs/2106.10620v1 )

ライセンス: CC0 1.0
Wenqing Lin(参考訳) ネットワーク埋め込みは、リコメンデーションシステムやグラフによる異常検出など、ソーシャルレコメンデーションやネットワーク分析に広く利用されている。 しかし、グラフ上の計算はコストがかかることが多く、(ii)グラフのサイズやベクトルの中間結果が禁止的に大きくなり、単一のマシンで処理することが難しくなるため、従来のアプローチでは大きなグラフを効率的に処理することはできない。 本稿では,Apache Sparkを用いてグラフを複数の小さなサブグラフに再帰的に分割してノードの内部および外部構造情報をキャプチャし,各サブグラフに対するネットワーク埋め込みを並列に計算する,大規模グラフへのネットワーク埋め込みのための効率的かつ効率的な分散アルゴリズムを提案する。 最後に、すべての部分グラフの出力を集約することにより、線形コストでノードの埋め込みを得る。 その後、さまざまな実験において、提案手法が数十億のエッジを持つグラフを数時間で処理でき、最先端のアプローチよりも少なくとも4倍高速であることを示す。 さらに、リンク予測とノード分類タスクで最大4.25 %$と4.27 %$の改善が達成されている。 最終的に、提案されたアルゴリズムをTencentの2つのオンラインゲームに、友人の推薦とアイテムレコメンデーションの応用で展開し、実行時に最大911.11\%、対応する評価指標で最大12.80\%の競争力を向上させる。

Network embedding has been widely used in social recommendation and network analysis, such as recommendation systems and anomaly detection with graphs. However, most of previous approaches cannot handle large graphs efficiently, due to that (i) computation on graphs is often costly and (ii) the size of graph or the intermediate results of vectors could be prohibitively large, rendering it difficult to be processed on a single machine. In this paper, we propose an efficient and effective distributed algorithm for network embedding on large graphs using Apache Spark, which recursively partitions a graph into several small-sized subgraphs to capture the internal and external structural information of nodes, and then computes the network embedding for each subgraph in parallel. Finally, by aggregating the outputs on all subgraphs, we obtain the embeddings of nodes in a linear cost. After that, we demonstrate in various experiments that our proposed approach is able to handle graphs with billions of edges within a few hours and is at least 4 times faster than the state-of-the-art approaches. Besides, it achieves up to $4.25\%$ and $4.27\%$ improvements on link prediction and node classification tasks respectively. In the end, we deploy the proposed algorithms in two online games of Tencent with the applications of friend recommendation and item recommendation, which improve the competitors by up to $91.11\%$ in running time and up to $12.80\%$ in the corresponding evaluation metrics.
翻訳日:2021-06-23 12:38:01 公開日:2021-06-20
# (参考訳) タスクに関する十分な情報を符号化する生成対話モデルのエンコーダ表現 [全文訳有]

Do Encoder Representations of Generative Dialogue Models Encode Sufficient Information about the Task ? ( http://arxiv.org/abs/2106.10622v1 )

ライセンス: CC BY 4.0
Prasanna Parthasarathi, Joelle Pineau, Sarath Chandar(参考訳) 対話における次の発話の予測は、ユーザの入力テキストのエンコーディングに基づいて、データ駆動アプローチにおける適切な応答を生成する。 生成した言語の意味的・統語的品質は評価されるが、多くの場合、符号化された入力表現は評価されない。 適切な応答を予測するにはエンコーダの表現が不可欠であるため、エンコーダの表現の評価は困難だが重要な問題である。 本研究では,対話モデルにおける言語理解の健全さを適切に評価するには,人為的あるいは自動的な指標によるテキストの評価が不十分であることを示すとともに,対話モデルで一般的に使用される異なる言語エンコーダのエンコーダ表現を評価するためのプローブタスクのセットを提案する。 実験から、探索タスクのいくつかは簡単で、さらに高度なモデルアーキテクチャを学ぶのが難しいものもあります。 また,実験により,RNNベースのアーキテクチャはトランスフォーマーモデルよりもテキスト生成における自動メトリクスの性能が低いが,トランスフォーマーよりもタスク情報を保存できることを示すプローブタスクにおいて,トランスフォーマーモデルよりも優れていた。

Predicting the next utterance in dialogue is contingent on encoding of users' input text to generate appropriate and relevant response in data-driven approaches. Although the semantic and syntactic quality of the language generated is evaluated, more often than not, the encoded representation of input is not evaluated. As the representation of the encoder is essential for predicting the appropriate response, evaluation of encoder representation is a challenging yet important problem. In this work, we showcase evaluating the text generated through human or automatic metrics is not sufficient to appropriately evaluate soundness of the language understanding of dialogue models and, to that end, propose a set of probe tasks to evaluate encoder representation of different language encoders commonly used in dialogue models. From experiments, we observe that some of the probe tasks are easier and some are harder for even sophisticated model architectures to learn. And, through experiments we observe that RNN based architectures have lower performance on automatic metrics on text generation than transformer model but perform better than the transformer model on the probe tasks indicating that RNNs might preserve task information better than the Transformers.
翻訳日:2021-06-23 11:15:17 公開日:2021-06-20
# (参考訳) 複合高分解能ネットワークを用いた病理組織像におけるクリアセル腎細胞癌の核移植 [全文訳有]

Nuclei Grading of Clear Cell Renal Cell Carcinoma in Histopathological Image by Composite High-Resolution Network ( http://arxiv.org/abs/2106.10641v1 )

ライセンス: CC BY 4.0
Zeyu Gao, Jiangbo Shi, Xianli Zhang, Yang Li, Haichuan Zhang, Jialun Wu, Chunbao Wang, Deyu Meng, Chen Li(参考訳) 明確な細胞腎細胞癌 (ccRCC) のグレードは重要な予後因子であり, ccRCC核はRCCの病態解析において重要な役割を担っている。 コンピュータ支援核グレーディングは、病理組織像中の腫瘍核のグレードを自動的に識別することにより、病理学者の作業効率を向上させることを目的としている。 そのようなタスクは原子核を正確に分割し、正確に分類する必要がある。 しかし、既存の核セグメンテーションと分類法のほとんどは、核グレーディングのクラス間類似性を処理できないため、直接ccrccグレーディングタスクに適用することはできない。 本稿では,ccRCC核グレーディングのための複合高分解能ネットワークを提案する。 具体的には、クラスター化された核を分離できるW-Netと呼ばれるセグメンテーションネットワークを提案する。 次に,これらの課題を学習するために提案する2つの高分解能特徴抽出器(hrfes)に基づいて,核の細粒度分類を2つのクロスカテゴリ分類タスクに再キャストする。 2つのhrfeはw-netと同じバックボーンエンコーダを複合接続で共有するので、セグメンテーションタスクの有意義な特徴を分類タスクに継承することができる。 最後に、各核の予測ラベルを生成するためにヘッドフュージョンブロックを適用する。 さらに,70945のアノテート核を含む1000個の画像パッチを含む,ccRCC核グレーディングのためのデータセットも導入した。 提案手法は,この大規模ccRCCグレーディングデータセット上の既存手法と比較して,最先端性能を実現する。

The grade of clear cell renal cell carcinoma (ccRCC) is a critical prognostic factor, making ccRCC nuclei grading a crucial task in RCC pathology analysis. Computer-aided nuclei grading aims to improve pathologists' work efficiency while reducing their misdiagnosis rate by automatically identifying the grades of tumor nuclei within histopathological images. Such a task requires precisely segment and accurately classify the nuclei. However, most of the existing nuclei segmentation and classification methods can not handle the inter-class similarity property of nuclei grading, thus can not be directly applied to the ccRCC grading task. In this paper, we propose a Composite High-Resolution Network for ccRCC nuclei grading. Specifically, we propose a segmentation network called W-Net that can separate the clustered nuclei. Then, we recast the fine-grained classification of nuclei to two cross-category classification tasks, based on two high-resolution feature extractors (HRFEs) which are proposed for learning these two tasks. The two HRFEs share the same backbone encoder with W-Net by a composite connection so that meaningful features for the segmentation task can be inherited for the classification task. Last, a head-fusion block is applied to generate the predicted label of each nucleus. Furthermore, we introduce a dataset for ccRCC nuclei grading, containing 1000 image patches with 70945 annotated nuclei. We demonstrate that our proposed method achieves state-of-the-art performance compared to existing methods on this large ccRCC grading dataset.
翻訳日:2021-06-23 11:01:18 公開日:2021-06-20
# (参考訳) 非ペア画像キャプションにおける意味関係の検討 [全文訳有]

Exploring Semantic Relationships for Unpaired Image Captioning ( http://arxiv.org/abs/2106.10658v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Meng Gao, Tianhao Zhang, Yuexian Zou(参考訳) 近年、画像キャプションは学術界と産業界の両方に大きな関心を集めている。 既存のシステムの多くは、画像と文のペアからなる大規模なデータセット上に構築されている。 また、最新の画像キャプションシステムにおいても、深い画像理解を実現することは依然として困難である。 本研究では,視覚領域と言語領域をハイレベルな意味情報で橋渡しすることで,非ペア画像キャプションを実現する。 この動機は、画像と記述の両方から同じモダリティを持つ意味概念を抽出できるという事実に由来する。 モデルが生成するキャプションの品質をさらに向上するため,画像の理解を深めるために,意味概念間の関係を探索するセマンティック・リレーションシップ・エクスプローラを提案する。 mscocoデータセットの広範な実験は、ペアデータセットなしで望ましいキャプションを生成することができることを示している。 さらに,提案手法は,ciderスコアの大幅な改善が8%に達するペア設定下での5つの強力なベースラインを強化し,その効果を実証し,幅広いモデルにうまく一般化する。

Recently, image captioning has aroused great interest in both academic and industrial worlds. Most existing systems are built upon large-scale datasets consisting of image-sentence pairs, which, however, are time-consuming to construct. In addition, even for the most advanced image captioning systems, it is still difficult to realize deep image understanding. In this work, we achieve unpaired image captioning by bridging the vision and the language domains with high-level semantic information. The motivation stems from the fact that the semantic concepts with the same modality can be extracted from both images and descriptions. To further improve the quality of captions generated by the model, we propose the Semantic Relationship Explorer, which explores the relationships between semantic concepts for better understanding of the image. Extensive experiments on MSCOCO dataset show that we can generate desirable captions without paired datasets. Furthermore, the proposed approach boosts five strong baselines under the paired setting, where the most significant improvement in CIDEr score reaches 8%, demonstrating that it is effective and generalizes well to a wide range of models.
翻訳日:2021-06-23 10:51:07 公開日:2021-06-20
# (参考訳) 外乱検出と空間解析アルゴリズム [全文訳有]

Outlier Detection and Spatial Analysis Algorithms ( http://arxiv.org/abs/2106.10669v1 )

ライセンス: CC BY 4.0
Jacob John(参考訳) 異常検出はデータマイニングにおいて重要な領域である。 分析に先立ってデータを前処理したり、アウトレーヤの有効性やその重要性に応じて処理フェーズ(視覚化前)をポストするために使用することができる。 外乱検出は、クレジットカード詐欺の検出、ネットワーク侵入、機械故障予測、潜在的なテロ攻撃など、いくつかの分野に及んでいる。 外れ値(outlier)は、特性がかなり異なるデータポイントである。 彼らは分析中に不整合、ノイズ、異常を引き起こすデータセットから逸脱し、元のポイントを変更するが、一般的な誤解は、アウトレーヤはデータセットから即座に削除または置き換えなければならないということである。 このような点は、研究問題に完全に重要となる別のメカニズムから得ることができるので、別々に分析すれば有用であると考えられる。 本研究では,空間解析のための異常検出法について検討する。 空間データまたは地理空間データは、位置や領域などの地理的特性や特性を示すものである。 例えば、降水量、気温、風速などの気象データが特定の地域で収集される。

Outlier detection is a significant area in data mining. It can be either used to pre-process the data prior to an analysis or post the processing phase (before visualization) depending on the effectiveness of the outlier and its importance. Outlier detection extends to several fields such as detection of credit card fraud, network intrusions, machine failure prediction, potential terrorist attacks, and so on. Outliers are those data points with characteristics considerably different. They deviate from the data set causing inconsistencies, noise and anomalies during analysis and result in modification of the original points However, a common misconception is that outliers have to be immediately eliminated or replaced from the data set. Such points could be considered useful if analyzed separately as they could be obtained from a separate mechanism entirely making it important to the research question. This study surveys the different methods of outlier detection for spatial analysis. Spatial data or geospatial data are those that exhibit geographic properties or attributes such as position or areas. An example would be weather data such as precipitation, temperature, wind velocity, and so on collected for a defined region.
翻訳日:2021-06-23 10:32:06 公開日:2021-06-20
# (参考訳) 対話型ボリューム画像分割のための品質認識メモリネットワーク [全文訳有]

Quality-Aware Memory Network for Interactive Volumetric Image Segmentation ( http://arxiv.org/abs/2106.10686v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Liulei Li, Gustav Bredell, Jianwu Li, Ender Konukoglu(参考訳) 近年の自動画像分割技術が進歩しているにもかかわらず、完全に自動的な結果は通常、臨床使用に間に合わないため、さらなる改善が必要である。 本研究では,3次元医用画像の対話的セグメンテーションのための品質認識型メモリネットワークを提案する。 任意のスライス上のユーザガイダンスにより、対話ネットワークを最初に使用して、初期2dセグメンテーションを得る。 その後、品質認識メモリネットワークは、初期セグメンテーション推定をボリューム全体にわたって双方向に伝搬する。 他のスライスに対する追加のユーザガイダンスに基づくその後の改良も同じように組み込むことができる。 さらにインタラクティブなセグメンテーションを容易にするために、各スライスの現在のセグメンテーション品質に基づいて、次のスライスをセグメントに提案する品質評価モジュールを導入する。 提案するネットワークは,1) メモリ拡張ネットワークは,他のスライスのセグメンテーションのために検索される過去のセグメンテーション情報を迅速にエンコードする機能を提供し,2) 品質評価モジュールは,セグメンテーション予測の質を直接推定し,ユーザが優先的に低品質スライスをマルチラウンドリファインメント用にラベル付けするアクティブラーニングパラダイムを実現する。 提案したネットワークは、様々な種類のユーザアノテーション(例えば、スクリブル、ボックス)をうまく一般化できる、堅牢な対話型セグメンテーションエンジンに導かれる。 各種医療データセットに対する実験結果から,既存手法と比較してアプローチの優位性が示された。

Despite recent progress of automatic medical image segmentation techniques, fully automatic results usually fail to meet the clinical use and typically require further refinement. In this work, we propose a quality-aware memory network for interactive segmentation of 3D medical images. Provided by user guidance on an arbitrary slice, an interaction network is firstly employed to obtain an initial 2D segmentation. The quality-aware memory network subsequently propagates the initial segmentation estimation bidirectionally over the entire volume. Subsequent refinement based on additional user guidance on other slices can be incorporated in the same manner. To further facilitate interactive segmentation, a quality assessment module is introduced to suggest the next slice to segment based on the current segmentation quality of each slice. The proposed network has two appealing characteristics: 1) The memory-augmented network offers the ability to quickly encode past segmentation information, which will be retrieved for the segmentation of other slices; 2) The quality assessment module enables the model to directly estimate the qualities of segmentation predictions, which allows an active learning paradigm where users preferentially label the lowest-quality slice for multi-round refinement. The proposed network leads to a robust interactive segmentation engine, which can generalize well to various types of user annotations (e.g., scribbles, boxes). Experimental results on various medical datasets demonstrate the superiority of our approach in comparison with existing techniques.
翻訳日:2021-06-23 10:23:18 公開日:2021-06-20
# (参考訳) NeuS:多視点再構成のためのボリュームレンダリングによるニューラルインシシデント表面の学習 [全文訳有]

NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction ( http://arxiv.org/abs/2106.10689v1 )

ライセンス: CC0 1.0
Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, Wenping Wang(参考訳) 2次元画像入力から高い忠実度でオブジェクトやシーンを再構成するためのニューラルサーフェス再構成法neusを提案する。 DVRやIDRのような既存の神経表面再構成アプローチでは、フォアグラウンドマスクを監督し、局所的なミニマに簡単に閉じ込められ、激しい自己閉塞や細い構造を持つ物体の再構築に苦労する。 一方、NeRFなどの新しいビュー合成のための最近のニューラルメソッドでは、ボリュームレンダリングを使用して、高度に複雑なオブジェクトであっても、最適化の堅牢性を持ったニューラルシーン表現を生成する。 しかし、この学習された暗黙表現から高品質な曲面を抽出することは、表現に十分な表面制約がないため困難である。 NeuSでは,表面を符号付き距離関数(SDF)のゼロレベル集合として表現し,ニューラルなSDF表現を訓練するための新しいボリュームレンダリング法を提案する。 従来のボリュームレンダリング手法は、固有の幾何学的誤り(すなわち、)を引き起こす。 偏り) 表面の再構成のための新しい定式化の提案であり, 第一次近似では偏りのないため, マスク監督なしでもより正確な表面の再構成が可能である。 DTUデータセットとBlendedMVSデータセットの実験によると、NeuSは、特に複雑な構造と自己閉塞を持つオブジェクトやシーンにおいて、高品質な表面再構成における最先端技術よりも優れている。

We present a novel neural surface reconstruction method, called NeuS, for reconstructing objects and scenes with high fidelity from 2D image inputs. Existing neural surface reconstruction approaches, such as DVR and IDR, require foreground mask as supervision, easily get trapped in local minima, and therefore struggle with the reconstruction of objects with severe self-occlusion or thin structures. Meanwhile, recent neural methods for novel view synthesis, such as NeRF and its variants, use volume rendering to produce a neural scene representation with robustness of optimization, even for highly complex objects. However, extracting high-quality surfaces from this learned implicit representation is difficult because there are not sufficient surface constraints in the representation. In NeuS, we propose to represent a surface as the zero-level set of a signed distance function (SDF) and develop a new volume rendering method to train a neural SDF representation. We observe that the conventional volume rendering method causes inherent geometric errors (i.e. bias) for surface reconstruction, and therefore propose a new formulation that is free of bias in the first order of approximation, thus leading to more accurate surface reconstruction even without the mask supervision. Experiments on the DTU dataset and the BlendedMVS dataset show that NeuS outperforms the state-of-the-arts in high-quality surface reconstruction, especially for objects and scenes with complex structures and self-occlusion.
翻訳日:2021-06-23 10:12:08 公開日:2021-06-20
# (参考訳) 深部圧縮センシングのための生成モデル反転学習 [全文訳有]

Generative Model Adversarial Training for Deep Compressed Sensing ( http://arxiv.org/abs/2106.10696v1 )

ライセンス: CC BY 4.0
Ashkan Esmaeili(参考訳) 深部圧縮センシングは、データは潜在空間、すなわち本質的に低次元であるスパース表現を持つと仮定する。 原データは、低次元空間から低次元発生器を介してマッピングされると仮定する。 本研究では,そのような低次元から高次元の深層学習型発電機を圧縮センシングに適した設計法を提案し,潜在領域における普遍的逆摂動に対する頑健性に満足する手法を提案する。 また、このノイズが潜在空間で考慮される理由も正当化する。 この研究は、対向的な摂動に対する訓練された発電機の堅牢性に関する理論的解析に支えられている。 実世界のデータセットに関する実験は、深部圧縮センシングのためのemph{generative model adversarial trainingの提案の有効性を裏付けるものである。

Deep compressed sensing assumes the data has sparse representation in a latent space, i.e., it is intrinsically of low-dimension. The original data is assumed to be mapped from a low-dimensional space through a low-to-high-dimensio nal generator. In this work, we propound how to design such a low-to-high dimensional deep learning-based generator suiting for compressed sensing, while satisfying robustness to universal adversarial perturbations in the latent domain. We also justify why the noise is considered in the latent space. The work is also buttressed with theoretical analysis on the robustness of the trained generator to adversarial perturbations. Experiments on real-world datasets are provided to substantiate the efficacy of the proposed \emph{generative model adversarial training for deep compressed sensing.}
翻訳日:2021-06-23 09:52:26 公開日:2021-06-20
# (参考訳) ディープラーニングのためのメモリ拡張最適化 [全文訳有]

Memory Augmented Optimizers for Deep Learning ( http://arxiv.org/abs/2106.10708v1 )

ライセンス: CC BY 4.0
Paul-Aymeric McRae, Prasanna Parthasarathi, Mahmoud Assran, Sarath Chandar(参考訳) データ駆動学習における損失を最小化するための一般的なアプローチは、しばしば効率的なパラメータ更新のために勾配の歴史を抽象化または明示的に保持する。 勾配の集約された履歴は、任意のステップの勾配が情報的でない場合でも、パラメータを正しい方向に更新する。 メタパラメータにまとめられたり、メモリに明示的に格納された勾配の歴史は理論と実践において有効であることが示されているが、パラメータ更新を決定するのに$all$または一部の勾配しか不十分かどうかという問題は未解決のままである。 本稿では,内部メモリにおける勾配履歴の限られたビューを保持するメモリ拡張型勾配降下最適化器の枠組みを提案する。 このようなオプティマイザは、大規模なリアルタイムデータセットによく拡張でき、標準オプティマイザのメモリ拡張拡張は、私たちが検討したコンピュータビジョンや言語タスクの大部分において、収束の加速とパフォーマンスの向上を享受できることを示した。 さらに,提案する固定サイズのメモリを持つオプティマイザのクラスは,どの勾配が選択されるか,どのように線形に結合して更新ステップを形成するかに関わらず,強い凸性の仮定のもとに収束することを示す。

Popular approaches for minimizing loss in data-driven learning often involve an abstraction or an explicit retention of the history of gradients for efficient parameter updates. The aggregated history of gradients nudges the parameter updates in the right direction even when the gradients at any given step are not informative. Although the history of gradients summarized in meta-parameters or explicitly stored in memory has been shown effective in theory and practice, the question of whether $all$ or only a subset of the gradients in the history are sufficient in deciding the parameter updates remains unanswered. In this paper, we propose a framework of memory-augmented gradient descent optimizers that retain a limited view of their gradient history in their internal memory. Such optimizers scale well to large real-life datasets, and our experiments show that the memory augmented extensions of standard optimizers enjoy accelerated convergence and improved performance on a majority of computer vision and language tasks that we considered. Additionally, we prove that the proposed class of optimizers with fixed-size memory converge under assumptions of strong convexity, regardless of which gradients are selected or how they are linearly combined to form the update step.
翻訳日:2021-06-23 09:42:59 公開日:2021-06-20
# (参考訳) 量子機械学習:fadか未来か? [全文訳有]

Quantum Machine Learning: Fad or Future? ( http://arxiv.org/abs/2106.10714v1 )

ライセンス: CC BY 4.0
Arhum Ishtiaq, Sara Mahmood(参考訳) 過去数十年間、古典的な機械学習は、自動化、自然言語処理、予測分析などを通じて多くの人の生活を改善してきました。 しかし、大きな懸念は、CPU、GPU、アプリケーション固有集積回路(ASIC)を含む古典的なコンピューティングデバイスによって、私たちが利用可能な最大計算容量のしきい値に迅速にアプローチしているという事実である。 これは、今や数十億と数兆のパラメータを持つモデルサイズが指数関数的に増加し、1つのモデルを収束させるのに、かなりの時間をかけて大量のコンピューティングリソースを必要とするためである。 量子コンピューティングを特定の機械学習タスクに使用することの有効性を観察し、ノイズデータに対する収束、エラー低減、堅牢性の向上の可能性を検討するため、量子機械学習が従来の機械学習アプローチよりも改善する上で役立つ側面を検証し検証するとともに、量子アプローチが主流になるのを妨げる可能性のある制限についても考察する。 主な焦点は、farhiらによる研究を再現し、tensorflow量子ドキュメントの助けを借りて、量子コンテキストで機械学習を実行するという彼らの理論を使って実験を行うことだ。

For the last few decades, classical machine learning has allowed us to improve the lives of many through automation, natural language processing, predictive analytics and much more. However, a major concern is the fact that we're fast approach the threshold of the maximum possible computational capacity available to us by the means of classical computing devices including CPUs, GPUs and Application Specific Integrated Circuits (ASICs). This is due to the exponential increase in model sizes which now have parameters in the magnitude of billions and trillions, requiring a significant amount of computing resources across a significant amount of time, just to converge one single model. To observe the efficacy of using quantum computing for certain machine learning tasks and explore the improved potential of convergence, error reduction and robustness to noisy data, this paper will look forth to test and verify the aspects in which quantum machine learning can help improve over classical machine learning approaches while also shedding light on the likely limitations that have prevented quantum approaches to become the mainstream. A major focus will be to recreate the work by Farhi et al and conduct experiments using their theory of performing machine learning in a quantum context, with assistance from the Tensorflow Quantum documentation.
翻訳日:2021-06-23 09:18:47 公開日:2021-06-20
# (参考訳) 社会・健康科学における機械学習 [全文訳有]

Machine learning in the social and health sciences ( http://arxiv.org/abs/2106.10716v1 )

ライセンス: CC BY 4.0
Anja K. Leist, Matthias Klee, Jung Hyun Kim, David H. Rehkopf, St\'ephane P. A. Bordas, Graciela Muniz-Terrera, Sara Wade(参考訳) 社会・健康科学における機械学習(ML)アプローチの取り込みは、かなり遅く、社会・健康研究におけるMLを用いた研究は、いまだに断片化されている。 これは、計算/データと社会・健康科学の研究が別々に発達したことと、非データサイエンス研究者のためのML技術におけるアクセス可能な概要と適切なトレーニングの欠如による可能性がある。 本稿では、これらの分野における統計的分析に必要な要件を取り入れ、社会・健康科学における研究課題のメタマッピングを適切なMLアプローチに適用する。 確立された分類を、有害な健康や社会的成果の有病率の推定、事象のリスクの予測、リスク要因や有害な結果の原因の特定など、共通の研究目標に対する説明、予測、因果推論にマッピングする。 このメタマッピングは、学際的障壁を克服し、社会科学と健康科学の研究者と方法論的に訓練された研究者の対話を開始することを目的としている。 このようなマッピングは、社会・健康科学に関連する領域固有の側面を考慮しながら、MLの利点を十分に活用する上でも有効であり、基本的および応用的な社会・健康科学研究を前進させるために、MLアプリケーションの取り込みの加速に寄与することが望まれる。

The uptake of machine learning (ML) approaches in the social and health sciences has been rather slow, and research using ML for social and health research questions remains fragmented. This may be due to the separate development of research in the computational/data versus social and health sciences as well as a lack of accessible overviews and adequate training in ML techniques for non data science researchers. This paper provides a meta-mapping of research questions in the social and health sciences to appropriate ML approaches, by incorporating the necessary requirements to statistical analysis in these disciplines. We map the established classification into description, prediction, and causal inference to common research goals, such as estimating prevalence of adverse health or social outcomes, predicting the risk of an event, and identifying risk factors or causes of adverse outcomes. This meta-mapping aims at overcoming disciplinary barriers and starting a fluid dialogue between researchers from the social and health sciences and methodologically trained researchers. Such mapping may also help to fully exploit the benefits of ML while considering domain-specific aspects relevant to the social and health sciences, and hopefully contribute to the acceleration of the uptake of ML applications to advance both basic and applied social and health sciences research.
翻訳日:2021-06-23 09:10:27 公開日:2021-06-20
# (参考訳) 意思決定理論オンライン学習の最適戦略 [全文訳有]

Optimal Strategies for Decision Theoretic Online Learning ( http://arxiv.org/abs/2106.10717v1 )

ライセンス: CC BY 4.0
Yoav Freund(参考訳) ドリフトゲーム解析を連続時間まで拡張し、値関数が厳密な正の微分を持つときの最適逆数がブロニアン運動であることを示す。

We extend the drifting games analysis to continuous time and show that the optimal adversary, if the value function has strictly positive derivative up to fourth order is bronian motion.
翻訳日:2021-06-23 08:32:56 公開日:2021-06-20
# (参考訳) 多言語ユーザ生成コンテンツにおける感情翻訳の課題:Twitterを事例として [全文訳有]

Challenges in Translation of Emotions in Multilingual User-Generated Content: Twitter as a Case Study ( http://arxiv.org/abs/2106.10719v1 )

ライセンス: CC BY 4.0
Hadeel Saadany, Constantin Orasan, Rocio Caro Quintana, Felix do Carmo, Leonardo Zilio(参考訳) 感情は普遍的な概念であるが、感情の異なる色合いをある言語から別の言語に移すことは、機械翻訳システムだけでなく、人間の翻訳者にとって必ずしも単純ではない。 さらに、認知状態は、言語と文化の両方の文脈によって形成される経験の言葉による説明によって確立される。 感情の表現がメッセージの重要な構成要素となる、多くの言葉の文脈が存在する。 ユーザ生成コンテンツ(UGC)には特に当てはまります。製品やサービス、ツイート、ソーシャルメディアポストのレビューという形でもよいのです。 近年,Twitter などの多言語 Web サイトが UGC の自動翻訳を提供し,言語的に多様な利用者にリーチすることが一般的になっている。 このようなシナリオでは、ユーザーの感情を翻訳するプロセスは完全に自動化され、人間の介入なしに、ポスト編集や正確性チェックも行わない。 本研究では,自動翻訳ツールが,つぶやきなどの多言語データにおける感情伝達に有効であるかどうかを評価する。 異なる言語における感情の翻訳において課題となるtwitterデータに特有の言語現象が存在することを示す。 我々はこれらの課題を言語的特徴の一覧にまとめ、これらの特徴が異なる言語対でどれだけ頻度が高いかを示す。 また、ソーステキストにおける感情の保存に関して、mtシステムの性能を評価するための一般的な手法の能力を評価する。

Although emotions are universal concepts, transferring the different shades of emotion from one language to another may not always be straightforward for human translators, let alone for machine translation systems. Moreover, the cognitive states are established by verbal explanations of experience which is shaped by both the verbal and cultural contexts. There are a number of verbal contexts where expression of emotions constitutes the pivotal component of the message. This is particularly true for User-Generated Content (UGC) which can be in the form of a review of a product or a service, a tweet, or a social media post. Recently, it has become common practice for multilingual websites such as Twitter to provide an automatic translation of UGC to reach out to their linguistically diverse users. In such scenarios, the process of translating the user's emotion is entirely automatic with no human intervention, neither for post-editing nor for accuracy checking. In this research, we assess whether automatic translation tools can be a successful real-life utility in transferring emotion in user-generated multilingual data such as tweets. We show that there are linguistic phenomena specific of Twitter data that pose a challenge in translation of emotions in different languages. We summarise these challenges in a list of linguistic features and show how frequent these features are in different language pairs. We also assess the capacity of commonly used methods for evaluating the performance of an MT system with respect to the preservation of emotion in the source text.
翻訳日:2021-06-23 08:22:56 公開日:2021-06-20
# (参考訳) 新しいクラス発見のための近所のコントラスト学習 [全文訳有]

Neighborhood Contrastive Learning for Novel Class Discovery ( http://arxiv.org/abs/2106.10731v1 )

ライセンス: CC BY 4.0
Zhun Zhong, Enrico Fini, Subhankar Roy, Zhiming Luo, Elisa Ricci, Nicu Sebe(参考訳) 本稿では,既知のクラスを持つラベル付きデータセットを与えられた無ラベルサンプルのセットで新しいクラスを公開するタスクであるnovell class discovery(ncd)について述べる。 我々はNCDの特徴を利用してNCL(Neighborhood Contrastive Learning)と呼ばれる新しいフレームワークを構築し、クラスタリング性能に重要な識別表現を学習する。 私たちの貢献は2倍です。 まず、ラベル付き集合で訓練された特徴抽出器が、一般的なクエリサンプルとその隣人が同じクラスを共有しそうな表現を生成する。 我々は,この観察を利用して擬陽性のペアを比較学習で収集し,より識別的な表現を学習するよう促す。 第二に、ほとんどのインスタンスは容易にネットワークによって識別され、対照的な損失にはあまり寄与しない。 この問題を克服するために,ラベル付きサンプルとラベルなしサンプルを混合して,ハードネガを生成することを提案する。 この2つの成分がクラスタリング性能に大きく寄与していることを実験的に証明し,最先端の手法よりも大きなマージン(例えば,cifar-100ではクラスタリング精度+13%,imagenetでは+8%)で評価した。

In this paper, we address Novel Class Discovery (NCD), the task of unveiling new classes in a set of unlabeled samples given a labeled dataset with known classes. We exploit the peculiarities of NCD to build a new framework, named Neighborhood Contrastive Learning (NCL), to learn discriminative representations that are important to clustering performance. Our contribution is twofold. First, we find that a feature extractor trained on the labeled set generates representations in which a generic query sample and its neighbors are likely to share the same class. We exploit this observation to retrieve and aggregate pseudo-positive pairs with contrastive learning, thus encouraging the model to learn more discriminative representations. Second, we notice that most of the instances are easily discriminated by the network, contributing less to the contrastive loss. To overcome this issue, we propose to generate hard negatives by mixing labeled and unlabeled samples in the feature space. We experimentally demonstrate that these two ingredients significantly contribute to clustering performance and lead our model to outperform state-of-the-art methods by a large margin (e.g., clustering accuracy +13% on CIFAR-100 and +8% on ImageNet).
翻訳日:2021-06-23 08:11:55 公開日:2021-06-20
# (参考訳) 交通における多目的アプリケーションのためのモバイルセンシング [全文訳有]

Mobile Sensing for Multipurpose Applications in Transportation ( http://arxiv.org/abs/2106.10733v1 )

ライセンス: CC BY 4.0
Armstrong Aboah, Michael Boeding, Yaw Adu-Gyamfi(参考訳) 現代の交通問題に対処するためには、日常的で一貫性のあるデータ収集が必要であり、高度なマシンがデータ収集に使用されると、データ収集のコストが大幅に増加する。 この制約のため、運輸省は、交通問題をタイムリーに分析・解決するための一貫したデータ収集に苦慮している。 スマートフォンに内蔵されたセンサの最近の進歩は、より手頃なデータ収集方法となり、本研究の主な目的は、データ収集のためのスマートフォンアプリケーションの開発と実装であり、現在設計されているアプリは、フロントエンドグラフィカルユーザインタフェース(GUI)、センサーモジュール、バックエンドモジュールの3つの主要なモジュールから構成されている。 フロントエンドのユーザインターフェースはアプリとのインタラクションを可能にするが、センサーモジュールはアプリが使用されている間、ビデオや加速度計などの関連データを収集する。 The backend, on the other hand, is made up of firebase storage, which is used to store the gathered data.In comparison to other developed apps for collecting pavement information, this current app is not overly reliant on the internet enabling the app to be used in areas of restricted internet access.The developed application was evaluated by collecting data on the i70W highway connecting Columbia, Missouri, and Kansas City, Missouri.The data was analyzed for a variety of purposes, including calculating the International Roughness Index (IRI), identifying pavement distresses, and understanding driver's behaviour and environment .The results of the application indicate that the data collected by the app is of high quality.

Routine and consistent data collection is required to address contemporary transportation issues.The cost of data collection increases significantly when sophisticated machines are used to collect data. Due to this constraint, State Departments of Transportation struggles to collect consistent data for analyzing and resolving transportation problems in a timely manner. Recent advancements in the sensors integrated into smartphones have resulted in a more affordable method of data collection.The primary objective of this study is to develop and implement a smartphone application for data collection.The currently designed app consists of three major modules: a frontend graphical user interface (GUI), a sensor module, and a backend module. While the frontend user interface enables interaction with the app, the sensor modules collect relevant data such as video and accelerometer readings while the app is in use. The backend, on the other hand, is made up of firebase storage, which is used to store the gathered data.In comparison to other developed apps for collecting pavement information, this current app is not overly reliant on the internet enabling the app to be used in areas of restricted internet access.The developed application was evaluated by collecting data on the i70W highway connecting Columbia, Missouri, and Kansas City, Missouri.The data was analyzed for a variety of purposes, including calculating the International Roughness Index (IRI), identifying pavement distresses, and understanding driver's behaviour and environment .The results of the application indicate that the data collected by the app is of high quality.
翻訳日:2021-06-23 07:54:09 公開日:2021-06-20
# (参考訳) Shapley Valueはフェアか? フェデレーション学習におけるmavericksのクライアント選択の改善 [全文訳有]

Is Shapley Value fair? Improving Client Selection for Mavericks in Federated Learning ( http://arxiv.org/abs/2106.10734v1 )

ライセンス: CC BY 4.0
Jiyue Huang, Chi Hong, Lydia Y. Chen, Stefanie Roos(参考訳) shapleyの値は一般的に、連合学習における顧客参加の計測とインセンティブとして採用されている。 本稿では、理論的およびシミュレーションを通して、Shapley Valueが共通のタイプのクライアントであるMaverickの貢献を過小評価していることを示す。 Mavericksはデータ分散とデータ量の両方が異なるクライアントであり、特定のタイプのデータの唯一の所有者である。 適切なタイミングで適切なクライアントを選択することは、フェデレーション学習において、収束時間を短縮し、精度を向上させるために重要である。 我々は、ローカルデータとグローバルデータの間のワッサースタイン距離に基づく適応的なクライアント選択戦略であるFedEMDを提案する。 FedEMDは、希少なクラスの改善によりモデルが恩恵を受けるとき、マベリックが選択されることが好ましい選択確率に適応するため、異なる種類のマベリックの存在下での高速収束を一貫して保証する。 Shapley Valueベースのものを含む既存の戦略と比較して、FedEMDはFedAvgアグリゲーションに対して少なくとも26.9%のニューラルネットワーク分類器の収束を改善している。

Shapley Value is commonly adopted to measure and incentivize client participation in federated learning. In this paper, we show -- theoretically and through simulations -- that Shapley Value underestimates the contribution of a common type of client: the Maverick. Mavericks are clients that differ both in data distribution and data quantity and can be the sole owners of certain types of data. Selecting the right clients at the right moment is important for federated learning to reduce convergence times and improve accuracy. We propose FedEMD, an adaptive client selection strategy based on the Wasserstein distance between the local and global data distributions. As FedEMD adapts the selection probability such that Mavericks are preferably selected when the model benefits from improvement on rare classes, it consistently ensures the fast convergence in the presence of different types of Mavericks. Compared to existing strategies, including Shapley Value-based ones, FedEMD improves the convergence of neural network classifiers by at least 26.9% for FedAvg aggregation compared with the state of the art.
翻訳日:2021-06-23 07:46:55 公開日:2021-06-20
# (参考訳) Calliar:アラビア文字のオンライン手書きデータセット [全文訳有]

Calliar: An Online Handwritten Dataset for Arabic Calligraphy ( http://arxiv.org/abs/2106.10745v1 )

ライセンス: CC BY 4.0
Zaid Alyafeai, Maged S. Al-shaibani, Mustafa Ghaleb, Yousif Ahmed Al-Wajih(参考訳) 書道はアラビア語の遺産と文化の重要な部分である。 過去には家屋やモスクの装飾に使われたことがある。 通常、こうした書風は美学の専門家によって手作業で設計される。 ここ数年、装飾された建物の写真を撮ったり、デジタルデバイスで描いたりすることで、このような芸術をデジタル化する努力が続けられてきた。 後者は、例えば電子ペンである装置の動きを画面上に記録することにより、描画が追跡されるオンライン形式と考えられる。 文献では、書道のアラビア語スタイルを多用したオフラインデータセットが多数収集されている。 しかし、アラビア文字のオンラインデータセットは存在しない。 本稿では,2500文からなるアラビア語書体Calliarのオンラインデータセットの収集とアノテーションに対するアプローチについて述べる。 Calliarは、ストローク、文字、単語、および文レベルの予測のために注釈付けされる。

Calligraphy is an essential part of the Arabic heritage and culture. It has been used in the past for the decoration of houses and mosques. Usually, such calligraphy is designed manually by experts with aesthetic insights. In the past few years, there has been a considerable effort to digitize such type of art by either taking a photo of decorated buildings or drawing them using digital devices. The latter is considered an online form where the drawing is tracked by recording the apparatus movement, an electronic pen for instance, on a screen. In the literature, there are many offline datasets collected with a diversity of Arabic styles for calligraphy. However, there is no available online dataset for Arabic calligraphy. In this paper, we illustrate our approach for the collection and annotation of an online dataset for Arabic calligraphy called Calliar that consists of 2,500 sentences. Calliar is annotated for stroke, character, word and sentence level prediction.
翻訳日:2021-06-23 07:24:58 公開日:2021-06-20
# (参考訳) 実世界のネットワークにおけるグラフ測度空間分割の機会と課題 [全文訳有]

Opportunities and challenges in partitioning the graph measure space of real-world networks ( http://arxiv.org/abs/2106.10753v1 )

ライセンス: CC BY 4.0
M\'at\'e J\'ozsa, Alp\'ar S. L\'az\'ar and Zsolt I. L\'az\'ar(参考訳) 遺伝的、タンパク質相互作用、代謝ネットワークから脳、言語、生態、およびソーシャルネットワークまで、何千もの現実世界のネットワークを含む巨大なデータセットに基づいて、異なる複雑なネットワークドメイン(cnd)の構造的尺度を定義する。 全ネットワークの208指標を計算し,統計および機械学習の包括的かつ精巧なワークフローを用いて,cndsのキーグラフ尺度の同定の限界と可能性について検討した。 提案手法により,ネットワークドメインの識別と,それらの特徴の参照が可能となった。 これらの特徴はCND特有のものであり、個々のCNDのレベルでもユニークではないことが判明した。 提示された方法論は、高度に不均衡で歪んだデータセットを含む他の類似のシナリオにも適用できる。

Based on a large dataset containing thousands of real-world networks ranging from genetic, protein interaction, and metabolic networks to brain, language, ecology, and social networks we search for defining structural measures of the different complex network domains (CND). We calculate 208 measures for all networks and using a comprehensive and scrupulous workflow of statistical and machine learning methods we investigated the limitations and possibilities of identifying the key graph measures of CNDs. Our approach managed to identify well distinguishable groups of network domains and confer their relevant features. These features turn out to be CND specific and not unique even at the level of individual CNDs. The presented methodology may be applied to other similar scenarios involving highly unbalanced and skewed datasets.
翻訳日:2021-06-23 07:16:38 公開日:2021-06-20
# (参考訳) モデルベース手法によるロバスト回帰 [全文訳有]

Robust Regression via Model Based Methods ( http://arxiv.org/abs/2106.10759v1 )

ライセンス: CC BY 4.0
Armin Moharrer, Khashayar Kamran, Edmund Ye, and Stratis Ioannidis(参考訳) 平均二乗誤差損失は、オートエンコーダ、マルチターゲット回帰、行列分解など、多くのアプリケーションで広く使われている。 微分可能性による計算上の優位性にもかかわらず、外れ値には堅牢ではない。 対照的に、l_pノルムはロバストであることが知られているが、例えば確率的勾配降下(英語版)によって最適化することはできない。 モデルベース最適化 (MBO) [35, 36] にインスパイアされたアルゴリズムを提案し, 非凸対象を凸モデル関数に置き換え, モデル関数の最適化と解の更新を交互に行う。 これを頑健な回帰に適用し、MBOの内部最適化を解くために、OADM(Online Alternating Direction Method of Multipliers) [50] の確率的変種であるSADMを提案する。 SADM は O(log T/T) に収束することを示す。 最後に, (a) 外れ値に対するl_pノルムのロバスト性, (b) 提案するモデルに基づくアルゴリズムの効率を, オートエンコーダの勾配法や多目標回帰法と比較して実験的に示す。

The mean squared error loss is widely used in many applications, including auto-encoders, multi-target regression, and matrix factorization, to name a few. Despite computational advantages due to its differentiability, it is not robust to outliers. In contrast, l_p norms are known to be robust, but cannot be optimized via, e.g., stochastic gradient descent, as they are non-differentiable. We propose an algorithm inspired by so-called model-based optimization (MBO) [35, 36], which replaces a non-convex objective with a convex model function and alternates between optimizing the model function and updating the solution. We apply this to robust regression, proposing SADM, a stochastic variant of the Online Alternating Direction Method of Multipliers (OADM) [50] to solve the inner optimization in MBO. We show that SADM converges with the rate O(log T/T). Finally, we demonstrate experimentally (a) the robustness of l_p norms to outliers and (b) the efficiency of our proposed model-based algorithms in comparison with gradient methods on autoencoders and multi-target regression.
翻訳日:2021-06-23 07:04:12 公開日:2021-06-20
# (参考訳) 適応性の面における一般化:ベイズ的視点

Generalization in the Face of Adaptivity: A Bayesian Perspective ( http://arxiv.org/abs/2106.10761v1 )

ライセンス: CC BY 4.0
Moshe Shenfeld and Katrina Ligett(参考訳) 適応的に選択されたクエリによるデータサンプルの反復使用は、すぐに過剰フィッティングにつながり、発行されたクエリは、基礎となるデータ分散上のクエリの値と大きく異なるサンプルの回答を導き出す。 ディファレンシャルプライバシは、適応的なchosenクエリにもかかわらず、一般化を保証するツールを提供するが、最悪の場合、例えば、低分散クエリに対する結果が改善されないことを意味する。 本稿では,適応型データ解析の核となる問題を照らし出す簡易な新しいキャラクタリゼーションを提案する。 適応性の悪影響は,過去のクエリに対する応答において,データサンプルに関する情報がどの程度エンコードされたかを示すベイズ因子に基づく尺度と,将来のクエリの振る舞いの共分散から生じることを示す。 私たちはこの直観を利用して新しい安定性概念を導入し、最も基本的なノイズ付加機構(ラプラスノイズとガウスノイズ付加)の新たな一般化結果を証明するためにそれを使い、その範囲の2乗ではなく、クエリの分散にスケールすることを保証します。 適応データ解析における一般化の基本的な問題に対する新しい洞察と新しいアルゴリズムの扉を開く。

Repeated use of a data sample via adaptively chosen queries can rapidly lead to overfitting, wherein the issued queries yield answers on the sample that differ wildly from the values of those queries on the underlying data distribution. Differential privacy provides a tool to ensure generalization despite adaptively-chosen queries, but its worst-case nature means that it cannot, for example, yield improved results for low-variance queries. In this paper, we give a simple new characterization that illuminates the core problem of adaptive data analysis. We show explicitly that the harms of adaptivity come from the covariance between the behavior of future queries and a Bayes factor-based measure of how much information about the data sample was encoded in the responses given to past queries. We leverage this intuition to introduce a new stability notion; we then use it to prove new generalization results for the most basic noise-addition mechanisms (Laplace and Gaussian noise addition), with guarantees that scale with the variance of the queries rather than the square of their range. Our characterization opens the door to new insights and new algorithms for the fundamental problem of achieving generalization in adaptive data analysis.
翻訳日:2021-06-23 06:31:42 公開日:2021-06-20
# (参考訳) 咬合による物体位置追跡の学習 [全文訳有]

Learning to Track Object Position through Occlusion ( http://arxiv.org/abs/2106.10766v1 )

ライセンス: CC BY 4.0
Satyaki Chakraborty, Martial Hebert(参考訳) 閉塞は物体探知機や追跡装置が遭遇する最も重大な課題の1つである。 オブジェクトの検出と追跡は過去にも多くの注目を集めてきたが、この領域の既存のほとんどのメソッドは、オブジェクトが隠されているときの検出や追跡を目標としていない。 しかし、隠蔽によって興味のある物体を検出したり追跡したりすることは、様々な自律的なタスクにおいて長年の課題であった。 視覚オブジェクトトラッカーと明示的なオクルージョンモデリングの経験を取り入れた従来の手法では、データについていくつかの基本的な仮定がなされている。 そこで本稿では,領域ベースビデオオブジェクト検出装置の成功を基盤とした「トラッキング・バイ・検出」手法を提案する。 ビデオレベル物体検出装置は, 咬合下においても物体特徴の長期伝播を可能にする, 新たな再帰計算ユニットをコアとして使用する。 最後に,現状の映像物体検出装置と比較し,インターネットから収集した家具組立ビデオのデータセットにおいて,ネジやナッツ,ボルトなどの小型物体がカメラの視点からしばしば目立たないほど優れた結果が得られることを示す。

Occlusion is one of the most significant challenges encountered by object detectors and trackers. While both object detection and tracking has received a lot of attention in the past, most existing methods in this domain do not target detecting or tracking objects when they are occluded. However, being able to detect or track an object of interest through occlusion has been a long standing challenge for different autonomous tasks. Traditional methods that employ visual object trackers with explicit occlusion modeling experience drift and make several fundamental assumptions about the data. We propose to address this with a `tracking-by-detectio n` approach that builds upon the success of region based video object detectors. Our video level object detector uses a novel recurrent computational unit at its core that enables long term propagation of object features even under occlusion. Finally, we compare our approach with existing state-of-the-art video object detectors and show that our approach achieves superior results on a dataset of furniture assembly videos collected from the internet, where small objects like screws, nuts, and bolts often get occluded from the camera viewpoint.
翻訳日:2021-06-23 06:30:38 公開日:2021-06-20
# (参考訳) 深層学習を用いた文脈対応法的引用推薦 [全文訳有]

Context-Aware Legal Citation Recommendation using Deep Learning ( http://arxiv.org/abs/2106.10776v1 )

ライセンス: CC BY 4.0
Zihan Huang, Charles Low, Mengqiu Teng, Hongyi Zhang, Daniel E. Ho, Mark S. Krass, Matthias Grabmair(参考訳) 弁護士や裁判官は、決定を起草しながら引用する適切な法的権限を研究するのに多くの時間を費やしている。 本稿では,意見草案作成プロセスにおける効率向上に役立つ引用推薦ツールを開発した。 引用リストに基づく手法(コラボレーティブフィルタリング)と3つのコンテキストベース手法(text similarity, bilstm, roberta分類器)を含む4種類の機械学習モデルをトレーニングした。 実験では,局所的なテクストコンテキストの活用がレコメンデーションを向上し,ディープニューラルモデルが良好なパフォーマンスを実現することを示す。 非ディープテキストベースの手法は、構造化されたケースメタデータへのアクセスの恩恵を受けるが、深層モデルは、長さ不足の文脈から予測した場合のみそのようなアクセスの恩恵を受ける。 また,RoBERTaは,事前トレーニングの利点があるにもかかわらず,反復神経モデルよりも優れていないことも確認した。 ロバータモデルの挙動解析により、予測性能は時間と引用クラス間で安定であることが示される。

Lawyers and judges spend a large amount of time researching the proper legal authority to cite while drafting decisions. In this paper, we develop a citation recommendation tool that can help improve efficiency in the process of opinion drafting. We train four types of machine learning models, including a citation-list based method (collaborative filtering) and three context-based methods (text similarity, BiLSTM and RoBERTa classifiers). Our experiments show that leveraging local textual context improves recommendation, and that deep neural models achieve decent performance. We show that non-deep text-based methods benefit from access to structured case metadata, but deep models only benefit from such access when predicting from context of insufficient length. We also find that, even after extensive training, RoBERTa does not outperform a recurrent neural model, despite its benefits of pretraining. Our behavior analysis of the RoBERTa model further shows that predictive performance is stable across time and citation classes.
翻訳日:2021-06-23 06:19:17 公開日:2021-06-20
# (参考訳) 生成モデルのためのDeep Metric Learningによる逆マニフォールドマッチング [全文訳有]

Adversarial Manifold Matching via Deep Metric Learning for Generative Modeling ( http://arxiv.org/abs/2106.10777v1 )

ライセンス: CC BY 4.0
Mengyu Dai and Haibin Hang(参考訳) 本稿では,分布生成器(データ生成器)と距離生成器を含む生成モデルに対する多様体マッチング手法を提案する。 我々のフレームワークでは、実データセットを高次元ユークリッド空間に埋め込まれた多様体として捉えている。 分布生成器は、実データ多様体の周りに凝縮された分布に従うサンプルを生成することを目的としている。 幾何形状記述子であるCentroid と $p$-diameter の2つの点集合を学習距離メートル法とマッチングすることにより、距離生成器は実データと生成されたサンプルの両方を用いて、実データ多様体上の固有の測地線距離に近い距離メートル法を学習する。 生成した距離計量はさらに多様体マッチングに使用される。 2つのネットワークはトレーニングプロセス中に同時に学習される。 非教師なし学習タスクと教師なし学習タスクの両方にアプローチを適用する: 無条件画像生成タスクにおいて、提案手法は既存の生成モデルと比較して競争結果を得る; 超解像タスクでは、知覚に基づくモデルにこの枠組みを取り入れ、より自然なテクスチャのサンプルを生成することにより、視覚品質を向上させる。 理論解析と実データ実験の両方が提案フレームワークの有効性と有効性を保証する。

We propose a manifold matching approach to generative models which includes a distribution generator (or data generator) and a metric generator. In our framework, we view the real data set as some manifold embedded in a high-dimensional Euclidean space. The distribution generator aims at generating samples that follow some distribution condensed around the real data manifold. It is achieved by matching two sets of points using their geometric shape descriptors, such as centroid and $p$-diameter, with learned distance metric; the metric generator utilizes both real data and generated samples to learn a distance metric which is close to some intrinsic geodesic distance on the real data manifold. The produced distance metric is further used for manifold matching. The two networks are learned simultaneously during the training process. We apply the approach on both unsupervised and supervised learning tasks: in unconditional image generation task, the proposed method obtains competitive results compared with existing generative models; in super-resolution task, we incorporate the framework in perception-based models and improve visual qualities by producing samples with more natural textures. Both theoretical analysis and real data experiments guarantee the feasibility and effectiveness of the proposed framework.
翻訳日:2021-06-23 06:00:43 公開日:2021-06-20
# フォア攻撃とディープ・ネットワークの解説

Attack to Fool and Explain Deep Networks ( http://arxiv.org/abs/2106.10606v1 )

ライセンス: Link先を確認
Naveed Akhtar, Muhammad A. A. K. Jalwana, Mohammed Bennamoun, Ajmal Mian(参考訳) 深い視覚モデルは入力に対する敵対的な摂動に影響を受けやすい。 これらの信号は慎重に作られていますが、それでも人間にはノイズのようなパターンがあります。 この観察は、深い視覚表現が人間の知覚とミスアライメントされているという議論につながった。 我々は,敵の摂動における人為的なパターンの証拠を提供することで対抗する。 まず、ネットワークを騙してオブジェクトのカテゴリ(ソースクラス)全体をターゲットラベルと混同する攻撃を提案する。 我々の攻撃はまた、非ソースクラスからのサンプルによる意図しない不正行為を制限し、ネットワーク不正に対する人間定義のセマンティックな概念を包含する。 提案した攻撃は,摂動の規則的な幾何学的パターンの出現に繋がるだけでなく,深層モデルの決定境界に関する洞察に富んだ情報も明らかにする。 さらにこの現象を探索し、攻撃の「敵」の目的を変更し、深い視覚表現を「説明」するためのツールとして使用する。 提案手法によって計算された摂動の注意深いチャネル化と投影により,人間の定義した意味概念に対するモデルの理解を可視化できることを示す。 最後に、摂動の説明可能性を利用して、敵対的堅牢な「分類者」を攻撃することにより、画像生成、塗装、インタラクティブな画像操作を行い、その主な貢献は、視覚モデルを解釈するツールに変換される新しい現実的対人攻撃である。 記事はまた、複数の興味深いアプリケーションで敵の目的を超えて攻撃の効用を確立するという点で、二次的な貢献も行っています。

Deep visual models are susceptible to adversarial perturbations to inputs. Although these signals are carefully crafted, they still appear noise-like patterns to humans. This observation has led to the argument that deep visual representation is misaligned with human perception. We counter-argue by providing evidence of human-meaningful patterns in adversarial perturbations. We first propose an attack that fools a network to confuse a whole category of objects (source class) with a target label. Our attack also limits the unintended fooling by samples from non-sources classes, thereby circumscribing human-defined semantic notions for network fooling. We show that the proposed attack not only leads to the emergence of regular geometric patterns in the perturbations, but also reveals insightful information about the decision boundaries of deep models. Exploring this phenomenon further, we alter the `adversarial' objective of our attack to use it as a tool to `explain' deep visual representation. We show that by careful channeling and projection of the perturbations computed by our method, we can visualize a model's understanding of human-defined semantic notions. Finally, we exploit the explanability properties of our perturbations to perform image generation, inpainting and interactive image manipulation by attacking adversarialy robust `classifiers'.In all, our major contribution is a novel pragmatic adversarial attack that is subsequently transformed into a tool to interpret the visual models. The article also makes secondary contributions in terms of establishing the utility of our attack beyond the adversarial objective with multiple interesting applications.
翻訳日:2021-06-22 16:03:41 公開日:2021-06-20
# CAMERAS:画像の高解像度化と高衛生化のためのクラス活性化マッピング

CAMERAS: Enhanced Resolution And Sanity preserving Class Activation Mapping for image saliency ( http://arxiv.org/abs/2106.10649v1 )

ライセンス: Link先を確認
Mohammad A. A. K. Jalwana, Naveed Akhtar, Mohammed Bennamoun, Ajmal Mian(参考訳) backpropagation image saliencyは、入力における個々のピクセルのモデル中心の重要性を推定することで、モデル予測を説明することを目的としている。 しかしながら、ネットワーク内の初期のレイヤのクラス非感受性は、より深いレイヤの解像度の低いアクティベーションマップでのみサリエンシー計算を可能にするため、イメージのサリエンシーが損なわれる。 これを修正すれば、健全性が損なわれる可能性がある。 我々は,外部の事前設定を必要とせず,かつ地図の健全性を保つための高忠実度バックプロパゲーション・サリエンシーマップの計算手法であるカメラを提案する。 本手法は,活性化マップと逆伝播勾配のマルチスケール蓄積と融合を行い,精度の高い塩分分布を求める。 画像の正確さから、異なるモデルに対する入力特徴の相対的重要性の明瞭化、および視覚的に類似した物体のモデル知覚の正確な識別に至るまで、高解像度マッピングは、論文で紹介したブラックボックスの深部視覚モデルに対する複数の新しい洞察を提供する。 また,我々の地図が特定した正確な領域に焦点をあてることで,攻撃信号の規範を劇的に削減することにより,対向的設定におけるサリエンシーマップの有用性を実証する。 また,本手法は,新たな評価指標と,本研究の方向性の健全性チェックを誘導する。 コードはhttps://github.com/V isMIL/CAMERASで入手できる。

Backpropagation image saliency aims at explaining model predictions by estimating model-centric importance of individual pixels in the input. However, class-insensitivity of the earlier layers in a network only allows saliency computation with low resolution activation maps of the deeper layers, resulting in compromised image saliency. Remedifying this can lead to sanity failures. We propose CAMERAS, a technique to compute high-fidelity backpropagation saliency maps without requiring any external priors and preserving the map sanity. Our method systematically performs multi-scale accumulation and fusion of the activation maps and backpropagated gradients to compute precise saliency maps. From accurate image saliency to articulation of relative importance of input features for different models, and precise discrimination between model perception of visually similar objects, our high-resolution mapping offers multiple novel insights into the black-box deep visual models, which are presented in the paper. We also demonstrate the utility of our saliency maps in adversarial setup by drastically reducing the norm of attack signals by focusing them on the precise regions identified by our maps. Our method also inspires new evaluation metrics and a sanity check for this developing research direction. Code is available here https://github.com/V isMIL/CAMERAS
翻訳日:2021-06-22 16:03:16 公開日:2021-06-20
# 画像処理と機械学習を用いた植物病検出

Plant Disease Detection Using Image Processing and Machine Learning ( http://arxiv.org/abs/2106.10698v1 )

ライセンス: Link先を確認
Pranesh Kulkarni, Atharva Karwande, Tejas Kolhe, Soham Kamble, Akshay Joshi, Medha Wyawahare(参考訳) 農業実践における重要かつ退屈な仕事の1つは、作物に対する病気の検出である。 膨大な時間と熟練した労働を必要とする。 本稿では,コンピュータビジョンと機械学習技術を用いた作物病の検出手法を提案する。 提案システムは,93%の精度で5種の共通植物の20種類の疾患を検出できる。

One of the important and tedious task in agricultural practices is the detection of the disease on crops. It requires huge time as well as skilled labor. This paper proposes a smart and efficient technique for detection of crop disease which uses computer vision and machine learning techniques. The proposed system is able to detect 20 different diseases of 5 common plants with 93% accuracy.
翻訳日:2021-06-22 16:02:48 公開日:2021-06-20
# tag, copy, predict: シーケンスを用いた視覚情報抽出のための統一的弱教師付き学習フレームワーク

Tag, Copy or Predict: A Unified Weakly-Supervised Learning Framework for Visual Information Extraction using Sequences ( http://arxiv.org/abs/2106.10681v1 )

ライセンス: Link先を確認
Jiapeng Wang, Tianwei Wang, Guozhi Tang, Lianwen Jin, Weihong Ma, Kai Ding, Yichao Huang(参考訳) 近年,視覚情報抽出(VIE)が注目されている。 既存の手法は通常、光学文字認識(OCR)によってプレーンテキストとなり、トークンレベルのエンティティアノテーションを使用してシーケンスタグ付けモデルをトレーニングする。 しかし、アノテーションのコストが大きくなり、ラベルの混乱に晒される可能性があり、ocrエラーも最終的なパフォーマンスに大きな影響を与える。 In this paper, we propose a unified weakly-supervised learning framework called TCPN (Tag, Copy or Predict Network), which introduces 1) an efficient encoder to simultaneously model the semantic and layout information in 2D OCR results; 2) a weakly-supervised training strategy that utilizes only key information sequences as supervision; and 3) a flexible and switchable decoder which contains two inference modes: one (Copy or Predict Mode) is to output key information sequences of different categories by copying a token from the input or predicting one in each time step, and the other (Tag Mode) is to directly tag the input sequence in a single forward pass. 提案手法は,いくつかの公開ベンチマークにおいて新しい最先端性能を示す。

Visual information extraction (VIE) has attracted increasing attention in recent years. The existing methods usually first organized optical character recognition (OCR) results into plain texts and then utilized token-level entity annotations as supervision to train a sequence tagging model. However, it expends great annotation costs and may be exposed to label confusion, and the OCR errors will also significantly affect the final performance. In this paper, we propose a unified weakly-supervised learning framework called TCPN (Tag, Copy or Predict Network), which introduces 1) an efficient encoder to simultaneously model the semantic and layout information in 2D OCR results; 2) a weakly-supervised training strategy that utilizes only key information sequences as supervision; and 3) a flexible and switchable decoder which contains two inference modes: one (Copy or Predict Mode) is to output key information sequences of different categories by copying a token from the input or predicting one in each time step, and the other (Tag Mode) is to directly tag the input sequence in a single forward pass. Our method shows new state-of-the-art performance on several public benchmarks, which fully proves its effectiveness.
翻訳日:2021-06-22 16:01:05 公開日:2021-06-20
# TGRNet:テーブル構造認識のためのテーブルグラフ再構成ネットワーク

TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition ( http://arxiv.org/abs/2106.10598v1 )

ライセンス: Link先を確認
Wenyuan Xue and Baosheng Yu and Wen Wang and Dacheng Tao and Qingyong Li(参考訳) 列と列にデータを配置するテーブルは非常に効果的なデータ構造であり、ビジネスや科学研究で広く使われている。 オンライン文書とオフライン文書の大規模表データを考えると、自動テーブル認識は文書分析コミュニティから注目を集めている。 人間はテーブルの構造を容易に理解することができるが、特に様々なテーブルレイアウトやスタイルのために、マシンがそれを理解することは依然として困難である。 既存の方法は通常、テーブルを異なるテーブルセル間のマークアップシーケンスまたは隣接マトリックスのいずれかとしてモデル化し、テーブルセルの論理的な位置の重要性に対処できない。 本稿では,テーブル構造認識の問題をテーブルグラフ再構成として再構成し,テーブル構造認識のためのエンドツーエンドトレーサブルテーブルグラフ再構築ネットワーク(tgrnet)を提案する。 具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。 3つのテーブル認識データセットとテーブルグラフアノテーション(TableGraph-350K)を用いた新しいデータセットの実験結果から,テーブル構造認識におけるTGRNetの有効性が示された。 コードとアノテーションは公開される予定だ。

A table arranging data in rows and columns is a very effective data structure, which has been widely used in business and scientific research. Considering large-scale tabular data in online and offline documents, automatic table recognition has attracted increasing attention from the document analysis community. Though human can easily understand the structure of tables, it remains a challenge for machines to understand that, especially due to a variety of different table layouts and styles. Existing methods usually model a table as either the markup sequence or the adjacency matrix between different table cells, failing to address the importance of the logical location of table cells, e.g., a cell is located in the first row and the second column of the table. In this paper, we reformulate the problem of table structure recognition as the table graph reconstruction, and propose an end-to-end trainable table graph reconstruction network (TGRNet) for table structure recognition. Specifically, the proposed method has two main branches, a cell detection branch and a cell logical location branch, to jointly predict the spatial location and the logical location of different cells. Experimental results on three popular table recognition datasets and a new dataset with table graph annotations (TableGraph-350K) demonstrate the effectiveness of the proposed TGRNet for table structure recognition. Code and annotations will be made publicly available.
翻訳日:2021-06-22 15:58:46 公開日:2021-06-20
# 雑音ラベルを用いた大規模ロングテール認識の解法

Solution for Large-scale Long-tailed Recognition with Noisy Labels ( http://arxiv.org/abs/2106.10683v1 )

ライセンス: Link先を確認
Yuqiao Xian, Jia-Xin Zhuang, Fufu Yu(参考訳) これはCVPR 2021 AliProducts Challengeの技術的レポートである。 AliProducts Challenge(アリプロダクツチャレンジ)は、世界展開するeコマース企業が直面する大規模かつきめ細かい商品画像認識問題を研究するために提案されるコンテストである。 大規模な製品認識は、ノイズの多いアノテーション、不均衡な(長い尾の)データ分布、きめ細かい分類といった課題を同時に満たす。 我々のソリューションでは、ResNeSt、EfficientNetV2、DeiTを含むCNNとTransformerの最先端モデルアーキテクチャを採用しています。 その結果,反復的データクリーニング,分類器重み正規化,高分解能微調整,テスト時間拡張が,ノイズと不均衡なデータセットによるトレーニング性能向上の鍵となることがわかった。 最後に,アンサンブルモデルを用いてリーダボードに6.4365%の平均クラスエラー率を求める。

This is a technical report for CVPR 2021 AliProducts Challenge. AliProducts Challenge is a competition proposed for studying the large-scale and fine-grained commodity image recognition problem encountered by worldleading ecommerce companies. The large-scale product recognition simultaneously meets the challenge of noisy annotations, imbalanced (long-tailed) data distribution and fine-grained classification. In our solution, we adopt stateof-the-art model architectures of both CNNs and Transformer, including ResNeSt, EfficientNetV2, and DeiT. We found that iterative data cleaning, classifier weight normalization, high-resolution finetuning, and test time augmentation are key components to improve the performance of training with the noisy and imbalanced dataset. Finally, we obtain 6.4365% mean class error rate in the leaderboard with our ensemble model.
翻訳日:2021-06-22 15:58:27 公開日:2021-06-20
# ディープラーニングを用いた高速PDNインピーダンス予測

Fast PDN Impedance Prediction Using Deep Learning ( http://arxiv.org/abs/2106.10693v1 )

ライセンス: Link先を確認
Ling Zhang, Jack Juang, Zurab Kiguradze, Bo Pu, Shuai Jin, Songping Wu, Zhiping Yang, Chulsoon Hwang(参考訳) 基板形状が不規則なプリント基板(PCB)の電力分配ネットワーク(PDN)のモデル化とシミュレーションは、フルウェーブシミュレーションを用いて計算的に非効率である。 本稿では,PDNインピーダンス予測にディープラーニングを用いた新しい概念を提案する。 任意の基板形状と積み重ねに対するインピーダンスを効率的に計算するために境界要素法(BEM)を適用する。 次に、異なる形状、スタックアップ、ICロケーション、デキャップ配置を持つ100万以上のボードがランダムに生成され、ディープニューラルネットワーク(DNN)をトレーニングする。 訓練されたdnnは、トレーニングに使用されていない新しいボード構成のインピーダンスを正確に予測することができる。 トレーニングされたDNNの使用時間は0.1秒に過ぎず、これはBEM法より100倍以上、フルウェーブシミュレーションより5000倍高速である。

Modeling and simulating a power distribution network (PDN) for printed circuit boards (PCBs) with irregular board shapes and multi-layer stackup is computationally inefficient using full-wave simulations. This paper presents a new concept of using deep learning for PDN impedance prediction. A boundary element method (BEM) is applied to efficiently calculate the impedance for arbitrary board shape and stackup. Then over one million boards with different shapes, stackup, IC location, and decap placement are randomly generated to train a deep neural network (DNN). The trained DNN can predict the impedance accurately for new board configurations that have not been used for training. The consumed time using the trained DNN is only 0.1 seconds, which is over 100 times faster than the BEM method and 5000 times faster than full-wave simulations.
翻訳日:2021-06-22 15:56:16 公開日:2021-06-20
# 重み制約付き確率力学を用いたより良いトレーニング

Better Training using Weight-Constrained Stochastic Dynamics ( http://arxiv.org/abs/2106.10704v1 )

ライセンス: Link先を確認
Benedict Leimkuhler, Tiffany Vlaar, Timoth\'ee Pouchon and Amos Storkey(参考訳) 我々は、トレーニングを通してディープニューラルネットワークのパラメータ空間を制御するために制約を用いる。 カスタマイズされた適切な設計の制約を使用することで、グラデーションの消滅/拡大問題を低減し、分類境界の滑らかさを改善し、重み付けを制御し、ディープニューラルネットワークを安定化し、トレーニングアルゴリズムの堅牢性とニューラルネットワークの一般化能力を高めることができる。 我々は,確率勾配ランジュバンフレームワークに制約を効率的に組み込むための一般的なアプローチを提案する。 また、重み行列の直交保存と明示的な重み正規化による制約付きトレーニング手法の具体例を示す。 離散化スキームはランゲヴィン力学の過度な定式化とアンダーダム形式の両方に提供され、モータはサンプリング効率をさらに向上する。 これらの最適化スキームは、ニューラルネットワークアーキテクチャ設計の選択に適応したり、正規化の用語で目標を変更したり、分類タスクのパフォーマンス向上を見る必要なしに、直接使用できる。

We employ constraints to control the parameter space of deep neural networks throughout training. The use of customized, appropriately designed constraints can reduce the vanishing/exploding gradients problem, improve smoothness of classification boundaries, control weight magnitudes and stabilize deep neural networks, and thus enhance the robustness of training algorithms and the generalization capabilities of neural networks. We provide a general approach to efficiently incorporate constraints into a stochastic gradient Langevin framework, allowing enhanced exploration of the loss landscape. We also present specific examples of constrained training methods motivated by orthogonality preservation for weight matrices and explicit weight normalizations. Discretization schemes are provided both for the overdamped formulation of Langevin dynamics and the underdamped form, in which momenta further improve sampling efficiency. These optimization schemes can be used directly, without needing to adapt neural network architecture design choices or to modify the objective with regularization terms, and see performance improvements in classification tasks.
翻訳日:2021-06-22 15:52:41 公開日:2021-06-20
# ニューラルネットワークのマルチレートトレーニング

Multirate Training of Neural Networks ( http://arxiv.org/abs/2106.10771v1 )

ライセンス: Link先を確認
Tiffany Vlaar and Benedict Leimkuhler(参考訳) ニューラルネットワークパラメータを「高速」と「スロー」に分割し、異なる学習率で同時にトレーニングするニューラルネットワークのマルチレートトレーニングを提案する。 適切な分割を選択することで、転送学習タスクのための大きな計算スピードアップを得ることができる。 視覚およびNLPにおける様々な伝達学習アプリケーションに対して、結果の一般化性能を低下させることなく、ほぼ半分の時間でディープニューラルネットワークを微調整できることを示す。 また、ニューラルネットワークをスクラッチからトレーニングする環境での一般化性能を高めるのに役立つ、ニューラルネットワークパラメータの他の分割選択についても論じる。 最後に,異なる時間スケールで全ネットワークをトレーニングすることにより,データに存在するさまざまな特徴を同時に学習するマルチレート手法を提案する。 このアプローチの利点は、イメージデータ上のResNetアーキテクチャに説明されている。 本稿は,ニューラルネットワークのトレーニングにマルチレート技術を使うことの可能性を解き明かし,この分野における今後の作業に多くの出発点を提供する。

We propose multirate training of neural networks: partitioning neural network parameters into "fast" and "slow" parts which are trained simultaneously using different learning rates. By choosing appropriate partitionings we can obtain large computational speed-ups for transfer learning tasks. We show that for various transfer learning applications in vision and NLP we can fine-tune deep neural networks in almost half the time, without reducing the generalization performance of the resulting model. We also discuss other splitting choices for the neural network parameters which are beneficial in enhancing generalization performance in settings where neural networks are trained from scratch. Finally, we propose an additional multirate technique which can learn different features present in the data by training the full network on different time scales simultaneously. The benefits of using this approach are illustrated for ResNet architectures on image data. Our paper unlocks the potential of using multirate techniques for neural network training and provides many starting points for future work in this area.
翻訳日:2021-06-22 15:52:25 公開日:2021-06-20
# 神経スペクトルマーク点過程

Neural Spectral Marked Point Processes ( http://arxiv.org/abs/2106.10773v1 )

ライセンス: Link先を確認
Shixiang Zhu and Haoyun Wang and Xiuyuan Cheng and Yao Xie(参考訳) 自己と相互に引き出すポイントプロセスは、依存する離散イベントデータに対する機械学習や統計学で一般的なモデルである。 現在まで、ほとんどの既存モデルは静止核(古典的ホークス過程を含む)と単純なパラメトリックモデルを仮定している。 複雑なイベントデータを持つ現代のアプリケーションは、時間的および位置的情報に加えて、マークと呼ばれるイベントのコンテキスト情報を含む、より一般的なポイントプロセスモデルを必要とする。 さらに、そのようなアプリケーションはより複雑な時空間依存を捉えるために非定常モデルを必要とすることが多い。 これらの課題に対処するためには、ポイントプロセスモデルに汎用的な影響カーネルを考案することが重要な課題である。 本稿では,複雑な離散イベントデータを扱うための表現性が高く,理論的な性能保証を提供しながら,ニューラルネットワークベースの非定常影響カーネルを提案する。 提案手法は, 合成および実データにおける最先端技術と比較して, 優れた性能を示す。

Self- and mutually-exciting point processes are popular models in machine learning and statistics for dependent discrete event data. To date, most existing models assume stationary kernels (including the classical Hawkes processes) and simple parametric models. Modern applications with complex event data require more general point process models that can incorporate contextual information of the events, called marks, besides the temporal and location information. Moreover, such applications often require non-stationary models to capture more complex spatio-temporal dependence. To tackle these challenges, a key question is to devise a versatile influence kernel in the point process model. In this paper, we introduce a novel and general neural network-based non-stationary influence kernel with high expressiveness for handling complex discrete events data while providing theoretical performance guarantees. We demonstrate the superior performance of our proposed method compared with the state-of-the-art on synthetic and real data.
翻訳日:2021-06-22 15:52:12 公開日:2021-06-20
# 数発学習のためのメタラーニングの課題

Task Attended Meta-Learning for Few-Shot Learning ( http://arxiv.org/abs/2106.10642v1 )

ライセンス: Link先を確認
Aroof Aimen, Sahil Sidheekh, Narayanan C. Krishnan(参考訳) メタラーニング(ml)は、少数ショット学習のような制約付きリソース設定下での学習モデルにおいて有望な方向性として現れてきた。 mlの一般的なアプローチは、エピソディックトレーニングを通じて一般化可能な初期モデルやジェネリックパラメトリックオプティマイザを学習する。 前者のアプローチは、タスクのバッチから得た知識を活用して最適な事前学習を行う。 本研究では,MLにおけるバッチの重要性について検討する。 具体的には,ジェネリックパラメトリックオプティマイザの学習を改善するために,まずバッチ・エピソディック・トレーニング・レジームを組み込んだ。 また,バッチにおける各タスクが最適メタモデル学習に等しくなるという,バッチエピソジックトレーニングにおける一般的な仮定は真実ではない,という仮説を立てた。 本稿では,メタモデルの学習改善における「重要」に応じて,バッチ内のタスクを重み付けすることを提案する。 そこで本研究では,人間に選択的焦点をあてた学習カリキュラム「task attended meta-training」を導入し,タスクの重み付けを行う。 Task attentionは、任意のバッチエピソードトレーニングレギュレータと統合可能なスタンドアロンモジュールである。 miniImageNet や tieredImageNet のような複雑なデータセット上で、モデルと非タスク対応のモデルの比較は、その有効性を検証する。

Meta-learning (ML) has emerged as a promising direction in learning models under constrained resource settings like few-shot learning. The popular approaches for ML either learn a generalizable initial model or a generic parametric optimizer through episodic training. The former approaches leverage the knowledge from a batch of tasks to learn an optimal prior. In this work, we study the importance of a batch for ML. Specifically, we first incorporate a batch episodic training regimen to improve the learning of the generic parametric optimizer. We also hypothesize that the common assumption in batch episodic training that each task in a batch has an equal contribution to learning an optimal meta-model need not be true. We propose to weight the tasks in a batch according to their "importance" in improving the meta-model's learning. To this end, we introduce a training curriculum motivated by selective focus in humans, called task attended meta-training, to weight the tasks in a batch. Task attention is a standalone module that can be integrated with any batch episodic training regimen. The comparisons of the models with their non-task-attended counterparts on complex datasets like miniImageNet and tieredImageNet validate its effectiveness.
翻訳日:2021-06-22 15:49:10 公開日:2021-06-20
# コントラスト事例によるディープネットワークの一般化性能ロバスト性の実践評価

Practical Assessment of Generalization Performance Robustness for Deep Networks via Contrastive Examples ( http://arxiv.org/abs/2106.10653v1 )

ライセンス: Link先を確認
Xuanyu Wu, Xuhong Li, Haoyi Xiong, Xiao Zhang, Siyu Huang, Dejing Dou(参考訳) データ変換を伴うトレーニング画像は、ディープニューラルネットワーク(DNN)の一般化性能評価のためのテストセットを補完する対照的な例として提案されている。 本研究では,実用的な枠組みを提案する(contre はフランス語で "against" または "versus" を意味する)。 DNN geneRalization Performance EstimationにContrastiveの例を使用する。 具体的には、ContREは、優れた一般化性能を持つ堅牢なDNNモデルは、一貫した特徴の集合を抽出し、変化したデータ変換の下で同じ画像から一貫した予測を行うことができるという対照的な学習の仮定に従う。 トレーニングセット上で適切に設計されたデータ変換のためのランダム化戦略のセットを組み込んだContREでは、生成された比較例の分類誤差とフィッシャー比を採用して、テストセットを補完するディープモデルの一般化性能を評価し解析する。 ContREの有効性と効率性を示すため、3つのオープンソースベンチマークデータセット上で様々なDNNモデルを用いて、徹底的なアブレーション研究と適用可能性分析を行った。 実験の結果,(1) 比較例における深部モデルの挙動はテストセットと強く相関していること,(2) ContRE は様々な環境でのテストセットを補完する一般化性能の頑健な尺度であることを確認した。

Training images with data transformations have been suggested as contrastive examples to complement the testing set for generalization performance evaluation of deep neural networks (DNNs). In this work, we propose a practical framework ContRE (The word "contre" means "against" or "versus" in French.) that uses Contrastive examples for DNN geneRalization performance Estimation. Specifically, ContRE follows the assumption in contrastive learning that robust DNN models with good generalization performance are capable of extracting a consistent set of features and making consistent predictions from the same image under varying data transformations. Incorporating with a set of randomized strategies for well-designed data transformations over the training set, ContRE adopts classification errors and Fisher ratios on the generated contrastive examples to assess and analyze the generalization performance of deep models in complement with a testing set. To show the effectiveness and the efficiency of ContRE, extensive experiments have been done using various DNN models on three open source benchmark datasets with thorough ablation studies and applicability analyses. Our experiment results confirm that (1) behaviors of deep models on contrastive examples are strongly correlated to what on the testing set, and (2) ContRE is a robust measure of generalization performance complementing to the testing set in various settings.
翻訳日:2021-06-22 15:48:51 公開日:2021-06-20
# 非ニューラルネットワーク協調フィルタリングレコメンデーションシステムに関する包括的レビュー

A Comprehensive Review on Non-Neural Networks Collaborative Filtering Recommendation Systems ( http://arxiv.org/abs/2106.10679v1 )

ライセンス: Link先を確認
Carmel Wenga (1 and 2), Majirus Fansi (2), S\'ebastien Chabrier (1), Jean-Martial Mari (1), Alban Gabillon (1) ((1) University of French Polynesia, (2) NzhinuSoft)(参考訳) 過去20年間で、オンラインアプリケーションにおけるデータ量の増加により、レコメンダシステムは多くの関心を集めている。 情報レコメンデーションを含むアプリケーションで最も広く使われているコラボレーティブフィルタリングには、特に注意が払われている。 コラボレーティブフィルタリング(cf)は、既知のユーザの選好を使用して、他のユーザの未知の選好に関する予測とレコメンデーションを行う(ユーザの過去の行動に基づいて推奨が行われる)。 1990年代に初めて導入されたが、様々なモデルが提案されている。 多くの分野で機械学習技術が成功しているため、レコメンデーションシステムにおけるそのようなアルゴリズムの適用に重点が置かれている。 本稿では,レコメンダシステムのためのcfアプローチの概要,2つの主要なカテゴリ,評価指標について述べる。 我々は,従来の機械学習アルゴリズムをCFレコメンデータシステムに適用するために,最初のユースケースから高度な機械学習モデルへの進化を示す。 我々は、この分野における研究と実践のガイドラインとして機能するcfシステム(python実装)の包括的かつ比較的な概要を提供しようとしている。

Over the past two decades, recommender systems have attracted a lot of interest due to the explosion in the amount of data in online applications. A particular attention has been paid to collaborative filtering, which is the most widely used in applications that involve information recommendations. Collaborative filtering (CF) uses the known preference of a group of users to make predictions and recommendations about the unknown preferences of other users (recommendations are made based on the past behavior of users). First introduced in the 1990s, a wide variety of increasingly successful models have been proposed. Due to the success of machine learning techniques in many areas, there has been a growing emphasis on the application of such algorithms in recommendation systems. In this article, we present an overview of the CF approaches for recommender systems, their two main categories, and their evaluation metrics. We focus on the application of classical Machine Learning algorithms to CF recommender systems by presenting their evolution from their first use-cases to advanced Machine Learning models. We attempt to provide a comprehensive and comparative overview of CF systems (with python implementations) that can serve as a guideline for research and practice in this area.
翻訳日:2021-06-22 15:44:04 公開日:2021-06-20
# TD-GEN:木分解によるグラフ生成

TD-GEN: Graph Generation With Tree Decomposition ( http://arxiv.org/abs/2106.10656v1 )

ライセンス: Link先を確認
Hamed Shirzad, Hossein Hajimirsadeghi, Amir H. Abdi, Greg Mori(参考訳) 本稿では,木分解に基づくグラフ生成フレームワークであるtd-genを提案し,グラフ生成に必要な最大決定数の上限を削減した。 このフレームワークは、グラフ生成のバックボーンを形成する置換不変ツリー生成モデルを含む。 ツリーノードはスーパーノードであり、それぞれがグラフ内のノードのクラスタを表す。 グラフノードとエッジは、ツリースーパーノードをトラバースし、ツリー分解の構造を尊重し、クラスタ間のノード共有の決定に従って、クラスタ内で漸進的に生成される。 最後に,生成したグラフの統計特性に基づく標準評価基準の欠点を性能指標として論じる。 我々はモデルの性能を可能性に基づいて比較する。 各種標準グラフ生成データセットにおける実験結果から,本手法の優れた性能を示す。

We propose TD-GEN, a graph generation framework based on tree decomposition, and introduce a reduced upper bound on the maximum number of decisions needed for graph generation. The framework includes a permutation invariant tree generation model which forms the backbone of graph generation. Tree nodes are supernodes, each representing a cluster of nodes in the graph. Graph nodes and edges are incrementally generated inside the clusters by traversing the tree supernodes, respecting the structure of the tree decomposition, and following node sharing decisions between the clusters. Finally, we discuss the shortcomings of standard evaluation criteria based on statistical properties of the generated graphs as performance measures. We propose to compare the performance of models based on likelihood. Empirical results on a variety of standard graph generation datasets demonstrate the superior performance of our method.
翻訳日:2021-06-22 15:42:06 公開日:2021-06-20
# プライバシー保護機械学習のための圧縮マルチカーネル法

A compressive multi-kernel method for privacy-preserving machine learning ( http://arxiv.org/abs/2106.10671v1 )

ライセンス: Link先を確認
Thee Chanyaswad, J. Morris Chang, S.Y. Kung(参考訳) 分析ツールがより強力になり、より多くのデータが日々生成されるようになると、データプライバシの問題が発生する。 これにより、プライバシ保存型機械学習アルゴリズムの設計が研究される。 ユーティリティの最大化とプライバシロスの最小化という2つの目標を前提として,この作業は,これまで非干渉的であった圧縮プライバシとマルチカーネルメソッドに基づくものだ。 圧縮プライバシ(compressive privacy)は、データプライバシを保護するためにユーティリティ保存のロスエンコーディング(lossy-encoding)スキームを使用するプライバシフレームワークである。一方、マルチカーネル(multi-kernel)法は、より優れた予測器を構築するために複数のカーネルを使用するアイデアを探求するカーネルベースのマシンラーニングレジームである。 圧縮マルチカーネル法は圧縮ステージとマルチカーネルステージの2段階からなる。 圧縮段階は、望ましいプライバシ保護を提供するための圧縮プライバシパラダイムに従う。 各カーネルマトリクスは、識別成分分析(dca)から派生した損失の投影マトリクスで圧縮される。 マルチカーネルステージでは、各カーネルの信号対雑音比(SNR)スコアを使用して、複数の圧縮カーネルを均一に結合する。 提案手法は,MHEALTHとHARの2つのモバイルセンシングデータセットで評価され,アクティビティ認識はユーティリティとして,個人識別はプライバシとして定義される。 その結果,すべての実験において,プライバシ分類の精度がほぼ無作為レベルであるため,圧縮方式はプライバシ保護に成功していることがわかった。 一方,新しいsnrベースのマルチカーネルは,両データセットの最先端における実用的分類精度の向上を示す。 これらの結果は、プライバシー保護機械学習の研究における有望な方向性を示している。

As the analytic tools become more powerful, and more data are generated on a daily basis, the issue of data privacy arises. This leads to the study of the design of privacy-preserving machine learning algorithms. Given two objectives, namely, utility maximization and privacy-loss minimization, this work is based on two previously non-intersecting regimes -- Compressive Privacy and multi-kernel method. Compressive Privacy is a privacy framework that employs utility-preserving lossy-encoding scheme to protect the privacy of the data, while multi-kernel method is a kernel based machine learning regime that explores the idea of using multiple kernels for building better predictors. The compressive multi-kernel method proposed consists of two stages -- the compression stage and the multi-kernel stage. The compression stage follows the Compressive Privacy paradigm to provide the desired privacy protection. Each kernel matrix is compressed with a lossy projection matrix derived from the Discriminant Component Analysis (DCA). The multi-kernel stage uses the signal-to-noise ratio (SNR) score of each kernel to non-uniformly combine multiple compressive kernels. The proposed method is evaluated on two mobile-sensing datasets -- MHEALTH and HAR -- where activity recognition is defined as utility and person identification is defined as privacy. The results show that the compression regime is successful in privacy preservation as the privacy classification accuracies are almost at the random-guess level in all experiments. On the other hand, the novel SNR-based multi-kernel shows utility classification accuracy improvement upon the state-of-the-art in both datasets. These results indicate a promising direction for research in privacy-preserving machine learning.
翻訳日:2021-06-22 15:41:56 公開日:2021-06-20
# 単周期ニューロン学習の暗号的困難性について

On the Cryptographic Hardness of Learning Single Periodic Neurons ( http://arxiv.org/abs/2106.10744v1 )

ライセンス: Link先を確認
Min Jae Song, Ilias Zadik, Joan Bruna(参考訳) ノイズの存在下での等方性ガウス分布より単一周期ニューロンを学習する際の暗号的難易度を簡易に低減することを示す。 より正確には、そのような関数を小さな雑音下で学習するための多項式時間アルゴリズム(必ずしも勾配ベースではない)は、最悪の場合の格子問題を解く多項式時間量子アルゴリズムを意味する。 1層ニューラルネットワークによって近似された我々のコアハード関数群は、データのアフィン射影に適用される不定周期関数の一般的な形を取る。 これらの関数は、勾配に基づくアルゴリズム(Shamir'18)や統計クエリ(SQ)アルゴリズム(Song et al.'17)に対する硬さを示す以前の基礎研究に現れている。 ラベルに(ポリノミカルに)小さなノイズを加えると、これらの関数を学習する難易度は上記の暗号仮定の下で全ての多項式時間アルゴリズムに適用できることを示す。 さらに,このような関数の特定の族を指数的に小さな対向雑音下で学習する多項式時間アルゴリズムを設計することにより,難易度結果におけるノイズの必要性を示す。 提案アルゴリズムは勾配ベースやSQアルゴリズムではなく,Lenstra-Lenstra-Lov \asz (LLL) 格子ベース削減アルゴリズムに基づいている。 さらに、ノイズがない場合には、このアルゴリズムを直接適用してCLWE検出を解くことができる(Bruna et al)。 '21) と最適試料量$d+1$サンプルの位相検索を行った。 前者の場合、これは (Bruna et al.'21) で必要とされる2次対価のサンプル複雑性により改善される。 後者の場合、これは最先端のAMPベースのアルゴリズムを改善し、約1.128d$サンプル(Barbier et al)を必要とする。 '19).

We show a simple reduction which demonstrates the cryptographic hardness of learning a single periodic neuron over isotropic Gaussian distributions in the presence of noise. More precisely, our reduction shows that any polynomial-time algorithm (not necessarily gradient-based) for learning such functions under small noise implies a polynomial-time quantum algorithm for solving worst-case lattice problems, whose hardness form the foundation of lattice-based cryptography. Our core hard family of functions, which are well-approximated by one-layer neural networks, take the general form of a univariate periodic function applied to an affine projection of the data. These functions have appeared in previous seminal works which demonstrate their hardness against gradient-based (Shamir'18), and Statistical Query (SQ) algorithms (Song et al.'17). We show that if (polynomially) small noise is added to the labels, the intractability of learning these functions applies to all polynomial-time algorithms under the aforementioned cryptographic assumptions. Moreover, we demonstrate the necessity of noise in the hardness result by designing a polynomial-time algorithm for learning certain families of such functions under exponentially small adversarial noise. Our proposed algorithm is not a gradient-based or an SQ algorithm, but is rather based on the celebrated Lenstra-Lenstra-Lov\ 'asz (LLL) lattice basis reduction algorithm. Furthermore, in the absence of noise, this algorithm can be directly applied to solve CLWE detection (Bruna et al.'21) and phase retrieval with an optimal sample complexity of $d+1$ samples. In the former case, this improves upon the quadratic-in-$d$ sample complexity required in (Bruna et al.'21). In the latter case, this improves upon the state-of-the-art AMP-based algorithm, which requires approximately $1.128d$ samples (Barbier et al.'19).
翻訳日:2021-06-22 15:38:57 公開日:2021-06-20
# 不均衡データを用いたマルチペアテキストスタイル転送

Multi-Pair Text Style Transfer on Unbalanced Data ( http://arxiv.org/abs/2106.10608v1 )

ライセンス: Link先を確認
Xing Han, Jessica Lundin(参考訳) text-style transferは、テキストをパラフレーズしたり、キーワードを置換したりすることで、あるドメインで与えられたテキストを別のドメインに変換することを目的としている。 必要により、最先端の手法は非並列トレーニングデータに適合するように進化し、ラベル付き文とラベルなし文が混在する複数のデータソースが存在する場合が多い。 さらに、各ソース内で定義された固有のスタイルは別物かもしれない。 一般的な双方向(例えば、フォーマルな$\Leftrightarrow$off icial)スタイルの転送は、異なる群に関係なく、異なるアプリケーションに対してうまく一般化できない。 本研究では,タスク適応型メタラーニングフレームワークを開発し,単一モデルを用いてマルチペアテキスト形式の転送を同時に行うことができる。 提案手法は,複数のタスク間でメタ知識の違いを適応的にバランスさせることができる。 その結果,提案手法はコヒーレントなスタイルのバリエーションとともに,定量的性能の向上につながることがわかった。 非バランスなデータとミスマッチしたドメインの共通の課題は、この方法でうまく処理される。

Text-style transfer aims to convert text given in one domain into another by paraphrasing the sentence or substituting the keywords without altering the content. By necessity, state-of-the-art methods have evolved to accommodate nonparallel training data, as it is frequently the case there are multiple data sources of unequal size, with a mixture of labeled and unlabeled sentences. Moreover, the inherent style defined within each source might be distinct. A generic bidirectional (e.g., formal $\Leftrightarrow$ informal) style transfer regardless of different groups may not generalize well to different applications. In this work, we developed a task adaptive meta-learning framework that can simultaneously perform a multi-pair text-style transfer using a single model. The proposed method can adaptively balance the difference of meta-knowledge across multiple tasks. Results show that our method leads to better quantitative performance as well as coherent style variations. Common challenges of unbalanced data and mismatched domains are handled well by this method.
翻訳日:2021-06-22 15:37:48 公開日:2021-06-20
# CPM-2:大規模費用対効果事前訓練言語モデル

CPM-2: Large-scale Cost-effective Pre-trained Language Models ( http://arxiv.org/abs/2106.10715v1 )

ライセンス: Link先を確認
Zhengyan Zhang, Yuxian Gu, Xu Han, Shengqi Chen, Chaojun Xiao, Zhenbo Sun, Yuan Yao, Fanchao Qi, Jian Guan, Pei Ke, Yanzheng Cai, Guoyang Zeng, Zhixing Tan, Zhiyuan Liu, Minlie Huang, Wentao Han, Yang Liu, Xiaoyan Zhu, Maosong Sun(参考訳) 近年,事前学習型言語モデル (PLM) のサイズは跳躍と境界によって増大している。 しかし、これらの大規模PLMの効率問題は現実のシナリオでの利用を制限する。 本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。 1)スクラッチからトレーニングモデルに代えて既存のplmを活用し,事前学習プロセスを高速化するために知識継承を導入する。 2)大規模PLMを用いた即時チューニングのベストプラクティスを検討する。 従来の微調整に比べて、プロンプトチューニングはタスク固有のパラメータの数を大幅に減少させる。 (3)計算資源が限られている大規模PLMを使用するための新しい推論ツールキットInfMoEを実装した。 コスト効率のよいパイプラインに基づいて、100億のパラメータを持つエンコーダ・デコーダバイリンガルモデル(CPM-2)と、1980億のパラメータを持つMoEバージョンという2つのモデルを事前訓練する。 実験では,下流タスクにおけるCPM-2とmT5を比較した。 実験の結果, CPM-2は汎用言語知能に優れていた。 さらに,InfMoEを1つのGPU上で数千億のパラメータを持つ大規模モデルの推論を行う際の効率を検証する。 すべてのソースコードとモデルパラメータはhttps://github.com/T singhuaAI/CPMで入手できる。

In recent years, the size of pre-trained language models (PLMs) has grown by leaps and bounds. However, efficiency issues of these large-scale PLMs limit their utilization in real-world scenarios. We present a suite of cost-effective techniques for the use of PLMs to deal with the efficiency issues of pre-training, fine-tuning, and inference. (1) We introduce knowledge inheritance to accelerate the pre-training process by exploiting existing PLMs instead of training models from scratch. (2) We explore the best practice of prompt tuning with large-scale PLMs. Compared with conventional fine-tuning, prompt tuning significantly reduces the number of task-specific parameters. (3) We implement a new inference toolkit, namely InfMoE, for using large-scale PLMs with limited computational resources. Based on our cost-effective pipeline, we pre-train two models: an encoder-decoder bilingual model with 11 billion parameters (CPM-2) and its corresponding MoE version with 198 billion parameters. In our experiments, we compare CPM-2 with mT5 on downstream tasks. Experimental results show that CPM-2 has excellent general language intelligence. Moreover, we validate the efficiency of InfMoE when conducting inference of large-scale models having tens of billions of parameters on a single GPU. All source code and model parameters are available at https://github.com/T singhuaAI/CPM.
翻訳日:2021-06-22 15:37:34 公開日:2021-06-20
# Augmented 2D-TAN:Human-centric Spatio-Temporal Video Groundingのための2段階的アプローチ

Augmented 2D-TAN: A Two-stage Approach for Human-centric Spatio-Temporal Video Grounding ( http://arxiv.org/abs/2106.10634v1 )

ライセンス: Link先を確認
Chaolei Tan, Zihang Lin, Jian-Fang Hu, Xiang Li, Wei-Shi Zheng(参考訳) 本稿では,Human-centric Spatio-Temporal Video Grounding (HC-STVG) 課題に対する効果的な2段階的アプローチを提案する。 第1段階では、与えられた記述に対応する目標モーメントを時間的に接地する拡張された2次元時間隣接ネットワーク(augmented 2d-tan)を提案する。 まず、時間的文脈を考慮したBi-LSTMアグリゲーションモジュールを開発し、クリップレベルの表現を集約し、元のマックスプールを置き換える。 第2に,訓練段階でランダム結合強化(rca)機構を採用することを提案する。 第2段階では、事前訓練されたMDETRモデルを用いて、言語クエリを介してフレーム単位のバウンディングボックスを生成し、手作りルールのセットを設計し、グラウンドドモーメント内の各フレームに対してMDETRが出力する最良のマッチングバウンディングボックスを選択する。

We propose an effective two-stage approach to tackle the problem of language-based Human-centric Spatio-Temporal Video Grounding (HC-STVG) task. In the first stage, we propose an Augmented 2D Temporal Adjacent Network (Augmented 2D-TAN) to temporally ground the target moment corresponding to the given description. Primarily, we improve the original 2D-TAN from two aspects: First, a temporal context-aware Bi-LSTM Aggregation Module is developed to aggregate clip-level representations, replacing the original max-pooling. Second, we propose to employ Random Concatenation Augmentation (RCA) mechanism during the training phase. In the second stage, we use pretrained MDETR model to generate per-frame bounding boxes via language query, and design a set of hand-crafted rules to select the best matching bounding box outputted by MDETR for each frame within the grounded moment.
翻訳日:2021-06-22 15:33:13 公開日:2021-06-20
# FloorPP-Net:Scan-to- BIMのためのポイントピラーを用いたフロアプランの再構築

FloorPP-Net: Reconstructing Floor Plans using Point Pillars for Scan-to-BIM ( http://arxiv.org/abs/2106.10635v1 )

ライセンス: Link先を確認
Yijie Wu and Fan Xue(参考訳) 本稿では,Scan-to-BIM(ビルディング情報モデル)の課題に対して,FloorPP-Netという深層学習に基づくポイントクラウド処理手法を提案する。 FloorPP-Netはまず、ビルディングストーリーの入力ポイントクラウドをポイントピラー(PP)に変換し、次にコーナーとエッジを予測してフロアプランを出力する。 さらに、FloorPP-NetはScan-to-Flan(Scan2FP )タスクのためのエンドツーエンドの教師あり学習フレームワークを確立する。 第1回国際スキャン・ツー・BIMチャレンジはCVPR 2021と共同で開催され、フロアPP-Netはフロアプラン再建トラックで2位にランクインした。 今後の作業には、汎用エッジの提案、2Dプランの正規化、3D BIMの再構築が含まれる。

This paper presents a deep learning-based point cloud processing method named FloorPP-Net for the task of Scan-to-BIM (building information model). FloorPP-Net first converts the input point cloud of a building story into point pillars (PP), then predicts the corners and edges to output the floor plan. Altogether, FloorPP-Net establishes an end-to-end supervised learning framework for the Scan-to-Floor-Plan (Scan2FP) task. In the 1st International Scan-to-BIM Challenge held in conjunction with CVPR 2021, FloorPP-Net was ranked the second runner-up in the floor plan reconstruction track. Future work includes general edge proposals, 2D plan regularization, and 3D BIM reconstruction.
翻訳日:2021-06-22 15:32:55 公開日:2021-06-20
# ディープフェイク自動検出

Automated Deepfake Detection ( http://arxiv.org/abs/2106.10705v1 )

ライセンス: Link先を確認
Ping Liu(参考訳) 本稿では,Deepfake検出のためのアーキテクチャを自動検索する機械学習を提案する。 従来の手法とは異なり,本手法は,手作業によるネットワーク設計プロセスにおける高作業コストを軽減しつつ,ディープラーニングの優れた能力の恩恵を受ける。 提案手法は,従来の非深層学習法より優れているだけでなく,従来の深層学習法と同等あるいはそれ以上の精度で予測できることを示す。 本手法の汎用性を向上させるため,特に異なる手法でデータやテストデータを操作する場合に,ネットワーク学習におけるマルチタスク戦略を提案し,与えられたサンプル中の潜在的な操作領域を推定し,サンプルが本物かどうかを推定する。 従来と類似した手法を用いた手法と比較して,操作方法の使い方や利用の有無を知る必要がなくなるなど,従来の知識よりもはるかに少ない。 2つのベンチマークデータセットの広範な実験結果から,提案手法がディープフェイク検出に有効であることを示す。

In this paper, we propose to utilize Automated Machine Learning to automatically search architecture for deepfake detection. Unlike previous works, our method benefits from the superior capability of deep learning while relieving us from the high labor cost in the manual network design process. It is experimentally proved that our proposed method not only outperforms previous non-deep learning methods but achieves comparable or even better prediction accuracy compared to previous deep learning methods. To improve the generality of our method, especially when training data and testing data are manipulated by different methods, we propose a multi-task strategy in our network learning process, making it estimate potential manipulation regions in given samples as well as predict whether the samples are real. Comparing to previous works using similar strategies, our method depends much less on prior knowledge, such as no need to know which manipulation method is utilized and whether it is utilized already. Extensive experimental results on two benchmark datasets demonstrate the effectiveness of our proposed method on deepfake detection.
翻訳日:2021-06-22 15:32:41 公開日:2021-06-20
# 依存型学習のためのcogradient Descent

Cogradient Descent for Dependable Learning ( http://arxiv.org/abs/2106.10617v1 )

ライセンス: Link先を確認
Runqi Wang, Baochang Zhang, Li'an Zhuo, Qixiang Ye, David Doermann(参考訳) 従来の勾配降下法は偏微分を通じて複数の変数の勾配を計算する。 しかし、相互作用を無視しながら結合変数を独立に扱うと、双線型モデルの最適化が不十分になる。 本稿では、双線形最適化問題に対処するCoGDアルゴリズムに基づく信頼度学習を提案し、カーネル化された投影関数に基づいて結合変数の勾配を調整する体系的な方法を提案する。 CoGDは、現代の学習パラダイムでよく見られるように、ある変数がスパース性制約を持つ場合の双線形問題を解くために導入された。 cogdは特徴量と重みの結合を分解するためにも使用することができ、この方法をさらに一般化し、畳み込みニューラルネットワーク(cnns)を訓練し、モデルの容量を向上させる。 CoGDは、画像再構成、画像インペインティング、ネットワークプルーニング、CNNトレーニングなど、代表的な双線形問題に適用される。 大規模な実験により、CoGDは最先端の技術をかなりのマージンで改善することが示された。 コードはhttps://github.com/b czhangbczhang/cogd}で入手できる。

Conventional gradient descent methods compute the gradients for multiple variables through the partial derivative. Treating the coupled variables independently while ignoring the interaction, however, leads to an insufficient optimization for bilinear models. In this paper, we propose a dependable learning based on Cogradient Descent (CoGD) algorithm to address the bilinear optimization problem, providing a systematic way to coordinate the gradients of coupling variables based on a kernelized projection function. CoGD is introduced to solve bilinear problems when one variable is with sparsity constraint, as often occurs in modern learning paradigms. CoGD can also be used to decompose the association of features and weights, which further generalizes our method to better train convolutional neural networks (CNNs) and improve the model capacity. CoGD is applied in representative bilinear problems, including image reconstruction, image inpainting, network pruning and CNN training. Extensive experiments show that CoGD improves the state-of-the-arts by significant margins. Code is available at {https://github.com/b czhangbczhang/CoGD}.
翻訳日:2021-06-22 15:24:41 公開日:2021-06-20
# スタイン変分ニューラルネットワークアンサンブルについて

On Stein Variational Neural Network Ensembles ( http://arxiv.org/abs/2106.10760v1 )

ライセンス: Link先を確認
Francesco D'Angelo, Vincent Fortuin, Florian Wenzel(参考訳) ディープニューラルネットワークのアンサンブルは近年大きな成功を収めているが、適切なベイズ的正当化は提供していない。 さらに、いくつかの仮説に対する予測の平均化を可能にするが、それらの多様性の保証は提供せず、関数空間における冗長な解をもたらす。 対照的に、スタイン変分勾配降下(SVGD)のような粒子ベースの推論法はベイズフレームワークを提供するが、アンサンブルメンバー間の類似度を測定するためにカーネルの選択に依存する。 本研究では,重み空間,関数空間,ハイブリッド環境で動作する様々なSVGD法について検討する。 %)で、ニューラルネットワーク関数上でカーネルを直接定義することは、ディープアンサンブルの制限を克服すると期待できる。 しかし,SVGDの理論的保証を維持しながら関数空間の多様性を確保することは容易ではない。 本研究は,重み空間と関数空間における異なるアンサンブル法とSVGD法の概要を述べるとともに,合成および実世界のタスクにおける理論的および経験的特性を新たに提案する。 SVGD法と他のアンサンブル法を理論的特性の観点から比較し, 実世界の課題における経験的性能を評価する。 機能的およびハイブリッドカーネルを用いたSVGDは,深いアンサンブルの限界を克服できることがわかった。 関数の多様性と不確実性の推定を改善し、真のベイズ後方に接近する。 さらに,svgdの確率的更新は,標準決定論的更新とは対照的に,さらなる性能向上が期待できることを示す。

Ensembles of deep neural networks have achieved great success recently, but they do not offer a proper Bayesian justification. Moreover, while they allow for averaging of predictions over several hypotheses, they do not provide any guarantees for their diversity, leading to redundant solutions in function space. In contrast, particle-based inference methods, such as Stein variational gradient descent (SVGD), offer a Bayesian framework, but rely on the choice of a kernel to measure the similarity between ensemble members. In this work, we study different SVGD methods operating in the weight space, function space, and in a hybrid setting. % Defining the kernel directly on the neural network functions seems promising to overcome the limitations of deep ensembles. % However, ensuring diversity in function space while maintaining SVGD's theoretical guarantees is not trivial. % In this work, we provide an overview over different ensembling and SVGD methods in weight space and function space and propose new and assess their theoretical and empirical properties on synthetic and real-world tasks. We compare the SVGD approaches to other ensembling-based methods in terms of their theoretical properties and assess their empirical performance on synthetic and real-world tasks. We find that SVGD using functional and hybrid kernels can overcome the limitations of deep ensembles. It improves on functional diversity and uncertainty estimation and approaches the true Bayesian posterior more closely. Moreover, we show that using stochastic SVGD updates, as opposed to the standard deterministic ones, can further improve the performance.
翻訳日:2021-06-22 15:24:23 公開日:2021-06-20
# 患者デジタル双生児のサイリコ臨床試験における最適パーソナライズド治療計算

Optimal personalised treatment computation through in silico clinical trials on patient digital twins ( http://arxiv.org/abs/2106.10684v1 )

ライセンス: Link先を確認
Stefano Sinisi, Vadim Alimguzhin, Toni Mancini, Enrico Tronci, Federico Mari, Brigitte Leeners(参考訳) サイリコ臨床試験 (istc) では、コンピュータシミュレーションによる臨床実験キャンペーン、薬理学的治療の安全性と有効性の評価の時間とコストの削減、動物と人間のテストの必要性の低減、精密医療の実現を約束する。 本稿では,知的検索によって誘導される広範囲なコンピュータシミュレーションに基づく実験キャンペーン(ISTC)を用いて,患者に対する薬理学的治療(精密医療)を最適化する手法とアルゴリズムを提案する。 本研究は, 実薬理学的治療を含む症例研究, すなわち, ヒトの再生支援のための複雑な臨床プロトコルの低下段階に対するアプローチの有効性を示す。

In Silico Clinical Trials (ISTC), i.e., clinical experimental campaigns carried out by means of computer simulations, hold the promise to decrease time and cost for the safety and efficacy assessment of pharmacological treatments, reduce the need for animal and human testing, and enable precision medicine. In this paper we present methods and an algorithm that, by means of extensive computer simulation--based experimental campaigns (ISTC) guided by intelligent search, optimise a pharmacological treatment for an individual patient (precision medicine). e show the effectiveness of our approach on a case study involving a real pharmacological treatment, namely the downregulation phase of a complex clinical protocol for assisted reproduction in humans.
翻訳日:2021-06-22 15:19:12 公開日:2021-06-20
# Encoder 以上: Transformer Decoder の Upsample 導入

More than Encoder: Introducing Transformer Decoder to Upsample ( http://arxiv.org/abs/2106.10637v1 )

ライセンス: Link先を確認
Yijiang Li, Wentian Cai, Ying Gao and Xiping Hu(参考訳) 一般的なセグメンテーションモデルは画像をダウンサンプルし、アップサンプルしてピクセルレベルの予測のために解像度を復元する。 このようなスキーマでは、アップサンプル技術はより良いパフォーマンスのために情報の維持に不可欠である。 本稿では,AU(Attention Upsample)という新しいアップサンプル手法を提案する。これは一般的なアップサンプル手法として機能し,横方向接続を持つ任意のセグメンテーションモデルに組み込むことができる。 AUは画素レベルの注意力を活用して、長距離依存とグローバル情報をモデル化し、再構築を改善する。 Attention Decoder (AD) と Bilinear Upsample で構成されており、アップサンプリングされた特徴を補完する残差接続である。 ADは、コンバータからデコーダのアイデアを採用し、コンバータパスからローカルおよび詳細情報に条件付けられた特徴をアップサンプルする。 さらに,画素レベルの注意の広範なメモリと計算コストを考慮すると,グローバルレンジではなく,ローカルウィンドウの注意計算を制限するために,ウィンドウアテンション方式を提案する。 ウィンドウアテンションを組み込んだデコーダをウィンドウアテンションデコーダ (WAD) とし、アップサンプルをウィンドウアテンションアップサンプレット (WAU) と呼ぶ。 従来のu-net構造を横接続でテストし,契約経路からの情報を配信し,synapse (80.30 dsc, 23.12 hd) とmsd brain (74.75 dsc) データセット上での最先端性能を実現する。

General segmentation models downsample images and then upsample to restore resolution for pixel level prediction. In such schema, upsample technique is vital in maintaining information for better performance. In this paper, we present a new upsample approach, Attention Upsample (AU), that could serve as general upsample method and be incorporated into any segmentation model that possesses lateral connections. AU leverages pixel-level attention to model long range dependency and global information for better reconstruction. It consists of Attention Decoder (AD) and bilinear upsample as residual connection to complement the upsampled features. AD adopts the idea of decoder from transformer which upsamples features conditioned on local and detailed information from contracting path. Moreover, considering the extensive memory and computation cost of pixel-level attention, we further propose to use window attention scheme to restrict attention computation in local windows instead of global range. Incorporating window attention, we denote our decoder as Window Attention Decoder (WAD) and our upsample method as Window Attention Upsample (WAU). We test our method on classic U-Net structure with lateral connection to deliver information from contracting path and achieve state-of-the-arts performance on Synapse (80.30 DSC and 23.12 HD) and MSD Brain (74.75 DSC) datasets.
翻訳日:2021-06-22 15:18:04 公開日:2021-06-20
# 肺超音波画像とディープラーニングを用いたcovid-19検出システムの実現

Implementing a Detection System for COVID-19 based on Lung Ultrasound Imaging and Deep Learning ( http://arxiv.org/abs/2106.10651v1 )

ライセンス: Link先を確認
Carlos Rojas-Azabache, Karen Vilca-Janampa, Renzo Guerrero-Huayta, Dennis N\'u\~nez-Fern\'andez(参考訳) 新型コロナウイルスのパンデミックは2019年12月に中国で始まり、急速に複数の国に広がった。 このパンデミックの結果は計り知れず、何百万人もの人々が死亡し、世界経済に打撃を与えている。 このパンデミックを大規模にコントロールするには、患者の検出と治療のための高速ツールが必要である。 このように、正確かつ自動化されたツールが入手できないため、新型コロナウイルスの診断のための代替ツールの需要は劇的に増加している。 本稿では,超音波イメージングとDeep Learning技術を用いた新型コロナウイルス検出システムについて述べる。 さらに、このようなシステムはraspberry pi上に実装され、インターネット接続なしでポータブルで、遠隔地でも簡単に使用できる。

The COVID-19 pandemic started in China in December 2019 and quickly spread to several countries. The consequences of this pandemic are incalculable, causing the death of millions of people and damaging the global economy. To achieve large-scale control of this pandemic, fast tools for detection and treatment of patients are needed. Thus, the demand for alternative tools for the diagnosis of COVID-19 has increased dramatically since accurated and automated tools are not available. In this paper we present the ongoing work on a system for COVID-19 detection using ultrasound imaging and using Deep Learning techniques. Furthermore, such a system is implemented on a Raspberry Pi to make it portable and easy to use in remote regions without an Internet connection.
翻訳日:2021-06-22 15:17:35 公開日:2021-06-20
# コントラスト学習と実世界データセットによる水中画像復元

Underwater Image Restoration via Contrastive Learning and a Real-world Dataset ( http://arxiv.org/abs/2106.10718v1 )

ライセンス: Link先を確認
Junlin Han, Mehrdad Shoeiby, Tim Malthus, Elizabeth Botha, Janet Anstee, Saeed Anwar, Ran Wei, Mohammad Ali Armin, Hongdong Li, Lars Petersson(参考訳) 水中画像の復元は、水中の世界を明らかにする上で非常に重要である。 過去数十年で多くの技術とアルゴリズムが開発されてきた。 しかし、画像・センシング、照明、屈折幾何学的歪みに関する根本的な困難さから、鮮明な水中画像の撮影には包括的な評価は行われていない。 このギャップに対処するため,我々は,既存の手法をベンチマークし,新たな深層学習手法の開発を支援するため,HICRD(Heron Island Coral Reef Dataset)と呼ばれる大規模水中画像データセットを構築した。 参照画像の生成には正確な水パラメータ(拡散減衰係数)を用いる。 未完成の訓練セットには2000点の復元画像と6003点のオリジナル水中画像がある。 さらに,教師なし画像から画像への翻訳フレームワークに基づく水中画像復元手法を提案する。 提案手法は,原画像と復元画像の相互情報を最大化するために,コントラスト学習と生成敵ネットワークを利用した。 最近の手法との比較による広範な実験により,提案手法の優越性がさらに証明された。 コードとデータセットはGitHubで公開されています。

Underwater image restoration is of significant importance in unveiling the underwater world. Numerous techniques and algorithms have been developed in the past decades. However, due to fundamental difficulties associated with imaging/sensing, lighting, and refractive geometric distortions, in capturing clear underwater images, no comprehensive evaluations have been conducted of underwater image restoration. To address this gap, we have constructed a large-scale real underwater image dataset, dubbed `HICRD' (Heron Island Coral Reef Dataset), for the purpose of benchmarking existing methods and supporting the development of new deep-learning based methods. We employ accurate water parameter (diffuse attenuation coefficient) in generating reference images. There are 2000 reference restored images and 6003 original underwater images in the unpaired training set. Further, we present a novel method for underwater image restoration based on unsupervised image-to-image translation framework. Our proposed method leveraged contrastive learning and generative adversarial networks to maximize the mutual information between raw and restored images. Extensive experiments with comparisons to recent approaches further demonstrate the superiority of our proposed method. Our code and dataset are publicly available at GitHub.
翻訳日:2021-06-22 15:17:24 公開日:2021-06-20
# ミッションクリティカル無線ネットワークにおけるリレーノードの最適耐故障配置のためのMILP, 擬似ブール, OMTソルバ

MILP, pseudo-boolean, and OMT solvers for optimal fault-tolerant placements of relay nodes in mission critical wireless networks ( http://arxiv.org/abs/2106.10685v1 )

ライセンス: Link先を確認
Quian Matteo Chen, Alberto Finzi, Toni Mancini, Igor Melatti, Enrico Tronci(参考訳) 空港のような重要なインフラでは、外部の電磁干渉から無線通信ネットワークを保護するために多くの注意が必要である。 このようなミッションクリティカルな無線通信ネットワークの保護は、少なくとも3つの適切な配備された無線ゴニメーターと、それらから情報を収集するゲートウェイを使用して、監視エリアに存在しない電磁放射源の監視とローカライズを行う。 通常、ラジオゴニメーターは中継ノードを介してゲートウェイに接続される。 その結果、信頼性の高い監視を実現するためには、中継ノードのネットワークに対するある程度のフォールトトレランスが不可欠となる。 一方、リレーノードの配置は一般的に非常に高価である。 結果として、私たちは2つの矛盾する要件を持っています。 本稿では、リレーノードの一部(最大数まで)が故障した場合でも、リレーノードネットワークのコストを最小化しつつ、ネットワークの適切な動作を保証するリレーノードの配置を演算する問題に対処する(フォールトトレランス)。 HPC インフラストラクチャ上での計算集約的な事前処理により、上述の最適化問題を 0/1 線形プログラムとして符号化することができ、MILP、PB-SAT、SMT/OMT などの標準人工知能推論器にアプローチするのに適していることを示す。 この問題定式化により,イタリア・ローマのレオナルド・ダ・ヴィンチ空港における中継ノードネットワーク配置の実例で,これら3つの解法の性能を比較する実験結果が得られた。

In critical infrastructures like airports, much care has to be devoted in protecting radio communication networks from external electromagnetic interference. Protection of such mission-critical radio communication networks is usually tackled by exploiting radiogoniometers: at least three suitably deployed radiogoniometers, and a gateway gathering information from them, permit to monitor and localise sources of electromagnetic emissions that are not supposed to be present in the monitored area. Typically, radiogoniometers are connected to the gateway through relay nodes. As a result, some degree of fault-tolerance for the network of relay nodes is essential in order to offer a reliable monitoring. On the other hand, deployment of relay nodes is typically quite expensive. As a result, we have two conflicting requirements: minimise costs while guaranteeing a given fault-tolerance. In this paper, we address the problem of computing a deployment for relay nodes that minimises the relay node network cost while at the same time guaranteeing proper working of the network even when some of the relay nodes (up to a given maximum number) become faulty (fault-tolerance). We show that, by means of a computation-intensiv e pre-processing on a HPC infrastructure, the above optimisation problem can be encoded as a 0/1 Linear Program, becoming suitable to be approached with standard Artificial Intelligence reasoners like MILP, PB-SAT, and SMT/OMT solvers. Our problem formulation enables us to present experimental results comparing the performance of these three solving technologies on a real case study of a relay node network deployment in areas of the Leonardo da Vinci Airport in Rome, Italy.
翻訳日:2021-06-22 15:16:13 公開日:2021-06-20
# eegクロスサブジェクトチャネル選択のための学習信号表現と試行分類

Learning Signal Representations for EEG Cross-Subject Channel Selection and Trial Classification ( http://arxiv.org/abs/2106.10633v1 )

ライセンス: Link先を確認
Michela C. Massi, Francesca Ieva(参考訳) EEG技術はいくつかの領域で応用を見出す。 現在、ほとんどの脳波系では、被験者は頭皮に複数の電極を装着する必要がある。 しかし、いくつかのチャネルにはノイズ情報、冗長信号、より長い準備時間、EEG復号のための自動システムの計算時間の増加が含まれる。 信号対雑音比を減らし、分類精度を向上させる一つの方法は、チャネル選択と特徴抽出を組み合わせることであるが、脳波信号は高い対象間変動を示すことが知られている。 本稿では,脳波記録の被写体非依存チャネル選択のための新しいアルゴリズムを提案する。 Considering multi-channel trial recordings as statistical units and the EEG decoding task as the class of reference, the algorithm (i) exploits channel-specific 1D-Convolutional Neural Networks (1D-CNNs) as feature extractors in a supervised fashion to maximize class separability; (ii) it reduces a high dimensional multi-channel trial representation into a unique trial vector by concatenating the channels' embeddings and (iii) recovers the complex inter-channel relationships during channel selection, by exploiting an ensemble of AutoEncoders (AE) to identify from these vectors the most relevant channels to perform classification. トレーニング後、選択されたチャネル固有1D-CNNのパラメータ化されたサブグループのみを新しい被験者の新たな信号に転送し、任意の分類器に供給する低次元かつ高情報な試行ベクトルを得る。

EEG technology finds applications in several domains. Currently, most EEG systems require subjects to wear several electrodes on the scalp to be effective. However, several channels might include noisy information, redundant signals, induce longer preparation times and increase computational times of any automated system for EEG decoding. One way to reduce the signal-to-noise ratio and improve classification accuracy is to combine channel selection with feature extraction, but EEG signals are known to present high inter-subject variability. In this work we introduce a novel algorithm for subject-independent channel selection of EEG recordings. Considering multi-channel trial recordings as statistical units and the EEG decoding task as the class of reference, the algorithm (i) exploits channel-specific 1D-Convolutional Neural Networks (1D-CNNs) as feature extractors in a supervised fashion to maximize class separability; (ii) it reduces a high dimensional multi-channel trial representation into a unique trial vector by concatenating the channels' embeddings and (iii) recovers the complex inter-channel relationships during channel selection, by exploiting an ensemble of AutoEncoders (AE) to identify from these vectors the most relevant channels to perform classification. After training, the algorithm can be exploited by transferring only the parametrized subgroup of selected channel-specific 1D-CNNs to new signals from new subjects and obtain low-dimensional and highly informative trial vectors to be fed to any classifier.
翻訳日:2021-06-22 15:14:02 公開日:2021-06-20
# TinyML:ESP32 SoCによるニューラルネットワーク用Xtensa LX6マイクロプロセッサの解析

TinyML: Analysis of Xtensa LX6 microprocessor for Neural Network Applications by ESP32 SoC ( http://arxiv.org/abs/2106.10652v1 )

ライセンス: Link先を確認
Md Ziaul Haque Zim(参考訳) 近年、機械学習(ml)は多くのコンピューティングアプリケーションで非常に重要になっている。 ESP32やESP32 Camのような、小さな機械学習(tinyML)アプリケーションによる超低消費電力の組み込みデバイスの普及は、人工知能搭載の組み込みIoTデバイスの大量増殖を可能にする。 ここ数年、マイクロコントローラ装置(Espressif ESP32)は小型/小型の機械学習(tinyML)タスクに使えるほど強力になった。 Arduino IDE、MicroPython、TensorFlow Lite(TF)などのプラットフォームを小さなMLアプリケーションで簡単に使えるようにすることで、モバイルロボティクス、現代のコンピュータ科学、電気工学の研究に欠かせないトピックとなっている。 本研究の目的は,ニューラルネットワークアプリケーションを実行することで,Xtensaデュアルコア32ビットLX6マイクロプロセッサの速度を分析することである。 異なる入力数(9,36,144,576)は1層と2層隠れたニューラルネットワークの異なるニューロン数を通して入力される。 Xtensa LX6マイクロプロセッサは、IoTデバイスの使用、プラグ、プレイが非常に容易なEspressif ESP32とESP32 Camの内部にあるため、分析されている。 本稿では,フィードフォワードモードにおけるXtensa LX6マイクロプロセッサの速度解析を行った。

In recent decades, Machine Learning (ML) has become extremely important for many computing applications. The pervasiveness of ultra-low-power embedded devices such as ESP32 or ESP32 Cam with tiny Machine Learning (tinyML) applications will enable the mass proliferation of Artificial Intelligent powered Embedded IoT Devices. In the last few years, the microcontroller device (Espressif ESP32) became powerful enough to be used for small/tiny machine learning (tinyML) tasks. The ease of use of platforms like Arduino IDE, MicroPython and TensorFlow Lite (TF) with tinyML application make it an indispensable topic of research for mobile robotics, modern computer science and electrical engineering. The goal of this paper is to analyze the speed of the Xtensa dual core 32-bit LX6 microprocessor by running a neural network application. The different number of inputs (9, 36, 144 and 576) inputted through the different number of neurons in neural networks with one and two hidden layers. Xtensa LX6 microprocessor has been analyzed because it comes inside with Espressif ESP32 and ESP32 Cam which are very easy to use, plug and play IoT device. In this paper speed of the Xtensa LX6 microprocessor in feed-forward mode has been analyzed.
翻訳日:2021-06-22 15:13:40 公開日:2021-06-20
# FedXGBoost: フェデレートラーニングのためのプライバシ保護XGBoost

FedXGBoost: Privacy-Preserving XGBoost for Federated Learning ( http://arxiv.org/abs/2106.10662v1 )

ライセンス: Link先を確認
Nhan Khanh Le and Yang Liu and Quang Minh Nguyen and Qingchen Liu and Fangzhou Liu and Quanwei Cai and Sandra Hirche(参考訳) フェデレーション学習(Federated Learning)は、データプライバシを確保しながら、複数のパーティ間で協調的なトレーニングを可能にする分散機械学習フレームワークである。 従来のプライバシ保存手法がもたらす高コストのため,最先端のツリー強化フレームワークであるXGBoostのフェデレーション学習への実践的適応は依然として限られている。 本稿では,FedXGBoost-SMMとFedXGBoost-LDPの2種類のフェデレートXGBoostをプライバシ保証として提案する。 弊社の最初のプロトコルであるFedXGBoost-SMMは、セキュアな行列乗法を導入し、プライバシーを無害な精度で保存し、暗号化技術よりもオーバーヘッドを低くする。 独立に開発された第2のプロトコルfedexgboost-ldpは、局所微分プライバシーのためのノイズ摂動でヒューリスティックに設計され、実世界および合成データセットで実証的に評価される。

Federated learning is the distributed machine learning framework that enables collaborative training across multiple parties while ensuring data privacy. Practical adaptation of XGBoost, the state-of-the-art tree boosting framework, to federated learning remains limited due to high cost incurred by conventional privacy-preserving methods. To address the problem, we propose two variants of federated XGBoost with privacy guarantee: FedXGBoost-SMM and FedXGBoost-LDP. Our first protocol FedXGBoost-SMM deploys enhanced secure matrix multiplication method to preserve privacy with lossless accuracy and lower overhead than encryption-based techniques. Developed independently, the second protocol FedXGBoost-LDP is heuristically designed with noise perturbation for local differential privacy, and empirically evaluated on real-world and synthetic datasets.
翻訳日:2021-06-22 15:13:19 公開日:2021-06-20
# 予測研究は生産性をもたらす

On predicting research grants productivity ( http://arxiv.org/abs/2106.10700v1 )

ライセンス: Link先を確認
Jorge A. V. Tohalino and Diego R. Amancio(参考訳) 提案の成功に関連する理由を理解することは、評価プロセスを改善する上で最重要となる。 この文脈で,文献学的特徴が研究助成金の成功を予測できるかどうかを解析した。 研究テーマ,提携,出版数,視認性など,ブラジルの研究者の学歴を特徴付ける特徴を抽出した。 抽出された特徴は、医学、歯科医学、獣医学の3大研究分野における機械学習による補助金の生産性予測に使用された。 研究対象と出版史が生産性を予測する役割を担っていることがわかった。 加えて、機関ベースの機能は、他の機能と組み合わせると関係があることがわかった。 最高の結果がテキストベースの属性よりも優れているが,評価された特徴は識別性に乏しかった。 以上の結果から,少なくとも文献学的特徴のセットを考慮すれば,予測が成功をもたらすことは自明な作業ではないことが示唆された。

Understanding the reasons associated with successful proposals is of paramount importance to improve evaluation processes. In this context, we analyzed whether bibliometric features are able to predict the success of research grants. We extracted features aiming at characterizing the academic history of Brazilian researchers, including research topics, affiliations, number of publications and visibility. The extracted features were then used to predict grants productivity via machine learning in three major research areas, namely Medicine, Dentistry and Veterinary Medicine. We found that research subject and publication history play a role in predicting productivity. In addition, institution-based features turned out to be relevant when combined with other features. While the best results outperformed text-based attributes, the evaluated features were not highly discriminative. Our findings indicate that predicting grants success, at least with the considered set of bibliometric features, is not a trivial task.
翻訳日:2021-06-22 15:12:59 公開日:2021-06-20
# 重み付き自由エネルギー最小化による伝達ベイズメタラーニング

Transfer Bayesian Meta-learning via Weighted Free Energy Minimization ( http://arxiv.org/abs/2106.10711v1 )

ライセンス: Link先を確認
Yunchuan Zhang, Sharu Theresa Jose, Osvaldo Simeone(参考訳) メタラーニングは、複数の補助タスクからサンプリングされたデータに基づいて、初期化、カーネル、学習率などのトレーニング手順のハイパーパラメータを最適化する。 主要な前提として、メタトレーニングタスクとして知られる補助タスクは、メタテストタスクとして知られるデプロイメント時に遭遇するタスクと同じ生成分布を共有する。 しかし、これはテスト環境がメタトレーニング条件と異なる場合ではないかもしれない。 メタトレーニングとメタテストフェーズ間のタスク生成分布の変化に対処するために,トランスファーメタラーニングのための重み付け自由エネルギー最小化(WFEM)を提案する。 本稿では,非パラメトリックベイズ回帰法とガウス過程(GP)による分類法を提案する。 本手法は, PACOHによるGP前の標準メタラーニングとの比較により, おもちゃの正弦波回帰問題と, miniImagenet と CUB データセットを用いた分類で検証した。

Meta-learning optimizes the hyperparameters of a training procedure, such as its initialization, kernel, or learning rate, based on data sampled from a number of auxiliary tasks. A key underlying assumption is that the auxiliary tasks, known as meta-training tasks, share the same generating distribution as the tasks to be encountered at deployment time, known as meta-test tasks. This may, however, not be the case when the test environment differ from the meta-training conditions. To address shifts in task generating distribution between meta-training and meta-testing phases, this paper introduces weighted free energy minimization (WFEM) for transfer meta-learning. We instantiate the proposed approach for non-parametric Bayesian regression and classification via Gaussian Processes (GPs). The method is validated on a toy sinusoidal regression problem, as well as on classification using miniImagenet and CUB data sets, through comparison with standard meta-learning of GP priors as implemented by PACOH.
翻訳日:2021-06-22 15:12:46 公開日:2021-06-20
# twitterとfacebookの2面人間: パーソナリティプロファイルのためのソーシャルマルチメディアの収集

Two-Faced Humans on Twitter and Facebook: Harvesting Social Multimedia for Human Personality Profiling ( http://arxiv.org/abs/2106.10673v1 )

ライセンス: Link先を確認
Qi Yang, Aleksandr Farseev, Andrey Filchenkov(参考訳) 人格特性は、私たちの意思決定の背後にある重要な要因であり、私たちの生活経路に日々影響を与えます。 myers-briggsのパーソナリティタイプのようなパーソナリティ特性の推論や、パーソナリティ特性とさまざまなソーシャルメディアプラットフォームにおけるユーザの行動の依存性の理解は、現代の研究や産業応用において重要な意味を持つ。 多様な多目的ソーシャルメディアの出現により、複数のデータモダリティにまたがるデータに基づいて、ユーザパーソナリティのプロファイリングを自動かつ効率的に行うことができる。 しかし,マルチモーダルソーシャルメディアデータからのパーソナリティ・プロファイリングに関する研究は,比較的まばらであり,異なるソーシャルネットワークデータによる機械学習性能への影響は未だ総合評価されていない。 さらに、ベンチマークを行うデータセットは研究コミュニティには存在しない。 この研究は、このような重要な研究ギャップを埋める最初の試みの1つです。 具体的には,Mers-Briggs Personality Typeインジケータを"PERS"と呼ばれる新しい多視点融合フレームワークに適用し,データモダリティだけでなく,異なるソーシャルネットワークデータソースについても,結果を比較して推定する。 実験の結果,多視点データからパーソナリティ・プロファイリングを学習する能力は,多様なソーシャル・マルチメディア・ソースからやってくるデータを効率的に活用できることが示唆された。 また、ソーシャルネットワークデータソースを選択する際には、機械学習アプローチの選択が極めて重要であることや、ソーシャルメディアのさまざまな道筋において、人の個性の複数の面を明らかにする傾向があることもわかりました。 当社がリリースしたソーシャルマルチメディアデータセットは,この方向性に関する今後の研究を促進する。

Human personality traits are the key drivers behind our decision-making, influencing our life path on a daily basis. Inference of personality traits, such as Myers-Briggs Personality Type, as well as an understanding of dependencies between personality traits and users' behavior on various social media platforms is of crucial importance to modern research and industry applications. The emergence of diverse and cross-purpose social media avenues makes it possible to perform user personality profiling automatically and efficiently based on data represented across multiple data modalities. However, the research efforts on personality profiling from multi-source multi-modal social media data are relatively sparse, and the level of impact of different social network data on machine learning performance has yet to be comprehensively evaluated. Furthermore, there is not such dataset in the research community to benchmark. This study is one of the first attempts towards bridging such an important research gap. Specifically, in this work, we infer the Myers-Briggs Personality Type indicators, by applying a novel multi-view fusion framework, called "PERS" and comparing the performance results not just across data modalities but also with respect to different social network data sources. Our experimental results demonstrate the PERS's ability to learn from multi-view data for personality profiling by efficiently leveraging on the significantly different data arriving from diverse social multimedia sources. We have also found that the selection of a machine learning approach is of crucial importance when choosing social network data sources and that people tend to reveal multiple facets of their personality in different social media avenues. Our released social multimedia dataset facilitates future research on this direction.
翻訳日:2021-06-22 15:07:11 公開日:2021-06-20
# 化学発見における伝達可能な機械学習モデルの表現と戦略

Representations and Strategies for Transferable Machine Learning Models in Chemical Discovery ( http://arxiv.org/abs/2106.10768v1 )

ライセンス: Link先を確認
Daniel R. Harper, Aditya Nandy, Naveen Arunachalam, Chenru Duan, Jon Paul Janet, and Heather J. Kulik(参考訳) 材料合成空間にまたがる一般的な機械学習(ML)加速発見の戦略は不可欠であるが、MLの実証は主に狭い構成のバリエーションに限られている。 オープンシェル遷移金属錯体のような挑戦的なターゲットのために、化学空間の有望な領域におけるデータの不足に対処することによって、既存のデータの既知の関係を利用する一般的な表現や転送可能なMLモデルが発見を加速する。 a large set (ca)。 等価遷移金属錯体の1000) 周期表の列(すなわち3d/4d金属と2p/3p配位子)間の異なる性質(スピンスプリッティングと配位子解離)の明らかな関係を定量化する。 グラフに基づく修正自己相関(RAC)表現の拡張(eRAC)を示す。これは核電荷ヒューリスティックとともに有効核電荷を組み込むもので、そうでなければ同価錯体の相似性を過大評価する。 データの制限が限定された新しい空間における発見の共通課題に対処するために,周期表の1行から大量のデータに基づいてトレーニングされたモデルを,追加行から少数のデータポイントでシードする転送学習手法を提案する。 モデル性能を安定的に向上させるために,この伝達学習戦略とともにeRACの相乗的価値を示す。 これらのモデルの解析は、錯体間の距離を周期表とより整合的に並べ替えることによって、アプローチがどのように成功するかを明らかにする。

Strategies for machine-learning(ML) -accelerated discovery that are general across materials composition spaces are essential, but demonstrations of ML have been primarily limited to narrow composition variations. By addressing the scarcity of data in promising regions of chemical space for challenging targets like open-shell transition-metal complexes, general representations and transferable ML models that leverage known relationships in existing data will accelerate discovery. Over a large set (ca. 1000) of isovalent transition-metal complexes, we quantify evident relationships for different properties (i.e., spin-splitting and ligand dissociation) between rows of the periodic table (i.e., 3d/4d metals and 2p/3p ligands). We demonstrate an extension to graph-based revised autocorrelation (RAC) representation (i.e., eRAC) that incorporates the effective nuclear charge alongside the nuclear charge heuristic that otherwise overestimates dissimilarity of isovalent complexes. To address the common challenge of discovery in a new space where data is limited, we introduce a transfer learning approach in which we seed models trained on a large amount of data from one row of the periodic table with a small number of data points from the additional row. We demonstrate the synergistic value of the eRACs alongside this transfer learning strategy to consistently improve model performance. Analysis of these models highlights how the approach succeeds by reordering the distances between complexes to be more consistent with the periodic table, a property we expect to be broadly useful for other materials domains.
翻訳日:2021-06-22 15:06:43 公開日:2021-06-20
# (参考訳) コンテキスト露出によるsiftマッチング [全文訳有]

SIFT Matching by Context Exposed ( http://arxiv.org/abs/2106.09584v2 )

ライセンス: CC BY 4.0
Fabio Bellavia(参考訳) 本稿では、マッチングコンテキスト情報を利用して、ローカル画像記述子マッチングをステップアップする方法を検討する。 2つの主要なコンテキストが識別され、それぞれ記述子空間とキーポイント空間から導かれる。 前者は一般に実際のマッチング戦略の設計に使用され、後者は局所的な空間整合性に応じてフィルタする。 そこで, 新たなマッチング戦略と, それぞれblob matching と delaunay triangulation matching (dtm) と呼ばれる新しい局所空間フィルタを考案した。 ブロブマッチング(Blob matching)は、事前フィルタリングや多対多、対称マッチングなど、いくつかの戦略を統合することで、一般的なマッチングフレームワークを提供する。 DTMはデラウネー三角形の縮約と拡張を交互に切り換えて、キーポイント近傍の整合性を見つけ、調整する。 実験により、DTMは、特に非平面シーンにおいて、精度とロバストさの整合性の観点から、最先端技術よりも同等か優れていることが示された。 提案手法は,提案手法と参照のための共通SIFTマッチング手法を含む,平面と非平面の両方の正しい対応性の観点から,マッチングパイプラインを解析するために考案された新しいベンチマークに基づいて評価を行う。 この評価は、この分野の今後の研究を支援することができる。

This paper investigates how to step up local image descriptor matching by exploiting matching context information. Two main contexts are identified, originated respectively from the descriptor space and from the keypoint space. The former is generally used to design the actual matching strategy while the latter to filter matches according to the local spatial consistency. On this basis, a new matching strategy and a novel local spatial filter, named respectively blob matching and Delaunay Triangulation Matching (DTM) are devised. Blob matching provides a general matching framework by merging together several strategies, including pre-filtering as well as many-to-many and symmetric matching, enabling to achieve a global improvement upon each individual strategy. DTM alternates between Delaunay triangulation contractions and expansions to figure out and adjust keypoint neighborhood consistency. Experimental evaluation shows that DTM is comparable or better than the state-of-the-art in terms of matching accuracy and robustness, especially for non-planar scenes. Evaluation is carried out according to a new benchmark devised for analyzing the matching pipeline in terms of correct correspondences on both planar and non-planar scenes, including state-of-the-art methods as well as the common SIFT matching approach for reference. This evaluation can be of assistance for future research in this field.
翻訳日:2021-06-22 11:31:47 公開日:2021-06-20