このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211006となっている論文です。

PDF登録状況(公開日: 20211006)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 画像分割によるプロットデータのクラスタリング [全文訳有]

Clustering Plotted Data by Image Segmentation ( http://arxiv.org/abs/2110.05187v1 )

ライセンス: CC BY 4.0
Tarek Naous, Srinjay Sarkar, Abubakar Abid, James Zou(参考訳) クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。 既存のクラスタリング手法は通常、データセットのサンプルを計量空間の点として扱い、距離を計算して類似点をグループ化する。 本稿では,2次元空間におけるクラスタリングポイントについて,人間のクラスタ化の方法に着想を得て,ニューラルネットワークをトレーニングして,プロットされたデータに対してインスタンス分割を行う方法を提案する。 私たちのアプローチであるビジュアルクラスタリングは、従来のクラスタリングアルゴリズムよりもいくつかの利点があります。既存のほとんどのクラスタリングアルゴリズムよりもはるかに高速(非常に大きなデータセットに適している)で、クラスタの人間の直観と強く一致しており、デフォルトではハイパーパラメータフリーです(ハイパーパラメータの追加ステップはアルゴリズムのさらなる制御のために導入できますが)。 本手法を合成データ上の他の10種類のクラスタリング手法と比較し,その利点と欠点を説明する。 次に,我々のアプローチを高次元データに拡張し,実世界データでの性能を示す。 Visual Clusteringの実装は公開されており、任意のデータセットに数行のコードで適用することができる。

Clustering algorithms are one of the main analytical methods to detect patterns in unlabeled data. Existing clustering methods typically treat samples in a dataset as points in a metric space and compute distances to group together similar points. In this paper, we present a wholly different way of clustering points in 2-dimensional space, inspired by how humans cluster data: by training neural networks to perform instance segmentation on plotted data. Our approach, Visual Clustering, has several advantages over traditional clustering algorithms: it is much faster than most existing clustering algorithms (making it suitable for very large datasets), it agrees strongly with human intuition for clusters, and it is by default hyperparameter free (although additional steps with hyperparameters can be introduced for more control of the algorithm). We describe the method and compare it to ten other clustering methods on synthetic data to illustrate its advantages and disadvantages. We then demonstrate how our approach can be extended to higher dimensional data and illustrate its performance on real-world data. The implementation of Visual Clustering is publicly available and can be applied to any dataset in a few lines of code.
翻訳日:2021-10-17 14:43:02 公開日:2021-10-06
# (参考訳) 2レベル単調多段推薦システム [全文訳有]

Two-level monotonic multistage recommender systems ( http://arxiv.org/abs/2110.06116v1 )

ライセンス: CC BY 4.0
Ben Dai, Xiaotong Shen, and Wei Pan(参考訳) 推薦システムは,ユーザの好みや意図を複数の項目に対して同時に予測し,比較的少数の観察結果に基づいてパーソナライズされたレコメンデーションを作成する。 中心的な問題は、イベントの単調連鎖に対するユーザ-イテムステージ依存性と呼ばれる3方向のインタラクションをどのように活用し、予測精度を高めるかである。 例えば、記事共有データセットでは、`follow'' アクションは ``like'' アクションを意味し、結果として ``view' アクションを意味する。 本稿では,イベントの単調連鎖を特徴付ける2段階の単調性を利用した多段階レコメンダシステムを構築し,パーソナライズド予測を行う。 特に,非負の付加的潜在因子モデルに基づく大きなマージン分類器を導出し,欠落する観測値,特にステージ間において,予測一貫性を保証しながらパーソナライズされた予測のためのモデルパラメータの数を減少させる。 そこで本研究では,異なる段階におけるユーザ固有の振る舞いを学習するための正規化コスト関数を導出し,決定関数を数値的および分類的共変量にリンクし,ユーザ-イテム-ステージ相互作用をモデル化する。 計算学的には,ブロックワイド座標降下に基づくアルゴリズムを導出する。 理論的には,2段階の単調性は,各段階を個別に扱う標準的な方法や,1段階の単調性のみを利用する順序法と比較して,学習の精度を高める。 最後に,提案手法を既存のシミュレーション手法や記事共有データセットと比較した。

A recommender system learns to predict the user-specific preference or intention over many items simultaneously for all users, making personalized recommendations based on a relatively small number of observations. One central issue is how to leverage three-way interactions, referred to as user-item-stage dependencies on a monotonic chain of events, to enhance the prediction accuracy. A monotonic chain of events occurs, for instance, in an article sharing dataset, where a ``follow'' action implies a ``like'' action, which in turn implies a ``view'' action. In this article, we develop a multistage recommender system utilizing a two-level monotonic property characterizing a monotonic chain of events for personalized prediction. Particularly, we derive a large-margin classifier based on a nonnegative additive latent factor model in the presence of a high percentage of missing observations, particularly between stages, reducing the number of model parameters for personalized prediction while guaranteeing prediction consistency. On this ground, we derive a regularized cost function to learn user-specific behaviors at different stages, linking decision functions to numerical and categorical covariates to model user-item-stage interactions. Computationally, we derive an algorithm based on blockwise coordinate descent. Theoretically, we show that the two-level monotonic property enhances the accuracy of learning as compared to a standard method treating each stage individually and an ordinal method utilizing only one-level monotonicity. Finally, the proposed method compares favorably with existing methods in simulations and an article sharing dataset.
翻訳日:2021-10-17 14:36:05 公開日:2021-10-06
# (参考訳) オブジェクト中心プロセスマイニングにおける精度とフィットネス [全文訳有]

Precision and Fitness in Object-Centric Process Mining ( http://arxiv.org/abs/2110.05375v1 )

ライセンス: CC BY 4.0
Jan Niklas Adams and Wil M.P. van der Aalst(参考訳) 伝統的なプロセスマイニングは、単一のケース概念のみを考慮し、これに基づいてモデルを発見し、分析する。 しかし、単一のケース概念は実際には現実的な仮定ではないことが多い。 複数のケース概念がプロセス内で相互に作用し、影響する可能性がある。 オブジェクト中心のプロセスマイニングは、複数のケース概念を扱う技術と概念を導入します。 これまでのところ、このようなイベントログは標準化されており、新しいプロセスモデル発見技術が提案されている。 しかし、モデルの品質を評価するための概念は欠落している。 これらは、オブジェクト中心の発見を改善するための将来の研究を可能にし、モデル品質の客観的評価を提供するために必要である。 本稿では,オブジェクト中心のイベントログに対して,オブジェクト中心のペトリネットの精度と適合性を示す概念を提案する。 形式的な定義を与え、これに例を添えます。 さらに,これらの品質指標を計算するアルゴリズムを提案する。 異なるモデルを用いたイベントログに基づく正確性と適合性の概念について論じる。 我々の精度と適合度の概念は、複数のケース概念、それらの依存関係、およびそれらの相互作用を考慮できるので、品質測定をオブジェクト中心の設定に一般化する適切な方法である。

Traditional process mining considers only one single case notion and discovers and analyzes models based on this. However, a single case notion is often not a realistic assumption in practice. Multiple case notions might interact and influence each other in a process. Object-centric process mining introduces the techniques and concepts to handle multiple case notions. So far, such event logs have been standardized and novel process model discovery techniques were proposed. However, notions for evaluating the quality of a model are missing. These are necessary to enable future research on improving object-centric discovery and providing an objective evaluation of model quality. In this paper, we introduce a notion for the precision and fitness of an object-centric Petri net with respect to an object-centric event log. We give a formal definition and accompany this with an example. Furthermore, we provide an algorithm to calculate these quality measures. We discuss our precision and fitness notion based on an event log with different models. Our precision and fitness notions are an appropriate way to generalize quality measures to the object-centric setting since we are able to consider multiple case notions, their dependencies and their interactions.
翻訳日:2021-10-17 12:58:01 公開日:2021-10-06
# (参考訳) テキスト専用データを用いたエンドツーエンド音声認識のための内部言語モデル適応 [全文訳有]

Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition ( http://arxiv.org/abs/2110.05354v1 )

ライセンス: CC BY 4.0
Zhong Meng, Yashesh Gaur, Naoyuki Kanda, Jinyu Li, Xie Chen, Yu Wu, Yifan Gong(参考訳) エンドツーエンド(E2E)モデルのテキストのみの適応は、自動音声認識(ASR)において難しい課題である。 言語モデル(lm) 融合ベースのアプローチでは、推論中に追加の外部lmが必要となり、計算コストが大幅に増加する。 そこで本研究では,テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。 E2Eモデルでは、エンコーダコントリビューションをゼロにした後、E2Eモデル出力によって近似されるトークンシーケンス確率を特徴付ける内部LMを暗黙的に学習する。 ILMA中は、内部のLM、すなわちエンコーダを除くE2E成分を微調整し、クロスエントロピー損失を最小限に抑える。 ILMAを効果的にするためには、標準のE2E損失に加えて内部のLM損失でE2Eモデルをトレーニングすることが不可欠である。 さらに,適応型および未適応型内部LMの出力分布間のKullback-Leiblerのばらつきを最小化し,ILMAの正則化を提案する。 ILMAは, 関節ネットワークの最後の線形層のみを更新する場合が最も有効である。 ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。 ILMAは30K時間トレーニングされたトランスデューサモデルを用いて実験し、適応していないベースラインから34.9%の単語誤り率を減少させる。

Text-only adaptation of an end-to-end (E2E) model remains a challenging task for automatic speech recognition (ASR). Language model (LM) fusion-based approaches require an additional external LM during inference, significantly increasing the computation cost. To overcome this, we propose an internal LM adaptation (ILMA) of the E2E model using text-only data. Trained with audio-transcript pairs, an E2E model implicitly learns an internal LM that characterizes the token sequence probability which is approximated by the E2E model output after zeroing out the encoder contribution. During ILMA, we fine-tune the internal LM, i.e., the E2E components excluding the encoder, to minimize a cross-entropy loss. To make ILMA effective, it is essential to train the E2E model with an internal LM loss besides the standard E2E loss. Furthermore, we propose to regularize ILMA by minimizing the Kullback-Leibler divergence between the output distributions of the adapted and unadapted internal LMs. ILMA is the most effective when we update only the last linear layer of the joint network. ILMA enables a fast text-only adaptation of the E2E model without increasing the run-time computational cost. Experimented with 30K-hour trained transformer transducer models, ILMA achieves up to 34.9% relative word error rate reduction from the unadapted baseline.
翻訳日:2021-10-17 12:23:54 公開日:2021-10-06
# (参考訳) 若年者および成人に対するディープスラップ指紋セグメンテーション [全文訳有]

Deep Slap Fingerprint Segmentation for Juveniles and Adults ( http://arxiv.org/abs/2110.04067v1 )

ライセンス: CC BY 4.0
M. G. Sarwar Murshed, Robert Kline, Keivan Bahmani, Faraz Hussain, Stephanie Schuckers(参考訳) 多くの指紋認識システムは、1つの画像に4つの指紋をキャプチャする。 このようなシステムでは、指紋処理パイプラインはまず4本の指紋を個々の指紋に分割しなければならない。 現在の指紋分割アルゴリズムは成人の指紋データのみを用いて設計・評価されている。 本研究では,4歳から12歳までの小児から採取した成人標本が9084例,成人標本が6706例である15790スラップの人為的注釈付き社内データセットを開発した。 その後、NISTが開発したスラップ指紋分割システムであるNFSEGの成人および若年者のスラップにおけるマッチング性能を評価するためにデータセットが使用される。 その結果,若年者のスラップに対するnfsegの低下が確認された。 最後に、新しいデータセットを用いて、Mask-RCNNベースのClarkson Fingerprint Segmentation (CFSEG)を開発した。 Verifinger 指紋マーカを用いたマッチングの結果,CFSEG は成人,若年者ともに NFSEG よりも優れていた。 CFSEGモデルは \url{https://github.com/k eivanB/Clarkson_Fing er_Segment} で公開されている。

Many fingerprint recognition systems capture four fingerprints in one image. In such systems, the fingerprint processing pipeline must first segment each four-fingerprint slap into individual fingerprints. Note that most of the current fingerprint segmentation algorithms have been designed and evaluated using only adult fingerprint datasets. In this work, we have developed a human-annotated in-house dataset of 15790 slaps of which 9084 are adult samples and 6706 are samples drawn from children from ages 4 to 12. Subsequently, the dataset is used to evaluate the matching performance of the NFSEG, a slap fingerprint segmentation system developed by NIST, on slaps from adults and juvenile subjects. Our results reveal the lower performance of NFSEG on slaps from juvenile subjects. Finally, we utilized our novel dataset to develop the Mask-RCNN based Clarkson Fingerprint Segmentation (CFSEG). Our matching results using the Verifinger fingerprint matcher indicate that CFSEG outperforms NFSEG for both adults and juvenile slaps. The CFSEG model is publicly available at \url{https://github.com/k eivanB/Clarkson_Fing er_Segment}
翻訳日:2021-10-12 09:49:58 公開日:2021-10-06
# (参考訳) mtofnet: 移動時間データによるオブジェクトのスプーフィング [全文訳有]

MToFNet: Object Anti-Spoofing with Mobile Time-of-Flight Data ( http://arxiv.org/abs/2110.04066v1 )

ライセンス: CC BY 4.0
Yonghyun Jeong, Doyeon Kim, Jaehyeon Lee, Minki Hong, Solbi Hwang, Jongwon Choi(参考訳) オンライン市場では、売り手はディスプレイ画面上で他人の画像を悪質に捉え直してスプーフ画像として利用することができるため、人間の目では区別が難しい可能性がある。 このような危害を防止するため,モバイルカメラがタイム・オブ・ファイトセンサーで提供する対のrgb画像と深度マップを用いたアンチ・スプーフィング手法を提案する。 画像がディスプレイ画面で再キャプチャされると、moir\'eパターンとして知られる画面によって異なる様々なパターンがspoofイメージにキャプチャされる。 これらのパターンにより、アンチスプーフィングモデルが過度に適合し、未発見のメディアで再捕獲されたスプーフィング画像を検出することができない。 この問題を回避するため、2つの埋め込みモデルからなる新しい表現モデルを構築し、再構成された画像を考慮することなく訓練することができる。 また,最大かつ多種多様なオブジェクトアンチスプーフィングデータセットであるmToFデータセットを新たに導入し,ToFデータを初めて利用した。 実験により,本モデルが未確認領域をまたいでも堅牢な一般化を実現することを確認した。

In online markets, sellers can maliciously recapture others' images on display screens to utilize as spoof images, which can be challenging to distinguish in human eyes. To prevent such harm, we propose an anti-spoofing method using the paired rgb images and depth maps provided by the mobile camera with a Time-of-Fight sensor. When images are recaptured on display screens, various patterns differing by the screens as known as the moir\'e patterns can be also captured in spoof images. These patterns lead the anti-spoofing model to be overfitted and unable to detect spoof images recaptured on unseen media. To avoid the issue, we build a novel representation model composed of two embedding models, which can be trained without considering the recaptured images. Also, we newly introduce mToF dataset, the largest and most diverse object anti-spoofing dataset, and the first to utilize ToF data. Experimental results confirm that our model achieves robust generalization even across unseen domains.
翻訳日:2021-10-12 09:42:43 公開日:2021-10-06
# マルチ解像度脳グラフアライメントと合成のためのstairwaygraphnet

StairwayGraphNet for Inter- and Intra-modality Multi-resolution Brain Graph Alignment and Synthesis ( http://arxiv.org/abs/2110.04279v1 )

ライセンス: Link先を確認
Islem Mhiri, Mohamed Ali Mahjoub and Islem Rekik(参考訳) 多要素医療データの合成は、補完的な知識を提供し、医師が正確な臨床決定を行うのを助ける。 有望ではあるが、既存のマルチモーダル脳グラフ合成フレームワークにはいくつかの制限がある。 第一に、それらは主に1つの問題(intra- or inter-modality)に取り組み、それらの一般化可能性を制限する。 第2に、単一のモダリティ(すなわちイントラモダリティ)内で低解像度の脳グラフをスーパーレゾリューションする手法は少ないが、モダリティ間のグラフスーパーレゾリューションはまだ検討されていない。 さらに重要なことに、ターゲットドメインとソースドメインの両方が異なる分布を持つ可能性がある。 これらのギャップを埋めるために、我々は、与えられたモダリティと、インタードメインとイントラドメインの両方における超解像脳グラフに基づいて、目標グラフのモダリティを共同で推測するマルチレゾリューションのStairwayGraphNet(SG- Net)フレームワークを提案する。 私たちのsg-netの主な貢献は3つあります。 一 対象グラフを、インター(形態的機能)及びイントラ(機能的機能)の両領域において、新規なグラフ生成敵ネットワークに基づいて、ソースグラフから予測すること。 (ii)時間と高価なmri処理工程を使わずに高分解能脳グラフを生成すること、及び (iii)ロス関数を緩和して最適化するために、モダリティ間調整器を用いて、基底真理グラフと一致させるようにソース分布を強制する。 さらに,地中真理脳グラフのトポロジ構造をより正確に学習するために,両ジェネレータを誘導する新たな地中真理保存損失関数を設計する。 マルチレゾリューション階段を用いた音源グラフからのターゲット脳グラフの予測に関する総合的な実験は,その変種や最先端手法と比較して,本手法の高性能性を示した。

Synthesizing multimodality medical data provides complementary knowledge and helps doctors make precise clinical decisions. Although promising, existing multimodal brain graph synthesis frameworks have several limitations. First, they mainly tackle only one problem (intra- or inter-modality), limiting their generalizability to synthesizing inter- and intra-modality simultaneously. Second, while few techniques work on super-resolving low-resolution brain graphs within a single modality (i.e., intra), inter-modality graph super-resolution remains unexplored though this would avoid the need for costly data collection and processing. More importantly, both target and source domains might have different distributions, which causes a domain fracture between them. To fill these gaps, we propose a multi-resolution StairwayGraphNet (SG-Net) framework to jointly infer a target graph modality based on a given modality and super-resolve brain graphs in both inter and intra domains. Our SG-Net is grounded in three main contributions: (i) predicting a target graph from a source one based on a novel graph generative adversarial network in both inter (e.g., morphological-functi onal) and intra (e.g., functional-functiona l) domains, (ii) generating high-resolution brain graphs without resorting to the time consuming and expensive MRI processing steps, and (iii) enforcing the source distribution to match that of the ground truth graphs using an inter-modality aligner to relax the loss function to optimize. Moreover, we design a new Ground Truth-Preserving loss function to guide both generators in learning the topological structure of ground truth brain graphs more accurately. Our comprehensive experiments on predicting target brain graphs from source graphs using a multi-resolution stairway showed the outperformance of our method in comparison with its variants and state-of-the-art method.
翻訳日:2021-10-11 14:34:34 公開日:2021-10-06
# 人体の3次元メッシュで計算した体次元から学習する神経人類学

A Neural Anthropometer Learning from Body Dimensions Computed on Human 3D Meshes ( http://arxiv.org/abs/2110.04064v1 )

ライセンス: Link先を確認
Yansel Gonz\'alez Tejeda and Helmut A. Mayer(参考訳) 人間の形状推定は、例えば3dメッシュ推定、距離衣料製造、計算科学などにおいて、理論的にも実際にも重要になっている。 さらなる専門化として、 \emph{Human Body Dimensions Estimation} (HBDE) は、通常、教師付き学習アプローチを用いて、画像や3Dメッシュから肩幅や胸部周囲などの人体計測を推定することに焦点を当てている。 この状況における主な障害は、データ不足の問題である。 この障害は、3次元メッシュからリアルな人間の測定値を取得することで克服できる。 しかし、 a) 3DメッシュからHBDを計算する方法が確立されていないこと。 b) HBDEタスクの結果を適切に比較するベンチマークは存在しない。 私たちの貢献は2倍です。 本研究では, 医用, 仮想試用, 距離調整に焦点をあてた3次元メッシュから, 左右腕長, 肩幅, インシーム(クロッチ高さ)を計算する手法を提案する。 一方、最近発表された手法を用いて計算された4つの追加の体次元を用いて、8つの体次元の集合を組み立て、これら次元を推定できる畳み込みニューラルネットワークであるニューラル・アントロポメータの監視信号として使用する。 評価のために,HBDを計算し,ネットワーク全体の平均推定誤差が20.89$ mm(相対誤差2.84\%)であることを確認する3次元メッシュの合成画像を用いてニューラル・アンロポメータを訓練した。 本研究は,HBDEの課題に対する研究の基準として,完全に再現可能であり,かつ,コミュニティに価値ある方法を可能にするものである。

Human shape estimation has become increasingly important both theoretically and practically, for instance, in 3D mesh estimation, distance garment production and computational forensics, to mention just a few examples. As a further specialization, \emph{Human Body Dimensions Estimation} (HBDE) focuses on estimating human body measurements like shoulder width or chest circumference from images or 3D meshes usually using supervised learning approaches. The main obstacle in this context is the data scarcity problem, as collecting this ground truth requires expensive and difficult procedures. This obstacle can be overcome by obtaining realistic human measurements from 3D human meshes. However, a) there are no well established methods to calculate HBDs from 3D meshes and b) there are no benchmarks to fairly compare results on the HBDE task. Our contribution is twofold. On the one hand, we present a method to calculate right and left arm length, shoulder width, and inseam (crotch height) from 3D meshes with focus on potential medical, virtual try-on and distance tailoring applications. On the other hand, we use four additional body dimensions calculated using recently published methods to assemble a set of eight body dimensions which we use as a supervision signal to our Neural Anthropometer: a convolutional neural network capable of estimating these dimensions. To assess the estimation, we train the Neural Anthropometer with synthetic images of 3D meshes, from which we calculated the HBDs and observed that the network's overall mean estimate error is $20.89$ mm (relative error of 2.84\%). The results we present are fully reproducible and establish a fair baseline for research on the task of HBDE, therefore enabling the community with a valuable method.
翻訳日:2021-10-11 13:38:23 公開日:2021-10-06
# 共変量シフトのためのテスト時間バッチ統計校正

Test-time Batch Statistics Calibration for Covariate Shift ( http://arxiv.org/abs/2110.04065v1 )

ライセンス: Link先を確認
Fuming You, Jingjing Li, Zhou Zhao(参考訳) 深層ニューラルネットワークは,共変量シフトにより,未知の環境に適用すると明らかに劣化する。 ドメイン適応のような従来のアプローチでは、実世界のアプリケーションでは実用的でない反復トレーニングのために事前に収集されたターゲットデータを必要とする。 本稿では,推論中に深層モデルを新しい環境に適応させる手法を提案する。 以前の解決策はテスト時間正規化であり、BN層のソース統計をターゲットのバッチ統計に置き換えるものである。 しかし,テスト時間正規化は,対象のバッチ統計値とソースパラメータとのミスマッチにより識別構造が劣化する可能性が示唆された。 そこで本論文では,ドメインシフトの緩和と識別構造保存の両面において,ソースとターゲット統計を混合することにより,バッチ統計を校正するための一般的な定式化として$\alpha$-BNを提案する。 さらに、$\alpha$-bnに基づいて、ペアワイズクラス相関オンライン最適化を実行する統一テスト時間適応フレームワークコアを形成するための新しい損失関数を提案する。 大規模な実験により,画像分類とセマンティックセグメンテーションの領域一般化など,3つのトピックから得られた12のデータセットの最先端性能が得られた。 特に、我々の$\alpha$-bnは、トレーニングなしで、gta5$\rightarrow$ cityscapesで28.4\%から43.9\%に改善します。

Deep neural networks have a clear degradation when applying to the unseen environment due to the covariate shift. Conventional approaches like domain adaptation requires the pre-collected target data for iterative training, which is impractical in real-world applications. In this paper, we propose to adapt the deep models to the novel environment during inference. An previous solution is test time normalization, which substitutes the source statistics in BN layers with the target batch statistics. However, we show that test time normalization may potentially deteriorate the discriminative structures due to the mismatch between target batch statistics and source parameters. To this end, we present a general formulation $\alpha$-BN to calibrate the batch statistics by mixing up the source and target statistics for both alleviating the domain shift and preserving the discriminative structures. Based on $\alpha$-BN, we further present a novel loss function to form a unified test time adaptation framework Core, which performs the pairwise class correlation online optimization. Extensive experiments show that our approaches achieve the state-of-the-art performance on total twelve datasets from three topics, including model robustness to corruptions, domain generalization on image classification and semantic segmentation. Particularly, our $\alpha$-BN improves 28.4\% to 43.9\% on GTA5 $\rightarrow$ Cityscapes without any training, even outperforms the latest source-free domain adaptation method.
翻訳日:2021-10-11 13:37:57 公開日:2021-10-06
# QTN-VQC:量子ニューラルネットワークのためのエンドツーエンド学習フレームワーク

QTN-VQC: An End-to-End Learning framework for Quantum Neural Networks ( http://arxiv.org/abs/2110.03861v1 )

ライセンス: Link先を確認
Jun Qi, Chao-Han Huck Yang, Pin-Yu Chen(参考訳) ノイズの多い中間スケール量子(nisq)コンピュータの出現は、完全な量子学習タスクのために量子ニューラルネットワークを設計するための重要な課題を提起する。 このギャップを埋めるために、変分量子回路(VQC)に量子埋め込みを行うトレーニング可能な量子テンソルネットワーク(QTN)を導入することにより、QTN-VQCと呼ばれるエンドツーエンドの学習フレームワークを提案する。 QTNのアーキテクチャは、特徴抽出のためのパラメトリックテンソルトレインネットワークと、量子符号化のためのテンソル積符号化からなる。 量子埋め込みのqtnについて,(1)入力特徴の表現力を分析して理論的にqtnを特徴づける,(2)qtnは量子埋め込みの生成から出力計測まで,エンドツーエンドのパラメトリックモデルパイプラインを可能にする,という2つの観点で強調する。 MNISTデータセットに対する我々の実験は、他の量子埋め込み手法に対する量子埋め込みに対するQTNの利点を実証している。

The advent of noisy intermediate-scale quantum (NISQ) computers raises a crucial challenge to design quantum neural networks for fully quantum learning tasks. To bridge the gap, this work proposes an end-to-end learning framework named QTN-VQC, by introducing a trainable quantum tensor network (QTN) for quantum embedding on a variational quantum circuit (VQC). The architecture of QTN is composed of a parametric tensor-train network for feature extraction and a tensor product encoding for quantum encoding. We highlight the QTN for quantum embedding in terms of two perspectives: (1) we theoretically characterize QTN by analyzing its representation power of input features; (2) QTN enables an end-to-end parametric model pipeline, namely QTN-VQC, from the generation of quantum embedding to the output measurement. Our experiments on the MNIST dataset demonstrate the advantages of QTN for quantum embedding over other quantum embedding approaches.
翻訳日:2021-10-11 13:18:05 公開日:2021-10-06
# リアルタイム鉄鉱石フィード負荷推定のための新しい弱教師付き学習手法

A New Weakly Supervised Learning Approach for Real-time Iron Ore Feed Load Estimation ( http://arxiv.org/abs/2110.04063v1 )

ライセンス: Link先を確認
Li Guo, Yonghong Peng, Rui Qin, Bingyu Liu(参考訳) 鉄鉱石供給負荷制御はミネラル研削プロセスにおいて最も重要な設定の1つであり、最終製品の品質に直接影響を及ぼす。 供給負荷の設定は主として鉱石ペレットの特性によって決定される。 しかし、鉱石の特徴付けは多くの生産環境での獲得が困難であり、供給負荷設定の低さと生産プロセスの非効率化につながる。 本稿では, 深層学習モデルを用いて, 鉱石ペレット画像からの直接の鉱石供給負荷推定を行う。 フルオールペレット画像の大型化と正確な注釈付きデータの不足による課題に対処するため、モデリングプロセス全体を弱い教師付き学習問題として扱う。 2段階モデルトレーニングアルゴリズムと2つのニューラルネットワークアーキテクチャを提案する。 実験結果は, 競合モデルの性能を示し, 訓練されたモデルを用いてリアルタイムフィード負荷推定を行った。

Iron ore feed load control is one of the most critical settings in a mineral grinding process, directly impacting the quality of final products. The setting of the feed load is mainly determined by the characteristics of the ore pellets. However, the characterisation of ore is challenging to acquire in many production environments, leading to poor feed load settings and inefficient production processes. This paper presents our work using deep learning models for direct ore feed load estimation from ore pellet images. To address the challenges caused by the large size of a full ore pellets image and the shortage of accurately annotated data, we treat the whole modelling process as a weakly supervised learning problem. A two-stage model training algorithm and two neural network architectures are proposed. The experiment results show competitive model performance, and the trained models can be used for real-time feed load estimation for grind process optimisation.
翻訳日:2021-10-11 13:16:51 公開日:2021-10-06
# (参考訳) ディープラーニングモデルキャリブレーションは,クラス不均衡医用画像分類の性能を改善するか?

Does deep learning model calibration improve performance in class-imbalanced medical image classification? ( http://arxiv.org/abs/2110.00918v2 )

ライセンス: CC BY 4.0
Sivaramakrishnan Rajaraman, Prasanth Ganesan, Sameer Antani(参考訳) 医用画像分類では、正常なサンプルの数は異常なサンプル数をはるかに超えることが一般的である。 このようなクラス不均衡な状況下では、ディープニューラルネットワークの信頼性の高いトレーニングが引き続き大きな課題である。 このような状況下では、予測されたクラス確率は多数派に偏っている可能性がある。 校正はこれらの効果を緩和するために提案されている。 しかし、モデルのキャリブレーションがパフォーマンスを改善するのに有用かどうかを説明する分析が不十分である。 本研究では,様々なディープラーニング分類器バックボーンを用いて,胸部x線像と眼底像の2つの医用画像モダリティに対するモデル校正の効果を体系的に解析する。 このために、私たちは以下のバリエーションを研究します。 (i) 訓練に使用するデータセットにおける不均衡の程度 (ii)校正方法、及び 3)2つの分類しきい値,すなわち0.5のデフォルト決定しきい値,精度・リコール曲線からの最適しきい値。 その結果, 0.5の既定動作閾値では, キャリブレーションにより達成される性能は, 未校正確率よりも有意に優れていた(p < 0.05)。 しかし、PR誘導閾値では、これらの利得は大きな違いはない(p > 0.05)。 この発見は、画像のモダリティと様々な不均衡の度合いの両方に当てはまる。

In medical image classification tasks, it is common to find that the number of normal samples far exceeds the number of abnormal samples. In such class-imbalanced situations, reliable training of deep neural networks continues to be a major challenge. Under these circumstances, the predicted class probabilities may be biased toward the majority class. Calibration has been suggested to alleviate some of these effects. However, there is insufficient analysis explaining when and whether calibrating a model would be beneficial in improving performance. In this study, we perform a systematic analysis of the effect of model calibration on its performance on two medical image modalities, namely, chest X-rays and fundus images, using various deep learning classifier backbones. For this, we study the following variations: (i) the degree of imbalances in the dataset used for training; (ii) calibration methods; and (iii) two classification thresholds, namely, default decision threshold of 0.5, and optimal threshold from precision-recall curves. Our results indicate that at the default operating threshold of 0.5, the performance achieved through calibration is significantly superior (p < 0.05) to using uncalibrated probabilities. However, at the PR-guided threshold, these gains are not significantly different (p > 0.05). This finding holds for both image modalities and at varying degrees of imbalance.
翻訳日:2021-10-10 09:19:54 公開日:2021-10-06
# (参考訳) 双対性を用いた線形整流ユニットによる深部ニューラルネットワークの遠方化 [全文訳有]

Disentangling deep neural networks with rectified linear units using duality ( http://arxiv.org/abs/2110.03403v1 )

ライセンス: CC BY 4.0
Chandrashekar Lakshminarayanan and Amit Vikram Singh(参考訳) 彼らの成功にもかかわらず、ディープニューラルネットワーク(DNN)は依然としてブラックボックスと見なされている。 主な問題は、線形および非線形操作がすべての層に絡み合っており、隠された層出力の解釈が難しいことである。 本稿では,修正線形単位(ReLU)を持つDNNを考察し,ReLUのゲーティング特性(on/off状態)に着目した。 本稿では,近年開発された2つの視点を拡張し,ゲート内の学習がより重要であることを示すために,入力とゲートに依存するいわゆるニューラルパスカーネル(npk)を用いて,ゲートに与えられた重みを解析的に学習する。 本稿では,グローバルプールとスキップ接続との畳み込みがNPKにそれぞれ回転不変性およびアンサンブル構造をもたらすことを示す新しい結果を示す。 ブラックボックス」ネスに対処するため,ReLUs(Deep linearly gated Network, DLGN)を用いた新しいDNNの解釈可能な手法を提案し, ゲートへの事前アクティベーションはディープリニアネットワークによって生成され, ゲートは外部マスクとして適用され, 異なるネットワークで重みを学習する。 DLGNは、それ自体が代替アーキテクチャではなく、ReLUを持つDNN内の計算の切り離しと解釈可能な再配列である。 DLGNは計算を2つの「数学的」解釈可能な線形性に分解する (i)ゲーティングネットワークにおける入力と事前活性化との間の「一次」線形性と (2)NPKによって特徴づけられる重み付けネットワークにおける経路空間の「双対」線型性。 CIFAR-10およびCIFAR-100におけるDNN, DGN, DLGNの性能を比較して, DLGNは最先端DNNの性能の83.5\%以上を回復することを示した。 これは「DLGNは普遍スペクトル近似器か?」という興味深い疑問をもたらす。

Despite their success deep neural networks (DNNs) are still largely considered as black boxes. The main issue is that the linear and non-linear operations are entangled in every layer, making it hard to interpret the hidden layer outputs. In this paper, we look at DNNs with rectified linear units (ReLUs), and focus on the gating property (`on/off' states) of the ReLUs. We extend the recently developed dual view in which the computation is broken path-wise to show that learning in the gates is more crucial, and learning the weights given the gates is characterised analytically via the so called neural path kernel (NPK) which depends on inputs and gates. In this paper, we present novel results to show that convolution with global pooling and skip connection provide respectively rotational invariance and ensemble structure to the NPK. To address `black box'-ness, we propose a novel interpretable counterpart of DNNs with ReLUs namely deep linearly gated networks (DLGN): the pre-activations to the gates are generated by a deep linear network, and the gates are then applied as external masks to learn the weights in a different network. The DLGN is not an alternative architecture per se, but a disentanglement and an interpretable re-arrangement of the computations in a DNN with ReLUs. The DLGN disentangles the computations into two `mathematically' interpretable linearities (i) the `primal' linearity between the input and the pre-activations in the gating network and (ii) the `dual' linearity in the path space in the weights network characterised by the NPK. We compare the performance of DNN, DGN and DLGN on CIFAR-10 and CIFAR-100 to show that, the DLGN recovers more than $83.5\%$ of the performance of state-of-the-art DNNs. This brings us to an interesting question: `Is DLGN a universal spectral approximator?'
翻訳日:2021-10-09 13:42:00 公開日:2021-10-06
# (参考訳) FinCausal 2021におけるNUS-IDS: グラフニューラルネットワークの依存性ツリーによる原因検出 [全文訳有]

NUS-IDS at FinCausal 2021: Dependency Tree in Graph Neural Network for Better Cause-Effect Span Detection ( http://arxiv.org/abs/2110.02991v1 )

ライセンス: CC BY 4.0
Fiona Anting Tan, See-Kiong Ng(参考訳) 財務事象につながる要因の因果モデリングや理解には, 財務文書の因果関係の自動同定が重要である。 単語が係り受け木で同じ因果効果型を持つ他の単語とより結びつくという観察を生かすために,グラフニューラルネットワークによる係り受け関係の特徴を取り入れ,有用なグラフ埋め込みを構築する。 我々のモデルは、Viterbiデコード付きベースラインBERTトークン分類器の上に構築され、クロスバリデーションおよび競合の間、このベースラインよりも優れています。 フィンカウサル2021のオフィシャルランでは、95.56%、95.56%、95.57%、95.57%の精度、リコール、f1スコアがそれぞれ第1位、そして86.05%の正確なマッチスコアが第3位であった。

Automatic identification of cause-effect spans in financial documents is important for causality modelling and understanding reasons that lead to financial events. To exploit the observation that words are more connected to other words with the same cause-effect type in a dependency tree, we construct useful graph embeddings by incorporating dependency relation features through a graph neural network. Our model builds on a baseline BERT token classifier with Viterbi decoding, and outperforms this baseline in cross-validation and during the competition. In the official run of FinCausal 2021, we obtained Precision, Recall, and F1 scores of 95.56%, 95.56% and 95.57% that all ranked 1st place, and an Exact Match score of 86.05% which ranked 3rd place.
翻訳日:2021-10-09 13:16:12 公開日:2021-10-06
# (参考訳) 非剛性形状マッチングのための正規埋め込み学習 [全文訳有]

Learning Canonical Embedding for Non-rigid Shape Matching ( http://arxiv.org/abs/2110.02994v1 )

ライセンス: CC BY 4.0
Abhishek Sharma, Maks Ovsjanikov(参考訳) 本稿では,非剛体形状マッチングのための標準埋め込み学習フレームワークを提案する。 この方向での以前の作業とは対照的に、このフレームワークはエンドツーエンドでトレーニングされており、一般的に使用されているlaplace-beltrami基底やシーケンシャル最適化スキームに関連する不安定性と制約を避けています。 複数のデータセットにおいて,深層関数マップを用いた自己対称性マップの学習は,単純最寄り探索による非剛性形状対応を容易にする低次元正準埋め込みに3次元形状を投影する。 FAUST と SHREC のベンチマークでは,計算コストが低く,データ効率が良く,頑健である。

This paper provides a novel framework that learns canonical embeddings for non-rigid shape matching. In contrast to prior work in this direction, our framework is trained end-to-end and thus avoids instabilities and constraints associated with the commonly-used Laplace-Beltrami basis or sequential optimization schemes. On multiple datasets, we demonstrate that learning self symmetry maps with a deep functional map projects 3D shapes into a low dimensional canonical embedding that facilitates non-rigid shape correspondence via a simple nearest neighbor search. Our framework outperforms multiple recent learning based methods on FAUST and SHREC benchmarks while being computationally cheaper, data-efficient, and robust.
翻訳日:2021-10-09 13:07:48 公開日:2021-10-06
# (参考訳) 最適輸送図を用いた生成モデル [全文訳有]

Generative Modeling with Optimal Transport Maps ( http://arxiv.org/abs/2110.02999v1 )

ライセンス: CC BY 4.0
Litu Rout and Alexander Korotin and Evgeny Burnaev(参考訳) Wasserstein GANの発見により、最適輸送(OT)は大規模生成モデリングタスクの強力なツールとなった。 これらのタスクでは、一般的にOTコストがGANのトレーニングの損失として使用される。 このアプローチとは対照的に、OTマップ自体が生成モデルとして利用でき、同等の性能を提供できることを示す。 以前の類似したアプローチでは、OT写像は、元の高次元の周囲空間における性能が劣る故に、潜在空間においてのみ生成モデルとみなす。 対照的に、ot写像は周囲の空間、例えば高次元画像の空間に直接適用する。 まず,2次コスト (Wasserstein-2 距離) で効率的に OT マップを計算するための min-max 最適化アルゴリズムを導出する。 次に、入力分布と出力分布が異なる次元の空間内にあり、計算されたOTマップの誤差境界を導出する場合にアプローチを拡張する。 画像生成および非ペア画像復元タスクにおけるアルゴリズムを評価する。 特に、出力(復元)画像が入力(劣化)画像に近いことが期待されるため、復元マップの最適性が所望の属性であるデノイジング、カラー化、インパインティングについて検討する。

With the discovery of Wasserstein GANs, Optimal Transport (OT) has become a powerful tool for large-scale generative modeling tasks. In these tasks, OT cost is typically used as the loss for training GANs. In contrast to this approach, we show that the OT map itself can be used as a generative model, providing comparable performance. Previous analogous approaches consider OT maps as generative models only in the latent spaces due to their poor performance in the original high-dimensional ambient space. In contrast, we apply OT maps directly in the ambient space, e.g., a space of high-dimensional images. First, we derive a min-max optimization algorithm to efficiently compute OT maps for the quadratic cost (Wasserstein-2 distance). Next, we extend the approach to the case when the input and output distributions are located in the spaces of different dimensions and derive error bounds for the computed OT map. We evaluate the algorithm on image generation and unpaired image restoration tasks. In particular, we consider denoising, colorization, and inpainting, where the optimality of the restoration map is a desired attribute, since the output (restored) image is expected to be close to the input (degraded) one.
翻訳日:2021-10-09 12:53:18 公開日:2021-10-06
# (参考訳) baum-welchアルゴリズムを用いたマルコフ決定過程のアクティブ学習(拡張) [全文訳有]

Active Learning of Markov Decision Processes using Baum-Welch algorithm (Extended) ( http://arxiv.org/abs/2110.03014v1 )

ライセンス: CC BY 4.0
Giovanni Bacci, Anna Ing\'olfsd\'ottir, Kim Larsen, Rapha\"el Reynouard(参考訳) サイバー物理システム(cpss)は、非決定論的かつ確率的ダイナミクスを持つリアクティブシステムとして自然にモデル化される。 モデルに基づく検証技術は安全クリティカルなCPSの展開に有効であることが証明された。 このような手法をうまく応用するための中心は、システムのための正確な形式モデルの構築である。 手動構築は、リソースの要求とエラーを起こしやすいプロセスであり、自動学習アルゴリズムの設計を動機付け、観測されたシステムの振る舞いからシステムモデルを合成する。 本稿では,マルコフ決定過程とマルコフ連鎖を学習するためのBaum-Welchアルゴリズムを再検討し,適応する。 通常、より多くの観測を必要とするMDPの場合、現在のモデル仮説の最も有益な例を選択するモデルベースのアクティブラーニングサンプリング戦略を示す。 本手法を最先端ツールと比較し,提案手法が正確なモデルを得るのに必要な観察回数を大幅に削減できることを実証する。

Cyber-physical systems (CPSs) are naturally modelled as reactive systems with nondeterministic and probabilistic dynamics. Model-based verification techniques have proved effective in the deployment of safety-critical CPSs. Central for a successful application of such techniques is the construction of an accurate formal model for the system. Manual construction can be a resource-demanding and error-prone process, thus motivating the design of automata learning algorithms to synthesise a system model from observed system behaviours. This paper revisits and adapts the classic Baum-Welch algorithm for learning Markov decision processes and Markov chains. For the case of MDPs, which typically demand more observations, we present a model-based active learning sampling strategy that choses examples which are most informative w.r.t.\ the current model hypothesis. We empirically compare our approach with state-of-the-art tools and demonstrate that the proposed active learning procedure can significantly reduce the number of observations required to obtain accurate models.
翻訳日:2021-10-09 12:27:27 公開日:2021-10-06
# (参考訳) Tribuo: Javaでのプロヴァンスによる機械学習 [全文訳有]

Tribuo: Machine Learning with Provenance in Java ( http://arxiv.org/abs/2110.03022v1 )

ライセンス: CC BY 4.0
Adam Pocock(参考訳) 機械学習モデルは、幅広い産業に展開され、幅広いタスクを実行します。 これらのモデルを追跡し、適切に振る舞うことを保証することは、デプロイされたモデルの数が増えるにつれてますます難しくなっている。 MLシステムには新たな規制上の負担があり、リスクの高い状況では、モデルとトレーニングデータの間にリンクが必要である。 現在のML監視システムは、しばしばMLライブラリの上の層として証明と実験の追跡を提供し、追跡されたオブジェクトとメタデータの間の不完全なトラッキングとスキューのスペースを可能にする。 本稿では,モデルトレーニング,推論,強力な型安全性,実行時チェック,自動証明記録をひとつのフレームワークに統合したJava MLライブラリTribuoを紹介する。 Tribuoのモデルと評価はすべて、トレーニングアルゴリズム、ハイパーパラメータ、データ変換ステップとともに、入力データの完全な処理パイプラインを自動で記録する。 証明はモデルオブジェクト内に存在し、共通のマークアップフォーマットを使用して別々に永続化できる。 Tribuoは、XGBoost、TensorFlow、ONNX Runtimeのインターフェースとともに、分類、回帰、クラスタリング、マルチラベル分類、異常検出のための多くの一般的なMLアルゴリズムを実装している。 TribuoのソースコードはApache 2.0ライセンスでhttps://github.com/o racle/tribuoで入手できる。

Machine Learning models are deployed across a wide range of industries, performing a wide range of tasks. Tracking these models and ensuring they behave appropriately is becoming increasingly difficult as the number of deployed models increases. There are also new regulatory burdens for ML systems which affect human lives, requiring a link between a model and its training data in high-risk situations. Current ML monitoring systems often provide provenance and experiment tracking as a layer on top of an ML library, allowing room for imperfect tracking and skew between the tracked object and the metadata. In this paper we introduce Tribuo, a Java ML library that integrates model training, inference, strong type-safety, runtime checking, and automatic provenance recording into a single framework. All Tribuo's models and evaluations record the full processing pipeline for input data, along with the training algorithms, hyperparameters and data transformation steps automatically. The provenance lives inside the model object and can be persisted separately using common markup formats. Tribuo implements many popular ML algorithms for classification, regression, clustering, multi-label classification and anomaly detection, along with interfaces to XGBoost, TensorFlow and ONNX Runtime. Tribuo's source code is available at https://github.com/o racle/tribuo under an Apache 2.0 license with documentation and tutorials available at https://tribuo.org.
翻訳日:2021-10-09 12:11:25 公開日:2021-10-06
# (参考訳) 低リソースダブルボンド:低リソース機械翻訳におけるプルーニングの実証的研究 [全文訳有]

The Low-Resource Double Bind: An Empirical Study of Pruning for Low-Resource Machine Translation ( http://arxiv.org/abs/2110.03036v1 )

ライセンス: CC BY 4.0
Orevaoghene Ahia, Julia Kreutzer, Sara Hooker(参考訳) ディープニューラルネットワークのパラメータ数の増加によって、最先端のネットワークを計算制限された環境でアクセス可能にすることがますます難しくなっている。 圧縮技術はギャップを埋める手段として重要視されている。 しかし、一般的な圧縮技術によるトレードオフの評価は、高リソースデータセットを中心に行われている。 本研究では,データ制限方式における圧縮の影響について考察する。 本稿では,データ制限と計算資源制約の共起を指すために,低リソースのダブルバインドという用語を導入する。 これは低リソース言語のNLPでは一般的な設定だが、性能上のトレードオフは十分に研究されていない。 本研究は,機械翻訳作業におけるデータ制限レジームにおけるキャパシティと一般化の関係について,驚くべき知見を与える。 ヨルバ語、ハウサ語、イグボ語、ドイツ語への翻訳のための大まかなプルーニング実験では、低資源体制では、スパーサリティは頻繁な文のパフォーマンスを保っているが、頻度の低い文には異なる影響があることが示されている。 しかし、特にトレーニング分布と非常に異なるデータセットに対して、分散外シフトに対する堅牢性が向上する。 以上の結果から,スパーシティは低周波特性の記憶抑制に有益であり,低リソースの二重結合に対する有望な解決法であることが示唆された。

A "bigger is better" explosion in the number of parameters in deep neural networks has made it increasingly challenging to make state-of-the-art networks accessible in compute-restricted environments. Compression techniques have taken on renewed importance as a way to bridge the gap. However, evaluation of the trade-offs incurred by popular compression techniques has been centered on high-resource datasets. In this work, we instead consider the impact of compression in a data-limited regime. We introduce the term low-resource double bind to refer to the co-occurrence of data limitations and compute resource constraints. This is a common setting for NLP for low-resource languages, yet the trade-offs in performance are poorly studied. Our work offers surprising insights into the relationship between capacity and generalization in data-limited regimes for the task of machine translation. Our experiments on magnitude pruning for translations from English into Yoruba, Hausa, Igbo and German show that in low-resource regimes, sparsity preserves performance on frequent sentences but has a disparate impact on infrequent ones. However, it improves robustness to out-of-distribution shifts, especially for datasets that are very distinct from the training distribution. Our findings suggest that sparsity can play a beneficial role at curbing memorization of low frequency attributes, and therefore offers a promising solution to the low-resource double bind.
翻訳日:2021-10-09 12:03:54 公開日:2021-10-06
# (参考訳) 深層強化学習を用いた最適レコメンダシステム

Optimized Recommender Systems with Deep Reinforcement Learning ( http://arxiv.org/abs/2110.03039v1 )

ライセンス: CC BY 4.0
Lucas Farris(参考訳) Recommender Systemsはオンライン小売の基盤となっている。 従来はルール、適合度スコア、ランキングアルゴリズム、教師付き学習アルゴリズムに基づいていたが、現在では強化学習アルゴリズムを使用して有意義な推奨を生成することは可能である。 本研究は,再現性テストベッドの設置方法を調査し,現実的な環境下での異なる技術アルゴリズムの状態を評価する。 提案、文献レビュー、方法論、結果、コメントが含まれています。

Recommender Systems have been the cornerstone of online retailers. Traditionally they were based on rules, relevance scores, ranking algorithms, and supervised learning algorithms, but now it is feasible to use reinforcement learning algorithms to generate meaningful recommendations. This work investigates and develops means to setup a reproducible testbed, and evaluate different state of the art algorithms in a realistic environment. It entails a proposal, literature review, methodology, results, and comments.
翻訳日:2021-10-09 11:41:37 公開日:2021-10-06
# (参考訳) エンドツーエンドASRにおけるカテゴリ的特徴の統合 [全文訳有]

Integrating Categorical Features in End-to-End ASR ( http://arxiv.org/abs/2110.03047v1 )

ライセンス: CC BY 4.0
Rongqing Huang(参考訳) all-neural, end-to-end asrシステムは音声認識コミュニティから急速に注目を集めた。 このようなシステムは、単一のトレーニング可能なニューラルネットワークモデルを用いて、音声入力をテキスト単位に変換する。 E2Eモデルは、入手するのに高価な大量のペア音声テキストデータを必要とする。 利用可能なデータの量は言語や方言によって異なる。 これらのデータをすべて利用すれば、低リソース言語と高リソース言語の両方を改善することが可能になります。 新しいアプリケーションドメインのためにasrシステムをデプロイしたい場合、ドメイン固有のトレーニングデータの量は非常に限られています。 既存のドメインからのデータを活用できることは、新しいドメインにおけるASRの精度にとって重要である。 本稿では,これら全ての側面をASRシステムにおける分類情報として扱うとともに,分類的特徴をE2Eモデルに統合する簡易かつ効果的な方法を提案する。 様々なトレーニング戦略に関する詳細な分析を行い,複数の個別学習モデルよりもカテゴリ的特徴を含むジョイントモデルの構築が正確であることを見出した。

All-neural, end-to-end ASR systems gained rapid interest from the speech recognition community. Such systems convert speech input to text units using a single trainable neural network model. E2E models require large amounts of paired speech text data that is expensive to obtain. The amount of data available varies across different languages and dialects. It is critical to make use of all these data so that both low resource languages and high resource languages can be improved. When we want to deploy an ASR system for a new application domain, the amount of domain specific training data is very limited. To be able to leverage data from existing domains is important for ASR accuracy in the new domain. In this paper, we treat all these aspects as categorical information in an ASR system, and propose a simple yet effective way to integrate categorical features into E2E model. We perform detailed analysis on various training strategies, and find that building a joint model that includes categorical features can be more accurate than multiple independently trained models.
翻訳日:2021-10-09 11:40:49 公開日:2021-10-06
# (参考訳) 単一パス不確実性推定のための証拠深層学習に関する調査 [全文訳有]

A Survey on Evidential Deep Learning For Single-Pass Uncertainty Estimation ( http://arxiv.org/abs/2110.03051v1 )

ライセンス: CC BY 4.0
Dennis Ulmer(参考訳) ディープニューラルネットワークにおける予測の不確かさを定量化するための一般的なアプローチは、例えば ensembling や monte carlo dropout といった、重みやモデルセットを含むことが多い。 これらの手法は通常、複数のモデルインスタンスをトレーニングしたり、非常に多様な予測を行なわなくてもオーバーヘッドが発生する。 この調査は、Evidential Deep Learningという概念に基づいた、別のモデルのクラスを読者に親しみやすくすることを目的としている。 さらに、単一のモデルにおける不確実性の推定と、分布上の分布のパラメータ化によるフォワードパスを可能にする。 この調査は、分類設定における実装に焦点をあて、既存の作業を再カプセル化する。 最後に、回帰問題に対する同じパラダイムの適用について調査する。 また,上記のアプローチの強みと弱みを,既存のアプローチと比較して考察し,今後の研究を知らせるために最も中心的な理論結果を提供する。

Popular approaches for quantifying predictive uncertainty in deep neural networks often involve a set of weights or models, for instance via ensembling or Monte Carlo Dropout. These techniques usually produce overhead by having to train multiple model instances or do not produce very diverse predictions. This survey aims to familiarize the reader with an alternative class of models based on the concept of Evidential Deep Learning: For unfamiliar data, they admit "what they don't know" and fall back onto a prior belief. Furthermore, they allow uncertainty estimation in a single model and forward pass by parameterizing distributions over distributions. This survey recapitulates existing works, focusing on the implementation in a classification setting. Finally, we survey the application of the same paradigm to regression problems. We also provide a reflection on the strengths and weaknesses of the mentioned approaches compared to existing ones and provide the most central theoretical results in order to inform future research.
翻訳日:2021-10-09 11:32:44 公開日:2021-10-06
# (参考訳) システムから見たフェデレーション学習ハイパーパラメータの自動チューニング [全文訳有]

Automatic Tuning of Federated Learning Hyper-Parameters from System Perspective ( http://arxiv.org/abs/2110.03061v1 )

ライセンス: CC BY 4.0
Huanle Zhang and Mi Zhang and Xin Liu and Prasant Mohapatra and Michael DeLucia(参考訳) Federated Learning(FL)は、クライアントのデータプライバシを保存する分散モデルトレーニングパラダイムである。 FLハイパーパラメータは、時間、計算、通信の点でトレーニングのオーバーヘッドに大きく影響する。 しかし、FLハイパーパラメーターを手動で選択する現在の実践は、様々なアプリケーションで異なるトレーニング嗜好が好まれるため、FL実践者に高い負担を与える。 本稿では,FLトレーニングの多様なシステム要件に合わせて自動FLハイパーパラメータチューニングアルゴリズムであるFedTuningを提案する。 fedtuningは軽量でフレキシブルであり、固定flハイパーパラメータと比較して、時間、計算、通信の異なるトレーニング好みに対して平均41%の改善を達成している。 FedTuningはhttps://github.com/d tczhl/FedTuning.comで入手できる。

Federated learning (FL) is a distributed model training paradigm that preserves clients' data privacy. FL hyper-parameters significantly affect the training overheads in terms of time, computation, and communication. However, the current practice of manually selecting FL hyper-parameters puts a high burden on FL practitioners since various applications prefer different training preferences. In this paper, we propose FedTuning, an automatic FL hyper-parameter tuning algorithm tailored to applications' diverse system requirements of FL training. FedTuning is lightweight and flexible, achieving an average of 41% improvement for different training preferences on time, computation, and communication compared to fixed FL hyper-parameters. FedTuning is available at https://github.com/d tczhl/FedTuning.
翻訳日:2021-10-09 11:00:32 公開日:2021-10-06
# (参考訳) ニューラルネットワーク翻訳における文構造変化に不変なニューロンについて [全文訳有]

On Neurons Invariant to Sentence Structural Changes in Neural Machine Translation ( http://arxiv.org/abs/2110.03067v1 )

ライセンス: CC BY 4.0
Gal Patel, Leshem Choshen and Omri Abend(参考訳) 神経細胞の役割を解明するために、我々は、意味保存パラフレーズ(例えば、アクティブパス)に対応する活性化パターンを研究する。 英語の文法的パラフレーズのデータセットを、その参照ドイツ語翻訳でコンパイルし、トランスフォーマー翻訳モデルを用いてモデル非依存のアプローチを実証する。 まず、パラフラスにまたがって相関するニューロンを同定し、観測された相関を考えられるコンファンスに分類する。 低レベルのコンポーネントは類似したアクティベーションの原因として見出されるが、文レベルのセマンティクスや構文はローカルに検出されない。 その後、ニューロン活性化を操り、特定の構文形式への翻訳に影響を与える。 単純な値シフトは有効であり、多くのニューロンが修正されるとより効果的になる。 これらは、複雑な構文構成が実際にモデルにコード化されていることを示唆する。 結論として,最初に得られた相関を用いてよりうまく操作する方法について論じた。

To gain insight into the role neurons play, we study the activation patterns corresponding to meaning-preserving paraphrases (e.g., active-passive). We compile a dataset of controlled syntactic paraphrases in English with their reference German translations and demonstrate our model-agnostic approach with the Transformer translation model. First, we identify neurons that correlate across paraphrases and dissect the observed correlation into possible confounds. Although lower-level components are found as the cause of similar activations, no sentence-level semantics or syntax are detected locally. Later, we manipulate neuron activations to influence translation towards a particular syntactic form. We find that a simple value shift is effective, and more so when many neurons are modified. These suggest that complex syntactic constructions are indeed encoded in the model. We conclude by discussing how to better manipulate it using the correlations we first obtained.
翻訳日:2021-10-09 10:46:06 公開日:2021-10-06
# (参考訳) 学習ディスクリプタを用いた大規模地形レーダ定位 [全文訳有]

Large-Scale Topological Radar Localization Using Learned Descriptors ( http://arxiv.org/abs/2110.03081v1 )

ライセンス: CC BY 4.0
Jacek Komorowski, Monika Wysoczanska, Tomasz Trzcinski(参考訳) 本研究では,学習用ディスクリプタを用いたレーダスキャン画像に基づく大規模トポロジカルローカライズ手法を提案する。 本稿では、レーダースキャン画像から回転不変なグローバルディスクリプタを計算するための、単純かつ効率的なディープネットワークアーキテクチャを提案する。 提案手法の性能と一般化能力を,MulRanとOxford Radar RobotCarの2つの大規模運転データセットで実験的に評価した。 さらに,学習したグローバルディスクリプタを用いたレーダベースとLiDARベースのローカライゼーションの比較評価を行った。 私たちのコードとトレーニングされたモデルはプロジェクトのWebサイトで公開されています。

In this work, we propose a method for large-scale topological localization based on radar scan images using learned descriptors. We present a simple yet efficient deep network architecture to compute a rotationally invariant discriminative global descriptor from a radar scan image. The performance and generalization ability of the proposed method is experimentally evaluated on two large scale driving datasets: MulRan and Oxford Radar RobotCar. Additionally, we present a comparative evaluation of radar-based and LiDAR-based localization using learned global descriptors. Our code and trained models are publicly available on the project website.
翻訳日:2021-10-09 10:21:03 公開日:2021-10-06
# (参考訳) DNNはどのショートカットキューツを選ぶのか? パラメータ空間の観点からの考察 [全文訳有]

Which Shortcut Cues Will DNNs Choose? A Study from the Parameter-Space Perspective ( http://arxiv.org/abs/2110.03095v1 )

ライセンス: CC BY 4.0
Luca Scimeca, Seong Joon Oh, Sanghyuk Chun, Michael Poli, Sangdoo Yun(参考訳) ディープニューラルネットワーク(DNN)は、手前の問題に必ずしも必須ではない、容易に学習できる識別機能(cue)に依存していることが多い。 例えば、画像の中のアヒルは、湖や小川のような典型的な背景風景に基づいて認識される。 この現象はショートカット学習としても知られ、現在の世代の機械学習モデルの鍵となる限界として現れつつある。 本研究では,ショートカット学習の理解を深めるための一連の実験とその意義について紹介する。 wcst-mlと名づけたいくつかのショートカットキューを用いたトレーニングセットをデザインし,それぞれのキューが目の視覚認識問題に対して等しく帰結する。 機会が等しくても,(1)特定のキューが他より望ましいこと,(2)学習しやすいキューに偏った解が損失面上の比較的平坦なミニマに収束する傾向,(3)好まれるキューに焦点を絞った解がパラメータ空間においてはるかに豊富であること,などが観察される。 そこで,Kolmogorov-simple cues に対応する解はパラメータ空間に豊富であり,DNN に好まれる。 本研究は,合成データセットDSpritesと顔データセットUTKFaceに基づく。 WCST-MLでは、モデルの生まれながらの偏見が、色や民族といった単純な手がかりに傾いていることが観察されている。 本研究は,社会に悪影響を及ぼす可能性のある内因性モデルバイアスを除去する活動的介入の重要性を強調した。

Deep neural networks (DNNs) often rely on easy-to-learn discriminatory features, or cues, that are not necessarily essential to the problem at hand. For example, ducks in an image may be recognized based on their typical background scenery, such as lakes or streams. This phenomenon, also known as shortcut learning, is emerging as a key limitation of the current generation of machine learning models. In this work, we introduce a set of experiments to deepen our understanding of shortcut learning and its implications. We design a training setup with several shortcut cues, named WCST-ML, where each cue is equally conducive to the visual recognition problem at hand. Even under equal opportunities, we observe that (1) certain cues are preferred to others, (2) solutions biased to the easy-to-learn cues tend to converge to relatively flat minima on the loss surface, and (3) the solutions focusing on those preferred cues are far more abundant in the parameter space. We explain the abundance of certain cues via their Kolmogorov (descriptional) complexity: solutions corresponding to Kolmogorov-simple cues are abundant in the parameter space and are thus preferred by DNNs. Our studies are based on the synthetic dataset DSprites and the face dataset UTKFace. In our WCST-ML, we observe that the inborn bias of models leans toward simple cues, such as color and ethnicity. Our findings emphasize the importance of active human intervention to remove the inborn model biases that may cause negative societal impacts.
翻訳日:2021-10-09 10:09:51 公開日:2021-10-06
# (参考訳) 深層学習を用いたSWAT流域モデル校正 [全文訳有]

SWAT Watershed Model Calibration using Deep Learning ( http://arxiv.org/abs/2110.03097v1 )

ライセンス: CC BY 4.0
M. K. Mudunuru, K. Son, P. Jiang, X. Chen(参考訳) 土壌および水質評価ツール(swat)のような流域モデルは、高次元の物理的および経験的パラメータで構成されている。 これらのパラメータは、流量、蒸発散、積雪水等価量、および栄養負荷の信頼できる予測を生成するモデルに対して正確に調整する必要がある。 既存のパラメータ推定法は、時間消費、非効率、計算集約であり、高次元パラメータを推定する際に精度が低下する。 本稿では,深層学習(DL)を用いてSWATモデル(21パラメータ)を校正する,高速で正確かつ信頼性の高い手法を提案する。 畳み込みニューラルネットワークに基づくDL対応逆モデルを構築し,ストリームフローデータを取り込み,SWATモデルパラメータを推定する。 最適ニューラルネットワークアーキテクチャと次の9つのベスト候補を特定するために、ハイパーパラメータチューニングが実行される。 以上のDLモデルのトレーニング,検証,テストには,アンサンブルSWATシミュレーションを用いる。 観測データを用いてSWATモデルの実際のパラメータを推定した。 太平洋北西部のヤキマ川流域に位置するアメリカン川流域において,提案したDL手法を検証,検証した。 その結果,DLモデルに基づくキャリブレーションは,一般化された不確実性推定(GLUE)のような従来のパラメータ推定手法よりも優れていることがわかった。 DLにより推定される行動パラメータ集合はGLUEよりも狭く、相対的誤差が高い場合であってもサンプリング範囲内で値を生成する。 この狭い範囲のパラメータは、ノイズ下であっても精度の高いパラメータを正確に推定するワークフローの信頼性を示す。 プロセスパラメータの迅速かつ合理的な推定のため,提案するDLワークフローは,大規模な空間的応用のための統合水理モデルの校正に有用である。

Watershed models such as the Soil and Water Assessment Tool (SWAT) consist of high-dimensional physical and empirical parameters. These parameters need to be accurately calibrated for models to produce reliable predictions for streamflow, evapotranspiration, snow water equivalent, and nutrient loading. Existing parameter estimation methods are time-consuming, inefficient, and computationally intensive, with reduced accuracy when estimating high-dimensional parameters. In this paper, we present a fast, accurate, and reliable methodology to calibrate the SWAT model (i.e., 21 parameters) using deep learning (DL). We develop DL-enabled inverse models based on convolutional neural networks to ingest streamflow data and estimate the SWAT model parameters. Hyperparameter tuning is performed to identify the optimal neural network architecture and the nine next best candidates. We use ensemble SWAT simulations to train, validate, and test the above DL models. We estimated the actual parameters of the SWAT model using observational data. We test and validate the proposed DL methodology on the American River Watershed, located in the Pacific Northwest-based Yakima River basin. Our results show that the DL models-based calibration is better than traditional parameter estimation methods, such as generalized likelihood uncertainty estimation (GLUE). The behavioral parameter sets estimated by DL have narrower ranges than GLUE and produce values within the sampling range even under high relative observational errors. This narrow range of parameters shows the reliability of the proposed workflow to estimate sensitive parameters accurately even under noise. Due to its fast and reasonably accurate estimations of process parameters, the proposed DL workflow is attractive for calibrating integrated hydrologic models for large spatial-scale applications.
翻訳日:2021-10-09 09:50:29 公開日:2021-10-06
# (参考訳) トラベリングセールスマン問題最適化のためのハイブリッドポインタネットワーク [全文訳有]

Hybrid Pointer Networks for Traveling Salesman Problems Optimization ( http://arxiv.org/abs/2110.03104v1 )

ライセンス: CC BY 4.0
Ahmed Stohy, Heba-Tullah Abdelhakam, Sayed Ali, Mohammed Elhenawy, Abdallah A Hassan, Mahmoud Masoud, Sebastien Glaser and Andry Rakotonirainy(参考訳) 本稿では,ハイブリッドネットワークである組合せ最適化問題に対して,優れた結果をもたらす新たなアイデアを提案する。 この手法をグラフポインタネットワーク[1]に適用し,その能力をより高いレベルまで拡張した。 強化学習によって学習されるセールスマン問題を解くためのハイブリッドポインターネットワーク(hpn)を提案する。 さらに、HPNはグラフ埋め込み層を付加したポインタネットワークの拡張であるグラフポインタネットワークの上に構築する。 HPNは、ハイブリッドエンコーダにより、グラフポインタネットワークのソリューション品質よりも優れており、モデルに検証エンコーディング型を提供し、より優れたポリシーに収束することができる。 我々のネットワークは2opt, Pointer Network, Attention Model, および広範囲のモデルを用いずに, TSP50の性能を5.959から5.706に向上させ, 高度に調整されたアルゴリズムに匹敵する結果をもたらす。 データやモデル,コードなどが公開されています[2]。

In this work, a novel idea is presented for combinatorial optimization problems, a hybrid network, which results in a superior outcome. We applied this method to graph pointer networks [1], expanding its capabilities to a higher level. We proposed a hybrid pointer network (HPN) to solve the travelling salesman problem trained by reinforcement learning. Furthermore, HPN builds upon graph pointer networks which is an extension of pointer networks with an additional graph embedding layer. HPN outperforms the graph pointer network in solution quality due to the hybrid encoder, which provides our model with a verity encoding type, allowing our model to converge to a better policy. Our network significantly outperforms the original graph pointer network for small and large-scale problems increasing its performance for TSP50 from 5.959 to 5.706 without utilizing 2opt, Pointer networks, Attention model, and a wide range of models, producing results comparable to highly tuned and specialized algorithms. We make our data, models, and code publicly available [2].
翻訳日:2021-10-09 09:22:51 公開日:2021-10-06
# (参考訳) 物体検出のためのメタ認知の学習 [全文訳有]

Learning a Metacognition for Object Detection ( http://arxiv.org/abs/2110.03105v1 )

ライセンス: CC BY 4.0
Marlene Berke, Mario Belledonne, Zhangir Azerbayez, Julian Jara-Ettinger(参考訳) 物体認識モデルとは対照的に、人類は世界の表現を構築する際に自分の知覚を盲目的に信頼せず、その代わりにメタ認知を雇い、信頼できない、または偽の知覚を検出する。 本稿ではメタ認知によりオブジェクト認識モデルを強化する教師なしモデルであるMeTAGENを提案する。 物体検出モデルからノイズが生じると、METAGENは知覚システムがどのように機能するかのメタ表現を学び、検出に責任がある世界の物体を推測する。 メタゲンは、人間の幼児でも理解できる対象の基本的な原理(オブジェクトの永続性、凝集性、時空間連続性)に基づいて推論を行うことでこれを達成する。 我々は、様々な最先端物体検出ニューラルネットワーク上でMETAGENをテストする。 我々は,METAGENがニューラルネットワークの正確なメタ認知表現を素早く学習し,検出モデルが見逃したオブジェクトを埋め込んで幻覚オブジェクトを除去することにより検出精度を向上させることを発見した。 このアプローチは、サンプル外データの一般化を可能にし、メタ認知に欠ける比較モデルを上回る。

In contrast to object recognition models, humans do not blindly trust their perception when building representations of the world, instead recruiting metacognition to detect percepts that are unreliable or false, such as when we realize that we mistook one object for another. We propose METAGEN, an unsupervised model that enhances object recognition models through a metacognition. Given noisy output from an object-detection model, METAGEN learns a meta-representation of how its perceptual system works and uses it to infer the objects in the world responsible for the detections. METAGEN achieves this by conditioning its inference on basic principles of objects that even human infants understand (known as Spelke principles: object permanence, cohesion, and spatiotemporal continuity). We test METAGEN on a variety of state-of-the-art object detection neural networks. We find that METAGEN quickly learns an accurate metacognitive representation of the neural network, and that this improves detection accuracy by filling in objects that the detection model missed and removing hallucinated objects. This approach enables generalization to out-of-sample data and outperforms comparison models that lack a metacognition.
翻訳日:2021-10-09 09:12:03 公開日:2021-10-06
# (参考訳) 深部モデルに対する一貫した対策 [全文訳有]

Consistent Counterfactuals for Deep Models ( http://arxiv.org/abs/2110.03109v1 )

ライセンス: CC BY 4.0
Emily Black, Zifan Wang, Matt Fredrikson and Anupam Datta(参考訳) 反事実例は、金融や医療診断といった重要な分野における機械学習モデルの予測を説明する最も一般的な方法の1つである。 反事実はしばしば、使用するモデルが静的であるという仮定の下で議論されるが、デプロイメントモデルでは定期的に再訓練されるか、微調整される可能性がある。 本稿では,モデル展開時に発生する重み初期化やデータ残量変動など,初期トレーニング条件の小さな変化下でのディープネットワークの反実例におけるモデル予測の一貫性について検討する。 実験により、深層モデルの反実例は、このような小さな変化に対して矛盾しがちであり、より単純なモデルの文脈における先行研究によって提案される安定性向上緩和は、深部ネットワークにおいて信頼性の高いヒューリスティックではないことを示す。 むしろ,モデルの局所的なリプシッツ連続性が関連モデル間の一貫性の鍵であることを示す。 そこで本研究では,より一貫した反事実的説明を生成する方法として,Stable Neighbor Searchを提案し,本手法の有効性をいくつかのベンチマークデータセットで示す。

Counterfactual examples are one of the most commonly-cited methods for explaining the predictions of machine learning models in key areas such as finance and medical diagnosis. Counterfactuals are often discussed under the assumption that the model on which they will be used is static, but in deployment models may be periodically retrained or fine-tuned. This paper studies the consistency of model prediction on counterfactual examples in deep networks under small changes to initial training conditions, such as weight initialization and leave-one-out variations in data, as often occurs during model deployment. We demonstrate experimentally that counterfactual examples for deep models are often inconsistent across such small changes, and that increasing the cost of the counterfactual, a stability-enhancing mitigation suggested by prior work in the context of simpler models, is not a reliable heuristic in deep networks. Rather, our analysis shows that a model's local Lipschitz continuity around the counterfactual is key to its consistency across related models. To this end, we propose Stable Neighbor Search as a way to generate more consistent counterfactual explanations, and illustrate the effectiveness of this approach on several benchmark datasets.
翻訳日:2021-10-09 08:57:17 公開日:2021-10-06
# (参考訳) cut the carp: ゼロショットストーリー評価のための釣り [全文訳有]

Cut the CARP: Fishing for zero-shot story evaluation ( http://arxiv.org/abs/2110.03111v1 )

ライセンス: CC BY 4.0
Shahbuland Matiana, JR Smith, Ryan Teehan, Louis Castricato, Stella Biderman, Leo Gao, Spencer Frazier(参考訳) 大規模言語モデル(raffel et al., 2019; brown et al., 2020)の最近の進歩は、機械駆動テキスト生成に大きな質的かつ定量的な改善をもたらした。 それにもかかわらず、機械による物語文の生成と評価は依然として難しい問題である。 計算的に生成されたストーリーの客観的な評価は、制限的に高価であるか、注意深い注釈付きデータセットを必要とするか、あるいは生成されたストーリーのナラトロジー構造の論理的コヒーレンスを適切に測定できないかである。 コントラスト学習の最近の進歩 (Radford et al., 2021) により, 質的に優れた物語のゼロショット評価を行うスケーラブルで効率的な手法であるContrastive Authoring and Reviewing Pairing (CARP) を提案する。 本稿では,物語の人的評価とCARPの人的評価との間に強い相関関係を示す。 モデル出力は、ファインチューニングやプロンプトエンジニアリングアプローチを利用した言語モデルに基づく手法よりも、対応する人間の入力とより大きく相関する。 我々はまた、8万以上のストーリーから派生した130万のストーリー批判ペアからなる新しいコーパスであるStory-Critique Datasetを提示、分析した。 このコーパスはNLP研究者にとって大きな関心を持つだろう。

Recent advances in large-scale language models (Raffel et al., 2019; Brown et al., 2020) have brought significant qualitative and quantitative improvements in machine-driven text generation. Despite this, generation and evaluation of machine-generated narrative text remains a challenging problem. Objective evaluation of computationally-gene rated stories may be prohibitively expensive, require meticulously annotated datasets, or may not adequately measure the logical coherence of a generated story's narratological structure. Informed by recent advances in contrastive learning (Radford et al., 2021), we present Contrastive Authoring and Reviewing Pairing (CARP): a scalable, efficient method for performing qualitatively superior, zero-shot evaluation of stories. We show a strong correlation between human evaluation of stories and those of CARP. Model outputs more significantly correlate with corresponding human input than those language-model based methods which utilize finetuning or prompt engineering approaches. We also present and analyze the Story-Critique Dataset, a new corpora composed of 1.3 million aligned story-critique pairs derived from over 80,000 stories. We expect this corpus to be of interest to NLP researchers.
翻訳日:2021-10-09 08:15:00 公開日:2021-10-06
# 確率的ビデオ予測のための階層的変動型ニューラル不確かさモデル

A Hierarchical Variational Neural Uncertainty Model for Stochastic Video Prediction ( http://arxiv.org/abs/2110.03446v1 )

ライセンス: Link先を確認
Moitreya Chatterjee and Narendra Ahuja and Anoop Cherian(参考訳) ビデオの未来を予測することは難しい課題であり、その原因は確率的な現実世界の現象にある。 この課題を解く以前のアプローチは、典型的には、この確率性を特徴づける潜在的事前を推定するが、(深層学習)モデルの予測的不確実性は考慮しない。 このようなアプローチは、生成したフレームと地上の真実の間の平均二乗誤差(MSE)からトレーニング信号を導出することが多く、特に予測の不確実性が高い場合には、準最適トレーニングにつながる可能性がある。 この目的に向けて、予測不確実性の確率的定量化であるニューラル不確実性量子化器(NUQ)を導入し、MSE損失を測定する。 本稿では,深いベイズ図形モデルを用いて,NUQを原理的に導出する階層的・変動的枠組みを提案する。 4つのベンチマーク確率的ビデオ予測データセットを用いた実験により、提案手法は最先端のモデル(特にトレーニングセットが小さい場合)と比較して効果的にトレーニングし、ビデオ生成の品質と多様性をいくつかの評価指標と比較した。

Predicting the future frames of a video is a challenging task, in part due to the underlying stochastic real-world phenomena. Prior approaches to solve this task typically estimate a latent prior characterizing this stochasticity, however do not account for the predictive uncertainty of the (deep learning) model. Such approaches often derive the training signal from the mean-squared error (MSE) between the generated frame and the ground truth, which can lead to sub-optimal training, especially when the predictive uncertainty is high. Towards this end, we introduce Neural Uncertainty Quantifier (NUQ) - a stochastic quantification of the model's predictive uncertainty, and use it to weigh the MSE loss. We propose a hierarchical, variational framework to derive NUQ in a principled manner using a deep, Bayesian graphical model. Our experiments on four benchmark stochastic video prediction datasets show that our proposed framework trains more effectively compared to the state-of-the-art models (especially when the training sets are small), while demonstrating better video generation quality and diversity against several evaluation metrics.
翻訳日:2021-10-08 16:12:54 公開日:2021-10-06
# Black-box Sequence DesignとBeyondによるLikelihood-free推論の統一

Unifying Likelihood-free Inference with Black-box Sequence Design and Beyond ( http://arxiv.org/abs/2110.03372v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Jie Fu, Yoshua Bengio, Aaron Courville(参考訳) 生物配列設計のためのブラックボックス最適化の定式化は、製薬業界に有望な影響を及ぼす可能性から近年注目されている。 本研究では,確率的枠組みの下で,確率的推論とブラックボックスシーケンス設計という,一見異なる2つの世界を統合することを提案する。 この枠組みに基づき,様々なシーケンス設計手法を構築するためのレシピを提供する。 我々は,従来の薬物発見手法を我々の枠組みで「再発明」し,新たな確率論的シーケンス設計アルゴリズムを提案する。 大規模な実験は提案手法の利点を実証している。

Black-box optimization formulations for biological sequence design have drawn recent attention due to their promising potential impact on the pharmaceutical industry. In this work, we propose to unify two seemingly distinct worlds: likelihood-free inference and black-box sequence design, under one probabilistic framework. In tandem, we provide a recipe for constructing various sequence design methods based on this framework. We show how previous drug discovery approaches can be "reinvented" in our framework, and further propose new probabilistic sequence design algorithms. Extensive experiments illustrate the benefits of the proposed methodology.
翻訳日:2021-10-08 16:12:06 公開日:2021-10-06
# ディープニューラルネットワークにおける異常検出のための一様枠組み

A Uniform Framework for Anomaly Detection in Deep Neural Networks ( http://arxiv.org/abs/2110.03092v1 )

ライセンス: Link先を確認
Fangzhen Zhao, Chenyi Zhang, Naipeng Dong, Zefeng You, Zhenxin Wu(参考訳) 深層ニューラルネットワーク(DNN)は、トレーニングセットと同じ分布から得られるIn-Distribution(ID)データに適用した場合、高いパフォーマンスを達成することができる。 id からの異常入力が提示された場合、dnn の出力は無意味と見なされるべきである。 しかし、現代のDNNは、しばしば異常入力を高い信頼度を持つIDクラスとして予測し、危険で誤解を招く。 本研究では,(1)DNNと異なる分布からの自然な入力をトレーニングし,そのサンプルをOOD(Out-of-Distribut ion)、(2)攻撃者によるIDから生成された入力をAD(Adversarial)サンプル,(3)無意味なデータから生成されたノイズ(NS)サンプルという,3種類の異常入力を考察する。 事前学習したDNNに対して,これらの異常を検知するフレームワークを提案する。 既存の研究と異なり、我々の手法は入力データの事前処理を必要としないし、既知のOODセットや敵攻撃アルゴリズムにも依存しない。 上記の異常検出のための様々なdnnモデルに関する広範囲な実験を通じて,本手法が3種類の異常の同定において最先端の異常検出法を上回っていることを示す。

Deep neural networks (DNN) can achieve high performance when applied to In-Distribution (ID) data which come from the same distribution as the training set. When presented with anomaly inputs not from the ID, the outputs of a DNN should be regarded as meaningless. However, modern DNN often predict anomaly inputs as an ID class with high confidence, which is dangerous and misleading. In this work, we consider three classes of anomaly inputs, (1) natural inputs from a different distribution than the DNN is trained for, known as Out-of-Distribution (OOD) samples, (2) crafted inputs generated from ID by attackers, often known as adversarial (AD) samples, and (3) noise (NS) samples generated from meaningless data. We propose a framework that aims to detect all these anomalies for a pre-trained DNN. Unlike some of the existing works, our method does not require preprocessing of input data, nor is it dependent to any known OOD set or adversarial attack algorithm. Through extensive experiments over a variety of DNN models for the detection of aforementioned anomalies, we show that in most cases our method outperforms state-of-the-art anomaly detection methods in identifying all three classes of anomalies.
翻訳日:2021-10-08 16:08:19 公開日:2021-10-06
# オンラインマルチクラスロジスティック回帰のための効率的な方法

Efficient Methods for Online Multiclass Logistic Regression ( http://arxiv.org/abs/2110.03020v1 )

ライセンス: Link先を確認
Naman Agarwal, Satyen Kale, Julian Zimmert(参考訳) マルチクラスロジスティック回帰は、分類と強化における機械学習の基本的なタスクである。 先行研究(Foster et al., 2018)では、オンラインマルチクラスロジスティック回帰問題において、比較クラスの予測器のノルムのような二次問題パラメータに指数関数的に苦しむことなく、不適切な予測器が「高速」を達成することの重要性を強調している。 foster et al. (2018) は統計的に最適なアルゴリズムを導入したが、実行時の複雑性が時間軸の大きな多項式と入力特徴ベクトルの次元であるため、計算的に難解である。 本稿では,フォスターらのアルゴリズムよりも高速に動作する問題に対して,新しいアルゴリズムであるフォークロア(folklore)を開発した。 (2018) -- イテレーションごとの実行時間は次元で二乗的にスケールする -- 後悔の限界における予測者の規範に対する線形依存のコストで。 これにより、オンライン多クラスロジスティック回帰のための最初の実用的なアルゴリズムが得られ、Fosterらによって解決される。 (2018). さらに,本アルゴリズムをオンラインバンディットマルチクラス予測やオンラインマルチクラスブースティングに適用できることを示し,フォスターなどと比較して,両問題に対してより実用的なアルゴリズムを提供する。 (2018) 同様の性能保証。 最後に,提案アルゴリズムのオンライン・バッチ変換結果も提供する。

Multiclass logistic regression is a fundamental task in machine learning with applications in classification and boosting. Previous work (Foster et al., 2018) has highlighted the importance of improper predictors for achieving "fast rates" in the online multiclass logistic regression problem without suffering exponentially from secondary problem parameters, such as the norm of the predictors in the comparison class. While Foster et al. (2018) introduced a statistically optimal algorithm, it is in practice computationally intractable due to its run-time complexity being a large polynomial in the time horizon and dimension of input feature vectors. In this paper, we develop a new algorithm, FOLKLORE, for the problem which runs significantly faster than the algorithm of Foster et al.(2018) -- the running time per iteration scales quadratically in the dimension -- at the cost of a linear dependence on the norm of the predictors in the regret bound. This yields the first practical algorithm for online multiclass logistic regression, resolving an open problem of Foster et al.(2018). Furthermore, we show that our algorithm can be applied to online bandit multiclass prediction and online multiclass boosting, yielding more practical algorithms for both problems compared to the ones in Foster et al.(2018) with similar performance guarantees. Finally, we also provide an online-to-batch conversion result for our algorithm.
翻訳日:2021-10-08 16:05:07 公開日:2021-10-06
# データ中心セミスーパーバイザラーニング

Data-Centric Semi-Supervised Learning ( http://arxiv.org/abs/2110.03006v1 )

ライセンス: Link先を確認
Xudong Wang, Long Lian, Stella X. Yu(参考訳) 本研究では,ラベルなしの大規模データを利用可能とし,ラベル取得のために少数のデータを予算化する,半教師付き学習(SSL)のための教師なしデータ選択について検討する。 既存のSSLメソッドは、与えられた小さなラベル付きデータと大きなラベル付きデータから情報を効果的に統合するモデルを学ぶことに注力する一方で、アクティブな学習のための教師付きデータ選択とは対照的に、ラベルやタスク情報なしでSSLの適切なデータを選択することに注力する。 直感的には、ラベル付けすべきインスタンスは、ダウンストリームタスクの最大多様性とカバレッジを持ち、SSLの最大情報伝達ユーティリティを個別に持つ。 これらの概念を3段階のデータ中心ssl法で定式化し,cifar-10では8% (0.08%) ,imagenet-1kでは14% (0.2%) 向上した。 私たちの研究は、注意深いラベル付きデータ選択に費やす小さな計算が、学習パイプラインを変更することなく、大きなアノテーション効率とモデルパフォーマンスの向上をもたらすことを示しています。 完全に教師なしのデータ選択は、他の弱教師付き学習設定に容易に拡張できます。

We study unsupervised data selection for semi-supervised learning (SSL), where a large-scale unlabeled data is available and a small subset of data is budgeted for label acquisition. Existing SSL methods focus on learning a model that effectively integrates information from given small labeled data and large unlabeled data, whereas we focus on selecting the right data for SSL without any label or task information, in an also stark contrast to supervised data selection for active learning. Intuitively, instances to be labeled shall collectively have maximum diversity and coverage for downstream tasks, and individually have maximum information propagation utility for SSL. We formalize these concepts in a three-step data-centric SSL method that improves FixMatch in stability and accuracy by 8% on CIFAR-10 (0.08% labeled) and 14% on ImageNet-1K (0.2% labeled). Our work demonstrates that a small compute spent on careful labeled data selection brings big annotation efficiency and model performance gain without changing the learning pipeline. Our completely unsupervised data selection can be easily extended to other weakly supervised learning settings.
翻訳日:2021-10-08 16:02:18 公開日:2021-10-06
# FOD-A:空港における異物デブリのデータセット

FOD-A: A Dataset for Foreign Object Debris in Airports ( http://arxiv.org/abs/2110.03072v1 )

ライセンス: Link先を確認
Travis Munyer, Pei-Chi Huang, Chenyu Huang, Xin Zhong(参考訳) 外部オブジェクトデブリ(fod)検出は、機械学習とコンピュータビジョンの分野で注目を集めている。 しかし、FOD用の堅牢で公開のイメージデータセットは初期化されていない。 そこで本稿では,FOD in Airports (FOD-A) と呼ばれるFODの画像データセットを提案する。 FOD-Aオブジェクトカテゴリは、連邦航空局(FAA)による以前の文書および関連する研究のガイダンスに基づいて選択されている。 オブジェクト検出のためのバウンディングボックスの主なアノテーションに加えて、fod-aはラベル付き環境条件を提供する。 それぞれのアノテーションインスタンスはさらに3つのライトレベルカテゴリ(ブライト、ダイム、ダーク)と2つの天気カテゴリ(ドライ、ウェット)に分類される。 現在、fod-aは31のオブジェクトカテゴリと30,000以上のアノテーションインスタンスをリリースした。 本稿では,公開データセット拡張プロセスについて議論し,オブジェクト検出に広く使用される機械学習モデルを用いたfod-aの実用性を示す。

Foreign Object Debris (FOD) detection has attracted increased attention in the area of machine learning and computer vision. However, a robust and publicly available image dataset for FOD has not been initialized. To this end, this paper introduces an image dataset of FOD, named FOD in Airports (FOD-A). FOD-A object categories have been selected based on guidance from prior documentation and related research by the Federal Aviation Administration (FAA). In addition to the primary annotations of bounding boxes for object detection, FOD-A provides labeled environmental conditions. As such, each annotation instance is further categorized into three light level categories (bright, dim, and dark) and two weather categories (dry and wet). Currently, FOD-A has released 31 object categories and over 30,000 annotation instances. This paper presents the creation methodology, discusses the publicly available dataset extension process, and demonstrates the practicality of FOD-A with widely used machine learning models for object detection.
翻訳日:2021-10-08 16:01:57 公開日:2021-10-06
# speed+: ドメインギャップを越えた宇宙船のポーズ推定のための次世代データセット

SPEED+: Next Generation Dataset for Spacecraft Pose Estimation across Domain Gap ( http://arxiv.org/abs/2110.03101v1 )

ライセンス: Link先を確認
Tae Ha Park, Marcus M\"artens, Gurvan Lecuyer, Dario Izzo, Simone D'Amico(参考訳) 自律的なビジョンに基づく宇宙飛行ナビゲーションは、将来の軌道上のサービテーションと宇宙ロジスティクスのミッションを可能にする技術である。 一般に、コンピュータビジョンは機械学習(ML)の恩恵を受けているが、宇宙環境におけるターゲットの画像の大規模なラベル付きデータセットを取得するという非現実性のため、宇宙に浮かぶMLモデルの訓練と検証は非常に難しい。 既存のデータセット、例えば宇宙船のポーズ推定データセット(speed)は、トレーニングと検証の両方のために合成画像に依存しており、大量生産は容易であるが、対象の宇宙画像に固有の視覚特徴や照明変動に似ていない。 今後の宇宙ミッションにおける現在の実践と応用のギャップを埋めるため,次世代宇宙船SPEED+では,領域ギャップを特に重視した推定データセットを提案する。 トレーニング用の6万枚の合成画像に加えて、speed+には、ランデブーおよび光ナビゲーション(tron)施設の試験ベッドから撮影された宇宙船モックアップモデルの9,531枚のシミュレーション画像が含まれている。 tronは、最も多様なポーズラベルと高精細なスペースベース照明条件で、任意の数のターゲット画像を撮影できる初のロボットテストベッドである。 speed+は、欧州宇宙機関(esa)のadvanced conceptsチームと共同で、合成画像で訓練されたスペースベースmlモデルのロバスト性を評価し比較するために、近く予定されている国際衛星ポーズ推定チャレンジで使用される。

Autonomous vision-based spaceborne navigation is an enabling technology for future on-orbit servicing and space logistics missions. While computer vision in general has benefited from Machine Learning (ML), training and validating spaceborne ML models are extremely challenging due to the impracticality of acquiring a large-scale labeled dataset of images of the intended target in the space environment. Existing datasets, such as Spacecraft PosE Estimation Dataset (SPEED), have so far mostly relied on synthetic images for both training and validation, which are easy to mass-produce but fail to resemble the visual features and illumination variability inherent to the target spaceborne images. In order to bridge the gap between the current practices and the intended applications in future space missions, this paper introduces SPEED+: the next generation spacecraft pose estimation dataset with specific emphasis on domain gap. In addition to 60,000 synthetic images for training, SPEED+ includes 9,531 simulated images of a spacecraft mockup model captured from the Testbed for Rendezvous and Optical Navigation (TRON) facility. TRON is a first-of-a-kind robotic testbed capable of capturing an arbitrary number of target images with accurate and maximally diverse pose labels and high-fidelity spaceborne illumination conditions. SPEED+ will be used in the upcoming international Satellite Pose Estimation Challenge co-hosted with the Advanced Concepts Team of the European Space Agency to evaluate and compare the robustness of spaceborne ML models trained on synthetic images.
翻訳日:2021-10-08 16:01:42 公開日:2021-10-06
# 畳み込みオートエンコーダを用いた教師なしマルチモーダル言語表現

Unsupervised Multimodal Language Representations using Convolutional Autoencoders ( http://arxiv.org/abs/2110.03007v1 )

ライセンス: Link先を確認
Panagiotis Koromilas and Theodoros Giannakopoulos(参考訳) マルチモーダル言語分析(Multimodal Language Analysis)は、異なるモダリティの組み合わせと時間情報の取得という2つの要件に関連付けられている研究領域である。 近年では、主に下流のタスクにおける教師あり学習を中心に、いくつかの研究が提案されている。 本稿では,汎用的で異なるタスクに適用可能な教師なしマルチモーダル言語表現の抽出を提案する。 この目的に向けて,単語レベルの複数モーダル列を2次元行列にマッピングし,畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。 感性分析(MOSEI)と感情認識(IEMOCAP)の広汎な実験により、学習された表現は、下流分類にロジスティック回帰アルゴリズムを用いるだけで、ほぼ最先端のパフォーマンスを達成できることを示した。 また,本手法は極めて軽量であり,他のタスクに容易に一般化でき,少ない性能低下とほぼ同数のパラメータでデータを取得できないことを示した。 提案したマルチモーダル表現モデルはオープンソースであり、マルチモーダル言語の適用性の向上に役立つだろう。

Multimodal Language Analysis is a demanding area of research, since it is associated with two requirements: combining different modalities and capturing temporal information. During the last years, several works have been proposed in the area, mostly centered around supervised learning in downstream tasks. In this paper we propose extracting unsupervised Multimodal Language representations that are universal and can be applied to different tasks. Towards this end, we map the word-level aligned multimodal sequences to 2-D matrices and then use Convolutional Autoencoders to learn embeddings by combining multiple datasets. Extensive experimentation on Sentiment Analysis (MOSEI) and Emotion Recognition (IEMOCAP) indicate that the learned representations can achieve near-state-of-the-ar t performance with just the use of a Logistic Regression algorithm for downstream classification. It is also shown that our method is extremely lightweight and can be easily generalized to other tasks and unseen data with small performance drop and almost the same number of parameters. The proposed multimodal representation models are open-sourced and will help grow the applicability of Multimodal Language.
翻訳日:2021-10-08 15:59:26 公開日:2021-10-06
# 新しいWFSTトポロジーによるCTC変動

CTC Variations Through New WFST Topologies ( http://arxiv.org/abs/2110.03098v1 )

ライセンス: Link先を確認
Aleksandr Laptev, Somshubra Majumdar, Boris Ginsburg(参考訳) 本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。 1)ユニット間の直接遷移を<epsilon>バックオフ遷移に置き換える"compact-CTC",(2)WFSTコンポジションで使用する場合に<blank>自己ループのみを追加する"minimal-CTC",(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。 新しいCTC変種には、モデルの精度を維持しながらトレーニングに必要なデコードグラフサイズとGPUメモリの削減など、いくつかのメリットがある。

This paper presents novel Weighted Finite-State Transducer (WFST) topologies to implement Connectionist Temporal Classification (CTC)-like algorithms for automatic speech recognition. Three new CTC variants are proposed: (1) the "compact-CTC", in which direct transitions between units are replaced with <epsilon> back-off transitions; (2) the "minimal-CTC", that only adds <blank> self-loops when used in WFST-composition; and (3) "selfless-CTC", that disallows self-loop for non-blank units. The new CTC variants have several benefits, such as reducing decoding graph size and GPU memory required for training while keeping model accuracy.
翻訳日:2021-10-08 15:59:07 公開日:2021-10-06
# 部分グラフ分散を用いたグラフ畳み込みネットワークの分散最適化

Distributed Optimization of Graph Convolutional Network using Subgraph Variance ( http://arxiv.org/abs/2110.02987v1 )

ライセンス: Link先を確認
Taige Zhao, Xiangyu Song, Jianxin Li, Wei Luo, Imran Razzak(参考訳) 近年、グラフ畳み込みネットワーク(GCN)は、グラフ構造化データから学習において大きな成功を収めている。 グラフノードやエッジの増加に伴い、単一プロセッサによるGCNトレーニングは時間とメモリの需要を満たすことができないため、分散GCNトレーニングフレームワークの研究がブームとなった。 しかし、既存の分散GCNトレーニングフレームワークは、依存ノードやエッジ情報を収集し、他のプロセッサからのGCNトレーニングのために送信する必要があるため、プロセッサ間の通信コストが膨大なものである。 本稿では,グラフ拡張に基づく分散GCNフレームワーク(GAD)を提案する。 特にGADには、GAD-PartitionとGAD-Optimizerの2つの主要コンポーネントがある。 まず,元のグラフを拡張サブグラフに分割して,トレーニングの精度を確保しつつ,他のプロセッサの重要なノードを可能な限り選択・保存することで通信を削減できるグラフ拡張ベースのパーティション(GAD-Partition)を提案する。 さらに,サブグラフ分散に基づく重要度計算式を更に設計し,gad-optimizerと呼ばれる新しい重み付きグローバルコンセンサス法を提案する。 このオプティマイザは、gad-partitionが分散gcnトレーニングに導入する余分な分散の影響を減らすために、大きなばらつきを持つサブグラフの重要性を適応的に低減する。 4つの大規模実世界のデータセットに対する大規模な実験により、我々のフレームワークは通信オーバーヘッド(50%)を著しく低減し、分散GCNトレーニングの収束速度(2X)を向上し、最先端の手法と比較して最小冗長性に基づく精度(0.45%)をわずかに向上することを示した。

In recent years, Graph Convolutional Networks (GCNs) have achieved great success in learning from graph-structured data. With the growing tendency of graph nodes and edges, GCN training by single processor cannot meet the demand for time and memory, which led to a boom into distributed GCN training frameworks research. However, existing distributed GCN training frameworks require enormous communication costs between processors since multitudes of dependent nodes and edges information need to be collected and transmitted for GCN training from other processors. To address this issue, we propose a Graph Augmentation based Distributed GCN framework(GAD). In particular, GAD has two main components, GAD-Partition and GAD-Optimizer. We first propose a graph augmentation-based partition (GAD-Partition) that can divide original graph into augmented subgraphs to reduce communication by selecting and storing as few significant nodes of other processors as possible while guaranteeing the accuracy of the training. In addition, we further design a subgraph variance-based importance calculation formula and propose a novel weighted global consensus method, collectively referred to as GAD-Optimizer. This optimizer adaptively reduces the importance of subgraphs with large variances for the purpose of reducing the effect of extra variance introduced by GAD-Partition on distributed GCN training. Extensive experiments on four large-scale real-world datasets demonstrate that our framework significantly reduces the communication overhead (50%), improves the convergence speed (2X) of distributed GCN training, and slight gain in accuracy (0.45%) based on minimal redundancy compared to the state-of-the-art methods.
翻訳日:2021-10-08 15:58:26 公開日:2021-10-06
# 複数の投票による連合学習

Federated Learning via Plurality Vote ( http://arxiv.org/abs/2110.02998v1 )

ライセンス: Link先を確認
Kai Yue, Richeng Jin, Chau-Wai Wong, Huaiyu Dai(参考訳) フェデレートされた学習は、データプライバシを保持しながら、共同作業者が機械学習の問題を解決することを可能にする。 近年、連合学習における様々な課題に取り組んできたが、コミュニケーションオーバーヘッド、学習信頼性、デプロイメント効率の協調最適化は依然として未解決の問題である。 そこで本稿では,複数投票によるフェデレーション学習(FedVote)という新しい手法を提案する。 FedVoteの各通信ラウンドでは、ワーカは通信オーバーヘッドの少ないサーバにバイナリまたは3次重みを送信する。 モデルパラメータは重み付け投票によって集約され、ビザンチン攻撃に対するレジリエンスを高める。 推論のためにデプロイされる場合、バイナリまたは3次重みを持つモデルは、エッジデバイスに対してリソースフレンドリである。 提案手法は, モデル更新を直接定量化する手法と比較して, 量子化誤差を低減し, 収束を高速化できることを示す。

Federated learning allows collaborative workers to solve a machine learning problem while preserving data privacy. Recent studies have tackled various challenges in federated learning, but the joint optimization of communication overhead, learning reliability, and deployment efficiency is still an open problem. To this end, we propose a new scheme named federated learning via plurality vote (FedVote). In each communication round of FedVote, workers transmit binary or ternary weights to the server with low communication overhead. The model parameters are aggregated via weighted voting to enhance the resilience against Byzantine attacks. When deployed for inference, the model with binary or ternary weights is resource-friendly to edge devices. We show that our proposed method can reduce quantization error and converges faster compared with the methods directly quantizing the model updates.
翻訳日:2021-10-08 15:57:56 公開日:2021-10-06
# コミュニケーション効率と個人差分学習のための2ビットアグリゲーション

Two-Bit Aggregation for Communication Efficient and Differentially Private Federated Learning ( http://arxiv.org/abs/2110.03017v1 )

ライセンス: Link先を確認
Mohammad Aghapour and Aidin Ferdowsi and Walid Saad(参考訳) フェデレートラーニング(FL)では、機械学習モデルは、データをローカルに保ち、他のノードと共有しない状態で、複数のノードで分散的にトレーニングされる。 しかし、flでは、集約のためにモデルパラメータに関する情報を中央サーバに送信する必要がある。 しかし、ノードからサーバに送信された情報は、各ノードのローカルデータの詳細を明らかにする可能性があるため、プライバシー上の懸念が生じる。 さらに、ノードからサーバへの繰り返しのアップリンク送信は、通信オーバーヘッドとネットワークの混雑をもたらす可能性がある。 この2つの課題に対処するために,差分プライバシーを保証し,アップリンク通信オーバーヘッドを低減した新しい2ビット集約アルゴリズムを提案する。 大規模な実験により,提案アルゴリズムはMNIST, Fashion MNIST, CIFAR-10, CIFAR-100といったデータセットに対する最先端のアプローチと同じ性能を達成でき, 差分プライバシーの確保と通信効率の向上を実現している。

In federated learning (FL), a machine learning model is trained on multiple nodes in a decentralized manner, while keeping the data local and not shared with other nodes. However, FL requires the nodes to also send information on the model parameters to a central server for aggregation. However, the information sent from the nodes to the server may reveal some details about each node's local data, thus raising privacy concerns. Furthermore, the repetitive uplink transmission from the nodes to the server may result in a communication overhead and network congestion. To address these two challenges, in this paper, a novel two-bit aggregation algorithm is proposed with guaranteed differential privacy and reduced uplink communication overhead. Extensive experiments demonstrate that the proposed aggregation algorithm can achieve the same performance as state-of-the-art approaches on datasets such as MNIST, Fashion MNIST, CIFAR-10, and CIFAR-100, while ensuring differential privacy and improving communication efficiency.
翻訳日:2021-10-08 15:57:45 公開日:2021-10-06
# 階層的一時記憶によるクラウド障害予測:経験的評価

Cloud Failure Prediction with Hierarchical Temporary Memory: An Empirical Assessment ( http://arxiv.org/abs/2110.03431v1 )

ライセンス: Link先を確認
Oliviero Riganelli, Paolo Saltarel, Alessandro Tundo, Marco Mobilio, Leonardo Mariani(参考訳) hierarchy temporary memory (htm) は、新皮質の特徴に触発された教師なし学習アルゴリズムであり、大量のデータをトレーニングしたりラベル付きデータを必要とせずに、ストリームデータを継続的に処理し異常を検出するのに使用できる。 HTMはまた、サンプルから継続的に学習することができ、観測に関して常に最新のモデルを提供する。 これらの特徴により、htmは、問題を予測するために監視されなければならない動的に変化する振る舞いを持つシステムであるクラウドシステムにおいて、オンライン障害予測をサポートするのに特に適しています。 本稿では,障害予測の文脈でHTMを評価する最初の体系的研究について述べる。 72種類のhtmの構成をclearwater cloudシステムで導入した12種類の障害に適用した結果から,htmは十分な有効性 (f-measure = 0.76) で障害を予測するのに役立つことがわかった。

Hierarchical Temporary Memory (HTM) is an unsupervised learning algorithm inspired by the features of the neocortex that can be used to continuously process stream data and detect anomalies, without requiring a large amount of data for training nor requiring labeled data. HTM is also able to continuously learn from samples, providing a model that is always up-to-date with respect to observations. These characteristics make HTM particularly suitable for supporting online failure prediction in cloud systems, which are systems with a dynamically changing behavior that must be monitored to anticipate problems. This paper presents the first systematic study that assesses HTM in the context of failure prediction. The results that we obtained considering 72 configurations of HTM applied to 12 different types of faults introduced in the Clearwater cloud system show that HTM can help to predict failures with sufficient effectiveness (F-measure = 0.76), representing an interesting practical alternative to (semi-)supervised algorithms.
翻訳日:2021-10-08 15:56:30 公開日:2021-10-06
# RieszNetとForestRiesz: ニューラルネットワークとランダムフォレストを用いた自動脱バイアス機械学習

RieszNet and ForestRiesz: Automatic Debiased Machine Learning with Neural Nets and Random Forests ( http://arxiv.org/abs/2110.03031v1 )

ライセンス: Link先を確認
Victor Chernozhukov, Whitney K. Newey, Victor Quintas-Martinez, Vasilis Syrgkanis(参考訳) 多くの利害関係および政策効果は、高次元または非パラメトリック回帰関数の線形汎関数によって定義される。 $\sqrt{n}$- consistent and asymptotically normal estimation of the object of interest must debiasing to reduce the effect of regularization and/or model selection on the object of interest (英語) デバイアスは典型的には、函数のプラグイン推定器に補正項を加えることで達成されるが、これは影響関数として知られる関数特異的な理論的導出に基づいて導かれ、二重ロバスト性やナイマン直交性のような性質をもたらす。 代わりに,ニューラルネットワークとランダムフォレストを用いて線形関数のリース表現を自動的に学習する手法を実装した。 本手法は,線形関数への値クエリオラクルアクセスのみを必要とする。 本稿では,2つの関数の表現層を共有しつつ,riesz表現と回帰損失を組み合わせた確率的勾配降下最小化を用いたマルチタスクニューラルネットデバイアス手法を提案する。 また,riesz関数の局所線形表現を学習するランダムフォレスト手法を提案する。 本手法は任意の機能に応用できるが, 平均処理効果汎関数の場合, 従来のニューラルネットワークベース推定器であるshi et al. (2019) の性能を上回っていることが実験的に判明した。 また, ガソリン需要に対するガソリン価格変化の半合成データを用いて, 連続処理による平均限界効果推定の課題についても検討した。

Many causal and policy effects of interest are defined by linear functionals of high-dimensional or non-parametric regression functions. $\sqrt{n}$-consistent and asymptotically normal estimation of the object of interest requires debiasing to reduce the effects of regularization and/or model selection on the object of interest. Debiasing is typically achieved by adding a correction term to the plug-in estimator of the functional, that is derived based on a functional-specific theoretical derivation of what is known as the influence function and which leads to properties such as double robustness and Neyman orthogonality. We instead implement an automatic debiasing procedure based on automatically learning the Riesz representation of the linear functional using Neural Nets and Random Forests. Our method solely requires value query oracle access to the linear functional. We propose a multi-tasking Neural Net debiasing method with stochastic gradient descent minimization of a combined Riesz representer and regression loss, while sharing representation layers for the two functions. We also propose a Random Forest method which learns a locally linear representation of the Riesz function. Even though our methodology applies to arbitrary functionals, we experimentally find that it beats state of the art performance of the prior neural net based estimator of Shi et al. (2019) for the case of the average treatment effect functional. We also evaluate our method on the more challenging problem of estimating average marginal effects with continuous treatments, using semi-synthetic data of gasoline price changes on gasoline demand.
翻訳日:2021-10-08 15:55:29 公開日:2021-10-06
# GMM推定のためのロバストアルゴリズム:有限サンプル視点

Robust Algorithms for GMM Estimation: A Finite Sample Viewpoint ( http://arxiv.org/abs/2110.03070v1 )

ライセンス: Link先を確認
Dhruv Rohatgi, Vasilis Syrgkanis(参考訳) 統計学や計量学における多くの推論問題に対して、未知のパラメータはモーメント条件によって識別される。 モーメント条件を解く一般的な方法は一般化モーメント法(gmm)である。 しかし、古典的なGMM推定は外れ値に非常に敏感である可能性がある。 ロバスト化GMM推定器は過去にも開発されてきたが、計算の難易度、次元依存性の低さ、不規則な外れ値の存在下での定量的回復保証など、いくつかの欠点に悩まされている。 本研究では, 計算効率のよいGMM推定器(直観的な仮定の下で)を開発し, 一定の$\epsilon$ の逆劣化サンプルを許容し, $O(\sqrt{\epsilon})$ の $\ell_2$ の回復保証を持つ。 これを実現するため、平均推定や線形回帰、確率的最適化といった、関連するがより単純な問題に対するアルゴリズムロバストな統計に関する最近の研究の線引きと拡張を行った。 アルゴリズムの一般性の2つの例として,推定アルゴリズムと仮定が器用変数の線形回帰とロジスティック回帰にどのように適用されるかを示す。 さらに, 腐敗を伴う合成および半合成データセットにおいて, 推定器が古典的iv回帰および二段階フーバー回帰よりも優れていることを実験的に検証した。

For many inference problems in statistics and econometrics, the unknown parameter is identified by a set of moment conditions. A generic method of solving moment conditions is the Generalized Method of Moments (GMM). However, classical GMM estimation is potentially very sensitive to outliers. Robustified GMM estimators have been developed in the past, but suffer from several drawbacks: computational intractability, poor dimension-dependence , and no quantitative recovery guarantees in the presence of a constant fraction of outliers. In this work, we develop the first computationally efficient GMM estimator (under intuitive assumptions) that can tolerate a constant $\epsilon$ fraction of adversarially corrupted samples, and that has an $\ell_2$ recovery guarantee of $O(\sqrt{\epsilon})$. To achieve this, we draw upon and extend a recent line of work on algorithmic robust statistics for related but simpler problems such as mean estimation, linear regression and stochastic optimization. As two examples of the generality of our algorithm, we show how our estimation algorithm and assumptions apply to instrumental variables linear and logistic regression. Moreover, we experimentally validate that our estimator outperforms classical IV regression and two-stage Huber regression on synthetic and semi-synthetic datasets with corruption.
翻訳日:2021-10-08 15:55:02 公開日:2021-10-06
# 教師学習を用いた高分解能脳ネットワーク予測のためのドメイン間アライメント

Inter-Domain Alignment for Predicting High-Resolution Brain Networks Using Teacher-Student Learning ( http://arxiv.org/abs/2110.03452v1 )

ライセンス: Link先を確認
Basar Demir, Alaa Bessadok, and Islem Rekik(参考訳) 高精度で自動化された超解像画像合成は、高コストな医療スキャンと時間を要するニューロイメージングデータの前処理パイプラインの獲得を回避できる大きな可能性を秘めているため、非常に望まれている。 しかし、既存のディープラーニングフレームワークは、低解像度(LR)画像から高解像度(HR)画像を予測するためにのみ設計されており、その一般化能力は脳グラフ(コネクトーム)に制限される。 少数の研究は、単一のLRグラフからHRグラフを予測することを目的として、脳グラフの超解法に焦点を当てている。 有望ではあるが、既存の研究は、主に同じドメインに属する超解法グラフ(例えば、機能)に焦点を当て、マルチモーダルな脳データ分布(例えば、形態学と構造学)の間に存在する領域の破壊を見渡す。 そこで本研究では,脳グラフの超解法に教師-学生パラダイムを取り入れた,知識蒸留ネットワーク(L2S-KDnet)を用いた新たなドメイン間適応フレームワークを提案する。 教師ネットワークは,まずlrブレイングラフ埋め込みを学習するグラフエンコーダ・デコーダであり,次に,相反正規化を用いたhrグランド・真実データ分布への潜在表現の調整方法を学ぶ。 最終的に、HRグラフをアライメントされた埋め込みからデコードする。 次に,学生ネットワークは,教師から伝達される予測されたhrグラフの位相構造だけでなく,アライメントされた脳グラフの知識を学習する。 さらに,教師のデコーダを利用して学生ネットワークを最適化する。 L2S-KDnetは、ドメイン間のアライメントに基づく脳グラフ超解像合成に適した最初のTSアーキテクチャを提供する。 評価実験の結果,ベンチマーク法よりもかなりの性能向上を示した。

Accurate and automated super-resolution image synthesis is highly desired since it has the great potential to circumvent the need for acquiring high-cost medical scans and a time-consuming preprocessing pipeline of neuroimaging data. However, existing deep learning frameworks are solely designed to predict high-resolution (HR) image from a low-resolution (LR) one, which limits their generalization ability to brain graphs (i.e., connectomes). A small body of works has focused on superresolving brain graphs where the goal is to predict a HR graph from a single LR graph. Although promising, existing works mainly focus on superresolving graphs belonging to the same domain (e.g., functional), overlooking the domain fracture existing between multimodal brain data distributions (e.g., morphological and structural). To this aim, we propose a novel inter-domain adaptation framework namely, Learn to SuperResolve Brain Graphs with Knowledge Distillation Network (L2S-KDnet), which adopts a teacher-student paradigm to superresolve brain graphs. Our teacher network is a graph encoder-decoder that firstly learns the LR brain graph embeddings, and secondly learns how to align the resulting latent representations to the HR ground truth data distribution using an adversarial regularization. Ultimately, it decodes the HR graphs from the aligned embeddings. Next, our student network learns the knowledge of the aligned brain graphs as well as the topological structure of the predicted HR graphs transferred from the teacher. We further leverage the decoder of the teacher to optimize the student network. L2S-KDnet presents the first TS architecture tailored for brain graph super-resolution synthesis that is based on inter-domain alignment. Our experimental results demonstrate substantial performance gains over benchmark methods.
翻訳日:2021-10-08 15:51:35 公開日:2021-10-06
# 集団駆動型脳接続テンプレートの進化予測のための再帰的マルチグラフインテグレータネットワーク

Recurrent Multigraph Integrator Network for Predicting the Evolution of Population-Driven Brain Connectivity Templates ( http://arxiv.org/abs/2110.03453v1 )

ライセンス: Link先を確認
Oytun Demirbilek and Islem Rekik(参考訳) 連結脳テンプレート(CBT)を脳多グラフの集団から推定する方法を学ぶことで、各グラフ(例えば、機能的)は、関心の対の脳領域(ROI)の間の特定の関係を定量化し、個人間で共有されるユニークな接続パターンを特定できるようにする。 具体的には、CBTは高度に異質なグラフの集合の積分表現と見なされ、理想的には中心性(すなわち、人口内のすべてのグラフへの最小距離)と識別性(すなわち、混乱した人口と健康性を区別する)の基準を満たす。 これまでのところ、既存の作品は単一の時間で取得した脳のマルチグラフの統合と融合に限られている。 ベースラインのマルチグラフ人口を考えると、そのCBT表現をフォローアップタイムポイントでどのように統合し、予測するかを学ぶことができるだろうか? このような問題に対処することは、健康な人口と無秩序な人口の共通の変化を予測する上で最重要である。 このギャップを埋めるために,入力集団t1のベースラインcbtを推定し,その経時的変化を予測する最初のグラフ再帰型ニューラルネットワークであるrecurrent multigraph integrator network (remi-net)を提案する(ti > t1)。 我々のReMI-Netは、グラフ畳み込み層を持つ繰り返しニューラルネットワークブロックで構成されており、クロスノードメッセージパスを使用して、まず各CBTノードの隠れ状態埋め込み(すなわち、関心のある脳領域)を学習し、連続した時間ポイントでその進化を予測する。 さらに,CBTの進化軌道を時間とともに規則化する新たな時間依存的損失を設計し,さらに周期的再帰および学習可能な正規化層を導入し,時間依存型隠れ状態埋め込みから良好なCBTを生成する。 最後に、学習した隠れ状態グラフ表現からCBT隣接行列を導出する。

Learning how to estimate a connectional brain template(CBT) from a population of brain multigraphs, where each graph (e.g., functional) quantifies a particular relationship between pairs of brain regions of interest (ROIs), allows to pin down the unique connectivity patterns shared across individuals. Specifically, a CBT is viewed as an integral representation of a set of highly heterogeneous graphs and ideally meeting the centeredness (i.e., minimum distance to all graphs in the population) and discriminativeness (i.e., distinguishes the healthy from the disordered population) criteria. So far, existing works have been limited to only integrating and fusing a population of brain multigraphs acquired at a single timepoint. In this paper, we unprecedentedly tackle the question: Given a baseline multigraph population, can we learn how to integrate and forecast its CBT representations at follow-up timepoints? Addressing such question is of paramount in predicting common alternations across healthy and disordered populations. To fill this gap, we propose Recurrent Multigraph Integrator Network (ReMI-Net), the first graph recurrent neural network which infers the baseline CBT of an input population t1 and predicts its longitudinal evolution over time (ti > t1). Our ReMI-Net is composed of recurrent neural blocks with graph convolutional layers using a cross-node message passing to first learn hidden-states embeddings of each CBT node (i.e., brain region of interest) and then predict its evolution at the consecutive timepoint. Moreover, we design a novel time-dependent loss to regularize the CBT evolution trajectory over time and further introduce a cyclic recursion and learnable normalization layer to generate well-centered CBTs from time-dependent hidden-state embeddings. Finally, we derive the CBT adjacency matrix from the learned hidden state graph representation.
翻訳日:2021-10-08 15:51:05 公開日:2021-10-06
# ベースラインタイムポイントからのマルチモーダルベビー接続性開発予測のための数ショット学習グラフ多軌道進化ネットワーク

A Few-shot Learning Graph Multi-Trajectory Evolution Network for Forecasting Multimodal Baby Connectivity Development from a Baseline Timepoint ( http://arxiv.org/abs/2110.03535v1 )

ライセンス: Link先を確認
Alaa Bessadok, Ahmed Nebli, Mohamed Ali Mahjoub, Gang Li, Weili Lin, Dinggang Shen and Islem Rekik(参考訳) 出生後1年間の赤ちゃんコネクトーム進化の軌跡は、赤ちゃんの脳のダイナミックな結合性発達を理解する上で重要な役割を担っている。 このような分析は、長手接続データセットの取得を必要とする。 しかし、新生児スキャンも生後スキャンも様々な困難から取得されることはほとんどない。 少数の研究は、単一モダリティに由来する新生児脳コネクトームから脳の進化軌道を予測することに重点を置いている。 有望ではあるが、大規模なトレーニングデータセットはモデル学習を促進し、異なるモーダル(機能的および形態的コネクトーム)から多軌道予測に一般化するために不可欠である。 異なるモードで脳グラフの軌跡を予測するための、数ショットの学習ベースのフレームワークを設計できるだろうか? そこで本研究では,教師ネットワークが純粋に新生児脳グラフを学習し,学生ネットワークが様々な時間ポイントを与えられたシミュレーション脳グラフを学習する教師学習パラダイムを取り入れたグラフ多軌道進化ネットワーク(gmte-net)を提案する。 我々の知る限りでは、これは脳グラフ多軌道成長予測に適した最初の教師学生アーキテクチャであり、少数ショット学習に基づいてグラフニューラルネットワーク(GNN)に一般化されている。 学生ネットワークの性能を高めるために,生徒ネットワークの予測グラフトポロジーを教師ネットワークと整合させる局所トポロジー対応蒸留損失を導入する。 実験により, ベンチマーク法よりもかなりの性能向上を示した。 したがって、我々のGmTE-Netは、様々なモードにわたる非定型的な脳接続軌道の進化を予測するために利用することができる。 私たちのコードはhttps: //github.com/basiral ab/GmTE-Netで利用可能です。

Charting the baby connectome evolution trajectory during the first year after birth plays a vital role in understanding dynamic connectivity development of baby brains. Such analysis requires acquisition of longitudinal connectomic datasets. However, both neonatal and postnatal scans are rarely acquired due to various difficulties. A small body of works has focused on predicting baby brain evolution trajectory from a neonatal brain connectome derived from a single modality. Although promising, large training datasets are essential to boost model learning and to generalize to a multi-trajectory prediction from different modalities (i.e., functional and morphological connectomes). Here, we unprecedentedly explore the question: Can we design a few-shot learning-based framework for predicting brain graph trajectories across different modalities? To this aim, we propose a Graph Multi-Trajectory Evolution Network (GmTE-Net), which adopts a teacher-student paradigm where the teacher network learns on pure neonatal brain graphs and the student network learns on simulated brain graphs given a set of different timepoints. To the best of our knowledge, this is the first teacher-student architecture tailored for brain graph multi-trajectory growth prediction that is based on few-shot learning and generalized to graph neural networks (GNNs). To boost the performance of the student network, we introduce a local topology-aware distillation loss that forces the predicted graph topology of the student network to be consistent with the teacher network. Experimental results demonstrate substantial performance gains over benchmark methods. Hence, our GmTE-Net can be leveraged to predict atypical brain connectivity trajectory evolution across various modalities. Our code is available at https: //github.com/basiral ab/GmTE-Net.
翻訳日:2021-10-08 15:50:13 公開日:2021-10-06
# 大規模テキスト正規化のための高速ランダム化アルゴリズム

A Fast Randomized Algorithm for Massive Text Normalization ( http://arxiv.org/abs/2110.03024v1 )

ライセンス: Link先を確認
Nan Jiang, Chen Luo, Vihan Lakshman, Yesh Dattatreya, Yexiang Xue(参考訳) 自然言語処理やデータマイニングで一般的な機械学習技術の多くは、高品質なテキストソースに依存している。 しかし、実世界のテキストデータセットには、大量のスペルエラーと、これらのモデルの性能が急速に悪化する不適切な変動が含まれている。 さらに、実世界のWebスケールデータセットには、数十億行、あるいは数十億行のテキストが含まれている。 本稿では,大規模テキストデータのクリーン化とカノニカル化を行うスケーラブルなランダム化アルゴリズム flan を提案する。 本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。 我々は,局所性センシティブハッシュ(lsh)による単語対単語比較を効率的に処理する。 また,LSHのランダム化の性質の結果として生じる異種単語間のハッシュ衝突の問題に対処し,現実のデータセットの大規模化によって悪化する新たな安定化手法を提案する。 従来の手法と比較して,本手法は漸近的,経験的評価ともに効率的であり,語彙的・音声的類似性や単語埋め込み機能など追加機能に依存しない。 加えて、FLANは注釈付きデータや教師付き学習を必要としない。 さらに、補正の偽正負率と偽負率に上限を持つアルゴリズムのロバスト性を理論的に示す。 実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。

Many popular machine learning techniques in natural language processing and data mining rely heavily on high-quality text sources. However real-world text datasets contain a significant amount of spelling errors and improperly punctuated variants where the performance of these models would quickly deteriorate. Moreover, real-world, web-scale datasets contain hundreds of millions or even billions of lines of text, where the existing text cleaning tools are prohibitively expensive to execute over and may require an overhead to learn the corrections. In this paper, we present FLAN, a scalable randomized algorithm to clean and canonicalize massive text data. Our algorithm relies on the Jaccard similarity between words to suggest correction results. We efficiently handle the pairwise word-to-word comparisons via Locality Sensitive Hashing (LSH). We also propose a novel stabilization process to address the issue of hash collisions between dissimilar words, which is a consequence of the randomized nature of LSH and is exacerbated by the massive scale of real-world datasets. Compared with existing approaches, our method is more efficient, both asymptotically and in empirical evaluations, and does not rely on additional features, such as lexical/phonetic similarity or word embedding features. In addition, FLAN does not require any annotated data or supervised learning. We further theoretically show the robustness of our algorithm with upper bounds on the false positive and false negative rates of corrections. Our experimental results on real-world datasets demonstrate the efficiency and efficacy of FLAN.
翻訳日:2021-10-08 15:46:48 公開日:2021-10-06
# DeepBBS: ポイントクラウド登録のためのディープベストバディ

DeepBBS: Deep Best Buddies for Point Cloud Registration ( http://arxiv.org/abs/2110.03016v1 )

ライセンス: Link先を確認
Itan Hezroni, Amnon Drory, Raja Giryes, Shai Avidan(参考訳) 近年,ポイントクラウド登録のための深層学習手法が提案されている。 これらの手法は、2つの3dポイントクラウド内のマッチングポイントを見つけるのに役立つ表現を生成するためにネットワークを訓練する。 良いマッチングを見つけることで、ポイントクラウド間の変換を正確に計算できます。 これらのテクニックの2つの課題は、オクルージョンに対処し、トレーニング中に見えないクラスのオブジェクトに一般化することである。 本研究は,訓練中の点間の最善の相棒距離を考慮した表現の学習手法であるdeepbbsを提案する。 ベスト・バディ (Best Buddies) とは、互いに最も近い点のペアである。 最高の仲間の基準は、正しい一致することの強い兆候であり、その結果、正確な登録につながる。 実験の結果,従来の手法と比較して性能が向上した。 特に,学習した表現は,部分的な形状と見当たらないカテゴリの正確な登録に繋がる。

Recently, several deep learning approaches have been proposed for point cloud registration. These methods train a network to generate a representation that helps finding matching points in two 3D point clouds. Finding good matches allows them to calculate the transformation between the point clouds accurately. Two challenges of these techniques are dealing with occlusions and generalizing to objects of classes unseen during training. This work proposes DeepBBS, a novel method for learning a representation that takes into account the best buddy distance between points during training. Best Buddies (i.e., mutual nearest neighbors) are pairs of points nearest to each other. The Best Buddies criterion is a strong indication for correct matches that, in turn, leads to accurate registration. Our experiments show improved performance compared to previous methods. In particular, our learned representation leads to an accurate registration for partial shapes and in unseen categories.
翻訳日:2021-10-08 15:44:39 公開日:2021-10-06
# unseenドメイン一般化のための動的デコードソースドメイン知識

Dynamically Decoding Source Domain Knowledge For Unseen Domain Generalization ( http://arxiv.org/abs/2110.03027v1 )

ライセンス: Link先を確認
Cuicui Kang and Karthik Nandakumar(参考訳) ドメインの一般化は近年注目を集めている重要な問題です。 既存の研究はドメイン不変の特徴表現の学習に重点を置いているが、研究者の中には多専門家の学習をアンサンブルし、有望なパフォーマンスを実証する者もいる。 しかし、既存のマルチエキスパート学習フレームワークでは、ソースドメインの知識はまだあまり研究されておらず、結果として準最適性能が得られる。 本稿では,ソースドメインの知識を動的に復号化してドメインの一般化を実現するためにトランスフォーマーを適用することを提案する。 具体的には、ソースドメインごとに1つのドメイン固有のローカルエキスパートと、クエリとして1つのドメインに依存しない機能ブランチを構築します。 その後、すべてのローカルドメイン機能はTransformerエンコーダによって、メモリ内のソースドメイン知識としてエンコードされる。 トランスフォーマデコーダでは、ドメインに依存しないクエリがクロスアテンションモジュールのメモリと相互作用する。 この方法では、ソースドメインの知識を動的にデコードし、unseenドメインからの現在の入力を推論します。 したがって、この機構により、提案手法を未発見領域に一般化することができる。 提案手法は領域一般化分野の3つのベンチマークで評価する。 最先端手法との比較により,提案手法が最良性能を達成し,他の手法よりも高い差をみせた。

Domain generalization is an important problem which has gain much attention recently. While most existing studies focus on learning domain-invariant feature representations, some researchers try ensemble learning of multi experts and demonstrate promising performance. However, in existing multi-expert learning frameworks, the source domain knowledge has not yet been much explored, resulting in sub-optimal performance. In this paper, we propose to adapt Transformers for the purpose of dynamically decoding source domain knowledge for domain generalization. Specifically, we build one domain-specific local expert per source domain, and one domain-agnostic feature branch as query. Then, all local-domain features will be encoded by Transformer encoders, as source domain knowledge in memory. While in the Transformer decoders, the domain-agnostic query will interact with the memory in the cross-attention module, where similar domains with the input will contribute more in the attention output. This way, the source domain knowledge will be dynamically decoded for the inference of the current input from unseen domain. Therefore, this mechanism makes the proposed method well generalizable to unseen domains. The proposed method is evaluated on three benchmarks in the domain generalization field. The comparison with the state-of-the-art methods shows that the proposed method achieves the best performance, outperforming the others with a clear gap.
翻訳日:2021-10-08 15:44:28 公開日:2021-10-06
# アイスホッケーにおける選手追跡と識別

Player Tracking and Identification in Ice Hockey ( http://arxiv.org/abs/2110.03090v1 )

ライセンス: Link先を確認
Kanav Vats, Pascale Walters, Mehrnaz Fani, David A. Clausi, John Zelek(参考訳) プレイヤーの追跡と識別は、コンピュータビジョンに基づくアイスホッケー分析の基本的なステップである。 トラッキングによって生成されたデータは、ゲームイベント検出やゲーム戦略分析など、他の多くの下流タスクで使用される。 選手の追跡と識別は、選手の動きが歩行者に比べて速く、非線形であるため、難しい問題である。 ホッケーのブロードキャストビデオでは、カメラのパンニングやズームも盛んである。 アイスホッケー選手の識別は、同じチームの選手がほぼ同一に見えるため困難であり、ジャージ番号が選手間の唯一の識別要因である。 本稿では,NHLホッケー映像中の選手を追跡・識別する自動システムについて述べる。 本システムは,(1)選手追跡,(2)チーム識別,(3)プレイヤー識別の3つのコンポーネントから構成される。 公開されているデータセットがないため、3つのコンポーネントをトレーニングするために使用されるデータセットは手動でアノテートされる。 マルチオブジェクトトラッキング精度(mota)スコア94.5%を得る、アートトラッキングアルゴリズムの状態の助けを借りてプレイヤー追跡を行う。 チーム識別では、アウトチームジャージは単一のクラスにグループ化され、ホームチームジャージはそのジャージの色に応じてクラスにグループ化される。 次に、畳み込みニューラルネットワークをチーム識別データセットでトレーニングする。 チーム識別ネットワークは、テストセット上で97%の精度を得る。 時間的一次元畳み込みネットワークを利用してプレイヤー境界ボックス列からプレイヤーを識別する新しいプレイヤー識別モデルを提案する。 プレイヤー識別モデルは、利用可能なnhlゲームロスターデータを利用して、プレイヤー識別精度83%を得る。

Tracking and identifying players is a fundamental step in computer vision-based ice hockey analytics. The data generated by tracking is used in many other downstream tasks, such as game event detection and game strategy analysis. Player tracking and identification is a challenging problem since the motion of players in hockey is fast-paced and non-linear when compared to pedestrians. There is also significant camera panning and zooming in hockey broadcast video. Identifying players in ice hockey is challenging since the players of the same team look almost identical, with the jersey number the only discriminating factor between players. In this paper, an automated system to track and identify players in broadcast NHL hockey videos is introduced. The system is composed of three components (1) Player tracking, (2) Team identification and (3) Player identification. Due to the absence of publicly available datasets, the datasets used to train the three components are annotated manually. Player tracking is performed with the help of a state of the art tracking algorithm obtaining a Multi-Object Tracking Accuracy (MOTA) score of 94.5%. For team identification, the away-team jerseys are grouped into a single class and home-team jerseys are grouped in classes according to their jersey color. A convolutional neural network is then trained on the team identification dataset. The team identification network gets an accuracy of 97% on the test set. A novel player identification model is introduced that utilizes a temporal one-dimensional convolutional network to identify players from player bounding box sequences. The player identification model further takes advantage of the available NHL game roster data to obtain a player identification accuracy of 83%.
翻訳日:2021-10-08 15:44:05 公開日:2021-10-06
# フラクタル予習の改善

Improving Fractal Pre-training ( http://arxiv.org/abs/2110.03091v1 )

ライセンス: Link先を確認
Connor Anderson and Ryan Farrell(参考訳) 現代のコンピュータビジョンシステムで使用されるディープニューラルネットワークは、トレーニングに膨大な画像データセットを必要とする。 これらの慎重に計算されたデータセットは通常、数千以上の異なるカテゴリにわたる100万以上の画像を持つ。 このようなデータセットを作成してキュレーションするプロセスは目覚ましい作業であり、膨大な労力を要し、コストをラベル付けし、ラベルの正確性、著作権の所有、コンテンツバイアスといった技術的および社会的問題を慎重にナビゲートする必要がある。 大規模な画像データセットのパワーを活用できたが、現在直面している主要な問題や懸念がほとんど、あるいは全くなかったらどうだろうか? 本稿では,片岡らの最新研究について述べる。 al. (2020) は動的に生成されたフラクタル画像に基づく改良された事前学習データセットを提案する。 大規模な画像データセットの課題は、フラクタル事前トレーニングのエレガンスなポイントとなっている: ゼロコストでの完全なラベル精度、大規模な画像アーカイブの保存/転送不要、不適切なコンテンツのプライバシー/デポグラフィックバイアス/認識なし、画像の無制限な供給と多様性、画像は無料/オープンソースである。 おそらく驚くことに、これらの困難を避けることは、パフォーマンスにわずかなペナルティしか課さない。 我々の実験では、フラクタルを用いたネットワークの微調整が、ImageNet事前トレーニングネットワークの精度の92.7-98.1\%に達することを示した。

The deep neural networks used in modern computer vision systems require enormous image datasets to train them. These carefully-curated datasets typically have a million or more images, across a thousand or more distinct categories. The process of creating and curating such a dataset is a monumental undertaking, demanding extensive effort and labelling expense and necessitating careful navigation of technical and social issues such as label accuracy, copyright ownership, and content bias. What if we had a way to harness the power of large image datasets but with few or none of the major issues and concerns currently faced? This paper extends the recent work of Kataoka et. al. (2020), proposing an improved pre-training dataset based on dynamically-generate d fractal images. Challenging issues with large-scale image datasets become points of elegance for fractal pre-training: perfect label accuracy at zero cost; no need to store/transmit large image archives; no privacy/demographic bias/concerns of inappropriate content, as no humans are pictured; limitless supply and diversity of images; and the images are free/open-source. Perhaps surprisingly, avoiding these difficulties imposes only a small penalty in performance. Leveraging a newly-proposed pre-training task -- multi-instance prediction -- our experiments demonstrate that fine-tuning a network pre-trained using fractals attains 92.7-98.1\% of the accuracy of an ImageNet pre-trained network.
翻訳日:2021-10-08 15:43:42 公開日:2021-10-06
# 並列型ニューラルTSにおける強調制御

Emphasis control for parallel neural TTS ( http://arxiv.org/abs/2110.03012v1 )

ライセンス: Link先を確認
Shreyas Seshadri, Tuomo Raitio, Dan Castellani, Jiangchuan Li(参考訳) 音声信号によって伝達される意味情報は、韻律の局所的な変化に強く影響される。 最近の並列ニューラルテキスト音声合成法は,高性能を維持しつつ高い忠実度で音声を生成することができる。 しかし、これらのシステムは、しばしば出力の韻律に対する単純な制御を欠いているため、与えられたテキストに対して伝達可能な意味情報を制限している。 本稿では,強調の変化に直接対応する潜在空間を学習することにより,韻律強調制御のための階層型並列ニューラルネットワークttsシステムを提案する。 潜在空間の3つの候補特徴を比較する。 1)文中の単語内のピッチと持続時間の変化 2)ピッチ,エネルギー,持続時間から算出したウェーブレットに基づく特徴 3)上記の特徴の学習された組み合わせ。 客観的な測定により,提案手法は広範囲の強調強調修正を達成できることが明らかとなり,主観的評価の度合いと全体的な品質は,実世界のアプリケーションに期待できることを示す。

The semantic information conveyed by a speech signal is strongly influenced by local variations in prosody. Recent parallel neural text-to-speech (TTS) synthesis methods are able to generate speech with high fidelity while maintaining high performance. However, these systems often lack simple control over the output prosody, thus restricting the semantic information conveyable for a given text. This paper proposes a hierarchical parallel neural TTS system for prosodic emphasis control by learning a latent space that directly corresponds to a change in emphasis. Three candidate features for the latent space are compared: 1) Variance of pitch and duration within words in a sentence, 2) a wavelet based feature computed from pitch, energy, and duration and 3) a learned combination of the above features. Objective measures reveal that the proposed methods are able to achieve a wide range of emphasis modification, and subjective evaluations on the degree of emphasis and the overall quality indicate that they show promise for real-world applications.
翻訳日:2021-10-08 15:38:27 公開日:2021-10-06
# 深層強化学習のための多目的カリキュラムの学習

Learning Multi-Objective Curricula for Deep Reinforcement Learning ( http://arxiv.org/abs/2110.03032v1 )

ライセンス: Link先を確認
Jikun Kang, Miao Liu, Abhinav Gupta, Chris Pal, Xue Liu, Jie Fu(参考訳) 深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)法が提案されている。 DRLエージェントがデータの収集方法を制御するように設計されており、人間の学習プロセスの能力への適応方法にインスパイアされている。 例えば、ACLはサブゴール生成、報酬形成、環境生成、初期状態生成に使用することができる。 しかし、先行研究は、前述の事前定義されたパラダイムの1つに従ってカリキュラム学習を考えるのみである。 どちらのパラダイムが補完的であり、それらの組み合わせが環境との相互作用からどのように学べるのかは不明である。 そこで本稿では,パラメトリックカリキュラムモジュール群によって生成される多目的だが一貫性のあるカリキュラムを作成するための統合型カリキュラム学習フレームワークを提案する。 各カリキュラムモジュールはニューラルネットワークとしてインスタンス化され、特定のカリキュラムを生成する責任を負う。 統一パラメータ空間における競合する可能性のあるモジュールのコーディネートのために,単一のハイパーネットを用いて全てのカリキュラムモジュールをパラメータ化するマルチタスクハイパーネット学習フレームワークを提案する。 既存の手作業によるカリキュラムパラダイムに加えて,手作業で設計することが困難な抽象カリキュラムを学習するための柔軟なメモリ機構を設計する。 本手法は,ロボット操作の一連のタスクにおいて評価し,サンプル効率と最終性能の観点から,他の最先端のACL手法よりも優れていることを示す。

Various automatic curriculum learning (ACL) methods have been proposed to improve the sample efficiency and final performance of deep reinforcement learning (DRL). They are designed to control how a DRL agent collects data, which is inspired by how humans gradually adapt their learning processes to their capabilities. For example, ACL can be used for subgoal generation, reward shaping, environment generation, or initial state generation. However, prior work only considers curriculum learning following one of the aforementioned predefined paradigms. It is unclear which of these paradigms are complementary, and how the combination of them can be learned from interactions with the environment. Therefore, in this paper, we propose a unified automatic curriculum learning framework to create multi-objective but coherent curricula that are generated by a set of parametric curriculum modules. Each curriculum module is instantiated as a neural network and is responsible for generating a particular curriculum. In order to coordinate those potentially conflicting modules in unified parameter space, we propose a multi-task hyper-net learning framework that uses a single hyper-net to parameterize all those curriculum modules. In addition to existing hand-designed curricula paradigms, we further design a flexible memory mechanism to learn an abstract curriculum, which may otherwise be difficult to design manually. We evaluate our method on a series of robotic manipulation tasks and demonstrate its superiority over other state-of-the-art ACL methods in terms of sample efficiency and final performance.
翻訳日:2021-10-08 15:36:54 公開日:2021-10-06
# 部分学習可能なネットワークによる効率的かつプライベートなフェデレーション学習

Efficient and Private Federated Learning with Partially Trainable Networks ( http://arxiv.org/abs/2110.03450v1 )

ライセンス: Link先を確認
Hakim Sidahmed, Zheng Xu, Ankush Garg, Yuan Cao, Mingqing Chen(参考訳) フェデレーション学習は、エッジモバイルデバイスの大量(数百万)上での機械学習モデルの分散トレーニングに使用される。 モバイルデバイスは通信帯域やローカルな計算資源が限られているため、これは難しい。 したがって,フェデレート学習の効率性の向上は,スケーラビリティとユーザビリティに不可欠である。 本稿では,トレーニングプロセス全体においてモデルパラメータの一部が凍結される部分学習可能なニューラルネットワークを活用し,モデル性能にほとんど影響を与えない通信コストを削減することを提案する。 広範な実験を通じて、部分的に学習可能なニューラルネットワーク(fedpt)のフェデレート学習が、通信コストを最大46\times$まで低減し、少ない精度で優れた通信精度トレードオフをもたらすことを実証した。 私たちのアプローチは、メモリフットプリントを小さくして、より高速なトレーニングを可能にします。 提案手法はデバイス上での学習における過パラメータ化の限界を押し上げるために特に興味深い。

Federated learning is used for decentralized training of machine learning models on a large number (millions) of edge mobile devices. It is challenging because mobile devices often have limited communication bandwidth and local computation resources. Therefore, improving the efficiency of federated learning is critical for scalability and usability. In this paper, we propose to leverage partially trainable neural networks, which freeze a portion of the model parameters during the entire training process, to reduce the communication cost with little implications on model performance. Through extensive experiments, we empirically show that Federated learning of Partially Trainable neural networks (FedPT) can result in superior communication-accura cy trade-offs, with up to $46\times$ reduction in communication cost, at a small accuracy cost. Our approach also enables faster training, with a smaller memory footprint, and better utility for strong differential privacy guarantees. The proposed FedPT method can be particularly interesting for pushing the limitations of overparameterization in on-device learning.
翻訳日:2021-10-08 15:34:29 公開日:2021-10-06
# ニューラルネットワークの重み行列設計における決定論的変換の利用

Use of Deterministic Transforms to Design Weight Matrices of a Neural Network ( http://arxiv.org/abs/2110.03515v1 )

ライセンス: Link先を確認
Pol Grau Jurado, Xinyue Liang, Alireza M. Javid, and Saikat Chatterjee(参考訳) セルフサイズ推定フィードフォワードネットワーク (SSFN) はフィードフォワード多層ネットワークである。 既存のSSFNでは、各重み行列の一部が層単位で凸最適化アプローチ(教師付きトレーニング)を用いて訓練され、他方はランダム行列インスタンス(教師なしトレーニング)として選択される。 本稿では、ssfn重み行列に対するランダム行列のインスタンスの代わりに決定論的変換を用いることを考察する。 決定論的変換の使用は計算の複雑さを減少させる。 離散コサイン変換,アダマール変換,ハートリー変換,ウェーブレット変換など,いくつかの決定論的変換の利用について検討した。 一連の変換における決定論的変換の選択は教師なしの方法で行われる。 そこで,特徴量の統計パラメータに基づく2つの手法を開発した。 提案手法は,階層の重み行列によって決定論的変換が変化するニューラルネットの設計に有効である。 提案手法の有効性を,複数のベンチマークデータセットを用いたオブジェクト分類タスクに適用した。

Self size-estimating feedforward network (SSFN) is a feedforward multilayer network. For the existing SSFN, a part of each weight matrix is trained using a layer-wise convex optimization approach (a supervised training), while the other part is chosen as a random matrix instance (an unsupervised training). In this article, the use of deterministic transforms instead of random matrix instances for the SSFN weight matrices is explored. The use of deterministic transforms provides a reduction in computational complexity. The use of several deterministic transforms is investigated, such as discrete cosine transform, Hadamard transform, Hartley transform, and wavelet transforms. The choice of a deterministic transform among a set of transforms is made in an unsupervised manner. To this end, two methods based on features' statistical parameters are developed. The proposed methods help to design a neural net where deterministic transforms can vary across its layers' weight matrices. The effectiveness of the proposed approach vis-a-vis the SSFN is illustrated for object classification tasks using several benchmark datasets.
翻訳日:2021-10-08 15:34:11 公開日:2021-10-06
# メンバーシップ推論攻撃に対するリカレントニューラルネットワークの脆弱性について

On The Vulnerability of Recurrent Neural Networks to Membership Inference Attacks ( http://arxiv.org/abs/2110.03054v1 )

ライセンス: Link先を確認
Yunhao Yang, Parham Gohari and Ufuk Topcu(参考訳) 機械学習におけるリカレントニューラルネットワークのプライバシへの影響について検討する。 攻撃者が学習エージェントの訓練に与えられたデータレコードが使われたかどうかを推測しようとする、メンバーシップ推論攻撃(mia)を考える。 フィードフォワードニューラルネットワークをターゲットとする既存のMIAを用いて、トレーニング履歴の初期のデータ記録に対する攻撃精度が低下することを示す。 あるいは、リカレントネットワークは、過去の経験をよりよく覚えるように特別に設計されているため、フィードフォワードよりもMIAに対して脆弱である可能性が高い。 再帰型ネットワークの2つの主要な応用、すなわち深層強化学習とシーケンシャル・ツー・シーケンスタスクのためのMIAレイアウトを開発する。 最初の攻撃は、同じパフォーマンスレベルにあるフィードフォワードネットワークよりも、リカレントネットワークの方がmiasに弱いという実証的な証拠を提供するために使用します。 第2の攻撃は、各MIAの精度に対するオーバートレーニング繰り返しとフィードフォワードネットワークの効果の違いを示すものである。 最後に、MIAが悪用するプライバシーの脆弱性を解決するために、差分プライバシーメカニズムをデプロイする。 いずれのアタックレイアウトにおいても、プライバシ機構は攻撃精度を80%から50%まで低下させる。

We study the privacy implications of deploying recurrent neural networks in machine learning. We consider membership inference attacks (MIAs) in which an attacker aims to infer whether a given data record has been used in the training of a learning agent. Using existing MIAs that target feed-forward neural networks, we empirically demonstrate that the attack accuracy wanes for data records used earlier in the training history. Alternatively, recurrent networks are specifically designed to better remember their past experience; hence, they are likely to be more vulnerable to MIAs than their feed-forward counterparts. We develop a pair of MIA layouts for two primary applications of recurrent networks, namely, deep reinforcement learning and sequence-to-sequence tasks. We use the first attack to provide empirical evidence that recurrent networks are indeed more vulnerable to MIAs than feed-forward networks with the same performance level. We use the second attack to showcase the differences between the effects of overtraining recurrent and feed-forward networks on the accuracy of their respective MIAs. Finally, we deploy a differential privacy mechanism to resolve the privacy vulnerability that the MIAs exploit. For both attack layouts, the privacy mechanism degrades the attack accuracy from above 80% to 50%, which is equal to guessing the data membership uniformly at random, while trading off less than 10% utility.
翻訳日:2021-10-08 15:33:54 公開日:2021-10-06
# PWG-IDS:生成逆ネットワークを用いたIIoTネットワークにおけるクラス不均衡解消のための侵入検出モデル

PWG-IDS: An Intrusion Detection Model for Solving Class Imbalance in IIoT Networks Using Generative Adversarial Networks ( http://arxiv.org/abs/2110.03445v1 )

ライセンス: Link先を確認
Lei Zhang, Shuaimin Jiang, Xiajiong Shen, Brij B. Gupta, Zhihong Tian(参考訳) 産業用IoT(IIoT)技術の継続的な開発により、ネットワークセキュリティはますます重要になっている。 そして侵入検知は、そのセキュリティの重要な部分だ。 しかし,攻撃トラフィックの量は通常の交通量に比べて非常に少ないため,侵入検出は非常に困難である。 この不均衡に対処するために, ワーセルシュタイン生成逆方向ネットワーク侵入検知システム (PWG-IDS) を事前学習する侵入検知システムを提案する。 このシステムは2つの主要なモジュールに分けられる。 1) 本モジュールでは,WGAN-GPをトレーニングするために,まず通常のネットワークトラフィックを使用してWGAN-GPをトレーニングし,次にトレーニング済みのWGAN-GPに不均衡データを入力し,最終的な要求データを生成する。 2)侵入検知モジュール: iiotネットワークにおける攻撃トラフィックを検出する分類アルゴリズムとしてlightgbmを使用する。 実験の結果,提案するpwg-idsは2つのデータセットでそれぞれ99%,89%のf1-scoreを持つ他のモデルよりも優れていることがわかった。 また、提案した事前学習機構は他のGANにも広く利用でき、GANのトレーニングのための新しい考え方を提供する。

With the continuous development of industrial IoT (IIoT) technology, network security is becoming more and more important. And intrusion detection is an important part of its security. However, since the amount of attack traffic is very small compared to normal traffic, this imbalance makes intrusion detection in it very difficult. To address this imbalance, an intrusion detection system called pretraining Wasserstein generative adversarial network intrusion detection system (PWG-IDS) is proposed in this paper. This system is divided into two main modules: 1) In this module, we introduce the pretraining mechanism in the Wasserstein generative adversarial network with gradient penalty (WGAN-GP) for the first time, firstly using the normal network traffic to train the WGAN-GP, and then inputting the imbalance data into the pre-trained WGAN-GP to retrain and generate the final required data. 2) Intrusion detection module: We use LightGBM as the classification algorithm to detect attack traffic in IIoT networks. The experimental results show that our proposed PWG-IDS outperforms other models, with F1-scores of 99% and 89% on the 2 datasets, respectively. And the pretraining mechanism we proposed can also be widely used in other GANs, providing a new way of thinking for the training of GANs.
翻訳日:2021-10-08 15:33:04 公開日:2021-10-06
# DRAFT-あなたがいつも知りたかったことは、ブロックベースの環境について見つからなかった

DRAFT-What you always wanted to know but could not find about block-based environments ( http://arxiv.org/abs/2110.03073v1 )

ライセンス: Link先を確認
Mauricio Verano Merino, Jurgen Vinju, and Mark van den Brand(参考訳) ブロックベースの環境はビジュアルプログラミング環境であり、使いやすさのためにますます人気が高まっている。 使いやすさは、直感的なグラフィカル表現と構造的メタファー(ジグソーのようなパズル)のおかげで、ユーザに適切な言語構造の組み合わせを表示することができる。 現在のブロックベースの環境の人気は、Scratchのおかげである。 結果として、彼らはしばしば子供や若い学習者のためのツールと関連づけられる。 しかし,このようなプログラミング環境が一般的にどのように開発され,利用されているのかは不明である。 そこで我々は,2014年から2020年にかけて発行された152の論文を整理し,ブロック環境に関する体系的文献レビューを行い,32のブロック環境に関する非体系的ツールレビューを行った。 特に、異なるトピックやドメインのエンドユーザに対して、ブロックベースのエディタの有用なインベントリを提供する。 同様に、ブロックベースの環境の主要なコンポーネント、どのようにエンジニアリングされ、どのように使用されるかを特定することに重点を置いています。 この調査は、言語工学研究者や言語エンジニアにも同じように役立つはずだ。

Block-based environments are visual programming environments, which are becoming more and more popular because of their ease of use. The ease of use comes thanks to their intuitive graphical representation and structural metaphors (jigsaw-like puzzles) to display valid combinations of language constructs to the users. Part of the current popularity of block-based environments is thanks to Scratch. As a result they are often associated with tools for children or young learners. However, it is unclear how these types of programming environments are developed and used in general. So we conducted a systematic literature review on block-based environments by studying 152 papers published between 2014 and 2020, and a non-systematic tool review of 32 block-based environments. In particular, we provide a helpful inventory of block-based editors for end-users on different topics and domains. Likewise, we focused on identifying the main components of block-based environments, how they are engineered, and how they are used. This survey should be equally helpful for language engineering researchers and language engineers alike.
翻訳日:2021-10-08 15:31:53 公開日:2021-10-06
# 網膜CT画像を用いたAMD分類のためのマルチスケール畳み込みニューラルネットワーク

Multi-Scale Convolutional Neural Network for Automated AMD Classification using Retinal OCT Images ( http://arxiv.org/abs/2110.03002v1 )

ライセンス: Link先を確認
Saman Sotoudeh-Paima, Ata Jodeiri, Fedra Hajizadeh, Hamid Soltanian-Zadeh(参考訳) 加齢関連黄斑変性症(AMD)は、先進国、特に60歳以上の人々において、視覚障害の最も一般的な原因である。 近年,この分野の専門医の労働負荷と医療システムは,主に3つの理由から増加している。 1)網膜光コヒーレンストモグラフィ(OCT)イメージング技術の利用の増加 2)全世界の高齢化の頻度、及び 3)AMDの慢性的な性質。 近年のディープラーニングの発展は、完全に自動化された診断フレームワークの開発にユニークな機会を与えている。 OCT画像の様々な大きさにおけるAMD関連網膜病理の存在を考慮し、様々な大きさの受容野を用いて病態を識別できる多スケール畳み込みニューラルネットワーク(CNN)を提案する。 マルチスケールCNNは特徴ピラミッドネットワーク(FPN)構造に基づいて設計され,乾式および湿式AMD(乾式および脈絡膜新生血管形成(CNV))の正常および2つの臨床特徴を診断するために用いられた。 提案手法は,441例の網膜OCT画像12649例と,108312例のOCT画像からなるUCSDパブリックデータセットからなるNor Eye Hospital(NEH)で収集された全国データセットを用いて評価した。 その結果、マルチスケールのFPNベースの構造は、異なるバックボーンモデルに対して、ベースモデルの全体的な精度を0.4%から3.3%改善することができた。 さらに、段階学習は、第1フェーズでイメージネット重みのベースモデルを事前トレーニングし、第2フェーズでoct画像のデータセット上で結果モデルを微調整することにより、87.2%+-2.5%から93.4%+-1.4%の2フェーズでパフォーマンスが向上した。 提案アーキテクチャの有望な定量的および定性的な結果から,眼科医の診断精度向上を支援する医療センターにおけるスクリーニングツールとして,提案手法が有用であることが証明された。

Age-related macular degeneration (AMD) is the most common cause of blindness in developed countries, especially in people over 60 years of age. The workload of specialists and the healthcare system in this field has increased in recent years mainly dues to three reasons: 1) increased use of retinal optical coherence tomography (OCT) imaging technique, 2) prevalence of population aging worldwide, and 3) chronic nature of AMD. Recent developments in deep learning have provided a unique opportunity for the development of fully automated diagnosis frameworks. Considering the presence of AMD-related retinal pathologies in varying sizes in OCT images, our objective was to propose a multi-scale convolutional neural network (CNN) capable of distinguishing pathologies using receptive fields with various sizes. The multi-scale CNN was designed based on the feature pyramid network (FPN) structure and was used to diagnose normal and two common clinical characteristics of dry and wet AMD, namely drusen and choroidal neovascularization (CNV). The proposed method was evaluated on a national dataset gathered at Noor Eye Hospital (NEH), consisting of 12649 retinal OCT images from 441 patients, and a UCSD public dataset, consisting of 108312 OCT images. The results show that the multi-scale FPN-based structure was able to improve the base model's overall accuracy by 0.4% to 3.3% for different backbone models. In addition, gradual learning improved the performance in two phases from 87.2%+-2.5% to 93.4%+-1.4% by pre-training the base model on ImageNet weights in the first phase and fine-tuning the resulting model on a dataset of OCT images in the second phase. The promising quantitative and qualitative results of the proposed architecture prove the suitability of the proposed method to be used as a screening tool in healthcare centers assisting ophthalmologists in making better diagnostic decisions.
翻訳日:2021-10-08 15:30:52 公開日:2021-10-06
# 視覚による掘削活動分析と安全モニタリングシステム

Vision-based Excavator Activity Analysis and Safety Monitoring System ( http://arxiv.org/abs/2110.03083v1 )

ライセンス: Link先を確認
Sibo Zhang and Liangjun Zhang(参考訳) 本稿では,近年の深層学習とコンピュータビジョンの進歩を活かした掘削機活動解析と安全性モニタリングシステムを提案する。 提案システムは,掘削者の姿勢や行動を推定しながら,周辺環境と掘削者を検知する。 従来のシステムと比較して,オブジェクト検出,ポーズ推定,行動認識タスクにおいて高い精度を実現する。 さらに, 廃棄物処理リサイクル現場において, 自律掘削システム(AES)を用いた掘削機データセットを構築し, システムの有効性を実証した。 また,本手法をベンチマーク構築データセット上で評価する。 実験結果から,提案手法はトップ1の精度を約5.18%向上させることができた。

In this paper, we propose an excavator activity analysis and safety monitoring system, leveraging recent advancements in deep learning and computer vision. Our proposed system detects the surrounding environment and the excavators while estimating the poses and actions of the excavators. Compared to previous systems, our method achieves higher accuracy in object detection, pose estimation, and action recognition tasks. In addition, we build an excavator dataset using the Autonomous Excavator System (AES) on the waste disposal recycle scene to demonstrate the effectiveness of our system. We also evaluate our method on a benchmark construction dataset. The experimental results show that the proposed action recognition approach outperforms the state-of-the-art approaches on top-1 accuracy by about 5.18%.
翻訳日:2021-10-08 15:30:18 公開日:2021-10-06
# 医療画像におけるクロスアテンションによる肺炎の局在改善と報告

Improving Pneumonia Localization via Cross-Attention on Medical Images and Reports ( http://arxiv.org/abs/2110.03094v1 )

ライセンス: Link先を確認
Riddhish Bhalodia and Ali Hatamizadeh and Leo Tam and Ziyue Xu and Xiaosong Wang and Evrim Turkbey and Daguang Xu(参考訳) 肺炎などの疾患の局所化と特徴付けは、臨床パイプラインにおける主要なステップであり、詳細な臨床診断とその後の治療計画を容易にする。 さらに、そのようなロケーションアノテートされたデータセットは、下流タスクに使用するディープラーニングモデルのためのパスを提供することができる。 しかし、品質アノテーションの取得は人件費がかかるため、通常はドメインの専門知識を必要とする。 一方,医療報告には肺炎の特徴とその位置に関する情報が多数含まれている。 本稿では,トレーニング中の医療報告のエンコード情報を活用し,より優れたローカライゼーションを実現するための,弱教師付き注目駆動型深層学習モデルを提案する。 また,本モデルでは,肺炎に関連する属性の分類を行い,管理のために医療報告から抽出した。 分類と局所化は共に訓練され、一度訓練されると、入力画像のみを用いて、肺炎の局在化と特徴付けの両方に利用できる。 本稿では,胸部x線データを用いたモデルの検討を行い,テキスト情報の導入により肺炎の局在性が向上することを示す。 我々はMIMIC-CXRとChest X-ray-8の2つのデータセットで定量的な結果を示し、また、COVID-19データセットで重篤な特徴を示す。

Localization and characterization of diseases like pneumonia are primary steps in a clinical pipeline, facilitating detailed clinical diagnosis and subsequent treatment planning. Additionally, such location annotated datasets can provide a pathway for deep learning models to be used for downstream tasks. However, acquiring quality annotations is expensive on human resources and usually requires domain expertise. On the other hand, medical reports contain a plethora of information both about pneumonia characteristics and its location. In this paper, we propose a novel weakly-supervised attention-driven deep learning model that leverages encoded information in medical reports during training to facilitate better localization. Our model also performs classification of attributes that are associated to pneumonia and extracted from medical reports for supervision. Both the classification and localization are trained in conjunction and once trained, the model can be utilized for both the localization and characterization of pneumonia using only the input image. In this paper, we explore and analyze the model using chest X-ray datasets and demonstrate qualitatively and quantitatively that the introduction of textual information improves pneumonia localization. We showcase quantitative results on two datasets, MIMIC-CXR and Chest X-ray-8, and we also showcase severity characterization on the COVID-19 dataset.
翻訳日:2021-10-08 15:30:08 公開日:2021-10-06
# 仮想発電プラントの負荷集約と運転の予測可能性と公正性

Predictability and Fairness in Load Aggregation and Operations of Virtual Power Plants ( http://arxiv.org/abs/2110.03001v1 )

ライセンス: Link先を確認
Jakub Marecek, Michal Roubalik, Ramen Ghosh, Robert N. Shorten, Fabian R. Wirth(参考訳) 電力システムでは、制御可能な負荷やバッテリエネルギー貯蔵システムなどの分散エネルギー資源(ders)の集合的な需要を規制したいと考えている。 予測可能性と公平性の概念を示唆し,der,アグリゲータ,電力グリッドの操作者の初期状態とは,価格やインセンティブの長期平均値が独立していなければならないことを示唆する。 この概念は、通常の比例積分(PI)コントローラを含む、負荷アグリゲータが使用する多くの従来のコントローラでは保証できないことを示す。 交互電流モデルの非線形性を考慮しても、この予測可能性と公平性の概念は、穏やかな仮定の下で、段階的な入出力安定(iiss)コントローラに対して保証できることを示した。

In power systems, one wishes to regulate the aggregate demand of an ensemble of distributed energy resources (DERs), such as controllable loads and battery energy storage systems. We suggest a notion of predictability and fairness, which suggests that the long-term averages of prices or incentives offered should be independent of the initial states of the operators of the DER, the aggregator, and the power grid. We show that this notion cannot be guaranteed with many traditional controllers used by the load aggregator, including the usual proportional-integra l (PI) controller. We show that even considering the non-linearity of the alternating-current model, this notion of predictability and fairness can be guaranteed for incrementally input-to-state stable (iISS) controllers, under mild assumptions.
翻訳日:2021-10-08 15:29:36 公開日:2021-10-06
# GANtron: 生成的対立ネットワークを用いた感情音声合成

GANtron: Emotional Speech Synthesis with Generative Adversarial Networks ( http://arxiv.org/abs/2110.03390v1 )

ライセンス: Link先を確認
Enrique Hortal and Rodrigo Brechard Alarcia(参考訳) 音声合成は様々な産業で使われている。 それでも、常にフラットかロボットのように聞こえる。 韻律制御を可能にする技術メソッドの状態は使いづらいし、簡単にチューニングできない。 これらの欠点に対処すべく,本研究では,推定された音声を所望の感情に合わせてチューニング可能なテキスト対音声モデルの実装を目標としている。 そのため,注意機構を用いたシーケンス・ツー・シーケンスモデルとともに,gans(generative adversarial network)を用いる。 異なる入力とトレーニング戦略を考慮した4つの異なる構成を評価し、それらを研究し、私たちの最良のモデルが初期訓練データセットと同じ分布にある音声ファイルを生成する方法を証明する。 また, 注意損失を誘導することにより, トレーニング収束を高めるための新たな戦略を提案する。

Speech synthesis is used in a wide variety of industries. Nonetheless, it always sounds flat or robotic. The state of the art methods that allow for prosody control are very cumbersome to use and do not allow easy tuning. To tackle some of these drawbacks, in this work we target the implementation of a text-to-speech model where the inferred speech can be tuned with the desired emotions. To do so, we use Generative Adversarial Networks (GANs) together with a sequence-to-sequence model using an attention mechanism. We evaluate four different configurations considering different inputs and training strategies, study them and prove how our best model can generate speech files that lie in the same distribution as the initial training dataset. Additionally, a new strategy to boost the training convergence by applying a guided attention loss is proposed.
翻訳日:2021-10-08 15:28:47 公開日:2021-10-06
# ストレススプリットシーケンシャルトレーニングを用いた多相多弾性の物理インフォームドニューラルネットワークシミュレーション

Physics-informed neural network simulation of multiphase poroelasticity using stress-split sequential training ( http://arxiv.org/abs/2110.03049v1 )

ライセンス: Link先を確認
Ehsan Haghighat and Danial Amini and Ruben Juanes(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって支配される問題の前進、逆転、代理モデリングのための統一的な枠組みとして注目されている。 しかしながら、前方問題に対するピンの訓練は、主に複雑な非凸および多目的損失関数のため、重大な課題をもたらす。 本研究では, 単相流と多相流の両方における多孔質媒質中の結合流れと変形の方程式をpinn法で解く。 この目的のために,多層ニューラルネットワークを用いて解空間を構築する。 この問題のダイナミクスにより、損失関数に多重微分関係を組み込むと不安定な最適化問題が発生することが判明し、場合によっては自明なヌル解に収束する。 我々は,オプティマイザに最も好適な結合制御方程式の無次元形式を報告する。 さらに,ポロメカニクスの応力分割アルゴリズムに基づく逐次学習手法を提案する。 特に、ストレススプリットに基づく逐次トレーニングは異なる問題に対してうまく機能し、一方、古典的ひずみスプリットアルゴリズムは有限要素ソルバの文脈で報告されるような不安定な挙動を示す。 提案手法は,マンデルの凝縮問題,バリー・マーサーの注入生成問題,参照二相排水問題など,多弾性性のベンチマーク問題を解くために用いられる。 この原稿で報告された結果を再現するPython-SciANNコードはhttps://github.com/s ciann/sciann-applica tionsで公開される。

Physics-informed neural networks (PINNs) have received significant attention as a unified framework for forward, inverse, and surrogate modeling of problems governed by partial differential equations (PDEs). Training PINNs for forward problems, however, pose significant challenges, mainly because of the complex non-convex and multi-objective loss function. In this work, we present a PINN approach to solving the equations of coupled flow and deformation in porous media for both single-phase and multiphase flow. To this end, we construct the solution space using multi-layer neural networks. Due to the dynamics of the problem, we find that incorporating multiple differential relations into the loss function results in an unstable optimization problem, meaning that sometimes it converges to the trivial null solution, other times it moves very far from the expected solution. We report a dimensionless form of the coupled governing equations that we find most favourable to the optimizer. Additionally, we propose a sequential training approach based on the stress-split algorithms of poromechanics. Notably, we find that sequential training based on stress-split performs well for different problems, while the classical strain-split algorithm shows an unstable behaviour similar to what is reported in the context of finite element solvers. We use the approach to solve benchmark problems of poroelasticity, including Mandel's consolidation problem, Barry-Mercer's injection-production problem, and a reference two-phase drainage problem. The Python-SciANN codes reproducing the results reported in this manuscript will be made publicly available at https://github.com/s ciann/sciann-applica tions.
翻訳日:2021-10-08 15:28:05 公開日:2021-10-06
# 探索的ユーザによる最適勧告の学習

Learning the Optimal Recommendation from Explorative Users ( http://arxiv.org/abs/2110.03068v1 )

ライセンス: Link先を確認
Fan Yao, Chuanhao Li, Denis Nekipelov, Hongning Wang, Haifeng Xu(参考訳) 本稿では,レコメンダシステムとユーザ間の逐次的相互作用を研究するための新しい問題設定を提案する。 ユーザが万能で、静的で、明示的であると仮定するのではなく、従来のプラクティスのように、より現実的なユーザ行動モデルをスケッチします。 1) 明らかに他人より悪い場合は,推奨を拒絶する。 2 受諾した勧告の報奨に基づく実用性評価を更新すること。 3)システムから得られる報酬を保留する。 我々は,$k$-armed banditフレームワークを用いて,システムと探索的ユーザとのインタラクションを定式化し,システム側で最適レコメンデーションを学習する問題について検討する。 効率的なシステム学習は今でも可能だが、より難しい。 特に、システムは$O(1/\delta)$の相互作用の中で少なくとも1-\delta$の確率で最適なアームを識別できる。 我々の発見は、最適な腕識別と固定された信頼度の問題の結果とは対照的であり、最良の腕を1-\delta$の確率で$O(\log(1/\delta))$の相互作用で識別することができる。 このギャップは、システムが認識された報酬からではなく、探索的なユーザの推奨事項から学習したときの避けられないコストを示している。

We propose a new problem setting to study the sequential interactions between a recommender system and a user. Instead of assuming the user is omniscient, static, and explicit, as the classical practice does, we sketch a more realistic user behavior model, under which the user: 1) rejects recommendations if they are clearly worse than others; 2) updates her utility estimation based on rewards from her accepted recommendations; 3) withholds realized rewards from the system. We formulate the interactions between the system and such an explorative user in a $K$-armed bandit framework and study the problem of learning the optimal recommendation on the system side. We show that efficient system learning is still possible but is more difficult. In particular, the system can identify the best arm with probability at least $1-\delta$ within $O(1/\delta)$ interactions, and we prove this is tight. Our finding contrasts the result for the problem of best arm identification with fixed confidence, in which the best arm can be identified with probability $1-\delta$ within $O(\log(1/\delta))$ interactions. This gap illustrates the inevitable cost the system has to pay when it learns from an explorative user's revealed preferences on its recommendations rather than from the realized rewards.
翻訳日:2021-10-08 15:27:38 公開日:2021-10-06
# Multi-Trigger-Key:ディープラーニングにおけるマルチタスクプライバシ保護を目指して

Multi-Trigger-Key: Towards Multi-Task Privacy Preserving In Deep Learning ( http://arxiv.org/abs/2110.03106v1 )

ライセンス: Link先を確認
Ren Wang, Zhe Xu, Alfred Hero(参考訳) ディープラーニングベースのマルチタスク分類(MTC)は、強力なプライバシ保証を保証する顔属性やヘルスケアといったアプリケーションで広く使用されている。 本研究では,mtcの推論フェーズにおける機密情報を保護し,プライバシ保護目的を達成するための新しいマルチトリガーキー(mtk)フレームワークを提案する。 MTKは、マルチタスクデータセット内の各セキュアタスクを、特別に設計されたトリガーキーに関連付ける。 ユーザが承認された場合、トリガーキーを追加することで、真の情報を明らかにすることができる。 新たに生成されたトレーニングセットでトレーニングすることで,このようなmtkモデルを得る。 異なるタスク間の相関関係による情報漏えいに対処するため、MTKデカップリングプロセスと保護効果とモデル性能とのトレードオフを制御可能とし、トレーニングプロセスを一般化する。 理論的な保証と実験結果は、モデル性能を損なうことなく、プライバシー保護の有効性を示す。

Deep learning-based Multi-Task Classification (MTC) is widely used in applications like facial attributes and healthcare that warrant strong privacy guarantees. In this work, we aim to protect sensitive information in the inference phase of MTC and propose a novel Multi-Trigger-Key (MTK) framework to achieve the privacy-preserving objective. MTK associates each secured task in the multi-task dataset with a specifically designed trigger-key. The true information can be revealed by adding the trigger-key if the user is authorized. We obtain such an MTK model by training it with a newly generated training set. To address the information leakage malaise resulting from correlations among different tasks, we generalize the training process by incorporating an MTK decoupling process with a controllable trade-off between the protective efficacy and the model performance. Theoretical guarantees and experimental results demonstrate the effectiveness of the privacy protection without appreciable hindering on the model performance.
翻訳日:2021-10-08 15:27:12 公開日:2021-10-06
# (参考訳) タンパク質界面接触予測のための幾何トランスフォーマー [全文訳有]

Geometric Transformers for Protein Interface Contact Prediction ( http://arxiv.org/abs/2110.02423v1 )

ライセンス: CC BY 4.0
Alex Morehead, Chen Chen, Jianlin Cheng(参考訳) タンパク質間の界面接触を予測する計算手法は、タンパク質ドッキング、タンパク質機能解析ツール、タンパク質バイオインフォマティクスの計算方法などの代替手法の精度を大幅に向上できるため、医薬品発見の後に大いに求められている。 本稿では,エンド・ツー・エンドの予測パイプラインであるdeepinteract内にパッケージされた,回転および翻訳不変タンパク質界面接触予測のための新しい幾何進化グラフトランスフォーマを提案する。 deepinteractは、2つのタンパク質の3d立体構造を入力として、パートナー特異的なタンパク質界面接触(すなわちタンパク質間残基-residue contact)を予測する。 厳密なベンチマークでは、DeepInteractは、新しい相互作用タンパク質構造データベース(DIPS-Plus)と第13および第14回CASP-CAPRI実験からの挑戦的なタンパク質複合体の標的について、それぞれ17%と13%のトップL/5精度(複合体内のタンパク質ユニットの長さ)を達成した。 グラフベースのバックボーンとしてGeometric Transformerを使用するDeepInteractは、DeepInteractと互換性のある他のグラフベースのニューラルネットワークバックボーンに加えて、既存のインターフェース接触予測方法よりも優れており、3Dタンパク質構造上の下流タスクのためのリッチリレーショナルジオメトリ機能を学ぶためのGeometric Transformerの有効性が検証されている。

Computational methods for predicting the interface contacts between proteins come highly sought after for drug discovery as they can significantly advance the accuracy of alternative approaches, such as protein-protein docking, protein function analysis tools, and other computational methods for protein bioinformatics. In this work, we present the Geometric Transformer, a novel geometry-evolving graph transformer for rotation and translation-invarian t protein interface contact prediction, packaged within DeepInteract, an end-to-end prediction pipeline. DeepInteract predicts partner-specific protein interface contacts (i.e., inter-protein residue-residue contacts) given the 3D tertiary structures of two proteins as input. In rigorous benchmarks, DeepInteract, on challenging protein complex targets from the new Enhanced Database of Interacting Protein Structures (DIPS-Plus) and the 13th and 14th CASP-CAPRI experiments, achieves 17% and 13% top L/5 precision (L: length of a protein unit in a complex), respectively. In doing so, DeepInteract, with the Geometric Transformer as its graph-based backbone, outperforms existing methods for interface contact prediction in addition to other graph-based neural network backbones compatible with DeepInteract, thereby validating the effectiveness of the Geometric Transformer for learning rich relational-geometric features for downstream tasks on 3D protein structures.
翻訳日:2021-10-08 07:15:33 公開日:2021-10-06
# (参考訳) 疑似シンクホーンを用いた自然言語理解のフェデレート蒸留 [全文訳有]

Federated Distillation of Natural Language Understanding with Confident Sinkhorns ( http://arxiv.org/abs/2110.02432v1 )

ライセンス: CC BY-SA 4.0
Rishabh Bhardwaj, Tushar Vaidya, Soujanya Poria(参考訳) ユーザエクスペリエンスの向上は、アプリケーションサービスプロバイダにとって不可欠なタスクです。 例えば、広い範囲に住んでいる2人のユーザーは、食べ物の味が違うかもしれない。 エッジデバイスにインストールされたfood recommenderモバイルアプリケーションは、異なるドメインに関するクライアントのニーズを満たすために、ユーザからのフィードバック(レビュー)から学びたい場合があります。 ユーザデータを取得するには、プライバシのコストがかかると同時に、ユーザデバイスでトレーニングされたモデルパラメータを大規模にスペース非効率にする。 本研究では、ローカルデータやモデルパラメータをサーバに公開することなく、ユーザデバイス上でトレーニングされた(ローカル)モデルのフェデレーションから中央(グローバル)モデルを学習するアプローチを提案する。 本稿では,自然言語理解(NLU)タスクに一般的に現れるラベル間の類似度指標の問題に対するフェデレーション機構を提案する。 グローバルモデルを学ぶためには,局所モデルに割り当てられたソフトターゲットの信頼度から,グローバルモデル予測の最適輸送コストを最小化する。 モデルの信頼度(モデル重み付けスキーム)スコアは、モデルの予測と確率バイアスとのL2距離として定義される。 本手法は,3つのNLUタスクに固有のラベル空間意味論(微粒な感情分析,会話における感情認識,自然言語推論)を組み込んだベースライン上でのグローバルモデルの性能を向上させる。 コードはhttps://github.com/d eclare-lab/sinkhorn- lossで公開しています。

Enhancing the user experience is an essential task for application service providers. For instance, two users living wide apart may have different tastes of food. A food recommender mobile application installed on an edge device might want to learn from user feedback (reviews) to satisfy the client's needs pertaining to distinct domains. Retrieving user data comes at the cost of privacy while asking for model parameters trained on a user device becomes space inefficient at a large scale. In this work, we propose an approach to learn a central (global) model from the federation of (local) models which are trained on user-devices, without disclosing the local data or model parameters to the server. We propose a federation mechanism for the problems with natural similarity metric between the labels which commonly appear in natural language understanding (NLU) tasks. To learn the global model, the objective is to minimize the optimal transport cost of the global model's predictions from the confident sum of soft-targets assigned by local models. The confidence (a model weighting scheme) score of a model is defined as the L2 distance of a model's prediction from its probability bias. The method improves the global model's performance over the baseline designed on three NLU tasks with intrinsic label space semantics, i.e., fine-grained sentiment analysis, emotion recognition in conversation, and natural language inference. We make our codes public at https://github.com/d eclare-lab/sinkhorn- loss.
翻訳日:2021-10-08 06:55:50 公開日:2021-10-06
# (参考訳) 複雑な都市環境における歩行者風力係数の推定 [全文訳有]

Pedestrian Wind Factor Estimation in Complex Urban Environments ( http://arxiv.org/abs/2110.02443v1 )

ライセンス: CC BY 4.0
Sarah Mokhtar, Matthew Beveridge, Yumeng Cao, Iddo Drori(参考訳) 都市計画立案者や政策立案者は、より密集した都市環境においてより人口の多い都市のために、住みやすく楽しい都市を作るという課題に直面している。 都市マイクロ気候は, 都市空間の質を定義する上で重要な役割を担っているが, 計算流体力学(CFD)シミュレーションの複雑化と計算費用の増大により, 初期の都市設計と計画プロセスにおける風力マイクロ気候評価の統合は依然として課題である。 この研究は、複雑な都市環境におけるリアルタイムな歩行者風の快適さ推定のためのデータ駆動ワークフローを開発し、デザイナー、政策立案者、都市住民が移動性、健康、エネルギー選択に関する情報決定を行うことを可能にする。 条件付き生成型逆ネットワーク(cgan)アーキテクチャを用いて,高い信頼度と解釈性を維持しつつ計算量を削減し,都市の複雑度を適切に表現し,歩行者の快適度を推定する。 計算時間を数日から秒に短縮しつつ,高品質な風力場近似を示す。

Urban planners and policy makers face the challenge of creating livable and enjoyable cities for larger populations in much denser urban conditions. While the urban microclimate holds a key role in defining the quality of urban spaces today and in the future, the integration of wind microclimate assessment in early urban design and planning processes remains a challenge due to the complexity and high computational expense of computational fluid dynamics (CFD) simulations. This work develops a data-driven workflow for real-time pedestrian wind comfort estimation in complex urban environments which may enable designers, policy makers and city residents to make informed decisions about mobility, health, and energy choices. We use a conditional generative adversarial network (cGAN) architecture to reduce the computational computation while maintaining high confidence levels and interpretability, adequate representation of urban complexity, and suitability for pedestrian comfort estimation. We demonstrate high quality wind field approximations while reducing computation time from days to seconds.
翻訳日:2021-10-08 06:28:17 公開日:2021-10-06
# (参考訳) サブクアドラティックな複雑度をもつ視覚知覚のためのリップル注意 [全文訳有]

Ripple Attention for Visual Perception with Sub-quadratic Complexity ( http://arxiv.org/abs/2110.02453v1 )

ライセンス: CC BY 4.0
Lin Zheng, Huijie Pan, Lingpeng Kong(参考訳) トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。 中心となるのはアテンションメカニズムであり、シーケンス内の長期依存の効果的なモデリングを可能にする。 近年,コンピュータビジョン領域において,まず2次元画像をパッチに分割し,次いで1次元シーケンスとして扱うトランスフォーマーが成功している。 しかし、このような線形化は、重要な視覚的手がかりを持つ画像における空間的局所性の概念を損なう。 このギャップを埋めるために,視覚知覚のためのサブクアドラティックアテンション機構であるリップルアテンションを提案する。 ripple attentionでは、2次元空間における相対空間距離に関して、クエリに対する異なるトークンの寄与を重み付けする。 長期依存を許さないビシナルトークンとの相関性を求めるため,スティック破れ変換により空間重みを導出する。 さらに,全問合せに対する重み付き貢献度を線形観測時間で計算する動的プログラミングアルゴリズムを,サムド領域表と近年の線形注意の進歩を活かして設計する。 広汎な実験と分析は、様々な視覚的タスクにおけるリップル注意の有効性を示す。

Transformer architectures are now central to modeling in natural language processing tasks. At its heart is the attention mechanism, which enables effective modeling of long-term dependencies in a sequence. Recently, transformers have been successfully applied in the computer vision domain, where 2D images are first segmented into patches and then treated as 1D sequences. Such linearization, however, impairs the notion of spatial locality in images, which bears important visual clues. To bridge the gap, we propose ripple attention, a sub-quadratic attention mechanism for visual perception. In ripple attention, contributions of different tokens to a query are weighted with respect to their relative spatial distances in the 2D space. To favor correlations with vicinal tokens yet permit long-term dependencies, we derive the spatial weights through a stick-breaking transformation. We further design a dynamic programming algorithm that computes weighted contributions for all queries in linear observed time, taking advantage of the summed-area table and recent advances in linearized attention. Extensive experiments and analyses demonstrate the effectiveness of ripple attention on various visual tasks.
翻訳日:2021-10-08 06:17:13 公開日:2021-10-06
# (参考訳) 機械学習推論の性能推定のためのポストホックモデル [全文訳有]

Post-hoc Models for Performance Estimation of Machine Learning Inference ( http://arxiv.org/abs/2110.02459v1 )

ライセンス: CC BY 4.0
Xuechen Zhang, Samet Oymak, Jiasi Chen(参考訳) 推論中に機械学習モデルがどのように機能するかを見積もるのは、さまざまなシナリオ(不確実性を定量化する、あるいは利用可能なモデルのライブラリから選択するなど)において非常に重要です。 しかし、ソフトマックス信頼性の標準的な精度推定は汎用的ではなく、異なるパフォーマンス指標(例えば、F1スコア、リコール)や異なるアプリケーションシナリオや入力ドメインのパフォーマンスを確実に予測することはできない。 本研究では,様々な指標とシナリオに対する性能推定を体系的に一般化し,不確実性校正の一般化概念について考察する。 本稿では,この目標を達成するためにポストホックモデルを使用し,モデルタイプ,特徴工学,性能指標を含む設計パラメータを調査し,最適な推定品質を達成することを提案する。 オブジェクト検出問題に重点を置いており、従来の手法とは異なり、リコールやF1スコアといった画像単位のメトリクスを推定できる。 コンピュータビジョンモデルとデータセットによる3つのユースケース(モバイルエッジオフロード、モデル選択、データセットシフト)による広範な実験を通じて、提案されたポストホックモデルは、標準のキャリブレーションされた信頼性ベースラインを一貫して上回ることがわかった。 我々の知る限りでは、機械学習推論のための異なる性能推定問題に対処する統一的なフレームワークを開発する最初の試みである。

Estimating how well a machine learning model performs during inference is critical in a variety of scenarios (for example, to quantify uncertainty, or to choose from a library of available models). However, the standard accuracy estimate of softmax confidence is not versatile and cannot reliably predict different performance metrics (e.g., F1-score, recall) or the performance in different application scenarios or input domains. In this work, we systematically generalize performance estimation to a diverse set of metrics and scenarios and discuss generalized notions of uncertainty calibration. We propose the use of post-hoc models to accomplish this goal and investigate design parameters, including the model type, feature engineering, and performance metric, to achieve the best estimation quality. Emphasis is given to object detection problems and, unlike prior work, our approach enables the estimation of per-image metrics such as recall and F1-score. Through extensive experiments with computer vision models and datasets in three use cases -- mobile edge offloading, model selection, and dataset shift -- we find that proposed post-hoc models consistently outperform the standard calibrated confidence baselines. To the best of our knowledge, this is the first work to develop a unified framework to address different performance estimation problems for machine learning inference.
翻訳日:2021-10-08 05:51:27 公開日:2021-10-06
# (参考訳) ssfl:自己監督による連合学習におけるラベル不足対策 [全文訳有]

SSFL: Tackling Label Deficiency in Federated Learning via Personalized Self-Supervision ( http://arxiv.org/abs/2110.02470v1 )

ライセンス: CC BY 4.0
Chaoyang He, Zhengyu Yang, Erum Mushtaq, Sunwoo Lee, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) federated learning(fl)は、データのプライバシを強化するために、mlトレーニングエコシステムを、クラウド上の集中型設定からエッジデバイス上の分散トレーニングに転換している。 flにおける本質的だが稀な課題は、端のラベル不足である。 この問題は、FLユーザーがプライベートデータのラベル付けに消極的であることから、集中的なトレーニングよりもFLの方が顕著である。 さらに,エッジデバイスにおけるデータの不均一性から,パーソナライズモデルの開発が重要である。 本稿では,自己教師付き連合学習(self-supervised federated learning; ssfl),自己教師付きおよびパーソナライズされた連合学習フレームワーク,およびこれらの課題に対処するための一連のアルゴリズムを提案する。 まず,SSFLフレームワーク下では,SimSiamネットワークなどの集中型自己教師型学習において,FedAvgアルゴリズムが近年のブレークスルーと互換性があることを実証する。 さらに,本フレームワークのエッジデバイスにおけるデータ不均一性に対処するため,既存の教師付きパーソナライゼーションアルゴリズムを自己教師付き学習の設定へと拡張するアルゴリズムを改良した。 さらに,データの局所表現と大域表現との間の距離を慎重に調整することにより,パーソナライズとコンセンサスをバランスさせる,パーソナライズされた自己教師付き学習アルゴリズムであるper-ssflを提案する。 また,提案アルゴリズムの総合的な比較分析を行うために,分散トレーニングシステムとSSFLの関連評価プロトコルを開発した。 その結果,flにおける教師付き学習と教師なし学習の間の評価精度の差は小さく合理的であることがわかった。 性能比較は、表現正規化に基づくパーソナライズ法が他の変種よりも優れていることを示す。

Federated Learning (FL) is transforming the ML training ecosystem from a centralized over-the-cloud setting to distributed training over edge devices in order to strengthen data privacy. An essential but rarely studied challenge in FL is label deficiency at the edge. This problem is even more pronounced in FL compared to centralized training due to the fact that FL users are often reluctant to label their private data. Furthermore, due to the heterogeneous nature of the data at edge devices, it is crucial to develop personalized models. In this paper we propose self-supervised federated learning (SSFL), a unified self-supervised and personalized federated learning framework, and a series of algorithms under this framework which work towards addressing these challenges. First, under the SSFL framework, we demonstrate that the standard FedAvg algorithm is compatible with recent breakthroughs in centralized self-supervised learning such as SimSiam networks. Moreover, to deal with data heterogeneity at the edge devices in this framework, we have innovated a series of algorithms that broaden existing supervised personalization algorithms into the setting of self-supervised learning. We further propose a novel personalized federated self-supervised learning algorithm, Per-SSFL, which balances personalization and consensus by carefully regulating the distance between the local and global representations of data. To provide a comprehensive comparative analysis of all proposed algorithms, we also develop a distributed training system and related evaluation protocol for SSFL. Our findings show that the gap of evaluation accuracy between supervised learning and unsupervised learning in FL is both small and reasonable. The performance comparison indicates the representation regularization-based personalization method is able to outperform other variants.
翻訳日:2021-10-08 05:28:32 公開日:2021-10-06
# (参考訳) シミュレーションに基づく推論による悪意活動の検出と定量化 [全文訳有]

Detecting and Quantifying Malicious Activity with Simulation-based Inference ( http://arxiv.org/abs/2110.02483v1 )

ライセンス: CC BY 4.0
Andrew Gambardella, Bogdan State, Naemullah Khan, Leo Tsourides, Philip H. S. Torr, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) 本稿では,悪意のあるユーザ識別問題に対処する確率的プログラミング手法を推薦アルゴリズムで提案する。 確率的プログラミングは、悪意のあるユーザーが構造化されたモデルの下でどのように振る舞うかの不連続な表現を提供するだけでなく、悪意のあるユーザーによって引き起こされるダメージの定量化を可能にするなど、他の技術よりも多くの利点を提供する。 簡単なレコメンデーションアルゴリズムと相互作用する正規ユーザと悪意ユーザのモデルを用いて、悪意のあるユーザ識別実験を行い、そのダイナミクスに対するユーザやグループの影響を定量化する新しいシミュレーションベースの尺度を提案する。

We propose the use of probabilistic programming techniques to tackle the malicious user identification problem in a recommendation algorithm. Probabilistic programming provides numerous advantages over other techniques, including but not limited to providing a disentangled representation of how malicious users acted under a structured model, as well as allowing for the quantification of damage caused by malicious users. We show experiments in malicious user identification using a model of regular and malicious users interacting with a simple recommendation algorithm, and provide a novel simulation-based measure for quantifying the effects of a user or group of users on its dynamics.
翻訳日:2021-10-08 04:48:39 公開日:2021-10-06
# (参考訳) 解釈可能な機械学習のためのshapley変数重要クラウド [全文訳有]

Shapley variable importance clouds for interpretable machine learning ( http://arxiv.org/abs/2110.02484v1 )

ライセンス: CC BY 4.0
Yilin Ning, Marcus Eng Hock Ong, Bibhas Chakraborty, Benjamin Alan Goldstein, Daniel Shu Wei Ting, Roger Vaughan, Nan Liu(参考訳) 解釈可能な機械学習は、パフォーマンスを最適化する最終モデルの説明に注力している。 現在の最先端は、個々の予測に対する変数の影響を局所的に説明するShapley additive explanations(SHAP)であり、データセット全体のグローバルアセスメントのために最近拡張されている。 最近、ドンとルーディンは「十分良い」最終モデルと同じクラスからモデルへの調査の拡張を提案し、1つのモデルに基づく変数の重要性の事前の誇張を特定した。 しかし、この方法は既存のShapleyベースの解釈と直接統合していない。 このギャップを埋めるために、Shapley変数の重要度クラウドを提案し、良いモデルにまたがって情報をプールし、最終モデルのSHAP分析におけるバイアスアセスメントを避けるとともに、新しい視覚化を通して結果を伝える。 刑事司法データと電子カルテデータを用いて,従来の説明やドン・ルディン法と比較し,さらなる知見を示す。

Interpretable machine learning has been focusing on explaining final models that optimize performance. The current state-of-the-art is the Shapley additive explanations (SHAP) that locally explains variable impact on individual predictions, and it is recently extended for a global assessment across the dataset. Recently, Dong and Rudin proposed to extend the investigation to models from the same class as the final model that are "good enough", and identified a previous overclaim of variable importance based on a single model. However, this method does not directly integrate with existing Shapley-based interpretations. We close this gap by proposing a Shapley variable importance cloud that pools information across good models to avoid biased assessments in SHAP analyses of final models, and communicate the findings via novel visualizations. We demonstrate the additional insights gain compared to conventional explanations and Dong and Rudin's method using criminal justice and electronic medical records data.
翻訳日:2021-10-08 04:32:12 公開日:2021-10-06
# (参考訳) ABC: 境界メモリ制御による注意 [全文訳有]

ABC: Attention with Bounded-memory Control ( http://arxiv.org/abs/2110.02488v1 )

ライセンス: CC BY 4.0
Hao Peng, Jungo Kasai, Nikolaos Pappas, Dani Yogatama, Zhaofeng Wu, Lingpeng Kong, Roy Schwartz, Noah A. Smith(参考訳) トランスフォーマーアーキテクチャは、様々なシーケンスモデリングタスクで最先端の結果を達成した。 しかし、それらの注意機構は、列長の2次複雑さを伴い、特に長い列では計算オーバーヘッドが禁止される。 注意コンテキストは、各トークンがスロットを取るランダムアクセスメモリとして見ることができる。 この観点では、メモリサイズはシーケンス長とともに線形に増大し、それからの読み込みのオーバーヘッドも増大する。 効率を改善する1つの方法は、メモリサイズをバインドすることです。 我々は、異なるアプローチをひとつの抽象概念、abc(bounded-memory control)の注意にまとめることができることを示し、それらはメモリの組織によって異なる。 ABCは新たな可能性を明らかにしている。 ひとつは、別々に思える効率的なアテンションのバリエーションを複数つなぐことだ。 第2に、この抽象化は、これまで因果関係の注意に当てはまらないと考えられていた、確立されたアプローチ(wang et al., 2020b)に新たな洞察を与えます。 最後に、既存のABCアプローチからインスピレーションを得たABCの新しい事例を示すが、そのヒューリスティックなメモリ構成関数を学習された文脈化関数に置き換える。 言語モデル,機械翻訳,マスキング言語モデルの微調整に関する実験では,従来の効率的な注意モデルよりも優れており,強力なトランスフォーマーベースラインと比較すると,精度を損なうことなく推定時間と空間効率を大幅に向上させる。

Transformer architectures have achieved state-of-the-art results on a variety of sequence modeling tasks. However, their attention mechanism comes with a quadratic complexity in sequence lengths, making the computational overhead prohibitive, especially for long sequences. Attention context can be seen as a random-access memory with each token taking a slot. Under this perspective, the memory size grows linearly with the sequence length, and so does the overhead of reading from it. One way to improve the efficiency is to bound the memory size. We show that disparate approaches can be subsumed into one abstraction, attention with bounded-memory control (ABC), and they vary in their organization of the memory. ABC reveals new, unexplored possibilities. First, it connects several efficient attention variants that would otherwise seem apart. Second, this abstraction gives new insights--an established approach (Wang et al., 2020b) previously thought to be not applicable in causal attention, actually is. Last, we present a new instance of ABC, which draws inspiration from existing ABC approaches, but replaces their heuristic memory-organizing functions with a learned, contextualized one. Our experiments on language modeling, machine translation, and masked language model finetuning show that our approach outperforms previous efficient attention models; compared to the strong transformer baselines, it significantly improves the inference time and space efficiency with no or negligible accuracy loss.
翻訳日:2021-10-08 04:23:16 公開日:2021-10-06
# (参考訳) プレトレーニングと強化学習:木を切る前に軸を削る [全文訳有]

Pretraining & Reinforcement Learning: Sharpening the Axe Before Cutting the Tree ( http://arxiv.org/abs/2110.02497v1 )

ライセンス: CC BY 4.0
Saurav Kadavath, Samuel Paradis, Brian Yao(参考訳) プレトレーニング(Pretraining)は、ディープラーニングにおけるパフォーマンス向上とトレーニング時間短縮のための一般的な手法であり、深層強化学習(RL)の有望な実験結果である。 しかし、事前トレーニングには関連するデータセットが必要である。 本研究では,背景を乱すことなくrlタスクの事前学習の有効性を評価し,有効性が最小限の大規模データセットと,自己スーパービジョンでラベル付けされたケースバイケース生成データセットの両方を用いて評価する。 その結果、関連するデータセットのトレーニング中に学んだフィルタが事前トレーニングを非効率にするのに対して、分散データセットのトレーニング中に学んだフィルタは、RLトレーニング時間を確実に短縮し、80k RLトレーニングステップ後のパフォーマンスを改善することが示唆された。 さらに、限られた環境段階を考慮し、利用可能なステップを事前訓練とRLトレーニングに最適に分割し、RL性能を最大化する方法について検討する。 私たちのコードはGitHubで入手できる

Pretraining is a common technique in deep learning for increasing performance and reducing training time, with promising experimental results in deep reinforcement learning (RL). However, pretraining requires a relevant dataset for training. In this work, we evaluate the effectiveness of pretraining for RL tasks, with and without distracting backgrounds, using both large, publicly available datasets with minimal relevance, as well as case-by-case generated datasets labeled via self-supervision. Results suggest filters learned during training on less relevant datasets render pretraining ineffective, while filters learned during training on the in-distribution datasets reliably reduce RL training time and improve performance after 80k RL training steps. We further investigate, given a limited number of environment steps, how to optimally divide the available steps into pretraining and RL training to maximize RL performance. Our code is available on GitHub
翻訳日:2021-10-08 03:58:41 公開日:2021-10-06
# (参考訳) 対照的な教師なし表現学習のためのシャープ学習境界 [全文訳有]

Sharp Learning Bounds for Contrastive Unsupervised Representation Learning ( http://arxiv.org/abs/2110.02501v1 )

ライセンス: CC BY 4.0
Han Bao, Yoshihiro Nagano, Kento Nozawa(参考訳) 対照的に、教師なし表現学習(CURL)は、視覚、言語、グラフなどの様々な領域で成功している、ランダムに描画された負のサンプルよりも意味的に類似したペアを作るようにデータ表現を奨励する。 最近の理論的研究は、逆の損失による下流の分類損失の上限によってその成功を説明しようとしたが、実験的な事実を説明できるほどシャープではない:より大きな負のサンプルは分類性能を改善した。 本研究は,負のサンプルサイズにおいて,厳密なインターセプトを伴う下流分類損失を定式化する。 下流損失推定器としての対照的な損失について、我々の理論は既存の学習限界を大幅に改善するだけでなく、下流の分類がより大きな負のサンプルで経験的に改善する理由を説明している。 私たちの理論は、合成、視覚、言語データセットの実験と一貫性があることを検証します。

Contrastive unsupervised representation learning (CURL) encourages data representation to make semantically similar pairs closer than randomly drawn negative samples, which has been successful in various domains such as vision, language, and graphs. Although recent theoretical studies have attempted to explain its success by upper bounds of a downstream classification loss by the contrastive loss, they are still not sharp enough to explain an experimental fact: larger negative samples improve the classification performance. This study establishes a downstream classification loss bound with a tight intercept in the negative sample size. By regarding the contrastive loss as a downstream loss estimator, our theory not only improves the existing learning bounds substantially but also explains why downstream classification empirically improves with larger negative samples -- because the estimation variance of the downstream loss decays with larger negative samples. We verify that our theory is consistent with experiments on synthetic, vision, and language datasets.
翻訳日:2021-10-08 03:33:45 公開日:2021-10-06
# (参考訳) cbp:pseudo-lagrange multiplier法による重量精度制約付きバックプロパゲーション [全文訳有]

CBP: Backpropagation with constraint on weight precision using a pseudo-Lagrange multiplier method ( http://arxiv.org/abs/2110.02550v1 )

ライセンス: CC BY 4.0
Guhyun Kim, Doo Seok Jeong(参考訳) 誤差の後方伝播(バックプロパゲーション)は、重みとバイアスの最適な集合を同定することでディープニューラルネットワークの目的関数(損失関数など)を最小化する手法である。 重み付けの精度に制約を加えることは、ハードウェア上の禁止されたワークロードを軽減するためにしばしば必要となる。 バックプロパゲーションの顕著な成功にもかかわらず、アルゴリズム自体は、追加のアルゴリズムを同時に適用しなければ、そのような制約を考慮できない。 この問題に対処するために,擬似ラグランジュ乗算法に基づく制約付きバックプロパゲーション(CBP)アルゴリズムを提案する。 提案したCBPアルゴリズムの定義特性は,ラグランジアン関数(ロス関数と制約関数)を目的関数として利用することである。 我々は,2進,3進,1ビットシフト,2ビットシフト重み制約といった様々な制約を検討した。 ポストトレーニング方法として、従来のバックプロパゲーションを用いて事前トレーニングされたImageNet上のAlexNet、ResNet-18、ResNet-50、GoogLeNetに適用した。 いずれの場合も、提案アルゴリズムはImageNetの最先端の手法、例えば、ResNet-18、ResNet-50、GoogLeNetの66.6%、74.4%、64.0%のTop-1精度を2重みで上回っている。 これはcbpを学習アルゴリズムとして強調し、適切な制約関数を使用することで、パフォーマンスの損失を最小限に抑えることができる。

Backward propagation of errors (backpropagation) is a method to minimize objective functions (e.g., loss functions) of deep neural networks by identifying optimal sets of weights and biases. Imposing constraints on weight precision is often required to alleviate prohibitive workloads on hardware. Despite the remarkable success of backpropagation, the algorithm itself is not capable of considering such constraints unless additional algorithms are applied simultaneously. To address this issue, we propose the constrained backpropagation (CBP) algorithm based on a pseudo-Lagrange multiplier method to obtain the optimal set of weights that satisfy a given set of constraints. The defining characteristic of the proposed CBP algorithm is the utilization of a Lagrangian function (loss function plus constraint function) as its objective function. We considered various types of constraints--binary, ternary, one-bit shift, and two-bit shift weight constraints. As a post-training method, CBP applied to AlexNet, ResNet-18, ResNet-50, and GoogLeNet on ImageNet, which were pre-trained using the conventional backpropagation. For all cases, the proposed algorithm outperforms the state-of-the-art methods on ImageNet, e.g., 66.6%, 74.4%, and 64.0% top-1 accuracy for ResNet-18, ResNet-50, and GoogLeNet with binary weights, respectively. This highlights CBP as a learning algorithm to address diverse constraints with the minimal performance loss by employing appropriate constraint functions.
翻訳日:2021-10-08 03:04:46 公開日:2021-10-06
# (参考訳) 構造化データからの効率的なマルチモーダル埋め込み [全文訳有]

Efficient Multi-Modal Embeddings from Structured Data ( http://arxiv.org/abs/2110.02577v1 )

ライセンス: CC BY-SA 4.0
Anita L. Ver\H{o}, Ann Copestake(参考訳) マルチモーダルな単語意味論は、人間の意味表現が感覚経験に根ざしていると仮定して、知覚入力による埋め込みを強化することを目的としている。 ほとんどの研究は直接視覚入力による評価に焦点を当てているが、視覚の接地は言語応用にも貢献できる。 この論文のもう一つの動機は、より解釈可能なモデルの必要性を高め、サイズと性能に関するモデルの効率を評価することである。 本研究は,直接的な視覚入力,特に意味的類似性と関連性を含まない場合の意味論に対する視覚情報の影響を考察する。 視覚ゲノムの構造的アノテーションに基づく言語的・視覚的モダリティの組込み型について検討する。 構造化,言語,画像に基づく表現を含むユニモーダルモデルとマルチモーダルモデルを比較した。 データとモデルサイズ、モダリティ/データ分布および情報ゲインに関して、各モデルの効率を測定する。 解析には埋め込み構造の解釈が含まれる。 この新たな埋め込みは、テキストベースの埋め込みの補完情報を伝達することがわかった。 視覚モデルよりもはるかに少ないリソースで、経済的に同等のパフォーマンスを達成する。

Multi-modal word semantics aims to enhance embeddings with perceptual input, assuming that human meaning representation is grounded in sensory experience. Most research focuses on evaluation involving direct visual input, however, visual grounding can contribute to linguistic applications as well. Another motivation for this paper is the growing need for more interpretable models and for evaluating model efficiency regarding size and performance. This work explores the impact of visual information for semantics when the evaluation involves no direct visual input, specifically semantic similarity and relatedness. We investigate a new embedding type in-between linguistic and visual modalities, based on the structured annotations of Visual Genome. We compare uni- and multi-modal models including structured, linguistic and image based representations. We measure the efficiency of each model with regard to data and model size, modality / data distribution and information gain. The analysis includes an interpretation of embedding structures. We found that this new embedding conveys complementary information for text based embeddings. It achieves comparable performance in an economic way, using orders of magnitude less resources than visual models.
翻訳日:2021-10-08 02:41:32 公開日:2021-10-06
# (参考訳) 土地利用土地被覆分類のための深層移動学習 : 比較研究 [全文訳有]

Deep Transfer Learning for Land Use Land Cover Classification: A Comparative Study ( http://arxiv.org/abs/2110.02580v1 )

ライセンス: CC BY 4.0
Raoof Naushad, Tarunpreet Kaur(参考訳) 高分解能画像を用いたリモートセンシング画像分類の効率的な実施は,土地利用土地被覆分類 (lulc) において大きな意味を持つ。 リモートセンシングと深層学習技術の発展により,LULC分類のための時空間情報の抽出が容易になった。 さらに、リモートセンシングを含む科学の多様な分野は、転移学習を伴うcnnによる画像分類を大幅に改善した。 本研究では,CNNをスクラッチからトレーニングする代わりに,微調整事前学習ネットワークへのトランスファー学習を利用する。 a)VGG16及び b) LULCをEuroSATデータセットに分類するために,最終層を付加層に置き換えることにより,ワイド・レジデンシャル・ネットワーク(WRN)を構築する。 さらに, 早期停止, 勾配クリッピング, 適応学習率, データ拡張などの手法と性能と計算時間を比較し, 最適化した。 提案手法により,限られたデータ問題に対処でき,精度が向上した。 EuroSAT RGB バージョンベンチマークに対する総合的な比較は、我々の手法が過去の最高の結果を上回っ、精度が98.57%から99.17%に大幅に改善されたことを証明した。

Efficiently implementing remote sensing image classification with high spatial resolution imagery can provide great significant value in land-use land-cover classification (LULC). The developments in remote sensing and deep learning technologies have facilitated the extraction of spatiotemporal information for LULC classification. Moreover, the diverse disciplines of science, including remote sensing, have utilised tremendous improvements in image classification by CNNs with Transfer Learning. In this study, instead of training CNNs from scratch, we make use of transfer learning to fine-tune pre-trained networks a) VGG16 and b) Wide Residual Networks (WRNs), by replacing the final layer with additional layers, for LULC classification with EuroSAT dataset. Further, the performance and computational time were compared and optimized with techniques like early stopping, gradient clipping, adaptive learning rates and data augmentation. With the proposed approaches we were able to address the limited-data problem and achieved very good accuracy. Comprehensive comparisons over the EuroSAT RGB version benchmark have successfully established that our method outperforms the previous best-stated results, with a significant improvement over the accuracy from 98.57% to 99.17%.
翻訳日:2021-10-08 02:31:09 公開日:2021-10-06
# (参考訳) EdiTTS:制御可能なテキスト音声編集のためのスコアベース編集 [全文訳有]

EdiTTS: Score-based Editing for Controllable Text-to-Speech ( http://arxiv.org/abs/2110.02584v1 )

ライセンス: CC BY 4.0
Jaesung Tae, Hyeongju Kim, Taesu Kim(参考訳) 音声合成のためのスコアベース生成モデルに基づく音声編集手法であるEdiTTSを提案する。 EdiTTSは、追加のトレーニング、タスク固有の最適化、スコアベースのモデルバックボーンへのアーキテクチャ変更を必要とせずに、コンテンツとピッチの両方の観点から、ターゲットとする、きめ細かいオーディオ編集を可能にする。 具体的には,拡散モデルから所望の振る舞いを誘導するためにガウス前空間に粗いが故意な摂動を適用し,マスクや軟化カーネルを適用して,反復的な編集が対象領域にのみ適用されることを保証する。 リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。

We present EdiTTS, an off-the-shelf speech editing methodology based on score-based generative modeling for text-to-speech synthesis. EdiTTS allows for targeted, granular editing of audio, both in terms of content and pitch, without the need for any additional training, task-specific optimization, or architectural modifications to the score-based model backbone. Specifically, we apply coarse yet deliberate perturbations in the Gaussian prior space to induce desired behavior from the diffusion model, while applying masks and softening kernels to ensure that iterative edits are applied only to the target region. Listening tests demonstrate that EdiTTS is capable of reliably generating natural-sounding audio that satisfies user-imposed requirements.
翻訳日:2021-10-08 02:19:34 公開日:2021-10-06
# (参考訳) 単純な畳み込みニューラルネットワーク [全文訳有]

Simplicial Convolutional Neural Networks ( http://arxiv.org/abs/2110.02585v1 )

ライセンス: CC BY 4.0
Maosheng Yang, Elvin Isufi and Geert Leus(参考訳) グラフはノードとして表現することで、ネットワーク化されたデータをモデル化できる。 近年、信号処理とニューラルネットワークがグラフ上のデータから処理と学習のために拡張され、グラフ信号の再構成、グラフまたはノードの分類、リンク予測などのタスクで業績を上げている。 しかし、これらの方法はグラフのノード上で定義されたデータにのみ適合する。 本稿では,ノード,エッジ,三角形など,単純化上で定義されたデータから学習する,単純な畳み込みニューラルネットワーク(SCNN)アーキテクチャを提案する。 scnnの置換と配向の等分散, 複雑性, スペクトル解析について検討した。 最後に,コオーサシップ・コンプレックス上での引用を命令するためにSCNNの性能を検証した。

Graphs can model networked data by representing them as nodes and their pairwise relationships as edges. Recently, signal processing and neural networks have been extended to process and learn from data on graphs, with achievements in tasks like graph signal reconstruction, graph or node classifications, and link prediction. However, these methods are only suitable for data defined on the nodes of a graph. In this paper, we propose a simplicial convolutional neural network (SCNN) architecture to learn from data defined on simplices, e.g., nodes, edges, triangles, etc. We study the SCNN permutation and orientation equivariance, complexity, and spectral analysis. Finally, we test the SCNN performance for imputing citations on a coauthorship complex.
翻訳日:2021-10-08 02:07:10 公開日:2021-10-06
# (参考訳) sequence reptile: 多言語学習のためのタスク間勾配アライメント [全文訳有]

Sequential Reptile: Inter-Task Gradient Alignment for Multilingual Learning ( http://arxiv.org/abs/2110.02600v1 )

ライセンス: CC BY 4.0
Seanie Lee, Hae Beom Lee, Juho Lee, Sung Ju Hwang(参考訳) 複数の言語で事前訓練された多言語モデルは、様々な多言語ダウンストリームタスクにおいて顕著な性能を達成した。 さらに、単一の単言語下流タスクで微調整されたモデルでは、見当たらない言語に一般化することが示されている。 本稿では, 負の伝達を最小化しつつ, 知識伝達を最大化するために, それらの間の勾配を調整することが重要であることを示す。 その重要性にもかかわらず、既存のグラデーションアライメントの方法は、全く異なる目的を持つか、タスク間のアライメントを無視するか、あるいはより非効率な方法で連続的な学習問題を解決することを目的としている。 タスク間の不整合勾配の結果、モデルは事前学習から得られた知識を壊滅的に忘れてしまうという形で深刻な負の移動に苦しむ。 制約を克服するために,タスク間の勾配を効率的に調整できる簡易かつ効果的な手法を提案する。 具体的には,すべてのタスクからバッチを順次サンプリングして各内部最適化を行い,その後に外付け更新を行う。 本手法では,タスク間の勾配の一致により,負の移動や破滅的な忘れ込みに対してモデルが脆弱になる。 我々は,様々なマルチタスク学習およびゼロショット言語間転送タスクにおいて,提案手法を広範囲に検証した。

Multilingual models jointly pretrained on multiple languages have achieved remarkable performance on various multilingual downstream tasks. Moreover, models finetuned on a single monolingual downstream task have shown to generalize to unseen languages. In this paper, we first show that it is crucial for those tasks to align gradients between them in order to maximize knowledge transfer while minimizing negative transfer. Despite its importance, the existing methods for gradient alignment either have a completely different purpose, ignore inter-task alignment, or aim to solve continual learning problems in rather inefficient ways. As a result of the misaligned gradients between tasks, the model suffers from severe negative transfer in the form of catastrophic forgetting of the knowledge acquired from the pretraining. To overcome the limitations, we propose a simple yet effective method that can efficiently align gradients between tasks. Specifically, we perform each inner-optimization by sequentially sampling batches from all the tasks, followed by a Reptile outer update. Thanks to the gradients aligned between tasks by our method, the model becomes less vulnerable to negative transfer and catastrophic forgetting. We extensively validate our method on various multi-task learning and zero-shot cross-lingual transfer tasks, where our method largely outperforms all the relevant baselines we consider.
翻訳日:2021-10-08 01:56:04 公開日:2021-10-06
# (参考訳) cDMNによるDMチャレンジの対処:DMNと制約推論の密接な統合 [全文訳有]

Tackling the DM Challenges with cDMN: A Tight Integration of DMN and Constraint Reasoning ( http://arxiv.org/abs/2110.02610v1 )

ライセンス: CC BY 4.0
Simon Vandevelde, Bram Aerts and Joost Vennekens(参考訳) 知識に基づくAIは通常、ドメイン知識の正式なモデルを構築するための知識エンジニアに依存します。 本稿では,CDMN(Constraint Decision Model and Notation)と呼ばれるDMN(Decision Model and Notation)標準の拡張について述べる。 dmnは、ユーザーフレンドリーでテーブルベースの決定ロジック表記法であり、ドメインの専門家がitスタッフの助けなしに簡単な決定手順をモデル化できる。 cDMNは、より複雑なドメイン知識をモデル化するためにDMNの表現力を拡大することを目的としている。 DMコミュニティのウェブサイトに投稿された最も複雑な課題を解決することで、cDMNをテストする。 当社のcdmnソリューションと,webサイトに提出されたソリューションを比較して,当社のアプローチが競争力があることを確認します。 さらに、cDMNは他のどのアプローチよりも多くの課題を解決できる。

Knowledge-based AI typically depends on a knowledge engineer to construct a formal model of domain knowledge -- but what if domain experts could do this themselves? This paper describes an extension to the Decision Model and Notation (DMN) standard, called Constraint Decision Model and Notation (cDMN). DMN is a user-friendly, table-based notation for decision logic, which allows domain experts to model simple decision procedures without the help of IT staff. cDMN aims to enlarge the expressiveness of DMN in order to model more complex domain knowledge, while retaining DMN's goal of being understandable by domain experts. We test cDMN by solving the most complex challenges posted on the DM Community website. We compare our own cDMN solutions to the solutions that have been submitted to the website and find that our approach is competitive. Moreover, cDMN is able to solve more challenges than any other approach.
翻訳日:2021-10-08 01:34:06 公開日:2021-10-06
# (参考訳) 画像は5文の価値はあるか? 画像テキストマッチングのための意味論の新しい展開 [全文訳有]

Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching ( http://arxiv.org/abs/2110.02623v1 )

ライセンス: CC BY 4.0
Ali Furkan Biten, Andres Mafla, Lluis Gomez, Dimosthenis Karatzas(参考訳) 画像テキストマッチングのタスクは、異なるモダリティからの表現を共通の視覚テキスト埋め込みにマッピングすることを目的としている。 しかし、このタスクで最も広く使われているデータセットであるMSCOCOとFlickr30Kは、実際に画像キャプションデータセットであり、画像と文間の非常に限定的な関連性を提供する。 この限定的な基底真理情報は、バイナリ関連性に基づいて評価指標を使用するよう強いる: 文クエリを考慮すれば、1つの画像のみを関連付けている。 しかし、他の多くの関連する画像やキャプションがデータセットに存在する可能性がある。 本研究では,検索項目の意味的関連性を,注釈付きバイナリ関係とは無関係に評価する2つの指標を提案する。 さらに,画像キャプション指標であるciderを用いて,標準三重項損失に最適化される意味的適応マージン(sam)を定義する,新たな戦略を取り入れている。 我々の定式化を既存のモデルに組み込むことで、利用可能なトレーニングデータに制限のあるシナリオで \emph{large} の改善が得られる。 また,アノテートされたイメージキャプチャペアの性能は,フルトレーニングセットを採用する際に,他の非アノテート関連項目を改善しながら維持されることを示す。 私たちのメトリクスと適応マージンによるコードを公開します。

The task of image-text matching aims to map representations from different modalities into a common joint visual-textual embedding. However, the most widely used datasets for this task, MSCOCO and Flickr30K, are actually image captioning datasets that offer a very limited set of relationships between images and sentences in their ground-truth annotations. This limited ground truth information forces us to use evaluation metrics based on binary relevance: given a sentence query we consider only one image as relevant. However, many other relevant images or captions may be present in the dataset. In this work, we propose two metrics that evaluate the degree of semantic relevance of retrieved items, independently of their annotated binary relevance. Additionally, we incorporate a novel strategy that uses an image captioning metric, CIDEr, to define a Semantic Adaptive Margin (SAM) to be optimized in a standard triplet loss. By incorporating our formulation to existing models, a \emph{large} improvement is obtained in scenarios where available training data is limited. We also demonstrate that the performance on the annotated image-caption pairs is maintained while improving on other non-annotated relevant items when employing the full training set. Code with our metrics and adaptive margin formulation will be made public.
翻訳日:2021-10-08 01:14:08 公開日:2021-10-06
# (参考訳) CLIP-Forge: ゼロショットテキスト・ツー・シェイプ生成を目指す [全文訳有]

CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation ( http://arxiv.org/abs/2110.02624v1 )

ライセンス: CC BY-SA 4.0
Aditya Sanghi and Hang Chu and Joseph G. Lambourne and Ye Wang and Chin-Yi Cheng and Marco Fumero(参考訳) 近年,テキスト対画像生成が進んでいるが,テキスト対形状生成は,大規模にテキストと形状データを組み合わせることができないため,依然として課題となっている。 本稿では,2段階の学習プロセスに基づくゼロショットテキスト対形状生成のための簡易かつ効果的な手法を提案する。 提案手法は, 有望なゼロショット一般化を示すだけでなく, 高価な推論時間最適化を回避し, 与えられたテキストに対して複数の形状を生成できる。

While recent progress has been made in text-to-image generation, text-to-shape generation remains a challenging problem due to the unavailability of paired text and shape data at a large scale. We present a simple yet effective method for zero-shot text-to-shape generation based on a two-stage training process, which only depends on an unlabelled shape dataset and a pre-trained image-text network such as CLIP. Our method not only demonstrates promising zero-shot generalization, but also avoids expensive inference time optimization and can generate multiple shapes for a given text.
翻訳日:2021-10-08 00:58:47 公開日:2021-10-06
# (参考訳) ディープQネットワークの転送性について [全文訳有]

On The Transferability of Deep-Q Networks ( http://arxiv.org/abs/2110.02639v1 )

ライセンス: CC BY 4.0
Matthia Sabatelli, Pierre Geurts(参考訳) 転送学習(tl)は、長いトレーニング時間から大規模なデータセットのニーズまで、ディープニューラルネットワークのトレーニングの成功を特徴付けるいくつかのハードルを克服する効率的な機械学習パラダイムである。 TLの利用は、SL(Supervised Learning)において十分に確立され、成功した訓練実践であるが、DRL(Deep Reinforcement Learning)の適用性は稀である。 本稿では,3種類のDeep-Q NetworksのDRLベンチマークおよび新しい制御タスクのセット上での転送可能性について検討する。 以上の結果から,DRLコンテキストにおけるニューラルネットワークの転送は特に困難であり,ほとんどの場合,負の転送が生じるプロセスであることが示唆された。 ディープqネットワークの移動がなぜ不十分かを理解するために、このアルゴリズムを特徴付けるトレーニングダイナミクスに関する新たな洞察を得ました。

Transfer Learning (TL) is an efficient machine learning paradigm that allows overcoming some of the hurdles that characterize the successful training of deep neural networks, ranging from long training times to the needs of large datasets. While exploiting TL is a well established and successful training practice in Supervised Learning (SL), its applicability in Deep Reinforcement Learning (DRL) is rarer. In this paper, we study the level of transferability of three different variants of Deep-Q Networks on popular DRL benchmarks as well as on a set of novel, carefully designed control tasks. Our results show that transferring neural networks in a DRL context can be particularly challenging and is a process which in most cases results in negative transfer. In the attempt of understanding why Deep-Q Networks transfer so poorly, we gain novel insights into the training dynamics that characterizes this family of algorithms.
翻訳日:2021-10-08 00:51:54 公開日:2021-10-06
# (参考訳) ディープラーニングに基づくバッハスタイルの音楽オーサリングシステム [全文訳有]

Bach Style Music Authoring System based on Deep Learning ( http://arxiv.org/abs/2110.02640v1 )

ライセンス: CC BY 4.0
Minghe Kong and Lican Huang(参考訳) 人工知能分野における様々な面での継続的な改善により、音楽分野への深層学習能力を備えた人工知能の勢いが高まっている。 本研究の目的は,ディープラーニングに基づくバッハスタイルの音楽オーサリングシステムを設計することである。 LSTMニューラルネットワークを用いて、シリアライズおよび標準化された音楽特徴データをトレーニングする。 繰り返し実験により,バッハ音楽の模倣を生成できる最適LSTMモデルが得られた。 最後に、生成された音楽は、オンラインオーディションとチューリングテストの形式で包括的に評価される。 本稿で構築された音楽生成システムのレパートリーは、バッハのオリジナル音楽のスタイルに非常に近いものであり、一般人がバッハの作曲した楽曲やAIを区別することは比較的困難である。

With the continuous improvement in various aspects in the field of artificial intelligence, the momentum of artificial intelligence with deep learning capabilities into the field of music is coming. The research purpose of this paper is to design a Bach style music authoring system based on deep learning. We use a LSTM neural network to train serialized and standardized music feature data. By repeated experiments, we find the optimal LSTM model which can generate imitation of Bach music. Finally the generated music is comprehensively evaluated in the form of online audition and Turing test. The repertoires which the music generation system constructed in this article are very close to the style of Bach's original music, and it is relatively difficult for ordinary people to distinguish the musics Bach authored and AI created.
翻訳日:2021-10-08 00:35:12 公開日:2021-10-06
# (参考訳) 重み付き一般化コヒーレンスアプローチによるマトリックス設計のセンシング [全文訳有]

A Weighted Generalized Coherence Approach for Sensing Matrix Design ( http://arxiv.org/abs/2110.02645v1 )

ライセンス: CC BY 4.0
Ameya Anjarlekar, Ajit Rajwade(参考訳) ランダムに生成されるセンシング行列と比較して、慎重に設計された検出行列w.r.t.を最適化することは、一連の圧縮的測定値によってより良い品質の信号回復をもたらすことが知られている。 本稿では,ランダム初期条件を出発点とする知覚行列の最適化のための,よく知られた相互コヒーレンス基準の一般化を提案する。 これらの一般化を双コヒーレンス(bi-coherence)あるいは三コヒーレンス(tri-coherence)と呼び、感知行列の任意の一列が他の列のスパース線形結合に近いことを妨げている基準に基づいている。 また,重み付きコヒーレンス,重み付き二コヒーレンス,重み付き三コヒーレンス基準により,重み付き行列列に重みを割り当てることにより,重み付き行列をさらに改善するためのトレーニングデータも組み込んだ。 最適化問題を解くアルゴリズムも提案されている。 最後に,提案アルゴリズムの有効性を実証実験により示す。

As compared to using randomly generated sensing matrices, optimizing the sensing matrix w.r.t. a carefully designed criterion is known to lead to better quality signal recovery given a set of compressive measurements. In this paper, we propose generalizations of the well-known mutual coherence criterion for optimizing sensing matrices starting from random initial conditions. We term these generalizations as bi-coherence or tri-coherence and they are based on a criterion that discourages any one column of the sensing matrix from being close to a sparse linear combination of other columns. We also incorporate training data to further improve the sensing matrices through weighted coherence, weighted bi-coherence, or weighted tri-coherence criteria, which assign weights to sensing matrix columns as per their importance. An algorithm is also presented to solve the optimization problems. Finally, the effectiveness of the proposed algorithm is demonstrated through empirical results.
翻訳日:2021-10-08 00:29:43 公開日:2021-10-06
# (参考訳) 涙のない弱いノベルカテゴリ:弱いショット学習に関する調査 [全文訳有]

Weak Novel Categories without Tears: A Survey on Weak-Shot Learning ( http://arxiv.org/abs/2110.02651v1 )

ライセンス: CC0 1.0
Li Niu(参考訳) ディープラーニングは、大量のトレーニングデータを必要とするデータ格納型アプローチである。 しかし、すべてのカテゴリで十分に注釈付けされたトレーニングデータを集めるのに時間と労力がかかる。 十分な完全注釈付きトレーニングサンプルを持つベースカテゴリの存在を仮定すると、異なるパラダイムではトレーニングサンプルが少なくなり、新しいカテゴリに対するより弱いアノテーションが必要となる。 中でもゼロショット学習(resp., few-shot)は、新しいカテゴリのゼロ(resp., few)トレーニングサンプルを用いて探索し、新しいカテゴリの量要件を低くする。 代わりに、弱いショット学習は、新しいカテゴリの品質要件を低くする。 具体的には、新しいカテゴリのために十分なトレーニングサンプルを収集するが、弱いアノテーションしか持たない。 異なるタスクでは、弱いアノテーションは異なる形式(例えば、画像分類のためのノイズラベル、オブジェクト検出のためのイメージラベル、セグメンテーションのためのバウンディングボックス)で示され、弱い教師付き学習の定義と同様である。 したがって、弱ショット学習は補助的な完全教師付きカテゴリで弱教師付き学習として扱うこともできる。 本稿では,既存の弱ショット学習手法を異なるタスクで議論し,コードをhttps://github.com/b cmi/awesome-weak-sho t-learningで要約する。

Deep learning is a data-hungry approach, which requires massive training data. However, it is time-consuming and labor-intensive to collect abundant fully-annotated training data for all categories. Assuming the existence of base categories with adequate fully-annotated training samples, different paradigms requiring fewer training samples or weaker annotations for novel categories have attracted growing research interest. Among them, zero-shot (resp., few-shot) learning explores using zero (resp., a few) training samples for novel categories, which lowers the quantity requirement for novel categories. Instead, weak-shot learning lowers the quality requirement for novel categories. Specifically, sufficient training samples are collected for novel categories but they only have weak annotations. In different tasks, weak annotations are presented in different forms (e.g., noisy labels for image classification, image labels for object detection, bounding boxes for segmentation), similar to the definitions in weakly supervised learning. Therefore, weak-shot learning can also be treated as weakly supervised learning with auxiliary fully supervised categories. In this paper, we discuss the existing weak-shot learning methodologies in different tasks and summarize the codes at https://github.com/b cmi/Awesome-Weak-Sho t-Learning.
翻訳日:2021-10-08 00:18:34 公開日:2021-10-06
# (参考訳) 人工膝関節鏡に向けて : マルチスケール組織-ツールセグメンテーションネットワーク [全文訳有]

Towards Robotic Knee Arthroscopy: Multi-Scale Network for Tissue-Tool Segmentation ( http://arxiv.org/abs/2110.02657v1 )

ライセンス: CC BY 4.0
Shahnewaz Ali, Prof. Ross Crawford, Dr. Frederic Maire, Assoc. Prof. Ajay K. Pandey(参考訳) 組織認識は、最小侵襲手術における外科的精度を向上させるために非常に要求される。 関節鏡では, 外科的部位が限られた特徴やテクスチャを示すため, 課題の一つとなっている。 また,鏡視下手術ビデオではクラス内変動が高い。 鏡視下ビデオは関節鏡(arthroscope)として知られる内視鏡で記録されるため、フレームは最小の関節構造を含む。 その結果、従来のネットワークベースセグメンテーションモデルでは、長期および短期的な依存性の問題が発生している。 本研究では,マルチスケール特徴をキャプチャし,形状特徴を統合し,組織間セグメンテーションを実現する,密結合型形状認識マルチスケールセグメンテーションモデルを提案する。 モデルは3つの異なるデータセットで評価されている。 さらに,一般公開されたPolypデータセットにより,提案手法の精度は5.09%向上した。

Tissue awareness has a great demand to improve surgical accuracy in minimally invasive procedures. In arthroscopy, it is one of the challenging tasks due to surgical sites exhibit limited features and textures. Moreover, arthroscopic surgical video shows high intra-class variations. Arthroscopic videos are recorded with endoscope known as arthroscope which records tissue structures at proximity, therefore, frames contain minimal joint structure. As consequences, fully conventional network-based segmentation model suffers from long- and short- term dependency problems. In this study, we present a densely connected shape aware multi-scale segmentation model which captures multi-scale features and integrates shape features to achieve tissue-tool segmentations. The model has been evaluated with three distinct datasets. Moreover, with the publicly available polyp dataset our proposed model achieved 5.09 % accuracy improvement.
翻訳日:2021-10-08 00:09:01 公開日:2021-10-06
# (参考訳) 等価連続流をもつ場の量子論のための機械学習のスケールアップ [全文訳有]

Scaling Up Machine Learning For Quantum Field Theory with Equivariant Continuous Flows ( http://arxiv.org/abs/2110.02673v1 )

ライセンス: CC BY 4.0
Pim de Haan, Corrado Rainone, Miranda Cheng, Roberto Bondesan(参考訳) 物理学における量子場理論の高次元確率分布からサンプリングするための連続正規化フローを提案する。 このタスクでこれまで用いられてきた深層アーキテクチャとは対照的に,提案手法は浅い設計に基づいており,問題の対称性を取り入れている。 このモデルは$\phi^4$理論でテストされ、サンプリング効率においてrealnvpのベースラインを体系的に上回っており、この2つの差はより大きな格子に対して増大していることを示している。 最大の格子では、32$32\times 32$の値で、キーメトリック、有効サンプルサイズを、実NVPベースラインの1%から66%まで改善する。

We propose a continuous normalizing flow for sampling from the high-dimensional probability distributions of Quantum Field Theories in Physics. In contrast to the deep architectures used so far for this task, our proposal is based on a shallow design and incorporates the symmetries of the problem. We test our model on the $\phi^4$ theory, showing that it systematically outperforms a realNVP baseline in sampling efficiency, with the difference between the two increasing for larger lattices. On the largest lattice we consider, of size $32\times 32$, we improve a key metric, the effective sample size, from 1% to 66% w.r.t. the realNVP baseline.
翻訳日:2021-10-07 23:57:51 公開日:2021-10-06
# (参考訳) 信頼できる人工知能とプロセスマイニング:挑戦と機会 [全文訳有]

Trustworthy Artificial Intelligence and Process Mining: Challenges and Opportunities ( http://arxiv.org/abs/2110.02707v1 )

ライセンス: CC BY 4.0
Andrew Pery, Majid Rafiei, Michael Simon, Wil M.P. van der Aalst(参考訳) この論文の前提は、信頼できるAIガバナンスのベストプラクティスと規制フレームワークへのコンプライアンスは、本質的に、さまざまな組織単位、外部利害関係者、記録システムにまたがる断片化されたプロセスであり、結果としてプロセスの不確実性と、組織が評判や規制上のリスクに晒される可能性のあるコンプライアンスのギャップをもたらすことである。 さらに、データガバナンス、コンフォーマンステスト、aiモデルの振る舞いの品質保証、透明性、説明責任、機密性要件など、信頼できるaiベストプラクティスの特定の次元を満たすことに関連する複雑さがある。 これらのプロセスには、複数のステップ、ハンドオフ、リワーク、ヒューマン・イン・ザ・ループの監視が含まれる。 本稿では,プロセスマイニングが,AIコンプライアンスプロセスの実行に対する事実に基づく可視性を獲得し,コンプライアンスボトルネックを克服し,AI規制コンプライアンスプロセスの不確実性を分析し,修正し,監視する自動化アプローチを提供する上で有用なフレームワークを提供することを示す。

The premise of this paper is that compliance with Trustworthy AI governance best practices and regulatory frameworks is an inherently fragmented process spanning across diverse organizational units, external stakeholders, and systems of record, resulting in process uncertainties and in compliance gaps that may expose organizations to reputational and regulatory risks. Moreover, there are complexities associated with meeting the specific dimensions of Trustworthy AI best practices such as data governance, conformance testing, quality assurance of AI model behaviors, transparency, accountability, and confidentiality requirements. These processes involve multiple steps, hand-offs, re-works, and human-in-the-loop oversight. In this paper, we demonstrate that process mining can provide a useful framework for gaining fact-based visibility to AI compliance process execution, surfacing compliance bottlenecks, and providing for an automated approach to analyze, remediate and monitor uncertainty in AI regulatory compliance processes.
翻訳日:2021-10-07 23:47:29 公開日:2021-10-06
# (参考訳) 教師なしドメイン適応のためのKnothe-Rosenblattトランスポート [全文訳有]

Knothe-Rosenblatt transport for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2110.02716v1 )

ライセンス: CC BY 4.0
Aladin Virmaux, Illyyne Saffar, Jianfeng Zhang, Bal\'azs K\'egl(参考訳) unsupervised domain adaptation(uda)は、関連するが異なるデータソースを利用して、ターゲットドメイン内の共通のタスクに取り組むことを目的としている。 UDAは依然として、機械学習における中心的かつ挑戦的な問題である。 本稿では, 産業応用において非常に重要であり, 画像データや言語データのための手法が多用されていない, 中間次元の表層問題に適した手法を提案する。 ノッチ・ロセンブラット領域適応 (krda) は、ノッチ・ロセンブラット輸送に基づいている: 自己回帰密度推定アルゴリズムを利用して、ガウスの混合物を用いた自己回帰モデルにより、異なるソースを正確にモデル化する。 次にkrdaは、自己回帰モデルの三角性を利用して、ソースサンプルのターゲットドメインへの明示的なマッピングを構築する。 KRDAによって構築された転送マップは、観測された各成分量を保存するので、異なるデータセットの表現を同じターゲット領域に整列させる。 最後に、KRDAは、合成および実世界のUDA問題の両方において最先端の性能を有することを示す。

Unsupervised domain adaptation (UDA) aims at exploiting related but different data sources to tackle a common task in a target domain. UDA remains a central yet challenging problem in machine learning. In this paper, we present an approach tailored to moderate-dimensional tabular problems which are hugely important in industrial applications and less well-served by the plethora of methods designed for image and language data. Knothe-Rosenblatt Domain Adaptation (KRDA) is based on the Knothe-Rosenblatt transport: we exploit autoregressive density estimation algorithms to accurately model the different sources by an autoregressive model using a mixture of Gaussians. KRDA then takes advantage of the triangularity of the autoregressive models to build an explicit mapping of the source samples into the target domain. We show that the transfer map built by KRDA preserves each component quantiles of the observations, hence aligning the representations of the different data sets in the same target domain. Finally, we show that KRDA has state-of-the-art performance on both synthetic and real world UDA problems.
翻訳日:2021-10-07 23:37:14 公開日:2021-10-06
# (参考訳) 生産における逸脱データの反映によるニューラルネットワークの一般化 [全文訳有]

Generalizing Neural Networks by Reflecting Deviating Data in Production ( http://arxiv.org/abs/2110.02718v1 )

ライセンス: CC BY 4.0
Yan Xiao and Yun Lin and Ivan Beschastnikh and Changsheng Sun and David S. Rosenblum and Jin Song Dong(参考訳) 十分に大規模なトレーニングとテストデータセットでトレーニングされたDeep Neural Networks(DNN)は、一般化が期待される。 しかし、インプットは実際のデプロイメントにおけるトレーニングデータセットの分散から逸脱する可能性がある。 これは有限データセットを使用する際の根本的な問題である。 さらに悪いことに、実際の入力は期待される分布から時間とともに変化する可能性がある。 総合すると、これらの問題はdnnを運用中の誤予測に導く可能性がある。 本研究では,DNNに対する予期せぬ実行時入力によるDNNの誤予測を緩和する実行時アプローチを提案する。 DNNの構造とパラメータを考察する以前の研究とは対照的に,本手法ではDNNをブラックボックスとして扱い,DNNへの入力に焦点を当てている。 私たちのアプローチには2つのステップがあります。 まず、意味的に保存される入力を認識し、区別する。 このため、シャムネットワークで学習された距離メトリックに基づく分布分析器を用いる。 第2に,これらの予期せぬ入力を,同様の意味を持つと認識されたトレーニングセットから入力に変換する。 我々はこのプロセスを入力反射と呼び、トレーニングセット上の埋め込み空間上の探索問題として定式化する。 この埋め込み空間は、一般化を改善するために対象モデルの補助モデルとして四重項ネットワークによって学習される。 上記の2段階のアプローチに基づいて,inceptreflectorと呼ばれるツールを実装し,cifar-10,mnist,fmin st画像データセットで学習した3つのdnnモデルを用いて評価を行った。 その結果、InputReflectorは、分布のセマンティクスを保持する入力(例えば、ぼやけた、明るくなった、コントラストのある、ズームされた画像)と通常の入力からのアウト・オブ・ディストリビューション入力を効果的に区別できることがわかった。

Trained with a sufficiently large training and testing dataset, Deep Neural Networks (DNNs) are expected to generalize. However, inputs may deviate from the training dataset distribution in real deployments. This is a fundamental issue with using a finite dataset. Even worse, real inputs may change over time from the expected distribution. Taken together, these issues may lead deployed DNNs to mis-predict in production. In this work, we present a runtime approach that mitigates DNN mis-predictions caused by the unexpected runtime inputs to the DNN. In contrast to previous work that considers the structure and parameters of the DNN itself, our approach treats the DNN as a blackbox and focuses on the inputs to the DNN. Our approach has two steps. First, it recognizes and distinguishes "unseen" semantically-preserv ing inputs. For this we use a distribution analyzer based on the distance metric learned by a Siamese network. Second, our approach transforms those unexpected inputs into inputs from the training set that are identified as having similar semantics. We call this process input reflection and formulate it as a search problem over the embedding space on the training set. This embedding space is learned by a Quadruplet network as an auxiliary model for the subject model to improve the generalization. We implemented a tool called InputReflector based on the above two-step approach and evaluated it with experiments on three DNN models trained on CIFAR-10, MNIST, and FMINST image datasets. The results show that InputReflector can effectively distinguish inputs that retain semantics of the distribution (e.g., blurred, brightened, contrasted, and zoomed images) and out-of-distribution inputs from normal inputs.
翻訳日:2021-10-07 23:19:52 公開日:2021-10-06
# (参考訳) 教師なし強化学習の情報幾何学 [全文訳有]

The Information Geometry of Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2110.02719v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Ruslan Salakhutdinov, and Sergey Levine(参考訳) 強化学習(RL)エージェントは、これらのタスクが事前知識がない場合、下流タスクをどうやって解決できるのか? ひとつはunsupervised skill discoveryで、報酬機能にアクセスせずに一連のポリシーを学習するアルゴリズムのクラスだ。 このようなアルゴリズムは、教師付き学習における表現学習アルゴリズム(例えば、対照的な学習)とよく似ているが、どちらも相互情報目的に対する近似を最大化する事前学習アルゴリズムである。 先行研究は、そのような手法によって学習されたスキルセットが下流のRLタスクを加速することを示したが、先行研究は、これらのスキル学習アルゴリズムが最適かどうか、あるいは、最適性の概念がそれらに適用するのに適切かどうかをほとんど分析しない。 本研究では,相互情報の最大化に基づく教師なしスキル発見アルゴリズムが,任意の報酬関数に最適なスキルを学習しないことを示す。 しかし, スキルの分布は, 特定の適応手順を仮定して, 敵対的報酬関数に対する後悔を最小化する最適な初期化を提供することを示した。 我々の分析は、これらのスキル学習方法に関する幾何学的視点も提供する。

How can a reinforcement learning (RL) agent prepare to solve downstream tasks if those tasks are not known a priori? One approach is unsupervised skill discovery, a class of algorithms that learn a set of policies without access to a reward function. Such algorithms bear a close resemblance to representation learning algorithms (e.g., contrastive learning) in supervised learning, in that both are pretraining algorithms that maximize some approximation to a mutual information objective. While prior work has shown that the set of skills learned by such methods can accelerate downstream RL tasks, prior work offers little analysis into whether these skill learning algorithms are optimal, or even what notion of optimality would be appropriate to apply to them. In this work, we show that unsupervised skill discovery algorithms based on mutual information maximization do not learn skills that are optimal for every possible reward function. However, we show that the distribution over skills provides an optimal initialization minimizing regret against adversarially-chosen reward functions, assuming a certain type of adaptation procedure. Our analysis also provides a geometric perspective on these skill learning methods.
翻訳日:2021-10-07 23:02:34 公開日:2021-10-06
# (参考訳) ミスマッチno more:モデルベースrlのジョイントモデル-ポリシー最適化 [全文訳有]

Mismatched No More: Joint Model-Policy Optimization for Model-Based RL ( http://arxiv.org/abs/2110.02758v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Alexander Khazatsky, Sergey Levine, and Ruslan Salakhutdinov(参考訳) モデルベースの強化学習(RL)メソッドは、以前に観測されたデータにモデルを適合させ、RLや計画のためにそのモデルからのデータを使用する。 しかしながら、より優れたトレーニング性能(例えば、低いmse)を達成するモデルは、制御に必ずしも適さない:rlエージェントは、正確なモデルがミスを犯す状態のごく一部を求めるか、不正確なモデルのエラーを暴露しない方法で行動するかもしれない。 モデルは良いポリシーを下しても役に立つが、それらから生じるポリシーのパフォーマンスよりも、その正確さを最大化するように訓練されている。 本研究では,モデルとポリシーを共同で訓練するための1つの目標を提案する。 この共同最適化は、事前作業における客観的ミスマッチを解消する。 我々の目標は、期待値のグローバルな下限であり、この制限は特定の仮定の下で厳しいものになる。 分類器は実際の遷移と偽の遷移を区別し、モデルはリアルに見える遷移を生成するように更新され、ポリシーはモデル予測が非現実的な状態を避けるために更新される。

Many model-based reinforcement learning (RL) methods follow a similar template: fit a model to previously observed data, and then use data from that model for RL or planning. However, models that achieve better training performance (e.g., lower MSE) are not necessarily better for control: an RL agent may seek out the small fraction of states where an accurate model makes mistakes, or it might act in ways that do not expose the errors of an inaccurate model. As noted in prior work, there is an objective mismatch: models are useful if they yield good policies, but they are trained to maximize their accuracy, rather than the performance of the policies that result from them. In this work, we propose a single objective for jointly training the model and the policy, such that updates to either component increases a lower bound on expected return. This joint optimization mends the objective mismatch in prior work. Our objective is a global lower bound on expected return, and this bound becomes tight under certain assumptions. The resulting algorithm (MnM) is conceptually similar to a GAN: a classifier distinguishes between real and fake transitions, the model is updated to produce transitions that look realistic, and the policy is updated to avoid states where the model predictions are unrealistic.
翻訳日:2021-10-07 22:40:37 公開日:2021-10-06
# (参考訳) 非正規分布に対する相対エントロピー勾配サンプリング器

Relative Entropy Gradient Sampler for Unnormalized Distributions ( http://arxiv.org/abs/2110.02787v1 )

ライセンス: CC BY 4.0
Xingdong Feng, Yuan Gao, Jian Huang, Yuling Jiao, Xu Liu(参考訳) 非正規分布からのサンプリングのための相対エントロピー勾配サンプリング器(REGS)を提案する。 REGSは、参照分布からサンプルへの初期サンプルを非正規化対象分布から反復的に押し出す単純な非線形変換の列を求める粒子法である。 各反復における非線形変換を決定するために、相対エントロピーのワッサーシュタイン勾配流を考える。 この勾配流れは、基準分布と対象分布を補間する確率分布の経路を決定する。 進化する粒子の密度と非正規化対象密度の密度比に依存する速度場を持つodeシステムによって特徴付けられる。 REGSをサンプリングするには,密度比を推定し,粒子進化を伴うODE系をシミュレートする必要がある。 ニューラルネットワークを用いて対数密度比を推定する新しい非パラメトリック手法を提案する。 マルチモーダルな1Dと2Dの混合分布の挑戦と実際のデータセット上のベイジアンロジスティック回帰に関する大規模なシミュレーション研究は、REGSが比較に含まれる最先端のサンプリング手法よりも優れていることを示した。

We propose a relative entropy gradient sampler (REGS) for sampling from unnormalized distributions. REGS is a particle method that seeks a sequence of simple nonlinear transforms iteratively pushing the initial samples from a reference distribution into the samples from an unnormalized target distribution. To determine the nonlinear transforms at each iteration, we consider the Wasserstein gradient flow of relative entropy. This gradient flow determines a path of probability distributions that interpolates the reference distribution and the target distribution. It is characterized by an ODE system with velocity fields depending on the density ratios of the density of evolving particles and the unnormalized target density. To sample with REGS, we need to estimate the density ratios and simulate the ODE system with particle evolution. We propose a novel nonparametric approach to estimating the logarithmic density ratio using neural networks. Extensive simulation studies on challenging multimodal 1D and 2D mixture distributions and Bayesian logistic regression on real datasets demonstrate that the REGS outperforms the state-of-the-art sampling methods included in the comparison.
翻訳日:2021-10-07 22:15:21 公開日:2021-10-06
# (参考訳) STLルールブックからリワードへ [全文訳有]

From STL Rulebooks to Rewards ( http://arxiv.org/abs/2110.02792v1 )

ライセンス: CC BY 4.0
Edgar A. Aguilar, Luigi Berducci, Axel Brunnbauer, Radu Grosu, Dejan Ni\v{c}kovi\'c(参考訳) 強化学習による自律エージェントのためのニューラルネットワークコントローラの自動合成は、様々な重要な目的を同時に最適化する必要がある。 この多目的最適化タスクは報酬関数の形に反映され、しばしばアドホックで工芸的な活動の結果である。 本稿では,stl(signal-temporal -logic)ルールの半順序セットとして与えられた複数の目的から,強化学習のための報酬を形成するための原則的アプローチを提案する。 この目的のために、我々はまずSTLに新しい定量的セマンティクスを装備し、個々の要求を自動的に評価する。 そこで我々は,複数の要件の評価を1つの報酬に体系的に組み合わせ,部分順序で定義された優先順位を考慮した手法を開発した。 我々は,本手法をいくつかのケーススタディで評価し,実用性を示す。

The automatic synthesis of neural-network controllers for autonomous agents through reinforcement learning has to simultaneously optimize many, possibly conflicting, objectives of various importance. This multi-objective optimization task is reflected in the shape of the reward function, which is most often the result of an ad-hoc and crafty-like activity. In this paper we propose a principled approach to shaping rewards for reinforcement learning from multiple objectives that are given as a partially-ordered set of signal-temporal-logi c (STL) rules. To this end, we first equip STL with a novel quantitative semantics allowing to automatically evaluate individual requirements. We then develop a method for systematically combining evaluations of multiple requirements into a single reward that takes into account the priorities defined by the partial order. We finally evaluate our approach on several case studies, demonstrating its practical applicability.
翻訳日:2021-10-07 22:13:57 公開日:2021-10-06
# (参考訳) 多元関係グラフ表現改善のための補助訓練目標としての関係予測 [全文訳有]

Relation Prediction as an Auxiliary Training Objective for Improving Multi-Relational Graph Representations ( http://arxiv.org/abs/2110.02834v1 )

ライセンス: CC BY 4.0
Yihong Chen, Pasquale Minervini, Sebastian Riedel, Pontus Stenetorp(参考訳) 多元関係グラフ上で良い表現を学ぶことは知識ベース補完(kbc)に不可欠である。 本稿では,汎用の1vsall目標に関係予測を組み込むことにより,多元関係グラフ表現学習のための新しい自己教師付き学習目標を提案する。 新しい訓練目標には、与えられた三重項の主題と対象を予測する用語だけでなく、関係型を予測する用語も含まれている。 この新たな目的がKBCのマルチリレーショナル学習に与える影響を分析した結果,さまざまなデータセットやモデルを用いた実験により,KBCの最も広く使用されている評価タスクであるエンティティランキングが大幅に向上し,FB15k-237ではHits@1が6.1%,FB15k-237ではHits@1が9.9%,Aristo-v4ではHits@1が3.1%,Hits@1が3.4%増加した。 さらに,提案手法は,多項データセット,すなわち,多くの述語を持つデータセットにおいて特に有効であり,より大きな埋め込みサイズを使用する場合には,より優れた表現を生成する。

Learning good representations on multi-relational graphs is essential to knowledge base completion (KBC). In this paper, we propose a new self-supervised training objective for multi-relational graph representation learning, via simply incorporating relation prediction into the commonly used 1vsAll objective. The new training objective contains not only terms for predicting the subject and object of a given triple, but also a term for predicting the relation type. We analyse how this new objective impacts multi-relational learning in KBC: experiments on a variety of datasets and models show that relation prediction can significantly improve entity ranking, the most widely used evaluation task for KBC, yielding a 6.1% increase in MRR and 9.9% increase in Hits@1 on FB15k-237 as well as a 3.1% increase in MRR and 3.4% in Hits@1 on Aristo-v4. Moreover, we observe that the proposed objective is especially effective on highly multi-relational datasets, i.e. datasets with a large number of predicates, and generates better representations when larger embedding sizes are used.
翻訳日:2021-10-07 21:54:56 公開日:2021-10-06
# (参考訳) WHOの手指義歯分類システム [全文訳有]

WHO-Hand Hygiene Gesture Classification System ( http://arxiv.org/abs/2110.02842v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi(参考訳) 最近進行中の新型コロナウイルスのパンデミックは、我々の日常生活における手衛生の実践の重要性を浮き彫りにしている。 欧州では毎年100万人以上の患者が病院で感染している。 手の衛生的コンプライアンスは、感染の数を減らし、医療費を減らすことで感染のリスクを低減できる。 本稿では,世界保健機関 (WHO) が, 実験室の流し台に設置したアルミニウムフレームを用いて手衛生のジェスチャーを記録し, 解析した。 手衛生ジェスチャーのデモンストレーションに関するトレーニングセッションを行った後、30名の参加者に手衛生ジェスチャーを記録する。 ビデオ録画はイメージファイルに変換され、6つの異なる手衛生クラスに編成される。 マルチクラスハンド衛生段階の分類のためのResnet50フレームワークの選択 モデルは最初のクラス、Fingers Interlaced、P2PFingers Interlaced、Rotational Rub for 25 epochsで訓練されている。 評価セットにおいて、損失スコアが1.5以上である最初の実験の44%の精度が達成された。 第2組のトレーニングステップ:手のひらから手のひら、指インターロック、Thumb Rubは50エポック。 検証セットの損失スコアが0.8未満の第2セットでは72%の精度が達成される。 本研究では,転送学習を伴うロバストな手指衛生データセットの予備分析を行う。 医療従事者のための手衛生予測システムをリアルタイムに展開する今後の課題

The recent ongoing coronavirus pandemic highlights the importance of hand hygiene practices in our daily lives, with governments and worldwide health authorities promoting good hand hygiene practices. More than one million cases of hospital-acquired infections occur in Europe annually. Hand hygiene compliance may reduce the risk of transmission by reducing the number of infections as well as healthcare expenditures. In this paper, the World Health Organization, hand hygiene gestures are recorded and analyzed with the construction of an aluminum frame, placed at the laboratory sink. The hand hygiene gestures are recorded for thirty participants after conducting a training session about hand hygiene gestures demonstration. The video recordings are converted into image files and are organized into six different hand hygiene classes. The Resnet50 framework selection for the classification of multiclass hand hygiene stages. The model is trained with the first set of classes; Fingers Interlaced, P2PFingers Interlaced, and Rotational Rub for 25 epochs. An accuracy of 44 percent for the first set of experiments with a loss score greater than 1.5 in the validation set is achieved. The training steps for the second set of classes; Rub hands palm to palm, Fingers Interlocked, Thumb Rub are 50 epochs. An accuracy of 72 percent is achieved for the second set with a loss score of less than 0.8 for the validation set. In this work, a preliminary analysis of a robust hand hygiene dataset with transfer learning takes place. The future aim for deploying a hand hygiene prediction system for healthcare workers in real-time.
翻訳日:2021-10-07 21:36:50 公開日:2021-10-06
# (参考訳) 深部強化学習に基づくTSP解法の一般化 [全文訳有]

Improving Generalization of Deep Reinforcement Learning-based TSP Solvers ( http://arxiv.org/abs/2110.02843v1 )

ライセンス: CC BY 4.0
Wenbin Ouyang, Yisen Wang, Shaochen Han, Zhejian Jin and Paul Weng(参考訳) 近年,旅行セールスマン問題 (TSP) の解法に深部強化学習 (DRL) を適用した研究により, DRLをベースとした解法は, 小規模の場合のTSPヒューリスティックスと高速かつ競合するが, 大規模の場合の一般化は困難であることが示されている。 本研究では,ディープラーニングアーキテクチャとDRL学習手法を含むMAGICという新しい手法を提案する。 マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,TSPソリューションを逐次生成する確率的ポリシを定義している。 学習方法は,(1)drlポリシーのグラデーション更新をローカルサーチ(新しいローカルサーチ手法を用いて)にインターリーブする,(2)新しい単純なベースラインを用いる,(3)カリキュラム学習を適用する,という,いくつかのイノベーションを含んでいる。 最後に、MRICは、他のDRLベースのメソッドよりも、パフォーマンスと一般化性の両方において、ランダムなTSPインスタンスの方が優れていることを実証的に示す。 さらに,本手法はTSPヒューリスティックスや他の最先端手法と比較して,性能と計算時間の観点から好意的に比較する。

Recent work applying deep reinforcement learning (DRL) to solve traveling salesman problems (TSP) has shown that DRL-based solvers can be fast and competitive with TSP heuristics for small instances, but do not generalize well to larger instances. In this work, we propose a novel approach named MAGIC that includes a deep learning architecture and a DRL training method. Our architecture, which integrates a multilayer perceptron, a graph neural network, and an attention model, defines a stochastic policy that sequentially generates a TSP solution. Our training method includes several innovations: (1) we interleave DRL policy gradient updates with local search (using a new local search technique), (2) we use a novel simple baseline, and (3) we apply curriculum learning. Finally, we empirically demonstrate that MAGIC is superior to other DRL-based methods on random TSP instances, both in terms of performance and generalizability. Moreover, our method compares favorably against TSP heuristics and other state-of-the-art approach in terms of performance and computational time.
翻訳日:2021-10-07 21:27:26 公開日:2021-10-06
# (参考訳) 冠状動脈造影ビデオによるエンド・ダイアストリックおよびエンド・シストリック心筋フレームの自動同定 [全文訳有]

Automatic Identification of the End-Diastolic and End-Systolic Cardiac Frames from Invasive Coronary Angiography Videos ( http://arxiv.org/abs/2110.02844v1 )

ライセンス: CC0 1.0
Yinghui Meng, Minghao Dong, Xumin Dai, Haipeng Tang, Chen Zhao, Jingfeng Jiang, Shun Xu, Ying Zhou, Fubao Zhu1, Zhihui Xu, Weihua Zhou(参考訳) 侵襲的冠動脈造影(ICA)検査において, 心循環中の血流の評価, 両平面像からの3次元動脈解剖の再構築, 心筋画像との相補的融合マップの作成において, 心血管図(ICA)の検査における適切な画像フレームの自動同定が重要である。 現在の識別法は主に視覚的解釈に依存しており、時間だけでなく再現性も低い。 本稿では,鍵血管点(ランドマーク)の軌跡を用いて,EDとESの心期に関連する血管画像フレームを自動的に識別する手法を提案する。 より具体的には、まず冠状動脈のキーポイントを検出するために検出アルゴリズムを使用し、次に選択したキーポイントの軌跡を追跡するために光学フロー法を用いる。 edおよびesフレームは、これら全ての軌道に基づいて識別される。 2つの医療センター(サイト1とサイト2の患者22名と9名)から62本のicaビデオを用いて実験を行った。 2人の専門家によるコンセンサス解釈を比較すると、提案したアルゴリズムでは、EDとESの画像フレームの自動識別において、1フレームあたりの合意率は92.99%と92.73%であった。 以上より,提案手法は自動ica画像解析の不可欠な部分となる可能性が示唆された。

Automatic identification of proper image frames at the end-diastolic (ED) and end-systolic (ES) frames during the review of invasive coronary angiograms (ICA) is important to assess blood flow during a cardiac cycle, reconstruct the 3D arterial anatomy from bi-planar views, and generate the complementary fusion map with myocardial images. The current identification method primarily relies on visual interpretation, making it not only time-consuming but also less reproducible. In this paper, we propose a new method to automatically identify angiographic image frames associated with the ED and ES cardiac phases by using the trajectories of key vessel points (i.e. landmarks). More specifically, a detection algorithm is first used to detect the key points of coronary arteries, and then an optical flow method is employed to track the trajectories of the selected key points. The ED and ES frames are identified based on all these trajectories. Our method was tested with 62 ICA videos from two separate medical centers (22 and 9 patients in sites 1 and 2, respectively). Comparing consensus interpretations by two human expert readers, excellent agreement was achieved by the proposed algorithm: the agreement rates within a one-frame range were 92.99% and 92.73% for the automatic identification of the ED and ES image frames, respectively. In conclusion, the proposed automated method showed great potential for being an integral part of automated ICA image analysis.
翻訳日:2021-10-07 21:12:29 公開日:2021-10-06
# (参考訳) 低高度UAV画像からの合成画像データセットを用いた種子分類 [全文訳有]

Seed Classification using Synthetic Image Datasets Generated from Low-Altitude UAV Imagery ( http://arxiv.org/abs/2110.02846v1 )

ライセンス: CC BY 4.0
Venkat Margapuri, Niketa Penumajji, Mitchell Neilsen(参考訳) 植物の育種プログラムは、種核の種認証のための進化を広範囲に監視し、種核の種類と品質を適切に分類する必要がある。 しかし、育種環境は大きいため、種子核の極小サイズのため、種子核のモニタリングは困難である可能性がある。 無人航空機の使用は、環境の最も遠い地域にもアクセスできながら、低高度で画像を撮影できるため、種子の監視やラベル付けに役立っている。 UAV画像を用いた種子のラベル付けにおける重要なボトルネックは、ドローンの高度である。 畳み込みニューラルネットワークは、評価中にネットワークが遭遇する可能性のあるさまざまなシナリオを綿密に表現したトレーニングデータセットが存在する場合、マルチクラスの画像分類に最適なツールである。 この論文は、自律駆動parrot ar drone 2.0のボトムカメラで撮影された種子のサンプルから合成画像データセットを生成するドメインランダム化を用いたトレーニングデータ作成の課題に対処する。 さらに、MicrosoftのResNet-100、オックスフォードのVGG-16、VGG-19の畳み込みニューラルネットワークを使用した概念実証として、シード分類フレームワークを提案する。 フレームワークの分類精度を向上させるため、アンサンブルモデルが開発され、全体の精度が94.6%となる。

Plant breeding programs extensively monitor the evolution of seed kernels for seed certification, wherein lies the need to appropriately label the seed kernels by type and quality. However, the breeding environments are large where the monitoring of seed kernels can be challenging due to the minuscule size of seed kernels. The use of unmanned aerial vehicles aids in seed monitoring and labeling since they can capture images at low altitudes whilst being able to access even the remotest areas in the environment. A key bottleneck in the labeling of seeds using UAV imagery is drone altitude i.e. the classification accuracy decreases as the altitude increases due to lower image detail. Convolutional neural networks are a great tool for multi-class image classification when there is a training dataset that closely represents the different scenarios that the network might encounter during evaluation. The article addresses the challenge of training data creation using Domain Randomization wherein synthetic image datasets are generated from a meager sample of seeds captured by the bottom camera of an autonomously driven Parrot AR Drone 2.0. Besides, the article proposes a seed classification framework as a proof-of-concept using the convolutional neural networks of Microsoft's ResNet-100, Oxford's VGG-16, and VGG-19. To enhance the classification accuracy of the framework, an ensemble model is developed resulting in an overall accuracy of 94.6%.
翻訳日:2021-10-07 21:03:26 公開日:2021-10-06
# (参考訳) PSG HASOC-Dravidian CodeMixFIRE2021: タングリッシュにおける攻撃的言語識別のための事前訓練された変換器 [全文訳有]

PSG HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for Offensive Language Identification in Tanglish ( http://arxiv.org/abs/2110.02852v1 )

ライセンス: CC BY 4.0
Sean Benhur, Kanchana Sivanraju(参考訳) 本稿では,ドラビダ語(タミル語・マラヤラム語)におけるヘイトスピーチと攻撃言語識別システムについて述べる。 この課題は、ソーシャルメディアから収集されたDravidian Languagesのコードミックスコメント/ポストにおける攻撃的コンテンツを特定することである。 提案手法では,事前学習されたトランスフォーマリンバーの最終層をプールすることで,サブタスクbにおけるタミル・イングリッシュデータセットの重み付け平均スコア0.61でリーダボード上のランクナインを達成するのに役立ち,タスク期限後にデータセットを一様にサンプリングしてmurilプリトレーニングモデルを用いて,平均スコア0.67をリーダボードのトップスコアとして達成した。 さらに、事前トレーニングされたモデルを活用するアプローチは、異なるデータセットで同じタスクでモデルを再利用するのに役立ちます。 コードとモデルはGitHub 1で利用可能です。

This paper describes the system submitted to Dravidian-Codemix-HA SOC2021: Hate Speech and Offensive Language Identification in Dravidian Languages (Tamil-English and Malayalam-English). This task aims to identify offensive content in code-mixed comments/posts in Dravidian Languages collected from social media. Our approach utilizes pooling the last layers of pretrained transformer multilingual BERT for this task which helped us achieve rank nine on the leaderboard with a weighted average score of 0.61 for the Tamil-English dataset in subtask B. After the task deadline, we sampled the dataset uniformly and used the MuRIL pretrained model, which helped us achieve a weighted average score of 0.67, the top score in the leaderboard. Furthermore, our approach to utilizing the pretrained models helps reuse our models for the same task with a different dataset. Our code and models are available in GitHub 1
翻訳日:2021-10-07 20:54:11 公開日:2021-10-06
# (参考訳) ブロックワイド量子化による8ビット最適化 [全文訳有]

8-bit Optimizers via Block-wise Quantization ( http://arxiv.org/abs/2110.02861v1 )

ライセンス: CC BY 4.0
Tim Dettmers, Mike Lewis, Sam Shleifer, Luke Zettlemoyer(参考訳) ステートフルオプティマイザは、過去の勾配値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間とともに勾配統計を維持できる。 この状態は、通常の確率的勾配降下と比較して最適化を加速することができるが、モデルパラメータに割り当てられるメモリを使用するため、実際に訓練されたモデルの最大サイズを制限できる。 本稿では,32ビットオプティマイザ状態の使用性能を維持しつつ,8ビット統計を用いた最初のオプティマイザを開発する。 計算,量子化,安定性の課題を克服するために,ブロックワイドな量子化を開発する。 ブロックワイド量子化は、入力テンソルを独立に量子化する小さなブロックに分割する。 各ブロックはコア間で並列に処理され、高速な最適化と高精度な量子化が得られる。 安定性と性能を維持するため,ブロックワイド量子化と,(1)大小ともに精度の高い非線形最適化形式である動的量子化,(2)言語モデルにおける入力トークンの非一様分布から生じる勾配分散を低減するための安定な埋め込み層,の2つの追加的な変化を組み合わせた。 その結果、8ビットオプティマイザは、1.5Bパラメータ言語モデリング、GLUEファインタニング、ImageNet分類、WMT'14機械翻訳、MoCo v2コントラスト画像Netプリトレーニング+ファインタニング、RoBERTaプリトレーニングなどを含むタスクにおいて、メモリフットプリントのわずかな部分で32ビット性能を維持している。 8ビットオプティマイザを2行のコード変更のみを必要とするドロップイン代替としてオープンソースにしました。

Stateful optimizers maintain gradient statistics over time, e.g., the exponentially smoothed sum (SGD with momentum) or squared sum (Adam) of past gradient values. This state can be used to accelerate optimization compared to plain stochastic gradient descent but uses memory that might otherwise be allocated to model parameters, thereby limiting the maximum size of models trained in practice. In this paper, we develop the first optimizers that use 8-bit statistics while maintaining the performance levels of using 32-bit optimizer states. To overcome the resulting computational, quantization, and stability challenges, we develop block-wise dynamic quantization. Block-wise quantization divides input tensors into smaller blocks that are independently quantized. Each block is processed in parallel across cores, yielding faster optimization and high precision quantization. To maintain stability and performance, we combine block-wise quantization with two additional changes: (1) dynamic quantization, a form of non-linear optimization that is precise for both large and small magnitude values, and (2) a stable embedding layer to reduce gradient variance that comes from the highly non-uniform distribution of input tokens in language models. As a result, our 8-bit optimizers maintain 32-bit performance with a small fraction of the memory footprint on a range of tasks, including 1.5B parameter language modeling, GLUE finetuning, ImageNet classification, WMT'14 machine translation, MoCo v2 contrastive ImageNet pretraining+finetuning, and RoBERTa pretraining, without changes to the original optimizer hyperparameters. We open-source our 8-bit optimizers as a drop-in replacement that only requires a two-line code change.
翻訳日:2021-10-07 20:41:28 公開日:2021-10-06
# (参考訳) ニューラルネットワークにおける深部特徴の共通部分空間の探索

Exploring the Common Principal Subspace of Deep Features in Neural Networks ( http://arxiv.org/abs/2110.02863v1 )

ライセンス: CC BY 4.0
Haoran Liu, Haoyi Xiong, Yaqing Wang, Haozhe An, Dongrui Wu, and Dejing Dou(参考訳) 同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、どのアーキテクチャ(例えば、畳み込みニューラルネットワーク(CNN)、マルチレイヤプリセプタ(MLP)、オートエンコーダ(AE))が構築されたか、あるいはラベルがトレーニング(例えば、教師なし、教師なし、および自己教師付き学習)で使用されたかに関わらず、ラテント空間において共通の主部分空間を共有している。 具体的には、DNNで学んだ深い特徴の主部分空間を表すための新しい計量 $\mathcal{P}$-vector を設計し、$\mathcal{P}$-vectors を用いて主部分空間間の角度を測定することを提案する。 異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。 さらに, ランダムスクラッチからランダムスクラッチまでの訓練過程において, 角度がより大きいもの(70^\circ-80^\circ$ 通常)から小さいもの(スクラッチから収束までの特徴空間学習の進行)に減少する。 そこで我々は,$\mathcal{P}$-vector とトレーニングデータセットの主部分空間との角度を測定し,そのような角度を一般化性能と結びつけるケーススタディを実施した。 mnist, cifar-10, cifar-100データセットの分類, 画像再構成, 自己教師あり学習タスクに, 実使用多層パーセプトロン(mlps), aesおよびcnnを用いた広範囲な実験を行った。 深い特徴の深層学習・特徴学習・部分空間の解釈可能性

We find that different Deep Neural Networks (DNNs) trained with the same dataset share a common principal subspace in latent spaces, no matter in which architectures (e.g., Convolutional Neural Networks (CNNs), Multi-Layer Preceptors (MLPs) and Autoencoders (AEs)) the DNNs were built or even whether labels have been used in training (e.g., supervised, unsupervised, and self-supervised learning). Specifically, we design a new metric $\mathcal{P}$-vector to represent the principal subspace of deep features learned in a DNN, and propose to measure angles between the principal subspaces using $\mathcal{P}$-vectors. Small angles (with cosine close to $1.0$) have been found in the comparisons between any two DNNs trained with different algorithms/architect ures. Furthermore, during the training procedure from random scratch, the angle decrease from a larger one ($70^\circ-80^\circ$ usually) to the small one, which coincides the progress of feature space learning from scratch to convergence. Then, we carry out case studies to measure the angle between the $\mathcal{P}$-vector and the principal subspace of training dataset, and connect such angle with generalization performance. Extensive experiments with practically-used Multi-Layer Perceptron (MLPs), AEs and CNNs for classification, image reconstruction, and self-supervised learning tasks on MNIST, CIFAR-10 and CIFAR-100 datasets have been done to support our claims with solid evidences. Interpretability of Deep Learning, Feature Learning, and Subspaces of Deep Features
翻訳日:2021-10-07 20:14:34 公開日:2021-10-06
# (参考訳) 多言語トランスフォーマーを用いたシーケンスからシーケンスまでの語彙正規化 [全文訳有]

Sequence-to-Sequence Lexical Normalization with Multilingual Transformers ( http://arxiv.org/abs/2110.02869v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Adrian Cosma and Liviu P. Dinu(参考訳) 現在の自然言語処理のベンチマークタスクには、非公式のデジタル通信で使われるテキストと質的に異なるテキストが含まれている。 この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。 この問題を解決する方法の1つは、非標準テキスト(通常はソーシャルメディアから)をより標準化された形式に変換する過程である語彙正規化である。 本研究では,この問題を機械翻訳問題として扱うmbartに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。 ノイズの多いテキストは、英語だけでなく言語全体に広がる問題なので、mBARTの多言語事前学習を利用して、データを微調整します。 現在のアプローチは主に単語やサブワードレベルで運用されているが、このアプローチは技術的な観点からは単純であり、既存のトレーニング済みトランスフォーマーネットワークの上に構築されていると論じる。 以上の結果から,単語レベル,本質的,パフォーマンス評価は他の手法の裏側にあるが,本モデルでは,生の未処理のソーシャルメディアテキスト上で動作しているモデルと比較して,正規化による外在的,下流タスクの性能向上を図っている。

Current benchmark tasks for natural language processing contain text that is qualitatively different from the text used in informal day to day digital communication. This discrepancy has led to severe performance degradation of state-of-the-art NLP models when fine-tuned on real-world data. One way to resolve this issue is through lexical normalization, which is the process of transforming non-standard text, usually from social media, into a more standardized form. In this work, we propose a sentence-level sequence-to-sequence model based on mBART, which frames the problem as a machine translation problem. As the noisy text is a pervasive problem across languages, not just English, we leverage the multi-lingual pre-training of mBART to fine-tune it to our data. While current approaches mainly operate at the word or subword level, we argue that this approach is straightforward from a technical standpoint and builds upon existing pre-trained transformer networks. Our results show that while word-level, intrinsic, performance evaluation is behind other methods, our model improves performance on extrinsic, downstream tasks through normalization compared to models operating on raw, unprocessed, social media text.
翻訳日:2021-10-07 20:13:05 公開日:2021-10-06
# (参考訳) 気候変動への意識向上、洪水のイメージを生かして-気候学者 [全文訳有]

ClimateGAN: Raising Climate Change Awareness by Generating Images of Floods ( http://arxiv.org/abs/2110.02871v1 )

ライセンス: CC BY 4.0
Victor Schmidt, Alexandra Sasha Luccioni, M\'elisande Teng, Tianyu Zhang, Alexia Reynaud, Sunand Raghupathi, Gautier Cosne, Adrien Juraver, Vahe Vardanyan, Alex Hernandez-Garcia, Yoshua Bengio(参考訳) 気候変動は人類にとって大きな脅威であり、その壊滅的な影響を防ぐために必要な行動には、政策立案と個人の行動の両方の変化が含まれる。 しかし、行動を取るには、たとえそれが抽象的で遠いように見えるとしても、気候変動の影響を理解する必要がある。 慣れ親しんだ場所で洪水などの極端な気候現象の潜在的な影響を予測することは、気候変動の抽象的な影響をより具体化し、行動を促進するのに役立つ。 ユーザが撮影した写真に極端な気象イベントを投影するウェブサイトを構築するという、より大きな取り組みの一環として、実際の画像に写実的な洪水をシミュレートするソリューションを提案する。 この複雑な課題に適切なトレーニングデータがない状態で対処するため、教師なし領域適応と条件付き画像生成のためのシミュレーションデータと実データの両方を活用するモデルであるClimateGANを提案する。 本稿では,我々のフレームワークの詳細を述べ,アーキテクチャの構成要素を徹底的に評価し,モデルがフォトリアリスティックなフラッディングをロバストに生成できることを実証する。

Climate change is a major threat to humanity, and the actions required to prevent its catastrophic consequences include changes in both policy-making and individual behaviour. However, taking action requires understanding the effects of climate change, even though they may seem abstract and distant. Projecting the potential consequences of extreme climate events such as flooding in familiar places can help make the abstract impacts of climate change more concrete and encourage action. As part of a larger initiative to build a website that projects extreme climate events onto user-chosen photos, we present our solution to simulate photo-realistic floods on authentic images. To address this complex task in the absence of suitable training data, we propose ClimateGAN, a model that leverages both simulated and real data for unsupervised domain adaptation and conditional image generation. In this paper, we describe the details of our framework, thoroughly evaluate components of our architecture and demonstrate that our model is capable of robustly generating photo-realistic flooding.
翻訳日:2021-10-07 19:57:32 公開日:2021-10-06
# (参考訳) ネステッド政策強化学習 [全文訳有]

Nested Policy Reinforcement Learning ( http://arxiv.org/abs/2110.02879v1 )

ライセンス: CC BY 4.0
Aishwarya Mandyam, Andrew Jones, Krzysztof Laudanski, Barbara Engelhardt(参考訳) オフ・ポリチクス強化学習(RL)は、確率的報酬と未知あるいはノイズのある状態ダイナミクスを持つ環境でエージェントの行動を導くための強力な枠組みであることが証明されている。 多くの現実世界の設定では、エージェントは複数の環境で動作しなければなりません。 例えば、特定の疾患のある患者や非疾患の患者の治療を指導する政策や、学習障害のない学生のためのカリキュラムデザインをナビゲートするポリシーの開発に興味があるかもしれません。 本稿では,このような構造を示す環境において,最適なポリシを求めるRLフレームワークであるNFQI(Nested Policy fit Q-iteration)を紹介する。 提案手法は,2つの異なる環境からの2つの観測グループ間の共有構造を利用して,それぞれのポリシーを互いに区別するネスト付き$Q$値関数を開発する。 我々は,NFQIが関連する特徴に依存し,少なくともグループ構造を考慮しない政策と同様に,機能する政策を産み出すことを見出した。 我々は,OpenAI Gym環境と臨床意思決定RLタスクを用いてNFQIの性能を示す。 以上の結果から,NFQIは現実の多くの臨床環境に適した政策を立案できる可能性が示唆された。

Off-policy reinforcement learning (RL) has proven to be a powerful framework for guiding agents' actions in environments with stochastic rewards and unknown or noisy state dynamics. In many real-world settings, these agents must operate in multiple environments, each with slightly different dynamics. For example, we may be interested in developing policies to guide medical treatment for patients with and without a given disease, or policies to navigate curriculum design for students with and without a learning disability. Here, we introduce nested policy fitted Q-iteration (NFQI), an RL framework that finds optimal policies in environments that exhibit such a structure. Our approach develops a nested $Q$-value function that takes advantage of the shared structure between two groups of observations from two separate environments while allowing their policies to be distinct from one another. We find that NFQI yields policies that rely on relevant features and perform at least as well as a policy that does not consider group structure. We demonstrate NFQI's performance using an OpenAI Gym environment and a clinical decision making RL task. Our results suggest that NFQI can develop policies that are better suited to many real-world clinical environments.
翻訳日:2021-10-07 19:31:01 公開日:2021-10-06
# (参考訳) ヒューマンインザループによる単語埋め込みの微細化 [全文訳有]

Human-in-the-Loop Refinement of Word Embeddings ( http://arxiv.org/abs/2110.02884v1 )

ライセンス: CC BY 4.0
James Powell, Kari Sentz, Martin Klein(参考訳) 単語埋め込みは、単語共起から学習したコーパス内の単語の文脈の固定された分布表現である。 機械学習タスクで有用性が証明されているにもかかわらず、単語埋め込みモデルは不均一な意味的および構文的表現を捉え、訓練されたコーパス内に存在する様々なバイアスを不注意に反映することができる。 語彙辞書にある情報を適用した単語埋め込みの処理後,意味的関連性が向上し,品質が向上することが実証された。 そこで本研究では,「対話的リフィッティング」と呼ぶ単語埋め込み後処理の適応を組み込んだシステムを提案する。 このアプローチにより、人間は単語埋め込みの潜在的な品質問題を特定し、対処することができる。 これは、誰がバイアスを構成するか、他の品質上の問題が下流タスクに影響するかを決めるという問題を否定する利点がある。 各組織や組織は、きめ細かいレベルでの懸念に対処し、反復的でインタラクティブな方法でそれを行うことができます。 さらに、単語埋め込みの効果や、単語埋め込みの改善がマシンラーニングパイプラインに与える影響に関する洞察を深めることも可能だ。

Word embeddings are a fixed, distributional representation of the context of words in a corpus learned from word co-occurrences. Despite their proven utility in machine learning tasks, word embedding models may capture uneven semantic and syntactic representations, and can inadvertently reflect various kinds of bias present within corpora upon which they were trained. It has been demonstrated that post-processing of word embeddings to apply information found in lexical dictionaries can improve the semantic associations, thus improving their quality. Building on this idea, we propose a system that incorporates an adaptation of word embedding post-processing, which we call "interactive refitting", to address some of the most daunting qualitative problems found in word embeddings. Our approach allows a human to identify and address potential quality issues with word embeddings interactively. This has the advantage of negating the question of who decides what constitutes bias or what other quality issues may affect downstream tasks. It allows each organization or entity to address concerns they may have at a fine grained level and to do so in an iterative and interactive fashion. It also allows for better insight into what effect word embeddings, and refinements to word embeddings, have on machine learning pipelines.
翻訳日:2021-10-07 19:13:17 公開日:2021-10-06
# (参考訳) ベイズニューラルネットワークユニットの先行とワイブルテール特性の一般化 [全文訳有]

Bayesian neural network unit priors and generalized Weibull-tail property ( http://arxiv.org/abs/2110.02885v1 )

ライセンス: CC BY 4.0
Mariia Vladimirova, Julyan Arbel, St\'ephane Girard(参考訳) ベイジアンニューラルネットワークとガウス過程の関連性は、ここ数年で大きな注目を集めた。 隠れた単位は、層幅が無限になる傾向があるときにガウス過程の限界に従うことが証明される。 最近の研究は、有限ベイズニューラルネットワークが内部表現を柔軟に適応するため、無限のニューラルネットワークよりも優れていることを示唆している。 有限幅ニューラルネットワークの今後の研究の基盤を確立するため,本研究の目的は隠れ単位に対する先行研究である。 我々の主な結果は隠れた単位尾の正確な説明であり、一般化されたweibull-tailの概念のおかげで、単位の先行部がより重い尾部になることを示している。 この発見は、有限ベイズニューラルネットワークの隠れたユニットの挙動に光を当てる。

The connection between Bayesian neural networks and Gaussian processes gained a lot of attention in the last few years. Hidden units are proven to follow a Gaussian process limit when the layer width tends to infinity. Recent work has suggested that finite Bayesian neural networks may outperform their infinite counterparts because they adapt their internal representations flexibly. To establish solid ground for future research on finite-width neural networks, our goal is to study the prior induced on hidden units. Our main result is an accurate description of hidden units tails which shows that unit priors become heavier-tailed going deeper, thanks to the introduced notion of generalized Weibull-tail. This finding sheds light on the behavior of hidden units of finite Bayesian neural networks.
翻訳日:2021-10-07 19:05:31 公開日:2021-10-06
# (参考訳) スタイル等化:制御可能な生成系列モデルの教師なし学習 [全文訳有]

Style Equalization: Unsupervised Learning of Controllable Generative Sequence Models ( http://arxiv.org/abs/2110.02891v1 )

ライセンス: CC BY 4.0
Jen-Hao Rick Chang, Ashish Shrivastava, Hema Swetha Koppula, Xiaoshuai Zhang, Oncel Tuzel(参考訳) 特定の例のスタイルを抽出して複製する機能を備えた制御可能な生成シーケンスモデルは、さまざまな音声でオーディオブックをナレーションしたり、手書きによる自動補完や自動修正、下流認識タスクのトレーニングサンプルの欠如など、多くのアプリケーションを可能にする。 しかし、これらの制御可能なシーケンス生成モデルの典型的なトレーニングアルゴリズムは、トレーニング中に同じサンプルがコンテンツやスタイル入力として使用されるが、推論中に異なるサンプルが与えられるトレーニング推論ミスマッチに悩まされる。 本稿では,制御可能な生成系列モデルの教師なし学習において発生する学習ミスマッチに対処する。 スタイル等化と呼ばれるスタイル変換モジュールを導入することで、異なるコンテンツとスタイルサンプルを用いたトレーニングを可能にし、トレーニング参照ミスマッチを緩和します。 汎用性を示すために,3つのデータセットに対してテキスト音声合成とテキスト音声合成にスタイル等化を適用した。 我々のモデルは、実際のデータと似た平均的な意見スコアを持つ最先端スタイルの複製を実現する。 さらに,提案手法はシーケンス間のスタイル補間を可能にし,新しいスタイルを生成する。

Controllable generative sequence models with the capability to extract and replicate the style of specific examples enable many applications, including narrating audiobooks in different voices, auto-completing and auto-correcting written handwriting, and generating missing training samples for downstream recognition tasks. However, typical training algorithms for these controllable sequence generative models suffer from the training-inference mismatch, where the same sample is used as content and style input during training but different samples are given during inference. In this paper, we tackle the training-inference mismatch encountered during unsupervised learning of controllable generative sequence models. By introducing a style transformation module that we call style equalization, we enable training using different content and style samples and thereby mitigate the training-inference mismatch. To demonstrate its generality, we applied style equalization to text-to-speech and text-to-handwriting synthesis on three datasets. Our models achieve state-of-the-art style replication with a similar mean style opinion score as the real data. Moreover, the proposed method enables style interpolation between sequences and generates novel styles.
翻訳日:2021-10-07 18:46:45 公開日:2021-10-06
# (参考訳) steamでのゲーム人気予測 [全文訳有]

Predicting the Popularity of Games on Steam ( http://arxiv.org/abs/2110.02896v1 )

ライセンス: CC BY 4.0
Andra\v{z} De Luisa, Jan Hartman, David Nabergoj, Samo Pahor, Marko Rus, Bozhidar Stevanoski, Jure Dem\v{s}ar, Erik \v{S}trumbelj(参考訳) ビデオゲーム業界はこの10年間で急速に成長している。 毎年何千ものビデオゲームが何百万人もの人々によってリリースされ、プレイヤーの大きなコミュニティを形成している。 steamはゲームプラットフォームおよびソーシャルネットワーキングサイトで、ユーザーがゲームを購入して保存することができる。 Steamの副産物は、ゲーム、プレイヤー、ゲーム行動に関する情報の膨大なデータベースである。 本稿では,Steam 上でリリースされた最近のビデオゲームを取り上げ,Steam によるゲーム人気とゲーム機能の関係を明らかにすることを目的とする。 我々は,発売直後のSteamゲームの人気を予測し,ゲーム価格,サイズ,サポート言語,リリース日,ジャンルがプレイヤー数に与える影響を理解するためにベイズ的アプローチを用いた。 我々はいくつかのモデルを実装し、ジャンルに基づく階層的アプローチが最高のパフォーマンスを達成することを発見した。 さらにモデルを分析し,その係数を解釈し,月初旬にゲームがリリースされ,特定のジャンルのゲームがゲーム人気と相関していることを示す。

The video game industry has seen rapid growth over the last decade. Thousands of video games are released and played by millions of people every year, creating a large community of players. Steam is a leading gaming platform and social networking site, which allows its users to purchase and store games. A by-product of Steam is a large database of information about games, players, and gaming behavior. In this paper, we take recent video games released on Steam and aim to discover the relation between game popularity and a game's features that can be acquired through Steam. We approach this task by predicting the popularity of Steam games in the early stages after their release and we use a Bayesian approach to understand the influence of a game's price, size, supported languages, release date, and genres on its player count. We implement several models and discover that a genre-based hierarchical approach achieves the best performance. We further analyze the model and interpret its coefficients, which indicate that games released at the beginning of the month and games of certain genres correlate with game popularity.
翻訳日:2021-10-07 18:23:06 公開日:2021-10-06
# (参考訳) メタ内部学習

Meta Internal Learning ( http://arxiv.org/abs/2110.02900v1 )

ライセンス: CC BY 4.0
Raphael Bensadoun, Shir Gur, Tomer Galanti, Lior Wolf(参考訳) 単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。 これらのモデルは単一のイメージでトレーニングされるため、スケールと応用に制限がある。 これらの課題を克服するために,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。 提案したメタラーニングアプローチでは、畳み込みフィードフォワードハイパーネットワーク$f$を介して、入力画像から単一イメージのGANモデルを生成する。 このネットワークは画像のデータセット上でトレーニングされ、異なるモデル間の機能共有と生成モデルの空間での補間が可能になる。 生成された単一画像モデルは、複数のジェネレータと判別器の階層を含む。 したがって、メタラーナーを逆向きに訓練することは必要であり、理論的解析によって正当化される設計選択を慎重に行う必要がある。 以上の結果から, 得られたモデルは, 多くの共通画像に適用可能な単一画像GANとして適しており, 画像毎のトレーニング時間を大幅に短縮し, 新規画像の補間やフィードフォワードモデリングといった新たな機能を導入している。

Internal learning for single-image generation is a framework, where a generator is trained to produce novel images based on a single image. Since these models are trained on a single image, they are limited in their scale and application. To overcome these issues, we propose a meta-learning approach that enables training over a collection of images, in order to model the internal statistics of the sample image more effectively. In the presented meta-learning approach, a single-image GAN model is generated given an input image, via a convolutional feedforward hypernetwork $f$. This network is trained over a dataset of images, allowing for feature sharing among different models, and for interpolation in the space of generative models. The generated single-image model contains a hierarchy of multiple generators and discriminators. It is therefore required to train the meta-learner in an adversarial manner, which requires careful design choices that we justify by a theoretical analysis. Our results show that the models obtained are as suitable as single-image GANs for many common image applications, significantly reduce the training time per image without loss in performance, and introduce novel capabilities, such as interpolation and feedforward modeling of novel images.
翻訳日:2021-10-07 18:09:32 公開日:2021-10-06
# (参考訳) SAIC_Cambridge-HuPBA -FBK EPIC-Kitchens-100 Action Recognition Challenge 2021参加報告 [全文訳有]

SAIC_Cambridge-HuPBA -FBK Submission to the EPIC-Kitchens-100 Action Recognition Challenge 2021 ( http://arxiv.org/abs/2110.02902v1 )

ライセンス: CC BY 4.0
Swathikiran Sudhakaran and Adrian Bulat and Juan-Manuel Perez-Rua and Alex Falcon and Sergio Escalera and Oswald Lanz and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿では,epic-kitchens-100 action recognition challenge 2021の技術的詳細を紹介する。 この課題に参加するために、私たちは最近開発したGSFとXViTという時空間の特徴抽出と集約モデルをデプロイしました。 GSFは、ビデオアクション認識のために2D CNNにプラグインできる効率的な時空間特徴抽出モジュールである。 XViTは、トランスフォーマーアーキテクチャに基づくコンボリューションフリーなビデオ特徴抽出器である。 我々は,GSFとXViTモデルファミリのアンサンブルを,異なるバックボーンと事前学習を用いて設計し,予測スコアを生成する。 我々の投稿は、公開リーダーボードに表示され、rgbのみを使用して、トップ1のアクション認識精度44.82%を達成した。

This report presents the technical details of our submission to the EPIC-Kitchens-100 Action Recognition Challenge 2021. To participate in the challenge we deployed spatio-temporal feature extraction and aggregation models we have developed recently: GSF and XViT. GSF is an efficient spatio-temporal feature extracting module that can be plugged into 2D CNNs for video action recognition. XViT is a convolution free video feature extractor based on transformer architecture. We design an ensemble of GSF and XViT model families with different backbones and pretraining to generate the prediction scores. Our submission, visible on the public leaderboard, achieved a top-1 action recognition accuracy of 44.82%, using only RGB.
翻訳日:2021-10-07 18:08:25 公開日:2021-10-06
# (参考訳) メモリ効率の良いデータ生成のための生成最適化ネットワーク [全文訳有]

Generative Optimization Networks for Memory Efficient Data Generation ( http://arxiv.org/abs/2110.02912v1 )

ライセンス: CC BY 4.0
Shreshth Tuli, Shikhar Tuli, Giuliano Casale and Nicholas R. Jennings(参考訳) オートエンコーダやgansのような標準的な生成型ディープラーニングモデルでは、パラメータセットのサイズは生成されたデータ分布の複雑さに比例する。 重要な課題は、リソース不足のディープラーニングモデルを限られたメモリを持つデバイスにデプロイすることで、システムのアップグレードコストを抑えることである。 これに対抗するために、生成最適化ネットワーク(GON)と呼ばれる新しいフレームワークを提案し、GANと似ているがジェネレータは使用せず、メモリフットプリントを大幅に削減する。 GONは単一の識別器ネットワークを使用し、入力空間で最適化を行い、新しいデータサンプルを生成し、トレーニング時間とメモリ消費の効果的な妥協を実現する。 GONは、限られたメモリ設定におけるデータ生成問題に最も適している。 ここでは、攻撃や侵入によるメモリ制限エッジデバイスにおける異常検出の問題点について説明する。 具体的には、gonを用いて入力時系列ウィンドウの再構成に基づく異常スコアを算出する。 2つの既存のデータセットと1つの新しいデータセットからなるraspberry-piテストベッドの実験では、我々のフレームワークは検出f1スコアを最大32%高くし、58%のメモリ消費を削減し、最先端よりもトレーニングオーバーヘッドをわずか5%高めている。

In standard generative deep learning models, such as autoencoders or GANs, the size of the parameter set is proportional to the complexity of the generated data distribution. A significant challenge is to deploy resource-hungry deep learning models in devices with limited memory to prevent system upgrade costs. To combat this, we propose a novel framework called generative optimization networks (GON) that is similar to GANs, but does not use a generator, significantly reducing its memory footprint. GONs use a single discriminator network and run optimization in the input space to generate new data samples, achieving an effective compromise between training time and memory consumption. GONs are most suited for data generation problems in limited memory settings. Here we illustrate their use for the problem of anomaly detection in memory-constrained edge devices arising from attacks or intrusion events. Specifically, we use a GON to calculate a reconstruction-based anomaly score for input time-series windows. Experiments on a Raspberry-Pi testbed with two existing and a new suite of datasets show that our framework gives up to 32% higher detection F1 scores and 58% lower memory consumption, with only 5% higher training overheads compared to the state-of-the-art.
翻訳日:2021-10-07 18:04:20 公開日:2021-10-06
# (参考訳) Foolish Crowds が Benign Overfitting をサポート [全文訳有]

Foolish Crowds Support Benign Overfitting ( http://arxiv.org/abs/2110.02914v1 )

ライセンス: CC BY 4.0
Niladri S. Chatterji and Philip M. Long(参考訳) 過パラメータ化状態におけるガウスデータによる線形回帰に対するスパース補間手順の過大なリスクの低い境界を証明した。 我々は、これまで共分散構造がベイズリスクへの高速収束を伴う良性過剰適合と互換性があることが示されていた環境で作業する。 一般境界を適用して、基底探索に対する下界(最小$\ell_1$-norm補間)を求めると、その余剰リスクは、基底真理がスパースであっても、ORS(最小$\ell_2$-norm補間)よりも指数的に遅い速度で収束する。 この分析は「群衆のウィズム」に類似した効果の利点を明らかにしたものであるが、ここではノイズを適合させることによる害は、多くの方向にそれを広めることで改善される。

We prove a lower bound on the excess risk of sparse interpolating procedures for linear regression with Gaussian data in the overparameterized regime. We work in a setting where the covariance structure has previously been shown to be compatible with benign overfitting with fast convergence to the Bayes risk. We apply the general bound to obtain a lower bound for basis pursuit (the minimum $\ell_1$-norm interpolant) that implies that its excess risk can converge at an exponentially slower rate than OLS (the minimum $\ell_2$-norm interpolant), even when the ground truth is sparse. Our analysis exposes the benefit of an effect analogous to the "wisdom of the crowd", except here the harm arising from fitting the noise is ameliorated by spreading it among many directions - the variance reduction arises from a foolish crowd.
翻訳日:2021-10-07 17:52:25 公開日:2021-10-06
# (参考訳) ゼロからノープレス外交 [全文訳有]

No-Press Diplomacy from Scratch ( http://arxiv.org/abs/2110.02924v1 )

ライセンス: CC BY 4.0
Anton Bakhtin, David Wu, Adam Lerer, Noam Brown(参考訳) 複雑なゲームにおけるAIの成功は、決定ポイント毎に少なくとも数百のアクションで設定することに集中している。 対照的に、外交はターン当たり10^20以上のアクションを持つゲームである。 外交、StarCraft、Dotaといった大きな分岐要素を持つゲームに対処する以前の試みでは、ポリシーのブートストラップや手作りの報酬形成に人的データを使用した。 本稿では,組み合わせアクション空間を持つゲームにおける動作探索と平衡近似のアルゴリズムについて述べる。 このアルゴリズムは、ポリシー提案ネットワークを学習しながら、同時に価値イテレーションを行う。 ダブルオラクルのステップは、ポリシー提案に追加するための追加アクションを探求するために使用されます。 各状態において、モデルトレーニングの目標状態値とポリシーは平衡探索手順を介して計算される。 このアルゴリズムを用いて,Diplomacy の2人プレーヤ版に対して,エージェントDORAを完全にゼロからトレーニングし,超人的なパフォーマンスを実現することを示す。 さらに、我々の手法をフルスケールのノープレッシャー外交に拡張し、初めて人間データなしでエージェントをゼロから訓練します。 本稿では、このエージェントが、人間データブートストラップエージェントと互換性のない戦略を担っていることを示す。 これは外交における多重均衡の最初の強い証拠であり、外交における超人的業績を達成するには自己遊びだけでは不十分であることを示唆している。

Prior AI successes in complex games have largely focused on settings with at most hundreds of actions at each decision point. In contrast, Diplomacy is a game with more than 10^20 possible actions per turn. Previous attempts to address games with large branching factors, such as Diplomacy, StarCraft, and Dota, used human data to bootstrap the policy or used handcrafted reward shaping. In this paper, we describe an algorithm for action exploration and equilibrium approximation in games with combinatorial action spaces. This algorithm simultaneously performs value iteration while learning a policy proposal network. A double oracle step is used to explore additional actions to add to the policy proposals. At each state, the target state value and policy for the model training are computed via an equilibrium search procedure. Using this algorithm, we train an agent, DORA, completely from scratch for a popular two-player variant of Diplomacy and show that it achieves superhuman performance. Additionally, we extend our methods to full-scale no-press Diplomacy and for the first time train an agent from scratch with no human data. We present evidence that this agent plays a strategy that is incompatible with human-data bootstrapped agents. This presents the first strong evidence of multiple equilibria in Diplomacy and suggests that self play alone may be insufficient for achieving superhuman performance in Diplomacy.
翻訳日:2021-10-07 17:38:14 公開日:2021-10-06
# (参考訳) 平均場状態における多層ResNetのグラディエントDescentのグローバル収束について

On the Global Convergence of Gradient Descent for multi-layer ResNets in the mean-field regime ( http://arxiv.org/abs/2110.02926v1 )

ライセンス: CC BY 4.0
Zhiyan Ding and Shi Chen and Qin Li and Stephen Wright(参考訳) ResNetにおけるパラメータの最適設定を見つけることは、非凸最小化問題であるが、一方、一階法は過度なパラメータ化状態における大域的最適性を見出す。 本研究では、ResNetの学習過程を勾配流偏微分方程式(PDE)に変換し、この制限過程の収束特性を調べることにより、平均場解析を用いてこの現象を研究する。 活性化関数は 2$-等質あるいは部分的に 1$-等質であると仮定され、正規化された ReLU は後者の条件を満たす。 ResNetが十分に大きく、精度と信頼度によって代数的に深さと幅がある場合、一階最適化法はトレーニングデータに適合する大域最小化器を見つけることができる。

Finding the optimal configuration of parameters in ResNet is a nonconvex minimization problem, but first-order methods nevertheless find the global optimum in the overparameterized regime. We study this phenomenon with mean-field analysis, by translating the training process of ResNet to a gradient-flow partial differential equation (PDE) and examining the convergence properties of this limiting process. The activation function is assumed to be $2$-homogeneous or partially $1$-homogeneous; the regularized ReLU satisfies the latter condition. We show that if the ResNet is sufficiently large, with depth and width depending algebraically on the accuracy and confidence levels, first-order optimization methods can find global minimizers that fit the training data.
翻訳日:2021-10-07 17:11:43 公開日:2021-10-06
# (参考訳) イベントベースビジョンのためのスパイク畳み込みネットワークの敵意攻撃 [全文訳有]

Adversarial Attacks on Spiking Convolutional Networks for Event-based Vision ( http://arxiv.org/abs/2110.02929v1 )

ライセンス: CC BY 4.0
Julian B\"uchel, Gregor Lenz, Yalun Hu, Sadique Sheik, Martino Sorbaro(参考訳) ダイナミックビジョンセンサを用いたイベントベースセンシングは、低消費電力ビジョンアプリケーションで注目を集めている。 スパイクニューラルネットワークは、イベントベースのデータのばらばらな性質とうまく機能し、低消費電力のニューロモルフィックハードウェアへのデプロイに適している。 ニューラルネットワークをスパイクすることで、悪意のある敵の攻撃に対する感受性は、まだほとんど注目されていない。 本稿では,ホワイトボックス攻撃アルゴリズムを,イベントベースの視覚的データの離散的かつスパースな性質や,スパイクニューラルネットワークの連続時間設定にどのように適用できるかを示す。 我々は,N-MNISTとIBM Gesturesのニューロモルフィック・ビジョン・データセットを用いて,比較的少数の適切なイベントを注入することにより,敵の摂動が高い成功率を達成することを示す。 また,神経形態的ハードウェア上でのこれらの摂動の効果を初めて検証した。 最後に、得られた摂動の性質と将来的な方向性について論じる。

Event-based sensing using dynamic vision sensors is gaining traction in low-power vision applications. Spiking neural networks work well with the sparse nature of event-based data and suit deployment on low-power neuromorphic hardware. Being a nascent field, the sensitivity of spiking neural networks to potentially malicious adversarial attacks has received very little attention so far. In this work, we show how white-box adversarial attack algorithms can be adapted to the discrete and sparse nature of event-based visual data, and to the continuous-time setting of spiking neural networks. We test our methods on the N-MNIST and IBM Gestures neuromorphic vision datasets and show adversarial perturbations achieve a high success rate, by injecting a relatively small number of appropriately placed events. We also verify, for the first time, the effectiveness of these perturbations directly on neuromorphic hardware. Finally, we discuss the properties of the resulting perturbations and possible future directions.
翻訳日:2021-10-07 17:10:35 公開日:2021-10-06
# (参考訳) ビッグデータ以外の機械学習の実践 - リソース制約は開発に責任を負うか [全文訳有]

Machine Learning Practices Outside Big Tech: How Resource Constraints Challenge Responsible Development ( http://arxiv.org/abs/2110.02932v1 )

ライセンス: CC BY 4.0
Aspen Hopkins, Serena Booth(参考訳) 多様な職業やバックグラウンドを持つ実践者は、機械学習(ML)メソッドの利用が増えている。 それでも、ML実践者の研究は、研究者がこれらのコミュニティにアクセスしやすいため、一般的にはビッグテックやアカデミックから人口を引き出す。 この選択バイアスを通じて、過去の研究は、例えばスタートアップ、非テック企業、公共部門で働く実践者など、より広範な、より少ないリソースのmlコミュニティを除外することが多い。 これらの実践者は、Big Techと同じようなML開発上の困難と倫理的な混乱の多くを共有しているが、彼らの経験は、限られたリソースでMLをデプロイすること、生存リスクの増大、社内調査チームへのアクセス不足など、さらに過小評価された課題にさらされている。 先行研究に代表されない団体の利害関係者17名に対するインタビューの質的分析に貢献する。 これらの組織のリソース制約 - プライバシとユビキタス間の緊張、リソース管理とパフォーマンスの最適化、アクセスと独占など - によって導入された、あるいは悪化する多くの緊張関係を明らかにする。 これらの実践者に対する学術的関心の高まりは、MLの制限に関するより包括的な理解を促進することができるため、責任あるML開発を促進するための研究アジェンダを規定するのに有用である。

Practitioners from diverse occupations and backgrounds are increasingly using machine learning (ML) methods. Nonetheless, studies on ML Practitioners typically draw populations from Big Tech and academia, as researchers have easier access to these communities. Through this selection bias, past research often excludes the broader, lesser-resourced ML community -- for example, practitioners working at startups, at non-tech companies, and in the public sector. These practitioners share many of the same ML development difficulties and ethical conundrums as their Big Tech counterparts; however, their experiences are subject to additional under-studied challenges stemming from deploying ML with limited resources, increased existential risk, and absent access to in-house research teams. We contribute a qualitative analysis of 17 interviews with stakeholders from organizations which are less represented in prior studies. We uncover a number of tensions which are introduced or exacerbated by these organizations' resource constraints -- tensions between privacy and ubiquity, resource management and performance optimization, and access and monopolization. Increased academic focus on these practitioners can facilitate a more holistic understanding of ML limitations, and so is useful for prescribing a research agenda to facilitate responsible ML development for all.
翻訳日:2021-10-07 16:51:39 公開日:2021-10-06
# (参考訳) 口蓋構造検出におけるクロップト対アンクロップトトレーニングセットについて [全文訳有]

On Cropped versus Uncropped Training Sets in Tabular Structure Detection ( http://arxiv.org/abs/2110.02933v1 )

ライセンス: CC BY 4.0
Yakup Akkaya, Murat Simsek, Burak Kantarci, Shahzad Khan(参考訳) 表情報抽出のための自動文書処理は、業界から政府まで、多くの組織で非常に望まれている。 これまで、テーブル検出やテーブル構造検出タスクでこの問題に対処してきた。 ディープラーニングアプローチを活用したソリューションの提案は、これらのタスクで有望な結果をもたらしている。 しかし,データセット構造が表構造検出に与える影響は調査されていない。 本研究では, テーブル構造検出性能と, 刈り取られたデータセットとの比較を行った。 クロッピングセットは、テーブルが完全に検出されたと仮定して文書からクロッピングされたテーブルイメージのみで構成される。 uncroppedセットは、通常のドキュメントイメージで構成されている。 実験では、ディープラーニングモデルが検出性能を平均精度で最大9%向上させ、トリミングされたバージョンで平均リコールできることが示されている。 さらに、収穫された画像の影響は、未採集版に比べて50%-70%のIoU(Intersection over Union)値で無視できる。 しかし、70%のIoUしきい値を超え、収穫されたデータセットは検出性能が著しく向上する。

Automated document processing for tabular information extraction is highly desired in many organizations, from industry to government. Prior works have addressed this problem under table detection and table structure detection tasks. Proposed solutions leveraging deep learning approaches have been giving promising results in these tasks. However, the impact of dataset structures on table structure detection has not been investigated. In this study, we provide a comparison of table structure detection performance with cropped and uncropped datasets. The cropped set consists of only table images that are cropped from documents assuming tables are detected perfectly. The uncropped set consists of regular document images. Experiments show that deep learning models can improve the detection performance by up to 9% in average precision and average recall on the cropped versions. Furthermore, the impact of cropped images is negligible under the Intersection over Union (IoU) values of 50%-70% when compared to the uncropped versions. However, beyond 70% IoU thresholds, cropped datasets provide significantly higher detection performance.
翻訳日:2021-10-07 16:28:32 公開日:2021-10-06
# (参考訳) クラスタリングによるセキュアなビザンチンロバスト分散学習 [全文訳有]

Secure Byzantine-Robust Distributed Learning via Clustering ( http://arxiv.org/abs/2110.02940v1 )

ライセンス: CC BY 4.0
Raj Kiriti Velicheti, Derek Xia, Oluwasanmi Koyejo(参考訳) ビザンチンの堅牢性とプライバシを共同で保存する連合学習システムは、オープンな問題のままである。 ビザンチン攻撃の標準的な防御であるロバストアグリゲーションは、一般的に個々の更新や非線形計算へのサーバアクセスを必要とするため、マルチパーティ計算によるセキュアアグリゲーションのようなプライバシ保護手法とは相容れない。 この目的のために,クライアント更新のプライバシとロバスト性を同時に保持する分散学習フレームワークであるSHARE(Secure Hierarchical Robust Aggregation)を提案する。 重要なアイデアは、ロバストアグリゲーションを通じて悪意のあるアップデートをフィルタリングする前に、ランダムにクラスタ化されたクライアント間のセキュアな平均化を組み込むことである。 実験によると、SHAREは既存の技術と同様の堅牢性を保証すると同時に、プライバシーを向上している。

Federated learning systems that jointly preserve Byzantine robustness and privacy have remained an open problem. Robust aggregation, the standard defense for Byzantine attacks, generally requires server access to individual updates or nonlinear computation -- thus is incompatible with privacy-preserving methods such as secure aggregation via multiparty computation. To this end, we propose SHARE (Secure Hierarchical Robust Aggregation), a distributed learning framework designed to cryptographically preserve client update privacy and robustness to Byzantine adversaries simultaneously. The key idea is to incorporate secure averaging among randomly clustered clients before filtering malicious updates through robust aggregation. Experiments show that SHARE has similar robustness guarantees as existing techniques while enhancing privacy.
翻訳日:2021-10-07 16:15:43 公開日:2021-10-06
# (参考訳) ビデオオートエンコーダ:静的な3次元構造と動きの自己監督的外乱 [全文訳有]

Video Autoencoder: self-supervised disentanglement of static 3D structure and motion ( http://arxiv.org/abs/2110.02951v1 )

ライセンス: CC BY 4.0
Zihang Lai, Sifei Liu, Alexei A. Efros, Xiaolong Wang(参考訳) ビデオから3次元構造とカメラポーズのディスタンタン・グリード表現を自己教師ありで学習するためにビデオオートエンコーダを提案する。 ビデオの時間的連続性に基づいて、我々の研究は、近くのビデオフレームの3Dシーン構造が静止していると仮定する。 入力として映像フレームのシーケンスが与えられると、ビデオオートエンコーダはシーンインクルード・ingの異方性表現を抽出する。 (i)3d構造を表す時間的に一貫性のある深いボクセルの特徴 (ii)フレームごとにカメラの3次元軌跡がポーズする。 これら2つの表現は、入力されたビデオフレームをレンダリングするために再び絡み合う。 このビデオオートエンコーダは、3Dやカメラのアノテーションを使わずに、画素再構成損失を直接トレーニングすることができる。 この異方性表現は、新しい視点合成、カメラポーズ推定、動き追従によるビデオ生成など、様々なタスクに適用することができる。 本手法を複数の大規模自然映像データセットで評価し,領域外画像に一般化結果を示す。

A video autoencoder is proposed for learning disentan- gled representations of 3D structure and camera pose from videos in a self-supervised manner. Relying on temporal continuity in videos, our work assumes that the 3D scene structure in nearby video frames remains static. Given a sequence of video frames as input, the video autoencoder extracts a disentangled representation of the scene includ- ing: (i) a temporally-consisten t deep voxel feature to represent the 3D structure and (ii) a 3D trajectory of camera pose for each frame. These two representations will then be re-entangled for rendering the input video frames. This video autoencoder can be trained directly using a pixel reconstruction loss, without any ground truth 3D or camera pose annotations. The disentangled representation can be applied to a range of tasks, including novel view synthesis, camera pose estimation, and video generation by motion following. We evaluate our method on several large- scale natural video datasets, and show generalization results on out-of-domain images.
翻訳日:2021-10-07 15:26:34 公開日:2021-10-06
# PoNet: 長いシーケンスでの効率的なトケミキシングのためのポーリングネットワーク

PoNet: Pooling Network for Efficient Token Mixing in Long Sequences ( http://arxiv.org/abs/2110.02442v1 )

ライセンス: Link先を確認
Chao-Hong Tan, Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Zhen-Hua Ling(参考訳) トランスフォーマーベースのモデルは、様々なNLP、ビジョン、音声タスクで大きな成功を収めている。 しかし、自己アテンション機構であるトランスのコアはシーケンス長に関して二次時間とメモリの複雑さを持ち、トランスフォーマーベースのモデルの長いシーケンスへの応用を妨げる。 この問題を緩和するために、スパース注意機構、低ランク行列近似、スケーラブルカーネル、およびトークン混合の代替品など、多くのアプローチが提案されている。 本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。 複数粒度プールとプール融合を設計し、異なるレベルのコンテキスト情報をキャプチャし、それらの相互作用をトークンと組み合わせる。 Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、GPU上で測定されたすべてのシーケンス長に対して、最速のモデルであるFNetよりもわずかに遅い。 また,PoNetの伝達学習能力に関する系統的研究を行い, GLUEベンチマークにおけるBERTの精度の96.0%をPoNetが達成し, FNetを4.5%上回った。 包括的アブレーション解析は, 長期のトークン混合における多粒度プールとプール融合の有効性と, 伝達可能な文脈言語表現を学習するためのPoNetのための事前学習タスクの有効性を示す。

Transformer-based models have achieved great success in various NLP, vision, and speech tasks. However, the core of Transformer, the self-attention mechanism, has a quadratic time and memory complexity with respect to the sequence length, which hinders applications of Transformer-based models to long sequences. Many approaches have been proposed to mitigate this problem, such as sparse attention mechanisms, low-rank matrix approximations and scalable kernels, and token mixing alternatives to self-attention. We propose a novel Pooling Network (PoNet) for token mixing in long sequences with linear complexity. We design multi-granularity pooling and pooling fusion to capture different levels of contextual information and combine their interactions with tokens. On the Long Range Arena benchmark, PoNet significantly outperforms Transformer and achieves competitive accuracy, while being only slightly slower than the fastest model, FNet, across all sequence lengths measured on GPUs. We also conduct systematic studies on the transfer learning capability of PoNet and observe that PoNet achieves 96.0% of the accuracy of BERT on the GLUE benchmark, outperforming FNet by 4.5% relative. Comprehensive ablation analysis demonstrates effectiveness of the designed multi-granularity pooling and pooling fusion for token mixing in long sequences and efficacy of the designed pre-training tasks for PoNet to learn transferable contextualized language representations.
翻訳日:2021-10-07 14:46:43 公開日:2021-10-06
# 幾何量と物理量の改善E(3)同変メッセージパッシング

Geometric and Physical Quantities improve E(3) Equivariant Message Passing ( http://arxiv.org/abs/2110.02905v1 )

ライセンス: Link先を確認
Johannes Brandstetter, Rob Hesselink, Elise van der Pol, Erik Bekkers, Max Welling(参考訳) 位置、力、速度、スピンなどの共変情報を含むことは、計算物理学や化学における多くのタスクにおいて重要である。 等変グラフネットワークを一般化し,ノード属性とエッジ属性が不変スカラーに制限されるのではなく,ベクトルやテンソルなどの共変情報を含むことができる,ステアブルE(3)等変グラフニューラルネットワーク(SEGNN)を提案する。 このモデルは、操縦可能なMPPで構成され、メッセージと更新機能の両方に幾何学的および物理的情報を組み込むことができる。 ステアブルなノード属性の定義を通じて、MPPはステアブルな機能フィールドで一般使用するためのアクティベーション関数の新しいクラスを提供する。 非線形メッセージアグリゲーションは、古典的線形(ステアブル)点畳み込みにおいて改善され、ステアブルメッセージは、不変メッセージを送信する最近の同変グラフネットワークにおいて改善される。 計算物理学および化学におけるいくつかのタスクにおける本手法の有効性を実証し,広範なアブレーション研究を提供する。

Including covariant information, such as position, force, velocity or spin is important in many tasks in computational physics and chemistry. We introduce Steerable E(3) Equivariant Graph Neural Networks (SEGNNs) that generalise equivariant graph networks, such that node and edge attributes are not restricted to invariant scalars, but can contain covariant information, such as vectors or tensors. This model, composed of steerable MLPs, is able to incorporate geometric and physical information in both the message and update functions. Through the definition of steerable node attributes, the MLPs provide a new class of activation functions for general use with steerable feature fields. We discuss ours and related work through the lens of equivariant non-linear convolutions, which further allows us to pin-point the successful components of SEGNNs: non-linear message aggregation improves upon classic linear (steerable) point convolutions; steerable messages improve upon recent equivariant graph networks that send invariant messages. We demonstrate the effectiveness of our method on several tasks in computational physics and chemistry and provide extensive ablation studies.
翻訳日:2021-10-07 14:46:17 公開日:2021-10-06
# マイズショット分類におけるファースバイアス低減の重要性について

On the Importance of Firth Bias Reduction in Few-Shot Classification ( http://arxiv.org/abs/2110.02529v1 )

ライセンス: Link先を確認
Saba Ghaffari, Ehsan Saleh, David Forsyth and Yu-xiong Wang(参考訳) ごく少数の例から、新しいカテゴリの正確な分類器を学習することは、統計的な機械学習とコンピュータビジョンにおいて難しい課題である。 少数ショット分類の性能は、分類器パラメータの推定におけるバイアスに苦しむが、少数ショット分類器のトレーニングにおいてこの問題を緩和する効果的なバイアス低減技術が見過ごされている。 そこで本研究では,Firth バイアス低減手法の有効性について述べる。 理論的には、firthバイアス低減は、最大度推定子の小サンプルバイアスから1次項$o(n^{-1})$を取り除く。 本稿では,多項ロジスティック分類における一様クラス割当確率の促進に汎用firthバイアス低減手法を単純化し,コサイン分類器においてほぼ同じ効果を持つことを示す。 本研究では,Firthのペナル化多項ロジスティック・コサイン分類器の最適化目標を導出し,(1)異なるバックボーンの特徴表現,(2)クラス毎のサンプル数,(3)クラス数によらず,少数の画像分類において一貫した有効性を実証的に評価した。 最後に,不均衡データ分布の場合,firthバイアス低減のロバスト性を示す。 私たちの実装はhttps://github.com/e hsansaleh/firth_bias _reductionで利用可能です。

Learning accurate classifiers for novel categories from very few examples, known as few-shot image classification, is a challenging task in statistical machine learning and computer vision. The performance in few-shot classification suffers from the bias in the estimation of classifier parameters; however, an effective underlying bias reduction technique that could alleviate this issue in training few-shot classifiers has been overlooked. In this work, we demonstrate the effectiveness of Firth bias reduction in few-shot classification. Theoretically, Firth bias reduction removes the first order term $O(N^{-1})$ from the small-sample bias of the Maximum Likelihood Estimator. Here we show that the general Firth bias reduction technique simplifies to encouraging uniform class assignment probabilities for multinomial logistic classification, and almost has the same effect in cosine classifiers. We derive the optimization objective for Firth penalized multinomial logistic and cosine classifiers, and empirically evaluate that it is consistently effective across the board for few-shot image classification, regardless of (1) the feature representations from different backbones, (2) the number of samples per class, and (3) the number of classes. Finally, we show the robustness of Firth bias reduction, in the case of imbalanced data distribution. Our implementation is available at https://github.com/e hsansaleh/firth_bias _reduction
翻訳日:2021-10-07 14:45:57 公開日:2021-10-06
# moveFashion: ビデオとショッピングの課題のベンチマーク

MovingFashion: a Benchmark for the Video-to-Shop Challenge ( http://arxiv.org/abs/2110.02627v1 )

ライセンス: Link先を確認
Marco Godi, Christian Joppi, Geri Skenderi, Marco Cristani(参考訳) ソーシャルメディアビデオ(Instagram、TikTok)で着用される衣服の回収は、コンピュータビジョン文学において「ビデオ・トゥ・ショップ」と呼ばれるeファッションの最新のフロンティアである。 本稿では,この課題に対処した最初の公開データセットであるMovingFashionを紹介する。 movingFashionは14855のソーシャルビデオで構成されており、それぞれが、対応する衣服が明確に描かれたEコマースの「ショップ」イメージと関連付けられている。 また,このシナリオにおいて,SEAM Match-RCNNと呼ばれる店舗イメージを検索するネットワークを提案する。 このモデルは、画像からビデオへのドメイン適応によってトレーニングされ、ショップイメージとのみ関連づけられたビデオシーケンスを使用でき、数百万の注釈付きバウンディングボックスが不要になる。 SEAM Match-RCNNは、ソーシャルビデオのアテンションベースの重み付け和(10)が、最初の5つの検索項目で正しい製品を80%の精度で14K以上のショップエレメントギャラリーに分割するのに十分である埋め込みを構築する。 これは、関連する最先端のアプローチと代替のベースラインとを徹底的に比較して、MovingFashionで最高のパフォーマンスを提供する。

Retrieving clothes which are worn in social media videos (Instagram, TikTok) is the latest frontier of e-fashion, referred to as "video-to-shop" in the computer vision literature. In this paper we present MovingFashion, the first publicly available dataset to cope with this challenge. MovingFashion is composed of 14855 social videos, each one of them associated to e-commerce "shop" images where the corresponding clothing items are clearly portrayed. In addition, we present a network for retrieving the shop images in this scenario, dubbed SEAM Match-RCNN. The model is trained by image-to-video domain adaptation, allowing to use video sequences where only their association with a shop image is given, eliminating the need of millions of annotated bounding boxes. SEAM Match-RCNN builds an embedding, where an attention-based weighted sum of few frames (10) of a social video is enough to individuate the correct product within the first 5 retrieved items in a 14K+ shop element gallery with an accuracy of 80%. This provides the best performance on MovingFashion, comparing exhaustively against the related state-of-the-art approaches and alternative baselines.
翻訳日:2021-10-07 14:45:34 公開日:2021-10-06
# DiffusionCLIP:拡散モデルを用いたテキスト誘導画像操作

DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models ( http://arxiv.org/abs/2110.02711v1 )

ライセンス: Link先を確認
Gwanghyun Kim, Jong Chul Ye(参考訳) 拡散モデルは、最先端の性能で画像生成に大きな成功を収めた最近の生成モデルである。 しかし、拡散モデルを用いた画像操作についての研究はごくわずかである。 本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。 提案手法は,領域内および領域外の画像処理タスクに対する最新のGANベースの画像処理手法に匹敵する性能を有し,エンコーダや最適化を伴わずにほぼ完全な逆変換の利点を享受できる。 さらに、この手法は、未処理ドメインから別の未処理ドメインへの画像変換や、未処理ドメインでのストローク条件画像生成など、様々な新規用途に容易に使用することができる。 最後に、複数の微調整拡散モデルを組み合わせたDiffusionCLIPbyを用いた新しい多重属性制御を提案する。

Diffusion models are recent generative models that have shown great success in image generation with the state-of-the-art performance. However, only a few researches have been conducted for image manipulation with diffusion models. Here, we present a novel DiffusionCLIP which performs text-driven image manipulation with diffusion models using Contrastive Language-Image Pre-training (CLIP) loss. Our method has a performance comparable to that of the modern GAN-based image processing methods for in and out-of-domain image processing tasks, with the advantage of almost perfect inversion even without additional encoders or optimization. Furthermore, our method can be easily used for various novel applications, enabling image translation from an unseen domain to another unseen domain or stroke-conditioned image generation in an unseen domain, etc. Finally, we present a novel multiple attribute control with DiffusionCLIPby combining multiple fine-tuned diffusion models.
翻訳日:2021-10-07 14:45:18 公開日:2021-10-06
# BadPre: トレーニング済みNLPファウンデーションモデルに対するタスク非依存のバックドアアタック

BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models ( http://arxiv.org/abs/2110.02467v1 )

ライセンス: Link先を確認
Kangjie Chen, Yuxian Meng, Xiaofei Sun, Shangwei Guo, Tianwei Zhang, Jiwei Li and Chun Fan(参考訳) 事前訓練された自然言語処理(NLP)モデルは、さまざまな下流言語タスクに容易に適応できる。 これは言語モデルの開発を著しく加速させる。 しかし、NLPモデルはバックドア攻撃に弱いことが示されており、入力テキスト中の事前定義されたトリガーワードがモデル誤予測を引き起こす。 以前のNLPバックドア攻撃は主に特定のタスクに焦点を当てていた。 これにより、これらの攻撃は一般的なものではなく、他の種類のNLPモデルやタスクにも適用できる。 本研究では,学習済みNLPモデルに対するタスク非依存のバックドア攻撃である \Name を提案する。 我々の攻撃の重要な特徴は、敵が事前訓練されたモデルにバックドアを埋め込む際に下流タスクの事前情報を必要としないことである。 この悪意のあるモデルがリリースされると、そのモデルから転送されたダウンストリームモデルも、広範な転送学習プロセスの後にもバックドアを継承する。 我々はさらに、最先端の防御をバイパスする単純かつ効果的な戦略をデザインする。 実験結果から,本手法は幅広い下流NLPタスクを効果的かつステルスな方法で妥協できることが示された。

Pre-trained Natural Language Processing (NLP) models can be easily adapted to a variety of downstream language tasks. This significantly accelerates the development of language models. However, NLP models have been shown to be vulnerable to backdoor attacks, where a pre-defined trigger word in the input text causes model misprediction. Previous NLP backdoor attacks mainly focus on some specific tasks. This makes those attacks less general and applicable to other kinds of NLP models and tasks. In this work, we propose \Name, the first task-agnostic backdoor attack against the pre-trained NLP models. The key feature of our attack is that the adversary does not need prior information about the downstream tasks when implanting the backdoor to the pre-trained model. When this malicious model is released, any downstream models transferred from it will also inherit the backdoor, even after the extensive transfer learning process. We further design a simple yet effective strategy to bypass a state-of-the-art defense. Experimental results indicate that our approach can compromise a wide range of downstream NLP tasks in an effective and stealthy way.
翻訳日:2021-10-07 14:44:16 公開日:2021-10-06
# 意味的トポロジーにおけるオブジェクト

Objects in Semantic Topology ( http://arxiv.org/abs/2110.02687v1 )

ライセンス: Link先を確認
Shuo Yang, Peize Sun, Yi Jiang, Xiaobo Xia, Ruiheng Zhang, Zehuan Yuan, Changhu Wang, Ping Luo, Min Xu(参考訳) より現実的なオブジェクト検出パラダイムであるOpen-World Object Detectionが最近、コミュニティにおける研究の関心が高まっている。 認定されたオープンワールドオブジェクト検出器は、既知のカテゴリのオブジェクトを識別できるだけでなく、未知のオブジェクトも発見できる。 以前の作業では、未知のカテゴリを認識し、それぞれインクリメンタルな学習を行うために、独立したモジュールに依存している。 本稿では,セマンティックトポロジーという統一的な視点を提供する。 オープンワールドオブジェクト検出器の生涯学習において、同じカテゴリのすべてのオブジェクトインスタンスは、 'unknown' カテゴリを含む、セマンティックトポロジーの対応する事前定義されたノードに割り当てられる。 この制約は、オブジェクト間の識別的特徴表現と一貫した関係を構築し、既知のカテゴリから未知のオブジェクトを識別すると同時に、新しいカテゴリを段階的に学習する場合に既知のオブジェクトの学習特徴をばらばらにすることができる。 広範な実験により、無作為生成または訓練された言語モデルから派生した意味論的トポロジーは、現在の最先端のオープンワールドオブジェクト検出器よりも大きなマージン、例えば絶対的なオープンセットエラーを7832から2546に減らし、オープンワールドオブジェクト検出における意味的トポロジーの本質的な優位性を示すことが示されている。

A more realistic object detection paradigm, Open-World Object Detection, has arisen increasing research interests in the community recently. A qualified open-world object detector can not only identify objects of known categories, but also discover unknown objects, and incrementally learn to categorize them when their annotations progressively arrive. Previous works rely on independent modules to recognize unknown categories and perform incremental learning, respectively. In this paper, we provide a unified perspective: Semantic Topology. During the life-long learning of an open-world object detector, all object instances from the same category are assigned to their corresponding pre-defined node in the semantic topology, including the `unknown' category. This constraint builds up discriminative feature representations and consistent relationships among objects, thus enabling the detector to distinguish unknown objects out of the known categories, as well as making learned features of known objects undistorted when learning new categories incrementally. Extensive experiments demonstrate that semantic topology, either randomly-generated or derived from a well-trained language model, could outperform the current state-of-the-art open-world object detectors by a large margin, e.g., the absolute open-set error is reduced from 7832 to 2546, exhibiting the inherent superiority of semantic topology on open-world object detection.
翻訳日:2021-10-07 14:44:00 公開日:2021-10-06
# sire-networks: interlaced multi-task learning によるスキップ接続と残余接続によるオブジェクトの分類保存

SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and Residual Connections for Structure Preserving Object Classification ( http://arxiv.org/abs/2110.02776v1 )

ライセンス: Link先を確認
Danilo Avola, Luigi Cinque, Alessio Fagioli, Gian Luca Foresti(参考訳) 既存のニューラルネットワークアーキテクチャの改善には、損失関数の操作、多様な学習戦略の利用、トレーニング時の勾配進化の活用、ネットワークハイパーパラメータの最適化、アーキテクチャの深度向上など、いくつかの設計上の選択が含まれる。 後者のアプローチは、ネットワークの表現能力を直接的に強化するので、単純な解決法である。 本稿では、この問題に対処する異なる手法から借用し、オブジェクト分類タスクにおける消滅勾配を低減するために、SIReの定義したインターレースマルチタスク学習戦略を導入する。 提案手法は、インターレースされたオートエンコーダによる入力画像構造の保存を強制することにより畳み込みニューラルネットワーク(cnn)を直接改善し、スキップと残差接続によりベースネットワークアーキテクチャをさらに洗練する。 提案手法を検証するため,単純なCNNと有名なネットワークの実装をSIRe戦略を通じて拡張し,CIFAR100データセット上で広範囲にテストする。

Improving existing neural network architectures can involve several design choices such as manipulating the loss functions, employing a diverse learning strategy, exploiting gradient evolution at training time, optimizing the network hyper-parameters, or increasing the architecture depth. The latter approach is a straightforward solution, since it directly enhances the representation capabilities of a network; however, the increased depth generally incurs in the well-known vanishing gradient problem. In this paper, borrowing from different methods addressing this issue, we introduce an interlaced multi-task learning strategy, defined SIRe, to reduce the vanishing gradient in relation to the object classification task. The presented methodology directly improves a convolutional neural network (CNN) by enforcing the input image structure preservation through interlaced auto-encoders, and further refines the base network architecture by means of skip and residual connections. To validate the presented methodology, a simple CNN and various implementations of famous networks are extended via the SIRe strategy and extensively tested on the CIFAR100 dataset; where the SIRe-extended architectures achieve significantly increased performances across all models, thus confirming the presented approach effectiveness.
翻訳日:2021-10-07 14:43:32 公開日:2021-10-06
# Bias-Varianceの観点からのオフポリティアクター批判の解説

Explaining Off-Policy Actor-Critic From A Bias-Variance Perspective ( http://arxiv.org/abs/2110.02421v1 )

ライセンス: Link先を確認
Ting-Han Fan, Peter J. Ramadge(参考訳) オフ・ポリティカル・アクタ-クリティックアルゴリズムは驚くべき実験性能を示しているが、より優れた説明が必要である。 この結果から, ベルマン誤差, 政策ミスマッチの偏り, サンプリングからの分散項に分解された遷移の分布に対する政策評価誤差を示す。 バイアスとばらつきの大きさを比較することで,最近の経験を強調するサンプリングと1/ageの重み付けサンプリングの成功を説明する。 いずれのサンプリング戦略もバイアスと分散が小さくなり、一様サンプリングに好適である。

Off-policy Actor-Critic algorithms have demonstrated phenomenal experimental performance but still require better explanations. To this end, we show its policy evaluation error on the distribution of transitions decomposes into: a Bellman error, a bias from policy mismatch, and a variance term from sampling. By comparing the magnitude of bias and variance, we explain the success of the Emphasizing Recent Experience sampling and 1/age weighted sampling. Both sampling strategies yield smaller bias and variance and are hence preferable to uniform sampling.
翻訳日:2021-10-07 14:42:40 公開日:2021-10-06
# リプレイ誘導型逆環境設計

Replay-Guided Adversarial Environment Design ( http://arxiv.org/abs/2110.02439v1 )

ライセンス: Link先を確認
Minqi Jiang, Michael Dennis, Jack Parker-Holder, Jakob Foerster, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 深層強化学習(Deep reinforcement Learning, RL)エージェントは、適切な多様な環境とタスク設定でトレーニングされた場合、新しい設定に適応することができる。 教師なし環境設計 (unsupervised environment design, ued) は有望な自己監督型rlパラダイムであり、エージェントの能力に対するトレーニング中に、未特定環境の自由パラメータが自動的に適応され、多様なトレーニング環境が出現する。 そこで我々は,UEDとしてランダムに生成したトレーニングレベルを選択的にサンプリングする,実験的に成功したが理論的には動機のない手法であるプライオリティライズド・レベル・リプレイ(PLR)をキャストした。 完全にランダムなレベルをキュレートすることで、plrも効果的なトレーニングのために新しく複雑なレベルを生成することができる、と主張する。 この知見は、私たちがDual Curriculum Design (DCD)と呼ぶUEDメソッドの自然なクラスを明らかにします。 重要なことに、DCDはPLRと一般的なUEDアルゴリズムであるPAIREDの両方を特別なケースとして含んでおり、同様の理論的保証を継承している。 この接続により、PLRの新たな理論が発展し、ナッシュ平衡において堅牢性を保証するバージョンが提供される。 さらに,本理論は,plrに対する極めて直観的な改善を示唆する。エージェントが未調達のレベル(少ないデータでトレーニングする)に対するポリシーを更新するのを止めることにより,nash平衡への収束性を向上させることができる。 実際、我々の実験では、新しい方法であるplr$^{\perp}$が、plr$^{\perp}$がペアリングの性能を改善し、その理論的な枠組みを継承していることを示すのに加えて、分散しないゼロショット転送タスクのスイートでより良い結果が得られることを確認しました。

Deep reinforcement learning (RL) agents may successfully generalize to new settings if trained on an appropriately diverse set of environment and task configurations. Unsupervised Environment Design (UED) is a promising self-supervised RL paradigm, wherein the free parameters of an underspecified environment are automatically adapted during training to the agent's capabilities, leading to the emergence of diverse training environments. Here, we cast Prioritized Level Replay (PLR), an empirically successful but theoretically unmotivated method that selectively samples randomly-generated training levels, as UED. We argue that by curating completely random levels, PLR, too, can generate novel and complex levels for effective training. This insight reveals a natural class of UED methods we call Dual Curriculum Design (DCD). Crucially, DCD includes both PLR and a popular UED algorithm, PAIRED, as special cases and inherits similar theoretical guarantees. This connection allows us to develop novel theory for PLR, providing a version with a robustness guarantee at Nash equilibria. Furthermore, our theory suggests a highly counterintuitive improvement to PLR: by stopping the agent from updating its policy on uncurated levels (training on less data), we can improve the convergence to Nash equilibria. Indeed, our experiments confirm that our new method, PLR$^{\perp}$, obtains better results on a suite of out-of-distribution, zero-shot transfer tasks, in addition to demonstrating that PLR$^{\perp}$ improves the performance of PAIRED, from which it inherited its theoretical framework.
翻訳日:2021-10-07 14:42:32 公開日:2021-10-06
# デュアルアスペクト協調変換器による経路問題の反復解法

Learning to Iteratively Solve Routing Problems with Dual-Aspect Collaborative Transformer ( http://arxiv.org/abs/2110.02544v1 )

ライセンス: Link先を確認
Yining Ma, Jingwen Li, Zhiguang Cao, Wen Song, Le Zhang, Zhenghua Chen, Jing Tang(参考訳) 近年,トランスフォーマーは車両ルーティング問題(VRP)の解法として広く普及している。 しかし、位置符号化(PE)法はVRPソリューションの表現に適さないため、VRPの改善モデルの学習にはあまり効果がない。 本稿では,ノードと位置特徴の埋め込みを個別に学習するDACT(Dual-Aspect Collaborative Transformer)を提案する。 さらに、新しいサイクリック位置符号化(cpe)法によって位置特徴を埋め込み、トランスフォーマーがvrp溶液(すなわちサイクリックシーケンス)の循環性と対称性を効果的に捉えることができる。 我々は、近似ポリシー最適化を用いてDACTを訓練し、より優れたサンプル効率のためのカリキュラム学習戦略を設計する。 本研究では,移動セールスマン問題 (TSP) と静電容量化車両ルーティング問題 (CVRP) の解決に DACT を適用した。 その結果、DACTは既存のTransformerベースの改善モデルよりも優れており、合成インスタンスとベンチマークインスタンスの異なる問題サイズで、より優れた一般化性能を示すことがわかった。

Recently, Transformer has become a prevailing deep architecture for solving vehicle routing problems (VRPs). However, it is less effective in learning improvement models for VRP because its positional encoding (PE) method is not suitable in representing VRP solutions. This paper presents a novel Dual-Aspect Collaborative Transformer (DACT) to learn embeddings for the node and positional features separately, instead of fusing them together as done in existing ones, so as to avoid potential noises and incompatible correlations. Moreover, the positional features are embedded through a novel cyclic positional encoding (CPE) method to allow Transformer to effectively capture the circularity and symmetry of VRP solutions (i.e., cyclic sequences). We train DACT using Proximal Policy Optimization and design a curriculum learning strategy for better sample efficiency. We apply DACT to solve the traveling salesman problem (TSP) and capacitated vehicle routing problem (CVRP). Results show that our DACT outperforms existing Transformer based improvement models, and exhibits much better generalization performance across different problem sizes on synthetic and benchmark instances, respectively.
翻訳日:2021-10-07 14:42:02 公開日:2021-10-06
# オーバーパラメトリゼーション状態における部分量子化ニューラルネットワークのVC次元

VC dimension of partially quantized neural networks in the overparametrized regime ( http://arxiv.org/abs/2110.02456v1 )

ライセンス: Link先を確認
Yutong Wang, Clayton D. Scott(参考訳) Vapnik-Chervonenkis( VC)理論は、過度にパラメータ化されたニューラルネットワークの小さな一般化誤差を説明することができなかった。 実際、VC理論の大規模ネットワークへの既存の応用は、重みの個数に比例するVC次元の上限を求めており、大規模なネットワークの場合、これらの上限は厳密であることが知られている。 本研究では,超平面配置ニューラルネットワーク (hyperplane arrangement neural networks, hanns) と呼ばれる,部分量子化ネットワークのクラスに注目した。 サンプル圧縮解析により, HANNは重み数よりもVC次元が有意に小さく, 表現性が高いことを示す。 特に、過パラメータ化状態におけるハン人に対する経験的リスク最小化は、リプシッツ後流確率による分類の最小化率を達成する。 さらに,HANNの表現性を実証的に示す。 121のuciデータセットのパネルでは、オーバーパラメータ化されたhannは最先端のフル精度モデルのパフォーマンスに匹敵する。

Vapnik-Chervonenkis (VC) theory has so far been unable to explain the small generalization error of overparametrized neural networks. Indeed, existing applications of VC theory to large networks obtain upper bounds on VC dimension that are proportional to the number of weights, and for a large class of networks, these upper bound are known to be tight. In this work, we focus on a class of partially quantized networks that we refer to as hyperplane arrangement neural networks (HANNs). Using a sample compression analysis, we show that HANNs can have VC dimension significantly smaller than the number of weights, while being highly expressive. In particular, empirical risk minimization over HANNs in the overparametrized regime achieves the minimax rate for classification with Lipschitz posterior class probability. We further demonstrate the expressivity of HANNs empirically. On a panel of 121 UCI datasets, overparametrized HANNs match the performance of state-of-the-art full-precision models.
翻訳日:2021-10-07 14:41:42 公開日:2021-10-06
# 特徴学習におけるコントラストの力 : 理論的分析

The Power of Contrast for Feature Learning: A Theoretical Analysis ( http://arxiv.org/abs/2110.02473v1 )

ライセンス: Link先を確認
Wenlong Ji, Zhun Deng, Ryumei Nakada, James Zou, Linjun Zhang(参考訳) コントラスト学習は、様々な自己教師付き学習タスクにおいて最先端のパフォーマンスを達成した。 経験的な成功にもかかわらず、なぜコントラスト学習が働くのかの理論的な理解はまだ限られている。 この論文では (i)従来の教師なし学習手法であるオートエンコーダは,特徴回復と下流作業の両方において,コントラスト学習が優れていることを示す。 (ii)教師付きコントラスト学習におけるラベル付きデータの役割についても述べる。 これにより、ラベルとの対比学習は、ドメイン内ダウンストリームタスクにおける学習表現のパフォーマンスを改善するが、転送学習のパフォーマンスに悪影響を及ぼすという最近の発見に対する理論的サポートを提供する。 我々は数値実験で理論を検証する。

Contrastive learning has achieved state-of-the-art performance in various self-supervised learning tasks and even outperforms its supervised counterpart. Despite its empirical success, theoretical understanding of why contrastive learning works is still limited. In this paper, (i) we provably show that contrastive learning outperforms autoencoder, a classical unsupervised learning method, for both feature recovery and downstream tasks; (ii) we also illustrate the role of labeled data in supervised contrastive learning. This provides theoretical support for recent findings that contrastive learning with labels improves the performance of learned representations in the in-domain downstream task, but it can harm the performance in transfer learning. We verify our theory with numerical experiments.
翻訳日:2021-10-07 14:41:28 公開日:2021-10-06
# グラフカーネルのための正規化Wassersteinフレームワーク

A Regularized Wasserstein Framework for Graph Kernels ( http://arxiv.org/abs/2110.02554v1 )

ライセンス: Link先を確認
Asiri Wijesinghe, Qing Wang, and Stephen Gould(参考訳) 本稿では,最適輸送の正規化に基づくグラフカーネルの学習フレームワークを提案する。 このフレームワークは、新しい最適輸送距離計量(Regularized Wasserstein (RW) 差分(英語版))を提供し、特徴とその局所的変動、局所的バリセンターおよびグローバル接続に関するワッサーシュタイン距離によるグラフの特徴と構造の両方を保存できる。 学習能力を向上させるために、2つの強い凸正規化項が導入される。 1つは、グラフ間の最適なアライメントを緩和し、それらの局所連結された頂点間のクラスタ間マッピングであり、グラフの局所的クラスタリング構造を維持することである。 もう1つは、グラフのグローバル構造をよりよく保存するためにノード次数分布を考慮することである。 また,最適化問題を高速に解くための効率的なアルゴリズムを考案した。 理論的には、このフレームワークはロバストであり、最適化における収束と数値安定性を保証できる。 我々は16の最先端ベースラインに対して12のデータセットを用いて実験的な検証を行った。 実験結果から,本手法は個々の属性を持つグラフと連続属性を持つグラフの両方に対して,すべてのベンチマークデータベース上で常に最先端の手法よりも優れていた。

We propose a learning framework for graph kernels, which is theoretically grounded on regularizing optimal transport. This framework provides a novel optimal transport distance metric, namely Regularized Wasserstein (RW) discrepancy, which can preserve both features and structure of graphs via Wasserstein distances on features and their local variations, local barycenters and global connectivity. Two strongly convex regularization terms are introduced to improve the learning ability. One is to relax an optimal alignment between graphs to be a cluster-to-cluster mapping between their locally connected vertices, thereby preserving the local clustering structure of graphs. The other is to take into account node degree distributions in order to better preserve the global structure of graphs. We also design an efficient algorithm to enable a fast approximation for solving the optimization problem. Theoretically, our framework is robust and can guarantee the convergence and numerical stability in optimization. We have empirically validated our method using 12 datasets against 16 state-of-the-art baselines. The experimental results show that our method consistently outperforms all state-of-the-art methods on all benchmark databases for both graphs with discrete attributes and graphs with continuous attributes.
翻訳日:2021-10-07 14:41:12 公開日:2021-10-06
# ラベルノイズモデリングと距離認識を用いたディープ分類器

Deep Classifiers with Label Noise Modeling and Distance Awareness ( http://arxiv.org/abs/2110.02609v1 )

ライセンス: Link先を確認
Vincent Fortuin, Mark Collier, Florian Wenzel, James Allingham, Jeremiah Liu, Dustin Tran, Balaji Lakshminarayanan, Jesse Berent, Rodolphe Jenatton, Effrosyni Kokiopoulou(参考訳) 深層学習における不確実性推定は、安全クリティカルなアプリケーションにおける信頼性と堅牢性を向上するための重要な関心領域として最近登場した。 分布外検出のための距離認識モデルの不確実性や、分布内キャリブレーションの入力依存ラベル不確実性に注目する手法が提案されているが、どちらの方法もしばしば必要である。 本研究では,モデルとデータの不確実性を共同でモデル化するHetSNGP法を提案する。 提案モデルでは,これら2つの相補的不確実性と,CIFAR-100C, Imagenet-C, Imagenet-Aなど,分散外分布データセットのベースライン手法に優れることを示す。 さらに,本手法のアンサンブルバージョンであるHetSNGP Ensembleを提案する。

Uncertainty estimation in deep learning has recently emerged as a crucial area of interest to advance reliability and robustness in safety-critical applications. While there have been many proposed methods that either focus on distance-aware model uncertainties for out-of-distribution detection or on input-dependent label uncertainties for in-distribution calibration, both of these types of uncertainty are often necessary. In this work, we propose the HetSNGP method for jointly modeling the model and data uncertainty. We show that our proposed model affords a favorable combination between these two complementary types of uncertainty and thus outperforms the baseline methods on some challenging out-of-distribution datasets, including CIFAR-100C, Imagenet-C, and Imagenet-A. Moreover, we propose HetSNGP Ensemble, an ensembled version of our method which adds an additional type of uncertainty and also outperforms other ensemble baselines.
翻訳日:2021-10-07 14:40:53 公開日:2021-10-06
# 帯域幅を有する確率帯域に対するチューニング信頼境界

Tuning Confidence Bound for Stochastic Bandits with Bandit Distance ( http://arxiv.org/abs/2110.02690v1 )

ライセンス: Link先を確認
Xinyu Zhang, Srinjoy Das, Ken Kreutz-Delgado(参考訳) 本稿では,確率的マルチアームバンディット(MAB)問題に対する標準アッパー信頼境界法(UCB)の新たな修正法を提案する。 UCB 距離チューニング (UCB-DT) の定式化により,MAB アルゴリズムが標準 UCB の欠如としてよく知られている最適帯域に注目することを防止することにより,期待される後悔度による性能の向上が可能となった。 標準のucbの「距離チューニング」は、我々がbandit distanceと呼ぶ、パラメータ化可能で、探索から搾取までの遷移速度を問題要件に基づいて制御するために最適化できる距離測定器を用いて行われる。 我々は,MAB問題に UCB の定式化を用いた既存手法と比較して, UCB-DT の性能向上を実証的に実証した。 我々の貢献には、探索と搾取の間のトレードオフに関する洞察を与える"exploration bargain point"と呼ばれる概念ツールの開発も含まれています。 探索バーゲンポイントは, UCB法の性能を相対的に解析するのに有用な直感的な視点を提供する。

We propose a novel modification of the standard upper confidence bound (UCB) method for the stochastic multi-armed bandit (MAB) problem which tunes the confidence bound of a given bandit based on its distance to others. Our UCB distance tuning (UCB-DT) formulation enables improved performance as measured by expected regret by preventing the MAB algorithm from focusing on non-optimal bandits which is a well-known deficiency of standard UCB. "Distance tuning" of the standard UCB is done using a proposed distance measure, which we call bandit distance, that is parameterizable and which therefore can be optimized to control the transition rate from exploration to exploitation based on problem requirements. We empirically demonstrate increased performance of UCB-DT versus many existing state-of-the-art methods which use the UCB formulation for the MAB problem. Our contribution also includes the development of a conceptual tool called the "Exploration Bargain Point" which gives insights into the tradeoffs between exploration and exploitation. We argue that the Exploration Bargain Point provides an intuitive perspective that is useful for comparatively analyzing the performance of UCB-based methods.
翻訳日:2021-10-07 14:40:34 公開日:2021-10-06
# 集約処理による回帰モデルにおける変数関数の推定

Variance function estimation in regression model via aggregation procedures ( http://arxiv.org/abs/2110.02715v1 )

ライセンス: Link先を確認
Ahmed Zaoui (LAMA)(参考訳) 回帰問題では,アグリゲーション法を用いて分散関数を推定する問題を考察する。 モデル選択アグリゲーション(ms)と凸アグリゲーション(c)という,2つの特定のアグリゲーション設定に注目した。 どちらの場合も、推定器の構築は2段階の手順に依存し、2つの独立したサンプルを必要とする。 最初のステップは、残差ベース法による分散関数の候補推定器を構築するために第1のサンプルを利用し、次に第2のデータセットを使用してアグリゲーションステップを実行する。 提案手法は,MSとCのアグリゲーションに対してL2エラーに対して整合性を示す。 この2つの手法の性能をヘテロシデスティックモデルで評価し,レジェクトオプションを用いた回帰問題に対する関心を示す。

In the regression problem, we consider the problem of estimating the variance function by the means of aggregation methods. We focus on two particular aggregation setting: Model Selection aggregation (MS) and Convex aggregation (C) where the goal is to select the best candidate and to build the best convex combination of candidates respectively among a collection of candidates. In both cases, the construction of the estimator relies on a two-step procedure and requires two independent samples. The first step exploits the first sample to build the candidate estimators for the variance function by the residual-based method and then the second dataset is used to perform the aggregation step. We show the consistency of the proposed method with respect to the L 2error both for MS and C aggregations. We evaluate the performance of these two methods in the heteroscedastic model and illustrate their interest in the regression problem with reject option.
翻訳日:2021-10-07 14:40:13 公開日:2021-10-06
# グラフに基づくネットワークのクラスタリングとテスト:アルゴリズムと理論

Graphon based Clustering and Testing of Networks: Algorithms and Theory ( http://arxiv.org/abs/2110.02722v1 )

ライセンス: Link先を確認
Mahalakshmi Sabanayagam, Leena Chennuru Vankadara, Debarghya Ghoshdastidar(参考訳) ネットワーク評価データはその複雑な構造と頂点対応の欠如により,幅広い応用に遭遇し,学習上の課題を提起する。 このような問題の典型例としては、タンパク質構造とソーシャルネットワークの分類やグループ化がある。 グラフカーネルからグラフニューラルネットワークまで、さまざまな手法が提案され、グラフ分類問題にある程度の成功を収めている。 しかし、ほとんどの手法は理論的な正当性が限られており、分類以外の適用性は未調査のままである。 本研究では,グラフの無限頂点極限に対応する対称関数であるグラフトンの推定に関する最近の文献から着想を得た,頂点対応のない複数グラフのクラスタリング手法を提案する。 グラフのソート・アンド・スムース化に基づく新しいグラフ距離を提案する。 提案するグラフ距離を用いて,2つのクラスタリングアルゴリズムを示し,最新の結果が得られることを示す。 グラフ次数上のリプシッツ仮定の下で、両方のアルゴリズムの統計的一貫性を証明する。 グラフ2サンプルテスト問題に対する提案した距離の適用性についても検討する。

Network-valued data are encountered in a wide range of applications and pose challenges in learning due to their complex structure and absence of vertex correspondence. Typical examples of such problems include classification or grouping of protein structures and social networks. Various methods, ranging from graph kernels to graph neural networks, have been proposed that achieve some success in graph classification problems. However, most methods have limited theoretical justification, and their applicability beyond classification remains unexplored. In this work, we propose methods for clustering multiple graphs, without vertex correspondence, that are inspired by the recent literature on estimating graphons -- symmetric functions corresponding to infinite vertex limit of graphs. We propose a novel graph distance based on sorting-and-smoothin g graphon estimators. Using the proposed graph distance, we present two clustering algorithms and show that they achieve state-of-the-art results. We prove the statistical consistency of both algorithms under Lipschitz assumptions on the graph degrees. We further study the applicability of the proposed distance for graph two-sample testing problems.
翻訳日:2021-10-07 14:39:56 公開日:2021-10-06
# リニアおよびReLUネットワークにおけるマージン最大化について

On Margin Maximization in Linear and ReLU Networks ( http://arxiv.org/abs/2110.02732v1 )

ライセンス: Link先を確認
Gal Vardi, Ohad Shamir, Nathan Srebro(参考訳) ニューラルネットワークの暗黙のバイアスは近年広く研究されている。 Lyu and Li [2019] は指数的あるいはロジスティックな損失で訓練された同質ネットワークにおいて、勾配流はパラメータ空間の最大辺問題のKKT点に収束することを示した。 しかし、この点が一般に最大マージン問題の実際の最適であるかどうかという疑問が残る。 本稿では,線形およびReLU活性化を含むニューラルネットワークアーキテクチャについて,この問題を詳細に検討する。 意外なことに、多くの場合、KKT点は最大マージン問題の局所的な最適値ではない。 逆に、ローカルまたはグローバルに最適な設定が保証できる複数の設定を識別します。 最後に,Lyu と Li [2019] で提起された質問に対して,非同次ネットワークの場合,正規化マージンは時間とともに厳密に減少することを示した。

The implicit bias of neural networks has been extensively studied in recent years. Lyu and Li [2019] showed that in homogeneous networks trained with the exponential or the logistic loss, gradient flow converges to a KKT point of the max margin problem in the parameter space. However, that leaves open the question of whether this point will generally be an actual optimum of the max margin problem. In this paper, we study this question in detail, for several neural network architectures involving linear and ReLU activations. Perhaps surprisingly, we show that in many cases, the KKT point is not even a local optimum of the max margin problem. On the flip side, we identify multiple settings where a local or global optimum can be guaranteed. Finally, we answer a question posed in Lyu and Li [2019] by showing that for non-homogeneous networks, the normalized margin may strictly decrease over time.
翻訳日:2021-10-07 14:39:42 公開日:2021-10-06
# 神経崩壊の非拘束層論的展望

An Unconstrained Layer-Peeled Perspective on Neural Collapse ( http://arxiv.org/abs/2110.02796v1 )

ライセンス: Link先を確認
Wenlong Ji, Yiping Lu, Yiliang Zhang, Zhun Deng, Weijie J. Su(参考訳) 神経崩壊(neural collapse)は、トレーニングの終盤に出現する高度に対称なニューラルネットワークの幾何学的パターンであり、トレーニングされたネットワークの一般化性能と堅牢性に大きな影響を与える。 本稿では、最近発見された暗黙のバイアスを示す最終層の特徴と分類器を理解するために、非拘束層ペアモデル(ULPM)と呼ばれる代理モデルを導入する。 このモデル上の勾配流は、大域的最小値において神経崩壊を示す最小ノルム分離問題の臨界点に収束する。 さらに, 交差エントロピー損失を持つULPMは, 損失関数の良質なグローバルな景観を有しており, 神経崩壊現象を示す大域最小化器を除いて, 全ての臨界点が厳密なサドル点であることを証明することができる。 実世界のタスクにおけるニューラルネットワークのトレーニングにおいて、明示的な正規化や重み劣化が使用されない場合にも、実験結果が有効であることを示す。

Neural collapse is a highly symmetric geometric pattern of neural networks that emerges during the terminal phase of training, with profound implications on the generalization performance and robustness of the trained networks. To understand how the last-layer features and classifiers exhibit this recently discovered implicit bias, in this paper, we introduce a surrogate model called the unconstrained layer-peeled model (ULPM). We prove that gradient flow on this model converges to critical points of a minimum-norm separation problem exhibiting neural collapse in its global minimizer. Moreover, we show that the ULPM with the cross-entropy loss has a benign global landscape for its loss function, which allows us to prove that all the critical points are strict saddle points except the global minimizers that exhibit the neural collapse phenomenon. Empirically, we show that our results also hold during the training of neural networks in real-world tasks when explicit regularization or weight decay is not used.
翻訳日:2021-10-07 14:39:27 公開日:2021-10-06
# 等価部分グラフ集約ネットワーク

Equivariant Subgraph Aggregation Networks ( http://arxiv.org/abs/2110.02910v1 )

ライセンス: Link先を確認
Beatrice Bevilacqua, Fabrizio Frasca, Derek Lim, Balasubramaniam Srinivasan, Chen Cai, Gopinath Balamurugan, Michael M. Bronstein, Haggai Maron(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフ構造化データの深層学習における主要なアーキテクチャである。 残念ながら、これらのアーキテクチャは表現力に制限があることが示されている。 本稿では,この問題に対処するためのEquivariant Subgraph Aggregation Networks (ESAN) という新しいフレームワークを提案する。 主な観察では、2つのグラフはMPNNでは区別できないかもしれないが、しばしば区別可能な部分グラフを含んでいる。 そこで,各グラフを,事前定義された方針によって導出される部分グラフの集合として表現し,適切な同変アーキテクチャを用いて処理することを提案する。 グラフ同型に対する1次元Weisfeiler-Leman (1-WL)テストの新しい変種を開発し、これらの新しいWL変種の観点からESANの表現性に関する下限を証明した。 提案手法はMPNNとより表現力のあるアーキテクチャの両方の表現力を高める。 さらに、サブグラフ選択ポリシーや同変ニューラルアーキテクチャといった設計選択がアーキテクチャの表現力にどのように影響するかを記述する理論的結果を提供する。 計算コストの増大に対応するため,本フレームワークの確率的バージョンとみなすサブグラフサンプリング方式を提案する。 実および合成データセットに関する包括的な実験により、我々のフレームワークは一般的なGNNアーキテクチャの表現力と全体的な性能を改善していることを示す。

Message-passing neural networks (MPNNs) are the leading architecture for deep learning on graph-structured data, in large part due to their simplicity and scalability. Unfortunately, it was shown that these architectures are limited in their expressive power. This paper proposes a novel framework called Equivariant Subgraph Aggregation Networks (ESAN) to address this issue. Our main observation is that while two graphs may not be distinguishable by an MPNN, they often contain distinguishable subgraphs. Thus, we propose to represent each graph as a set of subgraphs derived by some predefined policy, and to process it using a suitable equivariant architecture. We develop novel variants of the 1-dimensional Weisfeiler-Leman (1-WL) test for graph isomorphism, and prove lower bounds on the expressiveness of ESAN in terms of these new WL variants. We further prove that our approach increases the expressive power of both MPNNs and more expressive architectures. Moreover, we provide theoretical results that describe how design choices such as the subgraph selection policy and equivariant neural architecture affect our architecture's expressive power. To deal with the increased computational cost, we propose a subgraph sampling scheme, which can be viewed as a stochastic version of our framework. A comprehensive set of experiments on real and synthetic datasets demonstrates that our framework improves the expressive power and overall performance of popular GNN architectures.
翻訳日:2021-10-07 14:39:09 公開日:2021-10-06
# 探査の残留オーバーフィット法

Residual Overfit Method of Exploration ( http://arxiv.org/abs/2110.02919v1 )

ライセンス: Link先を確認
James McInerney, Nathan Kallus(参考訳) 探索は、バンディットと強化学習アルゴリズムの重要な側面である。 探索に必要な不確かさの定量化は、しばしば単純なモデルに基づく閉形式式か、計算集約的な後方近似によるものである。 代わりに,2点推定と1点調整と1点オーバーフィットのみに基づく近似探索手法を提案する。 この手法は、残留過適合探索法(ROME)と呼ばれ、過適合モデルが調整されたモデルと比較して最も過適合を示す行動に向けて探索を進める。 直感的には、オーバーフィッティングは、報酬の正確な予測を形成するのに不十分なデータを持つ行動や文脈において最も多く発生する。 我々はこの直観を、頻度主義とベイズ情報理論の両方の観点から正式に正当化する。 結果は、様々なモデルに一般化し、再サンプリングや後続近似の計算オーバーヘッドを回避する方法である。 ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。

Exploration is a crucial aspect of bandit and reinforcement learning algorithms. The uncertainty quantification necessary for exploration often comes from either closed-form expressions based on simple models or resampling and posterior approximations that are computationally intensive. We propose instead an approximate exploration methodology based on fitting only two point estimates, one tuned and one overfit. The approach, which we term the residual overfit method of exploration (ROME), drives exploration towards actions where the overfit model exhibits the most overfitting compared to the tuned model. The intuition is that overfitting occurs the most at actions and contexts with insufficient data to form accurate predictions of the reward. We justify this intuition formally from both a frequentist and a Bayesian information theoretic perspective. The result is a method that generalizes to a wide variety of models and avoids the computational overhead of resampling or posterior approximations. We compare ROME against a set of established contextual bandit methods on three datasets and find it to be one of the best performing.
翻訳日:2021-10-07 14:38:45 公開日:2021-10-06
# データツイニング

Data Twinning ( http://arxiv.org/abs/2110.02927v1 )

ライセンス: Link先を確認
Akhil Vakayil and V. Roshan Joseph(参考訳) 本研究では,データセットを統計的に類似した双対集合に分割するTwinningという手法を開発した。 Twinningは、データセットをトレーニングとテストセットに最適に分割する、最近提案されたモデルに依存しないSPlitに基づいている。 ツインニングはSPlitアルゴリズムよりも桁違いに高速で、データ圧縮などのビッグデータ問題に適用できる。 twinningは、分割と分割の手順と$k$-foldのクロス検証を支援するために、所定のデータセットの複数の分割を生成するためにも使用できる。

In this work, we develop a method named Twinning, for partitioning a dataset into statistically similar twin sets. Twinning is based on SPlit, a recently proposed model-independent method for optimally splitting a dataset into training and testing sets. Twinning is orders of magnitude faster than the SPlit algorithm, which makes it applicable to Big Data problems such as data compression. Twinning can also be used for generating multiple splits of a given dataset to aid divide-and-conquer procedures and $k$-fold cross validation.
翻訳日:2021-10-07 14:38:27 公開日:2021-10-06
# 不均衡視覚分類における影響均衡損失

Influence-Balanced Loss for Imbalanced Visual Classification ( http://arxiv.org/abs/2110.02444v1 )

ライセンス: Link先を確認
Seulki Park, Jongin Lim, Younghan Jeon, Jin Young Choi(参考訳) 本稿では,不均衡なデータ学習における問題に対処するためのバランストレーニング手法を提案する。 この目的のために,過度に適合した決定境界の原因となるサンプルの影響を軽減する,バランストレーニングフェーズで使用される新たな損失を導出する。 提案した損失は,任意の不均衡学習手法の性能を効率よく向上させる。 複数のベンチマークデータセットの実験において,提案手法の有効性を実証し,提案手法の損失が最先端のコスト感受性損失法より優れていることを示す。 さらに、我々の損失は特定のタスク、モデル、訓練方法に限定されていないため、クラス不均衡問題に対する他の最近の再サンプリング、メタラーニング、コスト感受性学習手法と組み合わせて容易に利用できる。

In this paper, we propose a balancing training method to address problems in imbalanced data learning. To this end, we derive a new loss used in the balancing training phase that alleviates the influence of samples that cause an overfitted decision boundary. The proposed loss efficiently improves the performance of any type of imbalance learning methods. In experiments on multiple benchmark data sets, we demonstrate the validity of our method and reveal that the proposed loss outperforms the state-of-the-art cost-sensitive loss methods. Furthermore, since our loss is not restricted to a specific task, model, or training method, it can be easily used in combination with other recent re-sampling, meta-learning, and cost-sensitive learning methods for class-imbalance problems.
翻訳日:2021-10-07 14:37:59 公開日:2021-10-06
# クロスドメインオブジェクト検出のためのデカップリング適応

Decoupled Adaptation for Cross-Domain Object Detection ( http://arxiv.org/abs/2110.02578v1 )

ライセンス: Link先を確認
Junguang Jiang, Baixu Chen, Jianmin Wang, Mingsheng Long(参考訳) 複数のオブジェクトが画像に存在し、各オブジェクトの位置がラベルなしのターゲットドメインで不明であるため、クロスドメインオブジェクト検出はオブジェクト分類よりも難しい。 その結果、検出器の移動性を高めるために異なる物体の特徴を適応させると、前景と背景の特徴は容易に混同され、検出器の識別性が損なわれる可能性がある。 さらに、以前の手法はカテゴリ適応にフォーカスしていたが、オブジェクト検出における他の重要な部分、すなわち境界ボックス回帰への適応を無視していた。 そこで本研究では,D-アダプティブ,すなわちデカップリング適応を提案し,対向適応と検出器の訓練を分離する。 さらに、バウンディングボックスアダプタを導入することで、オブジェクト検出における回帰領域適応の空白を埋める。 実験の結果、D-adaptは4つのクロスドメインオブジェクト検出タスクで最先端の結果を達成し、特にベンチマークデータセットであるClipart1kとComic2kで17%と21%の相対的な改善が得られた。

Cross-domain object detection is more challenging than object classification since multiple objects exist in an image and the location of each object is unknown in the unlabeled target domain. As a result, when we adapt features of different objects to enhance the transferability of the detector, the features of the foreground and the background are easy to be confused, which may hurt the discriminability of the detector. Besides, previous methods focused on category adaptation but ignored another important part for object detection, i.e., the adaptation on bounding box regression. To this end, we propose D-adapt, namely Decoupled Adaptation, to decouple the adversarial adaptation and the training of the detector. Besides, we fill the blank of regression domain adaptation in object detection by introducing a bounding box adaptor. Experiments show that D-adapt achieves state-of-the-art results on four cross-domain object detection tasks and yields 17% and 21% relative improvement on benchmark datasets Clipart1k and Comic2k in particular.
翻訳日:2021-10-07 14:37:47 公開日:2021-10-06
# FADNet++: 構成可能なネットワークによるリアルタイムかつ正確な分散推定

FADNet++: Real-Time and Accurate Disparity Estimation with Configurable Networks ( http://arxiv.org/abs/2110.02582v1 )

ライセンス: Link先を確認
Qiang Wang, Shaohuai Shi, Shizhen Zheng, Kaiyong Zhao, Xiaowen Chu(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンの分野で大きな成功を収めている。 差分推定問題は、従来の手作りの特徴に基づく手法よりもはるかに優れた予測精度を実現するDNNによって解決される傾向にある。 しかし、既存のDNNは効率的な計算能力とリッチな表現能力の両方をほとんど提供しないため、特にモバイルデバイスにおいて、リアルタイムおよび高品質なアプリケーションへのデプロイが困難になる。 そこで本研究では,FADNet++という分散度推定のための,効率的で正確かつ構成可能なディープネットワークを提案する。 FADNet++は、いくつかのリベラルなネットワーク設計とトレーニング技術を活用し、リアルタイムアプリケーションのための高速なモデル推論速度で精度を高めることができる。 さらに、精度と推論効率のバランスをとるために、モデルのさまざまなサイズを簡単に設定できる。 我々は、サーバからモバイルプラットフォームまで異なる6つのGPUデバイス間の合成および現実的なデータセットにおけるFADNet++の有効性を実証するための広範な実験を行った。 実験の結果,FADNet++とその変種は最先端の予測精度を達成し,既存の3Dモデルよりもはるかに高速に動作していることがわかった。 モバイルGPU上で毎秒15フレーム以上(FPS)実行するという制約により、FADNet++はSceneFlowデータセットの新たな最先端結果を達成する。

Deep neural networks (DNNs) have achieved great success in the area of computer vision. The disparity estimation problem tends to be addressed by DNNs which achieve much better prediction accuracy than traditional hand-crafted feature-based methods. However, the existing DNNs hardly serve both efficient computation and rich expression capability, which makes them difficult for deployment in real-time and high-quality applications, especially on mobile devices. To this end, we propose an efficient, accurate, and configurable deep network for disparity estimation named FADNet++. Leveraging several liberal network design and training techniques, FADNet++ can boost its accuracy with a fast model inference speed for real-time applications. Besides, it enables users to easily configure different sizes of models for balancing accuracy and inference efficiency. We conduct extensive experiments to demonstrate the effectiveness of FADNet++ on both synthetic and realistic datasets among six GPU devices varying from server to mobile platforms. Experimental results show that FADNet++ and its variants achieve state-of-the-art prediction accuracy, and run at a significant order of magnitude faster speed than existing 3D models. With the constraint of running at above 15 frames per second (FPS) on a mobile GPU, FADNet++ achieves a new state-of-the-art result for the SceneFlow dataset.
翻訳日:2021-10-07 14:37:28 公開日:2021-10-06
# 共通財に着目して:群分布ロバストネスの追跡

Focus on the Common Good: Group Distributional Robustness Follows ( http://arxiv.org/abs/2110.02619v1 )

ライセンス: Link先を確認
Vihari Piratla, Praneeth Netrapalli, Sunita Sarawagi(参考訳) グループアノテート学習データを用いた分類モデルの訓練の問題点を考察する。 最近の研究は、異なるグループに分散シフトがある場合、標準的経験的リスク最小化(ERM)目標を用いて訓練されたモデルが少数グループにおけるパフォーマンスの低下に悩まされ、グループ分布的に堅牢な最適化(Group-DRO)目標がより良い選択肢であることを示す。 本論文の出発点は,一部のベンチマークデータセットにおいて,グループDROはマイノリティグループにおいてERMよりも優れているが,ERMよりもはるかに悪いパフォーマンスを示すデータセットがいくつか存在する点である。 ドメインの一般化という密接な問題から着想を得た本論文は,様々なグループ間で共有される特徴の学習を明示的に奨励する,新しいシンプルなアルゴリズムを提案する。 提案アルゴリズムの背景にある重要な洞察は,グループDROが最悪の正規化損失を持つグループに焦点をあてる一方で,グループDROが達成した範囲を超えて,グループDROが共有/共通機能を学ぶことにつながる可能性があるということだ。 実験により,提案アルゴリズムは, 少数グループおよび全グループを対象とした標準ベンチマークにおいて, ERM や Group-DRO を含む同時代の強力なベースラインと比較して, より優れた性能が得られることを示す。 理論的には,提案アルゴリズムは降下法であり,滑らかな非凸関数の1次定常点を求める。

We consider the problem of training a classification model with group annotated training data. Recent work has established that, if there is distribution shift across different groups, models trained using the standard empirical risk minimization (ERM) objective suffer from poor performance on minority groups and that group distributionally robust optimization (Group-DRO) objective is a better alternative. The starting point of this paper is the observation that though Group-DRO performs better than ERM on minority groups for some benchmark datasets, there are several other datasets where it performs much worse than ERM. Inspired by ideas from the closely related problem of domain generalization, this paper proposes a new and simple algorithm that explicitly encourages learning of features that are shared across various groups. The key insight behind our proposed algorithm is that while Group-DRO focuses on groups with worst regularized loss, focusing instead, on groups that enable better performance even on other groups, could lead to learning of shared/common features, thereby enhancing minority performance beyond what is achieved by Group-DRO. Empirically, we show that our proposed algorithm matches or achieves better performance compared to strong contemporary baselines including ERM and Group-DRO on standard benchmarks on both minority groups and across all groups. Theoretically, we show that the proposed algorithm is a descent method and finds first order stationary points of smooth nonconvex functions.
翻訳日:2021-10-07 14:37:07 公開日:2021-10-06
# paradis:並列分散可能なスリム化可能なニューラルネットワーク

ParaDiS: Parallelly Distributable Slimmable Neural Networks ( http://arxiv.org/abs/2110.02724v1 )

ライセンス: Link先を確認
Alexey Ozerov, Anne Lambert, Suresh Kirthi Kumaraswamy(参考訳) いくつかの限られた電力デバイスが利用可能である場合、処理遅延と通信負荷を低減しつつ、これらのリソースの利益を得る最も効率的な方法の1つは、複数のニューラルネットワークで並行して実行し、処理の最後に結果を融合させることである。 しかしながら、このようなサブネットワークの組み合わせは、異なるモデルデプロイメントや同じデプロイメント内でも異なるデバイス(デバイスの数とその能力によって特徴付けられる)の特定の構成ごとに、特別にトレーニングされなければならない。 本研究では,様々なデバイス構成に並列に分割可能な並列分散スリムブルニューラルネットワーク(ParaDiS)を提案する。 1つのデバイスで即座にリソースに適応できるスリムなネットワークにインスパイアされたが、paradisネットワークは複数のマルチデバイス配布可能な構成またはそれらの間のパラメータを強く共有するスイッチで構成されている。 我々は,MobileNet v1 上の ParaDiS フレームワークと ImageNet 分類タスク上の ResNet-50 アーキテクチャを評価した。 パラディススイッチは個々のモデル、すなわち、個別に訓練された同じ構造の分散モデルと同等または優れた精度が得られることを示す。 さらに, 分散性のないネットワークと比較して, 分配可能なParaDiSスイッチの精度が低下しないか, 最悪の場合のみ最大で1%低下することを示す。

When several limited power devices are available, one of the most efficient ways to make profit of these resources, while reducing the processing latency and communication load, is to run in parallel several neural sub-networks and to fuse the result at the end of processing. However, such a combination of sub-networks must be trained specifically for each particular configuration of devices (characterized by number of devices and their capacities) which may vary over different model deployments and even within the same deployment. In this work we introduce parallelly distributable slimmable (ParaDiS) neural networks that are splittable in parallel among various device configurations without retraining. While inspired by slimmable networks allowing instant adaptation to resources on just one device, ParaDiS networks consist of several multi-device distributable configurations or switches that strongly share the parameters between them. We evaluate ParaDiS framework on MobileNet v1 and ResNet-50 architectures on ImageNet classification task. We show that ParaDiS switches achieve similar or better accuracy than the individual models, i.e., distributed models of the same structure trained individually. Moreover, we show that, as compared to universally slimmable networks that are not distributable, the accuracy of distributable ParaDiS switches either does not drop at all or drops by a maximum of 1 % only in the worst cases.
翻訳日:2021-10-07 14:36:42 公開日:2021-10-06
# カプセルネットワークをクラウドからディープエッジに移行する

Shifting Capsule Networks from the Cloud to the Deep Edge ( http://arxiv.org/abs/2110.02911v1 )

ライセンス: Link先を確認
Miguel Costa, Diogo Costa, Tiago Gomes, Sandro Pinto(参考訳) カプセルネットワーク(capsnets)は画像処理の新たなトレンドである。 畳み込みニューラルネットワークとは対照的に、CapsNetはオブジェクトの相対空間情報がネットワーク全体に保存されるため、オブジェクトの変形に対して脆弱ではない。 しかし、その複雑さは主にカプセル構造と動的ルーティング機構に関係しており、小さなマイクロコントローラ(MCU)を動力とするリソース制約されたデバイスにCapsNetを元の形式で展開することはほとんど不可能である。 知性がクラウドからエッジへと急速にシフトしている今、この高い複雑性は、最先端のcapsnetsの採用に深刻な課題を課している。 この問題に対処するため,Cortex-MおよびRISC-V MCUにおける量子化CapsNetの実行APIを提案する。 ソフトウェアカーネルはArm CMSIS-NNとRISC-V PULP-NNを拡張し、8ビット整数をオペランドとしてカプセル操作をサポートする。 また,CapsNetのポストトレーニング量子化を行うためのフレームワークを提案する。 その結果、メモリフットプリントは75%近く減少し、最大精度の損失は1%であった。 スループットに関しては、Arm Cortex-M用のソフトウェアカーネルは、NVIDIA GTX 980 Tiグラフィックカード上で動作するプリ量子化CapsNetよりも少なくとも5.70倍高速です。 risc-vでは、全利得はそれぞれ26.28xと56.91xに増大する。

Capsule networks (CapsNets) are an emerging trend in image processing. In contrast to a convolutional neural network, CapsNets are not vulnerable to object deformation, as the relative spatial information of the objects is preserved across the network. However, their complexity is mainly related with the capsule structure and the dynamic routing mechanism, which makes it almost unreasonable to deploy a CapsNet, in its original form, in a resource-constrained device powered by a small microcontroller (MCU). In an era where intelligence is rapidly shifting from the cloud to the edge, this high complexity imposes serious challenges to the adoption of CapsNets at the very edge. To tackle this issue, we present an API for the execution of quantized CapsNets in Cortex-M and RISC-V MCUs. Our software kernels extend the Arm CMSIS-NN and RISC-V PULP-NN, to support capsule operations with 8-bit integers as operands. Along with it, we propose a framework to perform post training quantization of a CapsNet. Results show a reduction in memory footprint of almost 75%, with a maximum accuracy loss of 1%. In terms of throughput, our software kernels for the Arm Cortex-M are, at least, 5.70x faster than a pre-quantized CapsNet running on an NVIDIA GTX 980 Ti graphics card. For RISC-V, the throughout gain increases to 26.28x and 56.91x for a single- and octa-core configuration, respectively.
翻訳日:2021-10-07 14:36:19 公開日:2021-10-06
# エキスパート・レイマンテキストスタイル転送のための自己教師付き知識同化

Self-Supervised Knowledge Assimilation for Expert-Layman Text Style Transfer ( http://arxiv.org/abs/2110.02950v1 )

ライセンス: Link先を確認
Wenda Xu, Michael Saxon, Misha Sra, William Yang Wang(参考訳) エキスパートラマンテキストスタイル転送技術は、科学コミュニティのメンバーと一般大衆とのコミュニケーションを改善する可能性がある。 専門家が生み出す高品質な情報は、しばしば難解なジャーゴンの在職者が理解に苦しむ。 これは医療分野において特に顕著な問題であり、レイマンはしばしばオンラインの医療テキストに混同される。 現在、2つのボトルネックが、高品質な医療専門家-レーマンスタイルのトランスファーシステムを構築するという目標に妨げられている: 専門家とレイマンの用語にまたがる事前訓練済みの医療ドメイン言語モデルと、トランスファータスク自体をトレーニングするための並列コーパスの欠如である。 第1の課題を軽減すべく,知識ベース同化という新しい言語モデル(lm)を考案し,自己教師付き学習中に,専門家・在職者型の医療用語のグラフの縁から事前学習データをlmに合成する。 第2の課題を緩和するために,マージンに基づく基準を用いて医用エキスパート・レイマン領域に大規模並列コーパスを構築する。 実験の結果,トランスフォーマーをベースとしたモデルが知識ベース同化やその他の並列コーパスを微調整することで,専門家・レイマン移動ベンチマークに対する大幅な改善が得られ,人間評価の相対的改善である総合成功率(OSR)が106%向上した。

Expert-layman text style transfer technologies have the potential to improve communication between members of scientific communities and the general public. High-quality information produced by experts is often filled with difficult jargon laypeople struggle to understand. This is a particularly notable issue in the medical domain, where layman are often confused by medical text online. At present, two bottlenecks interfere with the goal of building high-quality medical expert-layman style transfer systems: a dearth of pretrained medical-domain language models spanning both expert and layman terminologies and a lack of parallel corpora for training the transfer task itself. To mitigate the first issue, we propose a novel language model (LM) pretraining task, Knowledge Base Assimilation, to synthesize pretraining data from the edges of a graph of expert- and layman-style medical terminology terms into an LM during self-supervised learning. To mitigate the second issue, we build a large-scale parallel corpus in the medical expert-layman domain using a margin-based criterion. Our experiments show that transformer-based models pretrained on knowledge base assimilation and other well-established pretraining tasks fine-tuning on our new parallel corpus leads to considerable improvement against expert-layman transfer benchmarks, gaining an average relative improvement of our human evaluation, the Overall Success Rate (OSR), by 106%.
翻訳日:2021-10-07 14:35:38 公開日:2021-10-06
# T-SNEはデータのクラスタの探索に最適化されていない

T-SNE Is Not Optimized to Reveal Clusters in Data ( http://arxiv.org/abs/2110.02573v1 )

ライセンス: Link先を確認
Zhirong Yang, Yuwei Chen, Jukka Corander(参考訳) データ解析ツールとしての非線形次元低減には,クラスタ可視化が不可欠である。 学生 t-Distributed Stochastic Neighbor Embedding (t-SNE) は、より優れた品質に対応するより小さなKullback-Leiblerの分散によって、クラスタをクラスタ可能なデータに表示できるとよく信じられている。 この性質の保証には理論的な証拠さえあった。 しかし、t-sneはデータに強い信号が存在するにもかかわらず、クラスタリングパターンを隠している可能性がある。 我々の主張を支持する大規模な実証証拠が提供される。 まず、実世界の反例をいくつか提示し、入力近傍が十分にクラスタリング可能である場合でもt-SNEは失敗する。 t-SNEでのハイパーパラメータのチューニングや最適化アルゴリズムの改善は、より優れたt-SNE学習目標がより悪いクラスタ埋め込みに対応できるため、この問題を解決できない。 次に,t-sneのクラスタリング保証の仮定を確認し,実世界のデータセットにしばしば違反していることを確認した。

Cluster visualization is an essential task for nonlinear dimensionality reduction as a data analysis tool. It is often believed that Student t-Distributed Stochastic Neighbor Embedding (t-SNE) can show clusters for well clusterable data, with a smaller Kullback-Leibler divergence corresponding to a better quality. There was even theoretical proof for the guarantee of this property. However, we point out that this is not necessarily the case -- t-SNE may leave clustering patterns hidden despite strong signals present in the data. Extensive empirical evidence is provided to support our claim. First, several real-world counter-examples are presented, where t-SNE fails even if the input neighborhoods are well clusterable. Tuning hyperparameters in t-SNE or using better optimization algorithms does not help solve this issue because a better t-SNE learning objective can correspond to a worse cluster embedding. Second, we check the assumptions in the clustering guarantee of t-SNE and find they are often violated for real-world data sets.
翻訳日:2021-10-07 14:33:25 公開日:2021-10-06
# グラフニューラルネットワークに対する推論攻撃

Inference Attacks Against Graph Neural Networks ( http://arxiv.org/abs/2110.02631v1 )

ライセンス: Link先を確認
Zhikun Zhang and Min Chen and Michael Backes and Yun Shen and Yang Zhang(参考訳) グラフは、現実世界に存在する重要なデータ表現である。 しかし,グラフデータの解析は非ユークリッド的な性質から計算が困難である。 グラフ埋め込みはグラフデータを低次元ベクトルに変換することによってグラフ解析問題を解決する強力なツールである。 これらのベクトルはサードパーティと共有して、データの背後にあるものに関するさらなる洞察を得ることもできる。 グラフ埋め込みの共有は興味深いが、関連するプライバシーリスクは未調査だ。 本稿では,3つの推論攻撃を組み込むことで,グラフ埋め込みの情報漏洩を体系的に検討する。 まず,対象グラフのノード数,エッジ数,グラフ密度などの基本的なグラフ特性を最大 0.89 の精度で推定することに成功した。 第二に、興味グラフとグラフの埋め込みが与えられた場合、そのグラフが対象グラフに含まれるかどうかを高い信頼で決定できる。 例えば、DDデータセット上で0.98の攻撃AUCを達成する。 第3に,ターゲットグラフと類似のグラフ構造統計量を持つグラフを再構成できる新しいグラフ再構成攻撃を提案する。 さらに,グラフ分類タスクの性能劣化を伴わない推論攻撃を軽減するために,グラフ埋め込み摂動に基づく効果的な防御機構を提案する。 私たちのコードはhttps://github.com/Z hangzhk0819/GNN-Embe dding-Leaksで公開されています。

Graph is an important data representation ubiquitously existing in the real world. However, analyzing the graph data is computationally difficult due to its non-Euclidean nature. Graph embedding is a powerful tool to solve the graph analytics problem by transforming the graph data into low-dimensional vectors. These vectors could also be shared with third parties to gain additional insights of what is behind the data. While sharing graph embedding is intriguing, the associated privacy risks are unexplored. In this paper, we systematically investigate the information leakage of the graph embedding by mounting three inference attacks. First, we can successfully infer basic graph properties, such as the number of nodes, the number of edges, and graph density, of the target graph with up to 0.89 accuracy. Second, given a subgraph of interest and the graph embedding, we can determine with high confidence that whether the subgraph is contained in the target graph. For instance, we achieve 0.98 attack AUC on the DD dataset. Third, we propose a novel graph reconstruction attack that can reconstruct a graph that has similar graph structural statistics to the target graph. We further propose an effective defense mechanism based on graph embedding perturbation to mitigate the inference attacks without noticeable performance degradation for graph classification tasks. Our code is available at https://github.com/Z hangzhk0819/GNN-Embe dding-Leaks.
翻訳日:2021-10-07 14:33:06 公開日:2021-10-06
# 歩行集約型グラフニューラルネットワークの解析

An Analysis of Attentive Walk-Aggregating Graph Neural Networks ( http://arxiv.org/abs/2110.02667v1 )

ライセンス: Link先を確認
Mehmet F. Demirel, Shengchao Liu, Siddhant Garg, Yingyu Liang(参考訳) グラフニューラルネットワーク(GNN)は、強力な表現力を持つことが示されており、分子やソーシャルネットワークなどのグラフ構造化データに対する下流予測タスクに利用することができる。 彼らは通常、個々の頂点のKホップ近傍やグラフ内の列挙されたウォークから情報を集約することで表現を学ぶ。 従来の研究では、重み付け方式をGNNに組み込むことの有効性が示されているが、これは主にKホップ地区GNNに限られている。 本稿では,歩行集約型GNNに重み付け方式を取り入れた効果を広く分析することを目的とする。 本研究の目的は,グラフレベルの予測タスクをエンドツーエンドに教師付き学習する手法を得るために,注目スキームを用いてグラフ内のウォークに関する情報を集約する新しいGNNモデルAWAREを提案することである。 我々はAWAREの理論的、経験的、解釈可能性の分析を行う。 我々の理論解析は,重み付きgnnに対する最初の証明可能な保証を提供し,グラフ情報が表現にどのようにエンコードされるか,重み付けスキームが表現と学習性能にどのように影響するかを示す。 分子特性予測(61タスク)とソーシャルネットワーク(4タスク)の領域において,AWAREが先行ベースラインよりも優れていることを実証的に示す。 本研究は,認識が入力グラフの重要な部分構造をうまく捉えることができることを示す。

Graph neural networks (GNNs) have been shown to possess strong representation power, which can be exploited for downstream prediction tasks on graph-structured data, such as molecules and social networks. They typically learn representations by aggregating information from the K-hop neighborhood of individual vertices or from the enumerated walks in the graph. Prior studies have demonstrated the effectiveness of incorporating weighting schemes into GNNs; however, this has been primarily limited to K-hop neighborhood GNNs so far. In this paper, we aim to extensively analyze the effect of incorporating weighting schemes into walk-aggregating GNNs. Towards this objective, we propose a novel GNN model, called AWARE, that aggregates information about the walks in the graph using attention schemes in a principled way to obtain an end-to-end supervised learning method for graph-level prediction tasks. We perform theoretical, empirical, and interpretability analyses of AWARE. Our theoretical analysis provides the first provable guarantees for weighted GNNs, demonstrating how the graph information is encoded in the representation, and how the weighting schemes in AWARE affect the representation and learning performance. We empirically demonstrate the superiority of AWARE over prior baselines in the domains of molecular property prediction (61 tasks) and social networks (4 tasks). Our interpretation study illustrates that AWARE can successfully learn to capture the important substructures of the input graph.
翻訳日:2021-10-07 14:32:49 公開日:2021-10-06
# 画像から画像への変換GANを無防備にする「Attack as the Best Defense」

Attack as the Best Defense: Nullifying Image-to-image Translation GANs via Limit-aware Adversarial Attack ( http://arxiv.org/abs/2110.02516v1 )

ライセンス: Link先を確認
Chin-Yuan Yeh, Hsi-Wen Chen, Hong-Han Shuai, De-Nian Yang, Ming-Syan Chen(参考訳) 高品質なイメージ・ツー・イメージ(Img2Img)翻訳が成功し、GANはDeepFakeとDeepNudeの非倫理的応用をもたらす。 img2imgの誤用は社会にとって難しい問題である。 本研究では,LaS-GSA(Limit-Aware Self-Guiding Gradient Sliding Attack)を提案する。 LaS-GSAはブラックボックス設定でimg2img翻訳プロセスをキャンセルするためにNullifying Attackに従っている。 言い換えれば、提案したLaS-GSAで入力画像を処理することで、ターゲットのimg2img GANを無効にすることができ、モデルが画像の悪意ある操作を防止することができる。 効率を向上させるために, 逆数制限に固執する勾配, すなわち, 逆数例の画素値制限を推定するために, 限界対応のランダム勾配フリー推定と勾配すべり機構を導入する。 理論的正当化は、上記の手法が方向と歩数の両方の対角限界に起因する非効率性をどのように防ぐかを検証する。 また、脅威モデルと目標画像とのみから効果的な自己誘導優先を抽出し、先行情報を効率的に活用し、勾配推定プロセスを導く。 広範な実験により、las-gsaは4つの最先端ブラックボックスメソッドよりも高い成功率で画像翻訳プロセスを無効化するためにクエリを少なくできることを示した。

With the successful creation of high-quality image-to-image (Img2Img) translation GANs comes the non-ethical applications of DeepFake and DeepNude. Such misuses of img2img techniques present a challenging problem for society. In this work, we tackle the problem by introducing the Limit-Aware Self-Guiding Gradient Sliding Attack (LaS-GSA). LaS-GSA follows the Nullifying Attack to cancel the img2img translation process under a black-box setting. In other words, by processing input images with the proposed LaS-GSA before publishing, any targeted img2img GANs can be nullified, preventing the model from maliciously manipulating the images. To improve efficiency, we introduce the limit-aware random gradient-free estimation and the gradient sliding mechanism to estimate the gradient that adheres to the adversarial limit, i.e., the pixel value limitations of the adversarial example. Theoretical justifications validate how the above techniques prevent inefficiency caused by the adversarial limit in both the direction and the step length. Furthermore, an effective self-guiding prior is extracted solely from the threat model and the target image to efficiently leverage the prior information and guide the gradient estimation process. Extensive experiments demonstrate that LaS-GSA requires fewer queries to nullify the image translation process with higher success rates than 4 state-of-the-art black-box methods.
翻訳日:2021-10-07 14:31:48 公開日:2021-10-06
# 拡散型画像処理のためのスパースマスクの学習

Learning Sparse Masks for Diffusion-based Image Inpainting ( http://arxiv.org/abs/2110.02636v1 )

ライセンス: Link先を確認
Tobias Alt, Pascal Peter, Joachim Weickert(参考訳) 拡散ベースの塗布はスパースデータから画像の再構成に強力なツールである。 その品質は既知のデータの選択に大きく依存する。 空間的位置(塗装マスク)の最適化は困難だ。 このタスクの一般的なツールは確率的最適化戦略である。 しかし、複数の塗装結果を計算すると遅くなる。 我々は,学習したマスク生成モデルの観点から治療を行う。 マスク生成とニューラル・サロゲート・インペイントのための2つのネットワークで完全なインペイントパイプラインをエミュレートすることにより、高効率な適応マスク生成のモデルを得る。 実験により,我々のモデルは最大4桁の加速度で競争品質を達成できることが示された。 本研究は,高速エンコーディングが望ましい画像圧縮などの各種アプリケーションにおいて,拡散に基づくインペインティングをより魅力的なものにするための基礎となる。

Diffusion-based inpainting is a powerful tool for the reconstruction of images from sparse data. Its quality strongly depends on the choice of known data. Optimising their spatial location -- the inpainting mask -- is challenging. A commonly used tool for this task are stochastic optimisation strategies. However, they are slow as they compute multiple inpainting results. We provide a remedy in terms of a learned mask generation model. By emulating the complete inpainting pipeline with two networks for mask generation and neural surrogate inpainting, we obtain a model for highly efficient adaptive mask generation. Experiments indicate that our model can achieve competitive quality with an acceleration by as much as four orders of magnitude. Our findings serve as a basis for making diffusion-based inpainting more attractive for various applications such as image compression, where fast encoding is highly desirable.
翻訳日:2021-10-07 14:31:23 公開日:2021-10-06
# S-Extension Patch: オブジェクト検出モデルを拡張するシンプルで効率的な方法

S-Extension Patch: A simple and efficient way to extend an object detection model ( http://arxiv.org/abs/2110.02670v1 )

ライセンス: Link先を確認
Dishant Parikh(参考訳) 畳み込み型ネットワークベースのシステムを構築する一方で、ネットワークのトレーニングに要する料金は無視できないものです。 既存のモデルに追加機能を追加する必要がある場合、すぐに再トレーニング技術に注意が向けられます。 本稿では,データセットに関する知識を活用し,クラスを高速に付加し,推論の速度と精度を維持しながら,必要な時間とデータの量を削減する方法を示す。 既存のオブジェクト検出モデルのクラスを他の既存のメソッドと比較して1/10の時間で拡張することができる。 S-Extension パッチはより高速なトレーニングを提供するだけでなく、類似性のしきい値を満たすため、既存のシステムに付加できるため、スピードと適応の容易さも提供する。

While building convolutional network-based systems, the toll it takes to train the network is something that cannot be ignored. In cases where we need to append additional capabilities to the existing model, the attention immediately goes towards retraining techniques. In this paper, I show how to leverage knowledge about the dataset to append the class faster while maintaining the speed of inference as well as the accuracies; while reducing the amount of time and data required. The method can extend a class in the existing object detection model in 1/10th of the time compared to the other existing methods. S-Extension patch not only offers faster training but also speed and ease of adaptation, as it can be appended to any existing system, given it fulfills the similarity threshold condition.
翻訳日:2021-10-07 14:31:12 公開日:2021-10-06
# 視覚トランスフォーマーとmlpミキサーとcnnの逆ロバスト性の比較

Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs ( http://arxiv.org/abs/2110.02797v1 )

ライセンス: Link先を確認
Philipp Benz, Soomin Ham, Chaoning Zhang, Adil Karjauv, In So Kweon(参考訳) 畳み込みニューラルネットワーク(CNN)はここ数年、コンピュータビジョンアプリケーションにおいて事実上の標準となっている。 しかし、近年、現状に挑戦する新しいモデルアーキテクチャが提案されている。 Vision Transformer (ViT) は注意モジュールのみに依存し、MLP-Mixer アーキテクチャは自己注意モジュールをMulti-Layer Perceptrons (MLP) で置き換える。 彼らの大きな成功にもかかわらず、CNNは敵の攻撃に弱いことが広く知られており、セキュリティに敏感なアプリケーションに対する深刻な懸念を引き起こしている。 したがって、新しく提案されたvitとmlp-mixerが敵の攻撃に対して脆弱であるかどうかをコミュニティが知ることが重要である。 この目的のために,複数の攻撃装置による敵の強靭性を実証的に評価し,広く使用されているCNNと比較した。 全体として、2つのアーキテクチャ、特にViTは、CNNモデルよりも堅牢である。 おもちゃの例を用いて、cnnの逆ロバスト性がシフト不変性によって部分的に引き起こされるという実証的な証拠を与える。 我々の周波数分析によると、最もロバストなViTアーキテクチャはCNNに比べて低周波機能に依存しやすい。 さらに,MLP-Mixerは普遍的逆境摂動に対して極めて脆弱であることが明らかとなった。

Convolutional Neural Networks (CNNs) have become the de facto gold standard in computer vision applications in the past years. Recently, however, new model architectures have been proposed challenging the status quo. The Vision Transformer (ViT) relies solely on attention modules, while the MLP-Mixer architecture substitutes the self-attention modules with Multi-Layer Perceptrons (MLPs). Despite their great success, CNNs have been widely known to be vulnerable to adversarial attacks, causing serious concerns for security-sensitive applications. Thus, it is critical for the community to know whether the newly proposed ViT and MLP-Mixer are also vulnerable to adversarial attacks. To this end, we empirically evaluate their adversarial robustness under several adversarial attack setups and benchmark them against the widely used CNNs. Overall, we find that the two architectures, especially ViT, are more robust than their CNN models. Using a toy example, we also provide empirical evidence that the lower adversarial robustness of CNNs can be partially attributed to their shift-invariant property. Our frequency analysis suggests that the most robust ViT architectures tend to rely more on low-frequency features compared with CNNs. Additionally, we have an intriguing finding that MLP-Mixer is extremely vulnerable to universal adversarial perturbations.
翻訳日:2021-10-07 14:30:59 公開日:2021-10-06
# 高速かつ高精度なリカレントニューラルネットワークのためのスパイクインスパイアされたランク符号化

Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural Networks ( http://arxiv.org/abs/2110.02865v1 )

ライセンス: Link先を確認
Alan Jeffares, Qinghai Guo, Pontus Stenetorp, Timoleon Moraitis(参考訳) 生物学的スパイクニューラルネットワーク(SNN)は、ニューロンが発火するランク順など、出力中の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。 その結果、ニューロモルフィックコンピューティングのためのSNNのモデルは、時間入力を扱う場合、ANNよりも高速で効率的であると考えられる。 一方、ANNは訓練が簡単で、通常は優れたパフォーマンスを実現する。 ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。 ANNのためのRCでは、標準的な実値のアクティベーションを使用して時間経過とともにバックプロパゲーションを適用するが、しきい値交差イベントによって決定される各逐次入力例の戦略的早期段階からのみ適用する。 学習は、モデルやアルゴリズムに他の変更を加えることなく、自然に_when_を組み込んで出力を生成する。 第1イベント後、残りの入力シーケンスをスキップすることで、前方及び後方トレーニングパスを著しく短縮することができる。 RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。 所望の速度精度トレードオフは、出力エントロピーに報酬を与える閾値または正規化パラメータを変化させることで調整可能である。 これらを2つのトイ問題であるシーケンス分類と,最初の入力時間ステップの後にrcモデルが99.19%の精度を達成する時間エンコードmnistデータセットで実証し,snsによる時間符号化における技術水準を上回り,google音声コマンドの音声単語分類において,lstmsを用いた非rc学習初期推論を上回った。

Biological spiking neural networks (SNNs) can temporally encode information in their outputs, e.g. in the rank order in which neurons fire, whereas artificial neural networks (ANNs) conventionally do not. As a result, models of SNNs for neuromorphic computing are regarded as potentially more rapid and efficient than ANNs when dealing with temporal input. On the other hand, ANNs are simpler to train, and usually achieve superior performance. Here we show that temporal coding such as rank coding (RC) inspired by SNNs can also be applied to conventional ANNs such as LSTMs, and leads to computational savings and speedups. In our RC for ANNs, we apply backpropagation through time using the standard real-valued activations, but only from a strategically early time step of each sequential input example, decided by a threshold-crossing event. Learning then incorporates naturally also _when_ to produce an output, without other changes to the model or the algorithm. Both the forward and the backward training pass can be significantly shortened by skipping the remaining input sequence after that first event. RC-training also significantly reduces time-to-insight during inference, with a minimal decrease in accuracy. The desired speed-accuracy trade-off is tunable by varying the threshold or a regularization parameter that rewards output entropy. We demonstrate these in two toy problems of sequence classification, and in a temporally-encoded MNIST dataset where our RC model achieves 99.19% accuracy after the first input time-step, outperforming the state of the art in temporal coding with SNNs, as well as in spoken-word classification of Google Speech Commands, outperforming non-RC-trained early inference with LSTMs.
翻訳日:2021-10-07 14:30:34 公開日:2021-10-06
# データ中心AIはデータ表記を再考する必要がある

Data-Centric AI Requires Rethinking Data Notion ( http://arxiv.org/abs/2110.02491v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Karthikeyan Natesan Ramamurthy, Aldo Guzman Saenz(参考訳) データ中心AIへの移行は、統一されたデータ中心機械学習パッケージを得るために、数学的および実装的な視点からデータ概念を再考する必要がある。 この目的に向けて、この研究は、データカテゴリとコチェーンの概念によって提供される原則の統合を提案し、データ中心のAI移行におけるこれらの原則の重要性について議論する。 分類学的概念では、データは、この構造を保存するために射を通して作用する数学的構造と見なされる。 共鎖の概念では、データは関心の離散領域で定義され、演算子を介して作用する関数と見なすことができる。 これらの概念はほぼ直交しているが、データを見るための統一的な定義を提供し、最終的には機械学習パッケージの開発、実装、利用の方法に影響を与える。

The transition towards data-centric AI requires revisiting data notions from mathematical and implementational standpoints to obtain unified data-centric machine learning packages. Towards this end, this work proposes unifying principles offered by categorical and cochain notions of data, and discusses the importance of these principles in data-centric AI transition. In the categorical notion, data is viewed as a mathematical structure that we act upon via morphisms to preserve this structure. As for cochain notion, data can be viewed as a function defined in a discrete domain of interest and acted upon via operators. While these notions are almost orthogonal, they provide a unifying definition to view data, ultimately impacting the way machine learning packages are developed, implemented, and utilized by practitioners.
翻訳日:2021-10-07 14:30:00 公開日:2021-10-06
# KNN-BERT:KNN分類器を用いた微調整事前学習モデル

KNN-BERT: Fine-Tuning Pre-Trained Models with KNN Classifier ( http://arxiv.org/abs/2110.02523v1 )

ライセンス: Link先を確認
Linyang Li, Demin Song, Ruotian Ma, Xipeng Qiu, Xuanjing Huang(参考訳) 事前学習されたモデルは、クロスエントロピー損失によって最適化された線形分類器を用いた微調整下流タスクで広く用いられている。 これらの問題は、同じクラスの類似性と、予測を行う際に異なるクラスの矛盾に焦点を当てた表現を学習することで改善することができる。 本稿では,K-Nearest Neighbors分類器を事前学習モデル微調整に用いる。 このnn分類器では,教師付きモメンタコントラスト学習フレームワークを導入し,教師付き下流タスクのクラスタ化表現を学習する。 テキスト分類タスクとロバストネステストに関する広範な実験により,knnを従来の微調整プロセスに組み込むことにより,リッチソース設定とマイナショット設定の両方において,クリーンな精度を大幅に向上し,敵の攻撃に対するロバスト性を向上させることが可能となった。 https://github.com/L inyangLee/KNN-BERT}

Pre-trained models are widely used in fine-tuning downstream tasks with linear classifiers optimized by the cross-entropy loss, which might face robustness and stability problems. These problems can be improved by learning representations that focus on similarities in the same class and contradictions in different classes when making predictions. In this paper, we utilize the K-Nearest Neighbors Classifier in pre-trained model fine-tuning. For this KNN classifier, we introduce a supervised momentum contrastive learning framework to learn the clustered representations of the supervised downstream tasks. Extensive experiments on text classification tasks and robustness tests show that by incorporating KNNs with the traditional fine-tuning process, we can obtain significant improvements on the clean accuracy in both rich-source and few-shot settings and can improve the robustness against adversarial attacks. \footnote{all codes is available at https://github.com/L inyangLee/KNN-BERT}
翻訳日:2021-10-07 14:29:24 公開日:2021-10-06
# キーワードグラフに基づく弱教師付きテキスト分類

Weakly-supervised Text Classification Based on Keyword Graph ( http://arxiv.org/abs/2110.02591v1 )

ライセンス: Link先を確認
Lu Zhang, Jiandong Ding, Yi Xu, Yingyao Liu and Shuigeng Zhou(参考訳) 近年,大量のデータに注釈を付けることの重荷を軽減するため,テキスト分類の弱さが注目されている。 中でもキーワード駆動の手法は、ユーザが提供するキーワードを利用してラベルなしテキストの擬似ラベルを生成する主流である。 しかし、既存のメソッドはキーワードを独立して扱うので、それらの相関を無視する。 本稿では,GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。 私たちのフレームワークは反復的なプロセスです。 各イテレーションにおいて、まずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。 アノテーションの品質を向上させるために,サブグラフアノテータを事前学習し,それを微調整する自己教師付きタスクを導入する。 サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。 最後に、分類されたテキストからキーワードを再抽出する。 長文と短文の両方のデータセットに対する大規模な実験は、我々の手法が既存のデータセットよりも大幅に優れていることを示している。

Weakly-supervised text classification has received much attention in recent years for it can alleviate the heavy burden of annotating massive data. Among them, keyword-driven methods are the mainstream where user-provided keywords are exploited to generate pseudo-labels for unlabeled texts. However, existing methods treat keywords independently, thus ignore the correlation among them, which should be useful if properly exploited. In this paper, we propose a novel framework called ClassKG to explore keyword-keyword correlation on keyword graph by GNN. Our framework is an iterative process. In each iteration, we first construct a keyword graph, so the task of assigning pseudo labels is transformed to annotating keyword subgraphs. To improve the annotation quality, we introduce a self-supervised task to pretrain a subgraph annotator, and then finetune it. With the pseudo labels generated by the subgraph annotator, we then train a text classifier to classify the unlabeled texts. Finally, we re-extract keywords from the classified texts. Extensive experiments on both long-text and short-text datasets show that our method substantially outperforms the existing ones
翻訳日:2021-10-07 14:29:06 公開日:2021-10-06
# 対話型ライプツィヒ・コーパス・マイナーの社会科学への応用

Application of the interactive Leipzig Corpus Miner as a generic research platform for the use in the social sciences ( http://arxiv.org/abs/2110.02708v1 )

ライセンス: Link先を確認
Christian Kahmann, Andreas Niekler and Gregor Wiedemann(参考訳) 本稿では,新しいオープンソースソフトウェアであるinteractive leipzig corpus miner (ilcm)について紹介する。 iLCMはR言語をベースとしているため、ユーザフレンドリなグラフィカルユーザインタフェース(GUI)を通じて提供される一般的なテキストマイニング手順は、統合されたIDE RStudio-Serverやツール内の多くのインターフェースを使って容易に拡張できる。 さらに、iLCMは定量的および定性的な研究手法を併用する様々な可能性を提供している。 これらの可能性のいくつかは、以下に詳述する。

This article introduces to the interactive Leipzig Corpus Miner (iLCM) - a newly released, open-source software to perform automatic content analysis. Since the iLCM is based on the R-programming language, its generic text mining procedures provided via a user-friendly graphical user interface (GUI) can easily be extended using the integrated IDE RStudio-Server or numerous other interfaces in the tool. Furthermore, the iLCM offers various possibilities to use quantitative and qualitative research approaches in combination. Some of these possibilities will be presented in more detail in the following.
翻訳日:2021-10-07 14:28:49 公開日:2021-10-06
# BPEが変圧器の記憶に与える影響

How BPE Affects Memorization in Transformers ( http://arxiv.org/abs/2110.02782v1 )

ライセンス: Link先を確認
Eugene Kharitonov and Marco Baroni and Dieuwke Hupkes(参考訳) nlpにおけるデータ記憶のトレーニングは、(例えば、クローズドブックqa)と望ましくない(個人データ抽出)の両方に有益である。 いずれにせよ、成功したモデルトレーニングは、単語スペル、様々な言語的慣用句、共通の知識を記憶するために、非自明な量の記憶を必要とする。 しかし、NLPモデルの記憶挙動にどのような影響を及ぼすかは分かっていない。 本研究では,Byte-Pair Encoding (BPE) で学習したサブワード語彙のサイズが,学習パラメータ数を制御する場合でも,標準トランスフォーマーモデルの学習データを記憶する能力と傾向に大きな影響を与えることを示す。 サブワード語彙のサイズが大きいため、トランスフォーマーモデルはランダムマッピングをより簡単にフィットし、メンバシップ推論攻撃に対して脆弱であることが分かりました。 同様に、大きなサブワード語彙を持つプロンプトでトランスフォーマーベースの言語モデルも、トレーニングデータをより頻繁に再現する。 我々は、この効果は、BPE語彙が大きくなるにつれて起こるシーケンスの長さの減少に起因すると推測する。 以上の結果から,特定のユースケースに適したハイパーパラメータの選択が可能となった。

Training data memorization in NLP can both be beneficial (e.g., closed-book QA) and undesirable (personal data extraction). In any case, successful model training requires a non-trivial amount of memorization to store word spellings, various linguistic idiosyncrasies and common knowledge. However, little is known about what affects the memorization behavior of NLP models, as the field tends to focus on the equally important question of generalization. In this work, we demonstrate that the size of the subword vocabulary learned by Byte-Pair Encoding (BPE) greatly affects both ability and tendency of standard Transformer models to memorize training data, even when we control for the number of learned parameters. We find that with a large subword vocabulary size, Transformer models fit random mappings more easily and are more vulnerable to membership inference attacks. Similarly, given a prompt, Transformer-based language models with large subword vocabularies reproduce the training data more often. We conjecture this effect is caused by reduction in the sequences' length that happens as the BPE vocabulary grows. Our findings can allow a more informed choice of hyper-parameters, that is better tailored for a particular use-case.
翻訳日:2021-10-07 14:28:39 公開日:2021-10-06
# 重み付き有限状態トランスデューサの並列構成

Parallel Composition of Weighted Finite-State Transducers ( http://arxiv.org/abs/2110.02848v1 )

ライセンス: Link先を確認
Shubho Sengupta, Vineel Pratap, Awni Hannun(参考訳) 有限状態トランスデューサ(fsts)は音声認識によく用いられる。 トランスデューサ組成物は、異なる粒度で異なる情報ソースを結合するための必須操作である。 しかし、合成は計算コストの高い演算の1つでもある。 FSTの異種構造のため、合成のための並列アルゴリズムは効率、一般性、あるいはその両方において最適である。 並列合成のためのアルゴリズムを提案し,それをグラフィックス処理ユニットに実装する。 本稿では,ランダムグラフの構成と音声認識によく使われるグラフの構成について並列アルゴリズムをベンチマークする。 並列構成は入力グラフのサイズでスケールし、大規模なグラフの場合、シーケンシャルcpuアルゴリズムの10倍から30倍の速度で構成できる。

Finite-state transducers (FSTs) are frequently used in speech recognition. Transducer composition is an essential operation for combining different sources of information at different granularities. However, composition is also one of the more computationally expensive operations. Due to the heterogeneous structure of FSTs, parallel algorithms for composition are suboptimal in efficiency, generality, or both. We propose an algorithm for parallel composition and implement it on graphics processing units. We benchmark our parallel algorithm on the composition of random graphs and the composition of graphs commonly used in speech recognition. The parallel composition scales better with the size of the input graphs and for large graphs can be as much as 10 to 30 times faster than a sequential CPU algorithm.
翻訳日:2021-10-07 14:28:18 公開日:2021-10-06
# 最適トランスポートをアライメント目標として多言語文脈化埋め込みの微調整

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings ( http://arxiv.org/abs/2110.02887v1 )

ライセンス: Link先を確認
Sawsan Alqahtani, Garima Lalwani, Yi Zhang, Salvatore Romeo, Saab Mansour(参考訳) 近年の研究では、ソースとターゲットの埋め込み空間を整合させる手法を含む、コンテキスト設定における多言語語表現を改善する方法が提案されている。 コンテキストの埋め込みでは、コンテキストを考慮したアライメントがより複雑になります。 本研究では、下流言語間移動のための多言語文脈表現をさらに改善するために、微調整時のアライメント目的として最適輸送(OT)を提案する。 このアプローチでは、微調整の前に単語アライメントペアを必要とせず、代わりに教師なしの方法でコンテキスト内の単語アライメントを学習する。 また、ソースとターゲット文のソフトマッチングのために、異なるタイプのマッピングも可能である。 我々は,提案手法を2つのタスク (XNLI と XQuAD) でベンチマークし,ベースラインよりも改善し,競合する結果を得た。

Recent studies have proposed different methods to improve multilingual word representations in contextualized settings including techniques that align between source and target embedding spaces. For contextualized embeddings, alignment becomes more complex as we additionally take context into consideration. In this work, we propose using Optimal Transport (OT) as an alignment objective during fine-tuning to further improve multilingual contextualized representations for downstream cross-lingual transfer. This approach does not require word-alignment pairs prior to fine-tuning that may lead to sub-optimal matching and instead learns the word alignments within context in an unsupervised manner. It also allows different types of mappings due to soft matching between source and target sentences. We benchmark our proposed method on two tasks (XNLI and XQuAD) and achieve improvements over baselines as well as competitive results compared to similar recent works.
翻訳日:2021-10-07 14:28:08 公開日:2021-10-06
# 報酬懸賞対称的普遍知性

Reward-Punishment Symmetric Universal Intelligence ( http://arxiv.org/abs/2110.02450v1 )

ライセンス: Link先を確認
Samuel Allen Alexander, Marcus Hutter(参考訳) エージェントのインテリジェンスレベルは負か? 我々は、Lgg-Hutterエージェント環境の枠組みを拡張して罰を含め、その問題に対する肯定的な回答を求める。 背景エンコーディングと普遍チューリングマシン(utm)が、あるコルモゴロフ複雑性の対称性を認めるならば、結果として生じるレッグ・ハッター知能測度は原点について対称である。 特に、報酬無視剤はそのようなutmに従ってレッグヘター知性が0である。

Can an agent's intelligence level be negative? We extend the Legg-Hutter agent-environment framework to include punishments and argue for an affirmative answer to that question. We show that if the background encodings and Universal Turing Machine (UTM) admit certain Kolmogorov complexity symmetries, then the resulting Legg-Hutter intelligence measure is symmetric about the origin. In particular, this implies reward-ignoring agents have Legg-Hutter intelligence 0 according to such UTMs.
翻訳日:2021-10-07 14:27:53 公開日:2021-10-06
# マルチエージェント・エピステマティクス・プランニング : ネストされた信念についてプランナーに教える

Efficient Multi-agent Epistemic Planning: Teaching Planners About Nested Belief ( http://arxiv.org/abs/2110.02480v1 )

ライセンス: Link先を確認
Christian Muise, Vaishak Belle, Paolo Felli, Sheila McIlraith, Tim Miller, Adrian R. Pearce, Liz Sonenberg(参考訳) 多くのAIアプリケーションは、複数の自律エージェントの相互作用を含み、エージェントは他のエージェントと同様に、自身の信念を推論する必要がある。 しかし、ネスト化された信念を含む計画は計算的に難しいことが知られている。 本研究では,他のエージェントの信念に対する推論を必要とするプランを合成する作業に対処する。 我々は, 一つのエージェントの観点から, ネストされた信念, 非同質なエージェント, 共同表現観察, あるいはあるエージェントが別のエージェントであるかのように推論する能力を含む, 目標と行動の可能性を考察する。 私たちは、計画の概念をネスト化された信念で正式に特徴付け、それらの問題を効率的に解決するための古典的な計画技術にアピールする問題に自動的に変換する方法をデモします。 提案手法は,複数エージェントのネストされた信念を含む計画課題に,十分に確立された自動計画分野を適用するための重要なステップである。

Many AI applications involve the interaction of multiple autonomous agents, requiring those agents to reason about their own beliefs, as well as those of other agents. However, planning involving nested beliefs is known to be computationally challenging. In this work, we address the task of synthesizing plans that necessitate reasoning about the beliefs of other agents. We plan from the perspective of a single agent with the potential for goals and actions that involve nested beliefs, non-homogeneous agents, co-present observations, and the ability for one agent to reason as if it were another. We formally characterize our notion of planning with nested belief, and subsequently demonstrate how to automatically convert such problems into problems that appeal to classical planning technology for solving efficiently. Our approach represents an important step towards applying the well-established field of automated planning to the challenging task of planning involving nested beliefs of multiple agents.
翻訳日:2021-10-07 14:27:43 公開日:2021-10-06
# ActiveMatch: エンドツーエンドの半教師付きアクティブ表現学習

ActiveMatch: End-to-end Semi-supervised Active Representation Learning ( http://arxiv.org/abs/2110.02521v1 )

ライセンス: Link先を確認
Xinkai Yuan, Zilinghan Li, Gaoang Wang (Zhejiang University-Universit y of Illinois at Urbana-Champaign Institute, Zhejiang University)(参考訳) semi-supervised learning (ssl)はラベル付きデータとラベルなしデータの両方でモデルをトレーニングできる効率的なフレームワークである。 しかし、ラベル数が限られているため、SSLの学習された表現は曖昧であり、クラス間のサンプルでは区別できない。 さらに、SSLのパフォーマンスもモデルの初期化に大きく依存している。 本稿では、SSLの欠点に対処するために、SSLとコントラスト学習とアクティブ学習を組み合わせて制限ラベルを完全に活用する、新しいエンドツーエンド表現学習手法であるActiveMatchを提案する。 少数のラベル付きデータと教師なしのコントラスト学習をウォームアップとして開始すると、ActiveMatchはSSLと教師付きコントラスト学習を組み合わせて、トレーニング中にラベル付けのための最も代表的なサンプルを積極的に選択する。 mixmatch と fixmatch と比較すると、activematch は 89.24 の精度で cifar-10 に 100 個のラベルを収集し、92.20 の精度で 200 個のラベルを収集した。

Semi-supervised learning (SSL) is an efficient framework that can train models with both labeled and unlabeled data. However, constrained by the limited number of labels, the learned representations of SSL are ambiguous and not distinguishable for inter-class samples. Moreover, the performance of SSL is also largely dependent on the model initialization. To deal with the drawbacks of SSL, in this paper, we propose a novel end-to-end representation learning method, namely ActiveMatch, which combines SSL with contrastive learning and active learning to fully leverage the limited labels. Starting from a small amount of labeled data with unsupervised contrastive learning as a warm-up, ActiveMatch then combines SSL and supervised contrastive learning, and actively selects the most representative samples for labeling during the training, resulting in better representations towards the classification. Compared with MixMatch and FixMatch, we show that ActiveMatch achieves the state-of-the-art performance, with 89.24 accuracy on CIFAR-10 with 100 collected labels, and 92.20 accuracy with 200 collected labels.
翻訳日:2021-10-07 14:27:03 公開日:2021-10-06
# 視覚的質問応答のための粗相関推論

Coarse-to-Fine Reasoning for Visual Question Answering ( http://arxiv.org/abs/2110.02526v1 )

ライセンス: Link先を確認
Binh X. Nguyen, Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 画像と質問のセマンティックなギャップを埋めることは、視覚質問回答(VQA)タスクの精度を向上させる重要なステップである。 しかしながら、既存のVQA手法のほとんどは、解答を推論するための注意機構や視覚的関係に重点を置いているが、異なる意味レベルの特徴は十分に活用されていない。 本稿では,VQAタスクにおける視覚的特徴と意味的手がかりのギャップを埋めるための新しい推論フレームワークを提案する。 本手法はまず,画像と質問から特徴と述語を抽出する。 次に,これらの特徴を効果的に学習し,粗末に述語する新しい推論フレームワークを提案する。 3つの大規模VQAデータセットの集中的な実験結果から,提案手法が他の最先端手法と比較して精度が高いことを示す。 さらに、この推論フレームワークは、回答を予測する際にディープニューラルネットワークの決定を理解するための説明可能な方法を提供する。

Bridging the semantic gap between image and question is an important step to improve the accuracy of the Visual Question Answering (VQA) task. However, most of the existing VQA methods focus on attention mechanisms or visual relations for reasoning the answer, while the features at different semantic levels are not fully utilized. In this paper, we present a new reasoning framework to fill the gap between visual features and semantic clues in the VQA task. Our method first extracts the features and predicates from the image and question. We then propose a new reasoning framework to effectively jointly learn these features and predicates in a coarse-to-fine manner. The intensively experimental results on three large-scale VQA datasets show that our proposed approach achieves superior accuracy comparing with other state-of-the-art methods. Furthermore, our reasoning framework also provides an explainable way to understand the decision of the deep neural network when predicting the answer.
翻訳日:2021-10-07 14:26:42 公開日:2021-10-06
# 3D-FCT:特徴相関を用いた同時3次元物体検出・追跡

3D-FCT: Simultaneous 3D Object Detection and Tracking Using Feature Correlation ( http://arxiv.org/abs/2110.02531v1 )

ライセンス: Link先を確認
Naman Sharma, Hocksoon Lim(参考訳) lidarデータを用いた3dオブジェクト検出は、自動運転やロボティクスといったアプリケーションにとって重要なタスクだ。 2D画像とは異なり、LiDARのデータはほとんど常に一定時間にわたって収集される。 しかし、この領域のほとんどの研究は、時間領域に依存しない検出に焦点を合わせている。 本稿では、時間情報を利用して3Dオブジェクトの検出と追跡を同時に行うシームズネットワークアーキテクチャである3D-FCTを提案する。 ネットワークは、抽出されたキーポイントの相関特性に基づいて、オブジェクトの移動を予測するために訓練される。 キーポイント間の相関を計算することは、リアルタイムオブジェクト検出のみを可能にする。 我々はさらにマルチタスク目標を拡張して、回帰損失の追跡を含む。 最後に,予測トラックに基づいて,短期オブジェクトのトラックレットを長期トラックにリンクすることで,高精度な検出を行う。 提案手法はkittiトラッキングデータセット上で評価され,最先端のアプローチによる5.57%のマップ改善が示された。

3D object detection using LiDAR data remains a key task for applications like autonomous driving and robotics. Unlike in the case of 2D images, LiDAR data is almost always collected over a period of time. However, most work in this area has focused on performing detection independent of the temporal domain. In this paper we present 3D-FCT, a Siamese network architecture that utilizes temporal information to simultaneously perform the related tasks of 3D object detection and tracking. The network is trained to predict the movement of an object based on the correlation features of extracted keypoints across time. Calculating correlation across keypoints only allows for real-time object detection. We further extend the multi-task objective to include a tracking regression loss. Finally, we produce high accuracy detections by linking short-term object tracklets into long term tracks based on the predicted tracks. Our proposed method is evaluated on the KITTI tracking dataset where it is shown to provide an improvement of 5.57% mAP over a state-of-the-art approach.
翻訳日:2021-10-07 14:26:26 公開日:2021-10-06
# 魚類追跡のためのコンピュータビジョン技術の概要

A Review of Computer Vision Technologies for Fish Tracking ( http://arxiv.org/abs/2110.02551v1 )

ライセンス: Link先を確認
Zhenbo Li, Weiran Li, Fei Li(参考訳) コンピュータビジョンに基づく魚類追跡は漁業生産と生態学研究において複雑で困難な課題である。 魚追跡のほとんどのアプリケーションは、精度と効率に欠ける古典的なフィルタリングアルゴリズムを使用している。 この問題を解決するため,深層ニューラルネットワークを用いて特徴を抽出し,魚の追跡性能を向上した。 いくつかの一段階検出アルゴリズムがこの分野でリアルタイムアプリケーションに徐々に採用されている。 魚標的への移動学習は現在の発展方向である。 現在、魚追跡技術は実際のアプリケーション要件をカバーするには不十分である。 我々の収集した文献データによると、地域社会における視線に基づく魚の追跡に関する詳細な調査は行われていない。 本稿では,過去10年間の魚類追跡技術の発展と応用の可能性について紹介する。 まず,魚のオープンソースデータセットを導入し,水中画像の前処理技術を要約した。 次に,魚の検出・追跡アルゴリズムを解析し,移動可能なフロンティア追跡モデルを整理した。 第3に,オクルージョンやマルチスケールといった魚追跡の実際の応用,指標,ボトルネックを列挙した。 最後に、魚の追跡データセット、ボトルネックの解決策、改善について議論する。 我々の研究は、魚の追跡モデルがより精度と堅牢性を達成するのに役立つと期待している。

Fish tracking based on computer vision is a complex and challenging task in fishery production and ecological studies. Most of the applications of fish tracking use classic filtering algorithms, which lack in accuracy and efficiency. To solve this issue, deep learning methods utilized deep neural networks to extract the features, which achieve a good performance in the fish tracking. Some one-stage detection algorithms have gradually been adopted in this area for the real-time applications. The transfer learning to fish target is the current development direction. At present, fish tracking technology is not enough to cover actual application requirements. According to the literature data collected by us, there has not been any extensive review about vision-based fish tracking in the community. In this paper, we introduced the development and application prospects of fish tracking technology in last ten years. Firstly, we introduced the open source datasets of fish, and summarized the preprocessing technologies of underwater images. Secondly, we analyzed the detection and tracking algorithms for fish, and sorted out some transferable frontier tracking model. Thirdly, we listed the actual applications, metrics and bottlenecks of the fish tracking such as occlusion and multi-scale. Finally, we give the discussion for fish tracking datasets, solutions of the bottlenecks, and improvements. We expect that our work can help the fish tracking models to achieve higher accuracy and robustness.
翻訳日:2021-10-07 14:26:13 公開日:2021-10-06
# MTCD:近赤外画像による白内障検出

MTCD: Cataract Detection via Near Infrared Eye Images ( http://arxiv.org/abs/2110.02564v1 )

ライセンス: Link先を確認
Pavani Tripathi, Yasmeena Akhter, Mahapara Khurshid, Aditya Lakra, Rohit Keshari, Mayank Vatsa, Richa Singh(参考訳) 世界中で白内障は一般的な眼疾患であり、盲目や視力障害の主な原因の1つである。 白内障を検出する伝統的な方法は、眼科医によるスリットランプ顕微鏡または眼科鏡による眼科検査であり、眼の通常は透明なレンズの曇りをチェックする。 リソースの不足と十分な数の専門家の可用性の欠如は、世界中の医療システムに負担をもたらし、研究者は専門家を支援するためにAIソリューションの使用を検討している。 本研究は虹彩認識の進歩に触発され,近赤外画像を用いた白内障検出のための新しいアルゴリズムを提案する。 NIRカメラは虹彩認識によく使われているが、比較的安価で操作が容易である。 しかし、これらのNIR画像は白内障検出のために探索されていない。 入力としてNIR画像を用いた白内障検出のための深層学習に基づくアイセグメンテーションとマルチタスクネットワーク分類ネットワークを提案する。 提案したセグメンテーションアルゴリズムは,非理想眼の境界を効果的かつ効果的に検出し,コスト効率が高く,白内障データセット上で非常に高い分類性能が得られる。

Globally, cataract is a common eye disease and one of the leading causes of blindness and vision impairment. The traditional process of detecting cataracts involves eye examination using a slit-lamp microscope or ophthalmoscope by an ophthalmologist, who checks for clouding of the normally clear lens of the eye. The lack of resources and unavailability of a sufficient number of experts pose a burden to the healthcare system throughout the world, and researchers are exploring the use of AI solutions for assisting the experts. Inspired by the progress in iris recognition, in this research, we present a novel algorithm for cataract detection using near-infrared eye images. The NIR cameras, which are popularly used in iris recognition, are of relatively low cost and easy to operate compared to ophthalmoscope setup for data capture. However, such NIR images have not been explored for cataract detection. We present deep learning-based eye segmentation and multitask network classification networks for cataract detection using NIR images as input. The proposed segmentation algorithm efficiently and effectively detects non-ideal eye boundaries and is cost-effective, and the classification network yields very high classification performance on the cataract dataset.
翻訳日:2021-10-07 14:25:57 公開日:2021-10-06
# googleのランドマーク認識競争、2021年の2位に

2nd Place Solution to Google Landmark Recognition Competition 2021 ( http://arxiv.org/abs/2110.02638v1 )

ライセンス: Link先を確認
Shubin Dai(参考訳) Transformerベースのアーキテクチャは、最近コンピュータビジョンの進歩を奨励している。 本研究では,(1)SwinとCSWinを機能抽出のバックボーンとして使用すること,(2)フルGLDv2のトレーニング,(3)フルGLDv2画像をkNN検索のインデックスイメージセットとして使用すること,の3つの設計を変更することで,昨年のソリューションを改善したKaggle上でのGoogleランドマーク認識2021チャレンジに対するソリューションを提案する。 これらの修正により、今年の競争におけるソリューションは大幅に改善されました。 Swin, CSWin, EfficientNet B7 モデルの完全なパイプラインは、プライベートなリーダーボードで 0.4907 を獲得し、コンペで2位になるのに役立ちます。

As Transformer-based architectures have recently shown encouraging progresses in computer vision. In this work, we present the solution to the Google Landmark Recognition 2021 Challenge held on Kaggle, which is an improvement on our last year's solution by changing three designs, including (1) Using Swin and CSWin as backbone for feature extraction, (2) Train on full GLDv2, and (3) Using full GLDv2 images as index image set for kNN search. With these modifications, our solution significantly improves last year solution on this year competition. Our full pipeline, after ensembling Swin, CSWin, EfficientNet B7 models, scores 0.4907 on the private leaderboard which help us to get the 2nd place in the competition.
翻訳日:2021-10-07 14:25:33 公開日:2021-10-06
# ロングテール分布適応

Long-tailed Distribution Adaptation ( http://arxiv.org/abs/2110.02686v1 )

ライセンス: Link先を確認
Zhiliang Peng, Wei Huang, Zonghao Guo, Xiaosong Zhang, Jianbin Jiao, Qixiang Ye(参考訳) ロングテール分布を持つ画像を認識することは、この問題を解決するための解釈可能なメカニズムが欠けているにもかかわらず、依然として困難な問題である。 本研究では,ロングテール分布を不均衡領域として,一般分布を均衡領域としてモデル化し,ロングテール認識をドメイン適応(lda)として定式化する。 均衡領域内では、不均衡領域と平衡領域の実証的リスクとそれらの間のばらつきに基づいて定義される一般化誤差境界のスラック化を提案する。 非平衡領域と平衡領域の実証的リスクを共同で最適化し,クラス間距離とクラス間距離によるドメインの発散を近似し,ロングテール分布を一般化分布に適用する手法を提案する。 画像認識、オブジェクト検出、インスタンスセグメンテーションのためのベンチマークデータセットの実験では、LDAアプローチは解釈可能性を超えて、最先端のパフォーマンスを実現する。 コードはhttps://github.com/p engzhiliang/ldaで入手できる。

Recognizing images with long-tailed distributions remains a challenging problem while there lacks an interpretable mechanism to solve this problem. In this study, we formulate Long-tailed recognition as Domain Adaption (LDA), by modeling the long-tailed distribution as an unbalanced domain and the general distribution as a balanced domain. Within the balanced domain, we propose to slack the generalization error bound, which is defined upon the empirical risks of unbalanced and balanced domains and the divergence between them. We propose to jointly optimize empirical risks of the unbalanced and balanced domains and approximate their domain divergence by intra-class and inter-class distances, with the aim to adapt models trained on the long-tailed distribution to general distributions in an interpretable way. Experiments on benchmark datasets for image recognition, object detection, and instance segmentation validate that our LDA approach, beyond its interpretability, achieves state-of-the-art performance. Code is available at https://github.com/p engzhiliang/LDA.
翻訳日:2021-10-07 14:25:16 公開日:2021-10-06
# 局所視覚摂動に対する可逆的逆例

Reversible adversarial examples against local visual perturbation ( http://arxiv.org/abs/2110.02700v1 )

ライセンス: Link先を確認
Zhaoxia Yin, Li Chen, and Shaowei Zhu(参考訳) 近年、敵対的攻撃がディープラーニングシステムに脅威をもたらすことが研究で示されている。 しかし、敵対的な例のみが存在する場合、原画像は入手できないため、可逆的な敵対攻撃に関する研究がある。 しかし、既存の戦略は目に見えない逆境の摂動を目標としており、局所的に見える逆境の摂動を考慮しない。 本稿では、局所的な視覚的対向摂動に対する可逆的対向的例を生成し、可逆的データ埋め込み技術を用いて、原画像の復元に必要な情報を逆向的例に埋め込んで、逆向的かつ逆向的な例を生成する。 ImageNetデータセットの実験では,攻撃能力を確保しつつ,元の画像を損失なく復元できることが示されている。

Recently, studies have indicated that adversarial attacks pose a threat to deep learning systems. However, when there are only adversarial examples, people cannot get the original images, so there is research on reversible adversarial attacks. However, the existing strategies are aimed at invisible adversarial perturbation, and do not consider the case of locally visible adversarial perturbation. In this article, we generate reversible adversarial examples for local visual adversarial perturbation, and use reversible data embedding technology to embed the information needed to restore the original image into the adversarial examples to generate examples that are both adversarial and reversible. Experiments on ImageNet dataset show that our method can restore the original image losslessly while ensuring the attack capability.
翻訳日:2021-10-07 14:24:57 公開日:2021-10-06
# googleのランドマーク認識競争、2021年の3位に

3rd Place Solution to Google Landmark Recognition Competition 2021 ( http://arxiv.org/abs/2110.02794v1 )

ライセンス: Link先を確認
Cheng Xu, Weimin Wang, Shuai Liu, Yong Wang, Yuxiang Tang, Tianling Bian, Yanyu Yan, Qi She, Cheng Yang(参考訳) 本稿では,google landmark recognition 2021 コンペティションに対する我々の解決策を示す。 まず、画像の埋め込みは様々なアーキテクチャ(CNN-、Transformer-、ハイブリッドベース)を通して抽出され、ArcFaceロスによって最適化される。 次に,分類ロジットと非ランドマークトラクタによる検索スコアの調整により,予測の再ランクに効率的なパイプラインを適用する。 最後に、アンサンブルされたモデルはプライベートリーダーボードで0.489点を獲得し、2021年のGoogle Landmark Recognition Competitionで3位を獲得した。

In this paper, we show our solution to the Google Landmark Recognition 2021 Competition. Firstly, embeddings of images are extracted via various architectures (i.e. CNN-, Transformer- and hybrid-based), which are optimized by ArcFace loss. Then we apply an efficient pipeline to re-rank predictions by adjusting the retrieval score with classification logits and non-landmark distractors. Finally, the ensembled model scores 0.489 on the private leaderboard, achieving the 3rd place in the 2021 edition of the Google Landmark Recognition Competition.
翻訳日:2021-10-07 14:24:44 公開日:2021-10-06
# 変分イメージングのための1次加速法

Accelerated First Order Methods for Variational Imaging ( http://arxiv.org/abs/2110.02813v1 )

ライセンス: Link先を確認
Joseph Bartlett, Jinming Duan(参考訳) 本論文では,変動画像問題に使用される異なる正規化項と,これらの問題の詳細な最適化過程について徹底的に検討する。 まず,tikhonov denoising と total variation (tv) という形式で,スムース問題と部分的非スムース問題をそれぞれ検討した。 Tikhonov denoisingでは、適応的な再起動を伴う加速勾配法について検討し、非常に高速な収束率を示す。 しかし、この高速なアルゴリズムは、内蔵された正規化の非滑らかさのため、テレビのデノーミングに適用することは容易ではない。 この問題に対処するために,このような非スムース問題を平滑な問題に変換するために,再スタートによる高速化勾配法が自然に適用されるように双対性を活用することを提案する。 しかし、TikhonovとTVのレギュラー化には、それぞれ、ぼやけた画像のエッジと階段のアーチファクトという形で欠点がある。 これらの欠点を克服するために, エッジを保持するとともに, 階段のアーチファクトを含む結果が得られないTSV(Total Smooth Variation)と呼ばれる, TGV(Total Generalized Variation)正則化への新たな適応を提案する。 TSV を効果的に最適化するために,適応的再起動技術を利用した Accelerated Proximal Gradient Algorithm (APGA) を提案する。 既存の最先端の正規化(TVなど)と比較すると、TSVはより効果的なノイズ除去効果と、MRI(MRI)再構成や光フローなどの高度な画像応用が得られる。 TSVはテレビレギュラー化時に観測される階段のアーチファクトを除去するが、Nesterov加速度とアダプティブ再起動による勾配法を用いて効率よく最適化できるTGVよりも利点がある。 コードはhttps://github.com/J bartlett6/Accelerate d-First-Order-Method -for-Variational-Ima gingで入手できる。

In this thesis, we offer a thorough investigation of different regularisation terms used in variational imaging problems, together with detailed optimisation processes of these problems. We begin by studying smooth problems and partially non-smooth problems in the form of Tikhonov denoising and Total Variation (TV) denoising, respectively. For Tikhonov denoising, we study an accelerated gradient method with adaptive restart, which shows a very rapid convergence rate. However, it is not straightforward to apply this fast algorithm to TV denoising, due to the non-smoothness of its built-in regularisation. To tackle this issue, we propose to utilise duality to convert such a non-smooth problem into a smooth one so that the accelerated gradient method with restart applies naturally. However, we notice that both Tikhonov and TV regularisations have drawbacks, in the form of blurred image edges and staircase artefacts, respectively. To overcome these drawbacks, we propose a novel adaption to Total Generalised Variation (TGV) regularisation called Total Smooth Variation (TSV), which retains edges and meanwhile does not produce results which contain staircase artefacts. To optimise TSV effectively, we then propose the Accelerated Proximal Gradient Algorithm (APGA) which also utilises adaptive restart techniques. Compared to existing state-of-the-art regularisations (e.g. TV), TSV is shown to obtain more effective results on denoising problems as well as advanced imaging applications such as magnetic resonance imaging (MRI) reconstruction and optical flow. TSV removes the staircase artefacts observed when using TV regularisation, but has the added advantage over TGV that it can be efficiently optimised using gradient based methods with Nesterov acceleration and adaptive restart. Code is available at https://github.com/J bartlett6/Accelerate d-First-Order-Method -for-Variational-Ima ging.
翻訳日:2021-10-07 14:24:33 公開日:2021-10-06
# 意味的予測: どちらが先か、認識か、予測か?

Semantic Prediction: Which One Should Come First, Recognition or Prediction? ( http://arxiv.org/abs/2110.02829v1 )

ライセンス: Link先を確認
Hafez Farazi and Jan Nogga and and Sven Behnke(参考訳) ビデオ予測の最終的な目標は、いくつかのフレームから将来のピクセル値を予測することではない。 むしろ、ビデオ予測の最終的な目標は、大量のラベルのないビデオデータから、下流タスクの自己教師あり方式で貴重な内部表現を見つけることである。 下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。 例えば、人間の動きを予測することで、観察者は人間の活動を予測し、共有ワークスペースで協力することができる。 事前学習されたビデオ予測と事前学習された意味抽出モデルによって、同じ結果を達成するには2つの主要な方法がある。 ビデオ予測モデルとしてlfdtn(local frequency domain transformer network)、合成データおよび実データを用いた意味抽出モデルとしてu-netを用いてこれらの構成を検討する。

The ultimate goal of video prediction is not forecasting future pixel-values given some previous frames. Rather, the end goal of video prediction is to discover valuable internal representations from the vast amount of available unlabeled video data in a self-supervised fashion for downstream tasks. One of the primary downstream tasks is interpreting the scene's semantic composition and using it for decision-making. For example, by predicting human movements, an observer can anticipate human activities and collaborate in a shared workspace. There are two main ways to achieve the same outcome, given a pre-trained video prediction and pre-trained semantic extraction model; one can first apply predictions and then extract semantics or first extract semantics and then predict. We investigate these configurations using the Local Frequency Domain Transformer Network (LFDTN) as the video prediction model and U-Net as the semantic extraction model on synthetic and real datasets.
翻訳日:2021-10-07 14:23:56 公開日:2021-10-06
# 授業境界における意味的セグメンテーションのための教師なしドメイン適応

Shallow Features Guide Unsupervised Domain Adaptation for Semantic Segmentation at Class Boundaries ( http://arxiv.org/abs/2110.02833v1 )

ライセンス: Link先を確認
Adriano Cardace, Pierluigi Zama Ramirez, Samuele Salti, Luigi Di Stefano(参考訳) 深層ニューラルネットワークはセマンティックセグメンテーションのタスクにおいて顕著な結果を得たが、特に合成から現実への適応を行う場合、通常は新しいドメインへの一般化に失敗する。 このようなドメインシフトはクラス境界に沿って特に顕著であり、シャープなセグメンテーションマスクを取得するためのセグメンテーションの主な目標の1つを無効にする。 本研究では,教師なしドメイン適応という文脈において,この核となる問題に特に対処し,鋭い予測を得るための新しい低レベル適応戦略を提案する。 さらに,近年の自己学習技術に触発されて,自己学習に擬似ラベルを用いた場合のセマンティック境界におけるノイズを緩和する効果的なデータ拡張を導入する。 私たちのコントリビューションは、他の一般的な適応フレームワークに簡単に統合することができます。

Although deep neural networks have achieved remarkable results for the task of semantic segmentation, they usually fail to generalize towards new domains, especially when performing synthetic-to-real adaptation. Such domain shift is particularly noticeable along class boundaries, invalidating one of the main goals of semantic segmentation that consists in obtaining sharp segmentation masks. In this work, we specifically address this core problem in the context of Unsupervised Domain Adaptation and present a novel low-level adaptation strategy that allows us to obtain sharp predictions. Moreover, inspired by recent self-training techniques, we introduce an effective data augmentation that alleviates the noise typically present at semantic boundaries when employing pseudo-labels for self-training. Our contributions can be easily integrated into other popular adaptation frameworks, and extensive experiments show that they effectively improve performance along class boundaries.
翻訳日:2021-10-07 14:23:41 公開日:2021-10-06
# 画像ベース欠陥検出のための完全畳み込みクロススケールフロー

Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection ( http://arxiv.org/abs/2110.02855v1 )

ライセンス: Link先を確認
Marco Rudolph, Tom Wehrbein, Bodo Rosenhahn, Bastian Wandt(参考訳) 工業生産プロセスでは、エラーは予測不能な時間と未知の表出で頻繁に発生する。 欠陥部分の画像サンプルを必要とせずに自動欠陥検出の問題に取り組む。 最近の研究は、強い統計的事前または過度に単純化されたデータ表現を用いて、欠陥のない画像データの分布をモデル化している。 対照的に,我々のアプローチでは,大域的および局所的な画像コンテキストを柔軟に推定しながら,細粒度表現を扱う。 そこで本研究では,異なるスケールの複数特徴写像を共同処理する,完全畳み込み型クロススケール正規化フロー(CS-Flow)を提案する。 正規化フローを使用して意味のある確率を入力サンプルに割り当てることで、画像レベルでの効率的な欠陥検出が可能になる。 さらに、保存空間配置のため、正規化フローの潜時空間を解釈可能とし、画像内の欠陥領域を局所化することができる。 本研究は,画像レベルの欠陥検出における新たな最先端をベンチマークデータセットに設定し,磁気タイル欠陥とmvtec adを15クラス中4クラスで100%aurocを示した。

In industrial manufacturing processes, errors frequently occur at unpredictable times and in unknown manifestations. We tackle the problem of automatic defect detection without requiring any image samples of defective parts. Recent works model the distribution of defect-free image data, using either strong statistical priors or overly simplified data representations. In contrast, our approach handles fine-grained representations incorporating the global and local image context while flexibly estimating the density. To this end, we propose a novel fully convolutional cross-scale normalizing flow (CS-Flow) that jointly processes multiple feature maps of different scales. Using normalizing flows to assign meaningful likelihoods to input samples allows for efficient defect detection on image-level. Moreover, due to the preserved spatial arrangement the latent space of the normalizing flow is interpretable which enables to localize defective regions in the image. Our work sets a new state-of-the-art in image-level defect detection on the benchmark datasets Magnetic Tile Defects and MVTec AD showing a 100% AUROC on 4 out of 15 classes.
翻訳日:2021-10-07 14:23:24 公開日:2021-10-06
# SDA-GAN: スペクトル領域注意誘導ジェネレータを用いた教師なし画像変換

SDA-GAN: Unsupervised Image Translation Using Spectral Domain Attention-Guided Generative Adversarial Network ( http://arxiv.org/abs/2110.02873v1 )

ライセンス: Link先を確認
Qizhou Wang, Maksim Makarenko(参考訳) この研究は、顔スタイル変換のタスクにおける教師なし画像翻訳のための新しいGANアーキテクチャを導入した。 画像内容に対する空間的注意とともに、スペクトル注意に基づくメカニズムを設計に組み込む。 ニューラルネットワークがフーリエ変換のような複雑な変換を、相当な計算コストで学習する可能性を実証した。 モデルは、空間的注意のみを使用するベースラインモデルと比較して訓練され、テストされる。 特にソースドメインとターゲットドメインが異なる複雑さを含んでいる場合(fidは142.84から49.18に低下)、このアプローチの性能改善は重要である。 翻訳過程では、fftの実装とスペクトルの注意によってスペクトル充填効果が導入された。 本論文では、別のスタイル転送タスクと実世界のオブジェクト変換についても検討する。

This work introduced a novel GAN architecture for unsupervised image translation on the task of face style transform. A spectral attention-based mechanism is embedded into the design along with spatial attention on the image contents. We proved that neural network has the potential of learning complex transformations such as Fourier transform, within considerable computational cost. The model is trained and tested in comparison to the baseline model, which only uses spatial attention. The performance improvement of our approach is significant especially when the source and target domain include different complexity (reduced FID to 49.18 from 142.84). In the translation process, a spectra filling effect was introduced due to the implementation of FFT and spectral attention. Another style transfer task and real-world object translation are also studied in this paper.
翻訳日:2021-10-07 14:23:11 公開日:2021-10-06
# 実監督のない把持型細粒布セグメンテーション

Grasp-Oriented Fine-grained Cloth Segmentation without Real Supervision ( http://arxiv.org/abs/2110.02903v1 )

ライセンス: Link先を確認
Ruijie Ren, Mohit Gurnani Rajesh, Jordi Sanchez-Riera, Fan Zhang, Yurun Tian, Antonio Agudo, Yiannis Demiris, Krystian Mikolajczyk and Francesc Moreno-Noguer(参考訳) 布操作において、一深度画像から把握可能な領域を自動的に検出することが重要な要素である。 布の変形の大きなばらつきは、局所領域の外観や深さの変化がより小さく、よりモデル化しやすいため、意味的部分よりも特定の把握点を特定することに集中する現在のアプローチのほとんどを動機付けている。 しかし、布の折り畳みや補助ドレッシングのようなタスクは、ポイントよりも多くの情報を運ぶセマンティックエッジのようなより大きなセグメントを認識する必要がある。 そこで本論文の第一の目的は, 深度画像のみを用いた変形衣服のきめ細かい領域検出問題に取り組むことである。 概念実証として,tシャツのアプローチを実装し,ネックライン,スリーブカフ,ヘムのエッジ,上下の把持点など,さまざまな範囲のセマンティック領域を最大6つ定義する。 これらの部品を分割・ラベル付けするためのU-netネットワークを導入する。 作業の第2の貢献は、提案されたネットワークのトレーニングに必要な監督レベルに関するものです。 実際のアノテーションと合成アノテーションを組み合わせることで、ほとんどのアプローチが把握ポイントを検出することを学ぶ一方で、本研究では合成データの制限を解消し、実際のアノテーションを使用しない多層化ドメイン適応(da)戦略を提案する。 細粒度ラベルを付加したTシャツの深度画像に対するアプローチを徹底的に評価した。 提案するdaと合成データのみでネットワークをトレーニングすることで,実データでトレーニングしたモデルと競合する結果が得られることを示す。

Automatically detecting graspable regions from a single depth image is a key ingredient in cloth manipulation. The large variability of cloth deformations has motivated most of the current approaches to focus on identifying specific grasping points rather than semantic parts, as the appearance and depth variations of local regions are smaller and easier to model than the larger ones. However, tasks like cloth folding or assisted dressing require recognising larger segments, such as semantic edges that carry more information than points. The first goal of this paper is therefore to tackle the problem of fine-grained region detection in deformed clothes using only a depth image. As a proof of concept, we implement an approach for T-shirts, and define up to 6 semantic regions of varying extent, including edges on the neckline, sleeve cuffs, and hem, plus top and bottom grasping points. We introduce a U-net based network to segment and label these parts. The second contribution of our work is concerned with the level of supervision that we require to train the proposed network. While most approaches learn to detect grasping points by combining real and synthetic annotations, in this work we defy the limitations of the synthetic data, and propose a multilayered domain adaptation (DA) strategy that does not use real annotations at all. We thoroughly evaluate our approach on real depth images of a T-shirt annotated with fine-grained labels. We show that training our network solely with synthetic data and the proposed DA yields results competitive with models trained on real data.
翻訳日:2021-10-07 14:23:01 公開日:2021-10-06
# 二重主成分探索によるRANSACの増強

Boosting RANSAC via Dual Principal Component Pursuit ( http://arxiv.org/abs/2110.02918v1 )

ライセンス: Link先を確認
Yunchen Yang, Xinyue Zhang, Tianjiao Ding, Daniel P. Robinson, Rene Vidal, Manolis C. Tsakiris(参考訳) 本稿では,RANSACにおける局所最適化の問題を再考する。 最善のモデルが見つかると、強力な理論支援と効率的なアルゴリズムを備えた頑健な部分空間学習手法であるdual principal component pursuit(dpcp)を通じて精錬する。 提案するdpcp-ransacは既存の手法に比べてパラメータが少なくスケーラブルである。 大規模データセットを用いた2次元ホモグラフ,基本および必須行列,および3次元ホモグラフテンソルの推定実験により,我々のアプローチは最先端の代替手法よりも一貫して精度が高いことが示された。

In this paper, we revisit the problem of local optimization in RANSAC. Once a so-far-the-best model has been found, we refine it via Dual Principal Component Pursuit (DPCP), a robust subspace learning method with strong theoretical support and efficient algorithms. The proposed DPCP-RANSAC has far fewer parameters than existing methods and is scalable. Experiments on estimating two-view homographies, fundamental and essential matrices, and three-view homographic tensors using large-scale datasets show that our approach consistently has higher accuracy than state-of-the-art alternatives.
翻訳日:2021-10-07 14:22:34 公開日:2021-10-06
# ボリュームサンプリングを用いた位相整合多視点顔推測

Topologically Consistent Multi-View Face Inference Using Volumetric Sampling ( http://arxiv.org/abs/2110.02948v1 )

ライセンス: Link先を確認
Tianye Li and Shichen Liu and Timo Bolkart and Jiayi Liu and Hao Li and Yajie Zhao(参考訳) 高忠実な顔のデジタル化ソリューションは、しばしば3次元再構成のための多視点ステレオ(MVS)技術と、アイデンティティや表現間の密接な対応を確立するための非厳密な登録ステップを組み合わせる。 一般的な問題は、MVSのステップ後に手動で掃除する必要があることだ。3Dスキャンは一般的にノイズやアウトリーチの影響を受けており、アーティストがきれいにする必要がある毛むくじゃらの表面領域を含んでいる。 さらに、メッシュ登録は極端な表情で失敗する傾向がある。 学習に基づくほとんどの手法は、強靭性を確保するために基礎となる3次元形態素モデル(3DMM)を用いるが、これは極端な表情の出力精度を制限する。 さらに、回帰アーキテクチャのグローバルなボトルネックは、基底の真理面に厳密に適合するメッシュを生成できない。 本研究では,3dmmを基盤とする明示的な表現ではなく,ボリューム表現を用いて,顔の識別や表現にトポロジ的に一貫性のあるメッシュを生成できる幾何推論フレームワークであるmulti-viewから,トポロジ的に一貫性のある顔であるtofuを提案する。 新たに開発したプログレッシブメッシュ生成ネットワークは,ジオメトリ対応の局所特徴から抽出した特徴量に顔のトポロジカル構造を埋め込む。 粗いアーキテクチャは、一貫したメッシュトポロジにおいて、密集した正確なメッシュ予測を容易にする。 さらにToFuは、細孔レベルの幾何学的詳細のための変位マップをキャプチャし、アルベドと特異反射マップという形で高品質なレンダリングを容易にする。 これらの高品質な資産は、アバターの作成、アニメーション、物理的にベースとしたスキンレンダリングのためのプロダクションスタジオで容易に利用することができる。 10k頂点を持つメッシュを計算するのに0.385秒しかかからず、最先端の幾何学的および対応的精度を示す。 コードとモデルは、https://tianyeli.git hub.io/tofuで研究目的に利用できる。

High-fidelity face digitization solutions often combine multi-view stereo (MVS) techniques for 3D reconstruction and a non-rigid registration step to establish dense correspondence across identities and expressions. A common problem is the need for manual clean-up after the MVS step, as 3D scans are typically affected by noise and outliers and contain hairy surface regions that need to be cleaned up by artists. Furthermore, mesh registration tends to fail for extreme facial expressions. Most learning-based methods use an underlying 3D morphable model (3DMM) to ensure robustness, but this limits the output accuracy for extreme facial expressions. In addition, the global bottleneck of regression architectures cannot produce meshes that tightly fit the ground truth surfaces. We propose ToFu, Topologically consistent Face from multi-view, a geometry inference framework that can produce topologically consistent meshes across facial identities and expressions using a volumetric representation instead of an explicit underlying 3DMM. Our novel progressive mesh generation network embeds the topological structure of the face in a feature volume, sampled from geometry-aware local features. A coarse-to-fine architecture facilitates dense and accurate facial mesh predictions in a consistent mesh topology. ToFu further captures displacement maps for pore-level geometric details and facilitates high-quality rendering in the form of albedo and specular reflectance maps. These high-quality assets are readily usable by production studios for avatar creation, animation and physically-based skin rendering. We demonstrate state-of-the-art geometric and correspondence accuracy, while only taking 0.385 seconds to compute a mesh with 10K vertices, which is three orders of magnitude faster than traditional techniques. The code and the model are available for research purposes at https://tianyeli.git hub.io/tofu.
翻訳日:2021-10-07 14:22:23 公開日:2021-10-06
# 非パラメトリック言語モデルにおける構造的局所性

Capturing Structural Locality in Non-parametric Language Models ( http://arxiv.org/abs/2110.02870v1 )

ライセンス: Link先を確認
Frank F. Xu, Junxian He, Graham Neubig, Vincent J. Hellendoorn(参考訳) 構造的局所性は現実世界のデータセットのユビキタスな特徴であり、データポイントはローカル階層に編成される。 テキスト内のトピッククラスタや、ソースコードリポジトリ内のプロジェクト階層などだ。 本稿では,非パラメトリック言語モデルにおけるこの構造的局所性を利用して,外部ソースから抽出された例を参照するシーケンスを生成する。 そこで本研究では,地域住民からサンプルを抽出する可能性を高める学習パラメータを付加することで,そのようなモデルに局所性情報を追加するための簡易かつ効果的な手法を提案する。 javaソースコードとwikipediaテキストの2つの異なるドメインでの実験では、局所性機能がこれらの機能にアクセスせずにモデルの有効性を向上させることが示されている。 また,局所性特徴がパフォーマンス向上にどのように寄与するか,また,従来の文脈的類似性指標だけでは局所性構造を把握できない理由についても分析した。

Structural locality is a ubiquitous feature of real-world datasets, wherein data points are organized into local hierarchies. Some examples include topical clusters in text or project hierarchies in source code repositories. In this paper, we explore utilizing this structural locality within non-parametric language models, which generate sequences that reference retrieved examples from an external source. We propose a simple yet effective approach for adding locality information into such models by adding learned parameters that improve the likelihood of retrieving examples from local neighborhoods. Experiments on two different domains, Java source code and Wikipedia text, demonstrate that locality features improve model efficacy over models without access to these features, with interesting differences. We also perform an analysis of how and where locality features contribute to improved performance and why the traditionally used contextual similarity metrics alone are not enough to grasp the locality structure.
翻訳日:2021-10-07 14:21:51 公開日:2021-10-06
# 非自己回帰型パラレルttにおける階層的韻律モデリングと制御

Hierarchical prosody modeling and control in non-autoregressive parallel neural TTS ( http://arxiv.org/abs/2110.02952v1 )

ライセンス: Link先を確認
Tuomo Raitio, Jiangchuan Li, Shreyas Seshadri(参考訳) ニューラルテキスト音声合成(TTS)は、自然な音声と区別できない音声を生成する。 しかし、合成音声は、より多彩な韻律変化ではなく、データベースの平均韻律スタイルを表すことが多い。 さらに、多くのモデルは出力の韻律を制御する能力に欠けており、同じテキスト入力に対して異なるスタイルを許さない。 本研究では,非自己回帰型並列型TTSモデルを用いて,粗さと細粒度の両方の音響特徴を階層的に調整し,直感的かつ有意義な韻律空間を学習する。 実験により, 発話方向のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きを階層的に調整した非自己回帰的TSモデルでは, 韻律次元を効果的に制御し, 多様な話し方を生成し, 単語強調制御が可能であり, ベースラインモデルに等しくあるいは良質な品質を維持した。

Neural text-to-speech (TTS) synthesis can generate speech that is indistinguishable from natural speech. However, the synthetic speech often represents the average prosodic style of the database instead of having more versatile prosodic variation. Moreover, many models lack the ability to control the output prosody, which does not allow for different styles for the same text input. In this work, we train a non-autoregressive parallel neural TTS model hierarchically conditioned on both coarse and fine-grained acoustic speech features to learn a latent prosody space with intuitive and meaningful dimensions. Experiments show that a non-autoregressive TTS model hierarchically conditioned on utterance-wise pitch, pitch range, duration, energy, and spectral tilt can effectively control each prosodic dimension, generate a wide variety of speaking styles, and provide word-wise emphasis control, while maintaining equal or better quality to the baseline model.
翻訳日:2021-10-07 14:21:36 公開日:2021-10-06
# スペクトルバイアスの実践 : 一般化における関数周波数の役割

Spectral Bias in Practice: The Role of Function Frequency in Generalization ( http://arxiv.org/abs/2110.02424v1 )

ライセンス: Link先を確認
Sara Fridovich-Keil, Raphael Gontijo-Lopes, Rebecca Roelofs(参考訳) 非常に表現力のある関数を表現できるにもかかわらず、SGDで訓練されたディープラーニングモデルは、驚くほどうまく一般化する単純で制約のあるソリューションを見つけるように思える。 ニューラルネットワークが低周波関数の学習を優先する傾向にあるスペクトルバイアスは、この現象の1つの可能な説明であるが、これまでのところ、スペクトルバイアスは理論モデルや単純な実験でのみ観察されている。 本研究では,現代の画像分類網におけるスペクトルバイアスを測定する手法を提案する。 これらのネットワークは実際にスペクトルバイアスを示しており、オーバーフィッティングを避けるのに十分な単純さを保ちながら、データの適合に十分な複雑性(高頻度)を持つネットワークとのバランスをうまく一般化する。 例えば、より大規模なモデルはより小さなモデルよりも高速に学習できることを実験的に示すが、明示的かつ暗黙的に多くの正規化形式がスペクトルバイアスを増幅し、高頻度の学習を遅らせる。 また, 機能周波数と画像周波数の相関について検討し, スペクトルバイアスが自然画像に分布する低周波数に敏感であることを見出した。 我々の研究は、画像分類に使用されるニューラルネットワークのスペクトル挙動の測定と制御を可能にし、なぜディープモデルが一般化されるのかを理解するためのステップである。

Despite their ability to represent highly expressive functions, deep learning models trained with SGD seem to find simple, constrained solutions that generalize surprisingly well. Spectral bias - the tendency of neural networks to prioritize learning low frequency functions - is one possible explanation for this phenomenon, but so far spectral bias has only been observed in theoretical models and simplified experiments. In this work, we propose methodologies for measuring spectral bias in modern image classification networks. We find that these networks indeed exhibit spectral bias, and that networks that generalize well strike a balance between having enough complexity(i.e. high frequencies) to fit the data while being simple enough to avoid overfitting. For example, we experimentally show that larger models learn high frequencies faster than smaller ones, but many forms of regularization, both explicit and implicit, amplify spectral bias and delay the learning of high frequencies. We also explore the connections between function frequency and image frequency and find that spectral bias is sensitive to the low frequencies prevalent in natural images. Our work enables measuring and ultimately controlling the spectral behavior of neural networks used for image classification, and is a step towards understanding why deep models generalize well
翻訳日:2021-10-07 14:20:28 公開日:2021-10-06
# 高度蒸留によるオンラインハイパーパラメータメタラーニング

Online Hyperparameter Meta-Learning with Hypergradient Distillation ( http://arxiv.org/abs/2110.02508v1 )

ライセンス: Link先を確認
Hae Beom Lee, Hayeon Lee, Jaewoong Shin, Eunho Yang, Timothy Hospedales, Sung Ju Hwang(参考訳) 多くの勾配に基づくメタラーニング手法は、内部最適化に関与しないパラメータの集合を仮定しており、超パラメータと見なすことができる。 このようなハイパーパラメータは、既存の勾配に基づくハイパーパラメータ最適化(HO)手法を用いて最適化できるが、以下の問題に悩まされる。 非ローリング微分法は高次元超パラメータやホライズン長に対してうまくスケールせず、暗黙関数定理(ift)に基づく手法はオンライン最適化に制限があり、短地平線近似は短地平線バイアスを負う。 本研究では, 知識蒸留による2次項の近似により, これらの限界を克服できる新しいHO法を提案する。 具体的には、hoステップごとに単一のjacob-vector積(jvp)をパラメータ化し、真の二階項からの距離を最小化する。 本手法はオンライン最適化が可能であり,ハイパーパラメータ次元や水平長にもスケーラブルである。 本稿では,2つのメタ学習手法と3つのベンチマークデータセットに対する提案手法の有効性を示す。

Many gradient-based meta-learning methods assume a set of parameters that do not participate in inner-optimization, which can be considered as hyperparameters. Although such hyperparameters can be optimized using the existing gradient-based hyperparameter optimization (HO) methods, they suffer from the following issues. Unrolled differentiation methods do not scale well to high-dimensional hyperparameters or horizon length, Implicit Function Theorem (IFT) based methods are restrictive for online optimization, and short horizon approximations suffer from short horizon bias. In this work, we propose a novel HO method that can overcome these limitations, by approximating the second-order term with knowledge distillation. Specifically, we parameterize a single Jacobian-vector product (JVP) for each HO step and minimize the distance from the true second-order term. Our method allows online optimization and also is scalable to the hyperparameter dimension and the horizon length. We demonstrate the effectiveness of our method on two different meta-learning methods and three benchmark datasets.
翻訳日:2021-10-07 14:20:06 公開日:2021-10-06
# 知識グラフにおけるルール学習のトポロジ的視点

A Topological View of Rule Learning in Knowledge Graphs ( http://arxiv.org/abs/2110.02510v1 )

ライセンス: Link先を確認
Zuoyu Yan, Tengfei Ma, Liangcai Gao, Zhi Tang, Chao Chen(参考訳) 帰納的関係予測は知識グラフ補完の重要な学習課題である。 規則の存在、すなわち関係の列を2つの実体の間の関係を予測するのに用いることができる。 以前の作業ではルールをパスとして捉えており、主にエンティティ間のパスの検索に重点を置いている。 パスの空間は巨大であり、効率と正確性を犠牲にしなければならない。 本稿では,知識グラフの規則をサイクルとして考慮し,サイクルの空間が代数トポロジーの理論に基づく一意的な構造を持つことを示す。 サイクル空間の線形構造を探索することで、ルールの探索効率を向上させることができる。 サイクルの空間にまたがるサイクルベースを収集することを提案する。 収集サイクル上に新しいGNNフレームワークを構築し,サイクルの表現を学習し,関連性の有無を予測する。 本手法は,ベンチマークによる最先端性能を実現する。

Inductive relation prediction is an important learning task for knowledge graph completion. One can use the existence of rules, namely a sequence of relations, to predict the relation between two entities. Previous works view rules as paths and primarily focus on the searching of paths between entities. The space of paths is huge, and one has to sacrifice either efficiency or accuracy. In this paper, we consider rules in knowledge graphs as cycles and show that the space of cycles has a unique structure based on the theory of algebraic topology. By exploring the linear structure of the cycle space, we can improve the searching efficiency of rules. We propose to collect cycle bases that span the space of cycles. We build a novel GNN framework on the collected cycles to learn the representations of cycles, and to predict the existence/non-existe nce of a relation. Our method achieves state-of-the-art performance on benchmarks.
翻訳日:2021-10-07 14:19:48 公開日:2021-10-06
# 深層強化学習によるピックアップ・デリバリー問題を解決するための異種注意

Heterogeneous Attentions for Solving Pickup and Delivery Problem via Deep Reinforcement Learning ( http://arxiv.org/abs/2110.02634v1 )

ライセンス: Link先を確認
Jingwen Li, Liang Xin, Zhiguang Cao, Andrew Lim, Wen Song, Jie Zhang(参考訳) 近年,車両経路問題(vrp)に深層強化学習を適用し,学習方針が来訪ノードの選択を規定するトレンドが浮上している。 しかし,vrpの代表的な変種であるピックアップ・アンド・デリバリー問題(pdp)では,既存の手法ではペアリングと優先関係をうまく扱えなかった。 この課題に対処するために,我々は,異種注意機構と統合した新しいニューラルネットワークを用いて,深層強化学習におけるポリシーの強化とノードの自動選択を行う。 特に、不均質な注意機構は、優先制約、すなわち、ピックアップノードがペアリング配信ノードを先取りしなければならないことを考慮しながら、ノードの役割毎の注意を特別に規定する。 さらにマスキング手法と統合し,PDPを解くための高品質な解を見つけることが期待される。 実験結果から,本手法は最先端のヒューリスティックモデルと深層学習モデルより優れ,各分布や問題サイズによく対応していることがわかった。

Recently, there is an emerging trend to apply deep reinforcement learning to solve the vehicle routing problem (VRP), where a learnt policy governs the selection of next node for visiting. However, existing methods could not handle well the pairing and precedence relationships in the pickup and delivery problem (PDP), which is a representative variant of VRP. To address this challenging issue, we leverage a novel neural network integrated with a heterogeneous attention mechanism to empower the policy in deep reinforcement learning to automatically select the nodes. In particular, the heterogeneous attention mechanism specifically prescribes attentions for each role of the nodes while taking into account the precedence constraint, i.e., the pickup node must precede the pairing delivery node. Further integrated with a masking scheme, the learnt policy is expected to find higher-quality solutions for solving PDP. Extensive experimental results show that our method outperforms the state-of-the-art heuristic and deep learning model, respectively, and generalizes well to different distributions and problem sizes.
翻訳日:2021-10-07 14:19:36 公開日:2021-10-06
# Anomaly Transformer:Associat ed Discrepancyによる時系列異常検出

Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy ( http://arxiv.org/abs/2110.02642v1 )

ライセンス: Link先を確認
Jiehui Xu, Haixu Wu, Jianmin Wang, Mingsheng Long(参考訳) 時系列における異常点の教師なし検出は困難であり、情報表現を学習し、区別可能な基準を導出する必要がある。 先行手法は主に各時点の繰り返しネットワーク表現に基づいて異常を検出する。 しかし、ポイントワイズ表現は複雑な時間的パターンに対しては情報が少なく、通常のパターンに支配され、稀な異常を区別しにくくする。 各時系列において、各時間点を全ての時間点と関連付けて記述することができ、時間的モデリングにより表現力のある点的分布として表すことができる。 さらに, 異常の希少性のため, 系列全体と強い関連性を構築することは困難であり, 関連性は主に隣接点に集中していることが観察された。 この観察は、通常の点と異常点の間に本質的に区別可能な基準を示しており、これは \emph{Association Discrepancy} として強調する。 技術的には,関係の一致を計算するために,emph{Anomaly-Attention} 機構を備えた \emph{Anomaly-Transformer} を提案する。 相関不一致の正常-異常識別性を増幅するミニマックス戦略を考案した。 Anomaly Transformerは、サービス監視、スペース・アンド・アース探査、水処理の6つの非教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する。

Unsupervisedly detecting anomaly points in time series is challenging, which requires the model to learn informative representations and derive a distinguishable criterion. Prior methods mainly detect anomalies based on the recurrent network representation of each time point. However, the point-wise representation is less informative for complex temporal patterns and can be dominated by normal patterns, making rare anomalies less distinguishable. We find that in each time series, each time point can also be described by its associations with all time points, presenting as a point-wise distribution that is more expressive for temporal modeling. We further observe that due to the rarity of anomalies, it is harder for anomalies to build strong associations with the whole series and their associations shall mainly concentrate on the adjacent time points. This observation implies an inherently distinguishable criterion between normal and abnormal points, which we highlight as the \emph{Association Discrepancy}. Technically we propose the \emph{Anomaly Transformer} with an \emph{Anomaly-Attention} mechanism to compute the association discrepancy. A minimax strategy is devised to amplify the normal-abnormal distinguishability of the association discrepancy. Anomaly Transformer achieves state-of-the-art performance on six unsupervised time series anomaly detection benchmarks for three applications: service monitoring, space \& earth exploration, and water treatment.
翻訳日:2021-10-07 14:19:16 公開日:2021-10-06
# 半緩和グロモフ・ワッサーシュタイン発散とグラフへの応用

Semi-relaxed Gromov Wasserstein divergence with applications on graphs ( http://arxiv.org/abs/2110.02753v1 )

ライセンス: Link先を確認
C\'edric Vincent-Cuaz, R\'emi Flamary, Marco Corneli, Titouan Vayer, Nicolas Courty(参考訳) グラフなどの構造化オブジェクトを比較することは、多くの学習タスクに関わる基本的な操作である。 この目的のために、最適輸送(OT)に基づくGromov-Wasserstein(G W)距離は、関連する対象の特定の性質を扱うことに成功している。 具体的には、ノード接続関係を通じて、GWは特定の空間上の確率測度と見なされるグラフ上で機能する。 OTの中核は質量保存の概念であり、2つの考慮されたグラフから全てのノード間の結合を課す。 本稿では,この性質はグラフ辞書や分割学習などのタスクに有害であり,新たな半相対型gromov-wassersteinダイバージェンスを提案することで緩和する。 直接計算の利点はさておき,その性質を議論し,効率的なグラフ辞書学習アルゴリズムに導くことができることを示す。 分割、クラスタリング、補完といったグラフ上の複雑なタスクに対する関連性を実証的に示す。

Comparing structured objects such as graphs is a fundamental operation involved in many learning tasks. To this end, the Gromov-Wasserstein (GW) distance, based on Optimal Transport (OT), has proven to be successful in handling the specific nature of the associated objects. More specifically, through the nodes connectivity relations, GW operates on graphs, seen as probability measures over specific spaces. At the core of OT is the idea of conservation of mass, which imposes a coupling between all the nodes from the two considered graphs. We argue in this paper that this property can be detrimental for tasks such as graph dictionary or partition learning, and we relax it by proposing a new semi-relaxed Gromov-Wasserstein divergence. Aside from immediate computational benefits, we discuss its properties, and show that it can lead to an efficient graph dictionary learning algorithm. We empirically demonstrate its relevance for complex tasks on graphs such as partitioning, clustering and completion.
翻訳日:2021-10-07 14:18:53 公開日:2021-10-06
# 表現学習を用いたセンサス非依存人口推定

Census-Independent Population Estimation using Representation Learning ( http://arxiv.org/abs/2110.02839v1 )

ライセンス: Link先を確認
Isaac Neal and Sohan Seth and Gary Watmough and Mamadou S. Diallo(参考訳) 人口分布の知識は、インフラの構築、資源の分配、持続可能な開発目標の進捗の監視に不可欠である。 国勢調査はこの情報を提供することができるが、通常は10年に1度実施され、その過程は数十年続く。 人口は、急激な移住、開発、都市化、自然災害、紛争によってインターセンサル期に変化しうる。 衛星画像などの代替データソースを用いた国勢調査非依存人口推定アプローチは、頻繁で信頼性の高い人口推定をローカルに提供することに有望である。 しかし、既存のアプローチでは、ビルの注釈付けや様々な公共データセットへのアクセスなど、人間の監督がかなり必要であり、容易に再現できない。 モザンビークでは,近年の表現学習のアプローチを検討し,表現の人口推定への移動可能性を評価する。 表現学習を使用することで、特徴が自動的に抽出されるため、人口推定のプロセスがより持続可能になり、他の地域や国に移動しやすくなるため、人間の監督が要求される。 得られた人口推計をGRID3, Facebook (HRSL) および WorldPop の既存人口製品と比較した。 我々は,本手法がこれらの地図の最も正確なものであることを観察し,人口の情報的指標として構築された地域を認識できるという意味で解釈できる。

Knowledge of population distribution is critical for building infrastructure, distributing resources, and monitoring the progress of sustainable development goals. Although censuses can provide this information, they are typically conducted every ten years with some countries having forgone the process for several decades. Population can change in the intercensal period due to rapid migration, development, urbanisation, natural disasters, and conflicts. Census-independent population estimation approaches using alternative data sources, such as satellite imagery, have shown promise in providing frequent and reliable population estimates locally. Existing approaches, however, require significant human supervision, for example annotating buildings and accessing various public datasets, and therefore, are not easily reproducible. We explore recent representation learning approaches, and assess the transferability of representations to population estimation in Mozambique. Using representation learning reduces required human supervision, since features are extracted automatically, making the process of population estimation more sustainable and likely to be transferable to other regions or countries. We compare the resulting population estimates to existing population products from GRID3, Facebook (HRSL) and WorldPop. We observe that our approach matches the most accurate of these maps, and is interpretable in the sense that it recognises built-up areas to be an informative indicator of population.
翻訳日:2021-10-07 14:18:34 公開日:2021-10-06
# 不確実性モデリングのための多重仮説予測を保存する分布

Distribution Preserving Multiple Hypotheses Prediction for Uncertainty Modeling ( http://arxiv.org/abs/2110.02858v1 )

ライセンス: Link先を確認
Tobias Leemann, Moritz Sackmann, J\"orn Thielecke, Ulrich Hofmann(参考訳) 力学系における将来の状態予測のような教師付き機械学習タスクの多くは、予測の不確実性の正確なモデリングを必要とする。 多重仮説予測(MHP)アプローチは、可能な結果を表すいくつかの仮説を提供することによってこの問題に対処する。 残念ながら、一般的な$l_2$損失関数では、これらの仮説はデータ分散の特性を保存しない。 我々は,分布保存mhpに対する代替損失を提案し,我々の主張を裏付ける関連する定理をレビューする。 さらに,本手法は,合成および実世界の動き予測データセット上でより代表的な仮説を導出することを示す。 提案手法の出力は, サンプリングに基づくモンテカルロ法で直接利用することができる。

Many supervised machine learning tasks, such as future state prediction in dynamical systems, require precise modeling of a forecast's uncertainty. The Multiple Hypotheses Prediction (MHP) approach addresses this problem by providing several hypotheses that represent possible outcomes. Unfortunately, with the common $l_2$ loss function, these hypotheses do not preserve the data distribution's characteristics. We propose an alternative loss for distribution preserving MHP and review relevant theorems supporting our claims. Furthermore, we empirically show that our approach yields more representative hypotheses on a synthetic and a real-world motion prediction data set. The outputs of the proposed method can directly be used in sampling-based Monte-Carlo methods.
翻訳日:2021-10-07 14:18:15 公開日:2021-10-06
# 時空間グラフニューラルネットワーク

Space-Time Graph Neural Networks ( http://arxiv.org/abs/2110.02880v1 )

ライセンス: Link先を確認
Samar Hadou, Charilaos I. Kanatsoulis, and Alejandro Ribeiro(参考訳) 時空間グラフニューラルネットワーク(ST-GNN)は,時間変動ネットワークデータの時空間トポロジを共同処理する新しいGNNアーキテクチャである。 提案アーキテクチャの基盤は時間とグラフの畳み込みフィルタの構成であり,その後に非線形活性化関数が現れる。 本稿では,信号の拡散過程を模倣した畳み込み演算子の汎用的定義を導入する。 この定義に基づいて、時間とグラフシフト演算子の合成に基づいて構築された時空間グラフ畳み込みを提案する。 多変量積分リプシッツフィルタを持つST-GNNは、基礎となるグラフの小さな摂動に対して安定であり、時間ゆらぎによる時間領域の小さな摂動に対しても安定であることを示す。 解析の結果,システムのネットワークトポロジと時間進化の変動はST-GNNの性能に大きく影響しないことがわかった。 分散制御システムによる数値実験は,提案したST-GNNの有効性と安定性を示す。

We introduce space-time graph neural network (ST-GNN), a novel GNN architecture, tailored to jointly process the underlying space-time topology of time-varying network data. The cornerstone of our proposed architecture is the composition of time and graph convolutional filters followed by pointwise nonlinear activation functions. We introduce a generic definition of convolution operators that mimic the diffusion process of signals over its underlying support. On top of this definition, we propose space-time graph convolutions that are built upon a composition of time and graph shift operators. We prove that ST-GNNs with multivariate integral Lipschitz filters are stable to small perturbations in the underlying graphs as well as small perturbations in the time domain caused by time warping. Our analysis shows that small variations in the network topology and time evolution of a system does not significantly affect the performance of ST-GNNs. Numerical experiments with decentralized control systems showcase the effectiveness and stability of the proposed ST-GNNs.
翻訳日:2021-10-07 14:18:06 公開日:2021-10-06
# マルチエージェント制約付き政策最適化

Multi-Agent Constrained Policy Optimisation ( http://arxiv.org/abs/2110.02793v1 )

ライセンス: Link先を確認
Shangding Gu, Jakub Grudzien Kuba, Munning Wen, Ruiqing Chen, Ziyan Wang, Zheng Tian, Jun Wang, Alois Knoll, Yaodong Yang(参考訳) 安全性の制約を満たす強化学習アルゴリズムの開発は、現実のアプリケーションではますます重要になっている。 マルチエージェント強化学習(MARL)では、各エージェントが自身の安全制約を満たすだけでなく、他のエージェントも共同行動の安全を保証するために考慮する必要があるため、安全意識を伴うポリシー最適化が特に困難である。 その重要性にもかかわらず、安全なマルチエージェント学習の問題は厳密には研究されていない。 これらのギャップを埋めるために、本稿では、制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。 我々のソリューション -- MACPO (Multi-Agent Constrained Policy Optimisation) とMAPPO-Lagrangian -- は、制約された政策最適化とマルチエージェント信頼領域学習の両方から理論を活用する。 本手法は,各イテレーションにおける報酬の単調な改善と安全制約の満足度の両方を理論的に保証する。 本手法の有効性を検討するため,多様なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。 実験結果からMACPO/MAPPO-Lagrangi anは安全性の制約を一貫して満たすことができ、高いベースラインに匹敵する性能を達成できる。

Developing reinforcement learning algorithms that satisfy safety constraints is becoming increasingly important in real-world applications. In multi-agent reinforcement learning (MARL) settings, policy optimisation with safety awareness is particularly challenging because each individual agent has to not only meet its own safety constraints, but also consider those of others so that their joint behaviour can be guaranteed safe. Despite its importance, the problem of safe multi-agent learning has not been rigorously studied; very few solutions have been proposed, nor a sharable testing environment or benchmarks. To fill these gaps, in this work, we formulate the safe MARL problem as a constrained Markov game and solve it with policy optimisation methods. Our solutions -- Multi-Agent Constrained Policy Optimisation (MACPO) and MAPPO-Lagrangian -- leverage the theories from both constrained policy optimisation and multi-agent trust region learning. Crucially, our methods enjoy theoretical guarantees of both monotonic improvement in reward and satisfaction of safety constraints at every iteration. To examine the effectiveness of our methods, we develop the benchmark suite of Safe Multi-Agent MuJoCo that involves a variety of MARL baselines. Experimental results justify that MACPO/MAPPO-Lagrangi an can consistently satisfy safety constraints, meanwhile achieving comparable performance to strong baselines.
翻訳日:2021-10-07 14:17:52 公開日:2021-10-06
# 分断空間における効率的かつ高品質な事前配置

Efficient and High-quality Prehensile Rearrangement in Cluttered and Confined Spaces ( http://arxiv.org/abs/2110.02814v1 )

ライセンス: Link先を確認
Rui Wang, Yinglong Miao, Kostas E. Bekris(参考訳) クラッタ空間と制約空間における物体の事前配置は広く応用されているが、これも困難である。 例えば、食料品や家庭用棚に商品を並べ替えることは、ロボットがすべてのオブジェクトに直接アクセスできず、自由スペースが限られていることを意味する。 これは、オブジェクトがトップダウングリップで容易にアクセスでき、ロボットとオブジェクトの相互作用が簡単になるテーブルトップアレンジメントよりも難しい。 この研究は、タスク完了にそのような相互作用が不可欠であり、再配置計画における最先端の結果を拡張する問題に焦点を当てる。 モノトンインスタンスの一般的な制約の下で、各オブジェクトを最大1回移動させることで解決できる新しい効率的で完全な解法を提案する。 モノトーンソルバは、ロボット対象の制約を理由とし、探索空間を効果的にプルーピングするためにそれらを使用する。 新しいモノトンソルバはグローバルプランナーと統合され、高品質なソリューションで非モノトンインスタンスを高速に解決する。 さらに,本研究は,拘束空間における再配置のための腕の動き計画の高速化に有効な前処理ツールを提供する。 この前処理ツールは、オンラインクエリ解決における大幅なスピードアップ(平均49.1%高速化)を提供する。 シミュレーションによる比較では、提案した単調解法は前処理ツールを備えており、57.3%の高速化と3倍の成功率を実現している。 同様に、結果のグローバルプランナーは計算効率が良く、より強力なモノトーンソルバと前処理ツールによって高い成功率を持ち、非モノトーンインスタンスの高品質なソリューションを生成する(つまり平均1.3バッファしか必要としない)。 実際のロボットシステムとコードのデモビデオはhttps://github.com/R ui1223/uniform_objec t_rearrangementで見ることができる。

Prehensile object rearrangement in cluttered and confined spaces has broad applications but is also challenging. For instance, rearranging products in a grocery or home shelf means that the robot cannot directly access all objects and has limited free space. This is harder than tabletop rearrangement where objects are easily accessible with top-down grasps, which simplifies robot-object interactions. This work focuses on problems where such interactions are critical for completing tasks and extends state-of-the-art results in rearrangement planning. It proposes a new efficient and complete solver under general constraints for monotone instances, which can be solved by moving each object at most once. The monotone solver reasons about robot-object constraints and uses them to effectively prune the search space. The new monotone solver is integrated with a global planner to solve non-monotone instances with high-quality solutions fast. Furthermore, this work contributes an effective pre-processing tool to speed up arm motion planning for rearrangement in confined spaces. The pre-processing tool provide significant speed-ups (49.1% faster on average) in online query resolution. Comparisons in simulations further demonstrate that the proposed monotone solver, equipped with the pre-processing tool, results in 57.3% faster computation and 3 times higher success rate than alternatives. Similarly, the resulting global planner is computationally more efficient and has a higher success rate given the more powerful monotone solver and the pre-processing tool, while producing high-quality solutions for non-monotone instances (i.e., only 1.3 buffers are needed on average). Videos of demonstrating solutions on a real robotic system and codes can be found at https://github.com/R ui1223/uniform_objec t_rearrangement.
翻訳日:2021-10-07 14:17:27 公開日:2021-10-06
# spell my name:キーワードによって音声認識が促進される

Spell my name: keyword boosted speech recognition ( http://arxiv.org/abs/2110.02791v1 )

ライセンス: Link先を確認
Namkyu Jung, Geonmin Kim, Joon Son Chung(参考訳) 会話を理解するには、名前や専門用語などの一般的でない単語の認識が重要である。 しかし、このような単語を認識する能力は、現代の自動音声認識(ASR)システムでは依然として課題である。 本稿では,これらの非共通なキーワードをよりよく認識し,その結果の可読性を向上する,シンプルだが強力なASR復号法を提案する。 本手法は,音響モデル予測に基づくビーム探索において与えられたキーワードの確率を高める。 この方法は事前の訓練を必要としない。 本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで示す。 提案手法は,他の単語の精度を保ちつつ,テストセットのキーワード精度を大幅に向上させるとともに,質的改善をもたらす。 この方法は、機械翻訳などの他のタスクにも適用でき、ビーム探索では、見当たらない、難しいキーワードを認識する必要がある。

Recognition of uncommon words such as names and technical terminology is important to understanding conversations in context. However, the ability to recognise such words remains a challenge in modern automatic speech recognition (ASR) systems. In this paper, we propose a simple but powerful ASR decoding method that can better recognise these uncommon keywords, which in turn enables better readability of the results. The method boosts the probabilities of given keywords in a beam search based on acoustic model predictions. The method does not require any training in advance. We demonstrate the effectiveness of our method on the LibriSpeeech test sets and also internal data of real-world conversations. Our method significantly boosts keyword accuracy on the test sets, while maintaining the accuracy of the other words, and as well as providing significant qualitative improvements. This method is applicable to other tasks such as machine translation, or wherever unseen and difficult keywords need to be recognised in beam search.
翻訳日:2021-10-07 14:16:30 公開日:2021-10-06
# TSN-CA:低照度画像強調のためのチャネル注意型2段階ネットワーク

TSN-CA: A Two-Stage Network with Channel Attention for Low-Light Image Enhancement ( http://arxiv.org/abs/2110.02477v1 )

ライセンス: Link先を確認
Xinxu Wei, Xianshi Zhang, Shisen Wang, Yanlin Huang, and Yongjie Li(参考訳) 低光度画像強調は、画像の明るさを高めた後、増幅ノイズ、色歪、ディテールロス、ぼやけたエッジ、シャドーブロック、haloアーティファクトに対処する必要があるため、挑戦的な低レベルのコンピュータビジョンタスクである。 本稿では,低照度画像の明るさを向上し,各種の劣化画像から高輝度画像を復元する,チャネル注意型2段階ネットワーク(TSN-CA)を提案する。 第1段階では、HSV空間における低照度画像の明るさを高め、HおよびSチャネルの情報を用いて、Vチャネルにおける詳細の回復を支援する。 第2段階では、RGB空間の深刻な劣化から輝度強調画像の復元のために、チャネル注意機構をU-Netのスキップ接続に統合する。 我々は,lol実世界および合成データセット上での提案モデルの性能を訓練し,評価する。 さらに、基盤となるデータなしで、他のよく使われるデータセットでモデルをテストします。 提案手法は,輝度向上,デノイジング,細部保存,haloアーティファクト除去に優れた効果を発揮することを示すため,広範な実験を行った。 本手法は他の多くの最先端手法よりも質的,定量的に優れている。

Low-light image enhancement is a challenging low-level computer vision task because after we enhance the brightness of the image, we have to deal with amplified noise, color distortion, detail loss, blurred edges, shadow blocks and halo artifacts. In this paper, we propose a Two-Stage Network with Channel Attention (denoted as TSN-CA) to enhance the brightness of the low-light image and restore the enhanced images from various kinds of degradation. In the first stage, we enhance the brightness of the low-light image in HSV space and use the information of H and S channels to help the recovery of details in V channel. In the second stage, we integrate Channel Attention (CA) mechanism into the skip connection of U-Net in order to restore the brightness-enhanced image from severe kinds of degradation in RGB space. We train and evaluate the performance of our proposed model on the LOL real-world and synthetic datasets. In addition, we test our model on several other commonly used datasets without Ground-Truth. We conduct extensive experiments to demonstrate that our method achieves excellent effect on brightness enhancement as well as denoising, details preservation and halo artifacts elimination. Our method outperforms many other state-of-the-art methods qualitatively and quantitatively.
翻訳日:2021-10-07 14:16:07 公開日:2021-10-06
# 自分自身の障害検出のために複数のタスクに参加すること

See Yourself in Others: Attending Multiple Tasks for Own Failure Detection ( http://arxiv.org/abs/2110.02549v1 )

ライセンス: Link先を確認
Boyang Sun, Jiaxu Xing, Hermann Blum, Roland Siegwart, Cesar Cadena(参考訳) 自律ロボットは、現実の環境で予期せぬシナリオを扱う。 入力画像が与えられた場合、意味セグメンテーション、深さ推定、正規推定など、様々な視覚知覚タスクを行うことができる。 これらの異なるタスクは、ロボット認識システム全体に豊富な情報を提供する。 すべてのタスクは、潜在的な相関を共有しながら、それぞれ独自の特性を持つ。 しかし、タスク予測の一部は、複雑なシーンや異常を扱う信頼性の欠如に悩まされている。 複数のタスク間の相関を利用して注意に基づく障害検出手法を提案する。 提案手法は,画像内の異なる領域に対する複数の視覚知覚タスク間の個人予測を評価することにより,タスク失敗を推定する。 評価の定式化は,マルチタスク不確実性推定による注意ネットワークとその予測誤差に基づいている。 提案手法は,異なるタスクの予測に対する予測誤差をより正確に推定する。

Autonomous robots deal with unexpected scenarios in real environments. Given input images, various visual perception tasks can be performed, e.g., semantic segmentation, depth estimation and normal estimation. These different tasks provide rich information for the whole robotic perception system. All tasks have their own characteristics while sharing some latent correlations. However, some of the task predictions may suffer from the unreliability dealing with complex scenes and anomalies. We propose an attention-based failure detection approach by exploiting the correlations among multiple tasks. The proposed framework infers task failures by evaluating the individual prediction, across multiple visual perception tasks for different regions in an image. The formulation of the evaluations is based on an attention network supervised by multi-task uncertainty estimation and their corresponding prediction errors. Our proposed framework generates more accurate estimations of the prediction error for the different task's predictions.
翻訳日:2021-10-07 14:15:44 公開日:2021-10-06
# 胸部x線画像における肺炎分類のための転送学習能力の検討

Study on Transfer Learning Capabilities for Pneumonia Classification in Chest-X-Rays Image ( http://arxiv.org/abs/2110.02780v1 )

ライセンス: Link先を確認
Danilo Avola, Andrea Bacciu, Luigi Cinque, Alessio Fagioli, Marco Raoul Marini, Riccardo Taiello(参考訳) 昨年、重症急性呼吸器症候群ウイルス(SARS-CoV-2)とその変異体は、新型コロナウイルスなどの新規疾患の診断精度の高いスクリーニングツールの重要性を強調した。 その意味で、深層学習アプローチは、特に胸部X線画像を考える場合、肺炎分類の有効な解決策として証明されている。 しかし、この肺感染症は、他のウイルス、細菌または真菌病原体によっても引き起こされる。 その結果、臨床医が正しい病原体の診断に役立てるために、感染源を区別する努力が注がれている。 この傾向に従い、本研究は、肺炎分類タスクにおける確立されたニューラルネットワークアーキテクチャの有効性を、トランスファー学習パラダイムを通じてさらに探究する。 本研究の包括的比較として,精細に調整し,健常者の胸部x線像と,ウイルス性肺炎(総称またはsars-cov-2)または細菌由来の肺炎像の鑑別に用いた。 さらに、これらのカテゴリを区別する共通の公開コレクションが現在利用できないため、上記のソースを記述した胸部X線画像の2つの異なるデータセットを組み合わせて、様々なアーキテクチャの評価を行った。 実験は、列車、バリデーション、テストセットを分割した合計6330枚の画像を用いて行われた。 すべてのモデルにおいて、一般的な分類基準(例えば、精度、f1スコア)が計算され、ほとんどのアーキテクチャは、4つの識別されたクラスを識別すると84.46%の平均f1スコアまで到達した。 さらに、Grad-CAMアルゴリズムを用いて計算した混乱行列とアクティベーションマップも報告し、ネットワーク分類に関する情報交換を行った。

Over the last year, the severe acute respiratory syndrome coronavirus-2 (SARS-CoV-2) and its variants have highlighted the importance of screening tools with high diagnostic accuracy for new illnesses such as COVID-19. To that regard, deep learning approaches have proven as effective solutions for pneumonia classification, especially when considering chest-x-rays images. However, this lung infection can also be caused by other viral, bacterial or fungi pathogens. Consequently, efforts are being poured toward distinguishing the infection source to help clinicians to diagnose the correct disease origin. Following this tendency, this study further explores the effectiveness of established neural network architectures on the pneumonia classification task through the transfer learning paradigm. To present a comprehensive comparison, 12 well-known ImageNet pre-trained models were fine-tuned and used to discriminate among chest-x-rays of healthy people, and those showing pneumonia symptoms derived from either a viral (i.e., generic or SARS-CoV-2) or bacterial source. Furthermore, since a common public collection distinguishing between such categories is currently not available, two distinct datasets of chest-x-rays images, describing the aforementioned sources, were combined and employed to evaluate the various architectures. The experiments were performed using a total of 6330 images split between train, validation and test sets. For all models, common classification metrics were computed (e.g., precision, f1-score) and most architectures obtained significant performances, reaching, among the others, up to 84.46% average f1-score when discriminating the 4 identified classes. Moreover, confusion matrices and activation maps computed via the Grad-CAM algorithm were also reported to present an informed discussion on the networks classifications.
翻訳日:2021-10-07 14:15:32 公開日:2021-10-06
# 深層学習に基づくオーディオインイメージ透かし方式

A Deep Learning-based Audio-in-Image Watermarking Scheme ( http://arxiv.org/abs/2110.02436v1 )

ライセンス: Link先を確認
Arjon Das, Xin Zhong(参考訳) 本稿では,深層学習に基づく音声画像透かし方式を提案する。 オーディオ・イン・イメージ・透かし(Audio-in-image watermarking)は、隠れた画像に音声の透かしを埋め込んで抽出する手法である。 オーディオ透かしを使うことで、さまざまな下流アプリケーションの可能性を開くことができる。 ますます多様な状況の要求に対応する画像内透かしを実装するために、ニューラルネットワークアーキテクチャは、教師なしの方法で自動的に透かしプロセスを学習するように設計されている。 さらに,歪み下での音響透かしを認識するために類似性ネットワークを構築し,提案手法の堅牢性を提供する。 提案する視覚障害者用透かし方式の信頼性とロバスト性が実験により示された。

This paper presents a deep learning-based audio-in-image watermarking scheme. Audio-in-image watermarking is the process of covertly embedding and extracting audio watermarks on a cover-image. Using audio watermarks can open up possibilities for different downstream applications. For the purpose of implementing an audio-in-image watermarking that adapts to the demands of increasingly diverse situations, a neural network architecture is designed to automatically learn the watermarking process in an unsupervised manner. In addition, a similarity network is developed to recognize the audio watermarks under distortions, therefore providing robustness to the proposed method. Experimental results have shown high fidelity and robustness of the proposed blind audio-in-image watermarking scheme.
翻訳日:2021-10-07 14:13:45 公開日:2021-10-06
# AIエージェントが動くターゲットにぶつかるのか?

Can an AI agent hit a moving target? ( http://arxiv.org/abs/2110.02474v1 )

ライセンス: Link先を確認
Rui (Aruhan) Shi(参考訳) 私たちが住んでいる経済は時間とともに進化しているため、モデル内の経済エージェントが環境の変化に適応できる期待を形成することが不可欠である。 このエクササイズは、学習と意思決定に関するコンピュータ科学、心理学、神経科学研究につながり、政策体制を変更した経済に適用する、もっともらしい予測形成モデルを提供する。 強化学習のアクター批判モデルを用いて、新鮮な環境で生まれたエージェントは、まず環境と対話することで学習する。 これには探索的行動と対応する刺激信号の観測が含まれる。 このインタラクティブな体験は、世界に対する主観的な信念を更新するために使われる。 いくつかのシミュレーション実験を通して、エージェントはインフレ目標の増大に直面した主観的信念を調整する。 さらに、主観的信念は、世界のエージェントの経験に応じて進化する。

As the economies we live in are evolving over time, it is imperative that economic agents in models form expectations that can adjust to changes in the environment. This exercise offers a plausible expectation formation model that connects to computer science, psychology and neural science research on learning and decision-making, and applies it to an economy with a policy regime change. Employing the actor-critic model of reinforcement learning, the agent born in a fresh environment learns through first interacting with the environment. This involves taking exploratory actions and observing the corresponding stimulus signals. This interactive experience is then used to update its subjective belief about the world. I show, through several simulation experiments, that the agent adjusts its subjective belief facing an increase of inflation target. Moreover, the subjective belief evolves according to the agent's experience in the world.
翻訳日:2021-10-07 14:13:31 公開日:2021-10-06
# 量子ニューラルネットワークにおける指数的に多くの局所最小値

Exponentially Many Local Minima in Quantum Neural Networks ( http://arxiv.org/abs/2110.02479v1 )

ライセンス: Link先を確認
Xuchen You, Xiaodi Wu(参考訳) 量子ニューラルネットワーク(QNN、Quantum Neural Networks)またはいわゆる変動量子回路は、古典的ニューラルネットワークと同様の約束と、短期的な中規模ノイズ量子マシン(NISQ)の実装の可能性の両方から重要な量子応用である。 しかし、QNNのトレーニングタスクは困難であり、あまり理解されていない。 我々は,QNNの損失関数のランドスケープを定量的に調査し,トレーニング用に単純だが極めて難しいQNNインスタンスのクラスを特定する。 具体的には,パラメータ数に比例して局所最小値が指数関数的に増加するような損失関数を誘導するデータセットが存在することを示す。 さらに、そのような依存にほぼ一致する上限を与えることにより、構築の最適性を示す。 古典的ニューラルネットワークの局所ミニマは非線形活性化によるものであるが、量子ニューラルネットワークの局所ミニマは量子干渉現象の結果として現れる。 最後に、我々の構造は、典型的な勾配に基づく最適化器で実際に難しい事例になり得ることを実証的に確認し、その結果の実用的価値を示す。

Quantum Neural Networks (QNNs), or the so-called variational quantum circuits, are important quantum applications both because of their similar promises as classical neural networks and because of the feasibility of their implementation on near-term intermediate-size noisy quantum machines (NISQ). However, the training task of QNNs is challenging and much less understood. We conduct a quantitative investigation on the landscape of loss functions of QNNs and identify a class of simple yet extremely hard QNN instances for training. Specifically, we show for typical under-parameterized QNNs, there exists a dataset that induces a loss function with the number of spurious local minima depending exponentially on the number of parameters. Moreover, we show the optimality of our construction by providing an almost matching upper bound on such dependence. While local minima in classical neural networks are due to non-linear activations, in quantum neural networks local minima appear as a result of the quantum interference phenomenon. Finally, we empirically confirm that our constructions can indeed be hard instances in practice with typical gradient-based optimizers, which demonstrates the practical value of our findings.
翻訳日:2021-10-07 14:13:18 公開日:2021-10-06
# 複雑なネットワークによる深層ニューラルネットワークの学習ダイナミクスのキャラクタリゼーション

Characterizing Learning Dynamics of Deep Neural Networks via Complex Networks ( http://arxiv.org/abs/2110.02628v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Gabriele La Malfa, Giuseppe Nicosia, Vito Latora(参考訳) 本稿では,Deep Neural Networks with Complex Network Theoryについて述べる。 複素ネットワーク理論(CNT)は、ディープニューラルネットワーク(DNN)を重み付きグラフとして表現し、それらを動的システムとして研究する。 我々は、ノード/ニューロンとレイヤ、すなわちノード強度とレイヤ変動のメトリクスを導入し、異なる初期化とアーキテクチャでDNNの学習プロセスの進化を調べるために、CNT尺度を効率的に適用する。 本フレームワークは,学習力学のトレンドを抽出し,高精度ネットワークから低レベルを分離する。 ニューラルネットワーク(アンサンブル解析)と単一インスタンス(個別解析)の個体群を特徴付ける。 画像認識の標準問題に取り組み,リンク重み付け分析のみを通して解析すると,特定の学習ダイナミクスは区別できないことを示した。 さらに、ノードの強度と層変動は前例のない振る舞いを発生させる: 正確なネットワークは、訓練不足のモデルと比較すると、偏差が大きいほど実質的に異なる分布を示す。 本研究は,コンボリューショナルネットワークとフル接続ネットワークの両方に対して,CNTメトリクスの効率的な実装を提供することにより,この方向の研究を高速化する。

In this paper, we interpret Deep Neural Networks with Complex Network Theory. Complex Network Theory (CNT) represents Deep Neural Networks (DNNs) as directed weighted graphs to study them as dynamical systems. We efficiently adapt CNT measures to examine the evolution of the learning process of DNNs with different initializations and architectures: we introduce metrics for nodes/neurons and layers, namely Nodes Strength and Layers Fluctuation. Our framework distills trends in the learning dynamics and separates low from high accurate networks. We characterize populations of neural networks (ensemble analysis) and single instances (individual analysis). We tackle standard problems of image recognition, for which we show that specific learning dynamics are indistinguishable when analysed through the solely Link-Weights analysis. Further, Nodes Strength and Layers Fluctuations make unprecedented behaviours emerge: accurate networks, when compared to under-trained models, show substantially divergent distributions with the greater extremity of deviations. On top of this study, we provide an efficient implementation of the CNT metrics for both Convolutional and Fully Connected Networks, to fasten the research in this direction.
翻訳日:2021-10-07 14:12:57 公開日:2021-10-06
# 不均一容量車両経路問題を解決するための深層強化学習

Deep Reinforcement Learning for Solving the Heterogeneous Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2110.02629v1 )

ライセンス: Link先を確認
Jingwen Li, Yining Ma, Ruize Gao, Zhiguang Cao, Andrew Lim, Wen Song, Jie Zhang(参考訳) 既存の深層強化学習 (drl) に基づくキャパシタ付き車両ルーティング問題 (cvrp) の解法では、一台の車両の繰り返しとして艦隊が想定される均質な車両群に対応している。 したがって、ソリューションを構築するための鍵は、車両の選択を除いて、訪問する次のノード(顧客)の選択にある。 しかし、現実のシナリオにおける車両は、キャパシティ(または走行速度)に影響を与える異なる特徴を持つ異種である可能性が高いため、既存のDRLメソッドの効率は低下する。 本稿では,車種ごとに異なるキャパシティを特徴とする異種CVRP(HCVRP)について検討する。 我々は、車両の最長走行時間または総走行時間を最小化することを目的とした、hcvrpのmin-maxとmin-sumの両方の目的を考える。 これらの問題を解決するために,異種艦隊制約を考慮した車両選択デコーダと経路構成を考慮したノード選択デコーダとを用いた注意機構に基づくDRL手法を提案する。 ランダムに生成した実例に基づく実験結果から,本手法は現状のDRL法や従来のヒューリスティックスよりも優れた性能を示し,また,最先端のヒューリスティック法,すなわちSISRと競合する性能を示した。 さらに,拡張実験の結果から,本手法はCVRPLibインスタンスを良好な性能で解くことができることを示した。

Existing deep reinforcement learning (DRL) based methods for solving the capacitated vehicle routing problem (CVRP) intrinsically cope with homogeneous vehicle fleet, in which the fleet is assumed as repetitions of a single vehicle. Hence, their key to construct a solution solely lies in the selection of the next node (customer) to visit excluding the selection of vehicle. However, vehicles in real-world scenarios are likely to be heterogeneous with different characteristics that affect their capacity (or travel speed), rendering existing DRL methods less effective. In this paper, we tackle heterogeneous CVRP (HCVRP), where vehicles are mainly characterized by different capacities. We consider both min-max and min-sum objectives for HCVRP, which aim to minimize the longest or total travel time of the vehicle(s) in the fleet. To solve those problems, we propose a DRL method based on the attention mechanism with a vehicle selection decoder accounting for the heterogeneous fleet constraint and a node selection decoder accounting for the route construction, which learns to construct a solution by automatically selecting both a vehicle and a node for this vehicle at each step. Experimental results based on randomly generated instances show that, with desirable generalization to various problem sizes, our method outperforms the state-of-the-art DRL method and most of the conventional heuristics, and also delivers competitive performance against the state-of-the-art heuristic method, i.e., SISR. Additionally, the results of extended experiments demonstrate that our method is also able to solve CVRPLib instances with satisfactory performance.
翻訳日:2021-10-07 14:12:38 公開日:2021-10-06
# PlumeCityNet:マルチリゾリューション空気質予測

PlumeCityNet: Multi-Resolution Air Quality Forecasting ( http://arxiv.org/abs/2110.02661v1 )

ライセンス: Link先を確認
Thibaut Cassard, Gr\'egoire Jauvion, Antoine All\'eon, Boris Quennehen, David Lissmyr(参考訳) 本稿では, 二酸化炭素 (NO2) , オゾン (O3) および粒子状物質 (PM2.5, PM10) の主汚染物質の濃度を, それぞれ2.5um と 10um 以下である粒子として予測できるエンジンについて述べる。 エンジンは、空気質監視局の計測値、気象予報、物理モデルの出力、交通量の推定値で供給され、最大24時間の予報を生成する。 予測は数十メートルから数十キロメートルの空間分解能で作成され、大気質データを必要とするいくつかのユースケースに適合する。 これにより、ある解像度で利用可能なすべての入力をシームレスに統合し、同じ解像度で予測を返すことができる。 そして、エンジンはいくつかのブロックで構築されたU-Netアーキテクチャに基づいており、入力を処理し、異なる解像度で予測を出力することができる。 我々は、ヨーロッパとアメリカの大都市でエンジンの実装と評価を行い、他の予測方法よりも明らかに優れています。 特に、サンプルの精度は高いままであり、訓練データセットに含まれない都市でエンジンが使用できることを意味する。 エンジンの貴重な利点は、計算能力があまり必要ないことである。予測は標準CPU上で数分で構築できる。 したがって、新しい空気質モニタリングステーションの計測が利用可能になったら(一般的には毎時)、非常に頻繁に更新することが可能であり、従来の空気品質予測に使用される物理モデルではそうではない。

This paper presents an engine able to forecast jointly the concentrations of the main pollutants harming people's health: nitrogen dioxide (NO2), ozone (O3) and particulate matter (PM2.5 and PM10, which are respectively the particles whose diameters are below 2.5um and 10um respectively). The engine is fed with air quality monitoring stations' measurements, weather forecasts, physical models' outputs and traffic estimates to produce forecasts up to 24 hours. The forecasts are produced with several spatial resolutions, from a few dozens of meters to dozens of kilometers, fitting several use-cases needing air quality data. We introduce the Scale-Unit block, which enables to integrate seamlessly all available inputs at a given resolution to return forecasts at the same resolution. Then, the engine is based on a U-Net architecture built with several of those blocks, giving it the ability to process inputs and to output predictions at different resolutions. We have implemented and evaluated the engine on the largest cities in Europe and the United States, and it clearly outperforms other prediction methods. In particular, the out-of-sample accuracy remains high, meaning that the engine can be used in cities which are not included in the training dataset. A valuable advantage of the engine is that it does not need much computing power: the forecasts can be built in a few minutes on a standard CPU. Thus, they can be updated very frequently, as soon as new air quality monitoring stations' measurements are available (generally every hour), which is not the case of physical models traditionally used for air quality forecasting.
翻訳日:2021-10-07 14:12:07 公開日:2021-10-06
# FTPipeHD: 異種エッジデバイスのためのフォールトトレラントパイプライン並列分散トレーニングフレームワーク

FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training Framework for Heterogeneous Edge Devices ( http://arxiv.org/abs/2110.02781v1 )

ライセンス: Link先を確認
Yuhao Chen, Qianqian Yang, Shibo He, Zhiguo Shi, Jiming Chen(参考訳) モノのインターネット(IoT)デバイスの普及と普及に伴い、クラウドに集中するのではなく、エッジデバイスにディープラーニング(DL)のパワーを分散する傾向が高まっている。 この開発により、プライバシ保護、リアルタイム応答、ユーザ固有のモデルが改善される。 資源が限られているエッジデバイスに深層および複雑なモデルをデプロイするには、ディープニューラルネットワーク(DNN)モデルのモデル分割が必要であり、広く研究されている。 しかしながら、既存の文献のほとんどは推論モデルを配布することのみを考慮し、トレーニングを通じてこのモデルを生成するために集中型クラウドインフラストラクチャに依存している。 本稿では,分散異種デバイス間のdnnモデルをフォールトトレランス機構でトレーニングする,新しいdnnトレーニングフレームワークであるftpipehdを提案する。 各装置の時間変化計算能力でトレーニングを加速するため,リアルタイム計算能力に応じて分割点を動的に最適化する。 また、隣接するノードと中央ノードの両方に定期的に重みを複製する新しい重み再分配手法を提案する。 その結果,最高のデバイスの計算能力が最悪のものより10倍大きい場合,ftpipehdのトレーニング速度はart法より6.8倍速いことがわかった。 また,提案手法は,デバイス故障の有無に関わらず,トレーニングを高速化できることを示した。

With the increased penetration and proliferation of Internet of Things (IoT) devices, there is a growing trend towards distributing the power of deep learning (DL) across edge devices rather than centralizing it in the cloud. This development enables better privacy preservation, real-time responses, and user-specific models. To deploy deep and complex models to edge devices with limited resources, model partitioning of deep neural networks (DNN) model is necessary, and has been widely studied. However, most of the existing literature only considers distributing the inference model while still relying centralized cloud infrastructure to generate this model through training. In this paper, we propose FTPipeHD, a novel DNN training framework that trains DNN models across distributed heterogeneous devices with fault tolerance mechanism. To accelerate the training with time-varying computing power of each device, we optimize the partition points dynamically according to real-time computing capacities. We also propose a novel weight redistribution approach that replicates the weights to both the neighboring nodes and the central node periodically, which combats the failure of multiple devices during training while incurring limited communication cost. Our numerical results demonstrate that FTPipeHD is 6.8x faster in training than the state of the art method when the computing capacity of the best device is 10x greater than the worst one. It is also shown that the proposed method is able to accelerate the training even with the existence of device failures.
翻訳日:2021-10-07 14:11:41 公開日:2021-10-06
# 教師なしレーダ位置認識のためのコントラスト学習

Contrastive Learning for Unsupervised Radar Place Recognition ( http://arxiv.org/abs/2110.02744v1 )

ライセンス: Link先を確認
Matthew Gadd, Daniele De Martini, Paul Newman(参考訳) 我々は,複雑なレーダデータを用いて位置認識問題を解決するのに適したレーダ画像のシーケンスからの埋め込みを教師なしの方法で学習する。 本手法は不変インスタンス特徴学習に基づくが,シーンをスムーズに移動するモバイルプラットフォームによって収集されたデータの時間的成功率を,データ拡張に活用して再局在化の課題に合わせたものである。 我々は,400km以上の走行距離を持つ2つの都市レーダデータセットを用いて実験を行い,新たなレーダ位置認識を実現することを実証した。 特に、提案されたシステムは98.38%のクエリに対して正しいことを証明し、学習された距離空間の1つの最寄りの近傍のみを使用して、挑戦的な再ローカライズシーケンスで提示する。 また,学習モデルでは,非学習型レーダスキャンディスクリプタよりも任意の方向における車線外ループクロージャの理解度が高かった。

We learn, in an unsupervised way, an embedding from sequences of radar images that is suitable for solving the place recognition problem with complex radar data. Our method is based on invariant instance feature learning but is tailored for the task of re-localisation by exploiting for data augmentation the temporal successivity of data as collected by a mobile platform moving through the scene smoothly. We experiment across two prominent urban radar datasets totalling over 400 km of driving and show that we achieve a new radar place recognition state-of-the-art. Specifically, the proposed system proves correct for 98.38% of the queries that it is presented with over a challenging re-localisation sequence, using only the single nearest neighbour in the learned metric space. We also find that our learned model shows better understanding of out-of-lane loop closures at arbitrary orientation than non-learned radar scan descriptors.
翻訳日:2021-10-07 14:10:37 公開日:2021-10-06
# Anderson Acceleration によるミニマックス最適化の解法

Solve Minimax Optimization by Anderson Acceleration ( http://arxiv.org/abs/2110.02457v1 )

ライセンス: Link先を確認
Huan He, Shifan Zhao, Yuanzhe Xi, Joyce C Ho, Yousef Saad(参考訳) generative adversarial networks(gans)やadversarial trainingといった現代の機械学習アルゴリズムの多くは、minimax最適化として定式化することができる。 勾配降下上昇(GDA)は、その単純さから最もよく使われるアルゴリズムである。 しかし、GDAは最適でない極小点に収束することができる。 本稿では,gdadynamics を固定点反復として,anderson mixed を用いて局所的 minimax に収束する新しい minimax 最適化フレームワーク gda-am を提案する。 同時GDAの発散問題に対処し、交互GDAの収束を加速する。 理論上,このアルゴリズムは温和条件下での双線形問題に対する大域収束を実現することができることを示す。 また、GDA-AMは様々なミニマックス問題を解き、複数のデータセットでのGANトレーニングを改善することを実証的に示す。

Many modern machine learning algorithms such as generative adversarial networks (GANs) and adversarial training can be formulated as minimax optimization. Gradient descent ascent (GDA) is the most commonly used algorithm due to its simplicity. However, GDA can converge to non-optimal minimax points. We propose a new minimax optimization framework, GDA-AM, that views the GDAdynamics as a fixed-point iteration and solves it using Anderson Mixing to con-verge to the local minimax. It addresses the diverging issue of simultaneous GDAand accelerates the convergence of alternating GDA. We show theoretically that the algorithm can achieve global convergence for bilinear problems under mild conditions. We also empirically show that GDA-AMsolves a variety of minimax problems and improves GAN training on several datasets
翻訳日:2021-10-07 14:09:23 公開日:2021-10-06
# モデル仕様の可変性

The Variability of Model Specification ( http://arxiv.org/abs/2110.02490v1 )

ライセンス: Link先を確認
Joseph R. Barr, Peter Shaw, Marcus Sobel(参考訳) 良いモデルはバイアスと分散を妥協するものであるという公理と見なされている。 バイアスはトレーニングコストで測定され、(例えば、回帰)モデルの分散は検証セットに関連するコストによって測定される。 バイアスを減らすことが目標なら、必要に応じてモデルの複雑さを取り出すように努力するが、複雑さと分散は必然的に結合される。 実際には、訓練コストをゼロに近い値まで押し上げることは基本的な問題ではない; 実際、十分に複雑な決定木はトレーニングコストをゼロまで押し上げることができる。 本稿では,一般化線形モデル,コックス比例ハザードモデル,ARMAなどの回帰モデルフレームワークについて検討し,モデルの誤特定が分散に与える影響を考察する。

It's regarded as an axiom that a good model is one that compromises between bias and variance. The bias is measured in training cost, while the variance of a (say, regression) model is measure by the cost associated with a validation set. If reducing bias is the goal, one will strive to fetch as complex a model as necessary, but complexity is invariably coupled with variance: greater complexity implies greater variance. In practice, driving training cost to near zero does not pose a fundamental problem; in fact, a sufficiently complex decision tree is perfectly capable of driving training cost to zero; however, the problem is often with controlling the model's variance. We investigate various regression model frameworks, including generalized linear models, Cox proportional hazard models, ARMA, and illustrate how misspecifying a model affects the variance.
翻訳日:2021-10-07 14:09:09 公開日:2021-10-06
# 制約付き残留強化学習によるメカトロニクス系の適応制御

Adaptive control of a mechatronic system using constrained residual reinforcement learning ( http://arxiv.org/abs/2110.02566v1 )

ライセンス: Link先を確認
Tom Staessens, Tom Lefebvre and Guillaume Crevecoeur(参考訳) 安全運転を維持しつつ、深層強化学習を用いて、不確実な環境下での従来の制御装置の性能を向上させるための、シンプルで実用的で直感的なアプローチを提案する。 本手法は,産業用モーションコントロールにおける従来の制御器が,異なる動作条件に対処するために適応性よりも頑健であり,結果として準最適であることを示す。 一方、強化学習は、入力出力データから直接制御信号を最適化することができ、運用条件に適応できるが、産業環境での使用を妨げる安全性保証が欠如している。 このような条件下で強化学習を用いた適応制御を実現するために,強化学習アルゴリズムがベースコントローラの出力に対する補正適応を学習し,最適性を向上する残留学習手法に従う。 本研究では,残余エージェントの動作の制約がベースコントローラのロバスト性を有効活用し,安全な操作を保証できるかを検討する。 アルゴリズム設計を詳述し,本手法のロバスト性を高めるために,ベースコントローラに対する残留動作を制限することを提案する。 リャプノフ安定性理論に基づいて、幅広い種類のメカトロニクス閉ループ系の安定性を証明した。 提案手法をスライダクランク設定で実験的に検証し,制約が収束後の学習中の安全性と最適性に与える影響について検討した。

We propose a simple, practical and intuitive approach to improve the performance of a conventional controller in uncertain environments using deep reinforcement learning while maintaining safe operation. Our approach is motivated by the observation that conventional controllers in industrial motion control value robustness over adaptivity to deal with different operating conditions and are suboptimal as a consequence. Reinforcement learning on the other hand can optimize a control signal directly from input-output data and thus adapt to operational conditions, but lacks safety guarantees, impeding its use in industrial environments. To realize adaptive control using reinforcement learning in such conditions, we follow a residual learning methodology, where a reinforcement learning algorithm learns corrective adaptations to a base controller's output to increase optimality. We investigate how constraining the residual agent's actions enables to leverage the base controller's robustness to guarantee safe operation. We detail the algorithmic design and propose to constrain the residual actions relative to the base controller to increase the method's robustness. Building on Lyapunov stability theory, we prove stability for a broad class of mechatronic closed-loop systems. We validate our method experimentally on a slider-crank setup and investigate how the constraints affect the safety during learning and optimality after convergence.
翻訳日:2021-10-07 14:08:56 公開日:2021-10-06
# クープマン形式の非線形系の深い同定

Deep Identification of Nonlinear Systems in Koopman Form ( http://arxiv.org/abs/2110.02583v1 )

ライセンス: Link先を確認
Lucian Cristian Iacob, Gerben Izaak Beintema, Maarten Schoukens and Roland T\'oth(参考訳) 本稿では,koopman-based deep state-space エンコーダを用いた非線形力学系の同定について述べる。 この方法により、先行する昇降関数の辞書を選択する必要のある通常の欠点を回避できる。 エンコーダは、コープマン作用素を用いて動力学が線形に伝播する空間への昇降関数を表す。 揚力モデル構造には入力-アフィンの定式化が考慮され, 完全状態と部分状態の両方に対処する。 このアプローチはPythonのDeepSIツールボックスを使って実装されている。 シミュレーションエラーベーストレーニングの計算ニーズを低くするために、データは、マルチステップ予測エラーを独立に計算するサブセクションに分割される。 この定式化により、ネットワークパラメータの効率的なバッチ最適化が可能となり、同時に得られたモデルの長期予測能力にも優れる。 この手法の性能は非線形ベンチマークの例で示される。

The present paper treats the identification of nonlinear dynamical systems using Koopman-based deep state-space encoders. Through this method, the usual drawback of needing to choose a dictionary of lifting functions a priori is circumvented. The encoder represents the lifting function to the space where the dynamics are linearly propagated using the Koopman operator. An input-affine formulation is considered for the lifted model structure and we address both full and partial state availability. The approach is implemented using the the deepSI toolbox in Python. To lower the computational need of the simulation error-based training, the data is split into subsections where multi-step prediction errors are calculated independently. This formulation allows for efficient batch optimization of the network parameters and, at the same time, excellent long term prediction capabilities of the obtained models. The performance of the approach is illustrated by nonlinear benchmark examples.
翻訳日:2021-10-07 14:08:35 公開日:2021-10-06
# 交流最適潮流のための物理インフォームニューラルネットワーク

Physics-Informed Neural Networks for AC Optimal Power Flow ( http://arxiv.org/abs/2110.02672v1 )

ライセンス: Link先を確認
Rahul Nellikkath, Spyros Chatzivasileiadis(参考訳) 本稿では,まず物理インフォームドニューラルネットワークを用いて,AC-OPFの結果を正確に推定し,その性能に関する厳密な保証を提供する。 パワーシステムオペレータは、他のアクターとともに、計画やリアルタイム操作を含む幅広いアプリケーションに対して、Optimal Power Flow (OPF)アルゴリズムの利用が増えている。 しかし、元々の形式では、AC最適潮流問題は非線形で非凸であるため、しばしば解決が困難である。 多くの近似と緩和に加えて、最近の取り組みは機械学習アプローチ、特にニューラルネットワークにも焦点を当てている。 しかし、これまでのところ、これらのアプローチはトレーニング中に利用可能な多くの物理モデルしか考慮していない。 さらに重要なのは、アウトプットの潜在的制約違反に関する保証を提供していないことだ。 私たちのアプローチ (i)ニューラルネットワークトレーニング内での交流電力流方程式の導入 (ii) 予測の最適性を維持しつつ、入力領域全体にわたって最悪の制約違反を厳格に決定・低減する手法を統合する。 物理インフォームドニューラルネットワークが標準的なニューラルネットワークよりも高い精度と低い制約違反を実現する方法を示し、すべてのニューラルネットワークの最悪のケース違反をさらに削減する方法を示す。

This paper introduces, for the first time to our knowledge, physics-informed neural networks to accurately estimate the AC-OPF result and delivers rigorous guarantees about their performance. Power system operators, along with several other actors, are increasingly using Optimal Power Flow (OPF) algorithms for a wide number of applications, including planning and real-time operations. However, in its original form, the AC Optimal Power Flow problem is often challenging to solve as it is non-linear and non-convex. Besides the large number of approximations and relaxations, recent efforts have also been focusing on Machine Learning approaches, especially neural networks. So far, however, these approaches have only partially considered the wide number of physical models available during training. And, more importantly, they have offered no guarantees about potential constraint violations of their output. Our approach (i) introduces the AC power flow equations inside neural network training and (ii) integrates methods that rigorously determine and reduce the worst-case constraint violations across the entire input domain, while maintaining the optimality of the prediction. We demonstrate how physics-informed neural networks achieve higher accuracy and lower constraint violations than standard neural networks, and show how we can further reduce the worst-case violations for all neural networks.
翻訳日:2021-10-07 14:08:21 公開日:2021-10-06
# 住宅用マイクログリッドにおけるプライバシ保全負荷スケジューリングのための協調型マルチエージェントアクタークリティック

Cooperative Multi-Agent Actor-Critic for Privacy-Preserving Load Scheduling in a Residential Microgrid ( http://arxiv.org/abs/2110.02784v1 )

ライセンス: Link先を確認
Zhaoming Qin, Nanqing Dong, Eric P. Xing, Junwei Cao(参考訳) スケーラブルなデータ駆動型手法として,マルチエージェント強化学習(MARL)が協調型住宅負荷スケジューリングの課題を解決している。 しかし、MARLアルゴリズムの一般的な集中トレーニング戦略は、関連する世帯のプライバシーリスクを高める。 本研究では,分散化アクタが分散批判者によって訓練され,分散実行と分散トレーニングの両方がグローバル状態情報を必要としないような,プライバシ保全型マルチエージェントアクタ-批判フレームワークを提案する。 提案手法は,マルチエージェントのクレジット割り当て機構を暗黙的に学習しながら,世帯のプライバシーを保護できる。 シミュレーション実験により,提案フレームワークは既存のプライバシ保護アクタ批判フレームワークを著しく上回り,プライバシー制約のない最先端アクタ批判フレームワークに匹敵する性能が得られることが示された。

As a scalable data-driven approach, multi-agent reinforcement learning (MARL) has made remarkable advances in solving the cooperative residential load scheduling problems. However, the common centralized training strategy of MARL algorithms raises privacy risks for involved households. In this work, we propose a privacy-preserving multi-agent actor-critic framework where the decentralized actors are trained with distributed critics, such that both the decentralized execution and the distributed training do not require the global state information. The proposed framework can preserve the privacy of the households while simultaneously learn the multi-agent credit assignment mechanism implicitly. The simulation experiments demonstrate that the proposed framework significantly outperforms the existing privacy-preserving actor-critic framework, and can achieve comparable performance to the state-of-the-art actor-critic framework without privacy constraints.
翻訳日:2021-10-07 14:07:12 公開日:2021-10-06
# Colmena: 高性能コンピューティングのためのエンサンブルシミュレーションのスケーラブルな機械学習ベースのステアリング

Colmena: Scalable Machine-Learning-Bas ed Steering of Ensemble Simulations for High Performance Computing ( http://arxiv.org/abs/2110.02827v1 )

ライセンス: Link先を確認
Logan Ward, Ganesh Sivaraman, J. Gregory Pauloski, Yadu Babuji, Ryan Chard, Naveen Dandu, Paul C. Redfern, Rajeev S. Assary, Kyle Chard, Larry A. Curtiss, Rajeev Thakur, Ian Foster(参考訳) シミュレーションアンサンブルを含む科学的応用は、最適なシミュレーションを選択するための実験設計法を用いて大幅に促進することができる。 機械学習(ml)を使用してシミュレーションのプロキシモデルを作成する手法は、アンサンブルを導くことには特に有望だが、シミュレーションと学習タスクの動的混合を調整する必要があるため、デプロイが難しい。 colmenaはオープンソースのpythonフレームワークで、個々のタスクの実装と、いつどのタスクを実行するかを選択するロジックだけを提供することで、キャンペーンを操ることができる。 Colmenaはタスクディスパッチ、結果のコレーション、MLモデル呼び出し、MLモデル(再)トレーニングを処理し、Parslを使用してHPCシステム上でタスクを実行する。 コルメナの設計について述べるとともに, 電解質設計に応用して, 65536 CPUにスケールし, 高速分子の発見速度を100倍に向上させる。

Scientific applications that involve simulation ensembles can be accelerated greatly by using experiment design methods to select the best simulations to perform. Methods that use machine learning (ML) to create proxy models of simulations show particular promise for guiding ensembles but are challenging to deploy because of the need to coordinate dynamic mixes of simulation and learning tasks. We present Colmena, an open-source Python framework that allows users to steer campaigns by providing just the implementations of individual tasks plus the logic used to choose which tasks to execute when. Colmena handles task dispatch, results collation, ML model invocation, and ML model (re)training, using Parsl to execute tasks on HPC systems. We describe the design of Colmena and illustrate its capabilities by applying it to electrolyte design, where it both scales to 65536 CPUs and accelerates the discovery rate for high-performance molecules by a factor of 100 over unguided searches.
翻訳日:2021-10-07 14:06:56 公開日:2021-10-06
# 複雑な運転シナリオの効率的なキャラクタリゼーションのための確率的メタモデル

Probabilistic Metamodels for an Efficient Characterization of Complex Driving Scenarios ( http://arxiv.org/abs/2110.02892v1 )

ライセンス: Link先を確認
Max Winkelmann, Mike Kohlhoff, Hadj Hamma Tadjine, Steffen M\"uller(参考訳) 自動走行車(av)の安全な動作を体系的に検証するために、シナリオベースのテストの目的は、avが遭遇する無限の状況を有限の機能シナリオにまとめることである。 しかし、すべての機能的なシナリオは、まだ膨大な量のバリエーションで現れうる。 したがって、メタモデルはしばしば分析や検査のための特定のバリエーションの選択に使用される。 しかし, AVテストの安全性の限界にもかかわらず, メタモデルは通常, 全体的なアプローチの一部として見なされる。 本稿では,5~20入力の4つのシナリオを考慮した,ガウス過程(GP),深ガウス過程(ET),ベイズニューラルネットワーク(BNN)の予測性能について検討する。 そこで本研究では,テストケースを効率的に選択するための反復的アプローチを導入し,評価する。 その結果,予測性能に関しては,メタモデルの選択よりもテストケースの適切な選択が重要であることがわかった。 優れた柔軟性により、BNNは大量のデータから恩恵を受け、最も複雑なシナリオさえモデル化できるが、GPのような柔軟性の低いモデルは信頼性を向上できる。 これは、関連するテストケースをスケーラブルな仮想環境と柔軟なモデルを使って検討し、より現実的なテスト環境とより信頼できるモデルがターゲットのテストや検証に使用できるようにする必要があります。

To systematically validate the safe behavior of automated vehicles (AV), the aim of scenario-based testing is to cluster the infinite situations an AV might encounter into a finite set of functional scenarios. Every functional scenario, however, can still manifest itself in a vast amount of variations. Thus, metamodels are often used to perform analyses or to select specific variations for examination. However, despite the safety criticalness of AV testing, metamodels are usually seen as a part of an overall approach, and their predictions are not further examined. In this paper, we analyze the predictive performance of Gaussian processes (GP), deep Gaussian processes, extra-trees (ET), and Bayesian neural networks (BNN), considering four scenarios with 5 to 20 inputs. Building on this, we introduce and evaluate an iterative approach to efficiently select test cases. Our results show that regarding predictive performance, the appropriate selection of test cases is more important than the choice of metamodels. While their great flexibility allows BNNs to benefit from large amounts of data and to model even the most complex scenarios, less flexible models like GPs can convince with higher reliability. This implies that relevant test cases have to be explored using scalable virtual environments and flexible models so that more realistic test environments and more trustworthy models can be used for targeted testing and validation.
翻訳日:2021-10-07 14:06:39 公開日:2021-10-06
# unrolling particles: サンプリング分布の教師なし学習

Unrolling Particles: Unsupervised Learning of Sampling Distributions ( http://arxiv.org/abs/2110.02915v1 )

ライセンス: Link先を確認
Fernando Gama, Nicolas Zilberstein, Richard G. Baraniuk, Santiago Segarra(参考訳) 粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。 選択された分布から軌道をサンプリングし、重み付け平均として推定を計算する。 簡単なサンプル分布は、1つの軌道だけが全ての重みを持ち、その結果の見積もりのパフォーマンスに悪影響を及ぼすような縮退する。 適切なサンプリング分布の設計について多くの研究がなされているが,本論文では,サンプル分布の同定が目的である。 アルゴリズム展開の枠組みを利用して,サンプリング分布を多変量正規化としてモデル化し,ニューラルネットワークを用いて平均と共分散の両方を学習する。 重みの縮退を最小限に抑えるために, 観測された測定値のみを頼りに, 教師なしのモデルの訓練を行った。 シミュレーションでは, 粒子フィルタは幅広いシナリオにおいて, 良好な推定結果が得られることを示す。

Particle filtering is used to compute good nonlinear estimates of complex systems. It samples trajectories from a chosen distribution and computes the estimate as a weighted average. Easy-to-sample distributions often lead to degenerate samples where only one trajectory carries all the weight, negatively affecting the resulting performance of the estimate. While much research has been done on the design of appropriate sampling distributions that would lead to controlled degeneracy, in this paper our objective is to \emph{learn} sampling distributions. Leveraging the framework of algorithm unrolling, we model the sampling distribution as a multivariate normal, and we use neural networks to learn both the mean and the covariance. We carry out unsupervised training of the model to minimize weight degeneracy, relying only on the observed measurements of the system. We show in simulations that the resulting particle filter yields good estimates in a wide range of scenarios.
翻訳日:2021-10-07 14:06:15 公開日:2021-10-06
# (参考訳) 人工知能タスクとベンチマークのキュレートされたオントロジーに基づく大規模知識グラフ [全文訳有]

A curated, ontology-based, large-scale knowledge graph of artificial intelligence tasks and benchmarks ( http://arxiv.org/abs/2110.01434v2 )

ライセンス: CC BY 4.0
Kathrin Blagec, Adriano Barbosa-Silva, Simon Ott, Matthias Samwald(参考訳) 人工知能(AI)の研究は、急速に増加するモデルや方法論を通じて、多くのタスクに対処している。 これにより、新しいAIメソッドがどこで(あるいはまだ成功していない)適用されたか、進捗の測定方法、進歩の相乗効果の方法、今後の研究の優先順位付け方法の追跡が困難になる。 これらの問題を解決するために、人工知能タスク、ベンチマーク結果、パフォーマンスメトリクスに関する包括的で、構造化され、手作業でキュレートされたリソースである、 intelligence task ontology and knowledge graph(ito)を作成しました。 現在のITOには、685,560エッジ、AIプロセスを表す1,100クラス、パフォーマンスメトリクスを表す1,995プロパティが含まれている。 ITOの目標は、AIタスクと能力のグローバルな状況の正確でネットワークベースの分析を可能にすることである。 ITOは、外部データとの統合や強化、自動推論、基礎となる存在論的モデルの継続的なエキスパートキュレーションを可能にする技術に基づいている。 ITOデータセットと、ITOを一般公開したJupyterノートブックのコレクションを作成します。

Research in artificial intelligence (AI) is addressing a growing number of tasks through a rapidly growing number of models and methodologies. This makes it difficult to keep track of where novel AI methods are successfully -- or still unsuccessfully -- applied, how progress is measured, how different advances might synergize with each other, and how future research should be prioritized. To help address these issues, we created the Intelligence Task Ontology and Knowledge Graph (ITO), a comprehensive, richly structured and manually curated resource on artificial intelligence tasks, benchmark results and performance metrics. The current version of ITO contain 685,560 edges, 1,100 classes representing AI processes and 1,995 properties representing performance metrics. The goal of ITO is to enable precise and network-based analyses of the global landscape of AI tasks and capabilities. ITO is based on technologies that allow for easy integration and enrichment with external data, automated inference and continuous, collaborative expert curation of underlying ontological models. We make the ITO dataset and a collection of Jupyter notebooks utilising ITO openly available.
翻訳日:2021-10-07 10:45:53 公開日:2021-10-06
# (参考訳) リランニングOCR - 品質評価と改善予測のための機械学習アプローチ [全文訳有]

Rerunning OCR -- A Machine Learning Approach to Quality Assessment and Enhancement Prediction ( http://arxiv.org/abs/2110.01661v2 )

ライセンス: CC BY 4.0
Pit Schneider(参考訳) 新しい改善されたOCRソリューションの反復は、適切な再処理候補をターゲットとする決定を強制する。 これは特に、基礎となるデータ収集のサイズがかなり大きく、フォント、言語、出版期間、その結果ocr品質の観点からかなり多様である場合に適用される。 本稿はルクセンブルク国立図書館の取り組みを捉え、これらの決定を裏付けるものである。 計算オーバーヘッドの低減と品質劣化のリスクの低減と、より定量化されたOCRの改善を両立させるためには、これらが不可欠である。 特に本研究では,テキストブロックレベルの品質評価に関して,図書館の方法論を説明する。 この技術の延長として、新しいocrエンジンの拡張可能性を考慮した回帰モデルという形で、別の貢献がある。 どちらも、特に品質の低い歴史的データを扱う文化機関にとって有望なアプローチである。

Iterating with new and improved OCR solutions enforces decisions to be taken when it comes to targeting the right reprocessing candidates. This especially applies when the underlying data collection is of considerable size and rather diverse in terms of fonts, languages, periods of publication and consequently OCR quality. This article captures the efforts of the National Library of Luxembourg to support those exact decisions. They are crucial in order to guarantee low computational overhead and reduced quality degradation risks, combined with a more quantifiable OCR improvement. In particular, this work explains the methodology of the library with respect to text block level quality assessment. As an extension of this technique, another contribution comes in the form of a regression model that takes the enhancement potential of a new OCR engine into account. They both mark promising approaches, especially for cultural institutions dealing with historic data of lower quality.
翻訳日:2021-10-07 10:39:59 公開日:2021-10-06
# コピー検出パターンに対する機械学習攻撃: 1x1パターンはクローン可能か?

Machine learning attack on copy detection patterns: are 1x1 patterns cloneable? ( http://arxiv.org/abs/2110.02176v2 )

ライセンス: Link先を確認
Roman Chaban, Olga Taran, Joakim Tutt, Taras Holotyak, Slavi Bonev and Slava Voloshynovskiy(参考訳) 現在、現代経済は、大衆市場における製品偽造に対する信頼性が高く安価な保護ソリューションを必要としている。 コピー検出パターン(cdp)は、いくつかのアプリケーションにおいてそのようなソリューションと考えられている。 最小のシンボルサイズ1x1要素を有する工業用プリンタの印刷解像度の最大到達限界で印刷されるため、cdpを十分な精度でコピーすることは不可能であり、不可能である。 本稿では,この仮説に挑戦し,機械学習に基づくCDPに対するコピー攻撃を検討する。 2つの産業用プリンタで作成されたサンプルに基づいて実験したところ、CDP認証で使用される単純な検出基準は、元のCDPと偽造品を確実に区別できないことがわかった。 そこで本研究では,CDPのクローン性を慎重に再検討し,新たな認証手法とCDP最適化を提案する。

Nowadays, the modern economy critically requires reliable yet cheap protection solutions against product counterfeiting for the mass market. Copy detection patterns (CDP) are considered as such solution in several applications. It is assumed that being printed at the maximum achievable limit of a printing resolution of an industrial printer with the smallest symbol size 1x1 elements, the CDP cannot be copied with sufficient accuracy and thus are unclonable. In this paper, we challenge this hypothesis and consider a copy attack against the CDP based on machine learning. The experimental based on samples produced on two industrial printers demonstrate that simple detection metrics used in the CDP authentication cannot reliably distinguish the original CDP from their fakes. Thus, the paper calls for a need of careful reconsideration of CDP cloneability and search for new authentication techniques and CDP optimization because of the current attack.
翻訳日:2021-10-07 10:30:49 公開日:2021-10-06
# 文脈付き単語埋め込みをプロキシとして用いた感覚特異な静的埋め込みの学習

Learning Sense-Specific Static Embeddings using Contextualised Word Embeddings as a Proxy ( http://arxiv.org/abs/2110.02204v2 )

ライセンス: Link先を確認
Yi Zhou and Danushka Bollegala(参考訳) bertのようなニューラルネットワークモデル(nlms)から生成された文脈化された単語埋め込みは、対象語の意味とその文脈を考慮したベクターを持つ単語を表す。 一方、GloVeのような静的な単語埋め込みは、比較的低次元、メモリ、計算効率のベクトルによる単語を表現するが、単語の異なる感覚に敏感ではない。 本研究では,文脈依存型埋め込みから感覚関連情報を抽出し,それを静的な埋め込みに注入し,感覚特異的な静的な埋め込みを生成する手法である,知覚のコンテキスト派生型埋め込み(CDES)を提案する。 単語感覚の曖昧さと知覚の識別タスクのための複数のベンチマークによる実験結果から,CDESは現在の最先端感の埋め込みに匹敵する性能を示す感覚特異的な静的埋め込みを正確に学習できることが示された。

Contextualised word embeddings generated from Neural Language Models (NLMs), such as BERT, represent a word with a vector that considers the semantics of the target word as well its context. On the other hand, static word embeddings such as GloVe represent words by relatively low-dimensional, memory- and compute-efficient vectors but are not sensitive to the different senses of the word. We propose Context Derived Embeddings of Senses (CDES), a method that extracts sense related information from contextualised embeddings and injects it into static embeddings to create sense-specific static embeddings. Experimental results on multiple benchmarks for word sense disambiguation and sense discrimination tasks show that CDES can accurately learn sense-specific static embeddings reporting comparable performance to the current state-of-the-art sense embeddings.
翻訳日:2021-10-07 10:30:35 公開日:2021-10-06
# ALSポイントクラウドセマンティックセグメンテーションのための新しい弱教師付きアプローチ

A new weakly supervised approach for ALS point cloud semantic segmentation ( http://arxiv.org/abs/2110.01462v2 )

ライセンス: Link先を確認
Puzuo Wang and Wei Yao(参考訳) 最先端の結果を継続的に上回る、新しいポイントクラウドセマンティックセグメンテーションスキームがあるが、効果的なモデルを学ぶ成功は通常、豊富なラベル付きデータの可用性に依存している。 しかしながら、データアノテーションは、特に都市部の複数のクラスを含む大規模空中レーザースキャニング(als)ポイント雲において、時間と労力のかかる作業である。 したがって、ラベリング作業を大幅に削減しながら、有望な結果を得る方法が不可欠である。 本研究では,ALSポイントクラウドのセマンティックセマンティックセグメンテーションのための,深層学習に基づく弱教師付きフレームワークを提案する。 クラスオーバーラップを予測確率でペナル化するためにエントロピー正則化を導入する。 さらに, 即時予測とアンサンブル予測との差分距離を最小化することで, 予測の堅牢性を向上させるための一貫性制約を設計する。 最後に,効率良く非パプラメトリックな方法で余分なスーパーバイザリーソースを作成するためのオンラインソフト擬似ラベル戦略を提案する。 3つのベンチマークデータセットを用いた広範囲な実験分析により,スパースポイントアノテーションの場合,提案手法は計算効率を損なうことなく分類性能を著しく向上させることを示した。 これは、現在の弱い監督手法を上回り、完全な監督競合に対して同等の結果を得る。 ISPRS 3D Labeling Vaihingenデータでは,ラベルの0.1%しか使用していないため,スパースラベル情報のみを訓練したモデルと比較して,平均F1スコアが6.9%,平均F1スコアが70.0%向上した。

While there are novel point cloud semantic segmentation schemes that continuously surpass state-of-the-art results, the success of learning an effective model usually rely on the availability of abundant labeled data. However, data annotation is a time-consuming and labor-intensive task, particularly for large-scale airborne laser scanning (ALS) point clouds involving multiple classes in urban areas. Thus, how to attain promising results while largely reducing labeling works become an essential issue. In this study, we propose a deep-learning based weakly supervised framework for semantic segmentation of ALS point clouds, exploiting potential information from unlabeled data subject to incomplete and sparse labels. Entropy regularization is introduced to penalize the class overlap in predictive probability. Additionally, a consistency constraint by minimizing the discrepancy distance between instant and ensemble predictions is designed to improve the robustness of predictions. Finally, we propose an online soft pseudo-labeling strategy to create extra supervisory sources in an efficient and nonpaprametric way. Extensive experimental analysis using three benchmark datasets demonstrates that in case of sparse point annotations, our proposed method significantly boosts the classification performance without compromising the computational efficiency. It outperforms current weakly supervised methods and achieves a comparable result against full supervision competitors. For the ISPRS 3D Labeling Vaihingen data, by using only 0.1% of labels, our method achieves an overall accuracy of 83.0% and an average F1 score of 70.0%, which have increased by 6.9% and 12.8% respectively, compared to model trained by sparse label information only.
翻訳日:2021-10-07 10:30:20 公開日:2021-10-06
# DistilHuBERT:隠れユニットBERTの層ワイド蒸留による音声表現学習

DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT ( http://arxiv.org/abs/2110.01900v2 )

ライセンス: Link先を確認
Heng-Jui Chang, Shu-wen Yang, Hung-yi Lee(参考訳) wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを活用し、多くの音声処理タスクに優れた表現を提供する。 これらの手法の成功にもかかわらず、大きなメモリと高い事前学習コストを必要としており、アカデミックや小規模企業の研究者には利用できない。 そこで本稿では,HuBERTモデルから直接隠れ表現を抽出する,新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。 この方法は、HuBERTのサイズを75%と73%速くし、10種類のタスクでほとんどのパフォーマンスを維持する。 さらに、DistilHuBERTはトレーニング時間とデータが少なく、音声のためのパーソナルおよびオンデバイスSSLモデルを事前トレーニングする可能性を開く。

Self-supervised speech representation learning methods like wav2vec 2.0 and Hidden-unit BERT (HuBERT) leverage unlabeled speech data for pre-training and offer good representations for numerous speech processing tasks. Despite the success of these methods, they require large memory and high pre-training costs, making them inaccessible for researchers in academia and small companies. Therefore, this paper introduces DistilHuBERT, a novel multi-task learning framework to distill hidden representations from a HuBERT model directly. This method reduces HuBERT's size by 75% and 73% faster while retaining most performance in ten different tasks. Moreover, DistilHuBERT required little training time and data, opening the possibilities of pre-training personal and on-device SSL models for speech.
翻訳日:2021-10-07 10:29:50 公開日:2021-10-06
# 燃焼不安定モニタリングのためのクロスモーダル仮想センシング

Cross-Modal Virtual Sensing for Combustion Instability Monitoring ( http://arxiv.org/abs/2110.01659v2 )

ライセンス: Link先を確認
Tryambak Gangopadhyay, Vikram Ramanan, Satyanarayanan R Chakravarthy, Soumik Sarkar(参考訳) 多くのサイバー物理システムでは、イメージングは重要だが費用がかかるか、感覚のモダリティの展開が困難である。 そのような例として、深層学習フレームワークが最先端の性能を実証した火炎画像による燃焼不安定の検出がある。 提案されたフレームワークは、ドメインの専門家がこれらのモデルを実際のシステムで使用して、望ましくないインシデントを防ぐために十分な信頼を得られるように、非常に信頼できる。 しかし、現在のエンジン燃焼器では、火炎画像は一般的な感知モダリティではない。 したがって、現在の道路ブロックは、高体積火炎画像の取得と処理に関してハードウェア側に存在する。 一方, 実燃焼器のデータ収集において, 音圧時系列はより実現可能なモダリティである。 音響時系列をセンシングモダリティとして利用するために,燃焼系における音響圧時系列からクロスモーダルな視覚特徴を再構築できる新しいクロスモーダルエンコーダ・デコーダアーキテクチャを提案する。 クロスモーダルな特徴の「蒸留」により,仮想的な視覚知覚モータリティを用いて検出精度を向上できることを示した。 クロスモーダルな再構築の利点を生かして、当社の枠組みは、発電・輸送産業を超えた分野において有用であることが証明できる。

In many cyber-physical systems, imaging can be an important but expensive or 'difficult to deploy' sensing modality. One such example is detecting combustion instability using flame images, where deep learning frameworks have demonstrated state-of-the-art performance. The proposed frameworks are also shown to be quite trustworthy such that domain experts can have sufficient confidence to use these models in real systems to prevent unwanted incidents. However, flame imaging is not a common sensing modality in engine combustors today. Therefore, the current roadblock exists on the hardware side regarding the acquisition and processing of high-volume flame images. On the other hand, the acoustic pressure time series is a more feasible modality for data collection in real combustors. To utilize acoustic time series as a sensing modality, we propose a novel cross-modal encoder-decoder architecture that can reconstruct cross-modal visual features from acoustic pressure time series in combustion systems. With the "distillation" of cross-modal features, the results demonstrate that the detection accuracy can be enhanced using the virtual visual sensing modality. By providing the benefit of cross-modal reconstruction, our framework can prove to be useful in different domains well beyond the power generation and transportation industries.
翻訳日:2021-10-07 10:29:35 公開日:2021-10-06
# 低光画像強調のための適応展開全変分ネットワーク

Adaptive Unfolding Total Variation Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2110.00984v3 )

ライセンス: Link先を確認
Chuanjun Zheng, Daming Shi, Wentian Shi(参考訳) 現実の低照度画像は、2つの大きな劣化、すなわち避けられないノイズと視界の低下に悩まされる。 ノイズは異なるレベルを示すため、生のバイエル空間から低光度画像を強調する最近の研究でその推定が実装されている。 sRGB色空間に関しては、画像処理パイプラインの影響によりノイズ推定がより複雑になる。 それでも、sRGB空間の既存の拡張アルゴリズムのほとんどは、低可視性の問題にのみ焦点をあてたり、仮説的雑音レベルの下でノイズを抑えることで、ロバスト性の欠如により非現実的となった。 この問題に対処するため,本研究では,モデルベースデノナイジング法において,全変分正則化を用いてバランスパラメータを学習することにより,実sRGB低照度画像からの雑音レベルを近似する適応展開全変分ネットワーク(UTVNet)を提案する。 一方,スムースネスと忠実度制約の推論を提供するために,対応する最小化プロセスを展開することで,雑音レベルマップを学習する。 ノイズレベルマップに導かれたutvnetは、より細かいディテールを復元でき、実際に撮影された低照度シーンでノイズを抑えることができます。 実世界の低照度画像に対する大規模な実験は、最先端の手法よりもUTVNetの優れた性能を示している。

Real-world low-light images suffer from two main degradations, namely, inevitable noise and poor visibility. Since the noise exhibits different levels, its estimation has been implemented in recent works when enhancing low-light images from raw Bayer space. When it comes to sRGB color space, the noise estimation becomes more complicated due to the effect of the image processing pipeline. Nevertheless, most existing enhancing algorithms in sRGB space only focus on the low visibility problem or suppress the noise under a hypothetical noise level, leading them impractical due to the lack of robustness. To address this issue,we propose an adaptive unfolding total variation network (UTVNet), which approximates the noise level from the real sRGB low-light image by learning the balancing parameter in the model-based denoising method with total variation regularization. Meanwhile, we learn the noise level map by unrolling the corresponding minimization process for providing the inferences of smoothness and fidelity constraints. Guided by the noise level map, our UTVNet can recover finer details and is more capable to suppress noise in real captured low-light scenes. Extensive experiments on real-world low-light images clearly demonstrate the superior performance of UTVNet over state-of-the-art methods.
翻訳日:2021-10-07 10:29:05 公開日:2021-10-06
# 映像圧縮のための知覚的最適ブロック運動推定の自己教師付き学習

Self-Supervised Learning of Perceptually Optimized Block Motion Estimates for Video Compression ( http://arxiv.org/abs/2110.01805v2 )

ライセンス: Link先を確認
Somdyuti Paul, Andrey Norkin, Alan C. Bovik(参考訳) ハイブリッドビデオコーデックで実行される相互予測プロセスにはブロックベース動作推定が不可欠である。 ブロック運動ベクトル(MV)の計算に使用されるブロックマッチングに基づく一般的な手法は、計算集約的な探索手順に依存する。 また、ブロックサイズが小さくなるにつれて、開口の問題も悪化する。 さらに、典型的なコーデックで使用されるブロックマッチング基準は、復号時に生成される動き補償画像の知覚品質のレベルを考慮しない。 本研究では,多段畳み込みニューラルネットワークを用いて,複数のブロックサイズで同時に3重のフレームを入力として動作推定を行うことのできる探索自由なブロック運動推定フレームワークを提案する。 この複合ブロック翻訳ネットワーク(CBT-Net)は、公開されていないビデオコンテンツから作成した大規模データベース上で、自己教師型で訓練されている。 動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。 実験の結果,従来のブロックマッチングに基づく動き推定アルゴリズムと比較して,予測誤差に匹敵する計算効率が示された。 さらに、AV1で相互予測を行う際には、SVT-AV1エンコーダで使用されるブロックマッチングに基づく動き推定システムと比較して、平均BD-デルタレート(BD-rate)の改善はMS-SSIMとビデオマルチメソッドアセスメントフュージョン(VMAF)の品質指標に対して-1.70%、-1.52%となる。

Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.
翻訳日:2021-10-07 10:28:42 公開日:2021-10-06
# 並列遺伝的ベイズ分類器を用いた発作分類

Seizure Classification Using Parallel Genetic Naive Bayes Classifiers ( http://arxiv.org/abs/2110.01742v2 )

ライセンス: Link先を確認
Scot Davidson and Niamh McCallan and Kok Yew Ng and Pardis Biglarbeigi and Dewar Finlay and Boon Leong Lan and James McLaughlin(参考訳) てんかんは世界中で5000万人に影響を及ぼし、脳疾患の中でも最も多い。 発作の検出と分類は、状態を維持するための貴重なツールである。 自動検出アルゴリズムは正確な診断を可能にする。 本研究では,遺伝的アルゴリズムを用いた新しい並列分類器を用いた特徴量を用いた手法を提案する。 EEGのイクタル状態は1.8秒の窓に区分され、エポックは最初のIMFから13の異なる特徴に分解される。 すべての特徴は遺伝的アルゴリズム(Binary Grey Wolf Optimisation Option 1)に入力され、Naive Bayes分類器が使用される。 単純な部分発作と複雑な部分発作の組み合わせは、テストされた全てのモデルの最高の精度をもたらす。

Epilepsy affects 50 million people worldwide and is one of the most common serious brain disorders. Seizure detection and classification is a valuable tool for maintaining the condition. An automated detection algorithm will allow for accurate diagnosis. This study proposes a method using unique features with a novel parallel classifier trained using a genetic algorithm. Ictal states from the EEG are segmented into 1.8 s windows, where the epochs are then further decomposed into 13 different features from the first IMF. All of the features are fed into a genetic algorithm (Binary Grey Wolf Optimisation Option 1) with a Naive Bayes classifier. Combining the simple partial and complex partial seizures provides the highest accuracy of all the models tested.
翻訳日:2021-10-07 10:28:10 公開日:2021-10-06