このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201010となっている論文です。

PDF登録状況(公開日: 20201010)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習による大規模多施設コホートにおける胸部CTによるCOVID-19の自動検出

Machine Learning Automatically Detects COVID-19 using Chest CTs in a Large Multicenter Cohort ( http://arxiv.org/abs/2006.04998v3 )

ライセンス: Link先を確認
Eduardo Jose Mortani Barbosa Jr., Bogdan Georgescu, Shikha Chaganti, Gorka Bastarrika Aleman, Jordi Broncano Cabrero, Guillaume Chabin, Thomas Flohr, Philippe Grenier, Sasa Grbic, Nakul Gupta, Fran\c{c}ois Mellot, Savvas Nicolaou, Thomas Re, Pina Sanelli, Alexander W. Sauter, Youngjin Yoo, Valentin Ziebandt, Dorin Comaniciu(参考訳) 目的: 病原体の検出および他の肺炎, ild, 正常ctとの鑑別のための胸部ctを用いた機械学習分類および解釈モデルの検討。 方法: 回顧的多施設共同研究により16施設(1077例を含む)から2096個の胸部ctが得られた。 927/100 COVID-19, 388/33 ILD, 189/33 肺炎, 559/34 正常(病理検査なし)CT。 新型コロナウイルスの分類のためのメートル法に基づくアプローチは、ロジスティック回帰とランダム森林に依存して解釈可能な特徴を使用した。 深層学習に基づく分類器は,空間不透明度のct減衰と確率分布から直接抽出した3d特徴からcovid-19を区別した。 結果: 新型コロナウイルスの鑑別的特徴は, 空域不透明度と周辺部および基底部の優劣率であり, 文献上の典型的特徴と一致した。 教師なし階層クラスタリングは、COVID-19全体の特徴分布とコントロールコホートを比較します。 メトリクスベースの分類器は、dlベースの分類器でそれぞれ 0.93, 0.90, 0.83 に対して auc=0.83, sensitivity=0.74, specificity=0.79 を達成した。 曖昧さの大部分は、covid-19以外の肺炎によるものであり、covid-19と重なる症状や、軽度のcovid-19の症例から生じる。 非covid-19分類性能は, ildでは91%, 他の肺炎では64%, 病理では94%であり, 対照群の異なる組成に対するロバスト性を示す。 結論: 胸部CTから得られた定量的画像特徴を用いて, 他の種類の肺炎, ILD, 病状CTとの鑑別を正確に行うとともに, 結果の解釈性や分類性能のバランスをとっており, 診断が容易になる可能性がある。

Objectives: To investigate machine-learning classifiers and interpretable models using chest CT for detection of COVID-19 and differentiation from other pneumonias, ILD and normal CTs. Methods: Our retrospective multi-institutional study obtained 2096 chest CTs from 16 institutions (including 1077 COVID-19 patients). Training/testing cohorts included 927/100 COVID-19, 388/33 ILD, 189/33 other pneumonias, and 559/34 normal (no pathologies) CTs. A metric-based approach for classification of COVID-19 used interpretable features, relying on logistic regression and random forests. A deep learning-based classifier differentiated COVID-19 via 3D features extracted directly from CT attenuation and probability distribution of airspace opacities. Results: Most discriminative features of COVID-19 are percentage of airspace opacity and peripheral and basal predominant opacities, concordant with the typical characterization of COVID-19 in the literature. Unsupervised hierarchical clustering compares feature distribution across COVID-19 and control cohorts. The metrics-based classifier achieved AUC=0.83, sensitivity=0.74, and specificity=0.79 of versus respectively 0.93, 0.90, and 0.83 for the DL-based classifier. Most of ambiguity comes from non-COVID-19 pneumonia with manifestations that overlap with COVID-19, as well as mild COVID-19 cases. Non-COVID-19 classification performance is 91% for ILD, 64% for other pneumonias and 94% for no pathologies, which demonstrates the robustness of our method against different compositions of control groups. Conclusions: Our new method accurately discriminates COVID-19 from other types of pneumonia, ILD, and no pathologies CTs, using quantitative imaging features derived from chest CT, while balancing interpretability of results and classification performance, and therefore may be useful to facilitate diagnosis of COVID-19.
翻訳日:2022-11-23 14:35:33 公開日:2020-10-10
# 変圧器の計算力とそのシーケンスモデリングにおける意味について

On the Computational Power of Transformers and its Implications in Sequence Modeling ( http://arxiv.org/abs/2006.09286v3 )

ライセンス: Link先を確認
Satwik Bhattamishra, Arkil Patel, Navin Goyal(参考訳) トランスフォーマーはいくつかのシーケンスモデリングタスクで広く使われている。 変圧器の内部動作を実験的に調査する研究が盛んに行われている。 しかし、その力と固有の限界に対する我々の概念的かつ理論的理解はまだ始まったばかりです。 特に、位置符号化、アテンションヘッド、残差接続、フィードフォワードネットワークといったトランスフォーマーにおける様々なコンポーネントの役割は明確ではない。 本稿では,これらの質問に答える上での一歩を踏み出す。 チューリング完全性によって捉えた計算力を解析する。 まず、バニラ変換器がチューリング完全であることを証明し、次に、位置マスキングのみを持ち、位置符号化のない変換器もチューリング完全であることを示す。 さらに,ネットワークのチューリング完全性に対する各コンポーネントの必要性についても検討した。 我々は,機械翻訳と合成タスクの実験を通じて,結果の実用的意義を実証する。

Transformers are being used extensively across several sequence modeling tasks. Significant research effort has been devoted to experimentally probe the inner workings of Transformers. However, our conceptual and theoretical understanding of their power and inherent limitations is still nascent. In particular, the roles of various components in Transformers such as positional encodings, attention heads, residual connections, and feedforward networks, are not clear. In this paper, we take a step towards answering these questions. We analyze the computational power as captured by Turing-completeness. We first provide an alternate and simpler proof to show that vanilla Transformers are Turing-complete and then we prove that Transformers with only positional masking and without any positional encoding are also Turing-complete. We further analyze the necessity of each component for the Turing-completeness of the network; interestingly, we find that a particular type of residual connection is necessary. We demonstrate the practical implications of our results via experiments on machine translation and synthetic tasks.
翻訳日:2022-11-20 18:33:52 公開日:2020-10-10
# 事前訓練された言語モデルは知識に関する象徴的推論か?

Are Pretrained Language Models Symbolic Reasoners Over Knowledge? ( http://arxiv.org/abs/2006.10413v2 )

ライセンス: Link先を確認
Nora Kassner, Benno Krojer, Hinrich Sch\"utze(参考訳) 事前学習された言語モデル(plm)は、トレーニングセットから事実知識をどのように学習するか? 推論と記憶の2つの重要なメカニズムについて検討する。 これまでの研究では, PLMが学習する事実の数を定量化しようと試みてきたが, 合成データを用いて, PLMが学習した事実とトレーニングに存在する事実の因果関係を調査した最初の研究である。 推論では, PLMは記号的推論規則を正しく適用することを学ぶが, 2ホップ推論など他の手法と競合する。 さらなる分析は、学習した推論規則の適用さえも欠陥があることを示唆している。 記憶のために、私たちはスキーマの適合性(他の事実によって体系的にサポートされている事実)と頻度を成功の重要な要因として特定します。

How can pretrained language models (PLMs) learn factual knowledge from the training set? We investigate the two most important mechanisms: reasoning and memorization. Prior work has attempted to quantify the number of facts PLMs learn, but we present, using synthetic data, the first study that investigates the causal relation between facts present in training and facts learned by the PLM. For reasoning, we show that PLMs seem to learn to apply some symbolic reasoning rules correctly but struggle with others, including two-hop reasoning. Further analysis suggests that even the application of learned reasoning rules is flawed. For memorization, we identify schema conformity (facts systematically supported by other facts) and frequency as key factors for its success.
翻訳日:2022-11-19 13:50:38 公開日:2020-10-10
# パラメタライズド決定解析を用いた高速・最適・目標予測

Fast, Optimal, and Targeted Predictions using Parametrized Decision Analysis ( http://arxiv.org/abs/2006.13107v2 )

ライセンス: Link先を確認
Daniel R. Kowal(参考訳) 不確実性の下での意思決定には予測が重要であり、統計的推測に有効である。 目標とする予測では、関心のある特定の決定タスクに対する予測を最適化することを目的としています。 古典的な決定分析はベイズモデルから予測を抽出するが、これらの予測はしばしば解釈が難しく計算が遅くなる。 代わりに、ベイズ決定解析のためのパラメータ化されたアクションのクラスを設計し、最適でスケーラブルで単純なターゲット予測を生成する。 多様な行動パラメトリゼーションと損失関数(対象変数の選択にスパーシティ制約を伴う線形作用を含む)について、効率的かつ解釈可能な解をもたらす最適目標予測の便利な表現を導出する。 ターゲット予測器の評価と比較を行うために、カスタマイズされたサンプル外の予測指標が開発されている。 後方予測分布を注意深く利用することにより, 最適あるいは許容可能な目標予測器の集合を同定し, 正確な目標予測に必要な特徴と複雑さのレベルについて独自の洞察を与える手法を提案する。 シミュレーションは優れた予測、推定、変数選択能力を示す。 nhanes(national health and nutrition examination survey)から得られた身体活動データを用いて,身体活動の特徴の予測と理解を目標とした予測を行う。

Prediction is critical for decision-making under uncertainty and lends validity to statistical inference. With targeted prediction, the goal is to optimize predictions for specific decision tasks of interest, which we represent via functionals. Although classical decision analysis extracts predictions from a Bayesian model, these predictions are often difficult to interpret and slow to compute. Instead, we design a class of parametrized actions for Bayesian decision analysis that produce optimal, scalable, and simple targeted predictions. For a wide variety of action parametrizations and loss functions--including linear actions with sparsity constraints for targeted variable selection--we derive a convenient representation of the optimal targeted prediction that yields efficient and interpretable solutions. Customized out-of-sample predictive metrics are developed to evaluate and compare among targeted predictors. Through careful use of the posterior predictive distribution, we introduce a procedure that identifies a set of near-optimal, or acceptable targeted predictors, which provide unique insights into the features and level of complexity needed for accurate targeted prediction. Simulations demonstrate excellent prediction, estimation, and variable selection capabilities. Targeted predictions are constructed for physical activity data from the National Health and Nutrition Examination Survey (NHANES) to better predict and understand the characteristics of intraday physical activity.
翻訳日:2022-11-17 23:44:45 公開日:2020-10-10
# 半教師付きモデルの伝達学習による車両軌道予測

Vehicle Trajectory Prediction by Transfer Learning of Semi-Supervised Models ( http://arxiv.org/abs/2007.06781v2 )

ライセンス: Link先を確認
Nick Lamm, Shashank Jaiprakash, Malavika Srikanth, Iddo Drori(参考訳) 本研究では,車両軌道予測のための半教師付きモデルが,最先端実世界のベンチマークにおいて教師付きモデルよりも大幅に性能が向上することを示す。 教師付きモデルから半教師付きモデルに移行することで、ラベルのないデータを使用することでスケールアップが可能になり、事前トレーニング中の画像数が数百万から10億に増加する。 半教師付きモデルと教師付きモデルの伝達学習を、他のすべての因子を等しく保ちながら比較したアブレーション研究を行う。 半教師モデル内では,コントラスト学習と教師の学習方法と,少数のトラジェクタを予測したネットワークと,大きな軌道セット上の確率を予測するネットワークを比較した。 運転環境の低レベル表現と中レベル表現の両方を用いて,実世界の車両軌道予測における半教師あり手法の適用性を示す。

In this work we show that semi-supervised models for vehicle trajectory prediction significantly improve performance over supervised models on state-of-the-art real-world benchmarks. Moving from supervised to semi-supervised models allows scaling-up by using unlabeled data, increasing the number of images in pre-training from Millions to a Billion. We perform ablation studies comparing transfer learning of semi-supervised and supervised models while keeping all other factors equal. Within semi-supervised models we compare contrastive learning with teacher-student methods as well as networks predicting a small number of trajectories with networks predicting probabilities over a large trajectory set. Our results using both low-level and mid-level representations of the driving environment demonstrate the applicability of semi-supervised methods for real-world vehicle trajectory prediction.
翻訳日:2022-11-10 14:09:11 公開日:2020-10-10
# 準最適サンプル複素数を持つゼロサムマルコフゲームにおけるモデルベースマルチエージェントRL

Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity ( http://arxiv.org/abs/2007.07461v2 )

ライセンス: Link先を確認
Kaiqing Zhang, Sham M. Kakade, Tamer Ba\c{s}ar, Lin F. Yang(参考訳) 実験モデルを用いたモデルベース強化学習(RL)は,RLのコーナーストーンの1つとして長年認識されてきた。 学習と計画段階を自然に分離するマルチエージェントrl(marl)に特に適しており、全てのエージェントがサンプルを使用してポリシーを同時に改善する場合、非定常問題を回避する。 直感的で広く使われているが、モデルベースMARLアルゴリズムのサンプル複雑性は十分に研究されていない。 本稿では,サンプルの複雑さに関する根本的な問題に対処することを目的とする。 生成モデルにのみアクセス可能な2プレイヤーのゼロサムマルコフゲームについて,最も基本的なMARL設定について検討した。 モデルベースMARLは、Nash平衡値(NE)を求めるために$\tilde O(|S||A|||B|(1-\gamma)^{-3}\epsilon^{-2})$と、滑らかな計画オラクルを持つ$\epsilon$-NEポリシーのサンプル複雑性を達成し、$\gamma$は割引係数であり、$S,A,B$は状態空間と2つのエージェントのアクション空間を表す。 さらに,アルゴリズムが報酬に依存しない場合,そのようなサンプル境界がミニマックス最適(対数係数まで)であることが示され,アルゴリズムは報酬知識のない遷移サンプルを検索し,一致した下位境界を確立する。 これは通常の報酬対応の設定とは対照的で、$\tilde\Omega(|S|(|A|+|B|)(1-\gamma)^{-3}\epsilon^{-2})$ lower bound である。 今回の結果は,marlにおけるモデルベースアプローチのサンプル効率を示すだけでなく,そのパワー(より困難な報酬非依存のケースを簡易に処理する)と制限($|a|,|b|$の適応的かつ最適でない)との根本的なトレードオフを詳細に示すものである。

Model-based reinforcement learning (RL), which finds an optimal policy using an empirical model, has long been recognized as one of the corner stones of RL. It is especially suitable for multi-agent RL (MARL), as it naturally decouples the learning and the planning phases, and avoids the non-stationarity problem when all agents are improving their policies simultaneously using samples. Though intuitive and widely-used, the sample complexity of model-based MARL algorithms has not been fully investigated. In this paper, our goal is to address the fundamental question about its sample complexity. We study arguably the most basic MARL setting: two-player discounted zero-sum Markov games, given only access to a generative model. We show that model-based MARL achieves a sample complexity of $\tilde O(|S||A||B|(1-\gamma)^{-3}\epsilon^{-2})$ for finding the Nash equilibrium (NE) value up to some $\epsilon$ error, and the $\epsilon$-NE policies with a smooth planning oracle, where $\gamma$ is the discount factor, and $S,A,B$ denote the state space, and the action spaces for the two agents. We further show that such a sample bound is minimax-optimal (up to logarithmic factors) if the algorithm is reward-agnostic, where the algorithm queries state transition samples without reward knowledge, by establishing a matching lower bound. This is in contrast to the usual reward-aware setting, with a $\tilde\Omega(|S|(|A|+|B|)(1-\gamma)^{-3}\epsilon^{-2})$ lower bound, where this model-based approach is near-optimal with only a gap on the $|A|,|B|$ dependence. Our results not only demonstrate the sample-efficiency of this basic model-based approach in MARL, but also elaborate on the fundamental tradeoff between its power (easily handling the more challenging reward-agnostic case) and limitation (less adaptive and suboptimal in $|A|,|B|$), particularly arises in the multi-agent context.
翻訳日:2022-11-10 05:36:56 公開日:2020-10-10
# 強化学習における純粋探索のための高速能動学習

Fast active learning for pure exploration in reinforcement learning ( http://arxiv.org/abs/2007.13442v2 )

ライセンス: Link先を確認
Pierre M\'enard, Omar Darwiche Domingues, Anders Jonsson, Emilie Kaufmann, Edouard Leurent, Michal Valko(参考訳) 現実的な環境はしばしばエージェントに非常に限られたフィードバックを提供する。 環境が当初不明な場合、最初はフィードバックが完全に欠落し、エージェントはまず、効率的な探索に全力を注ぐことを選択できる。 調査は依然として課題であり、一方では様々なレベルの一般性を持つ手動のヒューリスティックと、他方では理論的に支援されたいくつかの探査戦略に対処されている。 それらの多くは本質的なモチベーションと特に探検のボーナスに魅了されている。 探索ボーナスの親指の一般的なルールは、1/\sqrt{n}$ボーナスを使用することで、報酬の試算値に追加される。 当然のことながら、報酬のない探索という純粋探索目的のために、1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善する。 さらに, 停止時間分析の改善により, 探索期間中の行動に対して, エージェントがペナルティを課されない環境を探索する目的として, 最高の政治識別設定において, サンプルの複雑さを$H$で改善できることが示唆された。

Realistic environments often provide agents with very limited feedback. When the environment is initially unknown, the feedback, in the beginning, can be completely absent, and the agents may first choose to devote all their effort on exploring efficiently. The exploration remains a challenge while it has been addressed with many hand-tuned heuristics with different levels of generality on one side, and a few theoretically-backed exploration strategies on the other. Many of them are incarnated by intrinsic motivation and in particular explorations bonuses. A common rule of thumb for exploration bonuses is to use $1/\sqrt{n}$ bonus that is added to the empirical estimates of the reward, where $n$ is a number of times this particular state (or a state-action pair) was visited. We show that, surprisingly, for a pure-exploration objective of reward-free exploration, bonuses that scale with $1/n$ bring faster learning rates, improving the known upper bounds with respect to the dependence on the horizon $H$. Furthermore, we show that with an improved analysis of the stopping time, we can improve by a factor $H$ the sample complexity in the best-policy identification setting, which is another pure-exploration objective, where the environment provides rewards but the agent is not penalized for its behavior during the exploration phase.
翻訳日:2022-11-06 07:44:16 公開日:2020-10-10
# 自動車の意思決定のための深層強化学習における運転課題伝達

Driving Tasks Transfer in Deep Reinforcement Learning for Decision-making of Autonomous Vehicles ( http://arxiv.org/abs/2009.03268v2 )

ライセンス: Link先を確認
Hong Shu, Teng Liu, Xingyu Mu, Dongpu Cao(参考訳) 知識伝達は、自動運転車のリアルタイム意思決定を実現するための有望な概念である。 本稿では,区間間環境における運転タスクを変換するトランスファー深層強化学習フレームワークを構築した。 信号のない交差点での運転ミッションは左折、右折、そして自動走行車に直行される。 自走自走車(AEV)の目標は、交差点の状況を効率的かつ安全に通り抜けることである。 この目的により、実験車両は速度を上げ、他の車両の衝突を避けることができる。 ある運転課題から学んだ意思決定ポリイは、別の運転ミッションで転送され評価される。 シミュレーションの結果,類似タスクに関連する意思決定戦略が伝達可能であることが明らかとなった。 提案する制御フレームワークは、時間消費を削減し、オンライン実装を実現することができる。

Knowledge transfer is a promising concept to achieve real-time decision-making for autonomous vehicles. This paper constructs a transfer deep reinforcement learning framework to transform the driving tasks in inter-section environments. The driving missions at the un-signalized intersection are cast into a left turn, right turn, and running straight for automated vehicles. The goal of the autonomous ego vehicle (AEV) is to drive through the intersection situation efficiently and safely. This objective promotes the studied vehicle to increase its speed and avoid crashing other vehicles. The decision-making pol-icy learned from one driving task is transferred and evaluated in another driving mission. Simulation results reveal that the decision-making strategies related to similar tasks are transferable. It indicates that the presented control framework could reduce the time consumption and realize online implementation.
翻訳日:2022-10-21 02:21:57 公開日:2020-10-10
# PiaNet: 3次元肺CTにおけるGGO検出のためのピラミッド入力拡張畳み込みニューラルネットワーク

PiaNet: A pyramid input augmented convolutional neural network for GGO detection in 3D lung CT scans ( http://arxiv.org/abs/2009.05267v2 )

ライセンス: Link先を確認
Weihua Liu, Xiabi Liua, Xiongbiao Luo, Murong Wang, Guanghui Han, Xinming Zhao, Zheng Zhu(参考訳) 本稿では,3次元CT画像におけるグラウンドグラス不透明性(GGO)結節を検出するためのマルチスケール処理を備えた新しい畳み込みニューラルネットワークを提案する。 PiaNetは機能抽出モジュールと予測モジュールで構成される。 前者モジュールは、縮約拡大構造にピラミッド型マルチスケールソース接続を導入することで構成される。 後者のモジュールはバウンディングボックス回帰器と、複数のスケールでGGOノジュールと推定バウンディングボックスを同時に認識するために使用される分類器を含む。 提案するpianetをトレーニングするために,2段階のトランスファー学習戦略を開発した。 第1段階では、少数のCTスキャンからデータ拡張を行い、GGOおよび非GGOパッチの大きなデータセットに基づいて訓練された分類器ネットワークに特徴抽出モジュールを埋め込む。 第2段階では、事前訓練された特徴抽出モジュールがPiaNetにロードされ、その後、アノテーション付きCTスキャンを使用して微調整される。 LIDC-IDRIデータセット上で提案したPiaNetを評価する。 実験の結果,本手法は,S4ND法やGA-SSD法など,最先端のCADやAidenceシステムよりも優れていることがわかった。 pianetは1回のスキャンで91.75%の感度を達成

This paper proposes a new convolutional neural network with multiscale processing for detecting ground-glass opacity (GGO) nodules in 3D computed tomography (CT) images, which is referred to as PiaNet for short. PiaNet consists of a feature-extraction module and a prediction module. The former module is constructed by introducing pyramid multiscale source connections into a contracting-expanding structure. The latter module includes a bounding-box regressor and a classifier that are employed to simultaneously recognize GGO nodules and estimate bounding boxes at multiple scales. To train the proposed PiaNet, a two-stage transfer learning strategy is developed. In the first stage, the feature-extraction module is embedded into a classifier network that is trained on a large data set of GGO and non-GGO patches, which are generated by performing data augmentation from a small number of annotated CT scans. In the second stage, the pretrained feature-extraction module is loaded into PiaNet, and then PiaNet is fine-tuned using the annotated CT scans. We evaluate the proposed PiaNet on the LIDC-IDRI data set. The experimental results demonstrate that our method outperforms state-of-the-art counterparts, including the Subsolid CAD and Aidence systems and S4ND and GA-SSD methods. PiaNet achieves a sensitivity of 91.75% with only one false positive per scan
翻訳日:2022-10-19 21:33:27 公開日:2020-10-10
# 活性化緩和:脳のバックプロパゲーションに対する局所的動的近似

Activation Relaxation: A Local Dynamical Approximation to Backpropagation in the Brain ( http://arxiv.org/abs/2009.05359v5 )

ライセンス: Link先を確認
Beren Millidge, Alexander Tschantz, Anil K Seth, Christopher L Buckley(参考訳) 誤りアルゴリズム(バックプロップ)のバックプロパゲーションは、近年のディープラーニングの成功に役立っている。 しかし、神経回路の実装に適した方法でバックプロップを定式化できるかどうかについては、重要な疑問が残る。 主な課題は、任意の候補定式化が標準バックプロップのようにグローバル信号に頼るのではなく、ローカル情報のみを使用するようにすることである。 近年,局所信号のみを用いたバックプロップ近似アルゴリズムが提案されている。 しかし、これらのアルゴリズムは通常、生物学的な可能性に挑戦する他の要件を課す:例えば、複雑で正確な接続スキームを必要とするか、位相間で情報を格納する複数のシーケンシャルな後方位相である。 本稿では,動的システムの平衡点としてバックプロパゲーション勾配を構成することによって動機付ける,新しいアルゴリズム Activation Relaxation (AR) を提案する。 提案アルゴリズムは, 逆伝播勾配に高速かつ頑健に収束し, 1種類の計算単位のみを必要とし, 単一の並列逆緩和位相しか利用せず, 任意の計算グラフ上で動作可能である。 これらの特性を,視覚分類タスクで深層ニューラルネットワークを訓練し,神経生物学的実装(例えば,重み輸送問題や非線形導関数の使用)に対するさらなる障害を取り除くアルゴリズムの単純化を,性能を維持しながら記述する。

The backpropagation of error algorithm (backprop) has been instrumental in the recent success of deep learning. However, a key question remains as to whether backprop can be formulated in a manner suitable for implementation in neural circuitry. The primary challenge is to ensure that any candidate formulation uses only local information, rather than relying on global signals as in standard backprop. Recently several algorithms for approximating backprop using only local signals have been proposed. However, these algorithms typically impose other requirements which challenge biological plausibility: for example, requiring complex and precise connectivity schemes, or multiple sequential backwards phases with information being stored across phases. Here, we propose a novel algorithm, Activation Relaxation (AR), which is motivated by constructing the backpropagation gradient as the equilibrium point of a dynamical system. Our algorithm converges rapidly and robustly to the correct backpropagation gradients, requires only a single type of computational unit, utilises only a single parallel backwards relaxation phase, and can operate on arbitrary computation graphs. We illustrate these properties by training deep neural networks on visual classification tasks, and describe simplifications to the algorithm which remove further obstacles to neurobiological implementation (for example, the weight-transport problem, and the use of nonlinear derivatives), while preserving performance.
翻訳日:2022-10-19 20:43:04 公開日:2020-10-10
# 画像生成のための逆スコアマッチングとサンプリングの改善

Adversarial score matching and improved sampling for image generation ( http://arxiv.org/abs/2009.05475v2 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, R\'emi Pich\'e-Taillefer, R\'emi Tachet des Combes, Ioannis Mitliagkas(参考訳) Denoising Score Matching with Annealed Langevin Smpling (DSM-ALS)は、最近、生成モデリングで成功している。 このアプローチは、まずニューラルネットワークをトレーニングして分布のスコアを推定し、次にlangevin dynamicsを使用してスコアネットワークが仮定したデータ分布からサンプルを生成する。 サンプルの説得力のある視覚的品質にもかかわらず、この手法は生成モデルのための標準的な指標であるFr'echet Inception Distanceの下でGAN(Generative Adversarial Networks)よりも優れているように見える。 この明らかなギャップは、スコアネットワークを用いて最終ランゲヴィンサンプルを復調する際に消失することを示す。 さらに,DSM-ALSの2つの改良点を提案する。 1)Annealed Langevin Smplingのより安定した代替品としてのConsistent Annealed Smpling,及び 2) スコアマッチングと対戦目標の両方からなるハイブリッドトレーニングの定式化。 これら2つの手法を組み合わせて異なるネットワークアーキテクチャを探索することにより、スコアマッチング手法を向上し、CIFAR-10の最先端画像生成と競合する結果を得る。

Denoising Score Matching with Annealed Langevin Sampling (DSM-ALS) has recently found success in generative modeling. The approach works by first training a neural network to estimate the score of a distribution, and then using Langevin dynamics to sample from the data distribution assumed by the score network. Despite the convincing visual quality of samples, this method appears to perform worse than Generative Adversarial Networks (GANs) under the Fr\'echet Inception Distance, a standard metric for generative models. We show that this apparent gap vanishes when denoising the final Langevin samples using the score network. In addition, we propose two improvements to DSM-ALS: 1) Consistent Annealed Sampling as a more stable alternative to Annealed Langevin Sampling, and 2) a hybrid training formulation, composed of both Denoising Score Matching and adversarial objectives. By combining these two techniques and exploring different network architectures, we elevate score matching methods and obtain results competitive with state-of-the-art image generation on CIFAR-10.
翻訳日:2022-10-19 20:38:55 公開日:2020-10-10
# マルチモーダル感情認識のための注意駆動融合

Attention Driven Fusion for Multi-Modal Emotion Recognition ( http://arxiv.org/abs/2009.10991v2 )

ライセンス: Link先を確認
Darshana Priyasad, Tharindu Fernando, Simon Denman, Clinton Fookes, Sridha Sridharan(参考訳) 深層学習は、音響とテキストの組み合わせによる感情認識のための手作りの手法の強力な代替手段として登場した。 ベースラインシステムは、ディープ畳み込みニューラルネットワーク(DCNN)とリカレントニューラルネットワーク(RNN)を用いて、テキストおよび音響モードで感情情報を独立にモデル化し、次に注意、融合、分類を適用する。 本稿では,感情分類にテキストと音響データを活用し融合するための深層学習に基づくアプローチを提案する。 帯域通過フィルタを用いたパラメータ化sinc関数に基づくsincnet層を用いて,生オーディオから音響特徴を抽出し,dnnを付加する。 このアプローチでは,感情認識用に調整されたフィルタバンクを学習し,生音声信号に畳み込みを直接適用した場合と比較して,より効果的な特徴を提供する。 テキスト処理では、2つの分岐(DCNNとBio-direction RNNとDCNN)を並列に使用し、Bi-RNNから受信した隠れ表現に対してN-gramレベルの相関関係を推定する。 既存の現状に従って,提案システムの性能をIEMOCAPデータセット上で評価する。 実験の結果,提案手法は既存の手法を上回り,重み付け精度が3.5%向上した。

Deep learning has emerged as a powerful alternative to hand-crafted methods for emotion recognition on combined acoustic and text modalities. Baseline systems model emotion information in text and acoustic modes independently using Deep Convolutional Neural Networks (DCNN) and Recurrent Neural Networks (RNN), followed by applying attention, fusion, and classification. In this paper, we present a deep learning-based approach to exploit and fuse text and acoustic data for emotion classification. We utilize a SincNet layer, based on parameterized sinc functions with band-pass filters, to extract acoustic features from raw audio followed by a DCNN. This approach learns filter banks tuned for emotion recognition and provides more effective features compared to directly applying convolutions over the raw speech signal. For text processing, we use two branches (a DCNN and a Bi-direction RNN followed by a DCNN) in parallel where cross attention is introduced to infer the N-gram level correlations on hidden representations received from the Bi-RNN. Following existing state-of-the-art, we evaluate the performance of the proposed system on the IEMOCAP dataset. Experimental results indicate that the proposed system outperforms existing methods, achieving 3.5% improvement in weighted accuracy.
翻訳日:2022-10-15 15:54:45 公開日:2020-10-10
# inltk: インデックス言語のための自然言語ツールキット

iNLTK: Natural Language Toolkit for Indic Languages ( http://arxiv.org/abs/2009.12534v2 )

ライセンス: Link先を確認
Gaurav Arora(参考訳) iNLTKは、訓練済みの言語モデルと、データ拡張、テキスト類似性、文の埋め込み、単語埋め込み、トークン化、テキスト生成のためのアウト・オブ・ボックスのサポートで構成されるオープンソースのNLPライブラリである。 公開データセットのテキスト分類にiNLTKの事前学習モデルを用いることで,従来報告した結果よりも有意に優れていた。 これらのデータセットについて,事前トレーニングされたモデルとinltkのデータ拡張を用いることで,トレーニングデータの10%未満を用いて,前回のベストパフォーマンスの95%以上を達成できることを示す。 iNLTKはすでにコミュニティで広く使われており、GitHubには40,000以上のダウンロード、600以上のスター、100以上のフォークがある。 ライブラリはhttps://github.com/goru001/inltkで入手できる。

We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95% of the previous best performance by using less than 10% of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk.
翻訳日:2022-10-14 08:44:12 公開日:2020-10-10
# TernaryBERT:蒸留対応超低ビットBERT

TernaryBERT: Distillation-aware Ultra-low Bit BERT ( http://arxiv.org/abs/2009.12812v3 )

ライセンス: Link先を確認
Wei Zhang, Lu Hou, Yichun Yin, Lifeng Shang, Xiao Chen, Xin Jiang, Qun Liu(参考訳) BERTのようなトランスフォーマーベースの事前トレーニングモデルは、多くの自然言語処理タスクにおいて顕著なパフォーマンスを達成したが、これらのモデルは計算とメモリコストの両方で、リソース制約のあるデバイスへのデプロイメントを妨げる。 本研究では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。 具体的には、近似ベースと損失対応のテルナライズ法の両方を用い、bertの異なる部分のテルナライズ粒度を実験的に検討する。 さらに,低ビットの低容量化による精度劣化を低減するため,学習過程における知識蒸留技術を活用した。 GLUEベンチマークとSQuAD実験の結果,提案した TernaryBERT は他のBERT量子化法よりも優れており,14.9倍の精度で完全精度のモデルと同等の性能を達成できることがわかった。

Transformer-based pre-training models like BERT have achieved remarkable performance in many natural language processing tasks.However, these models are both computation and memory expensive, hindering their deployment to resource-constrained devices. In this work, we propose TernaryBERT, which ternarizes the weights in a fine-tuned BERT model. Specifically, we use both approximation-based and loss-aware ternarization methods and empirically investigate the ternarization granularity of different parts of BERT. Moreover, to reduce the accuracy degradation caused by the lower capacity of low bits, we leverage the knowledge distillation technique in the training process. Experiments on the GLUE benchmark and SQuAD show that our proposed TernaryBERT outperforms the other BERT quantization methods, and even achieves comparable performance as the full-precision model while being 14.9x smaller.
翻訳日:2022-10-14 03:16:37 公開日:2020-10-10
# 空間チャネル注意と相補的文脈情報を用いた野生における表現行動解析

Affect Expression Behaviour Analysis in the Wild using Spatio-Channel Attention and Complementary Context Information ( http://arxiv.org/abs/2009.14440v2 )

ライセンス: Link先を確認
Darshan Gera and S Balasubramanian(参考訳) 顔の表情認識(FER)は、信頼性の高い人-コンピュータ対話システムの構築に不可欠である。 しかし、現在のferシステムは、様々な自然および非制御条件下ではうまく機能しない。 本稿では,ABAW(Affective Behaviour Analysis in-wild)2020 コンペティションの表現認識トラックに,注目に基づく枠組みを提示する。 空間チャネルアテンションネット(SCAN)は、ランドマーク検出器から情報を求めることなく、局所的およびグローバルな注意特徴を抽出するために使用される。 SCANは、効率的なチャネルアテンション(ECA)を使用して特徴の関連性を高める補完的コンテキスト情報(CCI)ブランチによって補完される。 分類式分類のためのAff-Wild2データセットに挑戦するモデルの性能を検証する。

Facial expression recognition(FER) in the wild is crucial for building reliable human-computer interactive systems. However, current FER systems fail to perform well under various natural and un-controlled conditions. This report presents attention based framework used in our submission to expression recognition track of the Affective Behaviour Analysis in-the-wild (ABAW) 2020 competition. Spatial-channel attention net(SCAN) is used to extract local and global attentive features without seeking any information from landmark detectors. SCAN is complemented by a complementary context information(CCI) branch which uses efficient channel attention(ECA) to enhance the relevance of features. The performance of the model is validated on challenging Aff-Wild2 dataset for categorical expression classification.
翻訳日:2022-10-13 07:05:40 公開日:2020-10-10
# MetaMix: 補間に基づく一貫性規則化によるメタラーニングの改善

MetaMix: Improved Meta-Learning with Interpolation-based Consistency Regularization ( http://arxiv.org/abs/2009.13735v2 )

ライセンス: Link先を確認
Yangbin Chen, Yun Ma, Tom Ko, Jianping Wang, Qing Li(参考訳) Model-Agnostic Meta-Learning (MAML)とその変種は、数ショット分類法として人気がある。 彼らは、初期化モデルが新しいタスクに迅速に適応できるように、様々なサンプル学習タスク(エピソードとしても知られる)でイニシャライザを訓練する。 しかし、現在のmamlベースのアルゴリズムは、一般化可能な決定境界の形成に制限がある。 本稿ではMetaMixと呼ばれるアプローチを提案する。 各エピソード内で仮想フィーチャーターゲットペアを生成し、バックボーンモデルを規則化する。 MetaMixは、MAMLベースのアルゴリズムと統合することができ、新しいタスクをより一般化した決定境界を学ぶことができる。 mini-ImageNet, CUB, FC100データセットの実験では、MetaMixはMAMLベースのアルゴリズムの性能を改善し、Meta-Transfer Learningと統合した場合に最先端の結果が得られる。

Model-Agnostic Meta-Learning (MAML) and its variants are popular few-shot classification methods. They train an initializer across a variety of sampled learning tasks (also known as episodes) such that the initialized model can adapt quickly to new tasks. However, current MAML-based algorithms have limitations in forming generalizable decision boundaries. In this paper, we propose an approach called MetaMix. It generates virtual feature-target pairs within each episode to regularize the backbone models. MetaMix can be integrated with any of the MAML-based algorithms and learn the decision boundaries generalizing better to new tasks. Experiments on the mini-ImageNet, CUB, and FC100 datasets show that MetaMix improves the performance of MAML-based algorithms and achieves state-of-the-art result when integrated with Meta-Transfer Learning.
翻訳日:2022-10-13 06:27:26 公開日:2020-10-10
# hint3: インテント検出のためのバーを野生で立ち上げる

HINT3: Raising the bar for Intent Detection in the Wild ( http://arxiv.org/abs/2009.13833v2 )

ライセンス: Link先を確認
Gaurav Arora, Chirag Jain, Manas Chaturvedi, Krupal Modi(参考訳) 実世界のインテント検出システムは、意図の知覚、意図しない相関、ドメイン固有の収差を含む不均衡データセットの複雑さにさらされる。 現実世界に近いシナリオを反映できるベンチマークを容易にするため、さまざまなドメインのライブチャットボットから生成された3つの新しいデータセットを紹介します。 クラウドソーシングされた既存のデータセットと異なり、当社のデータセットにはチャットボットが受信した実際のユーザクエリが含まれており、トレーニングプロセス中に把握された望ましくない相関関係のペナライズが容易です。 我々は,4つのNLUプラットフォームとBERTベースの分類器を評価し,全てのシステムが学習データにおいて意図しないパターンに干渉するため,テストセットにおける性能が不適切なレベルに飽和していることを見出した。

Intent Detection systems in the real world are exposed to complexities of imbalanced datasets containing varying perception of intent, unintended correlations and domain-specific aberrations. To facilitate benchmarking which can reflect near real-world scenarios, we introduce 3 new datasets created from live chatbots in diverse domains. Unlike most existing datasets that are crowdsourced, our datasets contain real user queries received by the chatbots and facilitates penalising unwanted correlations grasped during the training process. We evaluate 4 NLU platforms and a BERT based classifier and find that performance saturates at inadequate levels on test sets because all systems latch on to unintended patterns in training data.
翻訳日:2022-10-13 06:10:13 公開日:2020-10-10
# 無限の可能性を持つコントラスト学習

Joint Contrastive Learning with Infinite Possibilities ( http://arxiv.org/abs/2009.14776v2 )

ライセンス: Link先を確認
Qi Cai and Yu Wang and Yingwei Pan and Ting Yao and Tao Mei(参考訳) 本稿では,新しい確率的モデリングによるコントラスト学習における最近の発展の有用な修正について検討する。 我々は、ジョイントコントラスト学習(jcl)と呼ばれる特定の形態のコントラスト損失を導出する。 jclは暗黙的に無限個のクエリーキーペアの同時学習を伴い、不変な特徴を探索する際により厳密な制約を与える。 我々は、エンドツーエンドのトレーニング方法で分析解を許容するこの定式化上の上限を導出する。 JCLは、多数のコンピュータビジョンアプリケーションにおいて実質的に有効であるが、JCLの動作を管理する特定のメカニズムについても理論的に明らかにする。 提案手法は,各インスタンス固有のクラス間の類似性を強く好む固有機関を保ちながら,個別のインスタンス間の識別的特徴を検索しても有利であることを示す。 我々は,これらの提案を複数のベンチマークで評価し,既存のアルゴリズムを大幅に改善した。 コードは、https://github.com/caiqi/Joint-Contrastive-Learning.comで公開されている。

This paper explores useful modifications of the recent development in contrastive learning via novel probabilistic modeling. We derive a particular form of contrastive loss named Joint Contrastive Learning (JCL). JCL implicitly involves the simultaneous learning of an infinite number of query-key pairs, which poses tighter constraints when searching for invariant features. We derive an upper bound on this formulation that allows analytical solutions in an end-to-end training manner. While JCL is practically effective in numerous computer vision applications, we also theoretically unveil the certain mechanisms that govern the behavior of JCL. We demonstrate that the proposed formulation harbors an innate agency that strongly favors similarity within each instance-specific class, and therefore remains advantageous when searching for discriminative features among distinct instances. We evaluate these proposals on multiple benchmarks, demonstrating considerable improvements over existing algorithms. Code is publicly available at: https://github.com/caiqi/Joint-Contrastive-Learning.
翻訳日:2022-10-12 23:02:10 公開日:2020-10-10
# 予測符号化モデルの制約を緩和する

Relaxing the Constraints on Predictive Coding Models ( http://arxiv.org/abs/2010.01047v2 )

ライセンス: Link先を確認
Beren Millidge, Alexander Tschantz, Anil Seth, Christopher L Buckley(参考訳) 予測符号化は、脳が行う主計算(知覚と学習の両方の基礎となる)が予測誤差の最小化であると仮定する、皮質機能の影響力のある理論である。 高レベルの変分推論の概念に動機付けられながら、その計算を実装可能な皮質微小循環の詳細な神経生理学的モデルが開発されている。 さらに、特定の条件下では、予測符号はエラーアルゴリズムのバックプロパゲーションを近似することが示されており、ディープネットワークを訓練するための比較的生物学的に妥当な信用割り当てメカニズムを提供する。 しかし、このアルゴリズムの標準的な実装には、同一の前方および後方の重み、後方の非線形微分、および1-1の誤差単位の接続など、潜在的に有望な特徴がある。 本稿では,これらの機能はアルゴリズムに不可欠なものではなく,直接的あるいは追加のパラメータセットをヒュービアン・アップデート・ルールで学習することで,学習性能を損なうことなく削除できることを示す。 これにより、マイクロ回路設計の現在の制約を緩和し、予測符号化のニューロモルフィック実装のためのデザイン空間の新たな領域を開拓することが望まれる。

Predictive coding is an influential theory of cortical function which posits that the principal computation the brain performs, which underlies both perception and learning, is the minimization of prediction errors. While motivated by high-level notions of variational inference, detailed neurophysiological models of cortical microcircuits which can implements its computations have been developed. Moreover, under certain conditions, predictive coding has been shown to approximate the backpropagation of error algorithm, and thus provides a relatively biologically plausible credit-assignment mechanism for training deep networks. However, standard implementations of the algorithm still involve potentially neurally implausible features such as identical forward and backward weights, backward nonlinear derivatives, and 1-1 error unit connectivity. In this paper, we show that these features are not integral to the algorithm and can be removed either directly or through learning additional sets of parameters with Hebbian update rules without noticeable harm to learning performance. Our work thus relaxes current constraints on potential microcircuit designs and hopefully opens up new regions of the design-space for neuromorphic implementations of predictive coding.
翻訳日:2022-10-12 00:57:24 公開日:2020-10-10
# GenAug: 微調整テキストジェネレータのためのデータ拡張

GenAug: Data Augmentation for Finetuning Text Generators ( http://arxiv.org/abs/2010.01794v2 )

ライセンス: Link先を確認
Steven Y. Feng, Varun Gangal, Dongyeop Kang, Teruko Mitamura, Eduard Hovy(参考訳) 本稿では,GenAugと呼ぶテキスト生成のためのデータ拡張について検討する。 テキスト生成と言語モデリングは自然言語処理における重要なタスクであり、特に低データ体制では困難である。 Yelp Reviewsのサブセット上でGPT-2を微調整するための外部知識を含む様々な拡張手法を提案し評価する。 また,増補量と生成テキストの品質との関係についても検討した。 生成したテキストの重要な側面を評価するいくつかの指標を利用し,その多様性と流動性を評価した。 実験により,文字レベルの合成ノイズの挿入とキーワードのハイパーネムへの置換が有効であることを示すとともに,世代数の品質が元のデータの約3倍のピークに向上することを示した。

In this paper, we investigate data augmentation for text generation, which we call GenAug. Text generation and language modeling are important tasks within natural language processing, and are especially challenging for low-data regimes. We propose and evaluate various augmentation methods, including some that incorporate external knowledge, for finetuning GPT-2 on a subset of Yelp Reviews. We also examine the relationship between the amount of augmentation and the quality of the generated text. We utilize several metrics that evaluate important aspects of the generated text including its diversity and fluency. Our experiments demonstrate that insertion of character-level synthetic noise and keyword replacement with hypernyms are effective augmentation methods, and that the quality of generations improves to a peak at approximately three times the amount of original data.
翻訳日:2022-10-10 19:35:11 公開日:2020-10-10
# 不特定質問による非問合せステレオタイピングバイアス

UnQovering Stereotyping Biases via Underspecified Questions ( http://arxiv.org/abs/2010.02428v3 )

ライセンス: Link先を確認
Tao Li, Tushar Khot, Daniel Khashabi, Ashish Sabharwal, Vivek Srikumar(参考訳) 言語埋め込みにはステレオタイプバイアスがあることが示されているが、これらのバイアスが下流質問応答(QA)モデルにどのように影響するかは未解明のままである。 未特定質問からバイアスを探索・定量化するための一般的なフレームワークUNQOVERを提案する。 モデルスコアの素直な使用は、位置依存と質問独立という2種類の推論誤りによる誤バイアス推定につながる可能性があることを示す。 上記のエラーを分離する形式をデザインします。 ケーススタディでは、この指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプを分析する。 2つのQAデータセットでトレーニングされた5つのトランスフォーマーベースのQAモデルと、その基盤となる言語モデルについて検討する。 より広義の研究では,(1)これらのモデルはすべて,これらのクラスにおいて顕著なステレオタイピングバイアスを有し,(2)大型モデルは高いバイアスを持ち,(3)微調整の効果はデータセットやモデルサイズによって大きく異なることが明らかとなった。

While language embeddings have been shown to have stereotyping biases, how these biases affect downstream question answering (QA) models remains unexplored. We present UNQOVER, a general framework to probe and quantify biases through underspecified questions. We show that a naive use of model scores can lead to incorrect bias estimates due to two forms of reasoning errors: positional dependence and question independence. We design a formalism that isolates the aforementioned errors. As case studies, we use this metric to analyze four important classes of stereotypes: gender, nationality, ethnicity, and religion. We probe five transformer-based QA models trained on two QA datasets, along with their underlying language models. Our broad study reveals that (1) all these models, with and without fine-tuning, have notable stereotyping biases in these classes; (2) larger models often have higher bias; and (3) the effect of fine-tuning on bias varies strongly with the dataset and the model size.
翻訳日:2022-10-10 06:28:33 公開日:2020-10-10
# 再スケールヒンジ損失に基づく低ランクロバストオンライン距離・類似性学習

Low-Rank Robust Online Distance/Similarity Learning based on the Rescaled Hinge Loss ( http://arxiv.org/abs/2010.03268v2 )

ライセンス: Link先を確認
Davood Zabihzadeh, Amar Tuama, Ali Karami-Mollaee(参考訳) メトリック学習における重要な課題は、入力データのサイズと寸法の両方に対するスケーラビリティである。 この課題に対処するために、オンラインメトリック学習アルゴリズムが提案されている。 既存の手法は一般的に(Passive Aggressive) PAアプローチに基づいている。 したがって、適応学習レートで大量のデータを迅速に処理することができる。 しかし、これらのアルゴリズムはヒンジ損失に基づいているため、外れ値やラベルノイズに対して堅牢ではない。 また、既存のオンラインメソッドは通常、トレーニングトリプレットやペアワイズ制約が事前に存在すると仮定する。 しかし、現実世界のアプリケーションにおける多くのデータセットは、入力データとその関連ラベルの形で存在する。 我々は,オンライン距離類似性学習問題をロバストなリスケールドヒンジ損失関数を用いて定式化することにより,これらの課題に対処した。 提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。 また,効率的なロバストな1パス三重項構成アルゴリズムを開発した。 最後に,高次元DML環境でのスケーラビリティを実現するため,提案手法の低ランクバージョンは,計算コストを大幅に削減するだけでなく,学習したメトリクスの予測性能も維持する。 また,深部距離類似性学習のための手法の簡単な拡張も提供する。 我々は様々なアプリケーションからデータセットについていくつかの実験を行う。 その結果,提案手法はラベルノイズやアウトレーヤの存在下で,最先端のオンラインDML手法よりも大幅に優れていたことが確認された。

An important challenge in metric learning is scalability to both size and dimension of input data. Online metric learning algorithms are proposed to address this challenge. Existing methods are commonly based on (Passive Aggressive) PA approach. Hence, they can rapidly process large volumes of data with an adaptive learning rate. However, these algorithms are based on the Hinge loss and so are not robust against outliers and label noise. Also, existing online methods usually assume training triplets or pairwise constraints are exist in advance. However, many datasets in real-world applications are in the form of input data and their associated labels. We address these challenges by formulating the online Distance-Similarity learning problem with the robust Rescaled hinge loss function. The proposed model is rather general and can be applied to any PA-based online Distance-Similarity algorithm. Also, we develop an efficient robust one-pass triplet construction algorithm. Finally, to provide scalability in high dimensional DML environments, the low-rank version of the proposed methods is presented that not only reduces the computational cost significantly but also keeps the predictive performance of the learned metrics. Also, it provides a straightforward extension of our methods for deep Distance-Similarity learning. We conduct several experiments on datasets from various applications. The results confirm that the proposed methods significantly outperform state-of-the-art online DML methods in the presence of label noise and outliers by a large margin.
翻訳日:2022-10-09 21:50:59 公開日:2020-10-10
# 量子固有値問題に対する教師なしニューラルネットワーク

Unsupervised Neural Networks for Quantum Eigenvalue Problems ( http://arxiv.org/abs/2010.05075v1 )

ライセンス: Link先を確認
Henry Jin, Marios Mattheakis, Pavlos Protopapas(参考訳) 固有値問題は科学と工学のいくつかの分野において重要である。 境界条件を同一に満たす解を用いた微分固有値問題に対する固有関数と固有値を発見するための新しい教師なしニューラルネットワークを提案する。 スキャン機構が組み込まれており、任意の数の解を見つけることができる。 ネットワーク最適化はデータフリーであり、予測のみに依存する。 教師なし法は、量子無限井戸と量子発振器固有値問題を解くために用いられる。

Eigenvalue problems are critical to several fields of science and engineering. We present a novel unsupervised neural network for discovering eigenfunctions and eigenvalues for differential eigenvalue problems with solutions that identically satisfy the boundary conditions. A scanning mechanism is embedded allowing the method to find an arbitrary number of solutions. The network optimization is data-free and depends solely on the predictions. The unsupervised method is used to solve the quantum infinite well and quantum oscillator eigenvalue problems.
翻訳日:2022-10-08 23:39:09 公開日:2020-10-10
# 特徴工学を用いた顧客サポートチケットエスカレーション予測

Customer Support Ticket Escalation Prediction using Feature Engineering ( http://arxiv.org/abs/2010.06145v1 )

ライセンス: Link先を確認
Lloyd Montgomery, Daniela Damian, Tyson Bulmer, Shaikh Quader(参考訳) 顧客を満足させ続けることは、要求工学の中心的な取り組みである。 要求を収集、分析、交渉する戦略は、製品がデプロイされた後、顧客の入力を管理する努力によって補完される。 後者の場合、サポートチケットは、顧客が問題やバグレポート、機能要求を提出できるようにするための鍵となる。 しかし、支援に不十分な注意が払われた場合、経営陣へのエスカレーションは時間と費用がかかり、特に数百の顧客と数千の支援チケットを管理する大企業にとっては、コストがかかる。 当社の仕事は、特にサポートチケットのエスカレーションリスクの予測において、サポートアナリストやマネージャの仕事を単純化するためのステップを提供します。 大規模産業パートナーであるIBMでのフィールドスタディでは、エスカレーション管理においてIBMアナリストが利用可能なサポートプロセスとデータを特徴付けるために、デザインサイエンス研究方法論を使用しました。 次にこれらの機能を機械学習モデルに実装し、サポートチケットのエスカレーションを予測する。 我々は、サポートチケット250万件、エスカレーション10,000件の機械学習モデルをトレーニング、評価し、エスカレーションリスクのあるサポートアナリストを対象に、87.36%のリコールと88.23%のワークロード削減を実現した。 最後に,これらの評価活動に加えて,サポートチケットモデルの性能を機能工学を伴わないモデルと比較し,サポートチケットモデルの特徴は非エンジニアリングモデルよりも優れていた。 この研究で作成されたアーティファクトは、支援チケットエスカレーションの予測に関心のある組織や、将来の研究者がエスカレーション予測の研究を進めるための出発点となるように設計されている。

Understanding and keeping the customer happy is a central tenet of requirements engineering. Strategies to gather, analyze, and negotiate requirements are complemented by efforts to manage customer input after products have been deployed. For the latter, support tickets are key in allowing customers to submit their issues, bug reports, and feature requests. If insufficient attention is given to support issues, however, their escalation to management becomes time-consuming and expensive, especially for large organizations managing hundreds of customers and thousands of support tickets. Our work provides a step towards simplifying the job of support analysts and managers, particularly in predicting the risk of escalating support tickets. In a field study at our large industrial partner, IBM, we used a design science research methodology to characterize the support process and data available to IBM analysts in managing escalations. We then implemented these features into a machine learning model to predict support ticket escalations. We trained and evaluated our machine learning model on over 2.5 million support tickets and 10,000 escalations, obtaining a recall of 87.36% and an 88.23% reduction in the workload for support analysts looking to identify support tickets at risk of escalation. Finally, in addition to these research evaluation activities, we compared the performance of our support ticket model with that of a model developed with no feature engineering; the support ticket model features outperformed the non-engineered model. The artifacts created in this research are designed to serve as a starting place for organizations interested in predicting support ticket escalations, and for future researchers to build on to advance research in escalation prediction.
翻訳日:2022-10-08 23:39:01 公開日:2020-10-10
# 歩行者のための自律車両視覚信号:実験と設計推奨

Autonomous Vehicle Visual Signals for Pedestrians: Experiments and Design Recommendations ( http://arxiv.org/abs/2010.05115v1 )

ライセンス: Link先を確認
Henry Chen, Robin Cohen, Kerstin Dautenhahn, Edith Law, Krzysztof Czarnecki(参考訳) 自動運転車(AV)は交通機関を変革するだけでなく、車と歩行者の対話も行う。 運転者がいない場合、AVがその意図を歩行者に伝えることができるかは明らかでない。 視覚信号を使う方法もある。 歩行者横断歩道における可視性, 直感性, 説得性, 使いやすさの6つの代表的なav視覚信号を評価する。 この結果に基づいて,信号パターンの設計と配置に着目し,AV視覚信号の実用的な設計勧告12点を抽出した。 さらに, 自動運転車を用いた実験室, 閉コース, 公道試験など, 視覚信号の実験的評価手法を推進した。 さらに,歩行者の横断歩道行動に関する知見や,歩行者の行動に対する信頼度の影響についても報告する。 我々は、この作業がavランプの国際規格の継続的な発展に貴重なインプットとなることを望んでいる。

Autonomous Vehicles (AV) will transform transportation, but also the interaction between vehicles and pedestrians. In the absence of a driver, it is not clear how an AV can communicate its intention to pedestrians. One option is to use visual signals. To advance their design, we conduct four human-participant experiments and evaluate six representative AV visual signals for visibility, intuitiveness, persuasiveness, and usability at pedestrian crossings. Based on the results, we distill twelve practical design recommendations for AV visual signals, with focus on signal pattern design and placement. Moreover, the paper advances the methodology for experimental evaluation of visual signals, including lab, closed-course, and public road tests using an autonomous vehicle. In addition, the paper also reports insights on pedestrian crosswalk behaviours and the impacts of pedestrian trust towards AVs on the behaviors. We hope that this work will constitute valuable input to the ongoing development of international standards for AV lamps, and thus help mature automated driving in general.
翻訳日:2022-10-08 23:38:32 公開日:2020-10-10
# 音声強調のための行列積演算子を用いたモデル圧縮法

A Model Compression Method with Matrix Product Operators for Speech Enhancement ( http://arxiv.org/abs/2010.04950v1 )

ライセンス: Link先を確認
Xingwei Sun, Ze-Feng Gao, Zhong-Yi Lu, Junfeng Li, Yonghong Yan(参考訳) ディープニューラルネットワーク(DNN)に基づく音声強調アプローチは有望な性能を達成した。 しかし,これらの手法に係わるパラメータの数は,限られたリソースを持つデバイス上での音声強調の実際の応用にとって,非常に大きい。 これは応用を厳しく制限する。 この問題に対処するため、モデル圧縮技術は広く研究されている。 本稿では,音声強調のためのdnnモデルにおけるパラメータ数を実質的に削減するために,行列積演算子(mpo)に基づくモデル圧縮法を提案する。 本手法では,ニューラルネットワークモデルの線形変換における重み行列を,トレーニング前にMPO分解形式に置き換える。 実験では、このプロセスは、フィードフォワード多層パーセプトロン(MLP)や長短期記憶(LSTM)モデルのような因果神経モデルに適用される。 MLPモデルとLSTMモデルの両方の圧縮/非圧縮モデルを用いて、単調音声強調のための理想的な比マスクを推定する。 実験の結果,提案手法は様々な圧縮速度で音声強調のための広範に使われているプルーニング法よりも優れており,低圧縮率でさらなる改善が期待できることがわかった。 本稿では,特にクラウドフリーアプリケーションにおいて,音声強調のための効果的なモデル圧縮手法を提案する。

The deep neural network (DNN) based speech enhancement approaches have achieved promising performance. However, the number of parameters involved in these methods is usually enormous for the real applications of speech enhancement on the device with the limited resources. This seriously restricts the applications. To deal with this issue, model compression techniques are being widely studied. In this paper, we propose a model compression method based on matrix product operators (MPO) to substantially reduce the number of parameters in DNN models for speech enhancement. In this method, the weight matrices in the linear transformations of neural network model are replaced by the MPO decomposition format before training. In experiment, this process is applied to the causal neural network models, such as the feedforward multilayer perceptron (MLP) and long short-term memory (LSTM) models. Both MLP and LSTM models with/without compression are then utilized to estimate the ideal ratio mask for monaural speech enhancement. The experimental results show that our proposed MPO-based method outperforms the widely-used pruning method for speech enhancement under various compression rates, and further improvement can be achieved with respect to low compression rates. Our proposal provides an effective model compression method for speech enhancement, especially in cloud-free application.
翻訳日:2022-10-08 23:37:51 公開日:2020-10-10
# データ駆動規則化推論プライバシ

Data-driven Regularized Inference Privacy ( http://arxiv.org/abs/2010.12346v1 )

ライセンス: Link先を確認
Chong Xiao Wang and Wee Peng Tay(参考訳) データは、認可されたタスクの意思決定を行うための推論システムへの入力として、サービスプロバイダによって広く使用される。 しかし生データは、サービスプロバイダが許可されていない他の機密情報を推測することを可能にする。 本稿では,生データに存在する機密情報の漏えいを防止するとともに,サービスプロバイダのレガシ推論システムとの互換性を確保するために,データをサニタイズするデータ駆動推論プライバシ保護フレームワークを提案する。 我々は,変分法に基づく推論プライバシ・フレームワークを開発し,そのレガシ互換性を確保するため,衛生データのドメインを規則化するためのテクニックとして,平均誤差とドメイン適応を最大化する。 しかし、変動法は、基礎となるデータ分布が近似し難い場合に、プライバシーが弱くなる。 また、連続プライベート変数を扱う際にも困難に直面することがある。 そこで本研究では,最大相関を用いたプライバシメトリックの代替定式化を提案し,それを推定するための経験的手法を提案する。 最後に,提案する推論プライバシフレームワークの例として,ディープラーニングモデルを開発した。 数値実験により本手法の有効性が検証された。

Data is used widely by service providers as input to inference systems to perform decision making for authorized tasks. The raw data however allows a service provider to infer other sensitive information it has not been authorized for. We propose a data-driven inference privacy preserving framework to sanitize data so as to prevent leakage of sensitive information that is present in the raw data, while ensuring that the sanitized data is still compatible with the service provider's legacy inference system. We develop an inference privacy framework based on the variational method and include maximum mean discrepancy and domain adaption as techniques to regularize the domain of the sanitized data to ensure its legacy compatibility. However, the variational method leads to weak privacy in cases where the underlying data distribution is hard to approximate. It may also face difficulties when handling continuous private variables. To overcome this, we propose an alternative formulation of the privacy metric using maximal correlation and we present empirical methods to estimate it. Finally, we develop a deep learning model as an example of the proposed inference privacy framework. Numerical experiments verify the feasibility of our approach.
翻訳日:2022-10-08 23:37:04 公開日:2020-10-10
# 弾性バッチジョブのための予測オートスケーラ

A Predictive Autoscaler for Elastic Batch Jobs ( http://arxiv.org/abs/2010.05049v1 )

ライセンス: Link先を確認
Peng Gao(参考訳) Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。 他の時系列データの処理と同様に、これらのジョブはトレンド、バースト、季節といった様々な特徴を持っている。 クラウドプロバイダは、スケーラビリティ、安定性、コスト効率を達成するための短期インスタンスを提供する。 クラスタへの参加と初期化による時間ラグを考えると、複雑なワークロードはスケジューリングシステムに違反する可能性がある。 クラウド環境にユーザが必要とする無限のリソースと理想的な配置が存在するという仮定に基づいて、顧客は柔軟なインターフェースを提供し、トレーニングされた回帰モデルに基づいてインスタンスをオーバープロビジョンする予測オートスケーラを提案する。 本研究では, 連続空間における異種資源要求を離散的な資源バケットに埋め込む手法と, リソースバケット数時系列の予測拡張計画を行うオートスケーラに寄与する。 生産資源利用データの実験的評価により, 予測オートスケーラは, スケーリング計画作成の負担を軽減し, 低コストで長時間の起動を回避し, 微調整された設定で他の予測手法より優れていることを示す。

Large batch jobs such as Deep Learning, HPC and Spark require far more computational resources and higher cost than conventional online service. Like the processing of other time series data, these jobs possess a variety of characteristics such as trend, burst, and seasonality. Cloud providers offer short-term instances to achieve scalability, stability, and cost-efficiency. Given the time lag caused by joining into the cluster and initialization, crowded workloads may lead to a violation in the scheduling system. Based on the assumption that there are infinite resources and ideal placements available for users to require in the cloud environment, we propose a predictive autoscaler to provide an elastic interface for the customers and overprovision instances based on the trained regression model. We contribute to a method to embed heterogeneous resource requirements in continuous space into discrete resource buckets and an autoscaler to do predictive expand plans on the time series of resource bucket counts. Our experimental evaluation of the production resources usage data validates the solution and the results show that the predictive autoscaler relieves the burden of making scaling plans, avoids long launching time at lower cost and outperforms other prediction methods with fine-tuned settings.
翻訳日:2022-10-08 23:30:49 公開日:2020-10-10
# TOTOPO:トポロジカルデータ分析による一変量・多変量時系列の分類

TOTOPO: Classifying univariate and multivariate time series with Topological Data Analysis ( http://arxiv.org/abs/2010.05056v1 )

ライセンス: Link先を確認
Polina Pilyugina, Rodrigo Rivera-Castro, Eugeny Burnaev(参考訳) この研究は、トポロジカルデータ解析の時系列分類に関する包括的な分析に費やされている。 以前の作業には、大規模なベンチマークのaslackや最先端メソッドの欠如など、重大な欠点がある。 本研究では,異なるタイプのパーシステンス図からトポロジ的記述子を抽出するTOTOPOを提案する。 その結果,totopoの精度は基準値よりも有意に高かった。 TOTOPOは最先端の最先端とも競合し、ユニバリアイトの20%と多変量時系列データセットの40%で最高である。 この研究は、TDAに基づくアプローチがデータの小さな摂動に乱れ、周期性と形がクラス間の識別に役立っているという仮説を検証する。

This work is devoted to a comprehensive analysis of topological data analysis fortime series classification. Previous works have significant shortcomings, such aslack of large-scale benchmarking or missing state-of-the-art methods. In this work,we propose TOTOPO for extracting topological descriptors from different types ofpersistence diagrams. The results suggest that TOTOPO significantly outperformsexisting baselines in terms of accuracy. TOTOPO is also competitive with thestate-of-the-art, being the best on 20% of univariate and 40% of multivariate timeseries datasets. This work validates the hypothesis that TDA-based approaches arerobust to small perturbations in data and are useful for cases where periodicity andshape help discriminate between classes.
翻訳日:2022-10-08 23:30:29 公開日:2020-10-10
# 人間-ロボットコラボレーションの指標としてのヘルプフルネス

Helpfulness as a Key Metric of Human-Robot Collaboration ( http://arxiv.org/abs/2010.04914v1 )

ライセンス: Link先を確認
Richard G. Freedman, Steven J. Levine, Brian C. Williams, Shlomo Zilberstein(参考訳) ロボットチームメイトが社会で一般的になるにつれて、多くの次元に沿ってロボットの役割を評価する。 そのような側面の1つは有効性である: ロボットパートナーが信頼できる効果的な協力者であるかどうかを問う。 ロボットのパートナーが、与えられたタスクに対して、どのように役に立つかを定量的に測定できるか? 本稿では,対話型ロボットの意思決定に関して,この問題に答える。 我々は、多くの異なる計画および実行パラダイムに適用可能な明確で簡潔でタスク指向のメトリクスについて述べる。 提案する有益度指標は、あるタスクに対してパートナーがチームに持つ利益を評価するのに基礎的です。 本稿では,多種多様な領域の具体例で有用性を定義し,その特性と人間との対話を計画するための影響について考察し,予備的な結果を示す。

As robotic teammates become more common in society, people will assess the robots' roles in their interactions along many dimensions. One such dimension is effectiveness: people will ask whether their robotic partners are trustworthy and effective collaborators. This begs a crucial question: how can we quantitatively measure the helpfulness of a robotic partner for a given task at hand? This paper seeks to answer this question with regards to the interactive robot's decision making. We describe a clear, concise, and task-oriented metric applicable to many different planning and execution paradigms. The proposed helpfulness metric is fundamental to assessing the benefit that a partner has on a team for a given task. In this paper, we define helpfulness, illustrate it on concrete examples from a variety of domains, discuss its properties and ramifications for planning interactions with humans, and present preliminary results.
翻訳日:2022-10-08 23:30:01 公開日:2020-10-10
# MR/CT画像分割のための選択的情報伝送

Selective Information Passing for MR/CT Image Segmentation ( http://arxiv.org/abs/2010.04920v1 )

ライセンス: Link先を確認
Qikui Zhu, Liang Li, Jiangnan Hao, Yunfei Zha, Yan Zhang, Yanxiang Cheng, Fei Liao, Pingxiang Li(参考訳) 医療画像の自動分割は多くの臨床応用において重要な役割を担っているが、複雑な背景テクスチャ、明確な境界の欠如、画像間の顕著な形状とテクスチャの変化など、非常に難しい課題である。 多くの研究者が、デコーダパスからの低レベル特徴マップとデコーダパスからの高レベル特徴マップを組み合わせて、医療画像を自動的にセグメント化するためのスキップ接続を備えたエンコーダデコーダアーキテクチャを提案した。 スキップ接続は対象物体の微細な詳細を復元するのに有効であることが示されており、勾配のバックプロパゲーションを促進する可能性がある。 しかし、これらの接続によって送信される全ての機能マップがネットワーク性能にプラスに寄与するわけではない。 本稿では,これらのスキップ接続を透過する有用な情報を適応的に選択するために,SIP-Netと呼ばれる自己教師機能を持つ新しい3Dネットワークを提案する。 今回提案したMICCAI Prostate MR Image Segmentation 2012 Grant Challenge dataset, TCIA Pancreas CT-82 and MICCAI 2017 Liver tumor Segmentation (LiTS) Challenge datasetについて検討した。 これらのデータセットに対する実験結果から,モデルのセグメンテーション結果の改善と,他の最先端手法よりも優れた性能を示した。 この作業のソースコードはhttps://github.com/ahukui/sipnetで入手できる。

Automated medical image segmentation plays an important role in many clinical applications, which however is a very challenging task, due to complex background texture, lack of clear boundary and significant shape and texture variation between images. Many researchers proposed an encoder-decoder architecture with skip connections to combine low-level feature maps from the encoder path with high-level feature maps from the decoder path for automatically segmenting medical images. The skip connections have been shown to be effective in recovering fine-grained details of the target objects and may facilitate the gradient back-propagation. However, not all the feature maps transmitted by those connections contribute positively to the network performance. In this paper, to adaptively select useful information to pass through those skip connections, we propose a novel 3D network with self-supervised function, named selective information passing network (SIP-Net). We evaluate our proposed model on the MICCAI Prostate MR Image Segmentation 2012 Grant Challenge dataset, TCIA Pancreas CT-82 and MICCAI 2017 Liver Tumor Segmentation (LiTS) Challenge dataset. The experimental results across these data sets show that our model achieved improved segmentation results and outperformed other state-of-the-art methods. The source code of this work is available at https://github.com/ahukui/SIPNet.
翻訳日:2022-10-08 23:29:50 公開日:2020-10-10
# 確率的ポイントクラウド登録のための終了基準

A Termination Criterion for Probabilistic PointClouds Registration ( http://arxiv.org/abs/2010.04979v1 )

ライセンス: Link先を確認
Simone Fontana and Domenico G. Sorrenti(参考訳) 確率的ポイントクラウド登録(Probabilistic Point Clouds Registration、PPCR)は、マルチイテレーションバージョンにおいて、ローカルポイントクラウド登録のための最先端のアルゴリズムである。 しかし、そのパフォーマンスは一定数のイテレーションを使ってテストされている。 実用的有用性を得るためには、アルゴリズムはいつ停止するか自分で決定し、過度なイテレーション数を避け、したがって計算時間を無駄にするべきだと考える。 本研究では,複数のデータセットにおける異なる終了基準を比較し,計算時間を節約しながら,非常に多くのイテレーションで得られた結果に匹敵する優れた結果が得られることを示す。

Probabilistic Point Clouds Registration (PPCR) is an algorithm that, in its multi-iteration version, outperformed state of the art algorithms for local point clouds registration. However, its performances have been tested using a fixed high number of iterations. To be of practical usefulness, we think that the algorithm should decide by itself when to stop, to avoid an excessive number of iterations and, therefore, wasting computational time. With this work, we compare different termination criterion on several datasets and prove that the chosen one produce very good results that are comparable to those obtained using a very high number of iterations while saving computational time.
翻訳日:2022-10-08 23:29:26 公開日:2020-10-10
# フェアネスを意識したAgnostic Federated Learning

Fairness-aware Agnostic Federated Learning ( http://arxiv.org/abs/2010.05057v1 )

ライセンス: Link先を確認
Wei Du, Depeng Xu, Xintao Wu and Hanghang Tong(参考訳) フェデレーション学習は、複数のデバイスに分散したトレーニングデータを備えた集中型機械学習モデルを構築する新興フレームワークである。 以前の研究のほとんどは、プライバシ保護と通信コスト削減に重点を置いている。 しかし、特にデータ分布のテストがトレーニング分布と異なるり、未知である場合、連合学習の公平性を達成するには、未熟で困難である。 集中型モデルにおける単純な公平性制約の導入は、未知のテストデータに対するモデルの公平性を達成することができない。 本稿では,未知のテスト分布の課題に対処するフェアネス対応の非依存型フェデレーション学習フレームワーク(AgnosticFair)を開発する。 損失関数とフェアネス制約の両方において,各トレーニングサンプルにリウィート値を割り当てるためにカーネルリウィート関数を使用する。 そのため、AgnosticFairから構築された集中型モデルは、未知のテストデータに対して高い精度と公平性を保証することができる。 さらに、構築されたモデルは、ローカルデータ分布の公平性を保証するため、ローカルサイトに直接適用することができる。 私たちの知る限りでは、フェデレーション学習における公平性を達成するための最初の取り組みである。 2つの実データセットに対する実験結果は、データシフトシナリオにおける実用性と公正性の両方の観点から有効性を示す。

Federated learning is an emerging framework that builds centralized machine learning models with training data distributed across multiple devices. Most of the previous works about federated learning focus on the privacy protection and communication cost reduction. However, how to achieve fairness in federated learning is under-explored and challenging especially when testing data distribution is different from training distribution or even unknown. Introducing simple fairness constraints on the centralized model cannot achieve model fairness on unknown testing data. In this paper, we develop a fairness-aware agnostic federated learning framework (AgnosticFair) to deal with the challenge of unknown testing distribution. We use kernel reweighing functions to assign a reweighing value on each training sample in both loss function and fairness constraint. Therefore, the centralized model built from AgnosticFair can achieve high accuracy and fairness guarantee on unknown testing data. Moreover, the built model can be directly applied to local sites as it guarantees fairness on local data distributions. To our best knowledge, this is the first work to achieve fairness in federated learning. Experimental results on two real datasets demonstrate the effectiveness in terms of both utility and fairness under data shift scenarios.
翻訳日:2022-10-08 23:28:43 公開日:2020-10-10
# 実世界の視覚的質問応答に対する解釈可能なニューラル計算法

Interpretable Neural Computation for Real-World Compositional Visual Question Answering ( http://arxiv.org/abs/2010.04913v1 )

ライセンス: Link先を確認
Ruixue Tang, Chao Ma(参考訳) 視覚的質問応答(VQA)には、明示的なマルチホップ推論を伴う構成モデルと、潜在的特徴空間における暗黙的推論を伴うモノリシックネットワークの2つの研究線がある。 前者は解釈性と構成性に優れるが実世界の画像では失敗するが、後者は通常、モデルの柔軟性とパラメータ効率のためにより良い性能を達成する。 実世界の合成VQAのための解釈可能なフレームワークを構築することを目的としている。 このフレームワークでは、画像や質問をシーングラフやプログラムに切り離し、シンボルプログラムの実行者が完全に透過的に実行して注意領域を選択し、それを視覚言語による事前学習エンコーダに繰り返し渡して回答を予測する。 GQAベンチマークで行った実験は、我々のフレームワークが構成上の先行技術より優れており、モノリシックなもの間での競争精度が向上していることを示している。 妥当性,妥当性,分布の指標に関しては,我々のフレームワークが他をかなり上回ります。

There are two main lines of research on visual question answering (VQA): compositional model with explicit multi-hop reasoning, and monolithic network with implicit reasoning in the latent feature space. The former excels in interpretability and compositionality but fails on real-world images, while the latter usually achieves better performance due to model flexibility and parameter efficiency. We aim to combine the two to build an interpretable framework for real-world compositional VQA. In our framework, images and questions are disentangled into scene graphs and programs, and a symbolic program executor runs on them with full transparency to select the attention regions, which are then iteratively passed to a visual-linguistic pre-trained encoder to predict answers. Experiments conducted on the GQA benchmark demonstrate that our framework outperforms the compositional prior arts and achieves competitive accuracy among monolithic ones. With respect to the validity, plausibility and distribution metrics, our framework surpasses others by a considerable margin.
翻訳日:2022-10-08 23:22:47 公開日:2020-10-10
# boosted efficientnet:畳み込みニューラルネットワークを用いた乳癌リンパ節転移の検出

Boosted EfficientNet: Detection of Lymph Node Metastases in Breast Cancer Using Convolutional Neural Network ( http://arxiv.org/abs/2010.05027v1 )

ライセンス: Link先を確認
Jun Wang, Qianying Liu, Haotian Xie, Zhaogang Yang, Hefeng Zhou(参考訳) 近年,全スライディング画像の開発が進み,病理学におけるデジタル画像の利用基盤が確立されている。 組織や細胞を自動同定するコンピュータ画像解析の助けを借りて、病理組織学的解釈と診断精度を大幅に改善した。 本稿では,乳癌におけるリンパ節転移の予測と分類に畳み込みニュートラルネットワーク(cnn)を適用した。 大規模な解像度画像にのみ適する従来の画像トリミング法とは異なり、小型解像度画像を容易にするためのRandom Center Cropping(RCC)と呼ばれる新しいデータ拡張手法を提案する。 RCCは画像の解像度と中心領域を維持しながらデータセットを豊かにする。 さらに,ネットワークのダウンサンプリングスケールを削減し,小型解像度画像のさらなる向上を図る。 さらに、画像の意味情報を改善するために、注意と特徴融合(FF)機構を用いる。 実験により,本手法がcnnの基本アーキテクチャの性能を向上させることを実証した。 そして、最高の性能の手法は、それぞれRPCamデータセット上で97.96%の精度とAUCの99.68%の精度を達成する。

In recent years, advances in the development of whole-slide images have laid a foundation for the utilization of digital images in pathology. With the assistance of computer images analysis that automatically identifies tissue or cell types, they have greatly improved the histopathologic interpretation and diagnosis accuracy. In this paper, the Convolutional Neutral Network (CNN) has been adapted to predict and classify lymph node metastasis in breast cancer. Unlike traditional image cropping methods that are only suitable for large resolution images, we propose a novel data augmentation method named Random Center Cropping (RCC) to facilitate small resolution images. RCC enriches the datasets while retaining the image resolution and the center area of images. In addition, we reduce the downsampling scale of the network to further facilitate small resolution images better. Moreover, Attention and Feature Fusion (FF) mechanisms are employed to improve the semantic information of images. Experiments demonstrate that our methods boost performances of basic CNN architectures. And the best-performed method achieves an accuracy of 97.96% and an AUC of 99.68% on RPCam datasets, respectively.
翻訳日:2022-10-08 23:21:26 公開日:2020-10-10
# BERT事前学習に基づくオンラインQ&Aコミュニティのためのタグ推薦

Tag Recommendation for Online Q&A Communities based on BERT Pre-Training Technique ( http://arxiv.org/abs/2010.04971v1 )

ライセンス: Link先を確認
Navid Khezrian, Jafar Habibi, Issa Annamoradnejad(参考訳) オンラインQ&Aとオープンソースコミュニティは、特定のコンテンツのインデックス、分類、検索にタグとキーワードを使用している。 タグレコメンデーションの最も明白な利点は、情報の正しい分類である。 本研究では,オンラインQ&Aとオープンソースコミュニティを対象としたタグ推薦タスクにおいて,BERT事前学習手法を初めて使用した。 自由コードデータセットを用いた評価の結果,提案手法であるtagbertは,ディープラーニングや他のベースライン手法よりも精度が高いことがわかった。 さらに,従来の研究の課題を解決し,タグ推薦数を増やすことでモデル性能を著しく低下させることにより,モデルの安定性が向上した。

Online Q&A and open source communities use tags and keywords to index, categorize, and search for specific content. The most obvious advantage of tag recommendation is the correct classification of information. In this study, we used the BERT pre-training technique in tag recommendation task for online Q&A and open-source communities for the first time. Our evaluation on freecode datasets show that the proposed method, called TagBERT, is more accurate compared to deep learning and other baseline methods. Moreover, our model achieved a high stability by solving the problem of previous researches, where increasing the number of tag recommendations significantly reduced model performance.
翻訳日:2022-10-08 23:20:12 公開日:2020-10-10
# ロバスト制約MDP:モデル不確かさ下でのソフト制約ロバストポリシー最適化

Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization under Model Uncertainty ( http://arxiv.org/abs/2010.04870v1 )

ライセンス: Link先を確認
Reazul Hasan Russel and Mouhacine Benosman and Jeroen Van Baar(参考訳) 本稿では,モデルの不確実性に対する強化学習(RL)アルゴリズムの堅牢化問題に焦点をあてる。 実際、モデルベースRLの枠組みでは、制約付きマルコフ決定過程(CMDP)とロバストなマルコフ決定過程(RMDP)を融合し、ロバストな制約付きMDP(RCMDP)を定式化することを提案する。 この定式化は本質的には単純であり、性能が堅牢なRLアルゴリズムを設計することができ、システムの状態遷移確率の不確実性に関して制約満足度を保証する。 RLの現実的な応用には,RCMPDの必要性が重要である。 例えば、そのような定式化は、安全クリティカルなアプリケーションにおいてシミュレーションから実世界(Sim2Real)への政策伝達において重要な役割を果たす。 まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを提案する。 最終的にこの概念を在庫管理問題で検証する。

In this paper, we focus on the problem of robustifying reinforcement learning (RL) algorithms with respect to model uncertainties. Indeed, in the framework of model-based RL, we propose to merge the theory of constrained Markov decision process (CMDP), with the theory of robust Markov decision process (RMDP), leading to a formulation of robust constrained-MDPs (RCMDP). This formulation, simple in essence, allows us to design RL algorithms that are robust in performance, and provides constraint satisfaction guarantees, with respect to uncertainties in the system's states transition probabilities. The need for RCMPDs is important for real-life applications of RL. For instance, such formulation can play an important role for policy transfer from simulation to real world (Sim2Real) in safety critical applications, which would benefit from performance and safety guarantees which are robust w.r.t model uncertainty. We first propose the general problem formulation under the concept of RCMDP, and then propose a Lagrangian formulation of the optimal problem, leading to a robust-constrained policy gradient RL algorithm. We finally validate this concept on the inventory management problem.
翻訳日:2022-10-08 23:20:01 公開日:2020-10-10
# 自信のあるときにモデルを信頼する - Masked Model-based Actor-Critic

Trust the Model When It Is Confident: Masked Model-based Actor-Critic ( http://arxiv.org/abs/2010.04893v1 )

ライセンス: Link先を確認
Feiyang Pan, Jia He, Dandan Tu, Qing He(参考訳) モデルベース強化学習(RL)はモデルフリーのRLよりもサンプリング効率が高いという認識が一般的であるが、実際には過度なモデルエラーのため必ずしも真実ではない。 複雑でノイズの多い環境では、モデルベースのrlは、モデルがいつ信頼するかを知らない場合、モデルの使用に苦労する傾向がある。 この研究で、より良いモデルの使用が大きな違いをもたらすことがわかりました。 モデル生成データの使用がモデルエラーの少ない状態-動作ペアに制限されている場合、モデルと実際のロールアウト間の性能ギャップを低減できることを理論的に示す。 モデルが予測に自信を持っている場合にのみ、モデルロールアウトを使用するモチベーションになります。 本稿では,真値関数のモデルベース下界を最大化するポリシ最適化アルゴリズムであるMasked Model-based Actor-Critic (M2AC)を提案する。 M2ACはモデルの不確実性に基づいてマスキング機構を実装し、その予測が使用されるかどうかを決定する。 その結果、新しいアルゴリズムは堅牢なポリシー改善をもたらす傾向にある。 連続制御ベンチマークの実験では、非常にノイズの多い環境で長いモデルロールアウトを使用する場合でも、m2acは強力なパフォーマンスを示す。

It is a popular belief that model-based Reinforcement Learning (RL) is more sample efficient than model-free RL, but in practice, it is not always true due to overweighed model errors. In complex and noisy settings, model-based RL tends to have trouble using the model if it does not know when to trust the model. In this work, we find that better model usage can make a huge difference. We show theoretically that if the use of model-generated data is restricted to state-action pairs where the model error is small, the performance gap between model and real rollouts can be reduced. It motivates us to use model rollouts only when the model is confident about its predictions. We propose Masked Model-based Actor-Critic (M2AC), a novel policy optimization algorithm that maximizes a model-based lower-bound of the true value function. M2AC implements a masking mechanism based on the model's uncertainty to decide whether its prediction should be used or not. Consequently, the new algorithm tends to give robust policy improvements. Experiments on continuous control benchmarks demonstrate that M2AC has strong performance even when using long model rollouts in very noisy environments, and it significantly outperforms previous state-of-the-art methods.
翻訳日:2022-10-08 23:19:38 公開日:2020-10-10
# MS-Ranker: 質問に対する正しい候補からの証拠の蓄積

MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for Answer Selection ( http://arxiv.org/abs/2010.04970v1 )

ライセンス: Link先を確認
Yingxue Zhang, Fandong Meng, Peng Li, Ping Jian, Jie Zhou(参考訳) 従来の回答選択法(as法)は、質問と各候補者の回答をそれぞれ独立に一致させるため、質問と候補とのマッチング情報が欠如している。 そこで,本研究では,質問と候補とのマッチングのための余分な証拠として,候補回答からの情報を蓄積する「ms-ranker(ms-ranker)」という,新しい強化学習(rl)ベースの多段階ランキングモデルを提案する。 具体的には、候補者の潜在的な正しさを明示的に考慮し、証拠をゲーティング機構で更新する。 さらに、リストワイズランキングの報酬を使用すると、モデルが全体的なパフォーマンスにより多くの注意を払うようになる。 WikiQA と SemEval-2016 CQA の2つのベンチマーク実験により、我々のモデルは外部リソースに依存しない既存の手法を著しく上回っていることが示された。

As conventional answer selection (AS) methods generally match the question with each candidate answer independently, they suffer from the lack of matching information between the question and the candidate. To address this problem, we propose a novel reinforcement learning (RL) based multi-step ranking model, named MS-Ranker, which accumulates information from potentially correct candidate answers as extra evidence for matching the question with a candidate. In specific, we explicitly consider the potential correctness of candidates and update the evidence with a gating mechanism. Moreover, as we use a listwise ranking reward, our model learns to pay more attention to the overall performance. Experiments on two benchmarks, namely WikiQA and SemEval-2016 CQA, show that our model significantly outperforms existing methods that do not rely on external resources.
翻訳日:2022-10-08 23:13:14 公開日:2020-10-10
# 明示的言語間パターンを用いたゼロショット翻訳品質推定

Zero-Shot Translation Quality Estimation with Explicit Cross-Lingual Patterns ( http://arxiv.org/abs/2010.04989v1 )

ライセンス: Link先を確認
Lei Zhou, Liang Ding and Koichi Takeda(参考訳) 本稿では,WMT 2020 Shared Task on Sentence Level Direct Assessment, Quality Estimation (QE)の提出について述べる。 本研究では, qe に bertscore を直接適用する場合, 経験的に \textit{mismatching issue} を明らかにする。 具体的には、原文と翻訳候補文との間には、トークン対類似性のある誤りが多数存在する。 この問題に対応するために,提案するゼロショットモデルに対して,明示的なクロスリンガルパターン,例えば,単語アライメントや生成スコアを提示することを提案する。 実験により, 明示的な言語横断パターンを用いたqeモデルが誤マッチング問題を緩和し, 性能が向上することを示す。 ゼロショットQE法は教師付きQE法と同等の性能を達成でき、教師付きQE法は6方向中2方向よりも優れていた。 ゼロショットのQEモデルの改善に光を当てることを期待しています。

This paper describes our submission of the WMT 2020 Shared Task on Sentence Level Direct Assessment, Quality Estimation (QE). In this study, we empirically reveal the \textit{mismatching issue} when directly adopting BERTScore to QE. Specifically, there exist lots of mismatching errors between the source sentence and translated candidate sentence with token pairwise similarity. In response to this issue, we propose to expose explicit cross-lingual patterns, \textit{e.g.} word alignments and generation score, to our proposed zero-shot models. Experiments show that our proposed QE model with explicit cross-lingual patterns could alleviate the mismatching issue, thereby improving the performance. Encouragingly, our zero-shot QE method could achieve comparable performance with supervised QE method, and even outperforms the supervised counterpart on 2 out of 6 directions. We expect our work could shed light on the zero-shot QE model improvement.
翻訳日:2022-10-08 23:12:58 公開日:2020-10-10
# 合成コード埋め込みを用いた変圧器に基づく意味構文解析モデル

Compressing Transformer-Based Semantic Parsing Models using Compositional Code Embeddings ( http://arxiv.org/abs/2010.05002v1 )

ライセンス: Link先を確認
Prafull Prakash, Saurabh Kumar Shashidhar, Wenlong Zhao, Subendhu Rongali, Haidar Khan, Michael Kayser(参考訳) 現在の最先端のタスク指向セマンティックパーシングモデルでは、BERTやRoBERTaをトレーニング済みエンコーダとして使用しています。 これは、限られたメモリ予算を持つエッジデバイス上でAmazon AlexaやGoogle Assistantなどの音声アシスタントをデプロイする上での課題である。 本稿では,BERTベースとRoBERTaベースのサイズを大幅に削減するために,合成コード埋め込みの学習を提案する。 DistilBERT, ALBERT-base, ALBERT-large, 既に圧縮されたBERTの3つの変種に対して, モデルサイズがはるかに小さいセマンティック解析において, 同様の性能を実現する。 95.15%~98.46%の埋め込み圧縮率と20.47%~34.22%のエンコーダ圧縮率を観測し、97.5%以上の意味解析性能を維持した。 コード埋め込みサイズと下流のパフォーマンスのトレードオフをトレーニングし分析するためのレシピを提供する。

The current state-of-the-art task-oriented semantic parsing models use BERT or RoBERTa as pretrained encoders; these models have huge memory footprints. This poses a challenge to their deployment for voice assistants such as Amazon Alexa and Google Assistant on edge devices with limited memory budgets. We propose to learn compositional code embeddings to greatly reduce the sizes of BERT-base and RoBERTa-base. We also apply the technique to DistilBERT, ALBERT-base, and ALBERT-large, three already compressed BERT variants which attain similar state-of-the-art performances on semantic parsing with much smaller model sizes. We observe 95.15% ~ 98.46% embedding compression rates and 20.47% ~ 34.22% encoder compression rates, while preserving greater than 97.5% semantic parsing performances. We provide the recipe for training and analyze the trade-off between code embedding sizes and downstream performances.
翻訳日:2022-10-08 23:12:45 公開日:2020-10-10
# 脳卒中表現型診断のための放射線医学レポートにおける空間情報活用

Leveraging Spatial Information in Radiology Reports for Ischemic Stroke Phenotyping ( http://arxiv.org/abs/2010.05096v1 )

ライセンス: Link先を確認
Surabhi Datta and Shekhar Khanpara and Roy F. Riascos and Kirk Roberts(参考訳) 細粒度の脳卒中表現型の分類は重要な臨床情報を特定することに依存している。 放射線医学報告は、そのような表現型情報を決定するための文脈情報を提供する。 位置特異的な情報を持つ脳卒中表現型に焦点をあてる:脳領域の影響を受ける、ラテラル、脳卒中ステージ、およびラクナリティ。 既存の細粒度空間情報抽出システムrad-spatialnetを用いて臨床的に重要な情報を同定し,抽出された情報に簡単なドメインルールを適用し,表現型を分類する。 提案手法の性能は有望である(脳領域の分類には89.62%、脳領域の分類には74.11%)。 本研究は,細粒度スキーマに基づく情報抽出システムを用いて,単純なドメインルールを含む複雑な表現型を決定できることを実証する。 これらの表現型は、ストローク後の結果と脳卒中の位置に基づく治療計画に焦点を当てた脳卒中研究を促進する可能性がある。

Classifying fine-grained ischemic stroke phenotypes relies on identifying important clinical information. Radiology reports provide relevant information with context to determine such phenotype information. We focus on stroke phenotypes with location-specific information: brain region affected, laterality, stroke stage, and lacunarity. We use an existing fine-grained spatial information extraction system--Rad-SpatialNet--to identify clinically important information and apply simple domain rules on the extracted information to classify phenotypes. The performance of our proposed approach is promising (recall of 89.62% for classifying brain region and 74.11% for classifying brain region, side, and stroke stage together). Our work demonstrates that an information extraction system based on a fine-grained schema can be utilized to determine complex phenotypes with the inclusion of simple domain rules. These phenotypes have the potential to facilitate stroke research focusing on post-stroke outcome and treatment planning based on the stroke location.
翻訳日:2022-10-08 23:12:27 公開日:2020-10-10
# 自動ファクト抽出と検証のための階層的エビデンスセットモデリング

Hierarchical Evidence Set Modeling for Automated Fact Extraction and Verification ( http://arxiv.org/abs/2010.05111v1 )

ライセンス: Link先を確認
Shyam Subramanian, Kyumin Lee(参考訳) 自動化された事実抽出と検証は、信頼できるコーパスから関連する証拠文を見つけ、クレームの真偽を確認することを含む困難なタスクである。 既存のモデルも (i)すべての証拠文を連結し、冗長で騒がしい情報を含むこと、又は 2) 各クレーム-証拠文ペアを別々に処理し, それらすべてを後で集約し, より正確なクレーム検証のための関連文の早期組み合わせを欠いた。 先行研究と異なり,本論文では,証拠集合(それぞれが複数の証拠文を含むこともある)を抽出し,異なる階層レベルでの主張と証拠集合をエンコードし,遵守することで,支持すべき主張,反論,あるいは十分な情報がないことを検証するための枠組みである階層的証拠集合モデリング(hesm)を提案する。 実験の結果,HESMは事実抽出とクレーム検証の7つの最先端手法より優れていた。 ソースコードはhttps://github.com/shyamsubramanian/hesmで入手できます。

Automated fact extraction and verification is a challenging task that involves finding relevant evidence sentences from a reliable corpus to verify the truthfulness of a claim. Existing models either (i) concatenate all the evidence sentences, leading to the inclusion of redundant and noisy information; or (ii) process each claim-evidence sentence pair separately and aggregate all of them later, missing the early combination of related sentences for more accurate claim verification. Unlike the prior works, in this paper, we propose Hierarchical Evidence Set Modeling (HESM), a framework to extract evidence sets (each of which may contain multiple evidence sentences), and verify a claim to be supported, refuted or not enough info, by encoding and attending the claim and evidence sets at different levels of hierarchy. Our experimental results show that HESM outperforms 7 state-of-the-art methods for fact extraction and claim verification. Our source code is available at https://github.com/ShyamSubramanian/HESM.
翻訳日:2022-10-08 23:12:11 公開日:2020-10-10
# 高gi-sugeno-kangファジィ推論システムへのディープニューラルネットワークの蒸留

Distilling a Deep Neural Network into a Takagi-Sugeno-Kang Fuzzy Inference System ( http://arxiv.org/abs/2010.04974v1 )

ライセンス: Link先を確認
Xiangming Gu and Xiang Cheng(参考訳) ディープニューラルネットワーク(DNN)は、分類タスクにおいて大きな成功を収めている。 しかし、それらはブラックボックスとして機能し、特定の分類タスクでどのように決定するかはわかりません。 そこで本稿では,DNNからの知識を,高木崇源王(TSK)型ファジィ推論システム(FIS)に抽出することを提案する。 このモデルはファジィルールに基づいてDNNが取得した知識を表現できるので、特定の決定をより簡単に説明できる。 知識蒸留 (kd) は, tsk型fisの作成に応用され, トレーニングデータから直接, 一般化され, 実験により保証される。 性能を改善するため,KDのベースライン法を改良し,良好な結果を得た。

Deep neural networks (DNNs) demonstrate great success in classification tasks. However, they act as black boxes and we don't know how they make decisions in a particular classification task. To this end, we propose to distill the knowledge from a DNN into a fuzzy inference system (FIS), which is Takagi-Sugeno-Kang (TSK)-type in this paper. The model has the capability to express the knowledge acquired by a DNN based on fuzzy rules, thus explaining a particular decision much easier. Knowledge distillation (KD) is applied to create a TSK-type FIS that generalizes better than one directly from the training data, which is guaranteed through experiments in this paper. To further improve the performances, we modify the baseline method of KD and obtain good results.
翻訳日:2022-10-08 23:11:41 公開日:2020-10-10
# ノイズの少ない教師付き学習によるバイナリニューラルネットワークの学習

Training Binary Neural Networks through Learning with Noisy Supervision ( http://arxiv.org/abs/2010.04871v1 )

ライセンス: Link先を確認
Kai Han, Yunhe Wang, Yixing Xu, Chunjing Xu, Enhua Wu, Chang Xu(参考訳) 本稿では,ニューラルネットワーク上の二元化操作を学習の観点から定式化する。 完全精度ニューロンをバイナライズする古典的手作り規則 (\eg hard thresholding) とは対照的に, 完全精度ニューロンから対象バイナリニューロンへのマッピングを学習することを提案する。 個々の重量は独立して二元化されない。 代わりに、畳み込み機能を生成するのと同じように、バイナリ化を達成するために全体として取り込まれます。 双対化マッピングの訓練を支援するために、手話操作後の全切開ニューロンは補助的監督信号と見なされ、ノイズは残るが、貴重なガイダンスである。 したがって、監視ノイズの影響を軽減するために、非バイアス推定器を導入する。 ベンチマークデータセットの実験結果から,提案手法がベースラインよりも一貫した改善を達成できることが示唆された。

This paper formalizes the binarization operations over neural networks from a learning perspective. In contrast to classical hand crafted rules (\eg hard thresholding) to binarize full-precision neurons, we propose to learn a mapping from full-precision neurons to the target binary ones. Each individual weight entry will not be binarized independently. Instead, they are taken as a whole to accomplish the binarization, just as they work together in generating convolution features. To help the training of the binarization mapping, the full-precision neurons after taking sign operations is regarded as some auxiliary supervision signal, which is noisy but still has valuable guidance. An unbiased estimator is therefore introduced to mitigate the influence of the supervision noise. Experimental results on benchmark datasets indicate that the proposed binarization technique attains consistent improvements over baselines.
翻訳日:2022-10-08 23:11:05 公開日:2020-10-10
# 電話によるcovid-19感染者の推計とストリームでのアウトブレイク

Estimating COVID-19 cases and outbreaks on-stream through phone-calls ( http://arxiv.org/abs/2010.06468v1 )

ライセンス: Link先を確認
Ezequiel Alvarez, Daniela Obando, Sebastian Crespo, Enio Garcia, Nicolas Kreplak and Franco Marsico(参考訳) 新型コロナウイルスの感染拡大を抑える上での大きな問題は、確認の遅れだ。 公衆衛生政策の意思決定において、病原体の進化や流行の変化に関する情報が実験室で確認される前に増加することが重要である。 そこで本研究では,電話からcovid-19ラインへのデータを用いて,ストリーム上でのcovid-19感染者数を推定するアルゴリズムを提案する。 背景(人口に比例する)と信号(感染に比例する)の呼び出しをモデル化することにより、ブエノスアイレス州(アルゼンチン)の通話にR^2 > 0.85$の判定係数を合わせる。 この結果から, 特定地区からの通話回数から, 検査結果が利用可能になる数日前の症例数を推定できる。 そのアルゴリズムを実データで検証する。 我々は、このアルゴリズムを使って疫病をオンデマンドで追跡する方法を示し、実験結果に先立ってアウトブレイク警報(Early Outbreak Alarm)を提示する。 開発したアルゴリズムのキーポイントの1つは、アラームが可観測物の重要度を利用して異常を検出するため、推定の不確かさの詳細な追跡である。 villa azul (quilmes) では、このツールが時間とともにアウトブレイクを制御する上で決定的な結果となった、明示的な例の詳細を紹介する。 提示されたツールは、開発時に利用可能なデータと緊急に設計されており、それ故に私たちが記述し議論する制限がある。 ツールの改善の可能性を検討しており、その多くが現在開発中です。

One of the main problems in controlling COVID-19 epidemic spread is the delay in confirming cases. Having information on changes in the epidemic evolution or outbreaks rise before lab-confirmation is crucial in decision making for Public Health policies. We present an algorithm to estimate on-stream the number of COVID-19 cases using the data from telephone calls to a COVID-line. By modeling the calls as background (proportional to population) plus signal (proportional to infected), we fit the calls in Province of Buenos Aires (Argentina) with coefficient of determination $R^2 > 0.85$. This result allows us to estimate the number of cases given the number of calls from a specific district, days before the lab results are available. We validate the algorithm with real data. We show how to use the algorithm to track on-stream the epidemic, and present the Early Outbreak Alarm to detect outbreaks in advance to lab results. One key point in the developed algorithm is a detailed track of the uncertainties in the estimations, since the alarm uses the significance of the observables as a main indicator to detect an anomaly. We present the details of the explicit example in Villa Azul (Quilmes) where this tool resulted crucial to control an outbreak on time. The presented tools have been designed in urgency with the available data at the time of the development, and therefore have their limitations which we describe and discuss. We consider possible improvements on the tools, many of which are currently under development.
翻訳日:2022-10-08 23:04:08 公開日:2020-10-10
# 超音波画像分割のためのコントラストレンダリング

Contrastive Rendering for Ultrasound Image Segmentation ( http://arxiv.org/abs/2010.04928v1 )

ライセンス: Link先を確認
Haoming Li, Xin Yang, Jiamin Liang, Wenlong Shi, Chaoyu Chen, Haoran Dou, Rui Li, Rui Gao, Guangquan Zhou, Jinghui Fang, Xiaowen Liang, Ruobing Huang, Alejandro Frangi, Zhiyi Chen, Dong Ni(参考訳) 超音波(US)画像分割は深層学習時代において顕著に改善された。 しかし、アメリカの画像にシャープな境界がないことは、セグメンテーションに固有の課題である。 従来の手法では、境界を推定するために、グローバルコンテキストや、マルチスケールの手がかり、補助的なガイダンスに頼ることが多い。 これらの方法が細粒度境界生成のためのピクセルレベル学習にアプローチすることは困難である。 本稿では,us画像における境界推定を改善するための新しい有効な枠組みを提案する。 私たちの作品には3つのハイライトがある。 まず,境界推定をレンダリングタスクとして定式化し,曖昧な点(画素/ボクセル)を認識し,特徴表現学習により境界予測を校正する手法を提案する。 第2に,同じクラスからの点の類似度を高め,異なるクラスからの点の類似度を対照的に減少させるために,ポイントワイズコントラスト学習を導入する。 したがって境界の曖昧さはさらに解決される。 第3に、レンダリングとコントラスト学習のタスクは、ネットワークパラメータを削減しながら一貫した改善に寄与する。 概念実証として,86の卵巣usボリュームの課題データセット上で検証実験を行った。 以上の結果から,本手法は最先端の手法よりも優れており,臨床に応用できる可能性が示唆された。

Ultrasound (US) image segmentation embraced its significant improvement in deep learning era. However, the lack of sharp boundaries in US images still remains an inherent challenge for segmentation. Previous methods often resort to global context, multi-scale cues or auxiliary guidance to estimate the boundaries. It is hard for these methods to approach pixel-level learning for fine-grained boundary generating. In this paper, we propose a novel and effective framework to improve boundary estimation in US images. Our work has three highlights. First, we propose to formulate the boundary estimation as a rendering task, which can recognize ambiguous points (pixels/voxels) and calibrate the boundary prediction via enriched feature representation learning. Second, we introduce point-wise contrastive learning to enhance the similarity of points from the same class and contrastively decrease the similarity of points from different classes. Boundary ambiguities are therefore further addressed. Third, both rendering and contrastive learning tasks contribute to consistent improvement while reducing network parameters. As a proof-of-concept, we performed validation experiments on a challenging dataset of 86 ovarian US volumes. Results show that our proposed method outperforms state-of-the-art methods and has the potential to be used in clinical practice.
翻訳日:2022-10-08 23:03:43 公開日:2020-10-10
# 深層学習を用いた胸部X線画像におけるCOVID-19検出に関する実証的研究

An Empirical Study on Detecting COVID-19 in Chest X-ray Images Using Deep Learning Based Methods ( http://arxiv.org/abs/2010.04936v1 )

ライセンス: Link先を確認
Ramtin Babaeipour, Elham Azizi, Hassan Khotanlou(参考訳) 新型コロナウイルス(COVID-19)の感染拡大を受け、検査キットの提供が拡大した。 これらのキットの準備は難しく、希少で、高価だっただけでなく、それを使うのも問題だった。 その結果、これらのキットはウイルスを認識するのに要する時間と、30%の損失に遭遇するという事実が示されている。 本稿では,既存の畳み込みニューラルネットワーク(CNN)による新型コロナウイルス胸部X線画像の分類において,ユビキタスなX線画像の利用について検討した。 我々は、vgg19、densnet-121、xceptionなどの異なるcnnsアーキテクチャを持つ感染者の胸部x線を訓練する。 これらのアーキテクチャをトレーニングした結果、通常のテスト方法よりもはるかに高速で正確である、さまざまなアキュラシーが生まれました。

Spreading of COVID-19 virus has increased the efforts to provide testing kits. Not only the preparation of these kits had been hard, rare, and expensive but also using them is another issue. Results have shown that these kits take some crucial time to recognize the virus, in addition to the fact that they encounter with 30% loss. In this paper, we have studied the usage of x-ray pictures which are ubiquitous, for the classification of COVID-19 chest Xray images, by the existing convolutional neural networks (CNNs). We intend to train chest x-rays of infected and not infected ones with different CNNs architectures including VGG19, Densnet-121, and Xception. Training these architectures resulted in different accuracies which were much faster and more precise than usual ways of testing.
翻訳日:2022-10-08 23:03:26 公開日:2020-10-10
# データ効率の良い言語習得のためのセルフプレイ

Self-play for Data Efficient Language Acquisition ( http://arxiv.org/abs/2010.04872v1 )

ライセンス: Link先を確認
Charles Lovering and Ellie Pavlick(参考訳) コミュニケーションを行うとき、人々は会話の役割に対して一貫して振る舞う: 人は自分の言葉を理解し、聞く言葉を生成できる。 これまで、言語タスクのために開発された人工エージェントは、そのような対称性を欠いていた。 本研究では,学習エージェントにおける言語習得の効率と品質を改善するために,コミュニケーションの対称性を利用する。 具体的には、エージェントが既存の言語で単語の理解と生成の両方を学ばなければならない場合を考えるが、その言語の"oracle"話者との対話へのアクセスは極めて限定的であると仮定する。 直接監督の代用としてセルフプレイを使用することで、エージェントは役割間で知識を伝達し(例えば、リスナとしてのトレーニングと話者としてのテスト)、oracleとのほんの一握りの対話を使って、基礎的真理のレキシコンについてより良い推論を行うことができる。

When communicating, people behave consistently across conversational roles: People understand the words they say and are able to produce the words they hear. To date, artificial agents developed for language tasks have lacked such symmetry, meaning agents trained to produce language are unable to understand it and vice-versa. In this work, we exploit the symmetric nature of communication in order to improve both the efficiency and quality of language acquisition in learning agents. Specifically, we consider the setting in which an agent must learn to both understand and generate words in an existing language, but with the assumption that access to interaction with "oracle" speakers of the language is very limited. We show that using self-play as a substitute for direct supervision enables the agent to transfer its knowledge across roles (e.g. training as a listener but testing as a speaker) and make better inferences about the ground truth lexicon using only a handful of interactions with the oracle.
翻訳日:2022-10-08 23:02:52 公開日:2020-10-10
# 言語モデルにおける言論構造は参照と相互作用するが構文は相互作用しない

Discourse structure interacts with reference but not syntax in neural language models ( http://arxiv.org/abs/2010.04887v1 )

ライセンス: Link先を確認
Forrest Davis and Marten van Schijndel(参考訳) 大量のテキストで訓練された言語モデル(LM)は、抽象的な言語表現を取得すると主張されている。 我々の研究は、異なる言語表現間の相互作用を学習するLMの能力に焦点を当てて、これらの抽象化の堅牢性をテストする。 特に,同一の談話構造(単純な因果性)上で,人間の条件参照(コア参照解決)と構文処理が可能であることを示す心理言語学的研究からの刺激を利用した。 トランスフォーマーとlong short term memory lmsを比較し、人間とは対照的に、暗黙的因果関係は、必要な談話情報をエンコードするモデル表現にもかかわらず、参照のためのlm行動にのみ影響することを発見した。 さらに,本研究の結果から,学習した言論表現だけでなく構文合意も矛盾し,標準言語モデリングの欠点を指摘できる可能性が示唆された。

Language models (LMs) trained on large quantities of text have been claimed to acquire abstract linguistic representations. Our work tests the robustness of these abstractions by focusing on the ability of LMs to learn interactions between different linguistic representations. In particular, we utilized stimuli from psycholinguistic studies showing that humans can condition reference (i.e. coreference resolution) and syntactic processing on the same discourse structure (implicit causality). We compared both transformer and long short-term memory LMs to find that, contrary to humans, implicit causality only influences LM behavior for reference, not syntax, despite model representations that encode the necessary discourse information. Our results further suggest that LM behavior can contradict not only learned representations of discourse but also syntactic agreement, pointing to shortcomings of standard language modeling.
翻訳日:2022-10-08 23:02:36 公開日:2020-10-10
# sig変換エンコーダを用いたスウェーデン医薬からの情報抽出

Information Extraction from Swedish Medical Prescriptions with Sig-Transformer Encoder ( http://arxiv.org/abs/2010.04897v1 )

ライセンス: Link先を確認
John Pougue Biyong, Bo Wang, Terry Lyons and Alejo J Nevado-Holgado(参考訳) 単純な予測層を符号化し追加するために、BERT(Bidirectional Encoder Representations from Transformers)のような大規模な事前訓練された言語モデルを利用すると、多くの臨床自然言語処理(NLP)タスクにおいて顕著なパフォーマンスが得られた。 本研究では,自己注意モデルにシグネチャ変換を組み込むことにより,トランスフォーマーアーキテクチャの新たな拡張を提案する。 このアーキテクチャは埋め込み層と予測層の間に追加される。 新しいスウェーデンの処方用データに関する実験では、提案するアーキテクチャは3つの情報抽出タスクのうち2つで優れていることを示し、ベースラインモデルと比較した。 最後に、多言語BERTの適用とスウェーデン語のテキストを英語に翻訳し、臨床ノートに事前学習したBERTモデルをエンコードする2つの異なる埋め込み手法の評価を行った。

Relying on large pretrained language models such as Bidirectional Encoder Representations from Transformers (BERT) for encoding and adding a simple prediction layer has led to impressive performance in many clinical natural language processing (NLP) tasks. In this work, we present a novel extension to the Transformer architecture, by incorporating signature transform with the self-attention model. This architecture is added between embedding and prediction layers. Experiments on a new Swedish prescription data show the proposed architecture to be superior in two of the three information extraction tasks, comparing to baseline models. Finally, we evaluate two different embedding approaches between applying Multilingual BERT and translating the Swedish text to English then encode with a BERT model pretrained on clinical notes.
翻訳日:2022-10-08 23:02:21 公開日:2020-10-10
# 順序付けられたニューロンによる潜在木学習:どのパースを生成するか?

Latent Tree Learning with Ordered Neurons: What Parses Does It Produce? ( http://arxiv.org/abs/2010.04926v1 )

ライセンス: Link先を確認
Yian Zhang(参考訳) 最近の潜在木学習モデルは、人間の注釈付き木構造にさらすことなく構成解析を学ぶことができる。 そのようなモデルの1つはON-LSTM(Shen et al., 2019)であり、言語モデリングを訓練し、教師なし構文解析の最先端性能を持つ。 モデルのパフォーマンスと一貫性をよりよく理解し、その生成するパースがゴールド標準のptbパースとどのように異なるかを理解するために、異なるリスタートでモデルを複製し、パースを調べる。 その結果,(1) モデルは異なる再起動に対して合理的に一貫した解析行動を持ち,(2) モデルは複雑な名詞句の内部構造に苦しむ,(3) モデルは動詞の直前の分割点の高さを過大評価する傾向にあることがわかった。 どちらの問題も、一方向言語モデリング以外の異なるトレーニングタスクを採用することで解決できると推測する。

Recent latent tree learning models can learn constituency parsing without any exposure to human-annotated tree structures. One such model is ON-LSTM (Shen et al., 2019), which is trained on language modelling and has near-state-of-the-art performance on unsupervised parsing. In order to better understand the performance and consistency of the model as well as how the parses it generates are different from gold-standard PTB parses, we replicate the model with different restarts and examine their parses. We find that (1) the model has reasonably consistent parsing behaviors across different restarts, (2) the model struggles with the internal structures of complex noun phrases, (3) the model has a tendency to overestimate the height of the split points right before verbs. We speculate that both problems could potentially be solved by adopting a different training task other than unidirectional language modelling.
翻訳日:2022-10-08 23:02:05 公開日:2020-10-10
# 聴覚が不十分な場合:分布モデルによるコーパスのハイパーネミー検出の改善

When Hearst Is not Enough: Improving Hypernymy Detection from Corpus with Distributional Models ( http://arxiv.org/abs/2010.04941v1 )

ライセンス: Link先を確認
Changlong Yu, Jialong Han, Peifeng Wang, Yangqiu Song, Hongming Zhang, Wilfred Ng, Shuming Shi(参考訳) ハイパーニーミー検出,すなわち,単語 (x,y) の間にis-a関係が存在するかどうかを,大文字コーパスの助けを借りて扱う。 この課題に対する従来のアプローチはパターンベースか分布型に分類されている。 近年の研究では、大規模なハーストペアを抽出して給餌した場合、パターンベースのペアの方が優れていることが示唆されている。 しかし、xまたはyがいかなるパターンにも関与しない特定のスパーシティーケースでは無効になる。 本稿は,これらの特定の事例の不可解な存在を初めて定量化する。 また,このような場合,分布法はパターンベースの手法を補うのに理想的であることを示す。 パターンベースと分散モデルが,それぞれが好む場合にシームレスに協調する,補完的なフレームワークを考案する。 いくつかのベンチマークデータセットで、我々のフレームワークは競争力の向上を達成し、ケーススタディでは、より優れた解釈性を示している。

We address hypernymy detection, i.e., whether an is-a relationship exists between words (x, y), with the help of large textual corpora. Most conventional approaches to this task have been categorized to be either pattern-based or distributional. Recent studies suggest that pattern-based ones are superior, if large-scale Hearst pairs are extracted and fed, with the sparsity of unseen (x, y) pairs relieved. However, they become invalid in some specific sparsity cases, where x or y is not involved in any pattern. For the first time, this paper quantifies the non-negligible existence of those specific cases. We also demonstrate that distributional methods are ideal to make up for pattern-based ones in such cases. We devise a complementary framework, under which a pattern-based and a distributional model collaborate seamlessly in cases which they each prefer. On several benchmark datasets, our framework achieves competitive improvements and the case study shows its better interpretability.
翻訳日:2022-10-08 23:01:49 公開日:2020-10-10
# 高次元ニューラルスパイク列車のシーケンス検出のための点過程モデル

Point process models for sequence detection in high-dimensional neural spike trains ( http://arxiv.org/abs/2010.04875v1 )

ライセンス: Link先を確認
Alex H. Williams, Anthony Degleris, Yixin Wang, Scott W. Linderman(参考訳) 神経スパイクのスパースシーケンスは、ワーキングメモリ、モーター生産、学習の側面を裏付けるものとして証明される。 これらの配列を教師なしで発見することは、統計神経科学の長年の問題である。 最近の有望な研究では、この課題に取り組むために畳み込み非負行列分解モデルを利用した。 しかしながら、このモデルはスパイクタイムを離散化し、最小2乗の最適基準を活用し、モデル予測や推定パラメータに対する不確実性推定を提供しない。 個々のスパイクのレベルで微細なシーケンスを特徴付け、連続時間に少数のマークされたイベントとしてシーケンス発生を表現するポイントプロセスモデルを開発することで、これらの欠点をそれぞれ解決します。 この超スパースなシーケンスイベント表現はスパイクトレインモデリングの新しい可能性を開く。 例えば,神経回路で実験的に観測された様々な持続時間のモデルシーケンスに対して,学習可能な時間ゆがみパラメータを導入する。 これらの利点をsongbird higher vocal centerとrodent hippocampusから実験的に記録した。

Sparse sequences of neural spikes are posited to underlie aspects of working memory, motor production, and learning. Discovering these sequences in an unsupervised manner is a longstanding problem in statistical neuroscience. Promising recent work utilized a convolutive nonnegative matrix factorization model to tackle this challenge. However, this model requires spike times to be discretized, utilizes a sub-optimal least-squares criterion, and does not provide uncertainty estimates for model predictions or estimated parameters. We address each of these shortcomings by developing a point process model that characterizes fine-scale sequences at the level of individual spikes and represents sequence occurrences as a small number of marked events in continuous time. This ultra-sparse representation of sequence events opens new possibilities for spike train modeling. For example, we introduce learnable time warping parameters to model sequences of varying duration, which have been experimentally observed in neural circuits. We demonstrate these advantages on experimental recordings from songbird higher vocal center and rodent hippocampus.
翻訳日:2022-10-08 22:54:36 公開日:2020-10-10
# ニューラルネットワークとランダム森林予測器のレアイベントシミュレーション

Rare-Event Simulation for Neural Network and Random Forest Predictors ( http://arxiv.org/abs/2010.04890v1 )

ライセンス: Link先を確認
Yuanlu Bai, Zhiyuan Huang, Henry Lam, Ding Zhao(参考訳) 本研究では,ニューラルネットワークやランダムフォレストといった現代の機械学習ツールを用いて,対象のヒットセットが定義される問題に対して,レアイベントシミュレーションを行う。 この問題は、インテリジェントシステムの安全性評価、学習モデルのロバスト性定量化、および複雑なレアイベント集合の境界を近似するために機械学習ツールが使用できる大規模シミュレーションへの潜在的な応用に関する高速新興研究によって動機付けられた。 本研究では,支配点機構を大偏差で統合した重要サンプリング方式と逐次混合整数計画法について検討した。 このアプローチは、完全連結層、整流線形単位、正規化、プールと畳み込み層、標準決定木から構築されたランダムフォレストを含む、さまざまなニューラルネットワークアーキテクチャで動作します。 我々は,uci機械学習リポジトリにおける分類モデルを用いて,その手法の効率保証と数値実証を行う。

We study rare-event simulation for a class of problems where the target hitting sets of interest are defined via modern machine learning tools such as neural networks and random forests. This problem is motivated from fast emerging studies on the safety evaluation of intelligent systems, robustness quantification of learning models, and other potential applications to large-scale simulation in which machine learning tools can be used to approximate complex rare-event set boundaries. We investigate an importance sampling scheme that integrates the dominating point machinery in large deviations and sequential mixed integer programming to locate the underlying dominating points. Our approach works for a range of neural network architectures including fully connected layers, rectified linear units, normalization, pooling and convolutional layers, and random forests built from standard decision trees. We provide efficiency guarantees and numerical demonstration of our approach using a classification model in the UCI Machine Learning Repository.
翻訳日:2022-10-08 22:54:21 公開日:2020-10-10
# オンラインのハッシュ処理を高速化する

Making Online Sketching Hashing Even Faster ( http://arxiv.org/abs/2010.04948v1 )

ライセンス: Link先を確認
Xixian Chen, Haiqin Yang, Shenglin Zhao, Michael R. Lyu, and Irwin King(参考訳) データ依存ハッシュ手法は、さまざまな機械学習アプリケーションにおいて、元のデータから低次元表現を学ぶための優れた性能を示している。 まず、既存のハッシュメソッドのほとんどはバッチモードでトレーニングされ、ストリーミングデータのトレーニングに非効率になります。 第二に、ビッグデータの設定では計算コストとメモリ消費が著しく増加し、トレーニング手順が複雑になる。 第3に、ラベル付きデータの欠如は、モデルパフォーマンスの改善を妨げる。 これらの問題に対処するために、オンラインスケッチハッシュ(OSH)とFROSH(FasteR Online Sketching Hashing)アルゴリズムを用いて、独立変換によりよりコンパクトな形式でデータをスケッチする。 我々は、提案するFROSHがより少ない時間を消費し、OSHと同じメモリコストで同等のスケッチ精度を達成することを保証するための理論的正当性を提供する。 また、FROSHの分散実装であるDFROSHを拡張して、スケッチ精度の理論的境界を導出しながら、FROSHのトレーニング時間コストをさらに削減する。 最後に、FROSHとDFROSHの魅力を示すために、合成データと実データの両方について広範な実験を行った。

Data-dependent hashing methods have demonstrated good performance in various machine learning applications to learn a low-dimensional representation from the original data. However, they still suffer from several obstacles: First, most of existing hashing methods are trained in a batch mode, yielding inefficiency for training streaming data. Second, the computational cost and the memory consumption increase extraordinarily in the big data setting, which perplexes the training procedure. Third, the lack of labeled data hinders the improvement of the model performance. To address these difficulties, we utilize online sketching hashing (OSH) and present a FasteR Online Sketching Hashing (FROSH) algorithm to sketch the data in a more compact form via an independent transformation. We provide theoretical justification to guarantee that our proposed FROSH consumes less time and achieves a comparable sketching precision under the same memory cost of OSH. We also extend FROSH to its distributed implementation, namely DFROSH, to further reduce the training time cost of FROSH while deriving the theoretical bound of the sketching precision. Finally, we conduct extensive experiments on both synthetic and real datasets to demonstrate the attractive merits of FROSH and DFROSH.
翻訳日:2022-10-08 22:46:26 公開日:2020-10-10
# 圧縮データからの有効データアウェア共分散推定器

Effective Data-aware Covariance Estimator from Compressed Data ( http://arxiv.org/abs/2010.04966v1 )

ライセンス: Link先を確認
Xixian Chen, Haiqin Yang, Shenglin Zhao, Michael R. Lyu, and Irwin King(参考訳) 大規模高次元および分散データからの共分散行列の推定は、実世界の様々なアプリケーションにおいて重要である。 本稿では,データ対応重み付きサンプリングベース共分散行列推定器であるDACEを提案する。 さらに,提案したDACEを拡張して,理論的正当化による多クラス分類問題に対処し,DACEの優れた性能を示すために,合成データセットと実世界のデータセットの広範な実験を行う。

Estimating covariance matrix from massive high-dimensional and distributed data is significant for various real-world applications. In this paper, we propose a data-aware weighted sampling based covariance matrix estimator, namely DACE, which can provide an unbiased covariance matrix estimation and attain more accurate estimation under the same compression ratio. Moreover, we extend our proposed DACE to tackle multiclass classification problems with theoretical justification and conduct extensive experiments on both synthetic and real-world datasets to demonstrate the superior performance of our DACE.
翻訳日:2022-10-08 22:46:06 公開日:2020-10-10
# Covid-19の拡散をモデル化する逆問題に対する半教師付きニューラルネットワークの解法

Semi-supervised Neural Networks solve an inverse problem for modeling Covid-19 spread ( http://arxiv.org/abs/2010.05074v1 )

ライセンス: Link先を確認
Alessandro Paticchio, Tommaso Scarlatti, Marios Mattheakis, Pavlos Protopapas, Marco Brambilla(参考訳) 新型コロナウイルス(covid-19)のダイナミクスを研究することは、規制措置の効率性を理解し、今後の感染波から守るための戦略を開発する上で非常に重要である。 本研究では,半教師付きニューラルネットワークを用いてcovid-19の拡散を調査し,その集団の受動的一部がウイルスの動態から孤立していると仮定する。 まず、異なるモデリングパラメータと初期条件に対する微分方程式の解を学習する教師なしニューラルネットワークから始める。 次に、covid-19による感染、回復、および死亡者のデータに適合する機能を生成する最適条件を推定し、逆問題を解く。 この半教師付きアプローチは、拡散の進化、受動的人口、および各国の基本的な再生数を決定するために、実際のデータを含む。

Studying the dynamics of COVID-19 is of paramount importance to understanding the efficiency of restrictive measures and develop strategies to defend against upcoming contagion waves. In this work, we study the spread of COVID-19 using a semi-supervised neural network and assuming a passive part of the population remains isolated from the virus dynamics. We start with an unsupervised neural network that learns solutions of differential equations for different modeling parameters and initial conditions. A supervised method then solves the inverse problem by estimating the optimal conditions that generate functions to fit the data for those infected by, recovered from, and deceased due to COVID-19. This semi-supervised approach incorporates real data to determine the evolution of the spread, the passive population, and the basic reproduction number for different countries.
翻訳日:2022-10-08 22:45:55 公開日:2020-10-10
# 混合実験による人工知能アルゴリズムのロバスト性の検討

Investigating the Robustness of Artificial Intelligent Algorithms with Mixture Experiments ( http://arxiv.org/abs/2010.15551v1 )

ライセンス: Link先を確認
Jiayi Lian, Laura Freeman, Yili Hong, and Xinwei Deng(参考訳) ディープラーニングやXGboostといった人工知能(AI)アルゴリズムは、コンピュータビジョン、自律運転、医療診断などの多くのアプリケーションで使用されている。 これらのAIアルゴリズムの堅牢性は、不正確な予測が安全上の懸念をもたらし、AIシステムの採用を制限する可能性があるため、非常に興味深い。 本稿では,AI分類アルゴリズムのロバスト性を体系的に研究するための実験設計に基づくフレームワークを提案する。 ロバストな分類アルゴリズムは、異なるアプリケーションシナリオにおいて高い精度と低い変動性を持つことが期待されている。 堅牢性は、トレーニングデータセットにおけるクラスラベルの不均衡、選択された予測アルゴリズム、アプリケーションの選択されたデータセット、トレーニングデータセットとテストデータセットにおける分散の変化など、幅広い要因に影響される可能性がある。 そこで我々は,AI分類アルゴリズムの堅牢性を検討するために,総合的な混合実験を行い,予測結果の収集を行う。 次に,様々な要因がAI分類アルゴリズムの堅牢性に与える影響を統計的に分析する。 当社の調査結果を要約し、AIアプリケーションの実践者に提案する。

Artificial intelligent (AI) algorithms, such as deep learning and XGboost, are used in numerous applications including computer vision, autonomous driving, and medical diagnostics. The robustness of these AI algorithms is of great interest as inaccurate prediction could result in safety concerns and limit the adoption of AI systems. In this paper, we propose a framework based on design of experiments to systematically investigate the robustness of AI classification algorithms. A robust classification algorithm is expected to have high accuracy and low variability under different application scenarios. The robustness can be affected by a wide range of factors such as the imbalance of class labels in the training dataset, the chosen prediction algorithm, the chosen dataset of the application, and a change of distribution in the training and test datasets. To investigate the robustness of AI classification algorithms, we conduct a comprehensive set of mixture experiments to collect prediction performance results. Then statistical analyses are conducted to understand how various factors affect the robustness of AI classification algorithms. We summarize our findings and provide suggestions to practitioners in AI applications.
翻訳日:2022-10-08 22:45:27 公開日:2020-10-10
# 記憶されたバッチ正規化のためのダブルフォワード伝播

Double Forward Propagation for Memorized Batch Normalization ( http://arxiv.org/abs/2010.04947v1 )

ライセンス: Link先を確認
Yong Guo, Qingyao Wu, Chaorui Deng, Jian Chen, Mingkui Tan(参考訳) バッチ正規化(BN)はディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。 標準BNは、DNNのトレーニングを著しく加速し、一般化性能を向上させるが、トレーニングと推論の両方のパフォーマンスを阻害するいくつかの基本的な制限がある。 トレーニング段階では、BNは単一のミニバッチを用いてデータの平均と分散を推定する。 これにより、バッチサイズが非常に小さい場合やデータのサンプリングが不十分な場合にはBNを不安定にすることができる。 推論の段階では、BNはバッチ統計ではなく、移動平均と移動分散(英語版)と呼ばれるものを用いることが多い。 これらの問題に関して,より正確でロバストな統計値を得るために,最近の複数のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。 各バッチのsgdアップデートの後に、モデルパラメータが変更され、それに応じて機能が変更され、考慮されたバッチの更新前後の配布シフトが発生することに注意してください。 この問題を軽減するため,我々は,mbnにおける簡易なダブルフォワードスキームを提案する。 関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。 実験の結果, ダブルフォワード方式で学習したmbnモデルでは, データの感度が大幅に低下し, 一般化性能が大幅に向上した。

Batch Normalization (BN) has been a standard component in designing deep neural networks (DNNs). Although the standard BN can significantly accelerate the training of DNNs and improve the generalization performance, it has several underlying limitations which may hamper the performance in both training and inference. In the training stage, BN relies on estimating the mean and variance of data using a single minibatch. Consequently, BN can be unstable when the batch size is very small or the data is poorly sampled. In the inference stage, BN often uses the so called moving mean and moving variance instead of batch statistics, i.e., the training and inference rules in BN are not consistent. Regarding these issues, we propose a memorized batch normalization (MBN), which considers multiple recent batches to obtain more accurate and robust statistics. Note that after the SGD update for each batch, the model parameters will change, and the features will change accordingly, leading to the Distribution Shift before and after the update for the considered batch. To alleviate this issue, we present a simple Double-Forward scheme in MBN which can further improve the performance. Compared to related methods, the proposed MBN exhibits consistent behaviors in both training and inference. Empirical results show that the MBN based models trained with the Double-Forward scheme greatly reduce the sensitivity of data and significantly improve the generalization performance.
翻訳日:2022-10-08 22:44:42 公開日:2020-10-10
# context-augmented autoencoderを用いたカテゴリ学習

Category-Learning with Context-Augmented Autoencoder ( http://arxiv.org/abs/2010.05007v1 )

ライセンス: Link先を確認
Denis Kuzminykh, Laida Kushnareva, Timofey Grigoryev, Alexander Zatolokin(参考訳) 現実世界のデータの解釈不能な表現を見つけることは、機械学習の重要な問題のひとつだ。 生物学的ニューラルネットワークは、この問題を教師なしの方法でかなりうまく解くことが知られているが、教師なしの人工ニューラルネットワークはそれを行うのに苦労するか、個々のタスクに対して微調整を必要とする。 我々は、生物学的な脳が観察間の関係の文脈で学習するという事実とこれを関連付けるが、人工的なネットワークはそうではない。 また,データ拡張手法は教師付き学習問題に非常に有用であるが,オートエンコーダはデータ拡張による変換の一般化に失敗することが多い。 したがって、データサンプル間の関係に関する追加の知識を提供することで、有用な内部データ表現を見つけるモデルの能力が向上すると信じている。 より形式的には、データセットを多様体としてではなく、例がオブジェクトである圏として考える。 2つの対象が同型で連結であり、それらが実際に同じ実体の異なる変換を表す場合である。 この形式に従うために,自動エンコーダのトレーニングにデータ拡張を用いる新しい手法を提案する。 このような方法で変分オートエンコーダを訓練し、隠れ表現の観点から補助ネットワークによって変換結果を予測できるようにする。 学習表現における線形分類器の分類精度は、その解釈可能性を測定するのによい指標であると考えている。 本実験では, ガウス混合VAEに匹敵する$\beta$-VAEよりも優れた手法を提案する。

Finding an interpretable non-redundant representation of real-world data is one of the key problems in Machine Learning. Biological neural networks are known to solve this problem quite well in unsupervised manner, yet unsupervised artificial neural networks either struggle to do it or require fine tuning for each task individually. We associate this with the fact that a biological brain learns in the context of the relationships between observations, while an artificial network does not. We also notice that, though a naive data augmentation technique can be very useful for supervised learning problems, autoencoders typically fail to generalize transformations from data augmentations. Thus, we believe that providing additional knowledge about relationships between data samples will improve model's capability of finding useful inner data representation. More formally, we consider a dataset not as a manifold, but as a category, where the examples are objects. Two these objects are connected by a morphism, if they actually represent different transformations of the same entity. Following this formalism, we propose a novel method of using data augmentations when training autoencoders. We train a Variational Autoencoder in such a way, that it makes transformation outcome predictable by auxiliary network in terms of the hidden representation. We believe that the classification accuracy of a linear classifier on the learned representation is a good metric to measure its interpretability. In our experiments, present approach outperforms $\beta$-VAE and is comparable with Gaussian-mixture VAE.
翻訳日:2022-10-08 22:44:18 公開日:2020-10-10
# find: ディープテキスト分類器のヒューマン・イン・ザ・ループデバッグ

FIND: Human-in-the-Loop Debugging Deep Text Classifiers ( http://arxiv.org/abs/2010.04987v1 )

ライセンス: Link先を確認
Piyawat Lertvittayakumjorn, Lucia Specia, Francesca Toni(参考訳) 完璧なトレーニングデータセット(すなわち、非常に大きく、偏りがなく、目に見えないケースをよく表現するデータセット)を得ることは不可能であるため、現実のテキスト分類器の多くは、利用可能なが不完全なデータセットに基づいて訓練されている。 これらの分類器は望ましくない性質を持つ可能性が高い。 例えば、一部のサブ集団に対してバイアスがある場合や、過剰適合のため、野生では効果的に機能しない場合があります。 本稿では,非関係な隠れ特徴を無効にすることで,人間が深層学習テキスト分類器をデバッグできるフレームワークFINDを提案する。 実験により、人間はFINDを使用することで、異なる種類の不完全なデータセット(バイアスのあるデータセットと異なる列車-テスト分布を持つデータセットを含む)でトレーニングされたCNNテキスト分類器を改善することができる。

Since obtaining a perfect training dataset (i.e., a dataset which is considerably large, unbiased, and well-representative of unseen cases) is hardly possible, many real-world text classifiers are trained on the available, yet imperfect, datasets. These classifiers are thus likely to have undesirable properties. For instance, they may have biases against some sub-populations or may not work effectively in the wild due to overfitting. In this paper, we propose FIND -- a framework which enables humans to debug deep learning text classifiers by disabling irrelevant hidden features. Experiments show that by using FIND, humans can improve CNN text classifiers which were trained under different types of imperfect datasets (including datasets with biases and datasets with dissimilar train-test distributions).
翻訳日:2022-10-08 22:43:54 公開日:2020-10-10
# スーパータグにおけるビームアウェアトレーニングの実証的研究

An Empirical Investigation of Beam-Aware Training in Supertagging ( http://arxiv.org/abs/2010.04980v1 )

ライセンス: Link先を確認
Renato Negrinho, Matthew R. Gormley, Geoffrey J. Gordon(参考訳) 構造化予測は、最大確率で局所正規化モデルを訓練し、ほぼビーム探索で復号することにより、しばしばアプローチされる。 このアプローチは、トレーニング中にモデルが失敗に晒されることはなく、ビームサーチを使用しないため、ミスマッチにつながる。 ビームアウェアトレーニングはこれらの問題に対処することを目的としているが、残念ながら、パフォーマンスへの影響、最も有用で、安定しているかどうかの理解が不足しているため、まだ広くは使われていない。 最近、Negrinho et al. (2018) はビーム認識トレーニングアルゴリズムをキャプチャし、新しいアルゴリズムを提案するメタアルゴリズムを提案したが、残念ながら実験結果を提供しなかった。 本稿では,vaswani et al. (2016) のスーパータグモデルとメタアルゴリズムのインスタンス化によるよりシンプルなモデルについて,実験的検討を開始する。 さまざまなデザイン選択の影響について検討し、その選択を推奨する。 ビームアウェアトレーニングにより両モデルの性能が向上し,デコード時の不確実性を効果的に管理する簡易モデルの大幅な改善が期待できる。 以上より,モデルの有効性を最大化するために,探索によって学習する必要があることが示唆された。

Structured prediction is often approached by training a locally normalized model with maximum likelihood and decoding approximately with beam search. This approach leads to mismatches as, during training, the model is not exposed to its mistakes and does not use beam search. Beam-aware training aims to address these problems, but unfortunately, it is not yet widely used due to a lack of understanding about how it impacts performance, when it is most useful, and whether it is stable. Recently, Negrinho et al. (2018) proposed a meta-algorithm that captures beam-aware training algorithms and suggests new ones, but unfortunately did not provide empirical results. In this paper, we begin an empirical investigation: we train the supertagging model of Vaswani et al. (2016) and a simpler model with instantiations of the meta-algorithm. We explore the influence of various design choices and make recommendations for choosing them. We observe that beam-aware training improves performance for both models, with large improvements for the simpler model which must effectively manage uncertainty during decoding. Our results suggest that a model must be learned with search to maximize its effectiveness.
翻訳日:2022-10-08 22:38:11 公開日:2020-10-10
# 極不均衡課題に対する適応データ収集の重要性について

On the Importance of Adaptive Data Collection for Extremely Imbalanced Pairwise Tasks ( http://arxiv.org/abs/2010.05103v1 )

ライセンス: Link先を確認
Stephen Mussmann, Robin Jia, Percy Liang(参考訳) パラフレーズ検出やオープンドメイン質問応答のような多くのペアワイズ分類タスクは、当然極端にラベルの不均衡を持つ(例の99.99\%$は負である)。 対照的に、最近のデータセットの多くはラベルバランスを確保するために例をヒューリスティックに選択している。 QQPとWikiQAでトレーニングされた最先端のモデルはそれぞれ、現実的に不均衡なテストデータで評価された場合の平均精度が2.4\%しかありません。 その代わりに、BERTベースの埋め込みモデルを用いて、活発な学習でトレーニングデータを収集し、ラベルなし発話対の非常に大きなプールから不確実点を効率的に検索する。 より有益なネガティブな例でバランスの取れたトレーニングデータを作成することで、アクティブラーニングは平均精度をQQPで32.5\%、WikiQAで20.1\%に大幅に改善する。

Many pairwise classification tasks, such as paraphrase detection and open-domain question answering, naturally have extreme label imbalance (e.g., $99.99\%$ of examples are negatives). In contrast, many recent datasets heuristically choose examples to ensure label balance. We show that these heuristics lead to trained models that generalize poorly: State-of-the art models trained on QQP and WikiQA each have only $2.4\%$ average precision when evaluated on realistically imbalanced test data. We instead collect training data with active learning, using a BERT-based embedding model to efficiently retrieve uncertain points from a very large pool of unlabeled utterance pairs. By creating balanced training data with more informative negative examples, active learning greatly improves average precision to $32.5\%$ on QQP and $20.1\%$ on WikiQA.
翻訳日:2022-10-08 22:37:36 公開日:2020-10-10
# 機械翻訳を用いたオープンオントロジーQAセマンティックパーザの地域化

Localizing Open-Ontology QA Semantic Parsers in a Day Using Machine Translation ( http://arxiv.org/abs/2010.05106v1 )

ライセンス: Link先を確認
Mehrad Moradshahi, Giovanni Campagna, Sina J. Semnani, Silei Xu, Monica S. Lam(参考訳) 本稿では,ニューラルマシン翻訳(nmt)システムを活用した意味的パーサローカライザ(spl)を提案する。 提案手法は,(1)公開webサイトから抽出したローカルエンティティを用いた機械翻訳データセットの強化,(2)人間翻訳文の数発増や新たなxlmr-lstm意味構文解析器の訓練,(3)人間翻訳者を用いた自然発話モデルのテスト,などにより,対象言語での自動トレーニングデータを生成する。 オープンウェブ上での英語質問回答システムであるSchema2QAを,レストランやホテルのドメイン向けに10の新しい言語に拡張することで,アプローチの有効性を評価する。 本モデルでは,ホテルドメインの61%から69%,レストランドメインの64%から78%という総合的なテスト精度を実現している。 提案手法は,ホテルの30%以上,テスト対象の言語サブセットに局所的オントロジーを持つレストランの40%という,これまでの最先端手法を上回っている。 我々の手法により、あらゆるソフトウェア開発者が新しいドメインのQAシステムに新しい言語機能を追加でき、機械翻訳を24時間以内で利用できる。

We propose Semantic Parser Localizer (SPL), a toolkit that leverages Neural Machine Translation (NMT) systems to localize a semantic parser for a new language. Our methodology is to (1) generate training data automatically in the target language by augmenting machine-translated datasets with local entities scraped from public websites, (2) add a few-shot boost of human-translated sentences and train a novel XLMR-LSTM semantic parser, and (3) test the model on natural utterances curated using human translators. We assess the effectiveness of our approach by extending the current capabilities of Schema2QA, a system for English Question Answering (QA) on the open web, to 10 new languages for the restaurants and hotels domains. Our models achieve an overall test accuracy ranging between 61% and 69% for the hotels domain and between 64% and 78% for restaurants domain, which compares favorably to 69% and 80% obtained for English parser trained on gold English data and a few examples from validation set. We show our approach outperforms the previous state-of-the-art methodology by more than 30% for hotels and 40% for restaurants with localized ontologies for the subset of languages tested. Our methodology enables any software developer to add a new language capability to a QA system for a new domain, leveraging machine translation, in less than 24 hours.
翻訳日:2022-10-08 22:37:21 公開日:2020-10-10
# ユニバーサルドメイン適応のためのクラスラベル構造

Unveiling Class-Labeling Structure for Universal Domain Adaptation ( http://arxiv.org/abs/2010.04873v1 )

ライセンス: Link先を確認
Yueming Yin, Zhen Yang (Senior Member, IEEE), Xiaofu Wu, and Haifeng Hu(参考訳) 教師なしドメイン適応のためのより実用的な設定として、Universal Domain Adaptation (UDA)が最近導入され、ターゲットのラベルセットが不明になっている。 UDAの大きな課題の1つは、ソースとターゲットドメインが共有する共通ラベルセットを決定する方法である。 本稿では,共通ラベル集合を探索する確率論的手法を用いて,各ソースクラスが確率を持つ共通ラベル集合から来る可能性があることを示す。 特に,各ソースクラスの確率を共通ラベル集合から評価するための新しい手法を提案し,この確率は対象領域全体にわたって蓄積された予測マージンによって計算される。 そこで我々は,共通ラベル集合に対する確率的構造を組み込んだ単純なユニバーサル適応ネットワーク(S-UAN)を提案する。 最後に、共通ラベル集合に着目した一般化を分析し、UDAの目標リスクに関する特性について検討する。 大規模な実験により、S-UANは異なるUDA設定でうまく機能し、最先端の手法よりも大きなマージンで優れていることが示されている。

As a more practical setting for unsupervised domain adaptation, Universal Domain Adaptation (UDA) is recently introduced, where the target label set is unknown. One of the big challenges in UDA is how to determine the common label set shared by source and target domains, as there is simply no labeling available in the target domain. In this paper, we employ a probabilistic approach for locating the common label set, where each source class may come from the common label set with a probability. In particular, we propose a novel approach for evaluating the probability of each source class from the common label set, where this probability is computed by the prediction margin accumulated over the whole target domain. Then, we propose a simple universal adaptation network (S-UAN) by incorporating the probabilistic structure for the common label set. Finally, we analyse the generalization bound focusing on the common label set and explore the properties on the target risk for UDA. Extensive experiments indicate that S-UAN works well in different UDA settings and outperforms the state-of-the-art methods by large margins.
翻訳日:2022-10-08 22:36:51 公開日:2020-10-10
# 皮膚鏡像における毛髪除去のためのエンコーダデコーダcnn

An Encoder-Decoder CNN for Hair Removal in Dermoscopic Images ( http://arxiv.org/abs/2010.05013v1 )

ライセンス: Link先を確認
Lidia Talavera-Mart\'inez, Pedro Bibiloni, Manuel Gonz\'alez-Hidalgo(参考訳) 除毛プロセスは皮膚がんの早期かつ正確な診断において重要な役割を担っている。 毛髪を検出し、その下のテクスチャを復元し、散発的に吸う。 本研究では,畳み込みニューラルネットワークを用いた皮膚鏡像の毛髪除去モデルを提案する。 ネットワークのトレーニング中,提案モデルの復元能力を向上させるために,複合損失関数を用いた。 CNNを訓練し,その性能を定量的に評価するために, PH2, dermquest, dermis, EDRA2002, ISIC Data Archiveなどの一般のデータセットから抽出した無毛画像中の皮膚毛の存在をシミュレートした。 我々の知る限りでは、深層学習に基づく他の毛髪除去方法はない。 そこで,本研究では,従来のコンピュータビジョン技術に基づく6つの最先端アルゴリズムを,基準ヘアレス画像と模擬ヘアレス画像とを比較する類似度尺度を用いて比較した。 最後に、統計的テストを用いて手法を比較する。 定性的かつ定量的な結果は,ネットワークの有効性を示すものである。

The process of removing occluding hair has a relevant role in the early and accurate diagnosis of skin cancer. It consists of detecting hairs and restore the texture below them, which is sporadically occluded. In this work, we present a model based on convolutional neural networks for hair removal in dermoscopic images. During the network's training, we use a combined loss function to improve the restoration ability of the proposed model. In order to train the CNN and to quantitatively validate their performance, we simulate the presence of skin hair in hairless images extracted from publicly known datasets such as the PH2, dermquest, dermis, EDRA2002, and the ISIC Data Archive. As far as we know, there is no other hair removal method based on deep learning. Thus, we compare our results with six state-of-the-art algorithms based on traditional computer vision techniques by means of similarity measures that compare the reference hairless image and the one with hair simulated. Finally, a statistical test is used to compare the methods. Both qualitative and quantitative results demonstrate the effectiveness of our network.
翻訳日:2022-10-08 22:36:34 公開日:2020-10-10
# zero-shot outlier 合成と階層的特徴蒸留による異常検出

Anomaly Detection based on Zero-Shot Outlier Synthesis and Hierarchical Feature Distillation ( http://arxiv.org/abs/2010.05119v1 )

ライセンス: Link先を確認
Ad\'in Ram\'irez Rivera, Adil Khan, Imad E. I. Bekkouch, Taimoor S. Sheikh(参考訳) 異常検出は異常が極めて稀であるため、不均衡なデータに悩まされる。 合成生成された異常は、そのような不適切なデータに対する解決策である。 しかし、合成は生成されたデータの品質を保証するために表現表現を必要とする。 本稿では,inliersの特徴記述子(オートエンコーダ経由)を,0ショット異常発生のための分散の変動族(可変オートエンコーダ経由)に基づくより堅牢な表現に蒸留する2階層型遅延空間表現を提案する。 学習された潜在分布から,学習データの外部にあるものを合成出力生成器として選択する。 そして、それらを合成し、例えば、以前に見たことのない負のサンプルを生成し、バイナリ分類器を訓練する。 提案する階層構造を特徴蒸留と融合に利用することで,疑似異常サンプルを合成できるロバストで汎用的な表現が得られることがわかった。 そして、真の外れ値検出のために堅牢なバイナリ分類器をトレーニングする(トレーニング中に実際の外れ値を必要としない)。 異常検出のためのいくつかのベンチマークで提案手法の性能を示す。

Anomaly detection suffers from unbalanced data since anomalies are quite rare. Synthetically generated anomalies are a solution to such ill or not fully defined data. However, synthesis requires an expressive representation to guarantee the quality of the generated data. In this paper, we propose a two-level hierarchical latent space representation that distills inliers' feature-descriptors (through autoencoders) into more robust representations based on a variational family of distributions (through a variational autoencoder) for zero-shot anomaly generation. From the learned latent distributions, we select those that lie on the outskirts of the training data as synthetic-outlier generators. And, we synthesize from them, i.e., generate negative samples without seen them before, to train binary classifiers. We found that the use of the proposed hierarchical structure for feature distillation and fusion creates robust and general representations that allow us to synthesize pseudo outlier samples. And in turn, train robust binary classifiers for true outlier detection (without the need for actual outliers during training). We demonstrate the performance of our proposal on several benchmarks for anomaly detection.
翻訳日:2022-10-08 22:35:56 公開日:2020-10-10
# クラウドベース無線ネットワークの計算資源配分に関する強化学習

Reinforcement Learning on Computational Resource Allocation of Cloud-based Wireless Networks ( http://arxiv.org/abs/2010.05024v1 )

ライセンス: Link先を確認
Beiran Chen, Yi Zhang, George Iosifidis, Mingming Liu(参考訳) IoT(Internet of Things)に使用される無線ネットワークには、主にクラウドベースのコンピューティングと処理が関与することが期待されている。 クラウド上での信号処理とネットワーク切り替えは、柔軟なネットワーク制御と管理を可能にする。 クラウド環境では、プロセスのパフォーマンスを維持しながらエネルギーを節約するために動的計算資源割当が不可欠である。 中央処理ユニット(cpu)の負荷変動の確率的特徴とクラウドプロセスの複雑な並列化状況は、動的リソース割り当てを興味深い研究課題にしている。 本稿では,この動的計算資源割当問題をマルコフ決定プロセス(mdp)にモデル化し,cpu使用量の動的資源割当を最適化するモデルベース強化学習エージェントを設計する。 強化学習エージェントは,MDPにおける最適ポリシーを抽出するために,値反復法を用いる。 パフォーマンスを評価するために、さまざまなレベルの並列化機能を備えたクラウドベースのiotネットワーク、すなわちsoftware-defined radio(sdr)とsoftware-defined networking(sdn)で使用できる2つのプロセスを分析します。 その結果, エージェントは最適条件に迅速に収束し, 異なるパラメータ設定, 性能, あるいは少なくとも等しく動作し, 異なるシナリオの省エネにおけるベースラインアルゴリズムと比較できることがわかった。

Wireless networks used for Internet of Things (IoT) are expected to largely involve cloud-based computing and processing. Softwarised and centralised signal processing and network switching in the cloud enables flexible network control and management. In a cloud environment, dynamic computational resource allocation is essential to save energy while maintaining the performance of the processes. The stochastic features of the Central Processing Unit (CPU) load variation as well as the possible complex parallelisation situations of the cloud processes makes the dynamic resource allocation an interesting research challenge. This paper models this dynamic computational resource allocation problem into a Markov Decision Process (MDP) and designs a model-based reinforcement-learning agent to optimise the dynamic resource allocation of the CPU usage. Value iteration method is used for the reinforcement-learning agent to pick up the optimal policy during the MDP. To evaluate our performance we analyse two types of processes that can be used in the cloud-based IoT networks with different levels of parallelisation capabilities, i.e., Software-Defined Radio (SDR) and Software-Defined Networking (SDN). The results show that our agent rapidly converges to the optimal policy, stably performs in different parameter settings, outperforms or at least equally performs compared to a baseline algorithm in energy savings for different scenarios.
翻訳日:2022-10-08 22:35:43 公開日:2020-10-10
# l_{2,\infty}$正規化によるディープニューラルネットワークのロバスト性と精度の向上

Improve the Robustness and Accuracy of Deep Neural Network with $L_{2,\infty}$ Normalization ( http://arxiv.org/abs/2010.04912v1 )

ライセンス: Link先を確認
Lijia Yu and Xiao-Shan Gao(参考訳) 本稿では,dnnの重み行列のl_{2,\infty}$正規化を活性化関数として導入することにより,ディープニューラルネットワーク(dnn)のロバスト性と精度を高めた。 L_{2,\infty}$正規化は、DNN関数のポリヘドロングラフの隣り合う2つの面の間の大きな二面角となり、したがってより滑らかなDNN関数となり、過剰な収差を減少させる。 サンプルデータを中心とする最大ロバスト球面の平均半径である分類DNNのロバスト性に関する尺度が提案されている。 ロバストネス測度に対する下界は、$L_{2,\infty}$ノルムで与えられる。 最後に、DNNのラデマッハ複雑性と$L_{2,\infty}$正規化の上限が与えられる。 L_{2,\infty}$正規化でDNNを訓練するアルゴリズムが与えられ、実験結果を用いて、$L_{2,\infty}$正規化がロバスト性と精度を向上させるために有効であることを示す。

In this paper, the robustness and accuracy of the deep neural network (DNN) was enhanced by introducing the $L_{2,\infty}$ normalization of the weight matrices of the DNN with Relu as the activation function. It is proved that the $L_{2,\infty}$ normalization leads to large dihedral angles between two adjacent faces of the polyhedron graph of the DNN function and hence smoother DNN functions, which reduces over-fitting. A measure is proposed for the robustness of a classification DNN, which is the average radius of the maximal robust spheres with the sample data as centers. A lower bound for the robustness measure is given in terms of the $L_{2,\infty}$ norm. Finally, an upper bound for the Rademacher complexity of DNN with $L_{2,\infty}$ normalization is given. An algorithm is given to train a DNN with the $L_{2,\infty}$ normalization and experimental results are used to show that the $L_{2,\infty}$ normalization is effective to improve the robustness and accuracy.
翻訳日:2022-10-08 22:35:21 公開日:2020-10-10
# RatE: 知識グラフ補完のための関係適応型翻訳埋め込み

RatE: Relation-Adaptive Translating Embedding for Knowledge Graph Completion ( http://arxiv.org/abs/2010.04863v1 )

ライセンス: Link先を確認
Hao Huang, Guodong Long, Tao Shen, Jing Jiang, Chengqi Zhang(参考訳) 多くのグラフ埋め込み手法がリンク予測による知識グラフ補完のために提案されている。 これらのうち、翻訳埋め込みアプローチは軽量な構造、高い効率と高い解釈可能性の利点を享受している。 特に複素ベクトル空間に拡張すると、対称性、反対称性、反転、合成を含む様々な関係パターンを扱う能力を示す。 しかし、複素ベクトル空間で定義された過去の翻訳埋め込みアプローチは2つの主要な問題に悩まされている。 1) 2つの複素数の厳密な乗算を伴う翻訳関数によって,モデルの表現能力とモデル化能力が制限される。 2)一対多関係によるあいまいさの埋め込みは明示的に緩和されない。 本稿では,複素空間における新しい重み付き積に基づく関係適応翻訳関数を提案し,重み付けは学習可能であり,その重み付けは埋め込みサイズに依存しない。 翻訳関数は関係ごとに8つのスカラーパラメータしか必要としないが、表現力を改善し、埋め込みあいまいさの問題を軽減する。 この関数に基づいて、関係適応型翻訳埋め込み(RatE)アプローチを示し、各グラフを3倍にスコアする。 さらに,事前知識と自己学習の両方を効果的に最適化するために,新しいネガティブサンプリング手法を提案する。 RatEは4つのリンク予測ベンチマークで最先端のパフォーマンスを達成する。

Many graph embedding approaches have been proposed for knowledge graph completion via link prediction. Among those, translating embedding approaches enjoy the advantages of light-weight structure, high efficiency and great interpretability. Especially when extended to complex vector space, they show the capability in handling various relation patterns including symmetry, antisymmetry, inversion and composition. However, previous translating embedding approaches defined in complex vector space suffer from two main issues: 1) representing and modeling capacities of the model are limited by the translation function with rigorous multiplication of two complex numbers; and 2) embedding ambiguity caused by one-to-many relations is not explicitly alleviated. In this paper, we propose a relation-adaptive translation function built upon a novel weighted product in complex space, where the weights are learnable, relation-specific and independent to embedding size. The translation function only requires eight more scalar parameters each relation, but improves expressive power and alleviates embedding ambiguity problem. Based on the function, we then present our Relation-adaptive translating Embedding (RatE) approach to score each graph triple. Moreover, a novel negative sampling method is proposed to utilize both prior knowledge and self-adversarial learning for effective optimization. Experiments verify RatE achieves state-of-the-art performance on four link prediction benchmarks.
翻訳日:2022-10-08 22:28:55 公開日:2020-10-10
# テキスト分類のためのadversarial self-supervised data-free distillation

Adversarial Self-Supervised Data-Free Distillation for Text Classification ( http://arxiv.org/abs/2010.04883v1 )

ライセンス: Link先を確認
Xinyin Ma, Yongliang Shen, Gongfan Fang, Chen Chen, Chenghao Jia, Weiming Lu(参考訳) 大規模な事前学習型トランスフォーマーベース言語モデルは、幅広いNLPタスクにおいて印象的な結果を得た。 ここ数年、知識蒸留(KD)は計算コストの高いモデルをリソース効率のよい軽量モデルに圧縮する一般的なパラダイムとなっている。 しかしながら、ほとんどのKDアルゴリズム、特にNLPは、プライバシの問題により利用できないかもしれないオリジナルのトレーニングデータセットのアクセシビリティに依存している。 そこで本研究では,大規模トランスフォーマモデル(BERTなど)の圧縮を目的とした,新たな2段階の自己監督型データフリー蒸留法であるAdversarial Self-Supervised Data-Free Distillation(AS-DFD)を提案する。 個別空間におけるテキスト生成を避けるため,教師の隠れた知識から擬似埋め込みを構築するためのPlug & Play Embedding Guessing法を提案する。 一方,学生の能力を定量化するための自己指導型モジュールでは,擬似埋め込みの難しさを相手の訓練方法に適応させる。 我々の知る限り、私たちのフレームワークはNLPタスク用に設計された最初のデータフリー蒸留フレームワークです。 いくつかのテキスト分類データセットにおいて,本手法の有効性を検証する。

Large pre-trained transformer-based language models have achieved impressive results on a wide range of NLP tasks. In the past few years, Knowledge Distillation(KD) has become a popular paradigm to compress a computationally expensive model to a resource-efficient lightweight model. However, most KD algorithms, especially in NLP, rely on the accessibility of the original training dataset, which may be unavailable due to privacy issues. To tackle this problem, we propose a novel two-stage data-free distillation method, named Adversarial self-Supervised Data-Free Distillation (AS-DFD), which is designed for compressing large-scale transformer-based models (e.g., BERT). To avoid text generation in discrete space, we introduce a Plug & Play Embedding Guessing method to craft pseudo embeddings from the teacher's hidden knowledge. Meanwhile, with a self-supervised module to quantify the student's ability, we adapt the difficulty of pseudo embeddings in an adversarial training manner. To the best of our knowledge, our framework is the first data-free distillation framework designed for NLP tasks. We verify the effectiveness of our method on several text classification datasets.
翻訳日:2022-10-08 22:28:36 公開日:2020-10-10
# 位置埋め込みは何を学習するか? 事前学習言語モデルの位置エンコーディングに関する実証的研究

What Do Position Embeddings Learn? An Empirical Study of Pre-Trained Language Model Positional Encoding ( http://arxiv.org/abs/2010.04903v1 )

ライセンス: Link先を確認
Yu-An Wang, Yun-Nung Chen(参考訳) 近年、事前訓練されたトランスフォーマーがNLPベンチマークタスクの大部分を支配している。 プリトレーニング変圧器の多くの変種は分裂を続けており、ほとんどが異なるプリトレーニング目的やセルフアテンションの変種の設計に焦点を当てている。 自己アテンション機構に位置情報を埋め込むこともトランスフォーマーにとって必須の要素であるが、随意に議論されることが多い。 そこで本稿では,主に2つの質問に焦点をあてた,メインストリームの予習変圧器の位置埋め込みに関する実証研究を行う。 1) 位置埋め込みはポジションの意味を本当に学べるのか? 2)これらの異なる学習位置埋め込みはnlpタスクのトランスフォーマーにどのように影響するか? 本稿では, 特徴レベルの解析と, 象徴的NLPタスクの多くに対する実証実験を通じて, 事前学習した位置埋め込みの新たな洞察を提供することに焦点をあてる。 本研究は,アプリケーション特性を考慮した特定のタスクに適した位置符号化関数を選択するための,今後の作業のガイドとなると考えられる。

In recent years, pre-trained Transformers have dominated the majority of NLP benchmark tasks. Many variants of pre-trained Transformers have kept breaking out, and most focus on designing different pre-training objectives or variants of self-attention. Embedding the position information in the self-attention mechanism is also an indispensable factor in Transformers however is often discussed at will. Therefore, this paper carries out an empirical study on position embeddings of mainstream pre-trained Transformers, which mainly focuses on two questions: 1) Do position embeddings really learn the meaning of positions? 2) How do these different learned position embeddings affect Transformers for NLP tasks? This paper focuses on providing a new insight of pre-trained position embeddings through feature-level analysis and empirical experiments on most of iconic NLP tasks. It is believed that our experimental results can guide the future work to choose the suitable positional encoding function for specific tasks given the application property.
翻訳日:2022-10-08 22:28:02 公開日:2020-10-10
# 感情分析におけるセマンティクスをエンコードする構造化自己注意重み

Structured Self-Attention Weights Encode Semantics in Sentiment Analysis ( http://arxiv.org/abs/2010.04922v1 )

ライセンス: Link先を確認
Zhengxuan Wu, Thanh-Son Nguyen, Desmond C. Ong(参考訳) ニューラルアテンション、特にトランスフォーマーが普及させた自己注意は、最先端の自然言語処理(NLP)モデルのワークホースとなっている。 直近の研究では,トランスフォーマの自己着脱が構文情報をエンコードしていることが示唆され,本研究では自己着脱スコアが感情分析タスクを考慮して意味論をエンコードすることを示す。 グラデーションに基づく特徴帰属法とは対照的に,構造的注意重み分析のための単純かつ効果的な層間注意追跡(lat)法を提案する。 本手法は,表面の類似性を持つ2つのタスクで訓練されたトランスフォーマモデルに適用するが,共通意味論(映画レビューの強調分析とライフストーリー物語における時系列のヴァレンス予測)を共有する。 いずれのタスクにおいても,注目度が高い単語は感情的意味論に富み,人間のアノテータによってラベル付けされた感情辞書によって定量的に検証された。 その結果,構造化された注意重みは感情分析においてリッチな意味論を符号化し,人間による意味論の解釈と一致することがわかった。

Neural attention, especially the self-attention made popular by the Transformer, has become the workhorse of state-of-the-art natural language processing (NLP) models. Very recent work suggests that the self-attention in the Transformer encodes syntactic information; Here, we show that self-attention scores encode semantics by considering sentiment analysis tasks. In contrast to gradient-based feature attribution methods, we propose a simple and effective Layer-wise Attention Tracing (LAT) method to analyze structured attention weights. We apply our method to Transformer models trained on two tasks that have surface dissimilarities, but share common semantics---sentiment analysis of movie reviews and time-series valence prediction in life story narratives. Across both tasks, words with high aggregated attention weights were rich in emotional semantics, as quantitatively validated by an emotion lexicon labeled by human annotators. Our results show that structured attention weights encode rich semantics in sentiment analysis, and match human interpretations of semantics.
翻訳日:2022-10-08 22:27:46 公開日:2020-10-10
# 語彙縮小による単語の単語駆動型ニューラル応答生成

Cue-word Driven Neural Response Generation with a Shrinking Vocabulary ( http://arxiv.org/abs/2010.04927v1 )

ライセンス: Link先を確認
Qiansheng Wang, Yuxin Liu, Chengguo Lv, Zhen Wang and Guohong Fu(参考訳) オープンドメイン応答生成は、ソース文に対する賢明で情報的な応答を生成するタスクである。 しかし、ニューラルモデルは安全で無意味な応答を生成する傾向がある。 キューワードの導入アプローチは具体的なセマンティクスによる応答を奨励し、大きな可能性を示しているが、デコード中の逆応答の探索には失敗している。 本稿では,デコーディング中に複数のキューワードを生成可能な,斬新だが自然なアプローチを提案し,生成したキューワードを用いてデコーディングを駆動し,デコーディング語彙を縮小する。 したがって、神経系モデルでは、応答の完全な空間を探索し、効率的な情報となるものを見つけることができる。 実験の結果,提案手法は,復号の複雑さがはるかに低い,いくつかの強力なベースラインモデルを上回ることがわかった。 特に、このアプローチはデコード中により効率的に具体的なセマンティクスに収束することができる。

Open-domain response generation is the task of generating sensible and informative re-sponses to the source sentence. However, neural models tend to generate safe and mean-ingless responses. While cue-word introducing approaches encourage responses with concrete semantics and have shown tremendous potential, they still fail to explore di-verse responses during decoding. In this paper, we propose a novel but natural approach that can produce multiple cue-words during decoding, and then uses the produced cue-words to drive decoding and shrinks the decoding vocabulary. Thus the neural genera-tion model can explore the full space of responses and discover informative ones with efficiency. Experimental results show that our approach significantly outperforms several strong baseline models with much lower decoding complexity. Especially, our approach can converge to concrete semantics more efficiently during decoding.
翻訳日:2022-10-08 22:27:27 公開日:2020-10-10
# HPCC-YNU at SemEval-2020 Task 9: A Bilingual Vector Gating Mechanism for Sentiment Analysis of Code-Mixed Text (英語)

HPCC-YNU at SemEval-2020 Task 9: A Bilingual Vector Gating Mechanism for Sentiment Analysis of Code-Mixed Text ( http://arxiv.org/abs/2010.04935v1 )

ライセンス: Link先を確認
Jun Kong, Jin Wang and Xuejie Zhang(参考訳) ソーシャルメディアプラットフォーム上で、多言語社会における意見や感情を表現するためにコードミキシングを使うのが一般的である。 このタスクの目的は、コード混合ソーシャルメディアテキストの感情を検出することである。 コード混合テキストは従来のNLPシステムにとって大きな課題であり、現在、多言語混合の問題に対処するためにモノリンガルリソースを使用している。 この課題は、感情辞書の辞書検索や、モノリンガルリソースのための長期記憶(LSTM)ニューラルネットワークを用いて過去に解決されてきた。 本稿では,2言語間ベクトルゲーティング機構を用いてタスクを完了させるシステムを提案する。 このモデルは、文字と単語のレベルを組み合わせたベクターゲーティング機構と、テキストの重要な感情的な部分を抽出するアテンションメカニズムの2つの主要部分から構成されている。 その結果,提案システムはベースラインアルゴリズムよりも優れていた。 この論文のコードは、https://github.com/junkong5/semveal2020-task9で利用可能である。

It is fairly common to use code-mixing on a social media platform to express opinions and emotions in multilingual societies. The purpose of this task is to detect the sentiment of code-mixed social media text. Code-mixed text poses a great challenge for the traditional NLP system, which currently uses monolingual resources to deal with the problem of multilingual mixing. This task has been solved in the past using lexicon lookup in respective sentiment dictionaries and using a long short-term memory (LSTM) neural network for monolingual resources. In this paper, we (my codalab username is kongjun) present a system that uses a bilingual vector gating mechanism for bilingual resources to complete the task. The model consists of two main parts: the vector gating mechanism, which combines the character and word levels, and the attention mechanism, which extracts the important emotional parts of the text. The results show that the proposed system outperforms the baseline algorithm. We achieved fifth place in Spanglish and 19th place in Hinglish.The code of this paper is availabled at : https://github.com/JunKong5/Semveal2020-task9
翻訳日:2022-10-08 22:27:12 公開日:2020-10-10
# beyond language: 推論のための画像から常識を学ぶ

Beyond Language: Learning Commonsense from Images for Reasoning ( http://arxiv.org/abs/2010.05001v1 )

ライセンス: Link先を確認
Wanqing Cui, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng(参考訳) 本稿では,nlpの常識推論問題に対して,原文やコストのかかる知識ベースに代えて,画像から常識を学ぶための新しい手法を提案する。 私たちのモチベーションは、画像が1000語の価値があり、より豊かなシーン情報が、しばしば言語に隠されている常識の知識を蒸留するのに活用できるという事実から来ています。 我々のアプローチ、すなわちロワールは2つの段階から成る。 第1段階では、バイモーダルシーケンス・ツー・シーケンス・アプローチを使用して、テキスト表現モデルViBERTに基づいてシーンレイアウト生成タスクを実行する。 このように、空間関係のような必要な視覚的シーンの知識は、COCOのようなバイモーダルデータを用いて教師付き学習プロセスによってVBERTに符号化される。 次に、ViBERTは事前訓練された言語モデルと結合して、下流のコモンセンス推論タスクを実行する。 ロワール語が従来の言語に基づく手法より優れていることを示すために,2つのコモンセンス推論問題(コモンセンス質問応答と代名詞解決)に関する実験結果が得られた。 また,画像から学んだ知識を示すケーススタディや,生成したシーンレイアウトがコモンセンス推論プロセスにどのように役立つかを説明する。

This paper proposes a novel approach to learn commonsense from images, instead of limited raw texts or costly constructed knowledge bases, for the commonsense reasoning problem in NLP. Our motivation comes from the fact that an image is worth a thousand words, where richer scene information could be leveraged to help distill the commonsense knowledge, which is often hidden in languages. Our approach, namely Loire, consists of two stages. In the first stage, a bi-modal sequence-to-sequence approach is utilized to conduct the scene layout generation task, based on a text representation model ViBERT. In this way, the required visual scene knowledge, such as spatial relations, will be encoded in ViBERT by the supervised learning process with some bi-modal data like COCO. Then ViBERT is concatenated with a pre-trained language model to perform the downstream commonsense reasoning tasks. Experimental results on two commonsense reasoning problems, i.e. commonsense question answering and pronoun resolution, demonstrate that Loire outperforms traditional language-based methods. We also give some case studies to show what knowledge is learned from images and explain how the generated scene layout helps the commonsense reasoning process.
翻訳日:2022-10-08 22:26:49 公開日:2020-10-10
# ニューラルネットワーク翻訳における長手現象について

On Long-Tailed Phenomena in Neural Machine Translation ( http://arxiv.org/abs/2010.04924v1 )

ライセンス: Link先を確認
Vikas Raunak, Siddharth Dalmia, Vivek Gupta and Florian Metze(参考訳) 最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦慮している。 構造予測タスクの文脈における長い尾の現象の解析は、推論中の探索の複雑さの追加によってさらに妨げられる。 本研究では,これらのロングテール現象を,トークン分類とシーケンス生成という2つの抽象化レベルで定量的に特徴付ける。 本稿では,ビーム探索の帰納バイアスをトレーニングプロセスに組み込むことで,条件付きテキスト生成の構造的依存関係にモデルトレーニングを適応させる新しい損失関数である反焦点損失を提案する。 提案手法が複数の機械翻訳(MT)データセット上で有効であることを示し、特に低周波単語の生成において、異なる言語対間でのクロスエントロピーが顕著に向上することを示した。 結果を再現するためのコードをリリースしました。

State-of-the-art Neural Machine Translation (NMT) models struggle with generating low-frequency tokens, tackling which remains a major challenge. The analysis of long-tailed phenomena in the context of structured prediction tasks is further hindered by the added complexities of search during inference. In this work, we quantitatively characterize such long-tailed phenomena at two levels of abstraction, namely, token classification and sequence generation. We propose a new loss function, the Anti-Focal loss, to better adapt model training to the structural dependencies of conditional text generation by incorporating the inductive biases of beam search in the training process. We show the efficacy of the proposed technique on a number of Machine Translation (MT) datasets, demonstrating that it leads to significant gains over cross-entropy across different language pairs, especially on the generation of low-frequency words. We have released the code to reproduce our results.
翻訳日:2022-10-08 22:19:41 公開日:2020-10-10
# 言語モデル判別器と相互情報最大化を用いた半教師あり形式変換

Semi-supervised Formality Style Transfer using Language Model Discriminator and Mutual Information Maximization ( http://arxiv.org/abs/2010.05090v1 )

ライセンス: Link先を確認
Kunal Chawla, Diyi Yang(参考訳) 形式性スタイル転送は、非公式の文を文法的に正しい形式文に変換する作業であり、多くの下流のnlpタスクのパフォーマンスを改善するために使用できる。 本研究では,言語モデルに基づく判別器を用いて,出力文の確率を最大化し,トークンレベルの条件付き確率の最大化を訓練に活用する半教師付き形式変換モデルを提案する。 我々はまた、しばしば繰り返しや自明な応答につながる正規確率を最大化するのではなく、ソースとターゲットのスタイル間の相互情報をトレーニング目的として最大化することを提案する。 実験の結果,我々のモデルは,自動測定と人的判断の両面で,従来の最先端のベースラインを著しく上回りました。 我々はさらに,教師なしテキストスタイル転送タスクにモデルを一般化し,2つのベンチマーク感情スタイル転送データセットで大幅な改善を行った。

Formality style transfer is the task of converting informal sentences to grammatically-correct formal sentences, which can be used to improve performance of many downstream NLP tasks. In this work, we propose a semi-supervised formality style transfer model that utilizes a language model-based discriminator to maximize the likelihood of the output sentence being formal, which allows us to use maximization of token-level conditional probabilities for training. We further propose to maximize mutual information between source and target styles as our training objective instead of maximizing the regular likelihood that often leads to repetitive and trivial generated responses. Experiments showed that our model outperformed previous state-of-the-art baselines significantly in terms of both automated metrics and human judgement. We further generalized our model to unsupervised text style transfer task, and achieved significant improvements on two benchmark sentiment style transfer datasets.
翻訳日:2022-10-08 22:18:51 公開日:2020-10-10
# False Alarm Rateにおける漸近境界付き監視ビデオのオンライン異常検出

Online Anomaly Detection in Surveillance Videos with Asymptotic Bounds on False Alarm Rate ( http://arxiv.org/abs/2010.07110v1 )

ライセンス: Link先を確認
Keval Doshi, Yasin Yilmaz(参考訳) 監視ビデオにおける異常検出は、ますます注目を集めている。 最近の手法の競合性能にもかかわらず、特に意思決定に使用される複雑なディープニューラルネットワークアーキテクチャのために、理論的パフォーマンス分析が欠けている。 さらに、オンライン意思決定はこのドメインにおいて重要ではあるが、ほとんど無視されている要素である。 オンラインであると主張する既存のメソッドの多くは、実際にバッチ処理やオフライン処理に依存している。 これらの研究ギャップから, 偽警報率に漸近的制約のある監視ビデオにおけるオンライン異常検出手法を提案し, 所望の偽警報率を満たす適切な判定しきい値を選択するための明確な手順を提供する。 提案するアルゴリズムは,多目的深層学習モジュールと統計的異常検出モジュールから構成される。 すべてのコードはhttps://github.com/kevaldoshi17/prediction-based-video-anomaly-detectionで入手できる。

Anomaly detection in surveillance videos is attracting an increasing amount of attention. Despite the competitive performance of recent methods, they lack theoretical performance analysis, particularly due to the complex deep neural network architectures used in decision making. Additionally, online decision making is an important but mostly neglected factor in this domain. Much of the existing methods that claim to be online, depend on batch or offline processing in practice. Motivated by these research gaps, we propose an online anomaly detection method in surveillance videos with asymptotic bounds on the false alarm rate, which in turn provides a clear procedure for selecting a proper decision threshold that satisfies the desired false alarm rate. Our proposed algorithm consists of a multi-objective deep learning module along with a statistical anomaly detection module, and its effectiveness is demonstrated on several publicly available data sets where we outperform the state-of-the-art algorithms. All codes are available at https://github.com/kevaldoshi17/Prediction-based-Video-Anomaly-Detection-.
翻訳日:2022-10-08 22:17:34 公開日:2020-10-10