このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210206となっている論文です。

PDF登録状況(公開日: 20210206)

TitleAuthorsAbstract論文公表日・翻訳日
# 成功と単純さについて: 転送可能なターゲット攻撃を第二に見る

On Success and Simplicity: A Second Look at Transferable Targeted Attacks ( http://arxiv.org/abs/2012.11207v2 )

ライセンス: Link先を確認
Zhengyu Zhao, Zhuoran Liu, Martha Larson(参考訳) 攻撃例を研究する研究者の間では、移動可能な標的攻撃を達成することが極めて難しいという広い一致がある。 現在、既存の研究は複雑な損失や大規模な訓練を頼りに、移動可能な標的攻撃を試みている。 本稿では,移動可能な標的攻撃を第二に検討し,その難易度が従来の評価手法の盲点により過大評価されていることを示す。 特に、現在の作業では、いくつかのイテレーションにアタック最適化を不当に制限しています。 ここでは,対象とする攻撃が最適な移動可能性に緩やかに収束し,より多くのイテレーションが与えられると大幅に改善することを示す。 また,目標のロジットを最大化する攻撃は驚くほどうまく動作し,より複雑な損失を著しく上回り,高度な複数項の損失を伴う大規模トレーニングを必要とする最先端技術に匹敵するパフォーマンスを達成することも実証する。 Google Cloud Vision APIに対する現実的なアンサンブル設定と現実的な攻撃において、ロジット攻撃のさらなる検証を提供します。 ロジット攻撃は標的のセマンティクスを反映した摂動を発生させるので、訓練画像を追加せずに汎用的な摂動を生成できる。

There is broad consensus among researchers studying adversarial examples that it is extremely difficult to achieve transferable targeted attacks. Currently, existing research strives for transferable targeted attacks by resorting to complex losses and even massive training. In this paper, we take a second look at transferable targeted attacks and show that their difficulty has been overestimated due to a blind spot in the conventional evaluation procedures. Specifically, current work has unreasonably restricted attack optimization to a few iterations. Here, we show that targeted attacks converge slowly to optimal transferability and improve considerably when given more iterations. We also demonstrate that an attack that simply maximizes the target logit performs surprisingly well, remarkably surpassing more complex losses and even achieving performance comparable to the state of the art, which requires massive training with a sophisticated multi-term loss. We provide further validation of our logit attack in a realistic ensemble setting and in a real-world attack against the Google Cloud Vision API. The logit attack produces perturbations that reflect the target semantics, which we demonstrate allows us to create targeted universal adversarial perturbations without additional training images.
翻訳日:2021-04-27 06:40:57 公開日:2021-02-06
# (参考訳) 深層ニューラルネットワークと神経生理学の作業記憶研究のコヒーレンス [全文訳有]

Coherence of Working Memory Study Between Deep Neural Network and Neurophysiology ( http://arxiv.org/abs/2102.10994v1 )

ライセンス: CC BY 4.0
Yurui Ming(参考訳) ディープニューラルネットワーク(DNN)の自動特徴抽出能力は、脳機能研究から取得した複雑な脳波(EEG)データを解析する可能性を与える。 本研究は、DNNが探索する関心領域(ROI)と、作業記憶研究において実証された従来の神経生理学的指向の方法におけるROIとの間の潜在的なコヒーレントな対応について検討する。 グローバル平均プーリング(GAP)によって引き起こされる注意機構は、ワーキングメモリのパブリックEEGデータセットに適用され、分類問題を通じてこれらのコヒーレントROIを明らかにする。 結果は異なる研究分野のroisのアライメントを示している。 この研究は、ネットワーク操作に対する解釈の欠如にもかかわらず、脳波データ分析にDNNを活用するという自信と約束を主張する。

The auto feature extraction capability of deep neural networks (DNN) endows them the potentiality for analysing complicated electroencephalogram (EEG) data captured from brain functionality research. This work investigates the potential coherent correspondence between the region-of-interest (ROI) for DNN to explore, and ROI for conventional neurophysiological oriented methods to work with, exemplified in the case of working memory study. The attention mechanism induced by global average pooling (GAP) is applied to a public EEG dataset of working memory, to unveil these coherent ROIs via a classification problem. The result shows the alignment of ROIs from different research disciplines. This work asserts the confidence and promise of utilizing DNN for EEG data analysis, albeit in lack of the interpretation to network operations.
翻訳日:2021-04-06 07:05:07 公開日:2021-02-06
# (参考訳) データサイエンスの宇宙の弧

The Arc of the Data Scientific Universe ( http://arxiv.org/abs/2102.10050v1 )

ライセンス: CC BY 4.0
David Leslie(参考訳) 本稿では、セビナ・レオネッリの認識整合性の価値に対する暗黙のアピールを支持する規範的仮定の足場と、COVID-19の文脈における責任と持続可能なデータ作業の倫理を共生するグローバルな公共財について考察する。 主に、社会学者のロバート・K・マートン、ウィーン・サークルの思想家、チャールズ・サンダース・パース(Charles Sanders Peirce)の著作に基づいて、メルトンがよく知られた規範(普遍主義、共産主義、組織的懐疑主義、不関心)を表現したことから、科学の規範的構造に関する社会思想の進化についての長い物語を現在まで物語ることで、これらの仮定のいくつかを明確にしている。 I show that while Merton's norms and his intertwinement of these with the underlying mechanisms of democratic order provide us with an especially good starting point to explore and clarify the commitments and values of science, Leonelli's broader, more context-responsive, and more holistic vision of the epistemic integrity of data scientific understanding, and her discernment of the global and biospheric scope of its moral-practical reach, move beyond Merton's schema in ways that effectively draw upon important critiques. メルトンを乗り越えて、位置する普遍主義、方法論的多元主義、強い客観性、そして無制限のコミュナリズムの組み合わせは、未来の責任と持続可能なデータワークを導く必要があると論じます。

In this paper I explore the scaffolding of normative assumptions that supports Sabina Leonelli's implicit appeal to the values of epistemic integrity and the global public good that conjointly animate the ethos of responsible and sustainable data work in the context of COVID-19. Drawing primarily on the writings of sociologist Robert K. Merton, the thinkers of the Vienna Circle, and Charles Sanders Peirce, I make some of these assumptions explicit by telling a longer story about the evolution of social thinking about the normative structure of science from Merton's articulation of his well-known norms (those of universalism, communism, organized skepticism, and disinterestedness) to the present. I show that while Merton's norms and his intertwinement of these with the underlying mechanisms of democratic order provide us with an especially good starting point to explore and clarify the commitments and values of science, Leonelli's broader, more context-responsive, and more holistic vision of the epistemic integrity of data scientific understanding, and her discernment of the global and biospheric scope of its moral-practical reach, move beyond Merton's schema in ways that effectively draw upon important critiques. Stepping past Merton, I argue that a combination of situated universalism, methodological pluralism, strong objectivity, and unbounded communalism must guide the responsible and sustainable data work of the future.
翻訳日:2021-04-06 06:58:24 公開日:2021-02-06
# (参考訳) 逆振り子バランスのための仮想ポリシー勾配を用いた強化学習のためのハイブリッド手法 [全文訳有]

A Hybrid Approach for Reinforcement Learning Using Virtual Policy Gradient for Balancing an Inverted Pendulum ( http://arxiv.org/abs/2102.08362v1 )

ライセンス: CC BY-SA 4.0
Dylan Bates(参考訳) ポリシー勾配アルゴリズムを用いて,単層ニューラルネットワークを訓練し,倒立振子を物理的に正確にシミュレーションする。 トレーニングされた重量とバイアスは物理的エージェントに転送され、実際の逆振り子のバランスをとるのに十分な頑丈さを持つ。 シミュレーションをトレーニングするこのハイブリッドアプローチは、現実世界でできることよりも数千回の試行実行を1桁早く完了させることを可能にし、トレーニング時間とイテレーション数を大幅に削減し、より堅牢なモデルを生成する。 既存の強化学習法と比較すると、結果として得られる制御はよりスムーズで、より速く学習でき、強制的障害に耐えられる。

Using the policy gradient algorithm, we train a single-hidden-layer neural network to balance a physically accurate simulation of a single inverted pendulum. The trained weights and biases can then be transferred to a physical agent, where they are robust enough to to balance a real inverted pendulum. This hybrid approach of training a simulation allows thousands of trial runs to be completed orders of magnitude faster than would be possible in the real world, resulting in greatly reduced training time and more iterations, producing a more robust model. When compared with existing reinforcement learning methods, the resulting control is smoother, learned faster, and able to withstand forced disturbances.
翻訳日:2021-04-06 06:42:02 公開日:2021-02-06
# 分散コントローラソフトウェア定義ネットワークにおける要求派遣のためのマルチエージェント深層強化学習

Multi-Agent Deep Reinforcement Learning for Request Dispatching in Distributed-Controll er Software-Defined Networking ( http://arxiv.org/abs/2103.03022v1 )

ライセンス: Link先を確認
Victoria Huang, Gang Chen, Qiang Fu(参考訳) 近年, Software-Defined Networking (SDN) で分散コントローラアーキテクチャが急速に普及している。 しかし、分散コントローラの使用により、新しい重要なリクエストディスパッチ(RD)問題が導入され、すべてのSDNスイッチがネットワーク性能を最適化するために、すべてのコントローラ間でリクエストを適切にディスパッチすることを目標としている。 この目標は、各スイッチでのリクエストの配布をガイドするRDポリシーを設計することで達成できる。 本稿では,高い適応性と性能を有するRDポリシーを自動設計するマルチエージェント深層強化学習(MA-DRL)手法を提案する。 これは、Multi-Agent Markov Decision Process (MA-MDP) という新しい問題定式化、新しい適応RDポリシー設計、MA-PPOと呼ばれる新しいMA-DRLアルゴリズムによって達成される。 大規模なシミュレーション研究により,我々のMA-DRL技術は,単一エージェントDRLアルゴリズムを用いて学習したRDポリシーだけでなく,人為的ポリシー,モデルベースポリシーを著しく上回るRDポリシーを効果的に訓練できることが示された。

Recently, distributed controller architectures have been quickly gaining popularity in Software-Defined Networking (SDN). However, the use of distributed controllers introduces a new and important Request Dispatching (RD) problem with the goal for every SDN switch to properly dispatch their requests among all controllers so as to optimize network performance. This goal can be fulfilled by designing an RD policy to guide distribution of requests at each switch. In this paper, we propose a Multi-Agent Deep Reinforcement Learning (MA-DRL) approach to automatically design RD policies with high adaptability and performance. This is achieved through a new problem formulation in the form of a Multi-Agent Markov Decision Process (MA-MDP), a new adaptive RD policy design and a new MA-DRL algorithm called MA-PPO. Extensive simulation studies show that our MA-DRL technique can effectively train RD policies to significantly outperform man-made policies, model-based policies, as well as RD policies learned via single-agent DRL algorithms.
翻訳日:2021-04-05 00:34:11 公開日:2021-02-06
# 旅行意図モデルを用いた街外レコメンデーション

Out-of-Town Recommendation with Travel Intention Modeling ( http://arxiv.org/abs/2101.12555v2 )

ライセンス: Link先を確認
Haoran Xin, Xinjiang Lu, Tong Xu, Hao Liu, Jingjing Gu, Dejing Dou, Hui Xiong(参考訳) アウト・オブ・タウン・レコメンデーション(out-of-town recommendation)は、故郷の地域を離れ、これまで行ったことのない地域を訪れるユーザー向けにデザインされている。 地域外チェックイン行動は、利用者の故郷の好みだけでなく、利用者の旅行意図によって決定されるため、地域外ユーザに対してPOI(Point-of-Interes ts)を推奨することは困難である。 さらに、ユーザの旅行意図は複雑で動的であり、そのような意図を正確に理解することが困難になる。 本稿では,TRAINORという都市外推奨フレームワークを提案する。 提案されたTRAINORフレームワークは、既存のアウト・オブ・タウンの推奨者とを3つの面で区別している。 まず,グラフニューラルネットワークを用いて,街外チェックイン行動におけるユーザのチェックイン選択と地理的制約を表現する。 第2に、利用者固有の旅行意図は、故郷の嗜好と一般的な旅行意図を組み合わせたアグリゲーションとして定式化され、一般的な旅行意図はニューラルトピックモデル(NTM)によって学習できる固有の意図の混合と見なされる。 第3に、非線形マッピング関数と行列分解法を用いて、利用者の自宅選好を伝達し、街外ポイの表現を推定する。 実世界のデータセットに関する広範な実験は、トレーナーフレームワークの有効性を検証する。 さらに、学習した旅行意図は、ユーザの旅行目的を理解するための意味のある説明を与えることができる。

Out-of-town recommendation is designed for those users who leave their home-town areas and visit the areas they have never been to before. It is challenging to recommend Point-of-Interests (POIs) for out-of-town users since the out-of-town check-in behavior is determined by not only the user's home-town preference but also the user's travel intention. Besides, the user's travel intentions are complex and dynamic, which leads to big difficulties in understanding such intentions precisely. In this paper, we propose a TRAvel-INtention-awa re Out-of-town Recommendation framework, named TRAINOR. The proposed TRAINOR framework distinguishes itself from existing out-of-town recommenders in three aspects. First, graph neural networks are explored to represent users' home-town check-in preference and geographical constraints in out-of-town check-in behaviors. Second, a user-specific travel intention is formulated as an aggregation combining home-town preference and generic travel intention together, where the generic travel intention is regarded as a mixture of inherent intentions that can be learned by Neural Topic Model (NTM). Third, a non-linear mapping function, as well as a matrix factorization method, are employed to transfer users' home-town preference and estimate out-of-town POI's representation, respectively. Extensive experiments on real-world data sets validate the effectiveness of the TRAINOR framework. Moreover, the learned travel intention can deliver meaningful explanations for understanding a user's travel purposes.
翻訳日:2021-04-05 00:26:43 公開日:2021-02-06
# ディープネットは何を学べるか? 入力空間に現れるクラスワイドパターン

What Do Deep Nets Learn? Class-wise Patterns Revealed in the Input Space ( http://arxiv.org/abs/2101.06898v2 )

ライセンス: Link先を確認
Shihao Zhao, Xingjun Ma, Yisen Wang, James Bailey, Bo Li, Yu-Gang Jiang(参考訳) ディープニューラルネットワーク(DNN)は、最先端のパフォーマンスを達成するために、さまざまなアプリケーションにますますデプロイされている。 しかしながら、モデルがデータから学んだ知識を限定的に理解したブラックボックスとしてしばしば適用される。 本稿では,画像分類に着目し,dnnが自然,バックドア,敵意の3つの設定で学習したクラス毎の知識(パターン)を可視化・理解する手法を提案する。 既存の可視化手法と異なり,各クラスでモデルによって学習された知識を表現するために,画素空間内の単一の予測パターンを探索する。 提案手法に基づいて,自然(クリーン)データに基づいて訓練されたDNNが抽象的な形状とテクスチャを学習し,バックドアモデルがバックドアクラスの不審なパターンを学習することを示す。 興味深いことに、DNNが各クラスの単一の予測パターンを学習できる現象は、DNNがクリーンデータからでもバックドアを学習できることを示し、パターン自体がバックドアトリガーである。 逆境環境では、逆境に訓練されたモデルはより単純化された形状パターンを学ぶ傾向がある。 提案手法は,異なるデータセット上でDNNが学習した知識をよりよく理解するための有用なツールとして機能する。

Deep neural networks (DNNs) are increasingly deployed in different applications to achieve state-of-the-art performance. However, they are often applied as a black box with limited understanding of what knowledge the model has learned from the data. In this paper, we focus on image classification and propose a method to visualize and understand the class-wise knowledge (patterns) learned by DNNs under three different settings including natural, backdoor and adversarial. Different to existing visualization methods, our method searches for a single predictive pattern in the pixel space to represent the knowledge learned by the model for each class. Based on the proposed method, we show that DNNs trained on natural (clean) data learn abstract shapes along with some texture, and backdoored models learn a suspicious pattern for the backdoored class. Interestingly, the phenomenon that DNNs can learn a single predictive pattern for each class indicates that DNNs can learn a backdoor even from clean data, and the pattern itself is a backdoor trigger. In the adversarial setting, we show that adversarially trained models tend to learn more simplified shape patterns. Our method can serve as a useful tool to better understand the knowledge learned by DNNs on different datasets under different settings.
翻訳日:2021-03-27 05:57:06 公開日:2021-02-06
# Hessian-Aware Pruningと最適な神経インプラント

Hessian-Aware Pruning and Optimal Neural Implant ( http://arxiv.org/abs/2101.08940v2 )

ライセンス: Link先を確認
Shixing Yu, Zhewei Yao, Amir Gholami, Zhen Dong, Michael W Mahoney, Kurt Keutzer(参考訳) プルーニングは、ニューラルネットワークモデルに関連するメモリフットプリントとフラップを減らす効果的な方法である。 しかし、既存の構造的刈り取り法は、適度な刈り取りレベルの精度が著しく低下することが多い。 この問題に対処するために,2次感度を構造的プルーニングの指標として用いる神経インプラントアプローチと組み合わされた新しいヘッセン認識プルーニング(hap)法を提案する。 基本的なアイデアは、不感なコンポーネントを抜いて、神経インプラントを適度に敏感なコンポーネントとして使うことだ。 後者のアプローチでは、中程度の感度のコンポーネントは、元のコンポーネントよりも小さく、計算コストが低い低ランクのインプラントに置き換えられる。 文献でよく用いられる等級に基づく感度測定とは対照的に,相対的ヘッセントレースを用いて感度を測定する。 我々は,CIFAR-10/ImageNetで複数のモデル上でHAPをテストする。 具体的には、HAPはPreResNet29(CIFAR-10 )上で94.3\%の精度(<0.1\%$分解)を達成する。 さらに、ResNet50 HAPは、パラメータの半分以上を刈った後、ImageNet上で75.1\%のトップ-1精度(0.5\%劣化)を達成する。 フレームワークはオープンソースで,オンラインで公開されている。

Pruning is an effective method to reduce the memory footprint and FLOPs associated with neural network models. However, existing structured-pruning methods often result in significant accuracy degradation for moderate pruning levels. To address this problem, we introduce a new Hessian Aware Pruning (HAP) method coupled with a Neural Implant approach that uses second-order sensitivity as a metric for structured pruning. The basic idea is to prune insensitive components and to use a Neural Implant for moderately sensitive components, instead of completely pruning them. For the latter approach, the moderately sensitive components are replaced with with a low rank implant that is smaller and less computationally expensive than the original component. We use the relative Hessian trace to measure sensitivity, as opposed to the magnitude based sensitivity metric commonly used in the literature. We test HAP on multiple models on CIFAR-10/ImageNet, and we achieve new state-of-the-art results. Specifically, HAP achieves 94.3\% accuracy ($<0.1\%$ degradation) on PreResNet29 (CIFAR-10), with more than 70\% of parameters pruned. Moreover, for ResNet50 HAP achieves 75.1\% top-1 accuracy (0.5\% degradation) on ImageNet, after pruning more than half of the parameters. The framework has been open sourced and available online.
翻訳日:2021-03-20 17:25:50 公開日:2021-02-06
# (参考訳) 自動ラベリングの品質重み付けによる言語理解と生成の協調的改善 [全文訳有]

Jointly Improving Language Understanding and Generation with Quality-Weighted Weak Supervision of Automatic Labeling ( http://arxiv.org/abs/2102.03551v1 )

ライセンス: CC BY 4.0
Ernie Chang, Vera Demberg, Alex Marin(参考訳) ニューラル自然言語生成(NLG)と理解(NLU)モデルはデータハングリーであり、膨大な量の注釈付きデータを必要とする。 最近のフレームワークでは、少量のトレーニングラベルがエキスパートキュレーションされ、残りのデータが自動的にアノテートされる、大規模で弱いラベルを合成するジェネレーションモデルで、このボトルネックに対処する。 このアプローチに従い、微調整されたGPT-2で大規模弱ラベルデータを自動的に構築し、半監視フレームワークを使用してNLGとNLUモデルを共同トレーニングします。 提案フレームワークは,推定ラベル品質に応じてパラメータ更新をモデルに適応させる。 E2Eとウェザーベンチマークの両方において、この弱教師付きトレーニングパラダイムは、低リソースシナリオ下での効果的なアプローチであり、トレーニングデータの100%が使用される場合、両方のデータセット上でベンチマークシステムより優れていることを示す。

Neural natural language generation (NLG) and understanding (NLU) models are data-hungry and require massive amounts of annotated data to be competitive. Recent frameworks address this bottleneck with generative models that synthesize weak labels at scale, where a small amount of training labels are expert-curated and the rest of the data is automatically annotated. We follow that approach, by automatically constructing a large-scale weakly-labeled data with a fine-tuned GPT-2, and employ a semi-supervised framework to jointly train the NLG and NLU models. The proposed framework adapts the parameter updates to the models according to the estimated label-quality. On both the E2E and Weather benchmarks, we show that this weakly supervised training paradigm is an effective approach under low resource scenarios and outperforming benchmark systems on both datasets when 100% of training data is used.
翻訳日:2021-02-11 10:46:11 公開日:2021-02-06
# (参考訳) Gated3D:一時照明キューからの単眼3D物体検出 [全文訳有]

Gated3D: Monocular 3D Object Detection From Temporal Illumination Cues ( http://arxiv.org/abs/2102.03602v1 )

ライセンス: CC BY 4.0
Frank Julca-Aguilar, Jason Taylor, Mario Bijelic, Fahim Mannan, Ethan Tseng, Felix Heide(参考訳) 今日の3dオブジェクト検出の最先端の方法は、lidar、ステレオ、単眼カメラに基づいている。 lidarベースの手法は、最も精度は高いが、足跡が大きく、コストが高く、機械的に制限された角サンプリングレートがあり、長距離での空間分解能は低い。 低コストの単眼またはステレオカメラに基づく最近のアプローチは、これらの制限を克服することを約束しますが、受動CMOSセンサーに依存するため、低照度または低コントラスト領域では苦労します。 本研究では、低コストの単眼ゲート画像から時間的照明キューを利用する新しい3次元物体検出モダリティを提案する。 本稿では,3つのゲート画像からの時間的照明手がかりに合わせた,新しい深層検出器アーキテクチャgated3dを提案する。 定格画像は、フラスタムセグメント推定を通じて3D予測を導く成熟した2Dオブジェクト特徴抽出器を利用することができます。 提案手法を1万km以上の走行データで撮影したゲート画像を含む新しい3D検出データセット上で評価する。 本手法が遠距離でのモノクロおよびステレオアプローチよりも優れていることを検証した。 私たちはコードとデータセットをリリースし、自動運転でライダーを置き換える手段として新しいセンサーモダリティを開放します。

Today's state-of-the-art methods for 3D object detection are based on lidar, stereo, or monocular cameras. Lidar-based methods achieve the best accuracy, but have a large footprint, high cost, and mechanically-limited angular sampling rates, resulting in low spatial resolution at long ranges. Recent approaches based on low-cost monocular or stereo cameras promise to overcome these limitations but struggle in low-light or low-contrast regions as they rely on passive CMOS sensors. In this work, we propose a novel 3D object detection modality that exploits temporal illumination cues from a low-cost monocular gated imager. We propose a novel deep detector architecture, Gated3D, that is tailored to temporal illumination cues from three gated images. Gated images allow us to exploit mature 2D object feature extractors that guide the 3D predictions through a frustum segment estimation. We assess the proposed method on a novel 3D detection dataset that includes gated imagery captured in over 10,000 km of driving data. We validate that our method outperforms state-of-the-art monocular and stereo approaches at long distances. We will release our code and dataset, opening up a new sensor modality as an avenue to replace lidar in autonomous driving.
翻訳日:2021-02-11 08:37:29 公開日:2021-02-06
# (参考訳) Sill-Net: 分離イルミネーション表現による特徴増強 [全文訳有]

Sill-Net: Feature Augmentation with Separated Illumination Representation ( http://arxiv.org/abs/2102.03539v1 )

ライセンス: CC BY 4.0
Haipeng Zhang, Zhong Cao, Ziang Yan, Changshui Zhang(参考訳) 視覚物体認識タスクでは、照明の変動が物体の外観に異なる変化をもたらし、ディープニューラルネットワークベースの認識モデルを混乱させる可能性がある。 特に稀な照明条件では、十分なトレーニングサンプルの収集には時間と費用がかかる可能性がある。 そこで本研究では,分離イルミネーションネットワーク(Sill-Net)と呼ばれるニューラルネットワークアーキテクチャを提案する。 Sill-Netは、画像から照明機能を分離することを学び、トレーニング中に、これらの照明機能を特徴空間で分離したトレーニングサンプルを拡張する。 実験結果から,複数のオブジェクト分類ベンチマークにおいて,本手法が最新の手法を上回っていることが示された。

For visual object recognition tasks, the illumination variations can cause distinct changes in object appearance and thus confuse the deep neural network based recognition models. Especially for some rare illumination conditions, collecting sufficient training samples could be time-consuming and expensive. To solve this problem, in this paper we propose a novel neural network architecture called Separating-Illuminat ion Network (Sill-Net). Sill-Net learns to separate illumination features from images, and then during training we augment training samples with these separated illumination features in the feature space. Experimental results demonstrate that our approach outperforms current state-of-the-art methods in several object classification benchmarks.
翻訳日:2021-02-11 08:22:16 公開日:2021-02-06
# (参考訳) MOTS R-CNN:マルチオブジェクトトラッキングのためのコサインマージントリプレット損失 [全文訳有]

MOTS R-CNN: Cosine-margin-triple t loss for multi-object tracking ( http://arxiv.org/abs/2102.03512v1 )

ライセンス: CC BY 4.0
Amit Satish Unde and Renu M. Rameshan(参考訳) マルチオブジェクト追跡の中心的なタスクの1つは、オブジェクトの意味的類似性と一致する距離メトリックの学習である。 識別的特徴学習を促進する適切な損失関数の設計は、ディープニューラルネットワークに基づくメトリック学習において最も重要な課題である。 大幅な進歩にもかかわらず、遅い収束と既存の対照的および三重損失ベースの深度メトリクス学習方法の局所最適性の欠如は、より良いソリューションを必要とします。 本稿では,コサイン距離の観点からコントラスト損失関数と三重項損失関数の両方を再構成し,コサインマージンコントラスト関数 (cmc) とコサインマージン三重項損失 (cmt) を提案する。 超球面上で学習した特徴を分配する特徴正規化により,コサイン損失として提案した再構成を実現する。 そこで我々は,MOTS R-CNNのマルチオブジェクト・トラッキングとセグメンテーションのためのフレームワークを提案する。 具体的には,提案する損失関数に基づくディープメトリック学習によって追跡問題に対処する。 オブジェクトのスケール変動やオクルージョンに対して頑健なモデルを実現するために,多層特徴集約スキームを用いたスケール不変トラッカーを提案する。 MOTS R-CNNは、KITTI MOTSデータセット上で最先端のトラッキング性能を達成する。 我々は、MOTS R-CNNは、それぞれトラックR-CNNと比較して、車と歩行者のアイデンティティスイッチングを$62\%$と$61\%$減少させることを示しています。

One of the central tasks of multi-object tracking involves learning a distance metric that is consistent with the semantic similarities of objects. The design of an appropriate loss function that encourages discriminative feature learning is among the most crucial challenges in deep neural network-based metric learning. Despite significant progress, slow convergence and a poor local optimum of the existing contrastive and triplet loss based deep metric learning methods necessitates a better solution. In this paper, we propose cosine-margin-contra stive (CMC) and cosine-margin-triple t (CMT) loss by reformulating both contrastive and triplet loss functions from the perspective of cosine distance. The proposed reformulation as a cosine loss is achieved by feature normalization which distributes the learned features on a hypersphere. We then propose the MOTS R-CNN framework for joint multi-object tracking and segmentation, particularly targeted at improving the tracking performance. Specifically, the tracking problem is addressed through deep metric learning based on the proposed loss functions. We propose a scale-invariant tracking by using a multi-layer feature aggregation scheme to make the model robust against object scale variations and occlusions. The MOTS R-CNN achieves the state-of-the-art tracking performance on the KITTI MOTS dataset. We show that the MOTS R-CNN reduces the identity switching by $62\%$ and $61\%$ on cars and pedestrians, respectively in comparison to Track R-CNN.
翻訳日:2021-02-11 08:08:34 公開日:2021-02-06
# (参考訳) タスクのスケジューリング計画 [全文訳有]

Scheduling Plans of Tasks ( http://arxiv.org/abs/2102.03555v1 )

ライセンス: CC BY 4.0
Davide Andrea Guastella(参考訳) 本稿では,タスク計画のスケジューリング問題に対するヒューリスティックなアルゴリズムを提案する。 計画はタスクの順序ベクトルであり、タスクはリソースによって実行される基本的な操作です。 計画には時間的、優先的、資源的制約が関係しており、スケジューリング問題を多項式時間で解くのが難しい。 提案するヒューリスティックは、多項式の最悪の場合の複雑性を持ち、時間的、優先的、資源的制約に関して、スケジュールされた計画の数を最大化する実現可能なスケジュールを探索する。

We present a heuristic algorithm for solving the problem of scheduling plans of tasks. The plans are ordered vectors of tasks, and tasks are basic operations carried out by resources. Plans are tied by temporal, precedence and resource constraints that makes the scheduling problem hard to solve in polynomial time. The proposed heuristic, that has a polynomial worst-case time complexity, searches for a feasible schedule that maximize the number of plans scheduled, along a fixed time window, with respect to temporal, precedence and resource constraints.
翻訳日:2021-02-11 07:26:12 公開日:2021-02-06
# (参考訳) コンピュータgoのモデルと検索の改善 [全文訳有]

Improving Model and Search for Computer Go ( http://arxiv.org/abs/2102.03467v1 )

ライセンス: CC BY 4.0
Tristan Cazenave(参考訳) alpha zeroに続くゲームにおける深層強化学習の標準は、残差ネットワークを使用し、より良い結果を得るためにネットワークの深さを高めることである。 残存ネットワークの代替としてモバイルネットワークの改善を提案し、ネットワークの幅と深さの両方に応じて、ネットワークの再生強度を実験的に示します。 また,PUCTを改良したPUCT探索アルゴリズムの一般化を提案する。

The standard for Deep Reinforcement Learning in games, following Alpha Zero, is to use residual networks and to increase the depth of the network to get better results. We propose to improve mobile networks as an alternative to residual networks and experimentally show the playing strength of the networks according to both their width and their depth. We also propose a generalization of the PUCT search algorithm that improves on PUCT.
翻訳日:2021-02-11 07:02:15 公開日:2021-02-06
# (参考訳) 彼は勝つのか、うなずくのか? 言語モデルの単語理解評価のための挑戦的ベンチマーク [全文訳有]

Does He Wink or Does He Nod? A Challenging Benchmark for Evaluating Word Understanding of Language Models ( http://arxiv.org/abs/2102.03596v1 )

ライセンス: CC BY 4.0
Lutfi Kerem Senel and Hinrich Sch\"utze(参考訳) 大規模コーパス上での言語モデルの事前学習の進歩は、多くのnlpタスクで大きなパフォーマンス向上をもたらした。 これらの大規模モデルは事前訓練中に言語知識を取得し、微調整により下流タスクのパフォーマンスを向上させる。 どのような知識が取得されているかを評価するために、言語モデルは一般に「空欄に埋める」スタイルのクローゼ質問でクエリすることによって調査される。 既存の探索データセットは、主に単語と実体の関係に関する知識に焦点を当てている。 WDLMPro(Word Definition Language Model Probing)を導入し、単語の辞書定義を用いて単語理解を直接評価する。 私たちの実験では、3つの一般的な学習済み言語モデルが単語とその定義と一致するのに苦労しています。 これは、多くの単語が理解できないこと、そして我々の新しい探索タスクが、将来のLMの研究をガイドする上で難しい課題であることを示している。

Recent progress in pretraining language models on large corpora has resulted in large performance gains on many NLP tasks. These large models acquire linguistic knowledge during pretraining, which helps to improve performance on downstream tasks via fine-tuning. To assess what kind of knowledge is acquired, language models are commonly probed by querying them with `fill in the blank' style cloze questions. Existing probing datasets mainly focus on knowledge about relations between words and entities. We introduce WDLMPro (Word Definition Language Model Probing) to evaluate word understanding directly using dictionary definitions of words. In our experiments, three popular pretrained language models struggle to match words and their definitions. This indicates that they understand many words poorly and that our new probing task is a difficult challenge that could help guide research on LMs in the future.
翻訳日:2021-02-11 06:00:40 公開日:2021-02-06
# (参考訳) LM-based Text Augmentationを用いたニューラルデータ・トゥ・テキスト生成 [全文訳有]

Neural Data-to-Text Generation with LM-based Text Augmentation ( http://arxiv.org/abs/2102.03556v1 )

ライセンス: CC BY 4.0
Ernie Chang, Xiaoyu Shen, Dawei Zhu, Vera Demberg, Hui Su(参考訳) データ-テキスト生成のための多くの新しいアプリケーションドメインでは、ニューラルネットワークモデルのトレーニングの主な障害は、トレーニングデータの欠如である。 通常、データ側では大量のインスタンスが利用できるが、多くの場合、ごくわずかなテキストサンプルしか利用できない。 この問題に対処するために,本稿では,この設定に対する新しい小切手アプローチを提案する。 提案手法は,(i)同一カテゴリから特定の値に置き換えた新たなテキストサンプルを生成すること,(ii)GPT-2に基づく新しいテキストサンプルを生成すること,(iii)新しいテキストサンプルとデータサンプルをペアリングする自動手法を提案することによって,トレーニング用データを自動的に増強する。 テキスト増補はトレーニングデータにノイズを生じさせるため、与えられたデータサンプルがテキストとして整形された後に正しく再構成可能であること(そして、テキストサンプルがデータから再構成可能であること)を確認するために、サイクル一貫性を目的とする。 E2EとWebNLGの両方のベンチマークでは、この弱い教師付きトレーニングパラダイムが10%未満のアノテーションで完全に監督されたseq2seqモデルより優れていることを示しています。 すべての注釈付きデータを活用することで、標準 seq2seq モデルのパフォーマンスを 5 以上の BLEU ポイントで向上させ、両方のデータセットに新しい最新技術を確立します。

For many new application domains for data-to-text generation, the main obstacle in training neural models consists of a lack of training data. While usually large numbers of instances are available on the data side, often only very few text samples are available. To address this problem, we here propose a novel few-shot approach for this setting. Our approach automatically augments the data available for training by (i) generating new text samples based on replacing specific values by alternative ones from the same category, (ii) generating new text samples based on GPT-2, and (iii) proposing an automatic method for pairing the new text samples with data samples. As the text augmentation can introduce noise to the training data, we use cycle consistency as an objective, in order to make sure that a given data sample can be correctly reconstructed after having been formulated as text (and that text samples can be reconstructed from data). On both the E2E and WebNLG benchmarks, we show that this weakly supervised training paradigm is able to outperform fully supervised seq2seq models with less than 10% annotations. By utilizing all annotated data, our model can boost the performance of a standard seq2seq model by over 5 BLEU points, establishing a new state-of-the-art on both datasets.
翻訳日:2021-02-11 05:52:43 公開日:2021-02-06
# (参考訳) トレーニングサンプルの順序は重要ですか? カリキュラム学習によるニューラルデータ対テキスト生成の改善 [全文訳有]

Does the Order of Training Samples Matter? Improving Neural Data-to-Text Generation with Curriculum Learning ( http://arxiv.org/abs/2102.03554v1 )

ライセンス: CC BY 4.0
Ernie Chang, Hui-Syuan Yeh, Vera Demberg(参考訳) 最近のデータ・トゥ・テキスト生成の進歩は、主にニューラルネットワークのエンド・ツー・エンド・システムの形態をとっている。 カリキュラム学習と呼ばれるプロセスでサンプルをトレーニングする順序を変えることで、テキスト生成システムの改善に尽力しています。 シーケンス間学習に関する過去の研究では、カリキュラム学習がパフォーマンスと収束速度の両方を改善するのに役立つことが示された。 本研究では,構造化データとテキストペアからなるトレーニングサンプルを取り囲む同じアイデアを検討し,各更新において,カリキュラムフレームワークがモデルの能力に基づいてトレーニングサンプルを選択する。 具体的には,様々な難易度尺度を実験し,ソフトな編集距離尺度をトレーニングサンプルのランク付けに用いた。 ベンチマークでは,トレーニング時間を38.7%削減し,性能を4.84BLEUで向上する,より高速な収束速度を示す。

Recent advancements in data-to-text generation largely take on the form of neural end-to-end systems. Efforts have been dedicated to improving text generation systems by changing the order of training samples in a process known as curriculum learning. Past research on sequence-to-sequence learning showed that curriculum learning helps to improve both the performance and convergence speed. In this work, we delve into the same idea surrounding the training samples consisting of structured data and text pairs, where at each update, the curriculum framework selects training samples based on the model's competence. Specifically, we experiment with various difficulty metrics and put forward a soft edit distance metric for ranking training samples. Our benchmarks show faster convergence speed where training time is reduced by 38.7% and performance is boosted by 4.84 BLEU.
翻訳日:2021-02-11 05:36:58 公開日:2021-02-06
# (参考訳) 人工ニューラルネットワークのノイズ最適化 [全文訳有]

Noise Optimization for Artificial Neural Networks ( http://arxiv.org/abs/2102.04450v1 )

ライセンス: CC BY 4.0
Li Xiao, Zeliang Zhang, Yijie Peng(参考訳) 人工ニューラルネットワーク(ANN)にノイズを加えることで、以前の研究で堅牢性が向上することが示されている。 本研究では,ANNの各ニューロンに付加されるガウス雑音の標準偏差に対して,パスワイズ確率勾配推定を計算するための新しい手法を提案する。 提案手法により, 騒音レベルに対する勾配推定は, ANN のシナプス重みに対する勾配を推定するためのバックプロパゲーションアルゴリズムの副産物である。 したがって、シナプス重みをほとんど計算コストなしで訓練する処理において、各ニューロンのノイズレベルを同時に最適化することができる。 提案手法は,様々なコンピュータビジョンデータセットでテストされたブラックボックスとホワイトボックスの両方の攻撃下で,いくつかの一般的なANN構造の堅牢性を大幅に向上させることができる。

Adding noises to artificial neural network(ANN) has been shown to be able to improve robustness in previous work. In this work, we propose a new technique to compute the pathwise stochastic gradient estimate with respect to the standard deviation of the Gaussian noise added to each neuron of the ANN. By our proposed technique, the gradient estimate with respect to noise levels is a byproduct of the backpropagation algorithm for estimating gradient with respect to synaptic weights in ANN. Thus, the noise level for each neuron can be optimized simultaneously in the processing of training the synaptic weights at nearly no extra computational cost. In numerical experiments, our proposed method can achieve significant performance improvement on robustness of several popular ANN structures under both black box and white box attacks tested in various computer vision datasets.
翻訳日:2021-02-10 22:16:26 公開日:2021-02-06
# 集中型文書トピックモデル

Concentrated Document Topic Model ( http://arxiv.org/abs/2102.04449v1 )

ライセンス: Link先を確認
Hao Lei and Ying Chen(参考訳) 本研究では,教師なしテキスト分類のための集中文書トピックモデル(cdtm)を提案する。 特に、文書のトピック分布に指数関数的エントロピーペナルティが課される。 多様なトピック分布を持つドキュメントはよりペナルティが課され、集中したトピックを持つ文書はペナルティが減る。 このモデルをベンチマークNIPSデータセットに適用し、Latent Dirichlet Allocation(LDA)よりもより一貫性のあるトピックと疎密なドキュメントトピック分布を観察する。

We propose a Concentrated Document Topic Model(CDTM) for unsupervised text classification, which is able to produce a concentrated and sparse document topic distribution. In particular, an exponential entropy penalty is imposed on the document topic distribution. Documents that have diverse topic distributions are penalized more, while those having concentrated topics are penalized less. We apply the model to the benchmark NIPS dataset and observe more coherent topics and more concentrated and sparse document-topic distributions than Latent Dirichlet Allocation(LDA).
翻訳日:2021-02-10 15:12:00 公開日:2021-02-06
# Tensor Eigenvalue Decompositionを用いたハイパーエッジ予測

Hyperedge Prediction using Tensor Eigenvalue Decomposition ( http://arxiv.org/abs/2102.04986v1 )

ライセンス: Link先を確認
Deepak Maurya, Balaraman Ravindran(参考訳) グラフにおけるリンク予測は、2つのノード間のdyadic相互作用をモデル化することによって研究される。 この関係は単純なディヤド相互作用よりも複雑であり、ノード間の超ディヤド関連をモデル化する必要がある。 このような相互作用は2つ以上のノードを接続できるグラフの一般化であるハイパーグラフを用いてモデル化することができる。 本研究では,$k-$uniformハイパーグラフにおけるハイパーエッジ予測の問題を考える。 テンソルに基づくハイパーグラフ表現を活用し,テンソル固有ベクトルの新たな解釈を提案する。 これはさらに、ハイパーエッジ予測アルゴリズムの提案に用いられる。 提案アルゴリズムは、ハイパーグラフラプラシアンのテンソル固有値分解を用いて計算したtextit{Fiedler} 固有ベクトルを利用する。 textit{Fiedler} 固有ベクトルは、新しいハイパーエッジの構築コストを評価するために使用され、構築すべき最も確率の高いハイパーエッジを決定するためにさらに利用される。 提案手法の機能と有効性は,いくつかのハイパーグラフといくつかの実データセットを用いて示す。 提案されたメソッドのコードはhttps://github.com/d -maurya/hypred_ tensorEVDで入手できる。

Link prediction in graphs is studied by modeling the dyadic interactions among two nodes. The relationships can be more complex than simple dyadic interactions and could require the user to model super-dyadic associations among nodes. Such interactions can be modeled using a hypergraph, which is a generalization of a graph where a hyperedge can connect more than two nodes. In this work, we consider the problem of hyperedge prediction in a $k-$uniform hypergraph. We utilize the tensor-based representation of hypergraphs and propose a novel interpretation of the tensor eigenvectors. This is further used to propose a hyperedge prediction algorithm. The proposed algorithm utilizes the \textit{Fiedler} eigenvector computed using tensor eigenvalue decomposition of hypergraph Laplacian. The \textit{Fiedler} eigenvector is used to evaluate the construction cost of new hyperedges, which is further utilized to determine the most probable hyperedges to be constructed. The functioning and efficacy of the proposed method are illustrated using some example hypergraphs and a few real datasets. The code for the proposed method is available on https://github.com/d -maurya/hypred_ tensorEVD
翻訳日:2021-02-10 14:49:42 公開日:2021-02-06
# (参考訳) オフポリシー評価のためのブートストラップ統計推論 [全文訳有]

Bootstrapping Statistical Inference for Off-Policy Evaluation ( http://arxiv.org/abs/2102.03607v1 )

ライセンス: CC BY 4.0
Botao Hao, Xiang (Jack) Ji, Yaqi Duan, Hao Lu, Csaba Szepesv\'ari, Mengdi Wang(参考訳) ブートストラッピングは、バッチ強化学習の品質を評価するための柔軟で効果的なアプローチを提供するが、その理論的性質は理解されていない。 本稿では,オフ・ポリシー評価(ope)におけるブートストラップの使用について検討し,特に,表型および線形モデルにおいて最小最適であることが知られているq値評価(fqe)に着目した。 本稿では,政策評価誤差の分布を推定するブートストラップFQE法を提案し,この手法が漸近的に効率的で,非政治的な統計的推測に一貫性があることを示す。 ブートストラップの計算限界を克服するため,実行時間を大幅に改善するサブサンプリング手法を更に適用する。 信頼区間推定のための古典的rl環境におけるブートラッピング法を数値的に評価し,オフポリシ評価器の分散を推定し,複数のオフポリシ評価器間の相関関係を推定した。

Bootstrapping provides a flexible and effective approach for assessing the quality of batch reinforcement learning, yet its theoretical property is less understood. In this paper, we study the use of bootstrapping in off-policy evaluation (OPE), and in particular, we focus on the fitted Q-evaluation (FQE) that is known to be minimax-optimal in the tabular and linear-model cases. We propose a bootstrapping FQE method for inferring the distribution of the policy evaluation error and show that this method is asymptotically efficient and distributionally consistent for off-policy statistical inference. To overcome the computation limit of bootstrapping, we further adapt a subsampling procedure that improves the runtime by an order of magnitude. We numerically evaluate the bootrapping method in classical RL environments for confidence interval estimation, estimating the variance of off-policy evaluator, and estimating the correlation between multiple off-policy evaluators.
翻訳日:2021-02-10 12:47:49 公開日:2021-02-06
# (参考訳) 進化するグラフの高次構造を理解する:単純複素数に基づくカーネル推定アプローチ

Understanding Higher-order Structures in Evolving Graphs: A Simplicial Complex based Kernel Estimation Approach ( http://arxiv.org/abs/2102.03609v1 )

ライセンス: CC BY 4.0
Manohar Kaul and Masaaki Imaizumi(参考訳) 動的グラフは、生物ネットワークにおける共著者関係やタンパク質-タンパク質相互作用のような、自然に2つ以上のノード間で発生する高次相互作用を持つ。 このような高次相互作用のユビキタスな存在にもかかわらず、人気のあるペアワイズリンク予測問題の高次対応に限られた注意が払われています。 既存の高階構造予測法は主にヒューリスティックな特徴抽出法に基づいており、実際はうまく機能するが理論的な保証がない。 このようなヒューリスティックスは主に、グラフの静的スナップショットにおけるリンクの予測に重点を置いている。 さらに、これらのヒューリスティックベースの方法は、高階構造の中に既に存在する潜在部分構造に関する知識を効果的に利用し、恩恵を受けることができない。 本稿では,高次相互作用を‘textit{simplices}’と簡潔に捉え,その近傍を顔ベクトルでモデル化し,時間的プロセス(グラフスナップショットのシーケンス)の観点から進化するグラフを見るための非パラメトリックカーネル推定器を開発することにより,これらの障害を克服する。 提案手法は,いくつかのベースライン高次予測法より大幅に優れる。 理論的な成果として,Stein 法を用いた推定器の Wasserstein 距離の観点から,整合性と無症状の正規性を証明した。

Dynamic graphs are rife with higher-order interactions, such as co-authorship relationships and protein-protein interactions in biological networks, that naturally arise between more than two nodes at once. In spite of the ubiquitous presence of such higher-order interactions, limited attention has been paid to the higher-order counterpart of the popular pairwise link prediction problem. Existing higher-order structure prediction methods are mostly based on heuristic feature extraction procedures, which work well in practice but lack theoretical guarantees. Such heuristics are primarily focused on predicting links in a static snapshot of the graph. Moreover, these heuristic-based methods fail to effectively utilize and benefit from the knowledge of latent substructures already present within the higher-order structures. In this paper, we overcome these obstacles by capturing higher-order interactions succinctly as \textit{simplices}, model their neighborhood by face-vectors, and develop a nonparametric kernel estimator for simplices that views the evolving graph from the perspective of a time process (i.e., a sequence of graph snapshots). Our method substantially outperforms several baseline higher-order prediction methods. As a theoretical achievement, we prove the consistency and asymptotic normality in terms of the Wasserstein distance of our estimator using Stein's method.
翻訳日:2021-02-10 07:38:04 公開日:2021-02-06
# (参考訳) COVIDHunter: 正確で柔軟で環境にやさしいオープンソースのCOVID-19アウトブレイクシミュレーションモデル [全文訳有]

COVIDHunter: An Accurate, Flexible, and Environment-Aware Open-Source COVID-19 Outbreak Simulation Model ( http://arxiv.org/abs/2102.03667v1 )

ライセンス: CC BY 4.0
Mohammed Alser, Jeremie S. Kim, Nour Almadhoun Alserr, Stefan W. Tell, Onur Mutlu(参考訳) モチベーション:covid-19患者の早期発見と隔離は、緩和戦略の実行に成功し、最終的には感染拡大を抑制するために不可欠である。 新型コロナウイルスの感染拡大と緩和戦略の潜在的な効果をシミュレートし、各国で毎日実施される新型コロナウイルス19検査は、現在、ヘルスケアシステムの管理と政策立案者の指導において最も効果的な方法の1つです。 新型コロナの感染シミュレーションモデルであるCOVIDHunterを紹介します。これは、地域に適用される現在の緩和策を評価し、今後の緩和措置の強さについて提案します。 COVIDHunterの重要なアイデアは、環境条件(例えば、気候、温度、湿度)や緩和措置などの外部要因の影響を考慮して、感染者による新しい感染の平均数をシミュレートすることによって、地域におけるCOVID-19の拡散を定量化することです。 結果: スイスをケーススタディとして、COVIDHunterは、需要が既存の病院の容量を超えるのを防ぐために、政策立案者は現在の緩和措置を少なくとも30日間維持する必要があると見積もっている。 30日間の緩和措置を50%緩和すると、病院のベッドに必要な日量と、ICUのベッドと人工呼吸器を一定期間占有できる平均23.8倍の日数の両方が指数関数的に増加する。 既存のモデルとは異なり、COVIDHunterモデルは、COVID-19による症例、入院、死亡の日数を正確に監視および予測します。 本モデルは,環境条件や緩和対策の異なるシナリオをモデル化するための構成や変更が容易である。 可用性: https://github.com/C MU-SAFARI/COVIDHunte r

Motivation: Early detection and isolation of COVID-19 patients are essential for successful implementation of mitigation strategies and eventually curbing the disease spread. With a limited number of daily COVID19 tests performed in every country, simulating the COVID-19 spread along with the potential effect of each mitigation strategy currently remains one of the most effective ways in managing the healthcare system and guiding policy-makers. We introduce COVIDHunter, a flexible and accurate COVID-19 outbreak simulation model that evaluates the current mitigation measures that are applied to a region and provides suggestions on what strength the upcoming mitigation measure should be. The key idea of COVIDHunter is to quantify the spread of COVID-19 in a geographical region by simulating the average number of new infections caused by an infected person considering the effect of external factors, such as environmental conditions (e.g., climate, temperature, humidity) and mitigation measures. Results: Using Switzerland as a case study, COVIDHunter estimates that the policy-makers need to keep the current mitigation measures for at least 30 days to prevent demand from quickly exceeding existing hospital capacity. Relaxing the mitigation measures by 50% for 30 days increases both the daily capacity need for hospital beds and daily number of deaths exponentially by an average of 23.8x, who may occupy ICU beds and ventilators for a period of time. Unlike existing models, the COVIDHunter model accurately monitors and predicts the daily number of cases, hospitalizations, and deaths due to COVID-19. Our model is flexible to configure and simple to modify for modeling different scenarios under different environmental conditions and mitigation measures. Availability: https://github.com/C MU-SAFARI/COVIDHunte r
翻訳日:2021-02-10 02:44:08 公開日:2021-02-06
# (参考訳) シングル・マルチレートpcenを用いた都市音声の音響イベント検出 [全文訳有]

Sound Event Detection in Urban Audio With Single and Multi-Rate PCEN ( http://arxiv.org/abs/2102.03468v1 )

ライセンス: CC BY 4.0
Christopher Ick, Brian McFee(参考訳) 最近の文献では、チャンネルごとのエネルギー正規化(PCEN)の使用は、重複したイベントを持つマルチクラス設定における音響音響イベント検出(SED)における従来のログスケールメル周波数分光法よりも有意な性能改善を有することを実証している。 しかし、PCENのパラメータの設定は、記録環境、興味のあるイベントのクラスの特徴、重複する複数のイベントの存在に敏感である。 これはクラスごとに改善されるが、クラス間のパフォーマンスは劣る。 本稿では,都市音声におけるSEDの代替手法としてPCENスペクトログラムを用いてUrbanSEDデータセットを用いて実験を行い,パラメータ設定に基づくクラスごとの改善を示す。 さらに,新しい手法であるMulti-Rate PCEN (MRPCEN) を用いて,PCENを用いたクラス間性能について検討する。 MRPCENによるクラス間SED性能の実証を行い、従来のシングルレートPCENと比較してクラス間性能の改善を示す。

Recent literature has demonstrated that the use of per-channel energy normalization (PCEN), has significant performance improvements over traditional log-scaled mel-frequency spectrograms in acoustic sound event detection (SED) in a multi-class setting with overlapping events. However, the configuration of PCEN's parameters is sensitive to the recording environment, the characteristics of the class of events of interest, and the presence of multiple overlapping events. This leads to improvements on a class-by-class basis, but poor cross-class performance. In this article, we experiment using PCEN spectrograms as an alternative method for SED in urban audio using the UrbanSED dataset, demonstrating per-class improvements based on parameter configuration. Furthermore, we address cross-class performance with PCEN using a novel method, Multi-Rate PCEN (MRPCEN). We demonstrate cross-class SED performance with MRPCEN, demonstrating improvements to cross-class performance compared to traditional single-rate PCEN.
翻訳日:2021-02-10 02:17:35 公開日:2021-02-06
# (参考訳) 極端学習:回帰問題におけるニューラルネットワークの出力の最大化 [全文訳有]

Extremal learning: extremizing the output of a neural network in regression problems ( http://arxiv.org/abs/2102.03626v1 )

ライセンス: CC BY 4.0
Zakaria Patel and Markus Rummel(参考訳) ニューラルネットワークは変数間の複雑な関係をモデル化する。 回帰問題において、訓練されたニューラルネットワークの極端を効率的に見つける方法を示す。 近似モデルの過大入力を求めることは、過大な入力が達成された場合に最小となる損失関数を持つ追加のニューラルネットワークのトレーニングとして定式化される。 さらに, 入力ベクトルに制約を加える方法として, 入力ベクトルを元のトレーニングデータセットから外挿することを制限することを挙げる。 TensorFlowを使ったこのアプローチの指導例が挙げられます。

Neural networks allow us to model complex relationships between variables. We show how to efficiently find extrema of a trained neural network in regression problems. Finding the extremizing input of an approximated model is formulated as the training of an additional neural network with a loss function that minimizes when the extremizing input is achieved. We further show how to incorporate additional constraints on the input vector such as limiting the extrapolation of the extremizing input vector from the original training data set. An instructional example of this approach using TensorFlow is included.
翻訳日:2021-02-09 22:09:22 公開日:2021-02-06
# (参考訳) 自動QRS複合検出のための変更点解析に基づくグレディグラフ探索アルゴリズム [全文訳有]

A Greedy Graph Search Algorithm Based on Changepoint Analysis for Automatic QRS Complex Detection ( http://arxiv.org/abs/2102.03538v1 )

ライセンス: CC BY 4.0
Atiyeh Fotoohinasab, Toby Hocking, Fatemeh Afghah(参考訳) 心電図(ECG)信号は、心血管疾患の研究において最も広く用いられる非侵襲的ツールである。 ECGファイドシャルポイント、特にRピークの自動デライン化は、ECG処理および分析の基礎として機能します。 本研究では,GCCD(Graph-Constrai ned Changepoint Detection)モデルと呼ばれる,最適な変化点検出モデルに基づく新しいグラフィカルモデルを導入することにより,ECG信号解析の新しい手法を提案する。 GCCDモデルは、変化点検出問題として、非定常ECG信号におけるフィデューシャル・ポイント・デラインメントを扱います。 提案モデルでは,ECG信号内の急激な変化を検出するために,変更点の空間性を利用して,前処理ステップからRピーク検出タスクを緩和する。 この新しいアプローチでは、期待される変更列に関する事前の生物学的知識が制約グラフを使用してモデルに組み込まれ、手動または自動で定義できる。 まず,制約グラフを手動で定義し,その上で,最適グラフをグリード方式で探索するグラフ学習アルゴリズムを提案する。 最後に,手動で定義したグラフと学習したグラフを,グラフ構造と検出精度の観点から比較する。 MIT-BIH Arrhythmia Database を用いたアルゴリズムの性能評価を行った。 提案モデルでは, 総合感度99.64%, 正予測率99.71%, 検出誤差率0.19, 総合感度99.76%, 正予測率99.68%, 自動学習制約グラフの検出誤差率0.55が得られる。

The electrocardiogram (ECG) signal is the most widely used non-invasive tool for the investigation of cardiovascular diseases. Automatic delineation of ECG fiducial points, in particular the R-peak, serves as the basis for ECG processing and analysis. This study proposes a new method of ECG signal analysis by introducing a new class of graphical models based on optimal changepoint detection models, named the graph-constrained changepoint detection (GCCD) model. The GCCD model treats fiducial points delineation in the non-stationary ECG signal as a changepoint detection problem. The proposed model exploits the sparsity of changepoints to detect abrupt changes within the ECG signal; thereby, the R-peak detection task can be relaxed from any preprocessing step. In this novel approach, prior biological knowledge about the expected sequence of changes is incorporated into the model using the constraint graph, which can be defined manually or automatically. First, we define the constraint graph manually; then, we present a graph learning algorithm that can search for an optimal graph in a greedy scheme. Finally, we compare the manually defined graphs and learned graphs in terms of graph structure and detection accuracy. We evaluate the performance of the algorithm using the MIT-BIH Arrhythmia Database. The proposed model achieves an overall sensitivity of 99.64%, positive predictivity of 99.71%, and detection error rate of 0.19 for the manually defined constraint graph and overall sensitivity of 99.76%, positive predictivity of 99.68%, and detection error rate of 0.55 for the automatic learning constraint graph.
翻訳日:2021-02-09 21:58:20 公開日:2021-02-06
# (参考訳) 熱結合蒸留におけるニューラルネットワークアルゴリズムのシミュレーション制御に関する研究 [全文訳有]

Study on the simulation control of neural network algorithm in thermally coupled distillation ( http://arxiv.org/abs/2102.03506v1 )

ライセンス: CC BY 4.0
ZhaoLan Zheng, Yu Qi(参考訳) 熱結合蒸留は新しい省エネ法であるが、従来の熱結合蒸留シミュレーションの計算プロセスは複雑であり、従来のシミュレーションプロセスに基づく最適化法は、良好な解を得るのが困難である。 ニューラルネットワークアルゴリズムは高速学習の利点を持ち、非線形関数に任意にアプローチすることができる。 複雑なプロセス制御系の問題に対して、ニューラルネットワーク制御は複雑な制御構造や正確な数学的モデルを必要としない。 ネットワークをトレーニングする際には、必要な入力と出力のサンプルのみが与えられるので、システムのダイナミクスを制御できる。 パフォーマンスが近づいています。 この方法は、熱結合蒸留プロセスの数学的モデルを効果的に解き、最適化変数と目的関数の解を迅速に得ることができる。 本稿では, 人工ニューラルネットワークの研究の進展と熱結合蒸留の最適化制御, および熱結合蒸留におけるニューラルネットワークの適用について要約する。

Thermally coupled distillation is a new energy-saving method, but the traditional thermally coupled distillation simulation calculation process is complicated, and the optimization method based on the traditional simulation process is difficult to obtain a good feasible solution. The neural network algorithm has the advantages of fast learning and can approach nonlinear functions arbitrarily. For the problems in complex process control systems, neural network control does not require cumbersome control structures or precise mathematical models. When training the network, only the input and output samples it needs are given, so that the dynamics of the system can be controlled. Performance is approaching. This method can effectively solve the mathematical model of the thermally coupled distillation process, and quickly obtain the solution of the optimized variables and the objective function. This article summarizes the research progress of artificial neural network and the optimization control of thermally coupled distillation and the application of neural network in thermally coupled distillation.
翻訳日:2021-02-09 20:59:10 公開日:2021-02-06
# (参考訳) 自動音声認識のためのカリキュラム生成へのbanditアプローチ [全文訳有]

A bandit approach to curriculum generation for automatic speech recognition ( http://arxiv.org/abs/2102.03662v1 )

ライセンス: CC BY-SA 4.0
Anastasia Kuznetsova and Anurag Kumar and Francis M. Tyers(参考訳) ASR(Automated Speech Recognition)タスクは、特に低データシナリオにおいて、音声のサンプルがほとんどない難しい領域である。 これは、低リソースまたは限界言語のデータに関するASRシステムのトレーニングの主な問題です。 本論文では,自動カリキュラム学習と強化学習にインスパイアされた敵対的バンディットアプローチを組み合わせることで,トレーニングデータの不足を緩和する手法を提案する。 このアプローチの目的は、難易度レベルによってランク付けされたミニバッチのトレーニングシーケンスを最適化し、ASRのパフォーマンスメトリクスをランダムなトレーニングシーケンスと離散的なカリキュラムと比較することです。 我々は、真にローソースな言語でこのアプローチをテストし、banditフレームワークがベースライン転送学習モデルよりも優れた改善があることを示す。

The Automated Speech Recognition (ASR) task has been a challenging domain especially for low data scenarios with few audio examples. This is the main problem in training ASR systems on the data from low-resource or marginalized languages. In this paper we present an approach to mitigate the lack of training data by employing Automated Curriculum Learning in combination with an adversarial bandit approach inspired by Reinforcement learning. The goal of the approach is to optimize the training sequence of mini-batches ranked by the level of difficulty and compare the ASR performance metrics against the random training sequence and discrete curriculum. We test our approach on a truly low-resource language and show that the bandit framework has a good improvement over the baseline transfer-learning model.
翻訳日:2021-02-09 20:01:01 公開日:2021-02-06
# (参考訳) 強化学習に基づく戦略と適応的戦略切り替え機構を備えた自律交渉エージェントフレームワーク [全文訳有]

An Autonomous Negotiating Agent Framework with Reinforcement Learning Based Strategies and Adaptive Strategy Switching Mechanism ( http://arxiv.org/abs/2102.03588v1 )

ライセンス: CC BY 4.0
Ayan Sengupta, Yasser Mohammad, Shinji Nakadai(参考訳) 文学における豊富な交渉戦略にもかかわらず、自動化された交渉の複雑さは、異なる交渉シナリオで他のすべてに対して支配的であるから単一の戦略を妨げます。 これを克服するための一つのアプローチは、専門家の混合を使うというものであるが、同時に、この方法の問題は専門家の選択であり、このアプローチは、選択した専門家の能力によって制限される。 ほとんどの交渉戦略のもう1つの問題は、単一の交渉セッションで相手の行動のダイナミックな変化に適応することができず、結果的にパフォーマンスが低下することである。 本研究は,専門家選択の問題を解決することと,自律交渉エージェントフレームワークを用いて相手の行動に適応することの両方に焦点を当てている。 このフレームワークは、相手の行動をリアルタイムで分類し、単一の交渉セッション内で戦略を選択、切り替え、または組み合わせるメカニズムを提供します。 さらに,新しい戦略を含めるか,古い戦略を定期的により良い戦略に置き換えるかを決めることで,自己啓発機能を実現するレビュアーコンポーネントも備えている。 本稿では,最大エントロピー強化学習に基づく戦略を深層学習に基づく敵分類器を用いて実装し,その実例を示す。 最後に,様々な交渉シナリオ下での最先端の交渉者に対するエージェントの性能を評価する。

Despite abundant negotiation strategies in literature, the complexity of automated negotiation forbids a single strategy from being dominant against all others in different negotiation scenarios. To overcome this, one approach is to use mixture of experts, but at the same time, one problem of this method is the selection of experts, as this approach is limited by the competency of the experts selected. Another problem with most negotiation strategies is their incapability of adapting to dynamic variation of the opponent's behaviour within a single negotiation session resulting in poor performance. This work focuses on both, solving the problem of expert selection and adapting to the opponent's behaviour with our Autonomous Negotiating Agent Framework. This framework allows real-time classification of opponent's behaviour and provides a mechanism to select, switch or combine strategies within a single negotiation session. Additionally, our framework has a reviewer component which enables self-enhancement capability by deciding to include new strategies or replace old ones with better strategies periodically. We demonstrate an instance of our framework by implementing maximum entropy reinforcement learning based strategies with a deep learning based opponent classifier. Finally, we evaluate the performance of our agent against state-of-the-art negotiators under varied negotiation scenarios.
翻訳日:2021-02-09 19:02:49 公開日:2021-02-06
# (参考訳) 病院における緊急部門最適化と負荷予測 [全文訳有]

Emergency Department Optimization and Load Prediction in Hospitals ( http://arxiv.org/abs/2102.03672v1 )

ライセンス: CC BY 4.0
Karthik K. Padthe, Vikas Kumar, Carly M. Eckert, Nicholas M. Mark, Anam Zahid, Muhammad Aurangzeb Ahmad, Ankur Teredesai(参考訳) 過去数年間、世界中で、救急部門(ED)でケアを求める人々が増加しています。 看護スタッフを含むEDリソースは、そのような患者数の増加に悩まされている。 救急部門における患者容積の正確な予測は, ed資源の効率的な活用と配分に不可欠である。 我々は,太平洋岸北西部の郊外のEDと共同で,ED到着率とED患者数を予測する機械学習モデルを用いたツールを開発し,ED看護師などのエンドユーザの資源配分を支援した。 本論文では,私たちの予測モデルから得られた結果,課題,および実世界での臨床展開におけるツールを用いたユーザの経験から得られる学習について考察する。

Over the past several years, across the globe, there has been an increase in people seeking care in emergency departments (EDs). ED resources, including nurse staffing, are strained by such increases in patient volume. Accurate forecasting of incoming patient volume in emergency departments (ED) is crucial for efficient utilization and allocation of ED resources. Working with a suburban ED in the Pacific Northwest, we developed a tool powered by machine learning models, to forecast ED arrivals and ED patient volume to assist end-users, such as ED nurses, in resource allocation. In this paper, we discuss the results from our predictive models, the challenges, and the learnings from users' experiences with the tool in active clinical deployment in a real world setting.
翻訳日:2021-02-09 17:27:11 公開日:2021-02-06
# (参考訳) 時系列分類のためのDeep Semi-Supervised Learning [全文訳有]

Deep Semi-Supervised Learning for Time Series Classification ( http://arxiv.org/abs/2102.03622v1 )

ライセンス: CC BY 4.0
Jann Goschenhofer, Rasmus Hvingelby, David R\"ugamer, Janek Thomas, Moritz Wagner, Bernd Bischl(参考訳) 半教師付き学習は画像データに対するコンピュータビジョンにおいて注目されているが、時系列領域での応用性については限定的な研究がある。 本研究では,現在最先端の半教師付きモデルの画像・時系列分類における転送可能性について検討する。 必要なモデル適応、特に適切なモデルバックボーンアーキテクチャ、および調整済みデータ拡張戦略の使用について論じる。 これらの適応に基づいて,ラベル付きサンプルの量が異なる大規模公開時系列分類問題に対して,提案手法を評価し,時系列分類の文脈における深い半教師付き学習の可能性を検討する。 我々は,検討対象のアルゴリズムを統一的に再実装した,決定的に現実的で適切な評価手法の下で,広範囲な比較を行う。 特にラベル付きサンプルの少ないシナリオでは,転送された半教師付きモデルが,強い教師付き,半教師付き,自己教師付きモデルに比べて有意な性能向上を示すことが判明した。

While Semi-supervised learning has gained much attention in computer vision on image data, yet limited research exists on its applicability in the time series domain. In this work, we investigate the transferability of state-of-the-art deep semi-supervised models from image to time series classification. We discuss the necessary model adaptations, in particular an appropriate model backbone architecture and the use of tailored data augmentation strategies. Based on these adaptations, we explore the potential of deep semi-supervised learning in the context of time series classification by evaluating our methods on large public time series classification problems with varying amounts of labelled samples. We perform extensive comparisons under a decidedly realistic and appropriate evaluation scheme with a unified reimplementation of all algorithms considered, which is yet lacking in the field. We find that these transferred semi-supervised models show significant performance gains over strong supervised, semi-supervised and self-supervised alternatives, especially for scenarios with very few labelled samples.
翻訳日:2021-02-09 17:16:52 公開日:2021-02-06
# 失属性グラフ上のwasserstein拡散

Wasserstein diffusion on graphs with missing attributes ( http://arxiv.org/abs/2102.03450v1 )

ライセンス: Link先を確認
Zhixian Chen, Tengfei Ma, Yangqiu Song, Yang Wang(参考訳) ノード属性の欠落は、現実世界のグラフでよくある問題です。 グラフニューラルネットワークはグラフ表現学習において強力であるが、グラフ情報の完全性に大きく依存している。 実際にはパフォーマンスに大きなダメージを与える可能性がある、不完全なノード属性を考える人は少ない。 本稿では,この問題を軽減するために,革新的なノード表現学習フレームワークwasserstein graph diffusion (wgd)を提案する。 特徴インプテーションの代わりに,本手法は欠落グラフから直接ノード表現を学習する。 具体的には、一般的なグラフニューラルネットワークにおけるメッセージパッシングスキーマを属性行列の分解に由来するWasserstein空間に拡張する。 我々は、ノード分類タスクでwgdを2つの設定でテストした。 さらに、WGDは欠落した値を回復し、ユーザーやアイテムのグラフでマトリックス補完の問題に取り組むのに適しています。 両タスクの実験結果は,本手法の優位性を示した。

Missing node attributes is a common problem in real-world graphs. Graph neural networks have been demonstrated powerful in graph representation learning, however, they rely heavily on the completeness of graph information. Few of them consider the incomplete node attributes, which can bring great damage to the performance in practice. In this paper, we propose an innovative node representation learning framework, Wasserstein graph diffusion (WGD), to mitigate the problem. Instead of feature imputation, our method directly learns node representations from the missing-attribute graphs. Specifically, we extend the message passing schema in general graph neural networks to a Wasserstein space derived from the decomposition of attribute matrices. We test WGD in node classification tasks under two settings: missing whole attributes on some nodes and missing only partial attributes on all nodes. In addition, we find WGD is suitable to recover missing values and adapt it to tackle matrix completion problems with graphs of users and items. Experimental results on both tasks demonstrate the superiority of our method.
翻訳日:2021-02-09 16:04:59 公開日:2021-02-06
# バッチ正規化を伴うディープニューラルネットワークにおける確率勾配勾配の入射バイアス

The Implicit Biases of Stochastic Gradient Descent on Deep Neural Networks with Batch Normalization ( http://arxiv.org/abs/2102.03497v1 )

ライセンス: Link先を確認
Ziquan Liu, Yufei Cui, Jia Wan, Yu Mao, Antoni B. Chan(参考訳) バッチ正規化(BN-DNN)を持つディープニューラルネットワークは、正規化操作による重量再スケーリングに不変である。 しかし、重み低下(wd)を用いることは、重みのノルムを減少させる際の効果的な学習率の増加によってしばしば引き起こされる、重みスケール不変ネットワークの恩恵を受ける。 本稿では,前述した説明が不十分であることを示すとともに,bn-dnnsにおける確率的勾配降下(sgd)の暗黙のバイアスを調査し,重量減少の有効性に関する理論的説明を提供する。 BN-DNNにおけるSGDの2つの暗黙バイアスを同定する: 1) SGDトレーニングの重みノルムは、連続時間領域では一定であり、離散時間領域では増加し続ける; 2) SGDは入力特徴の範囲内にあるコンポーネントを更新し、入力特徴に直交するコンポーネントをそのまま残しながら、完全に接続されたネットワークや畳み込みニューラルネットワークにおける重みベクトルを最適化する。 これにより、WDのないSGDは入力特徴幅に直交する重みノイズを蓄積し、そのようなノイズを除去することができない。 我々の実証研究は、重量減衰はSGDが残していない重量雑音を抑制するという仮説を裏付けるものである。 さらに, あるモーメントベースオプティマイザにおけるWDの性能劣化を回避しつつ, 同じ正規化効果を達成するために,ウェイト・リスケーリング(WRS)を用いることを提案する。 画像認識実験の結果,最適化手法やネットワークアーキテクチャによらず,WRSを用いたBN-DNNのトレーニングは,WDと同等あるいは優れた性能を示すことがわかった。 また、他のコンピュータビジョンタスクにおいて、WDと比較してWRSを用いたトレーニングが一般化されていることを示す。

Deep neural networks with batch normalization (BN-DNNs) are invariant to weight rescaling due to their normalization operations. However, using weight decay (WD) benefits these weight-scale-invaria nt networks, which is often attributed to an increase of the effective learning rate when the weight norms are decreased. In this paper, we demonstrate the insufficiency of the previous explanation and investigate the implicit biases of stochastic gradient descent (SGD) on BN-DNNs to provide a theoretical explanation for the efficacy of weight decay. We identity two implicit biases of SGD on BN-DNNs: 1) the weight norms in SGD training remain constant in the continuous-time domain and keep increasing in the discrete-time domain; 2) SGD optimizes weight vectors in fully-connected networks or convolution kernels in convolution neural networks by updating components lying in the input feature span, while leaving those components orthogonal to the input feature span unchanged. Thus, SGD without WD accumulates weight noise orthogonal to the input feature span, and cannot eliminate such noise. Our empirical studies corroborate the hypothesis that weight decay suppresses weight noise that is left untouched by SGD. Furthermore, we propose to use weight rescaling (WRS) instead of weight decay to achieve the same regularization effect, while avoiding performance degradation of WD on some momentum-based optimizers. Our empirical results on image recognition show that regardless of optimization methods and network architectures, training BN-DNNs using WRS achieves similar or better performance compared with using WD. We also show that training with WRS generalizes better compared to WD, on other computer vision tasks.
翻訳日:2021-02-09 16:04:44 公開日:2021-02-06
# ベルンシュタイン型多項式を用いたロバスト正規化フロー

Robust normalizing flows using Bernstein-type polynomials ( http://arxiv.org/abs/2102.03509v1 )

ライセンス: Link先を確認
Sameera Ramasinghe, Kasun Fernando, Salman Khan, Nick Barnes(参考訳) 正規化フロー(NFs)は、正確な密度評価とサンプリングを可能にする生成モデルのクラスである。 三角写像の増加とベルンシュタイン型多項式に基づくNF構築の枠組みを提案する。 既存の(普遍的な)nfフレームワークと比較して,近似誤差の理論的上限,ロバスト性,高い解釈性,コンパクトに支持された密度の適合性,高次多項式をトレーニング不安定に使用する能力など,説得力のあるアドバンテージを提供する。 さらに、既知の変換に対する近似の解析式を与える構成的普遍性証明を提供する。 理論解析を徹底し,実世界および合成データセットの実験を用いて提案手法の有効性を実証する。

Normalizing flows (NFs) are a class of generative models that allows exact density evaluation and sampling. We propose a framework to construct NFs based on increasing triangular maps and Bernstein-type polynomials. Compared to the existing (universal) NF frameworks, our method provides compelling advantages like theoretical upper bounds for the approximation error, robustness, higher interpretability, suitability for compactly supported densities, and the ability to employ higher degree polynomials without training instability. Moreover, we provide a constructive universality proof, which gives analytic expressions of the approximations for known transformations. We conduct a thorough theoretical analysis and empirically demonstrate the efficacy of the proposed technique using experiments on both real-world and synthetic datasets.
翻訳日:2021-02-09 16:04:09 公開日:2021-02-06
# オープンワールド半教師付き学習

Open-World Semi-Supervised Learning ( http://arxiv.org/abs/2102.03526v1 )

ライセンス: Link先を確認
Kaidi Cao, Maria Brbic, Jure Leskovec(参考訳) 教師付きおよび半教師付き学習手法は、ラベル付きトレーニングデータで以前に遭遇したクラスのみを含むという仮定に基づいて、従来からクローズドワールド設定のために設計されてきた。 しかし、現実の世界は本質的にオープンで動的であるため、以前は目に見えないクラスがテストデータやモデル展開中に現れることがある。 ここでは,従来見てきたクラスを認識し,ラベル付きデータセットにない新しいクラスを発見するために,モデルが要求される,新たなオープンワールド半教師付き学習環境を提案する。 そこで本研究では,データの同時分類とクラスタ化を学習するORCAを提案する。 ORCAはラベルなしデータセットの例を以前のクラスに分類するか、類似した例をまとめてグループ化して新しいクラスを形成する。 ORCAの重要なアイデアは、目に見えないクラスと新しいクラス/クラス間の分散の不均衡によって引き起こされるバイアスを効果的に回避する不確実性ベースの適応マージンを導入することです。 ORCAが新しいクラスを正確に発見し、CIFARやImageNetを含むベンチマーク画像分類データセットの以前に見たクラスにサンプルを割り当てることを示した。 注目すべきは、ORCAが難解なタスクを解決したにもかかわらず、シークレットクラスでは半教師付きメソッド、新しいクラスでは新しいクラス発見メソッドが、ImageNetデータセットでは、シークレットクラスと新規クラスでは7%と151%の改善が達成されていることだ。

Supervised and semi-supervised learning methods have been traditionally designed for the closed-world setting based on the assumption that unlabeled test data contains only classes previously encountered in the labeled training data. However, the real world is inherently open and dynamic, and thus novel, previously unseen classes may appear in the test data or during the model deployment. Here, we introduce a new open-world semi-supervised learning setting in which the model is required to recognize previously seen classes, as well as to discover novel classes never seen in the labeled dataset. To tackle the problem, we propose ORCA, an approach that learns to simultaneously classify and cluster the data. ORCA classifies examples from the unlabeled dataset to previously seen classes, or forms a novel class by grouping similar examples together. The key idea in ORCA is in introducing uncertainty based adaptive margin that effectively circumvents the bias caused by the imbalance of variance between seen and novel classes/clusters. We demonstrate that ORCA accurately discovers novel classes and assigns samples to previously seen classes on benchmark image classification datasets, including CIFAR and ImageNet. Remarkably, despite solving the harder task ORCA outperforms semi-supervised methods on seen classes, as well as novel class discovery methods on novel classes, achieving 7% and 151% improvements on seen and novel classes in the ImageNet dataset.
翻訳日:2021-02-09 16:00:35 公開日:2021-02-06
# 深層学習とアクティブ・コントゥーリングによるMRI脳腫瘍の局在とセグメンテーションの体系的アプローチ

A Systematic Approach for MRI Brain Tumor Localization, and Segmentation using Deep Learning and Active Contouring ( http://arxiv.org/abs/2102.03532v1 )

ライセンス: Link先を確認
Shanaka Ramesh Gunasekara and H.N.T.K.Kaldera and Maheshi B. Dissanayake(参考訳) 腫瘍抽出の主な要件の1つは、腫瘍境界のアノテーションと分割を正しく行うことです。 この目的のために、我々は3つの深層学習アーキテクチャを提示する。 第1の分類器は、深い畳み込みニューラルネットワーク(CNN)と第2の領域ベースの畳み込みニューラルネットワーク(R-CNN)で実装され、興味のある腫瘍領域を局在化させる。 第3段階および最終段階として、チャン・ヴェセグメンテーションアルゴリズムを用いて、集中腫瘍境界をセグメンテーションプロセスに輪郭付ける。 医用画像分割処理において, 画素強度の勾配に基づくエッジ検出アルゴリズムは失敗する傾向にあり, レベルセット関数で定義されるアクティブ輪郭アルゴリズムが提案されている。 具体的には,Chan-Veseアルゴリズムを用いて,セグメンテーションプロセスの腫瘍境界を検出する。 全体システムの性能を評価するために, ダイススコア, ランドインデックス (RI), 情報のばらつき (VOI), グローバル一貫性誤差 (GCE), 境界変位誤差 (BDE), 平均絶対誤差 (MAE), ピーク信号対ノイズ比 (PSNR) を, 提案された最終出力であるセグメント境界領域と, 金標準である主題スペシャリストの境界値を比較して計算した。 グリオーマと髄膜腫の両方に対する提案されたアーキテクチャの全体的な性能は平均0.92(RIは0.9936、VOIは0.0301、GCEは0.004、BDEは2.099、PSNRは77.076、MAEは52.946)であり、提案されたアーキテクチャの高い信頼性を示している。

One of the main requirements of tumor extraction is the annotation and segmentation of tumor boundaries correctly. For this purpose, we present a threefold deep learning architecture. First classifiers are implemented with a deep convolutional neural network(CNN) andsecond a region-based convolutional neural network (R-CNN) is performed on the classified images to localize the tumor regions of interest. As the third and final stage, the concentratedtumor boundary is contoured for the segmentation process by using the Chan-Vesesegmentatio n algorithm. As the typical edge detection algorithms based on gradients of pixel intensity tend to fail in the medical image segmentation process, an active contour algorithm defined with the level set function is proposed. Specifically, Chan- Vese algorithm was applied to detect the tumor boundaries for the segmentation process. To evaluate the performance of the overall system, Dice Score,Rand Index (RI), Variation of Information (VOI), Global Consistency Error (GCE), Boundary Displacement Error (BDE), Mean absolute error (MAE), and Peak Signal to Noise Ratio (PSNR) werecalculated by comparing the segmented boundary area which is the final output of the proposed, against the demarcations of the subject specialists which is the gold standard. Overall performance of the proposed architecture for both glioma and meningioma segmentation is with average dice score of 0.92, (also, with RI of 0.9936, VOI of 0.0301, GCE of 0.004, BDE of 2.099, PSNR of 77.076 and MAE of 52.946), pointing to high reliability of the proposed architecture.
翻訳日:2021-02-09 15:58:32 公開日:2021-02-06
# マルチエージェント強化学習におけるハイパーパラメータトリックス:実証的研究

Hyperparameter Tricks in Multi-Agent Reinforcement Learning: An Empirical Study ( http://arxiv.org/abs/2102.03479v1 )

ライセンス: Link先を確認
Jian Hu, Haibin Wu, Seth Austin Harding, Shih-wei Liao(参考訳) 近年,コンピュータゲームやロボット群といった複雑なシナリオに対して,マルチエージェントによる深層強化学習が成功している。 最先端の協調マルチエージェント深層強化学習アルゴリズムを徹底的に研究し、比較します。 具体的には、qmixの"ハイパーパラメータトリック"とその改良版の結果について検討する。 その結果,(1) オープンソースコードのハイパーパラメータレベルの最適化による性能向上(2) モデムチューニングとネットワークアーキテクチャの変更がなく,QMIX は StarCraft Multi-Agent Challenge (SMAC) のすべてのハードおよび超ハードシナリオにおいて極めて高い勝利率を得ることができ,SOTA (State-of-the-art) を達成することができることがわかった。 そこで本研究では, 信頼性の高いQMIXベンチマークを提案する。 さらに,QMIXの優れた性能を説明する仮説を提案した。

In recent years, multi-agent deep reinforcement learning has been successfully applied to various complicated scenarios such as computer games and robot swarms. We thoroughly study and compare the state-of-the-art cooperative multi-agent deep reinforcement learning algorithms. Specifically, we investigate the consequences of the "hyperparameter tricks" of QMIX and its improved variants. Our results show that: (1) The significant performance improvements of these variant algorithms come from hyperparameter-level optimizations in their open-source codes (2) After modest tuning and with no changes to the network architecture, QMIX can attain extraordinarily high win rates in all hard and super hard scenarios of StarCraft Multi-Agent Challenge (SMAC) and achieve state-of-the-art (SOTA). In this work, we proposed a reliable QMIX benchmark, which will be of great benefit to subsequent research. Besides, we proposed a hypothesis to explain the excellent performance of QMIX.
翻訳日:2021-02-09 15:57:01 公開日:2021-02-06
# 自動車の安全評価のためのコーナーケース生成と解析

Corner Case Generation and Analysis for Safety Assessment of Autonomous Vehicles ( http://arxiv.org/abs/2102.03483v1 )

ライセンス: Link先を確認
Haowei Sun, Shuo Feng, Xintao Yan, Henry X. Liu(参考訳) テストと評価は、CAV(Connected and Automated Vehicles)の開発と展開における重要なステップです。 CAVの性能を総合的に評価するには、自然主義運転環境ではほとんど起こらない安全クリティカルなシナリオでCAVをテストする必要がある。 したがって、これらのコーナーケースを意図的に体系的に生成する方法が重要な問題となる。 既存の研究の多くは、CAVの認識システムの逆例の生成に焦点を当てているが、この論文のハイライトである意思決定システムに限られた努力が課されている。 CAVは長時間にわたって多数の背景車(BV)と相互作用する必要があるため、コーナーケースを定義する変数は通常高次元であるため、生成は困難な問題になります。 本稿では,意思決定システムのコーナーケースを生成するための統一フレームワークを提案する。 高次元化に伴う課題に対処するために,マルコフ決定過程に基づいて運転環境を定式化し,bvsの行動方針を学習するために深層強化学習手法を適用する。 学習されたポリシーでは、BVはより積極的にCAVと対話し、より多くのコーナーケースをもたらす。 生成したコーナーケースを解析するために,特徴抽出技術とクラスタリング技術を利用する。 各クラスタの代表的なケースと外れ値を選択することで、生成されたすべてのコーナーケースから貴重なコーナーケースを識別することができる。 高速道路走行環境のシミュレーション結果から,提案手法が有効なコーナーケースを効果的に生成し,同定できることが判明した。

Testing and evaluation is a crucial step in the development and deployment of Connected and Automated Vehicles (CAVs). To comprehensively evaluate the performance of CAVs, it is of necessity to test the CAVs in safety-critical scenarios, which rarely happen in naturalistic driving environment. Therefore, how to purposely and systematically generate these corner cases becomes an important problem. Most existing studies focus on generating adversarial examples for perception systems of CAVs, whereas limited efforts have been put on the decision-making systems, which is the highlight of this paper. As the CAVs need to interact with numerous background vehicles (BVs) for a long duration, variables that define the corner cases are usually high dimensional, which makes the generation a challenging problem. In this paper, a unified framework is proposed to generate corner cases for the decision-making systems. To address the challenge brought by high dimensionality, the driving environment is formulated based on Markov Decision Process, and the deep reinforcement learning techniques are applied to learn the behavior policy of BVs. With the learned policy, BVs will behave and interact with the CAVs more aggressively, resulting in more corner cases. To further analyze the generated corner cases, the techniques of feature extraction and clustering are utilized. By selecting representative cases of each cluster and outliers, the valuable corner cases can be identified from all generated corner cases. Simulation results of a highway driving environment show that the proposed methods can effectively generate and identify the valuable corner cases.
翻訳日:2021-02-09 15:56:45 公開日:2021-02-06
# 金融ポートフォリオ管理のためのモジュール化・拡張型マルチエージェント強化学習システム

A Modularized and Scalable Multi-Agent Reinforcement Learning-based System for Financial Portfolio Management ( http://arxiv.org/abs/2102.03502v1 )

ライセンス: Link先を確認
Zhenhan Huang, Fumihide Tanaka(参考訳) 金融ポートフォリオ管理はその逐次意思決定性によって強化学習(rl)において最も適用可能な問題の1つである。 既存のRLベースのアプローチは、常に変化する資本市場に対応するために、スケーラビリティ、再利用性、あるいはインテーク情報のプロファンドをしばしば欠いている。 本稿では,ポートフォリオ管理のためのモジュール化・スケーラブルなアーキテクチャを備えた,新たなマルチエージェント強化学習システムmspmの設計と開発を行う。 MSPMには、Evolving Agent Module (EAM) と Strategic Agent Module (SAM) の2つの非同期更新ユニットが含まれている。 自己持続型EAMは、異種データ入力を用いて特定の資産の信号構成情報を生成し、各EAMは、複数のSAMに接続することができる。 SAMはEAMからの深い情報を用いてポートフォリオの資産再配置を担います。 MSPMは、精巧なアーキテクチャと揮発性市場情報のマルチステップ凝縮により、既存のアプローチにはない、カスタマイズ可能で安定した専用ソリューションをポートフォリオ管理に提供することを目指しています。 また、移転学習による新規上場株式のデータ不足問題にも取り組み、EAMの必要性を検証しています。 8年間の米国株式市場データに関する実験では、MSPMが既存のベンチマークを上回るパフォーマンスで利益の蓄積に有効であることを証明している。

Financial Portfolio Management is one of the most applicable problems in Reinforcement Learning (RL) by its sequential decision-making nature. Existing RL-based approaches, while inspiring, often lack scalability, reusability, or profundity of intake information to accommodate the ever-changing capital markets. In this paper, we design and develop MSPM, a novel Multi-agent Reinforcement learning-based system with a modularized and scalable architecture for portfolio management. MSPM involves two asynchronously updated units: Evolving Agent Module (EAM) and Strategic Agent Module (SAM). A self-sustained EAM produces signal-comprised information for a specific asset using heterogeneous data inputs, and each EAM possesses its reusability to have connections to multiple SAMs. A SAM is responsible for the assets reallocation of a portfolio using profound information from the EAMs connected. With the elaborate architecture and the multi-step condensation of the volatile market information, MSPM aims to provide a customizable, stable, and dedicated solution to portfolio management that existing approaches do not. We also tackle data-shortage issue of newly-listed stocks by transfer learning, and validate the necessity of EAM. Experiments on 8-year U.S. stock markets data prove the effectiveness of MSPM in profits accumulation by its outperformance over existing benchmarks.
翻訳日:2021-02-09 15:56:22 公開日:2021-02-06
# 相互作用認識グラフ誘導による薬物包装勧告

Drug Package Recommendation via Interaction-aware Graph Induction ( http://arxiv.org/abs/2102.03577v1 )

ライセンス: Link先を確認
Zhi Zheng, Chao Wang, Tong Xu, Dazhong Shen, Penggang Qin, Baoxing Huai, Tongzhu Liu, Enhong Chen(参考訳) 近年は、医薬品推奨などのインテリジェントな医療サービスを支援する大規模な電子医療記録(EMR)が急速に蓄積されているのを目撃している。 しかし、先行技術は主に、個々の薬物を互いに独立したものとして扱う共同フィルタリングのような従来の推奨戦略に従っており、薬物間の潜伏相互作用(例えば、相乗効果や反抗作用)は無視されている。 そこで本研究では, 薬物の相互作用効果を考慮し, 薬物パッケージレコメンデーションのための新たなパラダイムを開発することを目的としている。 具体的には、患者や薬物の初期埋め込みを得るために、神経協調フィルタリングに基づく事前トレーニング手法を最初に設計しました。 次に、薬物相互作用グラフは、医療記録とドメイン知識に基づいて初期化される。 本稿では,dprを重み付きグラフ (dpr-wg) に,dprを重み付きグラフ (dpr-ag) にそれぞれdprを,dprを重み付きグラフ (dpr-ag) にそれぞれdprを2種類に分けた新しいdprフレームワークを提案し,それぞれの相互作用を符号付き重み付きまたは属性ベクターとして記述する。 詳細には、マスク層を使用して患者状態の影響を捉え、最終的なグラフ誘導タスクのためにグラフニューラルネットワーク(GNN)を利用してパッケージを埋め込む。 一流病院からの現実世界のデータセットに関する広範な実験は、いくつかの競争力のあるベースライン方法と比較して、当社のDPRフレームワークの有効性を実証し、適切なパフォーマンスで薬物パッケージ生成タスクのヒューリスティック研究をさらに支援します。

Recent years have witnessed the rapid accumulation of massive electronic medical records (EMRs), which highly support the intelligent medical services such as drug recommendation. However, prior arts mainly follow the traditional recommendation strategies like collaborative filtering, which usually treat individual drugs as mutually independent, while the latent interactions among drugs, e.g., synergistic or antagonistic effect, have been largely ignored. To that end, in this paper, we target at developing a new paradigm for drug package recommendation with considering the interaction effect within drugs, in which the interaction effects could be affected by patient conditions. Specifically, we first design a pre-training method based on neural collaborative filtering to get the initial embedding of patients and drugs. Then, the drug interaction graph will be initialized based on medical records and domain knowledge. Along this line, we propose a new Drug Package Recommendation (DPR) framework with two variants, respectively DPR on Weighted Graph (DPR-WG) and DPR on Attributed Graph (DPR-AG) to solve the problem, in which each the interactions will be described as signed weights or attribute vectors. In detail, a mask layer is utilized to capture the impact of patient condition, and graph neural networks (GNNs) are leveraged for the final graph induction task to embed the package. Extensive experiments on a real-world data set from a first-rate hospital demonstrate the effectiveness of our DPR framework compared with several competitive baseline methods, and further support the heuristic study for the drug package generation task with adequate performance.
翻訳日:2021-02-09 15:56:04 公開日:2021-02-06
# 独占的トピックモデリング

Exclusive Topic Modeling ( http://arxiv.org/abs/2102.03525v1 )

ライセンス: Link先を確認
Hao Lei and Ying Chen(参考訳) 本研究では,1)フィールド固有のキーワードを識別できるが,頻度が低かったり,2)排他的な単語でよく構造化されたトピックを提示できる,教師なしテキスト分類のための排他的トピックモデリング(ETM)を提案する。 特に、重み付きLassoペナルティは、頻繁に現れるが、より関連性が低い単語の優位性を自動的に減少させるために課され、ペアワイズKullback-Leibler発散ペナルティは、トピックの分離を実装するために使用されます。 シミュレーション研究では、ETMがフィールド固有のキーワードを検出するが、LDAは失敗する。 ベンチマークNIPSデータセットに適用すると、平均的なトピックコヒーレンススコアは、重み付きLassoペナルティとペアワイズKullback-Leibler発散ペナルティを持つモデルに対して22%と10%向上する。

We propose an Exclusive Topic Modeling (ETM) for unsupervised text classification, which is able to 1) identify the field-specific keywords though less frequently appeared and 2) deliver well-structured topics with exclusive words. In particular, a weighted Lasso penalty is imposed to reduce the dominance of the frequently appearing yet less relevant words automatically, and a pairwise Kullback-Leibler divergence penalty is used to implement topics separation. Simulation studies demonstrate that the ETM detects the field-specific keywords, while LDA fails. When applying to the benchmark NIPS dataset, the topic coherence score on average improves by 22% and 10% for the model with weighted Lasso penalty and pairwise Kullback-Leibler divergence penalty, respectively.
翻訳日:2021-02-09 15:52:09 公開日:2021-02-06
# 統計量保証の強い分散マルコフ確率場のスケーラブルな推論

Scalable Inference of Sparsely-changing Markov Random Fields with Strong Statistical Guarantees ( http://arxiv.org/abs/2102.03585v1 )

ライセンス: Link先を確認
Salar Fattahi and Andres Gomez(参考訳) 本稿では,時間変化のあるマルコフ確率場(MRF)を推定する問題について検討する。 時間変化 MRF を推定するための既存の手法の多くは、通常、弱い統計的保証と高い計算時間に悩まされる正規化最大推定 (MLE) に依存している。 代わりに、スパース変換型MRFの推論のための制約付き最適化問題を新たに導入する。 提案した最適化問題は、正確な$\ell_0$正規化に基づいて定式化され、ほぼ線形時間とメモリで解ける。 さらに,提案した推定器は推定誤差が比較的小さいことを示す。 特殊な場合として,高次元状態における疎変化型ガウス型MRF(GMRF)の推測に関する統計的確証が得られ,そのような問題を1回に1回のサンプルで学習できることが示されている。 提案手法は, 5億変数以上で, 1時間未満で, ばらばらに変化するグラフィカルモデルを正確に推定できるため, 実用上極めて効率的である。

In this paper, we study the problem of inferring time-varying Markov random fields (MRF), where the underlying graphical model is both sparse and changes sparsely over time. Most of the existing methods for the inference of time-varying MRFs rely on the regularized maximum likelihood estimation (MLE), that typically suffer from weak statistical guarantees and high computational time. Instead, we introduce a new class of constrained optimization problems for the inference of sparsely-changing MRFs. The proposed optimization problem is formulated based on the exact $\ell_0$ regularization, and can be solved in near-linear time and memory. Moreover, we show that the proposed estimator enjoys a provably small estimation error. As a special case, we derive sharp statistical guarantees for the inference of sparsely-changing Gaussian MRFs (GMRF) in the high-dimensional regime, showing that such problems can be learned with as few as one sample per time. Our proposed method is extremely efficient in practice: it can accurately estimate sparsely-changing graphical models with more than 500 million variables in less than one hour.
翻訳日:2021-02-09 15:51:52 公開日:2021-02-06
# Sobolevカーネルによるオンライン非パラメトリック回帰

Online nonparametric regression with Sobolev kernels ( http://arxiv.org/abs/2102.03594v1 )

ライセンス: Link先を確認
Oleksandr Zadorozhnyi, Pierre Gaillard, Sebastien Gerschinovitz, Alessandro Rudi(参考訳) 本研究では,$d-$dimensional adversarial nonparametric regressionの設定におけるオンラインカーネル化リッジ回帰アルゴリズムの変動について検討する。 我々は、ソボレフ空間 $W_{p}^{\beta}(\mathcal{X})$, $p\geq 2, \beta>\frac{d}{p}$ のクラス上の後悔の上界を導出する。 上界はミニマックス後悔解析(英語版)によって支えられ、この場合、$\beta> \frac{d}{2}$ または $p=\infty$ は(本質的に)最適である。 最後に、カーネル化されたリッジ回帰予測器の性能を、後悔率とその計算の複雑さと統計的設定における過剰リスク率の点で既知の非パラメトリック予測器と比較する(すなわち)。 非パラメトリック回帰。

In this work we investigate the variation of the online kernelized ridge regression algorithm in the setting of $d-$dimensional adversarial nonparametric regression. We derive the regret upper bounds on the classes of Sobolev spaces $W_{p}^{\beta}(\mathcal{X})$, $p\geq 2, \beta>\frac{d}{p}$. The upper bounds are supported by the minimax regret analysis, which reveals that in the cases $\beta> \frac{d}{2}$ or $p=\infty$ these rates are (essentially) optimal. Finally, we compare the performance of the kernelized ridge regression forecaster to the known non-parametric forecasters in terms of the regret rates and their computational complexity as well as to the excess risk rates in the setting of statistical (i.i.d.) nonparametric regression.
翻訳日:2021-02-09 15:51:31 公開日:2021-02-06
# 畳み込みニューラルネットワークによるプライバシー保護ビデオ分類

Privacy-Preserving Video Classification with Convolutional Neural Networks ( http://arxiv.org/abs/2102.03513v1 )

ライセンス: Link先を確認
Sikha Pentyala and Rafael Dowsley and Martine De Cock(参考訳) 多くのビデオ分類アプリケーションは個人データへのアクセスを必要とし、ユーザーのプライバシーに侵入的なセキュリティリスクをもたらす。 コンボリューショナルニューラルネットワークを用いた単一フレーム方式によるビデオ分類のプライバシ保護実装を提案する。これにより、ビデオ所有者が暗号化されていない方法で他のエンティティにビデオを公開することなく、ビデオからラベルを推測することができる。 同様に、我々の手法は、分類器の所有者がモデルパラメータをプレーンテキストで外部エンティティに公開することを避ける。 この目的のために,既存のセキュア・マルチパーティ・コンピュテーション (mpc) プロトコルのプライベート・イメージ分類と,新たなmpcプロトコルを組み合わせることで,フレーム間のラベルアグリゲーションを実現する。 その結果は、エンドツーエンドのプライバシー保護ビデオ分類パイプラインになる。 個人の感情認識のためのアプリケーションで提案されたソリューションを評価します。 我々の結果は、コンピュータ関係者の正直で不正直な多数構成、そして受動的かつ活発な敵に対して、ビデオが最先端の精度で分類され、機密性の高いユーザー情報を漏洩することなく、様々なセキュリティ設定にまたがる。

Many video classification applications require access to personal data, thereby posing an invasive security risk to the users' privacy. We propose a privacy-preserving implementation of single-frame method based video classification with convolutional neural networks that allows a party to infer a label from a video without necessitating the video owner to disclose their video to other entities in an unencrypted manner. Similarly, our approach removes the requirement of the classifier owner from revealing their model parameters to outside entities in plaintext. To this end, we combine existing Secure Multi-Party Computation (MPC) protocols for private image classification with our novel MPC protocols for oblivious single-frame selection and secure label aggregation across frames. The result is an end-to-end privacy-preserving video classification pipeline. We evaluate our proposed solution in an application for private human emotion recognition. Our results across a variety of security settings, spanning honest and dishonest majority configurations of the computing parties, and for both passive and active adversaries, demonstrate that videos can be classified with state-of-the-art accuracy, and without leaking sensitive user information.
翻訳日:2021-02-09 15:49:15 公開日:2021-02-06
# 教師なしオーディオビジュアルサブスペースアライメントによる高ステーク検出

Unsupervised Audio-Visual Subspace Alignment for High-Stakes Deception Detection ( http://arxiv.org/abs/2102.03673v1 )

ライセンス: Link先を確認
Leena Mathur and Maja J Matari\'c(参考訳) ハイステークな状況で偽装を検出する自動システムは、医療、ソーシャルワーク、法的なドメイン間の社会的な幸福感を高めることができる。 ビデオ中のハイステイク・デセプションを検出する既存のモデルは監視されているが、モデルトレーニング用のラベル付きデータセットは、ほとんどの実世界のアプリケーションで収集されることはまれである。 そこで,本研究では,高ステークラベルを使わずに,映像の現実世界,高ステーク誤認を検出する,最初のマルチモーダル非監視転送学習手法を提案する。 当社のサブスペースアライメント(SA)アプローチは、ラボ制御の低ステークシナリオにおける偽装のオーディオビジュアル表現を適応させ、現実のハイステーク状況における偽装を検出する。 当社の最高の教師なしSAモデルは、SAなしでモデルを上回り、人間の能力を上回り、既存の監督モデルに匹敵するパフォーマンスを発揮します。 本研究は,ラベル付き行動データに乏しい現実の文脈において,ハイステイク・デセプションや他の社会的行動のモデル化にサブスペースに基づくトランスファー・ラーニングを導入する可能性を示す。

Automated systems that detect deception in high-stakes situations can enhance societal well-being across medical, social work, and legal domains. Existing models for detecting high-stakes deception in videos have been supervised, but labeled datasets to train models can rarely be collected for most real-world applications. To address this problem, we propose the first multimodal unsupervised transfer learning approach that detects real-world, high-stakes deception in videos without using high-stakes labels. Our subspace-alignment (SA) approach adapts audio-visual representations of deception in lab-controlled low-stakes scenarios to detect deception in real-world, high-stakes situations. Our best unsupervised SA models outperform models without SA, outperform human ability, and perform comparably to a number of existing supervised models. Our research demonstrates the potential for introducing subspace-based transfer learning to model high-stakes deception and other social behaviors in real-world contexts with a scarcity of labeled behavioral data.
翻訳日:2021-02-09 15:48:52 公開日:2021-02-06
# 子ども向けリスニング:ケアジバー推論が子供の早期言語コミュニケーションを可能にする方法

Child-directed Listening: How Caregiver Inference Enables Children's Early Verbal Communication ( http://arxiv.org/abs/2102.03462v1 )

ライセンス: Link先を確認
Stephan C. Meylan, Ruthe Foushee, Elika Bergelson, Roger P. Levy(参考訳) 大人は子供のスピーチをどう理解しますか。 言語発達の過程での子どもの制作は、典型的な成人の発音とほとんど似ていないが、介護者は確実に意味を回復する。 ここでは,大人が子どもの言葉のノイズを克服する方法を理解するために,ベイズ語モデルを用いて,子どもと大人のコミュニケーションの成功が成人の推論過程に大きく依存していることを示す。 コーパスの競合モデルを評価することにより,大人の回復した意味は,一般的な大人向け言語ではなく,子どもの言語環境に特有な事前の期待によって最も予測されることを示す。 発達時におけるこの「子ども指向リスニング」の貢献度を定量化した後、言語習得理論の結果と、子どもの言語能力を評価するための一般的な方法の意味について議論する。

How do adults understand children's speech? Children's productions over the course of language development often bear little resemblance to typical adult pronunciations, yet caregivers nonetheless reliably recover meaning from them. Here, we employ a suite of Bayesian models of spoken word recognition to understand how adults overcome the noisiness of child language, showing that communicative success between children and adults relies heavily on adult inferential processes. By evaluating competing models on phonetically-annotat ed corpora, we show that adults' recovered meanings are best predicted by prior expectations fitted specifically to the child language environment, rather than to typical adult-adult language. After quantifying the contribution of this "child-directed listening" over developmental time, we discuss the consequences for theories of language acquisition, as well as the implications for commonly-used methods for assessing children's linguistic proficiency.
翻訳日:2021-02-09 15:46:34 公開日:2021-02-06
# オンラインコメントの毒性からアメリカのニュースのインキュビティへ:注意を払って

From Toxicity in Online Comments to Incivility in American News: Proceed with Caution ( http://arxiv.org/abs/2102.03671v1 )

ライセンス: Link先を確認
Anushree Hede, Oshin Agarwal, Linda Lu, Diana C. Mutz, Ani Nenkova(参考訳) オンライン、ニュース、議会の議論で市民性を定量化する能力は、政治科学者にとって非常に興味深いものです。 英語のオンラインインシビリティーを検出するための計算ツールは、現在かなりアクセス可能であり、より広く適用できる可能性があります。 Jigsaw Perspective APIは、アメリカのニュースで市民の手動アノテーションで構成された、私たちが開発したコーパスで市民の程度を検出する能力のためにテストします。 我々は、Perspectiveが例示した毒性モデルは、ニュースの市民性の分析に不十分であることを示しています。 我々は,ニュースでしばしば言及される単語,特にアイデンティティ記述子とイシヴィティ間の急激な相関を除去する手法を開発する必要性を指摘する誤り解析を行う。 このような改善がなければ、ニュースにパースペクティブまたは類似のモデルを適用することは、市民性の人間の認識と一致していない間違った結論につながる可能性があります。

The ability to quantify incivility online, in news and in congressional debates, is of great interest to political scientists. Computational tools for detecting online incivility for English are now fairly accessible and potentially could be applied more broadly. We test the Jigsaw Perspective API for its ability to detect the degree of incivility on a corpus that we developed, consisting of manual annotations of civility in American news. We demonstrate that toxicity models, as exemplified by Perspective, are inadequate for the analysis of incivility in news. We carry out error analysis that points to the need to develop methods to remove spurious correlations between words often mentioned in the news, especially identity descriptors and incivility. Without such improvements, applying Perspective or similar models on news is likely to lead to wrong conclusions, that are not aligned with the human perception of incivility.
翻訳日:2021-02-09 15:46:16 公開日:2021-02-06
# 脳を持つ吸血鬼は良いITPハンマーです

Vampire With a Brain Is a Good ITP Hammer ( http://arxiv.org/abs/2102.03529v1 )

ライセンス: Link先を確認
Martin Suda(参考訳) ヴァンパイアは長い間、Mizar、Isabelle、HOL、CoqなどのITPにおけるハンマースタイルの証明自動化に広く使われている最強の1階自動定理証明器である。 そこで本研究では,神経誘導による飽和処理の効率化により,全ミザーライブラリを打破するヴァンパイアの性能を大幅に向上した。 特に,生成した節を導出履歴のみに基づいて分類する再帰的ニューラルネットワークを用いる。 節の論理的内容を考慮した従来のニューラルメソッドと比較して、これはニューラルガイダンスの大きなリアルタイム高速化につながる。 結果として得られたシステムは優れた学習能力を示し、Mizarライブラリで最先端のパフォーマンスを達成し、関連するENIGMAシステムが同様のハンマー評価では証明できない多くの定理を証明します。

Vampire has been for a long time the strongest first-order automated theorem prover, widely used for hammer-style proof automation in ITPs such as Mizar, Isabelle, HOL and Coq. In this work, we considerably improve the performance of Vampire in hammering over the full Mizar library by enhancing its saturation procedure with efficient neural guidance. In particular, we employ a recursive neural network classifying the generated clauses based only on their derivation history. Compared to previous neural methods based on considering the logical content of the clauses, this leads to large real-time speedup of the neural guidance. The resulting system shows good learning capability and achieves state-of-the-art performance on the Mizar library, while proving many theorems that the related ENIGMA system could not prove in a similar hammering evaluation.
翻訳日:2021-02-09 15:44:52 公開日:2021-02-06
# IC Networks: 畳み込みニューラルネットワークの基本ユニットを改造

IC Networks: Remodeling the Basic Unit for Convolutional Neural Networks ( http://arxiv.org/abs/2102.03495v1 )

ライセンス: Link先を確認
Junyi An and Fengshan Liu and Jian Zhao and Furao Shen(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンタスクで広く使用されている人工ニューラルネットワークのクラスです。 ほとんどのCNNは、ある種の基本ユニットを積み重ねることで優れた性能を発揮する。 ネットワークの深さと幅の増大に加え、より効果的な基本ユニットの設計が重要な研究トピックとなっている。 物理学における弾性衝突モデルに着想を得て,既存のcnnと統合して性能を向上させる汎用構造を提案する。 これを"Inter-layer Collision"(IC)構造と呼ぶ。 従来の畳み込み構造と比較して、IC構造はより微細な特徴を捉えることができる線形畳み込み演算において非線形性や特徴再構成を導入している。 また, 基礎モデルから知識を抽出し, icネットワークの学習を高速化するために, 弱ロジット蒸留法 (wld) という新しい訓練法が提案されている。 ImageNetの実験では、IC構造をResNet-50に統合し、トップ1エラーを22.38%から21.75%に削減した。

Convolutional neural network (CNN) is a class of artificial neural networks widely used in computer vision tasks. Most CNNs achieve excellent performance by stacking certain types of basic units. In addition to increasing the depth and width of the network, designing more effective basic units has become an important research topic. Inspired by the elastic collision model in physics, we present a general structure which can be integrated into the existing CNNs to improve their performance. We term it the "Inter-layer Collision" (IC) structure. Compared to the traditional convolution structure, the IC structure introduces nonlinearity and feature recalibration in the linear convolution operation, which can capture more fine-grained features. In addition, a new training method, namely weak logit distillation (WLD), is proposed to speed up the training of IC networks by extracting knowledge from pre-trained basic models. In the ImageNet experiment, we integrate the IC structure into ResNet-50 and reduce the top-1 error from 22.38% to 21.75%, which also catches up the top-1 error of ResNet-100 (21.75%) with nearly half of FLOPs.
翻訳日:2021-02-09 15:44:15 公開日:2021-02-06
# ドメイン内適応とドメイン間適応による2段階画像デハジング

Two-Step Image Dehazing with Intra-domain and Inter-domain Adaption ( http://arxiv.org/abs/2102.03501v1 )

ライセンス: Link先を確認
Xin Yi, Bo Ma, Yulin Zhang, Longyao Liu, JiaHao Wu(参考訳) 近年,畳み込みニューラルネットワークによって画像デハジングタスクが著しい進歩を遂げている。 しかし、これらのアプローチは、主にヘイズ除去を1対1の問題として扱い、ドメイン内ギャップを無視する。 したがって、同じシーン画像のヘイズ分布シフトはうまく処理されません。 また、ラベル付き合成データセットで訓練されたデハージングモデルは、ドメイン間のギャップのためにラベルなしの実際のデータセットでテストした場合、パフォーマンスの低下に大きく苦しむ。 以前のいくつかの研究は、合成ドメインと実ドメインの橋渡しに翻訳ネットワークを適用するが、ドメイン内ギャップは依然として存在し、ドメイン間適応に影響を与える。 本研究では,ドメイン内ギャップとドメイン間ギャップを最小限に抑えるため,TSDN(Two-Step Dehazing Network)を提案する。 まず,合成領域内の画像のヘイズ分布の変化を解消するためのマルチツーワン脱熱ネットワークを提案する。 次に、アライメントされた合成特徴に基づいて、合成ドメインと実領域の間のドメイン間適応を行う。 広範な実験結果から,本フレームワークは合成データセットと実データセットの両方において最先端アルゴリズムに対して好適に機能することが示された。

Recently, image dehazing task has achieved remarkable progress by convolutional neural network. However, those approaches mostly treat haze removal as a one-to-one problem and ignore the intra-domain gap. Therefore, haze distribution shift of the same scene images is not handled well. Also, dehazing models trained on the labeled synthetic datasets mostly suffer from performance degradation when tested on the unlabeled real datasets due to the inter-domain gap. Although some previous works apply translation network to bridge the synthetic domain and the real domain, the intra-domain gap still exists and affects the inter-domain adaption. In this work, we propose a novel Two-Step Dehazing Network (TSDN) to minimize the intra-domain gap and the inter-domain gap. First, we propose a multi-to-one dehazing network to eliminate the haze distribution shift of images within the synthetic domain. Then, we conduct an inter-domain adaption between the synthetic domain and the real domain based on the aligned synthetic features. Extensive experimental results demonstrate that our framework performs favorably against the state-of-the-art algorithms both on the synthetic datasets and the real datasets.
翻訳日:2021-02-09 15:43:55 公開日:2021-02-06
# 意味誘導最適化によるテンプレートフリートライオン画像合成

Template-Free Try-on Image Synthesis via Semantic-guided Optimization ( http://arxiv.org/abs/2102.03503v1 )

ライセンス: Link先を確認
Chien-Lung Chou, Chieh-Yun Chen, Chia-Wei Hsieh, Hong-Han Shuai, Jiaying Liu, and Wen-Huang Cheng(参考訳) 仮想試行作業は非常に魅力的であり、コンピュータビジョンの分野でかなりの注目を集めている。 しかし、2D画像に基づく3次元(3D)の物理的特性(例えば、プリーツや影)の提示は非常に困難である。 これまでに2Dベースの仮想試着作業についていくつかの研究が行われてきたが,1) ユーザフレンドリーではなく,目的の衣服に適さないユーザ特定ターゲットポーズが必要であり,2) 顔の細部や衣服のしわ,身体の閉塞など,いくつかの問題に対処できなかった。 本稿では,この2つの課題に対処するために,新しいテンプレートフリートライオン画像合成(TF-TIS)ネットワークを提案する。 TF-TISはまず、ユーザー指定の店内服に合わせてターゲットポーズを合成します。 その後、ショップ内での衣料品イメージ、ユーザーイメージ、合成ポーズを付与し、ヒトの試着イメージとターゲットの衣料品を最適なフィッティングポーズで合成する新しいモデルを提案します。 定性的かつ定量的な実験は, tf-tisが最先端の手法, 特に難しい場合よりも優れていることを示している。

The virtual try-on task is so attractive that it has drawn considerable attention in the field of computer vision. However, presenting the three-dimensional (3D) physical characteristic (e.g., pleat and shadow) based on a 2D image is very challenging. Although there have been several previous studies on 2D-based virtual try-on work, most 1) required user-specified target poses that are not user-friendly and may not be the best for the target clothing, and 2) failed to address some problematic cases, including facial details, clothing wrinkles and body occlusions. To address these two challenges, in this paper, we propose an innovative template-free try-on image synthesis (TF-TIS) network. The TF-TIS first synthesizes the target pose according to the user-specified in-shop clothing. Afterward, given an in-shop clothing image, a user image, and a synthesized pose, we propose a novel model for synthesizing a human try-on image with the target clothing in the best fitting pose. The qualitative and quantitative experiments both indicate that the proposed TF-TIS outperforms the state-of-the-art methods, especially for difficult cases.
翻訳日:2021-02-09 15:43:39 公開日:2021-02-06
# 長期漁獲監視のためのビデオベース階層種分類

Video-based Hierarchical Species Classification for Longline Fishing Monitoring ( http://arxiv.org/abs/2102.03520v1 )

ライセンス: Link先を確認
Jie Mei, Jenq-Neng Hwang, Suzanne Romain, Craig Rose, Braden Moore, and Kelsey Magrane(参考訳) ロングライン漁業の電子監視(EM)の目的は、規制遵守または捕獲カウントのいずれかのために、漁船での漁獲活動を監視することです。 ビデオに基づく階層分類は,漁獲過程において魚が激しく変形し自閉している長期漁獲魚の,安価で効率的な魚種識別を可能にする。 より重要なことに、階層分類の柔軟性は、異なる階層レベルで信頼度スコアを提供することで、ヒューマンレビューの労力を軽減する。 いくつかの関連作品は、階層分類にカスケードモデルを使用するか、画像ごとに予測を行うか、データセットの重複する階層データ構造を事前に予測する。 しかし,水産学者が提供した非重なりのない階層型データ構造により,本手法は階層型データ構造を強制し,映像ベースの水産データに対する効率的なトレーニングと推論戦略を導入する。 実験の結果,本手法は従来のフラット分類システムを大幅に上回っており,cnnモデル設計,トレーニング戦略,階層型魚種分類タスクにおけるビデオベース推論計画への貢献を正当化する。

The goal of electronic monitoring (EM) of longline fishing is to monitor the fish catching activities on fishing vessels, either for the regulatory compliance or catch counting. Hierarchical classification based on videos allows for inexpensive and efficient fish species identification of catches from longline fishing, where fishes are under severe deformation and self-occlusion during the catching process. More importantly, the flexibility of hierarchical classification mitigates the laborious efforts of human reviews by providing confidence scores in different hierarchical levels. Some related works either use cascaded models for hierarchical classification or make predictions per image or predict one overlapping hierarchical data structure of the dataset in advance. However, with a known non-overlapping hierarchical data structure provided by fisheries scientists, our method enforces the hierarchical data structure and introduces an efficient training and inference strategy for video-based fisheries data. Our experiments show that the proposed method outperforms the classic flat classification system significantly and our ablation study justifies our contributions in CNN model design, training strategy, and the video-based inference schemes for the hierarchical fish species classification task.
翻訳日:2021-02-09 15:43:16 公開日:2021-02-06
# SM+:Tiny Person 検出のためのrefined Scale Match

SM+: Refined Scale Match for Tiny Person Detection ( http://arxiv.org/abs/2102.03558v1 )

ライセンス: Link先を確認
Nan Jiang, Xuehui Yu, Xiaoke Peng, Yuqi Gong, Zhenjun Han(参考訳) 大規模な画像で小さな物体(例えば20 x 20ピクセル未満)を検出することは、重要かつオープンな問題である。 現代のCNNベースの検出器は、ネットワーク事前トレーニング用データセットと検出器トレーニング用ターゲットデータセットのスケールミスマッチによって挑戦される。 本稿では,事前学習と目標データセットのアライメントについて検討し,小人数検出のための新しいスケールマッチング法(sm+)を提案する。 SM+は画像レベルからインスタンスレベルへのスケールマッチを改善し、事前トレーニングとターゲットデータセットの類似性を効果的に促進する。 さらに、sm+が画像構造を破壊する可能性があることを考慮し、背景処理のための新しい確率的構造インパインティング(psi)法を提案する。 さまざまな検出器で行われた実験では、SM+はTinyPersonの性能を著しく改善し、最先端の検出器を有意なマージンで上回ることが示されています。

Detecting tiny objects ( e.g., less than 20 x 20 pixels) in large-scale images is an important yet open problem. Modern CNN-based detectors are challenged by the scale mismatch between the dataset for network pre-training and the target dataset for detector training. In this paper, we investigate the scale alignment between pre-training and target datasets, and propose a new refined Scale Match method (termed SM+) for tiny person detection. SM+ improves the scale match from image level to instance level, and effectively promotes the similarity between pre-training and target dataset. Moreover, considering SM+ possibly destroys the image structure, a new probabilistic structure inpainting (PSI) method is proposed for the background processing. Experiments conducted across various detectors show that SM+ noticeably improves the performance on TinyPerson, and outperforms the state-of-the-art detectors with a significant margin.
翻訳日:2021-02-09 15:42:58 公開日:2021-02-06
# CMS-LSTM:ビデオ予測のためのコンテキスト埋め込みとマルチスケール時空間表現LSTM

CMS-LSTM: Context-Embedding and Multi-Scale Spatiotemporal-Expre ssion LSTM for Video Prediction ( http://arxiv.org/abs/2102.03586v1 )

ライセンス: Link先を確認
Zenghao Chai, Chun Yuan, Zhihui Lin, Yunpeng Bai(参考訳) 制限フレームによる変動や時空間の特徴の抽出は、ビデオ予測において未解決かつ困難な問題として残されている。 連続フレーム間の因果不確実性は、長期予測の困難を悪化させる。 この問題に対処するために,コンテクスト相関とマルチスケール時空間流の抽出に焦点をあて,CMS-LSTMを2つの有効かつ軽量なブロックであるCE(Context-Embedding )とSE(Spatiotemporal-Ex pression)ブロックをConvLSTMバックボーンに統合して提案する。 CEブロックは豊富なコンテキスト相互作用のために設計されており、SEブロックは隠れ状態におけるマルチスケールの時空間表現に焦点を当てている。 新たに導入されたブロックは、他の時空間モデル(PredRNN、SA-ConvLSTMなど)でもビデオ予測のための暗黙的特徴を生成するのに役立つ。 定性的かつ定量的な実験により,提案手法の有効性と柔軟性が示された。 我々は、MNISTとTaxiBJデータセットをメトリクス数で動かせるように、パラメータを減らし、最先端の結果に到達します。 すべてのソースコードはhttps://github.com/c zh-98/CMS-LSTMで入手できる。

Extracting variation and spatiotemporal features via limited frames remains as an unsolved and challenging problem in video prediction. Inherent uncertainty among consecutive frames exacerbates the difficulty in long-term prediction. To tackle the problem, we focus on capturing context correlations and multi-scale spatiotemporal flows, then propose CMS-LSTM by integrating two effective and lightweight blocks, namely Context-Embedding (CE) and Spatiotemporal-Expre ssion (SE) block, into ConvLSTM backbone. CE block is designed for abundant context interactions, while SE block focuses on multi-scale spatiotemporal expression in hidden states. The newly introduced blocks also facilitate other spatiotemporal models (e.g., PredRNN, SA-ConvLSTM) to produce representative implicit features for video prediction. Qualitative and quantitative experiments demonstrate the effectiveness and flexibility of our proposed method. We use fewer parameters to reach markedly state-of-the-art results on Moving MNIST and TaxiBJ datasets in numbers of metrics. All source code is available at https://github.com/c zh-98/CMS-LSTM.
翻訳日:2021-02-09 15:42:43 公開日:2021-02-06
# 雑音ラベルとの対比訓練の相互作用の理解

Understanding the Interaction of Adversarial Training with Noisy Labels ( http://arxiv.org/abs/2102.03482v1 )

ライセンス: Link先を確認
Jianing Zhu, Jingfeng Zhang, Bo Han, Tongliang Liu, Gang Niu, Hongxia Yang, Mohan Kankanhalli and Masashi Sugiyama(参考訳) 雑音ラベル (NL) と敵対的な例はどちらも訓練されたモデルを弱体化させているが、興味深いことにそれらは独立して研究されている。 最近の敵対的トレーニング(AT)研究では、ある点を攻撃する射影勾配降下(PGD)ステップの数(すなわち、その近傍で敵対的な例を見つける)がこの点の堅牢性の効果的な尺度であることを示した。 自然データがクリーンであることを考えると、この測度は本質的な幾何学的性質 - ある点がクラス境界からどのくらい離れているかを明らかにする。 このブレークスルーに基づいて、本論文ではATがNLとどのように相互作用するかを理解する。 まず、ある点がノイズの多いクラス境界に近すぎるか(例えば、あるステップが攻撃するのに十分)、この点が誤ラベルされる可能性があり、これはNLを修正するためのサンプル選択のための新しい基準としてPGDステップの数を採用することを示唆している。 第2に,AT自体がNL補正であることを示す標準トレーニング(ST)よりも,NLによる(NL補正を伴わない)強い平滑化効果のATが低いことを確認した。 したがって、AT with NLは自然精度の向上に役立ち、汎用の堅牢な学習基準としてATの優位性を再び示しています。

Noisy labels (NL) and adversarial examples both undermine trained models, but interestingly they have hitherto been studied independently. A recent adversarial training (AT) study showed that the number of projected gradient descent (PGD) steps to successfully attack a point (i.e., find an adversarial example in its proximity) is an effective measure of the robustness of this point. Given that natural data are clean, this measure reveals an intrinsic geometric property -- how far a point is from its class boundary. Based on this breakthrough, in this paper, we figure out how AT would interact with NL. Firstly, we find if a point is too close to its noisy-class boundary (e.g., one step is enough to attack it), this point is likely to be mislabeled, which suggests to adopt the number of PGD steps as a new criterion for sample selection for correcting NL. Secondly, we confirm AT with strong smoothing effects suffers less from NL (without NL corrections) than standard training (ST), which suggests AT itself is an NL correction. Hence, AT with NL is helpful for improving even the natural accuracy, which again illustrates the superiority of AT as a general-purpose robust learning criterion.
翻訳日:2021-02-09 15:37:14 公開日:2021-02-06
# 無限次元GANとしてのニューラルSDE

Neural SDEs as Infinite-Dimensional GANs ( http://arxiv.org/abs/2102.03657v1 )

ライセンス: Link先を確認
Patrick Kidger and James Foster and Xuechen Li and Harald Oberhauser and Terry Lyons(参考訳) 確率微分方程式 (SDEs) は時間力学の数学的モデリングの基礎である。 しかし、そのようなモデルは通常比較的柔軟であり、ニューラルSDEを導入した最近の研究は解決を試みている。 ここでは、SDE の適合に対する現在の古典的アプローチが(ワッサーシュタイン) GAN の特別な場合としてアプローチされる可能性を示し、その場合、ニューラルネットワークと古典的体制をまとめることができる。 入力ノイズはブラウン運動であり、出力サンプルは数値解法によって生成される時間進化経路であり、識別器をニューラル制御微分方程式(CDE)としてパラメータ化することにより、(現代の機械学習における)連続時間生成時系列モデルとしてニューラルSDEを得る。 この問題に関する以前の研究とは異なり、これは前述した統計や密度関数に言及せずに古典的アプローチの直接的な拡張である。 任意漂流と拡散は許容可能であるので、ワッサーシュタインの損失は固有のグローバルミニマを持ち、無限データ極限 \textit{any} SDE で学習することができる。

Stochastic differential equations (SDEs) are a staple of mathematical modelling of temporal dynamics. However, a fundamental limitation has been that such models have typically been relatively inflexible, which recent work introducing Neural SDEs has sought to solve. Here, we show that the current classical approach to fitting SDEs may be approached as a special case of (Wasserstein) GANs, and in doing so the neural and classical regimes may be brought together. The input noise is Brownian motion, the output samples are time-evolving paths produced by a numerical solver, and by parameterising a discriminator as a Neural Controlled Differential Equation (CDE), we obtain Neural SDEs as (in modern machine learning parlance) continuous-time generative time series models. Unlike previous work on this problem, this is a direct extension of the classical approach without reference to either prespecified statistics or density functions. Arbitrary drift and diffusions are admissible, so as the Wasserstein loss has a unique global minima, in the infinite data limit \textit{any} SDE may be learnt.
翻訳日:2021-02-09 15:36:49 公開日:2021-02-06
# FFConv: 暗号化データに対するファクタブルニューラルネットワーク推論の高速化

FFConv: Fast Factorized Neural Network Inference on Encrypted Data ( http://arxiv.org/abs/2102.03494v1 )

ライセンス: Link先を確認
Yuxiao Lu, Jie Lin, Chao Jin, Zhe Wang, Khin Mi Mi Aung, Xiaoli Li(参考訳) 最初に復号化せずに暗号化されたデータ(暗号)の計算を可能にするホモモルフィック暗号化(HE)は、クラウド内のプライバシー保護アプリケーションのための安全で、しかし禁止的に遅いニューラルネットワーク(HENN)推論を可能にする。 HENN推論遅延を低減するために、暗号文の数を減らし、暗号文間のホモモルフィック・マルチプライ・アド(HMA)操作の大規模な並列化をサポートするために、複数のメッセージを単一の暗号文にまとめるアプローチがある。 しかし、異なる暗号文パッキングスキームは異なる畳み込み層向けに設計されなければならず、それぞれがhma操作よりもはるかに高価なオーバーヘッドをもたらす。 本稿では,畳み込みと暗号文パッキングを統一するffconvと呼ばれる低ランク分解法を提案する。 我々の知る限り、FFConvは、ノイズ予算を大幅に増加させることなく、異なる暗号文パッキング方式によって同時に引き起こされるオーバーヘッドを加速できる最初の作品である。 従来の LoLa と Falcon と比較して,提案手法は,MNIST と CIFAR-10 に匹敵する精度で,それぞれ 87% と 12% の推論遅延を減少させる。

Homomorphic Encryption (HE), allowing computations on encrypted data (ciphertext) without decrypting it first, enables secure but prohibitively slow Neural Network (HENN) inference for privacy-preserving applications in clouds. To reduce HENN inference latency, one approach is to pack multiple messages into a single ciphertext in order to reduce the number of ciphertexts and support massive parallelism of Homomorphic Multiply-Add (HMA) operations between ciphertexts. However, different ciphertext packing schemes have to be designed for different convolution layers and each of them introduces overheads that are far more expensive than HMA operations. In this paper, we propose a low-rank factorization method called FFConv to unify convolution and ciphertext packing. To our knowledge, FFConv is the first work that is capable of accelerating the overheads induced by different ciphertext packing schemes simultaneously, without incurring a significant increase in noise budget. Compared to prior art LoLa and Falcon, our method reduces the inference latency by up to 87% and 12%, respectively, with comparable accuracy on MNIST and CIFAR-10.
翻訳日:2021-02-09 15:31:58 公開日:2021-02-06
# インテリジェントな反射面をよりインテリジェントに:貯留層コンピューティングによるロードマップ

Making Intelligent Reflecting Surfaces More Intelligent: A Roadmap Through Reservoir Computing ( http://arxiv.org/abs/2102.03688v1 )

ライセンス: Link先を確認
Zhou Zhou, Kangjun Bai, Nima Mohammadi, Yang Yi, Lingjia Liu(参考訳) 本稿では,知的反射面(irs)支援無線通信システムのためのニューラルネットワークに基づく信号処理フレームワークを提案する。 IRS(非線形およびメモリ効果を含む)の「メタアトム」内の無線周波数(RF)障害をモデル化することにより、IRS対応システム全体を「カオスのエッジ」に近い状態で動作する効率的なリカレントニューラルネットワーク(RNN)であるリザーバコンピューティング(RC)システムとして一般化するアプローチを提示する。 このフレームワークにより、この「製造された」無線環境の非線形性を利用して、モデルミスマッチによるリンク劣化を克服することができる。 したがって、無線チャネルとRF不完全性のランダム性は、自然にRCフレームワークに埋め込まれ、カオスの端に位置する内部RCダイナミクスを可能にする。 さらに, チャネル状態情報取得, 受動ビームフォーミング設計, 物理層参照信号設計などの実用的課題について考察した。

This article introduces a neural network-based signal processing framework for intelligent reflecting surface (IRS) aided wireless communications systems. By modeling radio-frequency (RF) impairments inside the "meta-atoms" of IRS (including nonlinearity and memory effects), we present an approach that generalizes the entire IRS-aided system as a reservoir computing (RC) system, an efficient recurrent neural network (RNN) operating in a state near the "edge of chaos". This framework enables us to take advantage of the nonlinearity of this "fabricated" wireless environment to overcome link degradation due to model mismatch. Accordingly, the randomness of the wireless channel and RF imperfections are naturally embedded into the RC framework, enabling the internal RC dynamics lying on the edge of chaos. Furthermore, several practical issues, such as channel state information acquisition, passive beamforming design, and physical layer reference signal design, are discussed.
翻訳日:2021-02-09 15:31:36 公開日:2021-02-06
# UniFuse: 360$^{\circ}$パノラマ深さ推定のための一方向核融合

UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth Estimation ( http://arxiv.org/abs/2102.03550v1 )

ライセンス: Link先を確認
Hualie Jiang, Zhe Sheng, Siyu Zhu, Zilong Dong, Rui Huang(参考訳) 球状パノラマから深度を学ぶことは、パノラマが環境の完全な視野を持ち、シーンの比較的完全な記述を提供するため、人気のある研究トピックになりつつある。 しかし、球面パノラマの標準表現、すなわち等角射影によく研究されたCNNを視点画像に適用することは、極に向かって歪むため、必然的である。 もうひとつの表現はキューブマッププロジェクションで、歪みのないがエッジ上で中断され、視野に制限がある。 本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークについて紹介する。 エンコーディングとデコードの両方の段階で動作する最近の双方向融合アプローチとは異なり、我々の融合スキームはずっと効率的である。 さらに、より効果的な核融合モジュールも設計しました。 提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。 さらなる実験により、我々のモデルはモデルの複雑さと一般化能力の利点も示している。

Learning depth from spherical panoramas is becoming a popular research topic because a panorama has a full field-of-view of the environment and provides a relatively complete description of a scene. However, applying well-studied CNNs for perspective images to the standard representation of spherical panoramas, i.e., the equirectangular projection, is suboptimal, as it becomes distorted towards the poles. Another representation is the cubemap projection, which is distortion-free but discontinued on edges and limited in the field-of-view. This paper introduces a new framework to fuse features from the two projections, unidirectionally feeding the cubemap features to the equirectangular features only at the decoding stage. Unlike the recent bidirectional fusion approach operating at both the encoding and decoding stages, our fusion scheme is much more efficient. Besides, we also designed a more effective fusion module for our fusion scheme. Experiments verify the effectiveness of our proposed fusion strategy and module, and our model achieves state-of-the-art performance on four popular datasets. Additional experiments show that our model also has the advantages of model complexity and generalization capability.
翻訳日:2021-02-09 15:28:03 公開日:2021-02-06
# ベイズオブザーバを用いた歪下眼球固定の予測

Predicting Eye Fixations Under Distortion Using Bayesian Observers ( http://arxiv.org/abs/2102.03675v1 )

ライセンス: Link先を確認
Zhengzhong Tu(参考訳) 視覚の注意は、人間の視覚信号の知覚に影響を与える重要な要素である。 本報告は,画像中の歪みがベイズ視覚探索モデル,特にベイズ確率的枠組みに基づく眼球固定運動を予測する最大-a-posteriori (map) \cite{findlay1982[3]}\cite{eckstein2001quantify ing} と entropy limit minimization (elm) \cite{najemnik2009simple} を用いて人間の視覚注意を乱す可能性について検討する。 JPEG圧縮画像に対するMAPおよびEMMモデルの改良実験を行い, 圧縮アーチファクトが視覚的注意に影響を及ぼすことを示した。 この作品が視覚的注意と知覚的品質の相互作用に光を当てることを願っています。

Visual attention is very an essential factor that affects how human perceives visual signals. This report investigates how distortions in an image could distract human's visual attention using Bayesian visual search models, specifically, Maximum-a-posteriori (MAP) \cite{findlay1982global}\cite{eckstein2001quantify ing} and Entropy Limit Minimization (ELM) \cite{najemnik2009simple}, which predict eye fixation movements based on a Bayesian probabilistic framework. Experiments on modified MAP and ELM models on JPEG-compressed images containing blocking or ringing artifacts were conducted and we observed that compression artifacts can affect visual attention. We hope this work sheds light on the interactions between visual attention and perceptual quality.
翻訳日:2021-02-09 15:27:41 公開日:2021-02-06
# コミュニティ検出評価におけるバイアスの克服

Overcoming Bias in Community Detection Evaluation ( http://arxiv.org/abs/2102.03472v1 )

ライセンス: Link先を確認
Jeancarlo Campos Le\~ao (1), Alberto H. F. Laender (2), Pedro O. S. Vaz de Melo (2) ((1) Instituto Federal do Norte de Minas Gerais, (2) Universidade Federal de Minas Gerais)(参考訳) コミュニティ検出は、複雑なネットワークの機能と構造をさらに理解するための重要なタスクです。 したがって、このタスクを評価するために使われる戦略は、そのようなコミュニティに依存するさらなる分析やアプリケーションを無効にするバイアスや誤った結果を避けることができる。 このタスクを評価するために広く使われている2つの戦略は一般に構造的および機能的として知られている。 構造的戦略は基本的に、複数の方法と構造的指標を用いて、そのようなコミュニティを検出して評価するものである。 一方, 検出されたコミュニティを評価するために, 地中真理データを利用できる場合に, 機能的戦略が用いられる可能性がある。 しかし、そのような戦略に基づくコミュニティの評価は通常、偏りに影響を受けやすい実験的な構成で行われ、これはこのタスクで使用されるアルゴリズム、メトリクス、ネットワークデータに固有の状況である。 さらに、そのような戦略は、アルゴリズム、メトリクス、ネットワークデータにおけるバイアスの識別と緩和を、より一貫した結果に収束させる方法で体系的に結合されない。 この文脈において、本稿の主な貢献は、現実世界のネットワークにおけるコミュニティを検出する際に、堅牢な品質評価を支援するアプローチである。 私たちのアプローチでは、構造的および機能的な戦略、および両方の組み合わせを適用して、コミュニティの品質を測定し、さまざまな証拠を得ます。 次に, コミュニティ検出アルゴリズム, 評価指標, ネットワークデータにおけるバイアス源の可能性を特定し, 克服するための証拠群間の相違と一致を検討する。 複数の実および合成ネットワークを用いた実験により、検出されたコミュニティの品質に関するより一貫した結論を得るためのアプローチの有効性を示す結果が得られた。

Community detection is a key task to further understand the function and the structure of complex networks. Therefore, a strategy used to assess this task must be able to avoid biased and incorrect results that might invalidate further analyses or applications that rely on such communities. Two widely used strategies to assess this task are generally known as structural and functional. The structural strategy basically consists in detecting and assessing such communities by using multiple methods and structural metrics. On the other hand, the functional strategy might be used when ground truth data are available to assess the detected communities. However, the evaluation of communities based on such strategies is usually done in experimental configurations that are largely susceptible to biases, a situation that is inherent to algorithms, metrics and network data used in this task. Furthermore, such strategies are not systematically combined in a way that allows for the identification and mitigation of bias in the algorithms, metrics or network data to converge into more consistent results. In this context, the main contribution of this article is an approach that supports a robust quality evaluation when detecting communities in real-world networks. In our approach, we measure the quality of a community by applying the structural and functional strategies, and the combination of both, to obtain different pieces of evidence. Then, we consider the divergences and the consensus among the pieces of evidence to identify and overcome possible sources of bias in community detection algorithms, evaluation metrics, and network data. Experiments conducted with several real and synthetic networks provided results that show the effectiveness of our approach to obtain more consistent conclusions about the quality of the detected communities.
翻訳日:2021-02-09 15:23:43 公開日:2021-02-06
# セキュアなマルチパーティ計算によるプライバシー保護機能選択

Privacy-Preserving Feature Selection with Secure Multiparty Computation ( http://arxiv.org/abs/2102.03517v1 )

ライセンス: Link先を確認
Xiling Li and Rafael Dowsley and Martine De Cock(参考訳) Secure Multiparty Computation (MPC)による既存のプライバシ保護機械学習の研究は、モデルトレーニングとトレーニングされたモデルによる推論に集中しており、重要なデータ前処理ステージを見下ろしている。 本研究では,モデル学習とは無関係なフィルタ法を用いて,MPCプロトコルと組み合わせて特徴のランク付けを行うことのできる,プライベートな特徴選択のための最初のMPCベースのプロトコルを提案する。 本稿では,Gini不純物に基づく効率的な特徴スコアリングプロトコルを提案する。 実用データサイエンスにおける我々のアプローチの実現可能性を示すために,提案したMPCプロトコルを用いて,複数のサーバに計算をアウトソースする機械学習・アズ・ア・サービス構成による特徴選択実験を行った。 有効性については,提案プロトコルによるセキュアな特徴選択は,特徴値や選択された特徴に関する情報を漏らさずに,様々な実世界のデータセット上の分類器の精度を向上することを示す。 効率性については、データセットのサイズとセキュリティ設定に応じて、プロトコルが終了するまで数秒から1時間までのランタイムを文書化します。

Existing work on privacy-preserving machine learning with Secure Multiparty Computation (MPC) is almost exclusively focused on model training and on inference with trained models, thereby overlooking the important data pre-processing stage. In this work, we propose the first MPC based protocol for private feature selection based on the filter method, which is independent of model training, and can be used in combination with any MPC protocol to rank features. We propose an efficient feature scoring protocol based on Gini impurity to this end. To demonstrate the feasibility of our approach for practical data science, we perform experiments with the proposed MPC protocols for feature selection in a commonly used machine-learning-as- a-service configuration where computations are outsourced to multiple servers, with semi-honest and with malicious adversaries. Regarding effectiveness, we show that secure feature selection with the proposed protocols improves the accuracy of classifiers on a variety of real-world data sets, without leaking information about the feature values or even which features were selected. Regarding efficiency, we document runtimes ranging from several seconds to an hour for our protocols to finish, depending on the size of the data set and the security settings.
翻訳日:2021-02-09 15:23:17 公開日:2021-02-06
# エビデンシャル回帰による血圧の連続モニタリング

Continuous Monitoring of Blood Pressure with Evidential Regression ( http://arxiv.org/abs/2102.03542v1 )

ライセンス: Link先を確認
Hyeongju Kim, Woo Hyun Kang, Hyeonseung Lee, Nam Soo Kim(参考訳) PPG信号は非侵襲的な方法でウェアラブルデバイスから容易に取得でき、迅速なBP測定を可能にするため、PPG(Photoplethysmogr am)信号ベースの血圧(BP)推定は、現代のBP測定の有望な候補です。 しかし、既存の機械学習ベースのBP測定法のパフォーマンスは、一部のBP測定ガイドラインの背後にあり、そのほとんどは、収縮血圧(SBP)と拡張血圧(DBP)のポイント推定のみを提供します。 本論文では、PPG信号からBPを継続的に監視し、AAMI(Association for the Advancement of Medical Instrumentation)やBHS(British Hypertension Society)規格などの医療基準を満たすことができる最先端の方法を提案する。 さらに,提案手法は,その不確実性を推定し,モデル予測に基づく診断を支援することにより,予測BPの信頼性を提供する。 MIMIC IIデータベースにおける実験により,提案手法の最先端性能と予測の不確かさを正確に表現する能力について検証した。

Photoplethysmogram (PPG) signal-based blood pressure (BP) estimation is a promising candidate for modern BP measurements, as PPG signals can be easily obtained from wearable devices in a non-invasive manner, allowing quick BP measurement. However, the performance of existing machine learning-based BP measuring methods still fall behind some BP measurement guidelines and most of them provide only point estimates of systolic blood pressure (SBP) and diastolic blood pressure (DBP). In this paper, we present a cutting-edge method which is capable of continuously monitoring BP from the PPG signal and satisfies healthcare criteria such as the Association for the Advancement of Medical Instrumentation (AAMI) and the British Hypertension Society (BHS) standards. Furthermore, the proposed method provides the reliability of the predicted BP by estimating its uncertainty to help diagnose medical condition based on the model prediction. Experiments on the MIMIC II database verify the state-of-the-art performance of the proposed method under several metrics and its ability to accurately represent uncertainty in prediction.
翻訳日:2021-02-09 15:22:56 公開日:2021-02-06
# 垂直分割データに対するマルチティアフェデレーション学習

Multi-Tier Federated Learning for Vertically Partitioned Data ( http://arxiv.org/abs/2102.03620v1 )

ライセンス: Link先を確認
Anirban Das and Stacy Patterson(参考訳) 階層型通信ネットワークにおける分散モデルトレーニングについて考察する。 我々のネットワークモデルはサイロの集合で構成され、それぞれがデータの垂直分割を保持する。 各サイロにはハブとクライアントセットが含まれており、サイロの垂直データシャードはクライアント間で水平に分割されている。 このような2層ネットワークのための通信効率の高い分散学習アルゴリズムであるTiered Decentralized Coordinate Descent (TDCD)を提案する。 通信オーバーヘッドを低減するため、各サイロのクライアントは、ハブとアップデートを共有する前に、複数のローカル勾配ステップを実行する。 各ハブは、労働者の更新を平均して座標を調整し、ハブは中間更新を相互に交換する。 本稿では,アルゴリズムの理論的解析を行い,各ハブにおける垂直分割数,局所更新数,クライアント数に対する収束率の依存性を示す。 さらに、様々なデータセットと凸と非凸の両方の目的を用いてシミュレーションに基づく実験により、我々のアプローチを実証的に検証する。

We consider decentralized model training in tiered communication networks. Our network model consists of a set of silos, each holding a vertical partition of the data. Each silo contains a hub and a set of clients, with the silo's vertical data shard partitioned horizontally across its clients. We propose Tiered Decentralized Coordinate Descent (TDCD), a communication-effici ent decentralized training algorithm for such two-tiered networks. To reduce communication overhead, the clients in each silo perform multiple local gradient steps before sharing updates with their hub. Each hub adjusts its coordinates by averaging its workers' updates, and then hubs exchange intermediate updates with one another. We present a theoretical analysis of our algorithm and show the dependence of the convergence rate on the number of vertical partitions, the number of local updates, and the number of clients in each hub. We further validate our approach empirically via simulation-based experiments using a variety of datasets and both convex and non-convex objectives.
翻訳日:2021-02-09 15:22:38 公開日:2021-02-06
# 解釈可能な凝縮データのための人工コアユーザ生成

Generating Artificial Core Users for Interpretable Condensed Data ( http://arxiv.org/abs/2102.03674v1 )

ライセンス: Link先を確認
Amy Nesky and Quentin F. Stout(参考訳) 最近の研究によると、アイテムのユーザレーティングのデータセットには、推奨に必要な情報のほとんどを保持するコアユーザのグループが存在している。 コアユーザーのこのセットは、ユーザーの20%まで小さくすることができます。 Core Userは、余計な作業なしで、サンプル外ユーザの予測に使用できる。 Core Usersは情報を失うことなくレーティングデータセットを大幅に縮小するため、レコメンデーション効率を改善するために使用できます。 本論文では,潜在因子モデル,アンサンブルブースト,K平均クラスタリングを組み合わせて,実際のコアユーザデータから人工コアユーザ(ACU)の小集合を生成する手法を提案する。 当社のACUは、高い評価情報を持ち、実際のCore Usersの推奨性能を改善しつつ、解釈可能なままです。

Recent work has shown that in a dataset of user ratings on items there exists a group of Core Users who hold most of the information necessary for recommendation. This set of Core Users can be as small as 20 percent of the users. Core Users can be used to make predictions for out-of-sample users without much additional work. Since Core Users substantially shrink a ratings dataset without much loss of information, they can be used to improve recommendation efficiency. We propose a method, combining latent factor models, ensemble boosting and K-means clustering, to generate a small set of Artificial Core Users (ACUs) from real Core User data. Our ACUs have dense rating information, and improve the recommendation performance of real Core Users while remaining interpretable.
翻訳日:2021-02-09 15:22:24 公開日:2021-02-06
# 単一物体機能磁気共鳴イメージングにおける正確な活性化検出のための実用的モデルに基づくセグメンテーション手法

A Practical Model-based Segmentation Approach for Accurate Activation Detection in Single-Subject functional Magnetic Resonance Imaging Studies ( http://arxiv.org/abs/2102.03639v1 )

ライセンス: Link先を確認
Wei-Chen Chen and Ranjan Maitra(参考訳) 機能的磁気共鳴イメージング(fMRI)は、刺激に反応して脳の活性化をマッピングするが、この活性化は、特に低信号の文脈や単一物体の研究において検出することがしばしば困難である。 正確な活性化検出は、実際には非常に少ないボクセルが本当に活性化され、活性化ボクセルが空間的に局所化されているという事実によって導かれるが、これらの事実を組み込むことは困難である。 RパッケージMixfMRIに実装された計算可能で方法論的に健全なモデルベースのアプローチを提供し、空間的コンテキストを組み込んだまま、アクティベートされたボキセルの優先的な割合を制限します。 アクティベーション検出の難易度の違いに対するシミュレーション実験の結果は一様である。 低信号および単一対象fMRI研究における方法論の価値は、スポーツイマジネーション実験で示されています。 同時に、外傷性脳損傷患者などの持続的植物状態における個々の患者の認識と治療を改善するために、臨床ツールとしてのfmriの潜在的使用も拡大する。

Functional Magnetic Resonance Imaging (fMRI) maps cerebral activation in response to stimuli but this activation is often difficult to detect, especially in low-signal contexts and single-subject studies. Accurate activation detection can be guided by the fact that very few voxels are, in reality, truly activated and that activated voxels are spatially localized, but it is challenging to incorporate both these facts. We provide a computationally feasible and methodologically sound model-based approach, implemented in the R package MixfMRI, that bounds the a priori expected proportion of activated voxels while also incorporating spatial context. Results on simulation experiments for different levels of activation detection difficulty are uniformly encouraging. The value of the methodology in low-signal and single-subject fMRI studies is illustrated on a sports imagination experiment. Concurrently, we also extend the potential use of fMRI as a clinical tool to, for example, detect awareness and improve treatment in individual patients in persistent vegetative state, such as traumatic brain injury survivors.
翻訳日:2021-02-09 15:18:40 公開日:2021-02-06
# 自動車イーサネットネットワークにおけるAVTPストリームの畳み込みニューラルネットワークによる侵入検知システム

Convolutional Neural Network-based Intrusion Detection System for AVTP Streams in Automotive Ethernet-based Networks ( http://arxiv.org/abs/2102.03546v1 )

ライセンス: Link先を確認
Seonghoon Jeong, Boosun Jeon, Boheung Chung, Huy Kang Kim(参考訳) 連結および自律的な車(CAV)は従来の車の革新的な形態です。 Automotive EthernetはコントローラエリアネットワークとFlexRayを置き換え、高精細なアプリケーションに必要なスループットをサポートする。 CAVには多数の機能があるため、大きな攻撃面と攻撃に対する脆弱性の増加を示します。 しかしながら、自動車イーサネットベースのネットワークにおける侵入検知に焦点を当てた以前の研究は行われていない。 本稿では,車載イーサネットネットワークにおけるAVTP(オーディオビデオトランスポートプロトコル)ストリームインジェクション攻撃を検出するための侵入検出手法を提案する。 私たちの知る限りでは、これは自動車用イーサネット用に開発された最初の方法です。 提案された侵入検出モデルは、特徴生成と畳み込みニューラルネットワーク(CNN)に基づいている。 侵入検知システムを評価するために,BroadR-Reachベースの物理的テストベッドを構築し,実AVTPパケットをキャプチャした。 実験の結果,f1-scoreとrecallはそれぞれ0.9704と0.9949であった。 入力毎の推論時間とavtpトラフィックの発生間隔の観点からは,実時間検出にcnnモデルを用いることが容易である。

Connected and autonomous vehicles (CAVs) are an innovative form of traditional vehicles. Automotive Ethernet replaces the controller area network and FlexRay to support the large throughput required by high-definition applications. As CAVs have numerous functions, they exhibit a large attack surface and an increased vulnerability to attacks. However, no previous studies have focused on intrusion detection in automotive Ethernet-based networks. In this paper, we present an intrusion detection method for detecting audio-video transport protocol (AVTP) stream injection attacks in automotive Ethernet-based networks. To the best of our knowledge, this is the first such method developed for automotive Ethernet. The proposed intrusion detection model is based on feature generation and a convolutional neural network (CNN). To evaluate our intrusion detection system, we built a physical BroadR-Reach-based testbed and captured real AVTP packets. The experimental results show that the model exhibits outstanding performance: the F1-score and recall are greater than 0.9704 and 0.9949, respectively. In terms of the inference time per input and the generation intervals of AVTP traffic, our CNN model can readily be employed for real-time detection.
翻訳日:2021-02-09 15:17:36 公開日:2021-02-06
# Koopman演算子近似に対する線形行列不等式アプローチ

Linear Matrix Inequality Approaches to Koopman Operator Approximation ( http://arxiv.org/abs/2102.03613v1 )

ライセンス: Link先を確認
Steven Dahdah and James Richard Forbes(参考訳) データからクープマン作用素の行列近似を見つけることに関連する回帰問題を検討する。 回帰問題は線形行列不等式(LMI)制約を受ける凸最適化問題として定式化される。 そうすることで、追加のLMI制約を回帰問題に組み込むことができる。 特に漸近安定性の制約、行列ノルムを用いた正規化、システムノルムを用いた正規化は回帰問題に容易に組み込むことができる。

The regression problem associated with finding a matrix approximation of the Koopman operator from data is considered. The regression problem is formulated as a convex optimization problem subject to linear matrix inequality (LMI) constraints. Doing so allows for additional LMI constraints to be incorporated into the regression problem. In particular, asymptotic stability constraints, regularization using matrix norms, and even regularization using system norms can be easily incorporated into the regression problem.
翻訳日:2021-02-09 15:17:17 公開日:2021-02-06
# 半教師付き学習による音声プロファイルを用いた話者帰属

Speaker attribution with voice profiles by graph-based semi-supervised learning ( http://arxiv.org/abs/2102.03634v1 )

ライセンス: Link先を確認
Jixuan Wang, Xiong Xiao, Jian Wu, Ranjani Ramamurthy, Frank Rudzicz, Michael Brudno(参考訳) スピーカーの属性は、スピーカーの音声プロファイルに従って各発話にスピーカーのアイデンティティが割り当てられる会議の転写など、多くの実世界のアプリケーションで必要です。 本稿では,グラフに基づく半教師付き学習手法を用いて話者帰属問題の解法を提案する。 各セッション毎に音声セグメントのグラフを構築し、音声プロファイルからのセグメントをラベル付きノードで表現し、テスト発話からのセグメントをラベル付きノードとする。 ノード間のエッジの重みは、音声セグメントの予め訓練された話者埋め込み間の類似性によって評価される。 話者帰属はグラフ上の半教師付き学習問題となり、ラベル伝搬(lp)とグラフニューラルネットワーク(gnns)の2つのグラフベース手法が適用される。 提案手法は,話者アトリビューション性能を向上させるために,グラフの構造情報を利用することができる。 実会議データを用いた実験結果から,各発話を独立に処理するベースライン話者識別手法と比較して,グラフベースのアプローチは話者帰属誤差を最大68%低減することがわかった。

Speaker attribution is required in many real-world applications, such as meeting transcription, where speaker identity is assigned to each utterance according to speaker voice profiles. In this paper, we propose to solve the speaker attribution problem by using graph-based semi-supervised learning methods. A graph of speech segments is built for each session, on which segments from voice profiles are represented by labeled nodes while segments from test utterances are unlabeled nodes. The weight of edges between nodes is evaluated by the similarities between the pretrained speaker embeddings of speech segments. Speaker attribution then becomes a semi-supervised learning problem on graphs, on which two graph-based methods are applied: label propagation (LP) and graph neural networks (GNNs). The proposed approaches are able to utilize the structural information of the graph to improve speaker attribution performance. Experimental results on real meeting data show that the graph based approaches reduce speaker attribution error by up to 68% compared to a baseline speaker identification approach that processes each utterance independently.
翻訳日:2021-02-09 15:17:10 公開日:2021-02-06
# k-PCAのストリーミング: Ojaのアルゴリズムに対する効率的な保証。

Streaming k-PCA: Efficient guarantees for Oja's algorithm, beyond rank-one updates ( http://arxiv.org/abs/2102.03646v1 )

ライセンス: Link先を確認
De Huang and Jonathan Niles-Weed and Rachel Ward(参考訳) 我々はOjaのアルゴリズムで$k$-PCAをストリーミングし、最適化されたオフラインアルゴリズムとほぼ一致する性能を実現する。 i. i. d. のシーケンスにアクセスすると $d \times d$ symmetric matrices, we show that Oja's algorithm can obtained a accurate approximation to the top $k$ eigenvectors of the top $k$ eigenvectors of their expectation with a many sample that scales polylogarithmically with $d$。 以前は、更新がランク1の場合にのみ、そのような結果が知られていた。 私たちの分析は、アルゴリズムの実行中に発生するランダム行列の尾に強い境界を証明することを可能にする、最近開発されたマトリックス濃度ツールに基づいています。

We analyze Oja's algorithm for streaming $k$-PCA and prove that it achieves performance nearly matching that of an optimal offline algorithm. Given access to a sequence of i.i.d. $d \times d$ symmetric matrices, we show that Oja's algorithm can obtain an accurate approximation to the subspace of the top $k$ eigenvectors of their expectation using a number of samples that scales polylogarithmically with $d$. Previously, such a result was only known in the case where the updates have rank one. Our analysis is based on recently developed matrix concentration tools, which allow us to prove strong bounds on the tails of the random matrices which arise in the course of the algorithm's execution.
翻訳日:2021-02-09 15:16:53 公開日:2021-02-06
# (参考訳) BinaryCoP:Binary Neural Network-based COVID-19 Face-Mask Wear and Positioning Predictor on Edge Devices [全文訳有]

BinaryCoP: Binary Neural Network-based COVID-19 Face-Mask Wear and Positioning Predictor on Edge Devices ( http://arxiv.org/abs/2102.03456v1 )

ライセンス: CC0 1.0
Nael Fasfous, Manoj-Rohit Vemparala, Alexander Frickenstein, Lukas Frickenstein, Walter Stechele(参考訳) マスクは長年、有害な煙や粒子の吸入を防ぐため、日常生活の多くの地域で使用されてきた。 また、航空病に対する双方向保護のための効果的な医療ソリューションも提供する。 マスクの装着と位置決めは、その機能に不可欠である。 畳み込みニューラルネットワーク(CNN)は、顔認識と正しいマスク着用と位置決めの分類に優れたソリューションを提供する。 新型コロナウイルスのパンデミックが進行中の状況では、このようなアルゴリズムは、企業の建物、空港、ショッピングエリア、およびその他の屋内の場所への入り口で使用され、ウイルスの拡散を緩和することができます。 これらのアプリケーションシナリオは、基盤となる計算プラットフォームに大きな課題を課す。 推論ハードウェアは安価で小さく、エネルギー効率が良く、十分なメモリと計算能力を提供して、かなり低いレイテンシで正確なcnnを実行する必要がある。 公衆のデータプライバシーを維持するためには、すべての処理はクラウドサーバーとの通信なしにエッジデバイスに留まらなければなりません。 これらの課題に対処するために、顔面マスクの摩耗と位置決めを正しく行うための低電力バイナリニューラルネットワーク分類器を提示する。 分類タスクは組み込みFPGA上に実装され、高スループットのバイナリ操作を実行する。 分類は最大6400フレーム/秒で行われ、マルチカメラ、スピードゲート設定、統計収集を群衆の設定で容易に行える。 単一の入口またはゲートに配備すると、アイドル電力消費量は1.6Wに削減され、装置の電池寿命が向上する。 MaskedFace-Netデータセットの4つの装着位置で最大98%の精度を実現します。 すべての顔構造、肌色、髪型、マスクタイプについて等価な分類精度を維持するために、アルゴリズムはGrad-CAMアプローチを用いて、すべての被験者に対して関連する特徴を一般化する能力をテストする。

Face masks have long been used in many areas of everyday life to protect against the inhalation of hazardous fumes and particles. They also offer an effective solution in healthcare for bi-directional protection against air-borne diseases. Wearing and positioning the mask correctly is essential for its function. Convolutional neural networks (CNNs) offer an excellent solution for face recognition and classification of correct mask wearing and positioning. In the context of the ongoing COVID-19 pandemic, such algorithms can be used at entrances to corporate buildings, airports, shopping areas, and other indoor locations, to mitigate the spread of the virus. These application scenarios impose major challenges to the underlying compute platform. The inference hardware must be cheap, small and energy efficient, while providing sufficient memory and compute power to execute accurate CNNs at a reasonably low latency. To maintain data privacy of the public, all processing must remain on the edge-device, without any communication with cloud servers. To address these challenges, we present a low-power binary neural network classifier for correct facial-mask wear and positioning. The classification task is implemented on an embedded FPGA, performing high-throughput binary operations. Classification can take place at up to ~6400 frames-per-second, easily enabling multi-camera, speed-gate settings or statistics collection in crowd settings. When deployed on a single entrance or gate, the idle power consumption is reduced to 1.6W, improving the battery-life of the device. We achieve an accuracy of up to 98% for four wearing positions of the MaskedFace-Net dataset. To maintain equivalent classification accuracy for all face structures, skin-tones, hair types, and mask types, the algorithms are tested for their ability to generalize the relevant features over all subjects using the Grad-CAM approach.
翻訳日:2021-02-09 14:46:29 公開日:2021-02-06
# (参考訳) 音声反対例:声帯マスクを用いた攻撃

Audio Adversarial Examples: Attacks Using Vocal Masks ( http://arxiv.org/abs/2102.02417v2 )

ライセンス: CC BY 4.0
Kai Yuan Tay, Lynnette Ng, Wei Han Chua, Lucerne Loke, Danqi Ye, Melissa Chua(参考訳) 自動音声テキストシステム上での音声対向例を構築した。 音声波形が与えられると、元の音声から生成された音声音声マスクをオーバーレイして別の音声を生成する。 We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。 さらに,人間アノテータに敵対音声の書き起こしを依頼した。 我々の実験では、これらの敵対的な例はState-Of-The-Art Speech-To-Textシステムを騙すが、人間は一貫して音声を選ぶことができる。 この攻撃の可能性は、機械と人間の音声知覚を研究する新しい領域を導入する。

We construct audio adversarial examples on automatic Speech-To-Text systems . Given any audio waveform, we produce an another by overlaying an audio vocal mask generated from the original audio. We apply our audio adversarial attack to five SOTA STT systems: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx. In addition, we engaged human annotators to transcribe the adversarial audio. Our experiments show that these adversarial examples fool State-Of-The-Art Speech-To-Text systems, yet humans are able to consistently pick out the speech. The feasibility of this attack introduces a new domain to study machine and human perception of speech.
翻訳日:2021-02-09 10:12:37 公開日:2021-02-06
# 勾配降下による低ランク対称行列の完全線形収束速度解析

Exact Linear Convergence Rate Analysis for Low-Rank Symmetric Matrix Completion via Gradient Descent ( http://arxiv.org/abs/2102.02396v2 )

ライセンス: Link先を確認
Trung Vu and Raviv Raich(参考訳) ファクタリゼーションベースの勾配降下は、低ランクマトリックスの完了を解決するためのスケーラブルで効率的なアルゴリズムです。 構造的非凸最適化の最近の進歩は、低ランク行列とサンプリングセットの特定の統計的仮定の下で、勾配降下のグローバル収束を保証する。 しかし、この理論は、勾配降下が問題の大域的な解に対する高速線型収束を楽しむことを示唆する一方で、境界技術の普遍性は収束率の正確な推定値を得るのを妨げている。 本稿では,対称行列に対する因子分解に基づく行列完成のための勾配降下の完全線形収束率を局所的に解析する。 基礎となるモデルに関する追加の仮定がなければ、解行列とサンプリングセットのみに依存する勾配降下の局所収束の決定論的条件を特定することができる。 さらに重要なことに、我々の分析は、実際に観測された線形収束と正確に一致する漸近収束率の閉形式表現を提供する。 我々の知る限りでは、行列完備化のためにユークリッド空間における行列分解に対する勾配降下の正確な収束率を与える最初の結果である。

Factorization-based gradient descent is a scalable and efficient algorithm for solving low-rank matrix completion. Recent progress in structured non-convex optimization has offered global convergence guarantees for gradient descent under certain statistical assumptions on the low-rank matrix and the sampling set. However, while the theory suggests gradient descent enjoys fast linear convergence to a global solution of the problem, the universal nature of the bounding technique prevents it from obtaining an accurate estimate of the rate of convergence. In this paper, we perform a local analysis of the exact linear convergence rate of gradient descent for factorization-based matrix completion for symmetric matrices. Without any additional assumptions on the underlying model, we identify the deterministic condition for local convergence of gradient descent, which only depends on the solution matrix and the sampling set. More crucially, our analysis provides a closed-form expression of the asymptotic rate of convergence that matches exactly with the linear convergence observed in practice. To the best of our knowledge, our result is the first one that offers the exact rate of convergence of gradient descent for matrix factorization in Euclidean space for matrix completion.
翻訳日:2021-02-09 10:11:40 公開日:2021-02-06