このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210218となっている論文です。

PDF登録状況(公開日: 20210218)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ニューラルプログラミングインタフェースに向けて [全文訳有]

Towards Neural Programming Interfaces ( http://arxiv.org/abs/2012.05983v2 )

ライセンス: CC BY 4.0
Zachary C. Brown, Nathaniel Robinson, David Wingate, Nancy Fulda(参考訳) 生成型ニューラルネットワークモデルのような人工的なニューラルネットワークの振る舞いを制御するのが難しいことで悪名高い。 ハイパーパラメータを変更することでプログラムの動作を制御するアプリケーションプログラミングインタフェース(api)のように、自然言語生成を学習して事前学習した言語モデルとインタフェースする問題を再キャストする。 この新しいパラダイムでは、ニューラルネットワーク(neural programming interface(npi)と呼ばれる)は、事前学習されたモデルの隠れたアクティベーションを操作して所望の出力を生成することにより、事前学習された言語モデルとのインタフェースを学習する。 重要なことは、元のモデルの重み付けに恒久的な変更は行われず、言語モデルのあらゆる側面を上書きすることなく、新しいタスクのために事前訓練されたモデルの再利用を可能にします。 また,NPIモデルを用いて自己回帰変換器の出力を制御できる新しいデータセット構築アルゴリズムとGANにインスパイアされた損失関数も提案する。 他の最先端手法に対する実験では,OpenAI の GPT-2 モデルを用いた手法の有効性を実証し,名詞選択,話題の逆転,攻撃的音声フィルタリング,その他の言語的側面の制御に成功した。

It is notoriously difficult to control the behavior of artificial neural networks such as generative neural language models. We recast the problem of controlling natural language generation as that of learning to interface with a pretrained language model, just as Application Programming Interfaces (APIs) control the behavior of programs by altering hyperparameters. In this new paradigm, a specialized neural network (called a Neural Programming Interface or NPI) learns to interface with a pretrained language model by manipulating the hidden activations of the pretrained model to produce desired outputs. Importantly, no permanent changes are made to the weights of the original model, allowing us to re-purpose pretrained models for new tasks without overwriting any aspect of the language model. We also contribute a new data set construction algorithm and GAN-inspired loss function that allows us to train NPI models to control outputs of autoregressive transformers. In experiments against other state-of-the-art approaches, we demonstrate the efficacy of our methods using OpenAI's GPT-2 model, successfully controlling noun selection, topic aversion, offensive speech filtering, and other aspects of language while largely maintaining the controlled model's fluency under deterministic settings.
翻訳日:2021-05-15 08:33:02 公開日:2021-02-18
# (参考訳) 群衆歩行者検出のためのDETR [全文訳有]

DETR for Crowd Pedestrian Detection ( http://arxiv.org/abs/2012.06785v3 )

ライセンス: CC BY 4.0
Matthieu Lin and Chuming Li and Xingyuan Bu and Ming Sun and Chen Lin and Junjie Yan and Wanli Ouyang and Zhidong Deng(参考訳) 歩行者の群集シーンにおける歩行者検出は、アンカーから歩行者へのヒューリスティックなマッピングと、NMSと高度に重なる歩行者の衝突により、困難な問題を引き起こす。 最近提案されたend-to-end detectors(ed)、detr、deformable detrは、クエリ間のすべてのペアワイズインタラクションを計算して重複予測を排除するtransformerアーキテクチャを使用して、nmsやアンカーといった手設計のコンポーネントを置き換える。 これらの研究に触発されて,観衆の歩行者検出におけるパフォーマンスについて検討する。 驚くべきことに、FPNのFaster-RCNNと比較すると、COCOで得られたものとは逆である。 さらに, エドの2部作一致は, 群衆シーンにおける地上真実数が大きいため, トレーニング効率を損なう。 本研究では,EDの性能低下の原因を解明し,それに対応するためのデコーダを提案する。 さらに, 歩行者の目に見える部分の可視性を, ed専用に活用する機構を考案し, さらなる改善を図る。 より高速な二部マッチングアルゴリズムも導入され、群衆データセットでのEDトレーニングをより実用的なものにしている。 提案した検出器PED(Pedestrian End-to-end Detector)は、CityPersonsとCrowdHumanの以前のEDとFaster-RCNNの両方より優れている。 また、最先端の歩行者検出手法と同等の性能を発揮する。 コードはまもなくリリースされる。

Pedestrian detection in crowd scenes poses a challenging problem due to the heuristic defined mapping from anchors to pedestrians and the conflict between NMS and highly overlapped pedestrians. The recently proposed end-to-end detectors(ED), DETR and deformable DETR, replace hand designed components such as NMS and anchors using the transformer architecture, which gets rid of duplicate predictions by computing all pairwise interactions between queries. Inspired by these works, we explore their performance on crowd pedestrian detection. Surprisingly, compared to Faster-RCNN with FPN, the results are opposite to those obtained on COCO. Furthermore, the bipartite match of ED harms the training efficiency due to the large ground truth number in crowd scenes. In this work, we identify the underlying motives driving ED's poor performance and propose a new decoder to address them. Moreover, we design a mechanism to leverage the less occluded visible parts of pedestrian specifically for ED, and achieve further improvements. A faster bipartite match algorithm is also introduced to make ED training on crowd dataset more practical. The proposed detector PED(Pedestrian End-to-end Detector) outperforms both previous EDs and the baseline Faster-RCNN on CityPersons and CrowdHuman. It also achieves comparable performance with state-of-the-art pedestrian detection methods. Code will be released soon.
翻訳日:2021-05-10 08:00:17 公開日:2021-02-18
# (参考訳) L-Statistic Minimizationによるロバスト教師なし学習 [全文訳有]

Robust Unsupervised Learning via L-Statistic Minimization ( http://arxiv.org/abs/2012.07399v3 )

ライセンス: CC BY 4.0
Andreas Maurer, Daniela A. Parletta, Andrea Paudice, Massimiliano Pontil(参考訳) 基礎となるデータ分布の摂動に抵抗する学習アルゴリズムを設計することは、幅広い実践的および理論的重要性の問題である。 本稿では,教師なし学習に着目した一般的なアプローチを提案する。 鍵となる仮定は、摂動分布は与えられた許容モデルのクラスに対するより大きな損失によって特徴づけられるということである。 これは、モデルクラスに対する$L$-statistic criterionを最小化し、より小さな損失を重み付けする一般的な降下アルゴリズムによって利用される。 本解析は, 基礎となる非摂動分布に対する再構成誤差の境界の観点から, 手法のロバスト性を特徴付ける。 副産物として,教師なし学習におけるいくつかのポピュラーモデルに対する一様収束限界(unsupervised learning,unsupervise d learning)を証明し,その結果が独立した興味を持つかもしれない。kmeansクラスタリングと主部分空間解析を用いた数値実験により,本手法の有効性が証明された。

Designing learning algorithms that are resistant to perturbations of the underlying data distribution is a problem of wide practical and theoretical importance. We present a general approach to this problem focusing on unsupervised learning. The key assumption is that the perturbing distribution is characterized by larger losses relative to a given class of admissible models. This is exploited by a general descent algorithm which minimizes an $L$-statistic criterion over the model class, weighting small losses more. Our analysis characterizes the robustness of the method in terms of bounds on the reconstruction error relative to the underlying unperturbed distribution. As a byproduct, we prove uniform convergence bounds with respect to the proposed criterion for several popular models in unsupervised learning, a result which may be of independent interest.Numerical experiments with kmeans clustering and principal subspace analysis demonstrate the effectiveness of our approach.
翻訳日:2021-05-09 03:25:38 公開日:2021-02-18
# (参考訳) コンフォーメータアンサンブルを用いた分子機械学習 [全文訳有]

Molecular machine learning with conformer ensembles ( http://arxiv.org/abs/2012.08452v2 )

ライセンス: CC BY 4.0
Simon Axelrod and Rafael Gomez-Bombarelli(参考訳) 仮想スクリーニングは、実験評価の有望な候補を特定することによって、薬物発見を加速する。 機械学習は、実験データから複雑な構造-プロパティ関係を学習し、仮想ライブラリを高速に予測できるため、スクリーニングの強力な方法である。 分子は本質的に3次元のアンサンブルとして存在し、その生物学的作用は通常超分子認識によって起こる。 しかし、分子特性予測への最も深い学習アプローチは入力として2Dグラフ表現を使用し、場合によっては1つの3Dコンフォメーションを用いる。 本稿では,複数のコンバータの3次元情報(伝統的にケミノフォマティクスのコミュニティでは4次元情報)が深層学習モデルの分子特性予測を改善する方法について検討する。 我々は、ChemPropやSchnetといったキーアーキテクチャに拡張された複数のディープラーニングモデルを導入し、マルチコンフォーマー入力やコンフォーマーアテンションなどの要素を追加します。 次に,これらのモデルの性能トレードオフを2D, 3D, 4D表現で評価し, 幾何的に解決された分子の大きなトレーニングセットを用いて薬物活性の予測を行う。 新しいアーキテクチャは2Dモデルよりも大幅にパフォーマンスが向上するが、その性能は多くの場合、多くのモデルと同様、単一のコンフォーマを持つ。 また、4次元深層学習モデルでは、コンバータ毎に解釈可能な注意重みを学習する。

Virtual screening can accelerate drug discovery by identifying promising candidates for experimental evaluation. Machine learning is a powerful method for screening, as it can learn complex structure-property relationships from experimental data and make rapid predictions over virtual libraries. Molecules inherently exist as a three-dimensional ensemble and their biological action typically occurs through supramolecular recognition. However, most deep learning approaches to molecular property prediction use a 2D graph representation as input, and in some cases a single 3D conformation. Here we investigate how the 3D information of multiple conformers, traditionally known as 4D information in the cheminformatics community, can improve molecular property prediction in deep learning models. We introduce multiple deep learning models that expand upon key architectures such as ChemProp and Schnet, adding elements such as multiple-conformer inputs and conformer attention. We then benchmark the performance trade-offs of these models on 2D, 3D and 4D representations in the prediction of drug activity using a large training set of geometrically resolved molecules. The new architectures perform significantly better than 2D models, but their performance is often just as strong with a single conformer as with many. We also find that 4D deep learning models learn interpretable attention weights for each conformer.
翻訳日:2021-05-07 10:43:12 公開日:2021-02-18
# コンテクスト音声認識のためのcifに基づく協調復号化

CIF-based Collaborative Decoding for End-to-end Contextual Speech Recognition ( http://arxiv.org/abs/2012.09466v2 )

ライセンス: Link先を確認
Minglun Han and Linhao Dong and Shiyu Zhou and Bo Xu(参考訳) エンドツーエンド(E2E)モデルは、複数の音声認識ベンチマークで有望な結果を達成し、主流になる可能性を示している。 しかし、統合構造とE2Eトレーニングは、コンテキストバイアスのためにコンテキスト情報を注入するのを妨げる。 文脈的LAS(CLAS)は優れた全神経解を与えるが、与えられた文脈情報に対するバイアスの度合いは明示的に制御できない。 本稿では,より制御可能な方法でコンテキストバイアスをサポートするcif(continuous integrated-and-fire) ベースのモデルに,コンテキスト情報を組み込むことに着目する。 具体的には、コンテキスト埋め込みを抽出し、音響的に関連したコンテキスト情報を統合し、コンテキスト出力分布をデコードし、cifベースのモデルのデコーダと協調的にデコードする追加コンテキスト処理ネットワークを導入する。 HKUST/AISHELL-2の名前付きエンティティリッチ評価セットを評価したところ、強いベースラインと比較すると、CERが8.83%/21.13%、NE-CERが40.14%/51.50%減少することがわかった。 また、元の評価セットのパフォーマンスを劣化することなく維持する。

End-to-end (E2E) models have achieved promising results on multiple speech recognition benchmarks, and shown the potential to become the mainstream. However, the unified structure and the E2E training hamper injecting contextual information into them for contextual biasing. Though contextual LAS (CLAS) gives an excellent all-neural solution, the degree of biasing to given context information is not explicitly controllable. In this paper, we focus on incorporating context information into the continuous integrate-and-fire (CIF) based model that supports contextual biasing in a more controllable fashion. Specifically, an extra context processing network is introduced to extract contextual embeddings, integrate acoustically relevant context information and decode the contextual output distribution, thus forming a collaborative decoding with the decoder of the CIF-based model. Evaluated on the named entity rich evaluation sets of HKUST/AISHELL-2, our method brings relative character error rate (CER) reduction of 8.83%/21.13% and relative named entity character error rate (NE-CER) reduction of 40.14%/51.50% when compared with a strong baseline. Besides, it keeps the performance on original evaluation set without degradation.
翻訳日:2021-05-02 07:41:11 公開日:2021-02-18
# ハイブリッド連合学習:アルゴリズムと実装

Hybrid Federated Learning: Algorithms and Implementation ( http://arxiv.org/abs/2012.12420v3 )

ライセンス: Link先を確認
Xinwei Zhang, Wotao Yin, Mingyi Hong, Tianyi Chen(参考訳) Federated Learning(FL)は、分散データセットとプライベートデータセットを扱う分散機械学習パラダイムである。 データパーティションパターンに基づいて、FLはしばしば水平、垂直、ハイブリッドのセッティングに分類される。 最初の2つのアプローチで多くの作品が開発されているにもかかわらず、(部分的に重なり合う特徴空間とサンプル空間を扱う)ハイブリッドfl設定は、実際には非常に重要であるものの、まだ調査が進んでいない。 本稿では,まずハイブリッドFLのためのモデルマッチングに基づく問題定式化を行い,グローバルモデルとローカルモデルを協調的に学習し,完全かつ部分的な特徴データを扱うアルゴリズムを提案する。 提案アルゴリズムの性能を検証するため,マルチビューモデルNet40データセットの数値実験を行った。 我々の知る限り、これはハイブリッドFLのために開発された最初の定式化とアルゴリズムである。

Federated learning (FL) is a recently proposed distributed machine learning paradigm dealing with distributed and private data sets. Based on the data partition pattern, FL is often categorized into horizontal, vertical, and hybrid settings. Despite the fact that many works have been developed for the first two approaches, the hybrid FL setting (which deals with partially overlapped feature space and sample space) remains less explored, though this setting is extremely important in practice. In this paper, we first set up a new model-matching-based problem formulation for hybrid FL, then propose an efficient algorithm that can collaboratively train the global and local models to deal with full and partial featured data. We conduct numerical experiments on the multi-view ModelNet40 data set to validate the performance of the proposed algorithm. To the best of our knowledge, this is the first formulation and algorithm developed for the hybrid FL.
翻訳日:2021-04-26 07:17:28 公開日:2021-02-18
# 新型コロナウイルスパンデミックに面した安全・効率的な交通経路選択のインセンティブ

Incentivizing Routing Choices for Safe and Efficient Transportation in the Face of the COVID-19 Pandemic ( http://arxiv.org/abs/2012.15749v2 )

ライセンス: Link先を確認
Mark Beliaev, Erdem B{\i}y{\i}k, Daniel A. Lazar, Woodrow Z. Wang, Dorsa Sadigh, Ramtin Pedarsani(参考訳) 新型コロナウイルスの感染拡大は人々の日常生活に深刻な影響を与えている。 多くの国が再開段階にあるが、パンデミックが人々の行動に与える影響は、いかに異なる交通手段を選択するかなど、ずっと長く続くと予想されている。 公共交通機関の再開がかなり遅れていると専門家らは予想している。 交通渋滞の増大が予想されるのは、鉄道などのより危険で混雑している選択肢に対して、自家用車やタクシーを使う傾向にあるためである。 本稿では,安全かつ効率的な交通ネットワークを実現するために,感染リスクと混雑のトレードオフを設定するための金融インセンティブを提案する。 この目的のために、タクシー運賃を最適化するネットワーク最適化問題を定式化する。 デザイナーの努力をあまり必要とせずに、日々のさまざまな都市や時間で有用なフレームワークを提供するため、輸送オプションに関する人間好みを学習するためのデータ駆動アプローチを提案し、タクシー運賃の最適化に利用します。 ユーザ研究とシミュレーション実験により,当フレームワークは感染リスクや混雑を最小限に抑えることができることが示された。

The COVID-19 pandemic has severely affected many aspects of people's daily lives. While many countries are in a re-opening stage, some effects of the pandemic on people's behaviors are expected to last much longer, including how they choose between different transport options. Experts predict considerably delayed recovery of the public transport options, as people try to avoid crowded places. In turn, significant increases in traffic congestion are expected, since people are likely to prefer using their own vehicles or taxis as opposed to riskier and more crowded options such as the railway. In this paper, we propose to use financial incentives to set the tradeoff between risk of infection and congestion to achieve safe and efficient transportation networks. To this end, we formulate a network optimization problem to optimize taxi fares. For our framework to be useful in various cities and times of the day without much designer effort, we also propose a data-driven approach to learn human preferences about transport options, which is then used in our taxi fare optimization. Our user studies and simulation experiments show our framework is able to minimize congestion and risk of infection.
翻訳日:2021-04-19 11:07:18 公開日:2021-02-18
# BANG: 大規模プレトレーニングによる自己回帰・非自己回帰生成

BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining ( http://arxiv.org/abs/2012.15525v2 )

ライセンス: Link先を確認
Weizhen Qi, Yeyun Gong, Jian Jiao, Yu Yan, Dayiheng Liu, Weizhu Chen, Kewen Tang, Houqiang Li, Jiusheng Chen, Ruofei Zhang, Ming Zhou, Nan Duan(参考訳) 本稿では,自己回帰(AR)と非自己回帰(NAR)生成のギャップを埋める新たな事前学習モデルであるBANGを提案する。 AR と NAR の生成は,従来のトークンがどの程度参加可能か,BANG は AR と NAR の生成を大規模事前学習のための新しいモデル構造を設計することによって一様とみなすことができる。 事前訓練されたBANGモデルは、異なる要件を満たすために、同時にAR、NAR、セミNAR生成をサポートすることができる。 質問生成実験(SQuAD 1.1)、要約(XSum)、対話生成実験(PersonaChat)は、BANGがNARとセミNARの性能を大幅に改善し、強力なAR事前訓練モデルで同等の性能を達成したことを示している。 セミNARの強いベースラインと比較して、BANGはSQuAD 1.1とXSumのスコアでそれぞれ14.01と5.24の絶対的な改善を達成した。 さらに、BANGはSQuAD、XSUM、PersonaChatのスコアを強力なNARベースラインと比較して10.73、6.39、および5.90の絶対的な改善を実現している。 私たちのコードはhttps://github.com/m icrosoft/BANG で公開されます。

In this paper, we propose BANG, a new pretraining model to Bridge the gap between Autoregressive (AR) and Non-autoregressive (NAR) Generation. AR and NAR generation can be uniformly regarded as to what extent previous tokens can be attended, and BANG bridges AR and NAR generation by designing a novel model structure for large-scale pretraining. The pretrained BANG model can simultaneously support AR, NAR and semi-NAR generation to meet different requirements. Experiments on question generation (SQuAD 1.1), summarization (XSum) and dialogue generation (PersonaChat) show that BANG improves NAR and semi-NAR performance significantly as well as attaining comparable performance with strong AR pretrained models. Compared with the semi-NAR strong baselines, BANG achieves absolute improvements of 14.01 and 5.24 in the overall scores of SQuAD 1.1 and XSum, respectively. In addition, BANG achieves absolute improvements of 10.73, 6.39 and 5.90 in the overall scores of SQuAD, XSUM and PersonaChat respectively compared with the strong NAR baselines. Our code will be made publicly available at https://github.com/m icrosoft/BANG .
翻訳日:2021-04-17 17:15:32 公開日:2021-02-18
# DISCOS: 談話知識と常識知識のギャップを埋める

DISCOS: Bridging the Gap between Discourse Knowledge and Commonsense Knowledge ( http://arxiv.org/abs/2101.00154v2 )

ライセンス: Link先を確認
Tianqing Fang, Hongming Zhang, Weiqi Wang, Yangqiu Song, Bin He(参考訳) 人工知能システムが自然言語を理解するためには、常識知識が不可欠である。 従来の常識知識獲得アプローチは一般的に人間のアノテーション(例えばATOMIC)やテキスト生成モデル(例えばCOMET)に依存している。 人間のアノテーションは高品質のコモンセンス知識を提供する可能性があるが、その高コストはしばしば比較的小さなスケールと低いカバレッジをもたらす。 一方、生成モデルは、より多くの知識を自動生成する可能性がある。 それでも、機械学習モデルはトレーニングデータによく適合するため、高品質な新しい知識を生み出すのに苦労する。 本稿では,従来のアプローチの限界に対処するために,高価な複雑なコモンセンス知識を,より手頃な言語知識資源に自動的に投入する,代替のコモンセンス知識獲得フレームワークdisCOSを提案する。 実験により, 事象に関する談話知識を, 大規模談話知識グラフASERから, 付加的なアノテーションを使わずにATOMICで定義したif-then Commonsense知識に変換することができた。 さらなる研究は、ディスコが以前の監督されたアプローチを、同等の品質で新しさと多様性の観点から大きく上回っていることを示唆している。 総じて,ASERの中核部にATOMICを投入することにより,3.4MのATOMIC様推論コモンセンス知識を得ることができる。 コードとデータはhttps://github.com/H KUST-KnowComp/DISCOS -commonsenseで入手できる。

Commonsense knowledge is crucial for artificial intelligence systems to understand natural language. Previous commonsense knowledge acquisition approaches typically rely on human annotations (for example, ATOMIC) or text generation models (for example, COMET.) Human annotation could provide high-quality commonsense knowledge, yet its high cost often results in relatively small scale and low coverage. On the other hand, generation models have the potential to automatically generate more knowledge. Nonetheless, machine learning models often fit the training data well and thus struggle to generate high-quality novel knowledge. To address the limitations of previous approaches, in this paper, we propose an alternative commonsense knowledge acquisition framework DISCOS (from DIScourse to COmmonSense), which automatically populates expensive complex commonsense knowledge to more affordable linguistic knowledge resources. Experiments demonstrate that we can successfully convert discourse knowledge about eventualities from ASER, a large-scale discourse knowledge graph, into if-then commonsense knowledge defined in ATOMIC without any additional annotation effort. Further study suggests that DISCOS significantly outperforms previous supervised approaches in terms of novelty and diversity with comparable quality. In total, we can acquire 3.4M ATOMIC-like inferential commonsense knowledge by populating ATOMIC on the core part of ASER. Codes and data are available at https://github.com/H KUST-KnowComp/DISCOS -commonsense.
翻訳日:2021-04-16 11:15:38 公開日:2021-02-18
# (参考訳) 新型コロナウイルスを取り巻く暗号通貨および株式のダイナミクス、行動、異常持続性

Dynamics, behaviours, and anomaly persistence in cryptocurrencies and equities surrounding COVID-19 ( http://arxiv.org/abs/2101.00576v3 )

ライセンス: CC BY 4.0
Nick James(参考訳) 本稿では、新型コロナウイルスのパンデミックを取り巻く暗号通貨と株式の動態と挙動の類似性を研究するために、新たに導入された方法論を用いる。 45の暗号通貨と72の株式の2つのコレクションを独立かつ共同で調査する。 まず、新型コロナウイルス(COVID-19)パンデミックにおける仮想通貨と株式市場のダイナミクスの進化について検討する。 私たちは危機の時に、非常によく似たダイナミクスを示します。 次に,最近導入された2つの多変量時系列間のコントラストトラジェクタ,エロティックな振る舞い,極端な値の手法を適用した。 最後に,市場異常の経時的持続性を決定する新しいフレームワークを提案する。 意外なことに、暗号通貨は全ての市場の状況においてより強い集団的ダイナミクスと相関を示すが、その軌道や極端において株式はより同じように振る舞う。

This paper uses new and recently introduced methodologies to study the similarity in the dynamics and behaviours of cryptocurrencies and equities surrounding the COVID-19 pandemic. We study two collections; 45 cryptocurrencies and 72 equities, both independently and in conjunction. First, we examine the evolution of cryptocurrency and equity market dynamics, with a particular focus on their change during the COVID-19 pandemic. We demonstrate markedly more similar dynamics during times of crisis. Next, we apply recently introduced methods to contrast trajectories, erratic behaviours, and extreme values among the two multivariate time series. Finally, we introduce a new framework for determining the persistence of market anomalies over time. Surprisingly, we find that although cryptocurrencies exhibit stronger collective dynamics and correlation in all market conditions, equities behave more similarly in their trajectories, extremes, and show greater persistence in anomalies over time.
翻訳日:2021-04-13 05:29:34 公開日:2021-02-18
# (参考訳) 深層学習を用いた音響構造逆設計と最適化 [全文訳有]

Acoustic Structure Inverse Design and Optimization Using Deep Learning ( http://arxiv.org/abs/2102.02063v2 )

ライセンス: CC BY 4.0
Xuecong Sun, Han Jia, Yuzhen Yang, Han Zhao, Yafeng Bi, Zhaoyong Sun and Jun Yang(参考訳) 古代から近代にかけて、音響構造は音波の伝搬を制御するために用いられてきた。 しかしながら、音響構造の設計は、時間消費と計算資源消費の反復過程として広く残されている。 近年、Deep Learningは、さまざまなタスクで最先端の結果を達成した巨大なデータセットで難しい問題に取り組む能力に対して、前例のない注目を集めている。 本研究では,ディープラーニングに基づく音響構造設計手法を提案する。 例えば多階ヘルムホルツ共振器の設計から,提案手法の有効性を実験的に実証した。 提案手法は,複数の強結合パラメータを持つ音響構造物の形状を高精度に予測するだけでなく,所望の特性を最適化する進化的手法の性能を向上させることができる。 従来の数値計算法と比較して,本手法はより効率的で普遍的で自動であり,音声強調,吸音,絶縁など,幅広い潜在的な応用が期待できる。

From ancient to modern times, acoustic structures have been used to control the propagation of acoustic waves. However, the design of the acoustic structures has remained widely a time-consuming and computational resource-consuming iterative process. In recent years, Deep Learning has attracted unprecedented attention for its ability to tackle hard problems with huge datasets, which has achieved state-of-the-art results in various tasks. In this work, an acoustic structure design method is proposed based on deep learning. Taking the design of multi-order Helmholtz resonator for instance, we experimentally demonstrate the effectiveness of the proposed method. Our method is not only able to give a very accurate prediction of the geometry of the acoustic structures with multiple strong-coupling parameters, but also capable of improving the performance of evolutionary approaches in optimization for a desired property. Compared with the conventional numerical methods, our method is more efficient, universal and automatic, which has a wide range of potential applications, such as speech enhancement, sound absorption and insulation.
翻訳日:2021-04-06 12:58:52 公開日:2021-02-18
# (参考訳) 高次論理プログラムのメタ解釈学習のためのリファインメント型ダイレクトサーチ

Refinement Type Directed Search for Meta-Interpretive-Le arning of Higher-Order Logic Programs ( http://arxiv.org/abs/2102.12553v1 )

ライセンス: CC BY-SA 4.0
Rolf Morel(参考訳) 帰納的論理プログラミング(ILP)コミュニティにおけるプログラム合成問題は、典型的には非型化されている。 ユーザ提供型が背景知識にもたらすメリットを考察する。 メタ解釈学習 (Meta-Interpretive Learning, MIL) フレームワークを基盤として, プログラムの仮説空間の大部分を型チェックが引き起こせることを示す。 論理プログラム合成に対するMIL手法への多型型チェックの導入は, 探索空間と合成時間のサイズを, 型付き背景述語数の観点から3次的に減少させるという, 理論的, 実験的な結果によって検証される。 また、合成節の多型型やプログラム全体の推論も可能である。 もう1つの進歩は、ilpのリファインメントタイプを活用するアプローチを開発することである。 ここでは検索空間のさらなる切断が可能であることを示すが、精細化型チェックに使用されるSMTの解法がやってくる。

The program synthesis problem within the Inductive Logic Programming (ILP) community has typically been seen as untyped. We consider the benefits of user provided types on background knowledge. Building on the Meta-Interpretive Learning (MIL) framework, we show that type checking is able to prune large parts of the hypothesis space of programs. The introduction of polymorphic type checking to the MIL approach to logic program synthesis is validated by strong theoretical and experimental results, showing a cubic reduction in the size of the search space and synthesis time, in terms of the number of typed background predicates. Additionally we are able to infer polymorphic types of synthesized clauses and of entire programs. The other advancement is in developing an approach to leveraging refinement types in ILP. Here we show that further pruning of the search space can be achieved, though the SMT solving used for refinement type checking comes
翻訳日:2021-04-06 03:32:11 公開日:2021-02-18
# (参考訳) オーディオビジュアル音声合成:簡単な文献レビュー [全文訳有]

AudioVisual Speech Synthesis: A brief literature review ( http://arxiv.org/abs/2103.03927v1 )

ライセンス: CC BY 4.0
Efthymios Georgiou, Athanasios Katsamanis(参考訳) 本総説では,テキストを入力とした音声合成の問題である音声合成の問題について概説する。 この問題の複雑さが高いため、我々は2つの問題の合成としてアプローチする。 具体的には、テキスト音声合成(TTS)と音声駆動音声ヘッドアニメーションを併用する。 ttsの場合、例えば、テキストを中間音響表現にマッピングするために使用されるモデルを示す。 メル・スペクトログラム、およびこれらの中間表現、すなわちボコーダに条件付き音声信号を生成するモデル。 対話型アニメーション問題に対しては,人間の顔や擬人化図形を創り出すかに基づいてアプローチを分類する。 また,第2症例における顔モデルの選択の重要性についても検討した。 本稿では,音声視覚音声合成における最も重要な課題について概説し,様々なアプローチの利点とデメリットを強調した。

This brief literature review studies the problem of audiovisual speech synthesis, which is the problem of generating an animated talking head given a text as input. Due to the high complexity of this problem, we approach it as the composition of two problems. Specifically, that of Text-to-Speech (TTS) synthesis as well as the voice-driven talking head animation. For TTS, we present models that are used to map text to intermediate acoustic representations, e.g. mel-spectrograms, as well as models that generate voice signals conditioned on these intermediate representations, i.e vocoders. For the talking-head animation problem, we categorize approaches based on whether they produce human faces or anthropomorphic figures. An attempt is also made to discuss the importance of the choice of facial models in the second case. Throughout the review, we briefly describe the most important work in audiovisual speech synthesis, trying to highlight the advantages and disadvantages of the various approaches.
翻訳日:2021-04-05 13:22:24 公開日:2021-02-18
# 不均衡企業信用格付けのコントラスト事前研修

Contrastive Pre-training for Imbalanced Corporate Credit Ratings ( http://arxiv.org/abs/2102.12580v1 )

ライセンス: Link先を確認
Bojing Feng, Wenfang Xue(参考訳) 企業信用格付けは企業信用のレベルを反映し、現代金融リスク管理において重要な役割を果たす。 しかし、実世界の信用格付けデータは、通常、ロングテール分布を示す。 そこで本研究では, 自己管理型表現学習における事前学習技術の最近の進歩を活かし, 企業信用評価のためのコントラスト・プレトレーニング(cp4ccr)と呼ばれる新しい枠組みを提案する。 具体的には,第1フェーズにおいて,より優れたクラスに依存しない初期化を学習したいラベル情報なしで,自己補完型事前学習を行うことを提案する。 この段階では、cp4ccr内で2つの自己監督タスクが開発されている: (i) feature masking (fm) と (ii) feature swapping (fs) である。 第2フェーズでは、トレーニング済みネットワークによって初期化される標準的な企業リミット評価モデルをトレーニングすることができる。 中国の上場企業格付けデータセットで実施された大規模な実験は、CP4CCRが標準的な企業格付けモデルの性能を改善することができることを証明している。

Corporate credit rating reflects the level of corporate credit and plays a crucial role in modern financial risk control. But real-world credit rating data usually shows long-tail distributions, which means heavy class imbalanced problem challenging the corporate credit rating system greatly. To tackle that, inspried by the recent advances of pre-train techniques in self-supervised representation learning, we propose a novel framework named Contrastive Pre-training for Corporate Credit Rating (CP4CCR), which utilizes the self-surpervision for getting over class imbalance. Specifically, we propose to, in the first phase, exert constrastive self-superivised pre-training without label information, which want to learn a better class-agnostic initialization. During this phase, two self-supervised task are developed within CP4CCR: (i) Feature Masking (FM) and (ii) Feature Swapping(FS). In the second phase, we can train any standard corporate redit rating model initialized by the pre-trained network. Extensive experiments conducted on the Chinese public-listed corporate rating dataset, prove that CP4CCR can improve the performance of standard corporate credit rating models, especially for class with few samples.
翻訳日:2021-04-05 00:44:37 公開日:2021-02-18
# 失敗を説明することで論理プログラムを学ぶ

Learning Logic Programs by Explaining Failures ( http://arxiv.org/abs/2102.12551v1 )

ライセンス: Link先を確認
Rolf Morel, Andrew Cropper(参考訳) 科学者は仮説を作り、実験的にテストする。 仮説が失敗(否定)した場合、科学者は、他の仮説を取り除こうとする失敗を説明する。 帰納論理プログラミング (ilp) にも同様の説明手法を導入する。 私たちは失敗から学ぶILPアプローチに基づいています。 論理プログラムとして表される仮説が与えられたら、実例で試す。 仮説が失敗すれば、失敗の原因となる節やリテラルを特定する。 失敗を説明することで、確実に失敗する他の仮説を排除できます。 本研究では,SLD木解析に基づく故障解析手法を提案する。 我々はpopper ilpシステムにおける障害説明を実験的に評価した。 その結果,失敗を説明することで学習時間を劇的に短縮できることがわかった。

Scientists form hypotheses and experimentally test them. If a hypothesis fails (is refuted), scientists try to explain the failure to eliminate other hypotheses. We introduce similar explanation techniques for inductive logic programming (ILP). We build on the ILP approach learning from failures. Given a hypothesis represented as a logic program, we test it on examples. If a hypothesis fails, we identify clauses and literals responsible for the failure. By explaining failures, we can eliminate other hypotheses that will provably fail. We introduce a technique for failure explanation based on analysing SLD-trees. We experimentally evaluate failure explanation in the Popper ILP system. Our results show that explaining failures can drastically reduce learning times.
翻訳日:2021-04-05 00:43:51 公開日:2021-02-18
# TypeNet: ディープラーニングのキーストロークバイオメトリクス

TypeNet: Deep Learning Keystroke Biometrics ( http://arxiv.org/abs/2101.05570v2 )

ライセンス: Link先を確認
Alejandro Acien and Aythami Morales and John V. Monaco and Ruben Vera-Rodriguez and Julian Fierrez(参考訳) キーストローク生体認証のための長期短期記憶ネットワークの性能を,フリーテキストシナリオにおいて大規模に検討した。 このために、idごとに適度な数のキーストロークでトレーニングされたリカレントニューラルネットワーク(recurrent neural network, rnn)であるtypenetを紹介する。 我々は,損失関数(ソフトマックス,コントラスト,トリプルト損失),ギャラリーサンプル数,キーストローク配列の長さ,デバイスタイプ(物理対タッチスクリーンキーボード)によって異なる学習方法を評価する。 5つのギャラリーシーケンスと長さ50のテストシーケンスでtypenetは、物理キーボードとタッチスクリーンキーボードでそれぞれ2.2%と9.2%のエラー率で最先端のキーストローク生体認証性能を実現している。 実験では,最大10,000人の被験者による誤りの程度の増加を示し,インターネット規模でのTypeNetの運用の可能性を示した。 2つのAalto Universityキーストロークデータベースを使用し、1つは物理キーボードで、もう1つはモバイルデバイス(タッチスクリーンキーボード)で取得する。 私たちの知る限り、両方のデータベースは、物理キーボードで16万8000人の被験者から1億3600万件以上のキーストローク、モバイルタッチスクリーンで6300万件以上のキーストロークを入手した6万件の被験者を対象に、研究用に利用可能な最大規模のフリーテキストキーストロークデータベースである。

We study the performance of Long Short-Term Memory networks for keystroke biometric authentication at large scale in free-text scenarios. For this we introduce TypeNet, a Recurrent Neural Network (RNN) trained with a moderate number of keystrokes per identity. We evaluate different learning approaches depending on the loss function (softmax, contrastive, and triplet loss), number of gallery samples, length of the keystroke sequences, and device type (physical vs touchscreen keyboard). With 5 gallery sequences and test sequences of length 50, TypeNet achieves state-of-the-art keystroke biometric authentication performance with an Equal Error Rate of 2.2% and 9.2% for physical and touchscreen keyboards, respectively, significantly outperforming previous approaches. Our experiments demonstrate a moderate increase in error with up to 100,000 subjects, demonstrating the potential of TypeNet to operate at an Internet scale. We utilize two Aalto University keystroke databases, one captured on physical keyboards and the second on mobile devices (touchscreen keyboards). To the best of our knowledge, both databases are the largest existing free-text keystroke databases available for research with more than 136 million keystrokes from 168,000 subjects in physical keyboards, and 60,000 subjects with more than 63 million keystrokes acquired on mobile touchscreens.
翻訳日:2021-03-29 00:51:13 公開日:2021-02-18
# ベイズ推論フォーミング

Bayesian Inference Forgetting ( http://arxiv.org/abs/2101.06417v2 )

ライセンス: Link先を確認
Shaopeng Fu, Fengxiang He, Yue Xu, Dacheng Tao(参考訳) 忘れられる権利は、多くの国で合法化されているが、機械学習の施行は、膨大なコストを発生させる。 既存の研究は、ベイズ推論においてもはや自然に明確に定義されていない影響関数を通じて、要求されたデータから学んだ知識を取り除くことを提案する。 本稿では,ベイズ推論において忘れられる権利を実現するためのBIFフレームワークを提案する。 bifフレームワークでは、変分推論とマルコフ連鎖モンテカルロのための忘れるアルゴリズムを開発した。 我々のアルゴリズムは学習モデルに対する単一のデームの影響を立証できることを示した。 理論的解析は、我々のアルゴリズムが一般化可能性を保証することを示した。 合成データセット上のガウス混合モデルと実世界データ上のベイズニューラルネットワークの実験により,本手法の有効性が検証された。 ソースコードパッケージは \url{https://github.com/f shp971/BIF} で入手できる。

The right to be forgotten has been legislated in many countries but the enforcement in machine learning would cause unbearable costs: companies may need to delete whole models learned from massive resources due to single individual requests. Existing works propose to remove the knowledge learned from the requested data via its influence function which is no longer naturally well-defined in Bayesian inference. This paper proposes a {\it Bayesian inference forgetting} (BIF) framework to realize the right to be forgotten in Bayesian inference. In the BIF framework, we develop forgetting algorithms for variational inference and Markov chain Monte Carlo. We show that our algorithms can provably remove the influence of single datums on the learned models. Theoretical analysis demonstrates that our algorithms have guaranteed generalizability. Experiments of Gaussian mixture models on the synthetic dataset and Bayesian neural networks on the real-world data verify the feasibility of our methods. The source code package is available at \url{https://github.com/f shp971/BIF}.
翻訳日:2021-03-28 04:38:00 公開日:2021-02-18
# 深層学習モデルとベイズ不確かさ推定を用いたシーケンスタグのアクティブ学習

Active Learning for Sequence Tagging with Deep Pre-trained Models and Bayesian Uncertainty Estimates ( http://arxiv.org/abs/2101.08133v2 )

ライセンス: Link先を確認
Artem Shelmanov, Dmitri Puzyrev, Lyubov Kupriyanova, Denis Belyakov, Daniil Larionov, Nikita Khromov, Olga Kozlova, Ekaterina Artemova, Dmitry V. Dylov, and Alexander Panchenko(参考訳) テキストのシーケンスタグ付けのためのトレーニングデータのアノテーションは通常、非常に時間がかかる。 近年の自然言語処理における伝達学習とアクティブラーニングの併用により,必要なアノテーション予算を大幅に削減する可能性が高まっている。 シーケンスタグ付けタスクでこの強力な組み合わせを徹底的に調査するのは,今回が初めてです。 本研究では,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションを,アクティブラーニングフレームワークにおける深層学習モデルに適用し,異なるタイプのモデルに最適な組み合わせを求める。 さらに,アクティブラーニング中にインスタンスを取得する場合,フルサイズのトランスフォーマーを蒸留版に置き換えることで,計算性能が向上し,実際に深層アクティブラーニングを適用する上での障害を低減できることを示した。

Annotating training data for sequence tagging of texts is usually very time-consuming. Recent advances in transfer learning for natural language processing in conjunction with active learning open the possibility to significantly reduce the necessary annotation budget. We are the first to thoroughly investigate this powerful combination for the sequence tagging task. We conduct an extensive empirical study of various Bayesian uncertainty estimation methods and Monte Carlo dropout options for deep pre-trained models in the active learning framework and find the best combinations for different types of models. Besides, we also demonstrate that to acquire instances during active learning, a full-size Transformer can be substituted with a distilled version, which yields better computational performance and reduces obstacles for applying deep active learning in practice.
翻訳日:2021-03-22 01:27:48 公開日:2021-02-18
# (参考訳) BF++:汎用プログラム合成のための言語 [全文訳有]

BF++: a language for general-purpose program synthesis ( http://arxiv.org/abs/2101.09571v3 )

ライセンス: CC BY 4.0
Vadim Liventsev, Aki H\"arm\"a and Milan Petkovi\'c(参考訳) 強化学習(rl)に基づく技術判断システムのほとんどは、データ駆動のブラックボックスニューラルモデルであり、モデルに専門家の知識を取り入れたり、専門家が学習した意思決定メカニズムをレビューしたり検証したりするのは難しい。 知識挿入とモデルレビューは、人間の健康と安全に関わる多くのアプリケーションにおいて重要な要件である。 データと知識駆動システムのギャップを埋める1つの方法はプログラム合成である。ニューラルネットワークによって生成されたシンボルプログラムや遺伝的プログラミングによって決定を出力するニューラルネットワークを置き換える。 我々は,部分可観測マルコフ決定プロセス (pomdp) におけるエージェントの自動プログラミング用に設計された新しいプログラミング言語bf++を提案し,標準openaiジムベンチマークの解法にニューラルネットワーク合成を適用する。

Most state of the art decision systems based on Reinforcement Learning (RL) are data-driven black-box neural models, where it is often difficult to incorporate expert knowledge into the models or let experts review and validate the learned decision mechanisms. Knowledge-insertion and model review are important requirements in many applications involving human health and safety. One way to bridge the gap between data and knowledge driven systems is program synthesis: replacing a neural network that outputs decisions with a symbolic program generated by a neural network or by means of genetic programming. We propose a new programming language, BF++, designed specifically for automatic programming of agents in a Partially Observable Markov Decision Process (POMDP) setting and apply neural program synthesis to solve standard OpenAI Gym benchmarks.
翻訳日:2021-03-20 10:49:45 公開日:2021-02-18
# 安全学習と最適化技術--技術の現状調査に向けて

Safe Learning and Optimization Techniques: Towards a Survey of the State of the Art ( http://arxiv.org/abs/2101.09505v2 )

ライセンス: Link先を確認
Youngmin Kim, Richard Allmendinger and Manuel L\'opez-Ib\'a\~nez(参考訳) 安全な学習と最適化は、解決不可能な損失(例えば、機械や機器の破損、生命の脅威)を引き起こすソリューション、ポリシー、戦略である、安全でない入力ポイントの評価を可能な限り避ける学習と最適化の問題を扱う。 安全強化学習アルゴリズムに関する包括的な調査は2015年に発表されたが、その後多くの新しいアルゴリズムが提案され、アクティブラーニングと最適化に関する関連研究は考慮されていない。 本稿では,強化学習,ガウス過程の回帰と分類,進化的アルゴリズム,アクティブラーニングなど,様々な分野のアルゴリズムについて概説する。 本稿では,レビューアルゴリズムの基盤となる基本概念と,個々のアルゴリズムの特性について述べる。 我々は、アルゴリズムがどのように接続されているかを説明し、今後の研究を提案する。

Safe learning and optimization deals with learning and optimization problems that avoid, as much as possible, the evaluation of non-safe input points, which are solutions, policies, or strategies that cause an irrecoverable loss (e.g., breakage of a machine or equipment, or life threat). Although a comprehensive survey of safe reinforcement learning algorithms was published in 2015, a number of new algorithms have been proposed thereafter, and related works in active learning and in optimization were not considered. This paper reviews those algorithms from a number of domains including reinforcement learning, Gaussian process regression and classification, evolutionary algorithms, and active learning. We provide the fundamental concepts on which the reviewed algorithms are based and a characterization of the individual algorithms. We conclude by explaining how the algorithms are connected and suggestions for future research.
翻訳日:2021-03-19 10:39:34 公開日:2021-02-18
# (参考訳) RF光インジェクタのデータ駆動モデリングのためのディープラーニングに基づくオートエンコーダ [全文訳有]

Deep Learning-Based Autoencoder for Data-Driven Modeling of an RF Photoinjector ( http://arxiv.org/abs/2101.10437v2 )

ライセンス: CC BY 4.0
Jun Zhu, Ye Chen, Frank Brinker, Winfried Decking, Sergey Tomin, Holger Schlarb(参考訳) 欧州xfelフォトインジェクタにおける縦型位相空間診断ビームラインのモデル化には,データ駆動方式を採用する。 深層畳み込みニューラルネットワーク(decoder)は、別のニューラルネットワーク(encoder)によって学習される小さな特徴空間から2d分布を構築するために使用される。 実験データに基づいて訓練されたオートエンコーダは,縦方向位相空間計測のためのメガピクセル画像の非常に高品質な予測を行うことができる。 この予測は既存の方法を大幅に上回る。 また、光インジェクタの異なる設定に使用する複数のエンコーダと同一のデコーダを共有することで、オートエンコーダの明示性を示す。 これにより、ニューラルネットワークを使用してフォトインジェクタを正確にモデリングする新しい方法への扉が開きます。 このアプローチは、加速器全体や光子ビームラインにまで拡張することができる。

We adopt a data-driven approach to model the longitudinal phase-space diagnostic beamline at the European XFEL photoinjector. A deep convolutional neural network (decoder) is used to build a 2D distribution from a small feature space learned by another neural network (encoder). We demonstrate that the autoencoder trained on experimental data can make very high-quality predictions of megapixel images for the longitudinal phase-space measurement. The prediction significantly outperforms existing methods. We also show the explicability of the autoencoder by sharing the same decoder with more than one encoder used for different setups of the photoinjector. This opens the door to a new way of accurately modeling a photoinjector using neural networks. The approach can possibly be extended to the whole accelerator and even the photon beamlines.
翻訳日:2021-03-14 21:01:19 公開日:2021-02-18
# GRIFFIN知覚データセット:フラッピングウィング飛行とロボット知覚の間のギャップを埋める

The GRIFFIN Perception Dataset: Bridging the Gap Between Flapping-Wing Flight and Robotic Perception ( http://arxiv.org/abs/2101.10371v2 )

ライセンス: Link先を確認
J.P. Rodr\'iguez-G\'omez, R. Tapia, J. L. Paneque, P. Grau, A. G\'omez Egu\'iluz, J.R. Mart\'inez-de Dios and A. Ollero(参考訳) バイオインスパイアされた羽ばたきロボットのための自動認識システムや技術の開発は、これらのプラットフォームの技術的な複雑さと搭載センサーや電子機器の設置によって著しく妨げられている。 さらに、羽ばたきロボットの知覚は、飛行中に高い振動レベルと急激な動きに悩まされ、動きのぼやけや照明条件の強い変化を引き起こす。 本稿では,鳥型羽ばたきロボットの認識データセットを,前述の問題を緩和するためのツールとして提案する。 提示されたデータには、エアロロボティクスで広く使用されているオンボードセンサーからの測定が含まれており、イベントカメラ、従来のカメラ、慣性測定ユニット(IMU)などの羽ばたきロボットの認識課題に対処するのに適しており、レーザートラッカーやモーションキャプチャーシステムからの地上の真実測定も含んでいる。 合計21の異なる種類の飛行のデータセットが3つの異なるシナリオ(屋内1つと屋外2つ)で収集された。 著者の知る限りでは、これは羽ばたきロボット知覚のための最初のデータセットである。

The development of automatic perception systems and techniques for bio-inspired flapping-wing robots is severely hampered by the high technical complexity of these platforms and the installation of onboard sensors and electronics. Besides, flapping-wing robot perception suffers from high vibration levels and abrupt movements during flight, which cause motion blur and strong changes in lighting conditions. This paper presents a perception dataset for bird-scale flapping-wing robots as a tool to help alleviate the aforementioned problems. The presented data include measurements from onboard sensors widely used in aerial robotics and suitable to deal with the perception challenges of flapping-wing robots, such as an event camera, a conventional camera, and two Inertial Measurement Units (IMUs), as well as ground truth measurements from a laser tracker or a motion capture system. A total of 21 datasets of different types of flights were collected in three different scenarios (one indoor and two outdoor). To the best of the authors' knowledge this is the first dataset for flapping-wing robot perception.
翻訳日:2021-03-14 18:59:44 公開日:2021-02-18
# 学習確率測定のためのツリーブースト

Tree boosting for learning probability measures ( http://arxiv.org/abs/2101.11083v2 )

ライセンス: Link先を確認
Naoki Awaya and Li Ma(参考訳) i.i.dに基づく学習確率測定 サンプルは基本的な推論タスクですが、サンプル空間が高次元である場合には困難です。 高次元分類と回帰におけるツリーブーストの成功に触発され、高次元確率分布を学習するためのツリーブースト法を提案する。 我々は、古典CDFよりも多変量累積分布関数(CDF)のより一般的な概念の合成の観点から、確率分布に関する「付加」と「残留」の概念を定式化する。 これにより、測定の付加アンサンブルの前方段階(FS)フィッティングに基づく単純なブーストアルゴリズムが生まれます。 FSアルゴリズムの出力は、適合した分布の確率密度関数の解析計算を可能にする。 また、測定値から独立したモンテカルロサンプルを描くための正確なシミュレータも提供する。 木数の選択、弱い学習者における縮小/正規化の適切なレベルの設定、変数重要度の評価など、強化の適用に関する典型的な考察は、教師あり学習における従来の強化と同じような方法で達成できる。 数値実験により, ブーピングは, 最先端の単木学習者と比較して, 多変量分布の適合性を大幅に改善し, 計算効率が向上することが確認された。 本研究では,マスサイトメトリーによるデータセットの応用を通じて,シミュレーションを用いて分布の様々な側面を調査する方法を解説する。

Learning probability measures based on an i.i.d. sample is a fundamental inference task, but is challenging when the sample space is high-dimensional. Inspired by the success of tree boosting in high-dimensional classification and regression, we propose a tree boosting method for learning high-dimensional probability distributions. We formulate concepts of "addition'' and "residuals'' on probability distributions in terms of compositions of a new, more general notion of multivariate cumulative distribution functions (CDFs) than classical CDFs. This then gives rise to a simple boosting algorithm based on forward-stagewise (FS) fitting of an additive ensemble of measures. The output of the FS algorithm allows analytic computation of the probability density function for the fitted distribution. It also provides an exact simulator for drawing independent Monte Carlo samples from the fitted measure. Typical considerations in applying boosting -- namely choosing the number of trees, setting the appropriate level of shrinkage/regulariza tion in the weak learner, and the evaluation of variable importance -- can be accomplished in an analogous fashion to traditional boosting in supervised learning. Numerical experiments confirm that boosting can substantially improve the fit to multivariate distributions compared to the state-of-the-art single-tree learner and is computationally efficient. We illustrate through an application to a data set from mass cytometry how the simulator can be used to investigate various aspects of the underlying distribution.
翻訳日:2021-03-13 19:36:53 公開日:2021-02-18
# (参考訳) 管理システムにおける関係データベース操作のための意味解析 [全文訳有]

Semantic Parsing to Manipulate Relational Database For a Management System ( http://arxiv.org/abs/2102.11047v1 )

ライセンス: CC BY-SA 4.0
Muhammad Hamzah Mushtaq(参考訳) チャットボットやAIアシスタントは、今日の生活においてその重要性を主張している。 この技術を採用する主な理由は、ユーザと接続し、要求を理解し、それを満たすことにある。 これは達成されましたが、重いトレーニングデータと複雑な学習モデルのコストがかかります。 本研究は,それぞれの作業範囲で異なる分野に実装可能なモデルとして,単純なアルゴリズムを提案する。 提案モデルは、人間の言語テキストをコンピュータ理解可能なsqlクエリに変換する。 モデルは特定のフィールドのみに関連するデータを必要とし、データ空間を節約する。 このモデルは線形計算を行い、計算複雑性を解く。 この作業はまた、新しい方法論が実装される段階と、その段階の要件を満たすために以前の手法が採用された段階も定義する。 オンラインで利用可能な2つのデータセット、ATISデータセットとWikiSQLがこの作業で使用される。 この研究は2つのデータセットの計算時間を比較し、両者の精度を比較する。 本稿では,意味解析やner,発話の一部といった自然言語処理の基本的なタスクを処理し,これらの単純な手法で結果を得る傾向を示す。

Chatbots and AI assistants have claimed their importance in today life. The main reason behind adopting this technology is to connect with the user, understand their requirements, and fulfill them. This has been achieved but at the cost of heavy training data and complex learning models. This work is carried out proposes a simple algorithm, a model which can be implemented in different fields each with its own work scope. The proposed model converts human language text to computer-understanda ble SQL queries. The model requires data only related to the specific field, saving data space. This model performs linear computation hence solving the computational complexity. This work also defines the stages where a new methodology is implemented and what previous method was adopted to fulfill the requirement at that stage. Two datasets available online will be used in this work, the ATIS dataset, and WikiSQL. This work compares the computation time among the 2 datasets and also compares the accuracy of both. This paper works over basic Natural language processing tasks like semantic parsing, NER, parts of speech and tends to achieve results through these simple methods.
翻訳日:2021-02-24 16:03:31 公開日:2021-02-18
# (参考訳) JST-RRモデル:感覚トピック予測におけるレーティングとレビューの連成モデリング

JST-RR Model: Joint Modeling of Ratings and Reviews in Sentiment-Topic Prediction ( http://arxiv.org/abs/2102.11048v1 )

ライセンス: CC BY 4.0
Qiao Liang, Shyam Ranganathan, Kaibo Wang and Xinwei Deng(参考訳) オンラインレビューの分析は幅広いアプリケーションで注目を集めている。 多くの場合、テキストレビューはデータの数値評価と結合されます。 本研究では,本質的な関連性を考慮したテキストレビューと総合評価の両方に対応する確率モデルを提案する。 提案手法の鍵となるのは、レビューテキストに基づいてトピックモデリングを構築し、レビューテキストと総合評価を組み合わせることで感情予測を行う統合生成モデルを構築することである。 モデルパラメータの推論は、効率的なgibbsサンプリング手順によって得られる。 提案手法は,レビューデータの予測精度を高め,解釈可能な話題や感情を効果的に検出する。 提案手法のメリットは,amazon datasets と simulation studies のケーススタディで詳述されている。

Analysis of online reviews has attracted great attention with broad applications. Often times, the textual reviews are coupled with the numerical ratings in the data. In this work, we propose a probabilistic model to accommodate both textual reviews and overall ratings with consideration of their intrinsic connection for a joint sentiment-topic prediction. The key of the proposed method is to develop a unified generative model where the topic modeling is constructed based on review texts and the sentiment prediction is obtained by combining review texts and overall ratings. The inference of model parameters are obtained by an efficient Gibbs sampling procedure. The proposed method can enhance the prediction accuracy of review data and achieve an effective detection of interpretable topics and sentiments. The merits of the proposed method are elaborated by the case study from Amazon datasets and simulation studies.
翻訳日:2021-02-24 00:42:01 公開日:2021-02-18
# オフライングレーディアルゴリズムによるオンライン学習:市場設計と最適化への応用

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization ( http://arxiv.org/abs/2102.11050v1 )

ライセンス: Link先を確認
Rad Niazadeh (1), Negin Golrezaei (2), Joshua Wang (3), Fransisca Susan (2), Ashwinkumar Badanidiyuru (3) ((1) Chicago Booth School of Business, Operations Management, (2) MIT Sloan School of Management, Operations Management, (3) Google Research Mountain View)(参考訳) 時間変化型コンビネーション環境でのオンライン意思決定を動機に、オフラインアルゴリズムをオンラインのコンビネーションに変換する問題を研究します。 局所誤差に対して堅牢なグリーディアルゴリズムを用いて、一定の因子近似に耐えうるオフラインコンビネーション問題に焦点を当てます。 このような問題に対して,我々は blackwell approachability を用いてオフラインロバストなアルゴリズムをオンラインアルゴリズムに効率的に変換する汎用フレームワークを提供する。 得られたオンラインアルゴリズムは、完全な情報設定の下で、$O(\sqrt{T})$(近似)後悔を持つことを示す。 さらに、Bandit Blackwell approachabilityと呼ばれるBlackwell approachabilityのBandit拡張についても紹介します。 我々はこの概念を利用して、強固なオフラインアルゴリズムをバンドイット設定で$o(t^{2/3})$(約)の後悔に変換する。 当社のフレームワークの柔軟性を示すために,オンラインプラットフォームにおける製品ランキング最適化,オークションにおけるリザーブ価格の最適化,サブモジュラリティの最大化など,収益管理,マーケットデザイン,オンライン最適化の交差点にあるいくつかの問題に,オフラインからオンラインへの変換を適用します。 これらのアプリケーションに適用した場合、我々の変換が新たな後悔境界をもたらすか、現在の既知の境界を改善するかを示す。

Motivated by online decision-making in time-varying combinatorial environments, we study the problem of transforming offline algorithms to their online counterparts. We focus on offline combinatorial problems that are amenable to a constant factor approximation using a greedy algorithm that is robust to local errors. For such problems, we provide a general framework that efficiently transforms offline robust greedy algorithms to online ones using Blackwell approachability. We show that the resulting online algorithms have $O(\sqrt{T})$ (approximate) regret under the full information setting. We further introduce a bandit extension of Blackwell approachability that we call Bandit Blackwell approachability. We leverage this notion to transform greedy robust offline algorithms into a $O(T^{2/3})$ (approximate) regret in the bandit setting. Demonstrating the flexibility of our framework, we apply our offline-to-online transformation to several problems at the intersection of revenue management, market design, and online optimization, including product ranking optimization in online platforms, reserve price optimization in auctions, and submodular maximization. We show that our transformation, when applied to these applications, leads to new regret bounds or improves the current known bounds.
翻訳日:2021-02-23 15:07:16 公開日:2021-02-18
# (参考訳) SVRG、AdaGradと対談-無痛のばらつき軽減へ

SVRG Meets AdaGrad: Painless Variance Reduction ( http://arxiv.org/abs/2102.09645v1 )

ライセンス: CC BY 4.0
Benjamin Dubois-Taine, Sharan Vaswani, Reza Babanezhad, Mark Schmidt, Simon Lacoste-Julien(参考訳) 有限和最小化のための分散減少(VR)法は通常、しばしば未知で推定が難しい問題依存定数の知識を必要とする。 そこで本研究では,適応的勾配法(Adaptive gradient method, AdaSVRG)のアイデアを用いて,SVRGの完全適応版であるAdaSVRGを提案する。 AdaSVRGはSVRGの内ループにAdaGradを使用し、ステップサイズの選択に頑健であり、各内ループの長さを適応的に決定できる。 n$ の滑らかな凸関数の和を最小化する場合、adasvrg は通常のレートにマッチするが問題依存定数を知らずに $\epsilon$-suboptima lity を達成するために$o(n + 1/\epsilon)$勾配評価が必要であることが証明される。 しかし、トレーニングデータを補間できる過パラメータモデルを使用する場合、AdaSVRGなどのVR手法はSGDよりも遅い。 そこで本研究では,アダグラードからアダスvrgへ適応的に切り替えることができるハイブリッドアルゴリズムを提案する。 合成および標準実世界のデータセットを用いた実験により,adasvrgのロバスト性と有効性を検証し,他の「チューンフリー」なvr手法よりも優れた性能を示す。

Variance reduction (VR) methods for finite-sum minimization typically require the knowledge of problem-dependent constants that are often unknown and difficult to estimate. To address this, we use ideas from adaptive gradient methods to propose AdaSVRG, which is a fully adaptive variant of SVRG, a common VR method. AdaSVRG uses AdaGrad in the inner loop of SVRG, making it robust to the choice of step-size, and allowing it to adaptively determine the length of each inner-loop. When minimizing a sum of $n$ smooth convex functions, we prove that AdaSVRG requires $O(n + 1/\epsilon)$ gradient evaluations to achieve an $\epsilon$-suboptima lity, matching the typical rate, but without needing to know problem-dependent constants. However, VR methods including AdaSVRG are slower than SGD when used with over-parameterized models capable of interpolating the training data. Hence, we also propose a hybrid algorithm that can adaptively switch from AdaGrad to AdaSVRG, achieving the best of both stochastic gradient and VR methods, but without needing to tune their step-sizes. Via experiments on synthetic and standard real-world datasets, we validate the robustness and effectiveness of AdaSVRG, demonstrating its superior performance over other "tune-free" VR methods.
翻訳日:2021-02-23 11:31:04 公開日:2021-02-18
# (参考訳) MUDES:攻撃的スパンの多言語検出 [全文訳有]

MUDES: Multilingual Detection of Offensive Spans ( http://arxiv.org/abs/2102.09665v1 )

ライセンス: CC BY 4.0
Tharindu Ranasinghe, Marcos Zampieri(参考訳) ソーシャルメディアにおける攻撃的コンテンツ識別への関心は近年大きくなっている。 以前の作業は、主にポストレベルのアノテーションを扱う。 しかし、攻撃的スパンの特定は多くの点で有用である。 この課題に対処するために,テキスト中の攻撃的スパンを検出する多言語システム MUDES を提案する。 MUDESは、事前トレーニングされたモデル、開発者向けのPython API、ユーザフレンドリーなWebベースインターフェースを備えている。 本論文では,MUDESの構成要素について詳述する。

The interest in offensive content identification in social media has grown substantially in recent years. Previous work has dealt mostly with post level annotations. However, identifying offensive spans is useful in many ways. To help coping with this important challenge, we present MUDES, a multilingual system to detect offensive spans in texts. MUDES features pre-trained models, a Python API for developers, and a user-friendly web-based interface. A detailed description of MUDES' components is presented in this paper.
翻訳日:2021-02-23 02:21:34 公開日:2021-02-18
# (参考訳) 動的顔強調によるディープフェイク検出の改善 [全文訳有]

Improving DeepFake Detection Using Dynamic Face Augmentation ( http://arxiv.org/abs/2102.09603v1 )

ライセンス: CC BY-SA 4.0
Sowmen Das, Arup Datta, Md. Saiful Islam, Md. Ruhul Amin(参考訳) DeepFake生成方法の改善により、変更および操作された顔の作成がより一般的になりました。 同時に,画像や映像の内容から操作された顔とオリジナル顔とを区別する検出モデルの開発を行った。 公開されているほとんどのDeepFake検出データセットは、単一の顔が多くのビデオで使用されているため、トレーニングデータセットが過剰にサンプル化されていることを観察しました。 このため、ディープニューラルネットワークは、DeepFakeコンテンツの操作機能を検出するための学習ではなく、顔の特徴に過剰に適合する傾向があります。 その結果、ほとんどの検出アーキテクチャは、目に見えないデータでテストすると性能が悪くなる。 本論文では,この問題を定量的に解析し,少量のアクターから発生する試料量が多いため,モデルオーバーフィッティングを未然に防ぐためのソリューションを提案する。 本研究では,畳み込みニューラルネットワーク(cnn)の学習のためのデータ拡張手法であるface-cutoutを提案する。 この方法では、向きに関係なく顔のランドマーク情報を用いて、様々な閉塞を有する訓練画像を動的に生成する。 他の汎用的な増強法とは異なり、DeepFake検出に不可欠な顔情報に焦点を当てています。 本手法は,他のオクルージョンベース拡張法と比較して,異なるデータセットで15.2%から35.3%のログロス削減を実現する。 Face-CutoutはCNNベースの認識モデルと簡単に統合でき、検出性能が向上します。

The creation of altered and manipulated faces has become more common due to the improvement of DeepFake generation methods. Simultaneously, we have seen detection models' development for differentiating between a manipulated and original face from image or video content. We have observed that most publicly available DeepFake detection datasets have limited variations, where a single face is used in many videos, resulting in an oversampled training dataset. Due to this, deep neural networks tend to overfit to the facial features instead of learning to detect manipulation features of DeepFake content. As a result, most detection architectures perform poorly when tested on unseen data. In this paper, we provide a quantitative analysis to investigate this problem and present a solution to prevent model overfitting due to the high volume of samples generated from a small number of actors. We introduce Face-Cutout, a data augmentation method for training Convolutional Neural Networks (CNN), to improve DeepFake detection. In this method, training images with various occlusions are dynamically generated using face landmark information irrespective of orientation. Unlike other general-purpose augmentation methods, it focuses on the facial information that is crucial for DeepFake detection. Our method achieves a reduction in LogLoss of 15.2% to 35.3% on different datasets, compared to other occlusion-based augmentation techniques. We show that Face-Cutout can be easily integrated with any CNN-based recognition model and improve detection performance.
翻訳日:2021-02-23 02:07:43 公開日:2021-02-18
# (参考訳) ロバストな非パラメトリック死亡と出生率モデリングと予測:ガウス過程回帰アプローチ

Robust non-parametric mortality and fertility modelling and forecasting: Gaussian process regression approaches ( http://arxiv.org/abs/2102.09676v1 )

ライセンス: CC BY 4.0
Ka Kin Lam, Bo Wang(参考訳) 過去数十年間、多くの先進国で死亡率と出生率の急激な低下が大きな問題となっている。 人口動態を予測するための正確なモデルは、政府や多くの産業部門の社会福祉政策や資源予算の意思決定に重要です。 本稿では,自然立方体スプライン平均関数とスペクトル混合共分散関数を併用したガウス過程回帰を用いた新しい非パラメトリック手法を提案する。 人口モデル文学における既存のアプローチのほとんどは、死亡率または不妊率曲線全体の移動を時間とともに決定するために時間パラメータに依存しているが、我々はすべての年齢固有の死亡率および不妊率の成分からの死亡率および不妊率曲線を検討し、それらのそれぞれを時間の経過とともにガウス過程に従って、離散的で集中的なスタイルで全体の曲線に適合するように仮定する。 提案したガウス過程回帰法は,いくつかの先進国の死亡率と出生率データを用いた短期,中期,長期の予測において,他の主流人口統計モデルと比較して,精度と堅牢性において有意な改善が見られた。

A rapid decline in mortality and fertility has become major issues in many developed countries over the past few decades. A precise model for forecasting demographic movements is important for decision making in social welfare policies and resource budgeting among the government and many industry sectors. This article introduces a novel non-parametric approach using Gaussian process regression with a natural cubic spline mean function and a spectral mixture covariance function for mortality and fertility modelling and forecasting. Unlike most of the existing approaches in demographic modelling literature, which rely on time parameters to decide the movements of the whole mortality or fertility curve shifting from one year to another over time, we consider the mortality and fertility curves from their components of all age-specific mortality and fertility rates and assume each of them following a Gaussian process over time to fit the whole curves in a discrete but intensive style. The proposed Gaussian process regression approach shows significant improvements in terms of preciseness and robustness compared to other mainstream demographic modelling approaches in the short-, mid- and long-term forecasting using the mortality and fertility data of several developed countries in our numerical experiments.
翻訳日:2021-02-23 01:19:21 公開日:2021-02-18
# (参考訳) 因果推論Q-Network:Resilient Reinforcement Learningを目指して [全文訳有]

Causal Inference Q-Network: Toward Resilient Reinforcement Learning ( http://arxiv.org/abs/2102.09677v1 )

ライセンス: CC BY-SA 4.0
Chao-Han Huck Yang, I-Te Danny Hung, Yi Ouyang, Pin-Yu Chen(参考訳) 深層強化学習(DRL)は,様々なゲームシミュレータや実世界のアプリケーションで優れた性能を発揮している。 しかし実際には、DRLエージェントは、ブラックアウト、フリーズスクリーン、逆乱などの突然の干渉によって異常な観察を受けることがあります。 これらのまれなミッションクリティカルかつ安全クリティカルなシナリオに対してレジリエントなDRLアルゴリズムを設計する方法は、重要かつ困難な作業です。 本稿では,観測干渉を有する弾力性のあるDRLフレームワークを検討する。 本稿では、因果関係の重要性を論じ、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。 異なる種類の干渉を持つ複数のベンチマークDRL環境におけるCIQの性能を評価する。 実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。

Deep reinforcement learning (DRL) has demonstrated impressive performance in various gaming simulators and real-world applications. In practice, however, a DRL agent may receive faulty observation by abrupt interferences such as black-out, frozen-screen, and adversarial perturbation. How to design a resilient DRL algorithm against these rare but mission-critical and safety-crucial scenarios is an important yet challenging task. In this paper, we consider a resilient DRL framework with observational interferences. Under this framework, we discuss the importance of the causal relation and propose a causal inference based DRL algorithm called causal inference Q-network (CIQ). We evaluate the performance of CIQ in several benchmark DRL environments with different types of interferences. Our experimental results show that the proposed CIQ method could achieve higher performance and more resilience against observational interferences.
翻訳日:2021-02-23 00:19:46 公開日:2021-02-18
# (参考訳) 音声距離測定によるGoogle Voice認識器の誤りの修正 [全文訳有]

Fixing Errors of the Google Voice Recognizer through Phonetic Distance Metrics ( http://arxiv.org/abs/2102.09680v1 )

ライセンス: CC BY 4.0
Diego Campos-Sobrino, Mario Campos-Soberanis, Iv\'an Mart\'inez-Chin, V\'ictor Uc-Cetina(参考訳) Googleのようなスペイン語の音声認識システムは、特定のドメインのアプリケーションで使用される場合、エラーを頻繁に発生させる。 これらのエラーは、主に認識者の言語モデルに新しい単語やドメインへのアドホックを認識するときに発生する。 本稿では,音素のLevenshtein距離を用いて音声認識者の誤りを低減するアルゴリズムを提案する。 予備的な結果から,本測定値を用いてアプリケーション領域の特定のフレーズの辞書を用いて認識者の誤りを著しく補正できることが示唆された。 特定のドメイン向けに設計されているにもかかわらず、ここで提案されるアルゴリズムは一般的な応用である。 認識しなければならないフレーズは、アルゴリズムを変更することなく、各アプリケーションで明示的に定義できます。 それはそれが動作しなければならない文のセットをアルゴリズムに示すのに十分です。 アルゴリズムの複雑さは$O(tn)$であり、$t$は修正するトランスクリプト内の単語の数であり、$n$はドメイン固有のフレーズの数である。

Speech recognition systems for the Spanish language, such as Google's, produce errors quite frequently when used in applications of a specific domain. These errors mostly occur when recognizing words new to the recognizer's language model or ad hoc to the domain. This article presents an algorithm that uses Levenshtein distance on phonemes to reduce the speech recognizer's errors. The preliminary results show that it is possible to correct the recognizer's errors significantly by using this metric and using a dictionary of specific phrases from the domain of the application. Despite being designed for particular domains, the algorithm proposed here is of general application. The phrases that must be recognized can be explicitly defined for each application, without the algorithm having to be modified. It is enough to indicate to the algorithm the set of sentences on which it must work. The algorithm's complexity is $O(tn)$, where $t$ is the number of words in the transcript to be corrected, and $n$ is the number of phrases specific to the domain.
翻訳日:2021-02-22 21:42:27 公開日:2021-02-18
# (参考訳) 多層ネットワークデータのための潜時空間モデル

A Latent Space Model for Multilayer Network Data ( http://arxiv.org/abs/2102.09560v1 )

ライセンス: CC BY 4.0
Juan Sosa and Brenda Betancourt(参考訳) 本研究では,共通のアクターセット上で定義された2つ以上のソーシャルネットワークを同時に特徴付けるベイズ統計モデルを提案する。 モデルの主な特徴は階層的な事前分布であり、システム全体を共同で表現し、依存ネットワークと独立したネットワーク間の妥協を達成する。 このような仕様により,低次元ユークリッド空間における多層ネットワークデータの可視化,アクター間のコンセンサス親和性を反映した重み付きネットワークの生成,ネットワーク間の相関尺度の確立,被験者がアクター間の関係について形成した認知的判断の評価,異なるソーシャルインスタンスにおけるクラスタリングタスクの実行が容易になる。 我々のモデルの性能は、アクターの種類、サイズ、関係性を考慮し、いくつかの実世界のデータセットを用いて説明される。

In this work, we propose a Bayesian statistical model to simultaneously characterize two or more social networks defined over a common set of actors. The key feature of the model is a hierarchical prior distribution that allows us to represent the entire system jointly, achieving a compromise between dependent and independent networks. Among others things, such a specification easily allows us to visualize multilayer network data in a low-dimensional Euclidean space, generate a weighted network that reflects the consensus affinity between actors, establish a measure of correlation between networks, assess cognitive judgements that subjects form about the relationships among actors, and perform clustering tasks at different social instances. Our model's capabilities are illustrated using several real-world data sets, taking into account different types of actors, sizes, and relations.
翻訳日:2021-02-22 18:11:42 公開日:2021-02-18
# (参考訳) メタデータを用いたセグメンテーションにおけるリニアコンディショニングのメリット [全文訳有]

Benefits of Linear Conditioning for Segmentation using Metadata ( http://arxiv.org/abs/2102.09582v1 )

ライセンス: CC BY 4.0
Andreanne Lemay, Charley Gros, Olivier Vincent, Yaou Liu, Joseph Paul Cohen, Julien Cohen-Adad(参考訳) 医療画像には、しばしば画像(ベンダー、取得パラメータ)と患者(タイプまたは重症度、人口統計学、ゲノム学)を記述するメタデータが伴います。 このメタデータは通常、イメージセグメンテーションメソッドによって無視される。 本研究では,FILM (Feature-wise Linear Modulation) と呼ばれる線形コンディショニング手法を画像分割タスクに適応させる。 このFiLM適応により、メタデータをセグメンテーションモデルに統合し、パフォーマンスを向上させます。 We observed a average Dice score increase of 5.1% on spinal tumor segmentation when the tumor type with FiLM。 メタデータは、任意のニューラルネットワークのアーキテクチャに含まれる機能マップに適用される低コストのアフィン変換によって、セグメンテーションプロセスを変調する。 さらに, 医用画像における共通課題に取り組むためのセグメンテーション膜層との関連性について検討した。 限定的・非平衡的データのトレーニング, セグメンテーションの欠如したマルチクラストレーニング, および複数のタスクへのモデル適応。 FiLMed U-Netは、欠落したラベルに対して堅牢であり、シングルタスクU-Netと比較してラベル数が少ない(最大16.7%)高いDiceスコアを達成しました。 コードはオープンソースで、www.ivadomed.orgで入手できる。

Medical images are often accompanied by metadata describing the image (vendor, acquisition parameters) and the patient (disease type or severity, demographics, genomics). This metadata is usually disregarded by image segmentation methods. In this work, we adapt a linear conditioning method called FiLM (Feature-wise Linear Modulation) for image segmentation tasks. This FiLM adaptation enables integrating metadata into segmentation models for better performance. We observed an average Dice score increase of 5.1% on spinal cord tumor segmentation when incorporating the tumor type with FiLM. The metadata modulates the segmentation process through low-cost affine transformations applied on feature maps which can be included in any neural network's architecture. Additionally, we assess the relevance of segmentation FiLM layers for tackling common challenges in medical imaging: training with limited or unbalanced number of annotated data, multi-class training with missing segmentations, and model adaptation to multiple tasks. Our results demonstrated the following benefits of FiLM for segmentation: FiLMed U-Net was robust to missing labels and reached higher Dice scores with few labels (up to 16.7%) compared to single-task U-Net. The code is open-source and available at www.ivadomed.org.
翻訳日:2021-02-22 18:10:46 公開日:2021-02-18
# (参考訳) 低線量CTシミュレーションのためのノイズエンタングルGAN [全文訳有]

Noise Entangled GAN For Low-Dose CT Simulation ( http://arxiv.org/abs/2102.09615v1 )

ライセンス: CC BY 4.0
Chuang Niu, Ge Wang, Pingkun Yan, Juergen Hahn, Youfang Lai, Xun Jia, Arjun Krishna, Klaus Mueller, Andreu Badal, KyleJ. Myers, Rongping Zeng(参考訳) 高線量CT画像から低線量CT像をシミュレートするためのノイズエンタングルGAN(NE-GAN)を提案する。 まず、高線量CT画像からクリーンなCT画像とノイズ画像を生成する2つのスキームを紹介します。 そして, これらの画像から, ne-ganを用いて低線量ct画像の異なるレベルをシミュレートし, 生成雑音のレベルを連続的にノイズ係数で制御する手法を提案する。 NE-GANはジェネレータと一組の識別器から構成されており、識別器の数は訓練中のノイズレベルによって決定される。 通常、実際のアプリケーションでは利用できない投影データに基づく従来の方法と比較して、NE-GANはリアルおよび/またはシミュレートされたCT画像から直接学習することができ、生データやその他の独自のCTスキャナー情報なしで低線量のCT画像を迅速に作成することができます。 実験の結果,本手法は低線量ct画像を再現する可能性が示唆された。

We propose a Noise Entangled GAN (NE-GAN) for simulating low-dose computed tomography (CT) images from a higher dose CT image. First, we present two schemes to generate a clean CT image and a noise image from the high-dose CT image. Then, given these generated images, an NE-GAN is proposed to simulate different levels of low-dose CT images, where the level of generated noise can be continuously controlled by a noise factor. NE-GAN consists of a generator and a set of discriminators, and the number of discriminators is determined by the number of noise levels during training. Compared with the traditional methods based on the projection data that are usually unavailable in real applications, NE-GAN can directly learn from the real and/or simulated CT images and may create low-dose CT images quickly without the need of raw data or other proprietary CT scanner information. The experimental results show that the proposed method has the potential to simulate realistic low-dose CT images.
翻訳日:2021-02-22 18:00:02 公開日:2021-02-18
# (参考訳) 効率的な分散自動微分 [全文訳有]

Efficient Distributed Auto-Differentiation ( http://arxiv.org/abs/2102.09631v1 )

ライセンス: CC BY 4.0
Bradley T. Baker, Vince D. Calhoun, Barak Pearlmutter, Sergey M. Plis(参考訳) 分散機械学習は多くの研究のフロンティアを開いたが、さまざまなデバイス、ノード、サイトにわたる大規模なモデルの分離は、重要な通信オーバーヘッドを招き、信頼性の高いトレーニングを難しくする。 しかし、大規模なディープニューラルネットワーク(DNN)をトレーニングするための勾配ベースのアルゴリズムは通信量が多いため、帯域幅を小さくするためには、疎性制約、圧縮、量子化、その他の類似のアプローチによる追加的な修正が必要となることが多い。 グラデーションよりもコミュニケーションにやさしい分散型DNNをトレーニングするための驚くほど単純な統計を紹介します。 エラーバックプロパゲーションプロセスは、勾配の代わりにこれらの小さな中間値を共有するように変更することができ、精度に影響を与えることなく通信オーバーヘッドを削減できる。 このプロセスは、バックプロパゲーション中の勾配平均化の柔軟性を提供し、既存の勾配圧縮方式による帯域幅削減の余地を残しながら、新しい柔軟なトレーニングスキーマを可能にする。 最後に、勾配を計算するために使用される行列の考慮は、帯域幅を減らすだけでなく、大幅なパフォーマンスの損失なしに分散トレーニングダイナミクスへの内省を可能にする構造化された電力反復を介して圧縮への新しいアプローチを刺激します。

Although distributed machine learning has opened up numerous frontiers of research, the separation of large models across different devices, nodes, and sites can invite significant communication overhead, making reliable training difficult. The focus on gradients as the primary shared statistic during training has led to a number of intuitive algorithms for distributed deep learning; however, gradient-based algorithms for training large deep neural networks (DNNs) are communication-heavy, often requiring additional modifications via sparsity constraints, compression, quantization, and other similar approaches, to lower bandwidth. We introduce a surprisingly simple statistic for training distributed DNNs that is more communication-friend ly than the gradient. The error backpropagation process can be modified to share these smaller intermediate values instead of the gradient, reducing communication overhead with no impact on accuracy. The process provides the flexibility of averaging gradients during backpropagation, enabling novel flexible training schemas while leaving room for further bandwidth reduction via existing gradient compression methods. Finally, consideration of the matrices used to compute the gradient inspires a new approach to compression via structured power iterations, which can not only reduce bandwidth but also enable introspection into distributed training dynamics, without significant performance loss.
翻訳日:2021-02-22 16:59:02 公開日:2021-02-18
# (参考訳) 多集団死亡モデルと予測:時間重み付けアプローチによる多変量機能主成分

Multipopulation mortality modelling and forecasting: The multivariate functional principal component with time weightings approaches ( http://arxiv.org/abs/2102.09612v1 )

ライセンス: CC BY 4.0
Ka Kin Lam, Bo Wang(参考訳) 近縁集団におけるヒトの死亡パターンと軌跡は関連し、類似性を共有する可能性が高い。 異質性を考慮しながら同時にモデル化することが常に望ましい。 本稿では,多変量関数主成分分析手法を応用した共同死亡モデルと複数個体群予測のための2つの新しいモデルを提案する。 第1のモデルは、独立関数型データモデルをマルチ人口モデリング設定に拡張する。 第2報では,コヒーレントモデリングのための多変量関数主成分法を提案する。 その設計は、いくつかのサブ人口集団が同様の社会経済的条件または共通の生物学的特性を有する場合、そのような密接な接続が非拡散的な方法で進化することが予想されるという考えを満たす。 性別特異的死亡データを用いて提案手法を実証する。 それらの予測性能は、先進10カ国の死亡率データとの比較を通じて、独立機能モデルや製品比モデルなど、いくつかの既存モデルと比較される。 実験の結果,提案モデルが既存の手法と同等の予測能力を有することがわかった。 対照的に、第2のモデルは、いくつかの望ましい特性に加えて、予測精度の観点から、第1のモデルと現在のモデルよりも優れています。

Human mortality patterns and trajectories in closely related populations are likely linked together and share similarities. It is always desirable to model them simultaneously while taking their heterogeneity into account. This paper introduces two new models for joint mortality modelling and forecasting multiple subpopulations in adaptations of the multivariate functional principal component analysis techniques. The first model extends the independent functional data model to a multi-population modelling setting. In the second one, we propose a novel multivariate functional principal component method for coherent modelling. Its design primarily fulfils the idea that when several subpopulation groups have similar socio-economic conditions or common biological characteristics, such close connections are expected to evolve in a non-diverging fashion. We demonstrate the proposed methods by using sex-specific mortality data. Their forecast performances are further compared with several existing models, including the independent functional data model and the Product-Ratio model, through comparisons with mortality data of ten developed countries. Our experiment results show that the first proposed model maintains a comparable forecast ability with the existing methods. In contrast, the second proposed model outperforms the first model as well as the current models in terms of forecast accuracy, in addition to several desirable properties.
翻訳日:2021-02-22 15:41:59 公開日:2021-02-18
# (参考訳) 高次元データにおけるマルチスケール情報の連成評価 [全文訳有]

Joint Characterization of Multiscale Information in High Dimensional Data ( http://arxiv.org/abs/2102.09669v1 )

ライセンス: CC BY 4.0
Daniel Sousa, Christopher Small(参考訳) 高次元データは複数のばらつきを含むことができる。 1つのスケールで優先的に動作する分析ツールは、このクロススケールの複雑さに存在するすべての情報を取得するのに効果的ではない。 グローバルアプローチとローカルアプローチの相乗効果を生かした多スケール共同評価手法を提案します。 本稿では,主成分分析(PCA)を用いてグローバル分散構造を特徴づける手法と,局所分散構造を特徴づけるt-stochastic neighbor embeddedding (t-sne)を提案する。 合成画像と実世界画像分光データの両方を用いて,PCAやt-sneだけでは明らかでない信号の検出と分離が可能であることを示す。 広くは、t-sneは局所クラスタのランダムに向き付けられた低次元マップのレンダリングに有効であり、PCAはグローバルで物理的に意味のある構造を提供することで、このマップを解釈可能である。 このアプローチはイメージング分光データを用いて示され、地球表面物質のスペクトル特性による空間的自己相関と大域的分散構造の物理的解釈性により、ロバストな局所分散構造を与える他の地理空間データに特に有用である。 しかし、基本的な前提は画像時系列や非画像データを含む他の高次元データセットに容易に拡張できる。

High dimensional data can contain multiple scales of variance. Analysis tools that preferentially operate at one scale can be ineffective at capturing all the information present in this cross-scale complexity. We propose a multiscale joint characterization approach designed to exploit synergies between global and local approaches to dimensionality reduction. We illustrate this approach using Principal Components Analysis (PCA) to characterize global variance structure and t-stochastic neighbor embedding (t-sne) to characterize local variance structure. Using both synthetic images and real-world imaging spectroscopy data, we show that joint characterization is capable of detecting and isolating signals which are not evident from either PCA or t-sne alone. Broadly, t-sne is effective at rendering a randomly oriented low-dimensional map of local clusters, and PCA renders this map interpretable by providing global, physically meaningful structure. This approach is illustrated using imaging spectroscopy data, and may prove particularly useful for other geospatial data given robust local variance structure due to spatial autocorrelation and physical interpretability of global variance structure due to spectral properties of Earth surface materials. However, the fundamental premise could easily be extended to other high dimensional datasets, including image time series and non-image data.
翻訳日:2021-02-22 15:40:26 公開日:2021-02-18
# (参考訳) バイポーラ障害と境界性パーソナリティ障害を検出する会話音声のパラ言語特性のモデル化 [全文訳有]

Modelling Paralinguistic Properties in Conversational Speech to Detect Bipolar Disorder and Borderline Personality Disorder ( http://arxiv.org/abs/2102.09607v1 )

ライセンス: CC BY 4.0
Bo Wang, Yue Wu, Nemanja Vaci, Maria Liakata, Terry Lyons, Kate E A Saunders(参考訳) 双極性障害 (BD) と境界性パーソナリティ障害 (BPD) は、臨床医が重なり合う症状のために臨床面接に基づいて区別が難しい2つの慢性的な精神疾患である。 本研究では,これら2つの条件の自動検出について,言語的および非言語的手がかりを一連の面接でモデル化して検討する。 本研究では,可視性信号変換を用いた短期的特徴のモデル化手法を提案し,高次統計関数と比較する。 提案したシグネチャベースモデルの優れた性能を示す。 さらに、BDとBPDの特徴付けにおけるさまざまな機能セットの役割を示す。

Bipolar disorder (BD) and borderline personality disorder (BPD) are two chronic mental health conditions that clinicians find challenging to distinguish based on clinical interviews, due to their overlapping symptoms. In this work, we investigate the automatic detection of these two conditions by modelling both verbal and non-verbal cues in a set of interviews. We propose a new approach of modelling short-term features with visibility-signature transform, and compare it with widely used high-level statistical functions. We demonstrate the superior performance of our proposed signature-based model. Furthermore, we show the role of different sets of features in characterising BD and BPD.
翻訳日:2021-02-22 15:26:02 公開日:2021-02-18
# 拡散確率モデルの改善

Improved Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2102.09672v1 )

ライセンス: Link先を確認
Alex Nichol, Prafulla Dhariwal(参考訳) 拡散確率モデル(DDPM: Denoising Diffation Probabilistic Model)は、最近優れたサンプルを生成することが示されている生成モデルの一種である。 ddpmsは簡単な修正を加えることで,高いサンプル品質を維持しつつ,競合的なログライクティビティを実現できることを示す。 さらに, 逆拡散過程の学習分散により, サンプル品質に不可分な差を伴い, 数桁のフォワードパスの少ないサンプリングが可能となり, 実用的展開に重要であることがわかった。 さらに、精度とリコールを使用して、DDPMとGANがターゲット分布をどの程度カバーしているかを比較します。 最後に,これらのモデルのサンプル品質と可能性について,モデルのキャパシティとトレーニング計算によってスムーズに拡張できることを示し,スケーラブル化が容易であることを示す。 コードをhttps://github.com/o penai/improved-diffu sionでリリースします。

Denoising diffusion probabilistic models (DDPM) are a class of generative models which have recently been shown to produce excellent samples. We show that with a few simple modifications, DDPMs can also achieve competitive log-likelihoods while maintaining high sample quality. Additionally, we find that learning variances of the reverse diffusion process allows sampling with an order of magnitude fewer forward passes with a negligible difference in sample quality, which is important for the practical deployment of these models. We additionally use precision and recall to compare how well DDPMs and GANs cover the target distribution. Finally, we show that the sample quality and likelihood of these models scale smoothly with model capacity and training compute, making them easily scalable. We release our code at https://github.com/o penai/improved-diffu sion
翻訳日:2021-02-22 13:41:18 公開日:2021-02-18
# DNAメチル化による乳癌鑑別のための深層埋込み精製クラスタリング法

A Deep Embedded Refined Clustering Approach for Breast Cancer Distinction based on DNA Methylation ( http://arxiv.org/abs/2102.09563v1 )

ライセンス: Link先を確認
del Amor Roc\'io, Colomer Adri\'an, Monteagudo Carlos, Naranjo Valery(参考訳) エピジェネティックな変化は、いくつかの種類のがんの発生に重要な役割を果たしている。 エピジェネティック研究は大量のデータを生成し、大規模なデータを扱うことができる新しいモデルを開発することが不可欠です。 そこで本研究では,DNAメチル化に基づく乳がん分化のための深部埋込みクラスタリング法を提案する。 具体的には, 深層学習システムは, 0 から 1 の間の CpG 島メチル化のレベルを利用する。 提案手法は主に2つの段階からなる。 第1段階は、オートエンコーダに基づくメチル化データの次元的縮小である。 第2段階は、オートエンコーダによって提供される潜在空間のソフトアサインに基づくクラスタリングアルゴリズムである。 この方法は、再構成と分類の2つの項からなる重み付き損失関数によって最適化される。 著者の知識を最大限に活かすために、DNAメチル化分析のための分類訓練を受けたエンドツーエンドに関連付けられた次元還元アルゴリズムに焦点を当てたこれまでの研究はありませんでした。 提案法は, 乳房組織試料137例に対して, 教師なしクラスタリング精度0.9927, エラー率0.73を達成する。 異なるメチル化データベースを用いた深層学習法の第2試験の後、45個の乳房組織試料の精度0.9343とエラー率6.57(%)を得る。 これらの結果に基づいて,DNAメチル化データに基づく乳がん分類の同一条件下で評価された他の最新手法を上回るアルゴリズムが提案された。

Epigenetic alterations have an important role in the development of several types of cancer. Epigenetic studies generate a large amount of data, which makes it essential to develop novel models capable of dealing with large-scale data. In this work, we propose a deep embedded refined clustering method for breast cancer differentiation based on DNA methylation. In concrete, the deep learning system presented here uses the levels of CpG island methylation between 0 and 1. The proposed approach is composed of two main stages. The first stage consists in the dimensionality reduction of the methylation data based on an autoencoder. The second stage is a clustering algorithm based on the soft-assignment of the latent space provided by the autoencoder. The whole method is optimized through a weighted loss function composed of two terms: reconstruction and classification terms. To the best of the authors' knowledge, no previous studies have focused on the dimensionality reduction algorithms linked to classification trained end-to-end for DNA methylation analysis. The proposed method achieves an unsupervised clustering accuracy of 0.9927 and an error rate (%) of 0.73 on 137 breast tissue samples. After a second test of the deep-learning-based method using a different methylation database, an accuracy of 0.9343 and an error rate (%) of 6.57 on 45 breast tissue samples is obtained. Based on these results, the proposed algorithm outperforms other state-of-the-art methods evaluated under the same conditions for breast cancer classification based on DNA methylation data.
翻訳日:2021-02-22 13:40:23 公開日:2021-02-18
# 高次元バンディット問題のための簡易統一フレームワーク

A Simple Unified Framework for High Dimensional Bandit Problems ( http://arxiv.org/abs/2102.09626v1 )

ライセンス: Link先を確認
Wenjie Li and Adarsh Barik and Jean Honorio(参考訳) 低次元構造を持つ確率的高次元バンディット問題は、オンライン広告や薬物発見など様々な応用に有用である。 本研究では、このような問題に対する単純な統一アルゴリズムを提案し、アルゴリズムの後悔上界に対する一般的な解析フレームワークを提案する。 軽度の統一仮定の下で、我々のアルゴリズムは異なる高次元バンディット問題に適用できることを示した。 本手法は,低次元構造を用いてパラメータ推定を導出するので,LASSOバンドイットにおける最良後悔境界,低ランク行列バンドイットと群スパース行列バンドイットにおけるより良い境界,およびマルチエージェントLASSOバンドイットにおける新しい境界を実現する。

Stochastic high dimensional bandit problems with low dimensional structure are useful in different applications such as online advertising and drug discovery. In this work, we propose a simple unified algorithm for such problems and present a general analysis framework for the regret upper bound of our algorithm. We show that under some mild unified assumptions, our algorithm can be applied to different high dimensional bandit problems. Our framework utilizes the low dimensional structure to guide the parameter estimation in the problem, therefore our algorithm achieves the best regret bounds in the LASSO bandit, better bounds in the low-rank matrix bandit and the group sparse matrix bandit, as well as a novel bound in the multi-agent LASSO bandit.
翻訳日:2021-02-22 13:37:19 公開日:2021-02-18
# 深層学習における解の接続性について:過度パラメータ化と特徴品質の役割

On Connectivity of Solutions in Deep Learning: The Role of Over-parameterizatio n and Feature Quality ( http://arxiv.org/abs/2102.09671v1 )

ライセンス: Link先を確認
Quynh Nguyen, Pierre Brechet, Marco Mondelli(参考訳) 深いニューラルネットワークでは、異なるランダム初期化からの確率勾配降下によって発見された解は、しばしば低損失の経路によって接続されることが実証的に観察されている。 最近の研究は、ネットワークの過度パラメータ化またはソリューションのドロップアウト安定性を仮定することによって、この興味深い現象に光を当てています。 本稿では,これら2つの視点を整理し,パラメータ空間における2つの任意の点の接続性を確保するための新しい条件を提案する。 この条件はドロップアウトの安定性よりも明らかに穏やかであり、低損失経路の発見問題とニューラルネットワークの記憶能力との関係を提供する。 この最後のポイントは、各レイヤの機能品質とネットワークのオーバーパラメータ化の間のトレードオフをもたらします。 このトレードオフの極端な例として、(i) 各層における特徴のサブセットが線形分離可能である場合、ほとんど過パラメータ化は不要であり、(ii)各層における特徴の一般的な仮定の下では、最後の2つの隠れた層が$\Omega(\sqrt{N})$ニューロンを持ち、$N$は標本数であることを示す。 最後に, 落下安定性が保持されない場合でも, 実用的条件で条件が満たされることを実証する実験的な証拠を提供する。

It has been empirically observed that, in deep neural networks, the solutions found by stochastic gradient descent from different random initializations can be often connected by a path with low loss. Recent works have shed light on this intriguing phenomenon by assuming either the over-parameterizatio n of the network or the dropout stability of the solutions. In this paper, we reconcile these two views and present a novel condition for ensuring the connectivity of two arbitrary points in parameter space. This condition is provably milder than dropout stability, and it provides a connection between the problem of finding low-loss paths and the memorization capacity of neural nets. This last point brings about a trade-off between the quality of features at each layer and the over-parameterizatio n of the network. As an extreme example of this trade-off, we show that (i) if subsets of features at each layer are linearly separable, then almost no over-parameterizatio n is needed, and (ii) under generic assumptions on the features at each layer, it suffices that the last two hidden layers have $\Omega(\sqrt{N})$ neurons, $N$ being the number of samples. Finally, we provide experimental evidence demonstrating that the presented condition is satisfied in practical settings even when dropout stability does not hold.
翻訳日:2021-02-22 13:37:05 公開日:2021-02-18
# プライバシー保護教師による深層強化学習

Privacy-Preserving Teacher-Student Deep Reinforcement Learning ( http://arxiv.org/abs/2102.09599v1 )

ライセンス: Link先を確認
Parham Gohari, Bo Chen, Bo Wu, Matthew Hale, and Ufuk Topcu(参考訳) 深層強化学習エージェントは、互いに協調するときに複雑なタスクをより効率的に学習する。 エージェントが他のエージェントにデモンストレーションを依頼できる教師と学生の協調方式を考える。 しかし、デモを共有する利点にもかかわらず、潜在的な敵は、デモを観察することによって教師の機密情報を取得する可能性があります。 特に、深層強化学習アルゴリズムは、トレーニングデータセットのエントリのメンバシップに関する正確な推論を行うメンバーシップアタックに対して脆弱であることが知られている。 したがって、そのようなプライバシーの脅威から教師を保護する必要があります。 我々は,教師の方針を実演の文脈として固定し,生徒と教師の間で異なる内部モデルを可能にするとともに,既存の方法と対比する。 以下の2つの貢献を行います。 (i)教師のトレーニングデータセットのプライバシを保護する,異なるプライベートなメカニズムを開発する。 (ii) プライバシーメカニズムの乱用にもかかわらず、学生がデモの恩恵を受けることができる近位政策最適化目標を提案する。 このアルゴリズムは学生の集中率と実用性を改善することを実証的に示した。 具体的には,同一の課題を単独で学ぶエージェントと比較して,生徒の方針がより速く収束し,収束した政策がより高い報酬をより堅牢に蓄積するのを観察した。

Deep reinforcement learning agents may learn complex tasks more efficiently when they coordinate with one another. We consider a teacher-student coordination scheme wherein an agent may ask another agent for demonstrations. Despite the benefits of sharing demonstrations, however, potential adversaries may obtain sensitive information belonging to the teacher by observing the demonstrations. In particular, deep reinforcement learning algorithms are known to be vulnerable to membership attacks, which make accurate inferences about the membership of the entries of training datasets. Therefore, there is a need to safeguard the teacher against such privacy threats. We fix the teacher's policy as the context of the demonstrations, which allows for different internal models across the student and the teacher, and contrasts the existing methods. We make the following two contributions. (i) We develop a differentially private mechanism that protects the privacy of the teacher's training dataset. (ii) We propose a proximal policy-optimization objective that enables the student to benefit from the demonstrations despite the perturbations of the privacy mechanism. We empirically show that the algorithm improves the student's learning upon convergence rate and utility. Specifically, compared with an agent who learns the same task on its own, we observe that the student's policy converges faster, and the converging policy accumulates higher rewards more robustly.
翻訳日:2021-02-22 13:33:11 公開日:2021-02-18
# erasureによるランダムウォーク:ソーシャルおよび情報ネットワークにおけるパーソナライズドレコメンデーションの多様化

Random Walks with Erasure: Diversifying Personalized Recommendations on Social and Information Networks ( http://arxiv.org/abs/2102.09635v1 )

ライセンス: Link先を確認
Bibek Paudel, Abraham Bernstein(参考訳) 既存のパーソナライゼーションシステムのほとんどは、ユーザーの以前の選択に一致するアイテムや、類似のユーザーの間で人気があるアイテムを促進します。 これにより、ユーザーがすでに露出しているものと非常に類似した推奨が得られ、慣れ親しんだが絶縁された情報サイロの中に隔離されます。 そこで本稿では,ユーザ-テムグラフのランダムウォーク探索を用いて,情報多様性の向上を目的とした新しい推薦フレームワークを開発する。 他の社会・情報ネットワークにおけるパーソナライゼーションタスクに適用可能な一般的な問題に対処しつつ、政治的コンテンツ推薦の問題に焦点をあてる。 ソーシャルネットワーク上での政治コンテンツを推薦するために,まず,ユーザのイデオロギー的位置と共有するコンテンツの両方のイデオロギー的位置を推定し,イデオロギー的位置を高い精度で復元する新しいモデルを提案する。 これらの推定位置に基づいて,新しいランダムウォークに基づくレコメンデーションアルゴリズムを用いて,多様なパーソナライズドレコメンデーションを生成する。 twitterの議論の大規模データセットを実験的に評価した結果, \emph{random walk with erasure} に基づいた提案手法がよりイデオロギー的に多様なレコメンデーションを生成できることが判明した。 当社のアプローチは,ユーザやコンテンツ製作者のバイアスに関するラベルの可用性には依存しない。 他のソーシャルおよび情報ネットワークからのオープンベンチマークデータセットの実験により、この手法が様々なロングテールアイテムを推薦する効果を示す。

Most existing personalization systems promote items that match a user's previous choices or those that are popular among similar users. This results in recommendations that are highly similar to the ones users are already exposed to, resulting in their isolation inside familiar but insulated information silos. In this context, we develop a novel recommendation framework with a goal of improving information diversity using a modified random walk exploration of the user-item graph. We focus on the problem of political content recommendation, while addressing a general problem applicable to personalization tasks in other social and information networks. For recommending political content on social networks, we first propose a new model to estimate the ideological positions for both users and the content they share, which is able to recover ideological positions with high accuracy. Based on these estimated positions, we generate diversified personalized recommendations using our new random-walk based recommendation algorithm. With experimental evaluations on large datasets of Twitter discussions, we show that our method based on \emph{random walks with erasure} is able to generate more ideologically diverse recommendations. Our approach does not depend on the availability of labels regarding the bias of users or content producers. With experiments on open benchmark datasets from other social and information networks, we also demonstrate the effectiveness of our method in recommending diverse long-tail items.
翻訳日:2021-02-22 13:32:53 公開日:2021-02-18
# ノイズロバストキーワードスポッティングのためのデータパラメータを用いた動的カリキュラム学習

Dynamic curriculum learning via data parameters for noise robust keyword spotting ( http://arxiv.org/abs/2102.09666v1 )

ライセンス: Link先を確認
Takuya Higuchi, Shreyas Saxena, Mehrez Souden, Tien Dung Tran, Masood Delfarah and Chandra Dhir(参考訳) ノイズロバストキーワードスポッティングのためのデータパラメータを用いた動的カリキュラム学習を提案する。 データパラメータ学習は最近画像処理に導入され、対象クラスやインスタンスの重みパラメータ、いわゆるデータパラメータがモデルパラメータとともに導入され、最適化されている。 データパラメータは、トレーニング中のクラスやインスタンスに対するロギットとコントロールの重要性をスケールし、トレーニングデータの追加アノテーションなしで自動カリキュラム学習を可能にします。 同様に,本稿では,このカリキュラム学習手法を音響モデルに適用し,データパラメータを用いて,クリーンでノイズの多い発話の音響モデルを学習する。 提案手法は,クラスやインスタンスの難易度を自動的に学習する。 低発話と雑音比(SNR)が原因で、勾配降下最適化において、カリキュラム学習を行う。 このカリキュラム学習は、音響モデルの精度の全体的な改善につながります。 キーワードスポッティングタスクにおける提案手法の有効性を評価した。 実験結果は、マルチコンディショニングデータセットで訓練されたベースラインモデルと比較して、データパラメータと偽の拒絶比の7.7%の相対的な減少を示した。

We propose dynamic curriculum learning via data parameters for noise robust keyword spotting. Data parameter learning has recently been introduced for image processing, where weight parameters, so-called data parameters, for target classes and instances are introduced and optimized along with model parameters. The data parameters scale logits and control importance over classes and instances during training, which enables automatic curriculum learning without additional annotations for training data. Similarly, in this paper, we propose using this curriculum learning approach for acoustic modeling, and train an acoustic model on clean and noisy utterances with the data parameters. The proposed approach automatically learns the difficulty of the classes and instances, e.g. due to low speech to noise ratio (SNR), in the gradient descent optimization and performs curriculum learning. This curriculum learning leads to overall improvement of the accuracy of the acoustic model. We evaluate the effectiveness of the proposed approach on a keyword spotting task. Experimental results show 7.7% relative reduction in false reject ratio with the data parameters compared to a baseline model which is simply trained on the multiconditioned dataset.
翻訳日:2021-02-22 13:32:27 公開日:2021-02-18
# WebRED:Web上の関係抽出のための効果的な事前学習と微調整

WebRED: Effective Pretraining And Finetuning For Relation Extraction On The Web ( http://arxiv.org/abs/2102.09681v1 )

ライセンス: Link先を確認
Robert Ormandi, Mohammad Saleh, Erin Winter, Vinay Rao(参考訳) 関係抽出は、多くのアプリケーションにとって重要な知識ベースを蓄積するために用いられる。 関係抽出モデルのトレーニングに使用される以前のデータセットは、遠方の監視によってノイズの多いラベルに苦しむか、特定のドメインに限定されるか、高容量モデルをトレーニングするには小さすぎる。 これは関係抽出の下流の応用を制約する。 そこで、WebRED(Web Relation Extraction Dataset)は、約110Kの例から、World Wide Webにあるさまざまなテキストから関係を抽出するための、強く監視された人間のアノテーション付きデータセットです。 また,このタスクの事前学習データとして,約200mのサンプルを収集するために使用した手法についても述べる。 弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。 この新たなデータセットのベースラインを提供し、ウェブ上のテキストから関係抽出の性能を向上させる上で、人間のアノテーションの重要性を示す。

Relation extraction is used to populate knowledge bases that are important to many applications. Prior datasets used to train relation extraction models either suffer from noisy labels due to distant supervision, are limited to certain domains or are too small to train high-capacity models. This constrains downstream applications of relation extraction. We therefore introduce: WebRED (Web Relation Extraction Dataset), a strongly-supervised human annotated dataset for extracting relationships from a variety of text found on the World Wide Web, consisting of ~110K examples. We also describe the methods we used to collect ~200M examples as pre-training data for this task. We show that combining pre-training on a large weakly supervised dataset with fine-tuning on a small strongly-supervised dataset leads to better relation extraction performance. We provide baselines for this new dataset and present a case for the importance of human annotation in improving the performance of relation extraction from text found on the web.
翻訳日:2021-02-22 13:25:58 公開日:2021-02-18
# スペクトルグラフフィルタの解釈可能な安定性境界

Interpretable Stability Bounds for Spectral Graph Filters ( http://arxiv.org/abs/2102.09587v1 )

ライセンス: Link先を確認
Henry Kenlay, Dorina Thanou, Xiaowen Dong(参考訳) グラフ構造化データは、センサーや輸送から生体やソーシャルネットワークまで、さまざまな現実世界の文脈で発生する。 グラフ構造データを処理するユビキタスなツールとして、スペクトルグラフフィルタは、ノイズ除去や異常検出などの一般的なタスクの解決や、グラフニューラルネットワークなどのディープラーニングアーキテクチャの設計に使用されています。 重要なツールであるにもかかわらず、堅牢な機械学習モデルを設計する上で重要なスペクトルグラフフィルタの安定性に関する理論的理解が欠如している。 本稿では,フィルタの安定性について検討し,フィルタ出力の変化に対する新しい解釈可能な上限を与え,その境界を,削除されたエッジと新たに追加されたエッジの終端次数とそれらのエッジの空間的近接度で表現する。 この上界は、スペクトルグラフフィルタが安定であるときに、グラフの構造的性質の観点から推論することができる。 我々はさらに、境界から得られる直観を検証するための広範な実験を行う。

Graph-structured data arise in a variety of real-world context ranging from sensor and transportation to biological and social networks. As a ubiquitous tool to process graph-structured data, spectral graph filters have been used to solve common tasks such as denoising and anomaly detection, as well as design deep learning architectures such as graph neural networks. Despite being an important tool, there is a lack of theoretical understanding of the stability properties of spectral graph filters, which are important for designing robust machine learning models. In this paper, we study filter stability and provide a novel and interpretable upper bound on the change of filter output, where the bound is expressed in terms of the endpoint degrees of the deleted and newly added edges, as well as the spatial proximity of those edges. This upper bound allows us to reason, in terms of structural properties of the graph, when a spectral graph filter will be stable. We further perform extensive experiments to verify intuition that can be gained from the bound.
翻訳日:2021-02-22 13:25:43 公開日:2021-02-18
# Smart Feasibility Pump:(混合)整数プログラミングのための強化学習

Smart Feasibility Pump: Reinforcement Learning for (Mixed) Integer Programming ( http://arxiv.org/abs/2102.09663v1 )

ライセンス: Link先を確認
Meng Qi, Mengxin Wang, Zuo-Jun Shen(参考訳) 本研究では,(混合)整数プログラミング(MIP)問題に対する実現可能な解を求めるための深層強化学習(DRL)モデルを提案する。 多くの成功したヒューリスティックが既知の初期の実現可能なソリューションに依存しているため、MIP問題に対する実現可能なソリューションを見つけることは重要です。 しかし、一般的にNPハードである。 実現可能なMIPソリューションを探索するための有名なヒューリスティックである実現性ポンプ(FP)に触発され、DRLを用いたスマート実現性ポンプ(SFP)法を開発しました。 MIP問題の制約行列の隠蔽情報を捕捉するために,多層認識(MLP)に加えて,ポリシーネットワークのための新しい畳み込みニューラルネットワーク(CNN)構造を提案する。 さまざまな問題インスタンスの数値実験は、SFPが最初の実現可能なソリューションに到達するために必要なステップの数の観点から古典的なFPを大幅に上回っていることを示しています。 さらに、CNN構造は現在の解を入力として投影することなく動作し、FPアルゴリズムの各ステップにおける計算労力を節約して予測を求める。 これはCNN構造の表現力を強調します。

In this work, we propose a deep reinforcement learning (DRL) model for finding a feasible solution for (mixed) integer programming (MIP) problems. Finding a feasible solution for MIP problems is critical because many successful heuristics rely on a known initial feasible solution. However, it is in general NP-hard. Inspired by the feasibility pump (FP), a well-known heuristic for searching feasible MIP solutions, we develop a smart feasibility pump (SFP) method using DRL. In addition to multi-layer perception (MLP), we propose a novel convolution neural network (CNN) structure for the policy network to capture the hidden information of the constraint matrix of the MIP problem. Numerical experiments on various problem instances show that SFP significantly outperforms the classic FP in terms of the number of steps required to reach the first feasible solution. Moreover, the CNN structure works without the projection of the current solution as the input, which saves the computational effort at each step of the FP algorithms to find projections. This highlights the representational power of the CNN structure.
翻訳日:2021-02-22 13:25:26 公開日:2021-02-18
# 直交リカレントモデルにおける微分幾何学的視点

A Differential Geometry Perspective on Orthogonal Recurrent Models ( http://arxiv.org/abs/2102.09589v1 )

ライセンス: Link先を確認
Omri Azencot, N. Benjamin Erichson, Mirela Ben-Chen, Michael W. Mahoney(参考訳) 近年,長期依存を学習するための最先端モデルとして直交リカレントニューラルネットワーク(RNN)が登場している。 このモデルのクラスは、設計によるグラデーション問題の爆発と消失を緩和します。 本研究では, 微分幾何学からのツールと洞察を用いて, 直交rnnの新しい視点を提供する。 直交RNNは、発散自由ベクトル場の空間における最適化と見なすことができる。 具体的には、ベクトル場と線型作用素を関連付ける微分幾何学のよく知られた結果に基づいて、すべての発散自由ベクトル場がスキュー対称行列と関連していることを証明する。 この観測に動機づけられて、ベクトル場全体の空間にまたがる新しいリカレントモデルの研究を行う。 本手法はスカラー関数の方向微分を通じてベクトル場をパラメータ化する。 これは潜伏内積、勾配および発散作用素の構成を必要とする。 我々の手法は,最先端の直交RNNと比較して,様々なベンチマークタスクにおいて同等あるいはより良い結果が得られる。

Recently, orthogonal recurrent neural networks (RNNs) have emerged as state-of-the-art models for learning long-term dependencies. This class of models mitigates the exploding and vanishing gradients problem by design. In this work, we employ tools and insights from differential geometry to offer a novel perspective on orthogonal RNNs. We show that orthogonal RNNs may be viewed as optimizing in the space of divergence-free vector fields. Specifically, based on a well-known result in differential geometry that relates vector fields and linear operators, we prove that every divergence-free vector field is related to a skew-symmetric matrix. Motivated by this observation, we study a new recurrent model, which spans the entire space of vector fields. Our method parameterizes vector fields via the directional derivatives of scalar functions. This requires the construction of latent inner product, gradient, and divergence operators. In comparison to state-of-the-art orthogonal RNNs, our approach achieves comparable or better results on a variety of benchmark tasks.
翻訳日:2021-02-22 13:21:33 公開日:2021-02-18
# DNN加速器の制御変数近似

Control Variate Approximation for DNN Accelerators ( http://arxiv.org/abs/2102.09642v1 )

ライセンス: Link先を確認
Georgios Zervakis, Ourania Spantidi, Iraklis Anagnostopoulos, Hussam Amrouch, J\"org Henkel(参考訳) 本研究では,低誤差近似型ディープニューラルネットワーク(DNN)アクセラレータのための制御変数近似手法を提案する。 制御変数法はモンテカルロ法で分散還元を実現するために用いられる。 提案手法は,DNN推論における近似乗算による帰納的誤差を,最先端と比較して時間的再学習を必要とせず,大幅に低減する。 制御変量法を活用し,高近似乗算器を用いて電力最適化dnn加速器を生成する。 また,Cifar-10とCifar-100データセットの6つのDNNに対する実験結果から,制御変数近似が精度0.16%の精度で同じ性能と24%の消費電力削減を実現していることが示された。

In this work, we introduce a control variate approximation technique for low error approximate Deep Neural Network (DNN) accelerators. The control variate technique is used in Monte Carlo methods to achieve variance reduction. Our approach significantly decreases the induced error due to approximate multiplications in DNN inference, without requiring time-exhaustive retraining compared to state-of-the-art. Leveraging our control variate method, we use highly approximated multipliers to generate power-optimized DNN accelerators. Our experimental evaluation on six DNNs, for Cifar-10 and Cifar-100 datasets, demonstrates that, compared to the accurate design, our control variate approximation achieves same performance and 24% power reduction for a merely 0.16% accuracy loss.
翻訳日:2021-02-22 13:21:19 公開日:2021-02-18
# ブラインド制約下降実験の試み

Attempted Blind Constrained Descent Experiments ( http://arxiv.org/abs/2102.09643v1 )

ライセンス: Link先を確認
Prasad N R(参考訳) Blind Descentは制限付きですが、ウェイトを学ぶためのガイド付きアプローチを使用します。 確率密度関数は、次元の無限空間(点の場合:ガウス関数と正規確率分布関数)において非零である。 Blind Descentの論文では、レイヤートレーニングとフィルタトレーニングによるフィルタ(異なるバッチサイズ)によるレイヤーによる暗黙のアイデアのいくつかが、おそらく欲張りのソリューションとして提案されました。 同様の実験の結果について論じる。 この論文の実験のソースコードは、https://github.com/P rasadNR/Attempted-Bl ind-Constrained-Desc ent-Experiments-ABCD Eにある。 これは、オリジナルのPyTorchソースコード https://github.com/a kshat57/Blind-Descen t のABCDE誘導体と比較される。

Blind Descent uses constrained but, guided approach to learn the weights. The probability density function is non-zero in the infinite space of the dimension (case in point: Gaussians and normal probability distribution functions). In Blind Descent paper, some of the implicit ideas involving layer by layer training and filter by filter training (with different batch sizes) were proposed as probable greedy solutions. The results of similar experiments are discussed. Octave (and proposed PyTorch variants) source code of the experiments of this paper can be found at https://github.com/P rasadNR/Attempted-Bl ind-Constrained-Desc ent-Experiments-ABCD E- . This is compared against the ABCDE derivatives of the original PyTorch source code of https://github.com/a kshat57/Blind-Descen t .
翻訳日:2021-02-22 13:21:06 公開日:2021-02-18
# 地域別アクティブサンプリングを用いた深層学習による予防ユニットコミットメントにおける符号化周波数制約

Encoding Frequency Constraints in Preventive Unit Commitment Using Deep Learning with Region-of-Interest Active Sampling ( http://arxiv.org/abs/2102.09583v1 )

ライセンス: Link先を確認
Yichen Zhang and Hantao Cui and Jianzhe Liu and Feng Qiu and Tianqi Hong and Rui Yao and Fangxing Li(参考訳) 再生可能エネルギーの普及に伴い、周波数応答とそのセキュリティは、信頼性の高い電力システムの運用にとって重要な懸念事項です。 周波数制約ユニットコミットメント(FCUC)は、この課題に対処するために提案されている。 ユニットコミットメント(UC)における周波数特性のモデリングにおける既存の取り組みにもかかわらず、現在の戦略は単純化した低階周波数応答モデルのみを扱うことができ、広い範囲の動作条件を考慮しない。 本稿では, FCUCの汎用データ駆動型フレームワークについて述べる。 深層ニューラルネットワーク(dnn)を訓練し、実データや高忠実度シミュレーションデータを用いて周波数応答を予測する。 次に、DNNは通常のUCの定式化に組み込む混合整数線形制約の集合として再構成される。 データ生成フェーズでは、全ての可能な電力注入を考慮し、uflcしきい値に近い周波数nadirの電力注入サンプルを含む領域間アクティブサンプリングを提案し、fcucにおける周波数制約の精度を大幅に向上させる。 提案するFCUCはIEEE 39-busシステム上で検証される。 そして,pss/eを用いた全次動的モデルシミュレーションにより,fcucの有効性を検証する。

With the increasing penetration of renewable energy, frequency response and its security are of significant concerns for reliable power system operations. Frequency-constraine d unit commitment (FCUC) is proposed to address this challenge. Despite existing efforts in modeling frequency characteristics in unit commitment (UC), current strategies can only handle oversimplified low-order frequency response models and do not consider wide-range operating conditions. This paper presents a generic data-driven framework for FCUC under high renewable penetration. Deep neural networks (DNNs) are trained to predict the frequency response using real data or high-fidelity simulation data. Next, the DNN is reformulated as a set of mixed-integer linear constraints to be incorporated into the ordinary UC formulation. In the data generation phase, all possible power injections are considered, and a region-of-interests active sampling is proposed to include power injection samples with frequency nadirs closer to the UFLC threshold, which significantly enhances the accuracy of frequency constraints in FCUC. The proposed FCUC is verified on the the IEEE 39-bus system. Then, a full-order dynamic model simulation using PSS/E verifies the effectiveness of FCUC in frequency-secure generator commitments.
翻訳日:2021-02-22 13:18:42 公開日:2021-02-18
# 胸部CT画像を用いた深層学習型COVID-19肺炎分類:モデル一般化可能性

Deep learning-based COVID-19 pneumonia classification using chest CT images: model generalizability ( http://arxiv.org/abs/2102.09616v1 )

ライセンス: Link先を確認
Dan Nguyen, Fernando Kay, Jun Tan, Yulong Yan, Yee Seng Ng, Puneeth Iyengar, Ron Peshock, Steve Jiang(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが流行して以来、世界中の研究は、新型コロナウイルス感染者のさまざまな医療データを人工知能(AI)技術で分析し、疾患のさまざまな側面を特定し分類することに注力してきた。 しかし、トレーニングデータセットの不均一な要素を考えると、その一般化性に関する懸念が持ち上がっている。 本研究は, 各国の3DCTデータセットを用いて, 深層学習(DL)分類モデルを用いて, 重症度を評価することを目的としている。 UTサウスウェスタン(UTSW)で1つのデータセットを収集し、CC-CCII Dataset(中国)、COVID-CTset(イラン)、MosMedData(ロシア)の3つの外部データセットを収集した。 データは、COVID-19陽性とCOVID-19陰性の2つのクラスに分けた。 我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。 1つのデータセットでトレーニングされたモデルは、受信機動作特性曲線(AUC)の精度/領域を0.87/0.826(UTSW)、0.97/0.988(CC-CCCI)、0.86/0.873(COVID-CTs et)と評価した。 複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。 しかし、トレーニングデータセット以外の異なるデータセットで評価すると、すべてのモデルに対するAUCは0.5(ランダムに推測される)に近づいた。 ポジティブなラベルのみを含むMosMedDataをトレーニングに含めることは、必ずしも他のデータセットのパフォーマンスに役立ちませんでした。 患者人口や画像取得や再構成の違いなど、複数の要因がこれらの結果に寄与し、異なる研究コホート間でデータシフトを引き起こしている。

Since the outbreak of the COVID-19 pandemic, worldwide research efforts have focused on using artificial intelligence (AI) technologies on various medical data of COVID-19-positive patients in order to identify or classify various aspects of the disease, with promising reported results. However, concerns have been raised over their generalizability, given the heterogeneous factors in training datasets. This study aims to examine the severity of this problem by evaluating deep learning (DL) classification models trained to identify COVID-19-positive patients on 3D computed tomography (CT) datasets from different countries. We collected one dataset at UT Southwestern (UTSW), and three external datasets from different countries: CC-CCII Dataset (China), COVID-CTset (Iran), and MosMedData (Russia). We divided the data into 2 classes: COVID-19-positive and COVID-19-negative patients. We trained nine identical DL-based classification models by using combinations of the datasets with a 72% train, 8% validation, and 20% test data split. The models trained on a single dataset achieved accuracy/area under the receiver operating characteristics curve (AUC) values of 0.87/0.826 (UTSW), 0.97/0.988 (CC-CCCI), and 0.86/0.873 (COVID-CTset) when evaluated on their own dataset. The models trained on multiple datasets and evaluated on a test set from one of the datasets used for training performed better. However, the performance dropped close to an AUC of 0.5 (random guess) for all models when evaluated on a different dataset outside of its training datasets. Including the MosMedData, which only contained positive labels, into the training did not necessarily help the performance on the other datasets. Multiple factors likely contribute to these results, such as patient demographics and differences in image acquisition or reconstruction, causing a data shift among different study cohorts.
翻訳日:2021-02-22 13:18:23 公開日:2021-02-18
# (参考訳) Edge Sparse Basis Network: EEGソースローカリゼーションのためのディープラーニングフレームワーク [全文訳有]

Edge Sparse Basis Network: An Deep Learning Framework for EEG Source Localization ( http://arxiv.org/abs/2102.09188v1 )

ライセンス: CC BY-SA 4.0
Chen Wei, Kexin Lou, Zhengyang Wang, Mingqi Zhao, Dante Mantini, Quanying Liu(参考訳) 脳波源の局在化は脳波解析の重要な技術的問題である。 EEGソースのローカリゼーションには多くの数値的方法が存在していたが、それらはすべて強力な優先度に依存しており、深いソースは難解である。 本稿では,脳波源定位のための空間基底関数分解を用いた深層学習フレームワークを提案する。 このフレームワークはedge sparse basis network (esbn)と呼ばれるedge sparsity priorとgaussian source basisを組み合わせたものである。 ESBNの性能は、運動中の合成データと実際の脳波データの両方で検証される。 その結果, 教師付きESBNは合成データにおいて従来の数値法よりも優れており, 教師なし微調整により, 実データにおけるより集中的かつ正確な局所化が可能であることが示唆された。 提案する深層学習フレームワークは,他の情報源を考慮に入れるように拡張することができ,esbnのリアルタイム特性により,脳波の脳-コンピューターインタフェースやクリニックへの応用が容易になる。

EEG source localization is an important technical issue in EEG analysis. Despite many numerical methods existed for EEG source localization, they all rely on strong priors and the deep sources are intractable. Here we propose a deep learning framework using spatial basis function decomposition for EEG source localization. This framework combines the edge sparsity prior and Gaussian source basis, called Edge Sparse Basis Network (ESBN). The performance of ESBN is validated by both synthetic data and real EEG data during motor tasks. The results suggest that the supervised ESBN outperforms the traditional numerical methods in synthetic data and the unsupervised fine-tuning provides more focal and accurate localizations in real data. Our proposed deep learning framework can be extended to account for other source priors, and the real-time property of ESBN can facilitate the applications of EEG in brain-computer interfaces and clinics.
翻訳日:2021-02-21 13:32:17 公開日:2021-02-18
# (参考訳) 分類タスクの不変変換としてのグラフ信号変換 [全文訳有]

Inferring Graph Signal Translations as Invariant Transformations for Classification Tasks ( http://arxiv.org/abs/2102.09493v1 )

ライセンス: CC BY 4.0
Raphael Baena, Lucas Drumetz and Vincent Gripon(参考訳) グラフ信号処理(GSP)の分野は、グラフを通じて表される複素領域への調和解析を一般化するツールを提案した。 これらのツールには翻訳があり、他の多くのツールを定義する必要がある。 ほとんどの作品は、グラフ構造のみを使用して翻訳を定義することを提案している。 エッジ)。 このような問題は、グラフが方向ではなく近隣に関する情報を伝えるため、一般には当てはまらない。 本稿では,ディープラーニングフレームワークを用いて教師付き分類問題を不変にするエッジ制約操作として,翻訳を推測する。 そこで本手法では,グラフ構造とラベル付き信号の両方を用いて翻訳を推論する。 2次元画像と抽象ハイパーリンクネットワークを用いて実験を行い,提案手法の有効性をグラフ上に支持された信号の有意義な翻訳を推定する。

The field of Graph Signal Processing (GSP) has proposed tools to generalize harmonic analysis to complex domains represented through graphs. Among these tools are translations, which are required to define many others. Most works propose to define translations using solely the graph structure (i.e. edges). Such a problem is ill-posed in general as a graph conveys information about neighborhood but not about directions. In this paper, we propose to infer translations as edge-constrained operations that make a supervised classification problem invariant using a deep learning framework. As such, our methodology uses both the graph structure and labeled signals to infer translations. We perform experiments with regular 2D images and abstract hyperlink networks to show the effectiveness of the proposed methodology in inferring meaningful translations for signals supported on graphs.
翻訳日:2021-02-21 13:10:17 公開日:2021-02-18
# (参考訳) Sparse-Interest Network for Sequential Recommendation [全文訳有]

Sparse-Interest Network for Sequential Recommendation ( http://arxiv.org/abs/2102.09267v1 )

ライセンス: CC BY 4.0
Qiaoyu Tan, Jianwei Zhang, Jiangchao Yao, Ninghao Liu, Jingren Zhou, Hongxia Yang, Xia Hu(参考訳) シーケンシャルレコメンデーションにおける最近の手法は、ユーザの行動シーケンスから総合的な埋め込みベクターを学習することに焦点を当てている。 しかし、経験的分析から、ユーザーの行動シーケンスは、しばしば複数の概念的に異なる項目を含むことを発見し、一方、統合された埋め込みベクトルは、主に最新の頻繁な行動の影響を受けます。 したがって、概念的に類似した項目が最近の相互作用において優勢でないと、次の優先項目を推論できない可能性がある。 この目的のために、別の解決策は、ユーザの意図の異なる側面をエンコードする複数の埋め込みベクターで各ユーザを表現することである。 それにもかかわらず、最近の多目的埋め込みの研究は、通常、クラスタリングによって発見される少数の概念を考慮し、実システムにおける項目カテゴリの大きなプールに匹敵するものではないかもしれない。 多くの多様な概念プロトタイプを効果的にモデル化することは非自明な作業であり、アイテムは概念上は細かな粒度で密集していないことが多い。 さらに、個人は通常、まばらな概念の集合だけと相互作用する。 そこで我々は,シーケンシャルレコメンデーションのための新規な \textbf{S}parse \textbf{I}nterest \textbf{NE}twork (SINE) を提案する。 我々のスパース関心モジュールは、大きな概念プールから各ユーザに対してスパースの概念セットを適応的に推論し、複数の埋め込みを出力することができる。 複数の興味が組み込まれている場合、我々はユーザーの現在の意図を積極的に予測し、次に複数の関心を次の項目の予測のために明示的にモデル化する関心集約モジュールを開発する。 いくつかの公開ベンチマークデータセットと1つの大規模産業データセットの実証結果は、SINEが最先端の手法よりも大幅に改善できることを示している。

Recent methods in sequential recommendation focus on learning an overall embedding vector from a user's behavior sequence for the next-item recommendation. However, from empirical analysis, we discovered that a user's behavior sequence often contains multiple conceptually distinct items, while a unified embedding vector is primarily affected by one's most recent frequent actions. Thus, it may fail to infer the next preferred item if conceptually similar items are not dominant in recent interactions. To this end, an alternative solution is to represent each user with multiple embedding vectors encoding different aspects of the user's intentions. Nevertheless, recent work on multi-interest embedding usually considers a small number of concepts discovered via clustering, which may not be comparable to the large pool of item categories in real systems. It is a non-trivial task to effectively model a large number of diverse conceptual prototypes, as items are often not conceptually well clustered in fine granularity. Besides, an individual usually interacts with only a sparse set of concepts. In light of this, we propose a novel \textbf{S}parse \textbf{I}nterest \textbf{NE}twork (SINE) for sequential recommendation. Our sparse-interest module can adaptively infer a sparse set of concepts for each user from the large concept pool and output multiple embeddings accordingly. Given multiple interest embeddings, we develop an interest aggregation module to actively predict the user's current intention and then use it to explicitly model multiple interests for next-item prediction. Empirical results on several public benchmark datasets and one large-scale industrial dataset demonstrate that SINE can achieve substantial improvement over state-of-the-art methods.
翻訳日:2021-02-20 07:25:38 公開日:2021-02-18
# (参考訳) シーケンシャルレコメンデーションのための動的メモリベースの注意ネットワーク [全文訳有]

Dynamic Memory based Attention Network for Sequential Recommendation ( http://arxiv.org/abs/2102.09269v1 )

ライセンス: CC BY 4.0
Qiaoyu Tan, Jianwei Zhang, Ninghao Liu, Xiao Huang, Hongxia Yang, Jingren Zhou, Xia Hu(参考訳) さまざまなオンラインサービスでは、シーケンスレコメンデーションがますます重要になっています。 歴史的相互作用からユーザの動的嗜好をモデル化し、次の項目を予測することを目的としている。 実際のシステムのユーザ行動記録の蓄積は非常に長い可能性がある。 この豊富なデータは、ユーザーの実際の興味を追跡する機会をもたらす。 以前の取り組みは、主に比較的最近の行動に基づいて推奨することに焦点を当てている。 しかし、初期のインタラクションがユーザの現在の選択に影響を与える可能性があるため、全体的なシーケンシャルデータは効果的に利用できない可能性がある。 また,実世界のシステムでは応答時間が短いため,ユーザ毎の推論を行う場合,動作シーケンス全体をスキャンすることは耐えられなくなっている。 このギャップを埋めるため,我々はDynamic Memory-based Attention Network (DMAN)と呼ばれる新しい長周期レコメンデーションモデルを提案する。 長い動作シーケンス全体を一連のサブシーケンスに分割し、モデルをトレーニングし、ユーザの長期的な利益を維持するためにメモリブロックのセットを維持する。 メモリの忠実性を改善するため、DMANは補助的な再構築損失を最小限に抑えて、ユーザの長期的関心を自身のメモリブロックに動的に抽象化する。 動的メモリに基づいて、ユーザの短期的および長期的関心を明示的に抽出し、組み合わせて効率的な共同推薦を行うことができる。 4つのベンチマークデータセットに対する実証的な結果は、様々な最先端シーケンシャルモデルに対する長期的な依存を捉える上で、我々のモデルが優れていることを示す。

Sequential recommendation has become increasingly essential in various online services. It aims to model the dynamic preferences of users from their historical interactions and predict their next items. The accumulated user behavior records on real systems could be very long. This rich data brings opportunities to track actual interests of users. Prior efforts mainly focus on making recommendations based on relatively recent behaviors. However, the overall sequential data may not be effectively utilized, as early interactions might affect users' current choices. Also, it has become intolerable to scan the entire behavior sequence when performing inference for each user, since real-world system requires short response time. To bridge the gap, we propose a novel long sequential recommendation model, called Dynamic Memory-based Attention Network (DMAN). It segments the overall long behavior sequence into a series of sub-sequences, then trains the model and maintains a set of memory blocks to preserve long-term interests of users. To improve memory fidelity, DMAN dynamically abstracts each user's long-term interest into its own memory blocks by minimizing an auxiliary reconstruction loss. Based on the dynamic memory, the user's short-term and long-term interests can be explicitly extracted and combined for efficient joint recommendation. Empirical results over four benchmark datasets demonstrate the superiority of our model in capturing long-term dependency over various state-of-the-art sequential models.
翻訳日:2021-02-20 07:10:02 公開日:2021-02-18
# (参考訳) フェデレーションエッジ学習のためのデータアウェアデバイススケジューリング [全文訳有]

Data-Aware Device Scheduling for Federated Edge Learning ( http://arxiv.org/abs/2102.09491v1 )

ライセンス: CC BY 4.0
Afaf Taik, Zoubeir Mlika and Soumaya Cherkaoui(参考訳) Federated Edge Learning (FEEL)は、エッジデバイス間の機械学習モデルの協調トレーニングと、無線エッジネットワーク内のサーバのオーケストレーションを含む。 頻繁なモデル更新のため、FEELは限られた通信帯域幅、エッジデバイスのエネルギー不足、エッジデバイスのデータ分布の統計的不均一性に適応する必要がある。 したがって、モデルのトレーニングとアップロードのためのデバイスサブセットの注意深くスケジューリングする必要がある。 データ面が未検討であるような以前の作業とは対照的に,提案するスケジューリングアルゴリズムの核となるデータ特性を検討する。 そこで本研究では,非独立分散(非IID)および非平衡データセットをFEELでスケジューリングする手法を提案する。 データは学習の鍵となる要素であるため,FEELにおける無線スケジューリングアルゴリズムにおけるデータ特性に関する新たな検討方法を提案する。 実際、デバイスによって収集されたデータは、ローカル環境と利用パターンに依存します。 したがって、データセットのサイズや分布はデバイスによって異なる。 提案アルゴリズムでは,データと資源の両方の観点から考察する。 FEELの完了時間と参加デバイスの伝送エネルギーを最小限に抑えるだけでなく、アルゴリズムは豊富で多様なデータセットを持つデバイスを優先します。 まず,データアウェアスケジューリングのための汎用フレームワークと,主な軸と多様性評価の要件を定義した。 次に、多様性の側面といくつかの悪用可能な技術とメトリクスについて論じる。 次に、この問題を定式化し、FEELスケジューリングアルゴリズムを提案する。 異なるシナリオで評価した結果,提案するFEELスケジューリングアルゴリズムは,低コストで数ラウンドで高い精度を達成できることがわかった。

Federated Edge Learning (FEEL) involves the collaborative training of machine learning models among edge devices, with the orchestration of a server in a wireless edge network. Due to frequent model updates, FEEL needs to be adapted to the limited communication bandwidth, scarce energy of edge devices, and the statistical heterogeneity of edge devices' data distributions. Therefore, a careful scheduling of a subset of devices for training and uploading models is necessary. In contrast to previous work in FEEL where the data aspects are under-explored, we consider data properties at the heart of the proposed scheduling algorithm. To this end, we propose a new scheduling scheme for non-independent and-identically-dist ributed (non-IID) and unbalanced datasets in FEEL. As the data is the key component of the learning, we propose a new set of considerations for data characteristics in wireless scheduling algorithms in FEEL. In fact, the data collected by the devices depends on the local environment and usage pattern. Thus, the datasets vary in size and distributions among the devices. In the proposed algorithm, we consider both data and resource perspectives. In addition to minimizing the completion time of FEEL as well as the transmission energy of the participating devices, the algorithm prioritizes devices with rich and diverse datasets. We first define a general framework for the data-aware scheduling and the main axes and requirements for diversity evaluation. Then, we discuss diversity aspects and some exploitable techniques and metrics. Next, we formulate the problem and present our FEEL scheduling algorithm. Evaluations in different scenarios show that our proposed FEEL scheduling algorithm can help achieve high accuracy in few rounds with a reduced cost.
翻訳日:2021-02-20 06:51:59 公開日:2021-02-18
# (参考訳) メモリ依存型連続制御のデモから学ぶ [全文訳有]

Learning Memory-Dependent Continuous Control from Demonstrations ( http://arxiv.org/abs/2102.09208v1 )

ライセンス: CC BY 4.0
Siqing Hou, Dongqi Han, Jun Tani(参考訳) 効率的な探索は、特に報酬が不足している場合、強化学習において長年の課題を提示してきた。 開発システムは、デモンストレーションと自己探索の両方から学ぶことで、この困難を克服することができます。 しかし、既存の手法は、環境がマルコフ決定プロセス(MDP)に従うと仮定するため、ほとんどの実世界のロボット制御問題には適用できないため、歴史的観察が決定に必要となる部分観察可能な環境にまで拡張されない。 本論文では,メモリ依存型連続制御のデモンストレーションを再生するアイデアを,新しいアルゴリズムであるRecurrent Actor-Critic with Demonstration and Experience Replay (READER) を提案する。 複数のメモリ精査連続制御タスクを含む実験により,本手法による環境とのインタラクションを比較的少ないサンプル数で大幅に低減できることが判明した。 このアルゴリズムは、デモからメモリベースの制御を行うためのベースライン強化学習アルゴリズムよりも、サンプル効率と学習能力も向上する。

Efficient exploration has presented a long-standing challenge in reinforcement learning, especially when rewards are sparse. A developmental system can overcome this difficulty by learning from both demonstrations and self-exploration. However, existing methods are not applicable to most real-world robotic controlling problems because they assume that environments follow Markov decision processes (MDP); thus, they do not extend to partially observable environments where historical observations are necessary for decision making. This paper builds on the idea of replaying demonstrations for memory-dependent continuous control, by proposing a novel algorithm, Recurrent Actor-Critic with Demonstration and Experience Replay (READER). Experiments involving several memory-crucial continuous control tasks reveal significantly reduce interactions with the environment using our method with a reasonably small number of demonstration samples. The algorithm also shows better sample efficiency and learning capabilities than a baseline reinforcement learning algorithm for memory-based control from demonstrations.
翻訳日:2021-02-20 05:13:22 公開日:2021-02-18
# (参考訳) 置換不変多タスク学習による資源配分問題の効率的な強化学習 [全文訳有]

Efficient Reinforcement Learning in Resource Allocation Problems Through Permutation Invariant Multi-task Learning ( http://arxiv.org/abs/2102.09361v1 )

ライセンス: CC BY 4.0
Desmond Cai, Shiau Hong Lim, Laura Wynter(参考訳) 実世界の強化学習の主な課題の1つは、限られたトレーニングサンプルからうまく学ぶことです。 本研究では,タスクの不変性を利用したマルチタスク学習によって,利用可能なデータを劇的に向上させることができることを示す。 我々は,この条件下でのサンプル効率の利得に結びついた理論的性能を提供する。 これは、適切なニューラルネットワークアーキテクチャの設計と優先順位付けされたタスクサンプリング戦略を含む、マルチタスク学習への新しいアプローチを動機付ける。 提案手法は, 金融ポートフォリオ最適化とメタフェデレーション学習という2つの実世界の逐次リソース割り当てタスクにおいて, 実証的に有効性を示す。

One of the main challenges in real-world reinforcement learning is to learn successfully from limited training samples. We show that in certain settings, the available data can be dramatically increased through a form of multi-task learning, by exploiting an invariance property in the tasks. We provide a theoretical performance bound for the gain in sample efficiency under this setting. This motivates a new approach to multi-task learning, which involves the design of an appropriate neural network architecture and a prioritized task-sampling strategy. We demonstrate empirically the effectiveness of the proposed approach on two real-world sequential resource allocation tasks where this invariance property occurs: financial portfolio optimization and meta federated learning.
翻訳日:2021-02-20 04:53:29 公開日:2021-02-18
# (参考訳) 距離計量学習とエントロピー正規化を用いたファジィクラスタリングアルゴリズム

Fuzzy clustering algorithms with distance metric learning and entropy regularization ( http://arxiv.org/abs/2102.09529v1 )

ライセンス: CC BY 4.0
Sara Ines Rizo Rodriguez and Francisco de Assis Tenorio de Carvalho(参考訳) クラスタリング手法は、画像処理、データマイニング、パターン認識、統計分析など、さまざまな分野で使用されています。 一般に、クラスタリングアルゴリズムは全ての変数がクラスタリングタスクに等しく関連しているか相関しないかを考える。 それにもかかわらず、現実の状況では、いくつかの変数は関連付けられるか、多かれ少なかれこのタスクに関係しないかもしれない。 本稿では,Euclidean,City-bloc k,Mahalanobis距離とエントロピー正規化に基づく分割ファジィクラスタリングアルゴリズムを提案する。 これらの手法は、ファジィ分割、各ファジィクラスタの代表、および適切な目的関数を最小化することにより変数またはそれらの相関の関連性重み付けを提供する反復的3ステップアルゴリズムである。 合成および実データセットに関するいくつかの実験は、ノイズの多い画像テクスチャセグメンテーションへの応用を含む、これらの適応クラスタリング手法の有用性を実証している。

The clustering methods have been used in a variety of fields such as image processing, data mining, pattern recognition, and statistical analysis. Generally, the clustering algorithms consider all variables equally relevant or not correlated for the clustering task. Nevertheless, in real situations, some variables can be correlated or may be more or less relevant or even irrelevant for this task. This paper proposes partitioning fuzzy clustering algorithms based on Euclidean, City-block and Mahalanobis distances and entropy regularization. These methods are an iterative three steps algorithms which provide a fuzzy partition, a representative for each fuzzy cluster, and the relevance weight of the variables or their correlation by minimizing a suitable objective function. Several experiments on synthetic and real datasets, including its application to noisy image texture segmentation, demonstrate the usefulness of these adaptive clustering methods.
翻訳日:2021-02-20 04:33:03 公開日:2021-02-18
# (参考訳) microsoft news recommendersを事前学習した言語モデルをループでトレーニングする [全文訳有]

Training Microsoft News Recommenders with Pretrained Language Models in the Loop ( http://arxiv.org/abs/2102.09268v1 )

ライセンス: CC BY 4.0
Shitao Xiao, Zheng Liu, Yingxia Shao, Tao Di and Xing Xie(参考訳) ニュースレコメンデーションは、ニュース記事の基本セマンティクスの深い洞察を求める。 したがって、BERTやRoBERTaのような事前訓練された言語モデル(PLM)は、推奨品質に大きく貢献する可能性がある。 ニュースレコメンダの学習には集中的なニュースエンコーディング操作が必要ですが、plmをニュースエンコーダとして使用する場合、そのコストは制限されます。 本稿では、優れた品質のPLMニュースレコメンダーを効率的にトレーニングする新しいフレームワークであるSpeedyFeedを提案する。 speedyfeedは、ライトウェイトエンコーディングパイプラインで強調されており、3つの大きな利点がある。 まず、トレーニングワークフローで中間結果を完全に再利用し、繰り返しながら冗長なエンコーディング操作の大部分を取り除く。 第二に、非情報的データをエンコーディングから排除できるトレーニングワークフローのデータ効率を改善します。 第三に、シンプルなニュースエンコーディングとコンパクトなニュース表現を活用することで、コストをさらに削減します。 SpeedyFeedは、トレーニングプロセスの100$\times$アクセラレーション以上をもたらし、巨大なモデルが大規模なユーザーデータに対して効率的かつ効果的にトレーニングできるようにします。 よく訓練されたPLMベースのモデルは、包括的なオフライン実験で最先端のニュースレコメンダーを大幅に上回ります。 競争力の高いオンラインパフォーマンスを示す大規模な生産モデルのトレーニングを強化するために、Microsoft Newsに適用されます。 SpeedyFeedはモデルに依存しないフレームワークでもあり、幅広いコンテンツベースのレコメンデーションシステムに適用できる可能性がある。 関連分野の研究やアプリケーションを容易にするために、ソースコードを一般に公開しました。

News recommendation calls for deep insights of news articles' underlying semantics. Therefore, pretrained language models (PLMs), like BERT and RoBERTa, may substantially contribute to the recommendation quality. However, it's extremely challenging to have news recommenders trained together with such big models: the learning of news recommenders requires intensive news encoding operations, whose cost is prohibitive if PLMs are used as the news encoder. In this paper, we propose a novel framework, SpeedyFeed, which efficiently trains PLMs-based news recommenders of superior quality. SpeedyFeed is highlighted for its light-weighted encoding pipeline, which gives rise to three major advantages. Firstly, it makes the intermedia results fully reusable for the training workflow, which removes most of the repetitive but redundant encoding operations. Secondly, it improves the data efficiency of the training workflow, where non-informative data can be eliminated from encoding. Thirdly, it further saves the cost by leveraging simplified news encoding and compact news representation. SpeedyFeed leads to more than 100$\times$ acceleration of the training process, which enables big models to be trained efficiently and effectively over massive user data. The well-trained PLMs-based model significantly outperforms the state-of-the-art news recommenders in comprehensive offline experiments. It is applied to Microsoft News to empower the training of large-scale production models, which demonstrate highly competitive online performances. SpeedyFeed is also a model-agnostic framework, thus being potentially applicable to a wide spectrum of content-based recommender systems. We've made the source code open to the public so as to facilitate research and applications in related areas.
翻訳日:2021-02-20 04:31:18 公開日:2021-02-18
# (参考訳) gradfreebits:動的低精度ニューラルネットワークのための勾配自由ビット割り当て [全文訳有]

GradFreeBits: Gradient Free Bit Allocation for Dynamic Low Precision Neural Networks ( http://arxiv.org/abs/2102.09298v1 )

ライセンス: CC BY 4.0
Benjamin J. Bodner and Gil Ben Shalom and Eran Treister(参考訳) 量子ニューラルネットワーク(QNN)は、低リソースエッジデバイスにディープニューラルネットワークをデプロイするための主要なアプローチのひとつだ。 ネットワーク全体で異なるレベルの精度(動的量子化)を用いてトレーニングするQNNは、通常、性能と計算負荷のトレードオフが優れている。 しかし、QNNの異なる精度レベルを最適化することは複雑であり、ビット割り当ての値は離散的で区別が困難である。 また、異なるレイヤのビット割り当て間の依存関係を適切に計算することは、直接的ではない。 そこで本研究では,重みの勾配に基づく最適化とビット割り当ての勾配なし最適化を交互に行う動的qnnの訓練のための新しい合同最適化手法であるgradfreebitsを提案する。 本手法はCIFAR10/100上での最先端の低精度ニューラルネットワークと画像ネットの分類を同等あるいは同等の性能で実現している。 さらに、私たちのアプローチは、最適化が難しいパラメータと一緒に使用されるニューラルネットワークを含むさまざまなアプリケーションに拡張することができます。

Quantized neural networks (QNNs) are among the main approaches for deploying deep neural networks on low resource edge devices. Training QNNs using different levels of precision throughout the network (dynamic quantization) typically achieves superior trade-offs between performance and computational load. However, optimizing the different precision levels of QNNs can be complicated, as the values of the bit allocations are discrete and difficult to differentiate for. Also, adequately accounting for the dependencies between the bit allocation of different layers is not straight-forward. To meet these challenges, in this work we propose GradFreeBits: a novel joint optimization scheme for training dynamic QNNs, which alternates between gradient-based optimization for the weights, and gradient-free optimization for the bit allocation. Our method achieves better or on par performance with current state of the art low precision neural networks on CIFAR10/100 and ImageNet classification. Furthermore, our approach can be extended to a variety of other applications involving neural networks used in conjunction with parameters which are difficult to optimize for.
翻訳日:2021-02-20 03:26:09 公開日:2021-02-18
# (参考訳) 半監督対象検出のための無バイアス教師 [全文訳有]

Unbiased Teacher for Semi-Supervised Object Detection ( http://arxiv.org/abs/2102.09480v1 )

ライセンス: CC BY 4.0
Yen-Cheng Liu, Chih-Yao Ma, Zijian He, Chia-Wen Kuo, Kan Chen, Peizhao Zhang, Bichen Wu, Zsolt Kira, Peter Vajda(参考訳) 半教師付き学習、すなわちラベル付きデータとラベルなしデータのトレーニングネットワークは、最近大きな進歩を遂げた。 しかし、既存の研究は主に画像分類タスクとアノテーションの努力を必要とするオブジェクト検出に重点を置いている。 本研究では,Semi-Supervised Object Detection (SS-OD)を再検討し,SS-ODにおける擬似ラベルバイアス問題を特定する。 そこで、学生と徐々に進歩する教師を相互に利益ある方法で共同で訓練するシンプルで効果的なアプローチであるUnbiased Teacherを紹介します。 Unbiased Teacherは、クラスバランスの低下と過度に自信の強い擬似ラベルと共に、COCO標準、COCO付加、VOCデータセットの大幅なマージンにより、常に最先端のメソッドを改善しました。 具体的には、MS-COCOでラベル付きデータの1%を使用する場合、最先端の方法に対して6.8の絶対mAP改善を達成し、MS-COCOでラベル付きデータの0.5, 1, 2%のみを使用する場合、監督ベースラインに対して約10mAP改善を達成します。

Semi-supervised learning, i.e., training networks with both labeled and unlabeled data, has made significant progress recently. However, existing works have primarily focused on image classification tasks and neglected object detection which requires more annotation effort. In this work, we revisit the Semi-Supervised Object Detection (SS-OD) and identify the pseudo-labeling bias issue in SS-OD. To address this, we introduce Unbiased Teacher, a simple yet effective approach that jointly trains a student and a gradually progressing teacher in a mutually-beneficial manner. Together with a class-balance loss to downweight overly confident pseudo-labels, Unbiased Teacher consistently improved state-of-the-art methods by significant margins on COCO-standard, COCO-additional, and VOC datasets. Specifically, Unbiased Teacher achieves 6.8 absolute mAP improvements against state-of-the-art method when using 1% of labeled data on MS-COCO, achieves around 10 mAP improvements against the supervised baseline when using only 0.5, 1, 2% of labeled data on MS-COCO.
翻訳日:2021-02-20 03:08:42 公開日:2021-02-18
# (参考訳) ロバスト手術状態推定のための課題の不変表現の学習 [全文訳有]

Learning Invariant Representation of Tasks for Robust Surgical State Estimation ( http://arxiv.org/abs/2102.09119v1 )

ライセンス: CC BY 4.0
Yidan Qin, Max Allan, Yisong Yue, Joel W. Burdick, Mahdi Azizian(参考訳) ロボット支援手術(RAS)の外科状態推定器(特に学習技術を介して訓練されたもの)は、実験室または実際の手術タスクで外科医の行動をキャプチャするデータセットに大きく依存します。 現実世界のRASデータセットは取得に費用がかかり、複数の外科医から取得され、異なる手術戦略を用いており、高度に複雑な環境で制御されていない状態で記録される。 高い多様性と限られたデータの組み合わせは、手術条件や手術技術に強く不変の新しい学習方法を必要とします。 本研究では,RASデータセットに固有の外科的手法および手術環境の変動の影響を最小限に抑える不変誘導フレームワークを備えた手術タスク不変状態推定ネットワークであるStiseNetを提案する。 StiseNetの敵対的アーキテクチャは、手術状態推定に必要な情報から迷惑要因を分離することを学ぶ。 StiseNetは、3つのデータセット(新しい現実世界のRASデータセットであるHERNIA-20を含む)で最先端の状態推定方法を上回ることが示されている。

Surgical state estimators in robot-assisted surgery (RAS) - especially those trained via learning techniques - rely heavily on datasets that capture surgeon actions in laboratory or real-world surgical tasks. Real-world RAS datasets are costly to acquire, are obtained from multiple surgeons who may use different surgical strategies, and are recorded under uncontrolled conditions in highly complex environments. The combination of high diversity and limited data calls for new learning methods that are robust and invariant to operating conditions and surgical techniques. We propose StiseNet, a Surgical Task Invariance State Estimation Network with an invariance induction framework that minimizes the effects of variations in surgical technique and operating environments inherent to RAS datasets. StiseNet's adversarial architecture learns to separate nuisance factors from information needed for surgical state estimation. StiseNet is shown to outperform state-of-the-art state estimation methods on three datasets (including a new real-world RAS dataset: HERNIA-20).
翻訳日:2021-02-20 02:45:44 公開日:2021-02-18
# (参考訳) Latent ShiftによるGifsplanation: 胸部X線における進行的誇張に対する単純なオートエンコーダアプローチ [全文訳有]

Gifsplanation via Latent Shift: A Simple Autoencoder Approach to Progressive Exaggeration on Chest X-rays ( http://arxiv.org/abs/2102.09475v1 )

ライセンス: CC BY 4.0
Joseph Paul Cohen, Rupert Brooks, Sovann En, Evan Zucker, Anuj Pareek, Matthew P. Lungren, Akshay Chaudhari(参考訳) モチベーション: 従来のイメージアトリビューション手法は、ニューラルネットワークの予測を満足いく説明に苦しむ。 偽陽性予測が患者ケアに影響を与える可能性がある場合、AIシステムをデプロイする意図しない結果を避けるため、特に医療画像では予測説明が重要です。 したがって、モデル説明可能性とイントロスペクションの改善モデルを開発する必要がある。 特定の問題:新しいアプローチは予測を引き起こす特徴を高めるか、または減らすために入力イメージを変えることです。 しかし、モノリシックでGANに依存しているため、現在のアプローチの実装は困難です。 これらのハードルは広く採用されるのを防ぐ。 我々のアプローチ:任意の分類器が与えられた場合、入力画像の潜在表現を変換し、予測に使用する特徴を誇張または縮小する簡単なオートエンコーダと勾配更新(Latent Shift)を提案する。 この方法を用いて胸部x線分類器の研究を行い,その性能評価を行う。 本研究では, 従来のアトリビューションマップや提案手法を用いて, 240個の胸部X線予測を行い, どれが偽陽性か(半数)を判定する。 結果: 精度の高いモデルでは, 地上の真理病マスクとの重なりが低かった。 しかし、読者調査の結果から、これらのモデルが一般的に正しい機能に注目していることがわかる。 また, 潜伏シフトの説明により, 従来の手法に比べて正の予測に対する信頼度が低く(p=0.01), 偽の正の予測はわずかに増加した(p=0.57では0.04$\pm$1.06)。 https://mlmed.org/gi fsplanation source code: https://github.com/m lmed/gifsplanation

Motivation: Traditional image attribution methods struggle to satisfactorily explain predictions of neural networks. Prediction explanation is important, especially in the medical imaging, for avoiding the unintended consequences of deploying AI systems when false positive predictions can impact patient care. Thus, there is a pressing need to develop improved models for model explainability and introspection. Specific Problem: A new approach is to transform input images to increase or decrease features which cause the prediction. However, current approaches are difficult to implement as they are monolithic or rely on GANs. These hurdles prevent wide adoption. Our approach: Given an arbitrary classifier, we propose a simple autoencoder and gradient update (Latent Shift) that can transform the latent representation of an input image to exaggerate or curtail the features used for prediction. We use this method to study chest X-ray classifiers and evaluate their performance. We conduct a reader study with two radiologists assessing 240 chest X-ray predictions to identify which ones are false positives (half are) using traditional attribution maps or our proposed method. Results: We found low overlap with ground truth pathology masks for models with reasonably high accuracy. However, the results from our reader study indicate that these models are generally looking at the correct features. We also found that the Latent Shift explanation allows a user to have more confidence in true positive predictions compared to traditional approaches (0.15$\pm$0.95 in a 5 point scale with p=0.01) with only a small increase in false positive predictions (0.04$\pm$1.06 with p=0.57). Accompanying webpage: https://mlmed.org/gi fsplanation Source code: https://github.com/m lmed/gifsplanation
翻訳日:2021-02-20 02:29:27 公開日:2021-02-18
# (参考訳) 高速応答型COVID-19テキスト分類のための正規表現 [全文訳有]

Regular Expressions for Fast-response COVID-19 Text Classification ( http://arxiv.org/abs/2102.09507v1 )

ライセンス: CC BY 4.0
Igor L. Markov, Jacqueline Liu, Adam Vagner(参考訳) テキスト分類器は多くのNLPアプリケーションの中心にあり、様々なアルゴリズムアプローチとソフトウェアを使用します。 本稿は、Facebookが特定のテキスト – ハッシュタグからポストベロンまで – から、COVID-19のような狭いトピックに至るまで – をどのように判断するかを説明する。 トピックを完全に定義し、分類器の性能を評価するために、キーワード発見の人間誘導反復を用いるが、ラベル付きデータを必要としない。 新型コロナウイルス(covid-19)に対して,(1)精度99%の66ヶ国語,(2)一般言語11ヶ国語,精度90%以上,リコール90%の2種類の正規表現を構築した。 正規表現は複数のプラットフォームからの低レイテンシクエリを可能にする。 \hush{PHP, Python, Java and SQL code} COVID-19のような課題に対する応答は速く、修正も速い。 DNN分類器との比較は、説明可能な結果、より高い精度とリコール、およびより少ないオーバーフィットを示す。 我々の学習は他の狭義の分類器にも適用できる。

Text classifiers are at the core of many NLP applications and use a variety of algorithmic approaches and software. This paper describes how Facebook determines if a given piece of text - anything from a hashtag to a post - belongs to a narrow topic such as COVID-19. To fully define a topic and evaluate classifier performance we employ human-guided iterations of keyword discovery, but do not require labeled data. For COVID-19, we build two sets of regular expressions: (1) for 66 languages, with 99% precision and recall >50%, (2) for the 11 most common languages, with precision >90% and recall >90%. Regular expressions enable low-latency queries from multiple platforms. \hush{PHP, Python, Java and SQL code} Response to challenges like COVID-19 is fast and so are revisions. Comparisons to a DNN classifier show explainable results, higher precision and recall, and less overfitting. Our learnings can be applied to other narrow-topic classifiers.
翻訳日:2021-02-20 02:15:00 公開日:2021-02-18
# (参考訳) ロバスト性保証付き低次ニューラルネットワーク合成 [全文訳有]

Reduced-Order Neural Network Synthesis with Robustness Guarantees ( http://arxiv.org/abs/2102.09284v1 )

ライセンス: CC BY 4.0
Ross Drummond, Mathew C. Turner and Stephen R. Duncan(参考訳) スマートフォンやサイバーフィジカルシステムの爆発的な成長を受けて、集中データからデバイス上のデータへのデータ生成方法が急速に変化しています。 これに対し、機械学習アルゴリズムはローカルで動作し、ハードウェアが限られている可能性があり、ユーザーのプライバシーを改善し、レイテンシーを減らし、エネルギー効率を高めるデバイスに適応している。 しかし、これらのデバイス指向アルゴリズムがどのように動作し、トレーニングされるべきかについての私たちの理解はまだかなり制限されています。 この問題に対処するために、より大きなニューロンの入出力マッピングを近似する低次ニューラルネットワーク(ニューロンが少ない)を自動で合成する手法を提案する。 減次ニューラルネットワークの重みとバイアスは、より大きなネットワークに対する最悪のケース近似誤差を最小にする凸半定義プログラムから生成される。 この近似誤差に対する最悪の境界が得られ、このアプローチは幅広いニューラルネットワークアーキテクチャに適用することができる。 提案されたアプローチを、例えば小さなニューラルネットワークを生成する既存の方法と区別する。 pruningは、トレーニングコスト関数に直接最悪のケース近似エラーを含めることで、堅牢性が向上するはずです。 数値例は提案手法の可能性を浮き彫りにする。 本研究の目的は,ニューラルネットワークのロバスト性解析における最近の結果を,重みとバイアスに対するロバストな合成問題に一般化することである。

In the wake of the explosive growth in smartphones and cyberphysical systems, there has been an accelerating shift in how data is generated away from centralised data towards on-device generated data. In response, machine learning algorithms are being adapted to run locally on board, potentially hardware limited, devices to improve user privacy, reduce latency and be more energy efficient. However, our understanding of how these device orientated algorithms behave and should be trained is still fairly limited. To address this issue, a method to automatically synthesize reduced-order neural networks (having fewer neurons) approximating the input/output mapping of a larger one is introduced. The reduced-order neural network's weights and biases are generated from a convex semi-definite programme that minimises the worst-case approximation error with respect to the larger network. Worst-case bounds for this approximation error are obtained and the approach can be applied to a wide variety of neural networks architectures. What differentiates the proposed approach to existing methods for generating small neural networks, e.g. pruning, is the inclusion of the worst-case approximation error directly within the training cost function, which should add robustness. Numerical examples highlight the potential of the proposed approach. The overriding goal of this paper is to generalise recent results in the robustness analysis of neural networks to a robust synthesis problem for their weights and biases.
翻訳日:2021-02-20 01:57:12 公開日:2021-02-18
# (参考訳) Off-Policy Natural Actor-Criticアルゴリズムの有限サンプル解析 [全文訳有]

Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm ( http://arxiv.org/abs/2102.09318v1 )

ライセンス: CC BY 4.0
Sajad Khodadadian, Zaiwei Chen, and Siva Theja Maguluri(参考訳) 本稿では,重要度サンプリングに基づく自然アクター・クリティック(nac)アルゴリズムのオフポリシー変種に対する有限サンプル収束保証を提案する。 特に、このアルゴリズムは、ステップ化の適切な選択の下で$\mathcal{o}(\epsilon^{-3}\log^2(1/\epsilon))$のサンプル複雑性を持つ大域的最適ポリシーに収束することを示す。 重要度サンプリングによる大きなばらつきを克服するため,V-traceアルゴリズム(Espeholt et al., 2018)にインスパイアされた批評家に対して,$Q$-traceアルゴリズムを提案する。 これにより、バイアスと分散を明示的に制御し、それらの間のトレードオフを特徴付けることができます。 オフポリシーサンプリングの利点として、私たちの結果の主な特徴は、行動ポリシーによって誘導されるマルコフチェーンのエルゴジックを超えて、追加の仮定を必要としないことです。

In this paper, we provide finite-sample convergence guarantees for an off-policy variant of the natural actor-critic (NAC) algorithm based on Importance Sampling. In particular, we show that the algorithm converges to a global optimal policy with a sample complexity of $\mathcal{O}(\epsilon^{-3}\log^2(1/\epsilon))$ under an appropriate choice of stepsizes. In order to overcome the issue of large variance due to Importance Sampling, we propose the $Q$-trace algorithm for the critic, which is inspired by the V-trace algorithm (Espeholt et al., 2018). This enables us to explicitly control the bias and variance, and characterize the trade-off between them. As an advantage of off-policy sampling, a major feature of our result is that we do not need any additional assumptions, beyond the ergodicity of the Markov chain induced by the behavior policy.
翻訳日:2021-02-20 00:46:48 公開日:2021-02-18
# (参考訳) NuCLS: スケーラブルなクラウドソーシング、ディープラーニングアプローチ、核分類、ローカライゼーション、セグメンテーションのためのデータセット

NuCLS: A scalable crowdsourcing, deep learning approach and dataset for nucleus classification, localization and segmentation ( http://arxiv.org/abs/2102.09099v1 )

ライセンス: CC BY 4.0
Mohamed Amgad (1), Lamees A. Atteya (2), Hagar Hussein (3), Kareem Hosny Mohammed (4), Ehab Hafiz (5), Maha A.T. Elsebaie (6), Ahmed M. Alhusseiny (7), Mohamed Atef AlMoslemany (8), Abdelmagid M. Elmatboly (9), Philip A. Pappalardo (10), Rokia Adel Sakr (11), Pooya Mobadersany (1), Ahmad Rachid (12), Anas M. Saad (13), Ahmad M. Alkashash (14), Inas A. Ruhban (15), Anas Alrefai (12), Nada M. Elgazar (16), Ali Abdulkarim (17), Abo-Alela Farag (12), Amira Etman (8), Ahmed G. Elsaeed (16), Yahya Alagha (17), Yomna A. Amer (8), Ahmed M. Raslan (18), Menatalla K. Nadim (19), Mai A.T. Elsebaie (12), Ahmed Ayad (20), Liza E. Hanna (3), Ahmed Gadallah (12), Mohamed Elkady (21), Bradley Drumheller (22), David Jaye (22), David Manthey (23), David A. Gutman (24), Habiba Elfandy (25, 26), Lee A.D. Cooper (1, 27, 28) ((1) Department of Pathology, Northwestern University, Chicago, IL, USA, (2) Cairo Health Care Administration, Egyptian Ministry of Health, Cairo, Egypt, (3) Department of Pathology, Nasser institute for research and treatment, Cairo, Egypt, (4) Department of Pathology and Laboratory Medicine, University of Pennsylvania, PA, USA, (5) Department of Clinical Laboratory Research, Theodor Bilharz Research Institute, Giza, Egypt, (6) Department of Medicine, Cook County Hospital, Chicago, IL, USA, (7) Department of Pathology, Baystate Medical Center, University of Massachusetts, Springfield, MA, USA, (8) Faculty of Medicine, Menoufia University, Menoufia, Egypt, (9) Faculty of Medicine, Al-Azhar University, Cairo, Egypt, (10) Consultant for The Center for Applied Proteomics and Molecular Medicine (CAPMM), George Mason University, Manassas, VA, USA, (11) Department of Pathology, National Liver Institute, Menoufia University, Menoufia, Egypt, (12) Faculty of Medicine, Ain Shams University, Cairo, Egypt, (13) Cleveland Clinic Foundation, Cleveland, OH, USA, (14) Department of Pathology, Indiana University, Indianapolis, IN, USA, (15) Faculty of Medicine, Damascus University, Damascus, Syria, (16) Faculty of Medicine, Mansoura University, Mansoura, Egypt, (17) Faculty of Medicine, Cairo University, Cairo, Egypt, (18) Department of Anaesthesia and Critical Care, Menoufia University Hospital, Menoufia, Egypt, (19) Department of Clinical Pathology, Ain Shams University, Cairo, Egypt, (20) Research Department, Oncology Consultants, PA, Houston, TX, USA, (21) Siparadigm Diagnostic Informatics, Pine Brook, NJ, USA, (22) Department of Pathology and Laboratory Medicine, Emory University School of Medicine, Atlanta, GA, USA, (23) Kitware Inc., Clifton Park, NY, USA, (24) Department of Neurology, Emory University School of Medicine, Atlanta, GA, USA, (25) Department of Pathology, National Cancer Institute, Cairo, Egypt, (26) Department of Pathology, Children's Cancer Hospital Egypt CCHE 57357, Cairo, Egypt, (27) Lurie Cancer Center, Northwestern University, Chicago, IL, USA, (28) Center for Computational Imaging and Signal Analytics, Northwestern University Feinberg School of Medicine, Chicago, IL, USA)(参考訳) 細胞と組織構造の高解像度マッピングは、計算病理学のための解釈可能な機械学習モデルを開発する基礎となる。 ディープラーニングアルゴリズムは、トレーニングと検証のために多数のラベル付きインスタンスを与えられた正確なマッピングを提供することができる。 適切な品質ラベルを生成することは、病理学者が必要とする時間と労力を考えると、計算病理学において重要な障壁となっている。 本稿では,乳がんにおける220,000以上の細胞核アノテーションのデータセットの作成に用いられた,医学生や病理学者の群集へのアプローチについて述べる。 提案手法は,非専門家が生成するアノテーションの精度を向上し,手作業による追跡を必要とせず,セグメント化アルゴリズムの訓練に有用なデータが得られることを示す。 細胞マッピングを改善するため, インターレータ契約を体系的に検討し, MaskRCNNモデルの変更について述べる。 また,核分節と形態学的特徴を利用して核分類モデルの透明性を向上させる,学習埋め込みの決定木近似(dtale)と呼ばれる手法についても述べる。 この研究で作成されたアノテーションデータは、アルゴリズム開発とベンチマークで自由に利用可能である。

High-resolution mapping of cells and tissue structures provides a foundation for developing interpretable machine-learning models for computational pathology. Deep learning algorithms can provide accurate mappings given large numbers of labeled instances for training and validation. Generating adequate volume of quality labels has emerged as a critical barrier in computational pathology given the time and effort required from pathologists. In this paper we describe an approach for engaging crowds of medical students and pathologists that was used to produce a dataset of over 220,000 annotations of cell nuclei in breast cancers. We show how suggested annotations generated by a weak algorithm can improve the accuracy of annotations generated by non-experts and can yield useful data for training segmentation algorithms without laborious manual tracing. We systematically examine interrater agreement and describe modifications to the MaskRCNN model to improve cell mapping. We also describe a technique we call Decision Tree Approximation of Learned Embeddings (DTALE) that leverages nucleus segmentations and morphologic features to improve the transparency of nucleus classification models. The annotation data produced in this study are freely available for algorithm development and benchmarking at: https://sites.google .com/view/nucls.
翻訳日:2021-02-19 23:57:12 公開日:2021-02-18
# (参考訳) 医用画像解析のためのドメイン適応:調査 [全文訳有]

Domain Adaptation for Medical Image Analysis: A Survey ( http://arxiv.org/abs/2102.09508v1 )

ライセンス: CC BY 4.0
Hao Guan, Mingxia Liu(参考訳) コンピュータ支援医療画像解析で使用される機械学習技術は、通常、ソース/参照データとターゲットデータの間の異なる分布に起因する領域シフト問題に悩まされる。 有望なソリューションとして、ドメイン適応は近年大きな注目を集めています。 本研究の目的は,医用画像解析における領域適応手法の最近の進歩を調査することである。 まず,医療画像解析におけるドメイン異質性問題に取り組むために,ドメイン適応手法を導入する動機について述べる。 次に,様々な医用画像解析タスクにおける最近のドメイン適応モデルについて概観する。 既存の手法を浅層モデルと深層モデルに分類し,それぞれを教師付き,半教師付き,教師なしの2つの手法に分類する。 また、現在の領域適応研究をサポートするベンチマーク医療画像データセットの概要も紹介する。 この調査により、研究者は現在の状況や課題をよりよく理解できるようになる。

Machine learning techniques used in computer-aided medical image analysis usually suffer from the domain shift problem caused by different distributions between source/reference data and target data. As a promising solution, domain adaptation has attracted considerable attention in recent years. The aim of this paper is to survey the recent advances of domain adaptation methods in medical image analysis. We first present the motivation of introducing domain adaptation techniques to tackle domain heterogeneity issues for medical image analysis. Then we provide a review of recent domain adaptation models in various medical image analysis tasks. We categorize the existing methods into shallow and deep models, and each of them is further divided into supervised, semi-supervised and unsupervised methods. We also provide a brief summary of the benchmark medical image datasets that support current domain adaptation research. This survey will enable researchers to gain a better understanding of the current status, challenges.
翻訳日:2021-02-19 23:36:30 公開日:2021-02-18
# (参考訳) ロバストで異なるプライベートな平均推定

Robust and Differentially Private Mean Estimation ( http://arxiv.org/abs/2102.09159v1 )

ライセンス: CC BY 4.0
Xiyang Liu, Weihao Kong, Sham Kakade, and Sewoong Oh(参考訳) 差分プライバシーは、米国国勢調査から商用デバイスで収集されたデータまで、さまざまなアプリケーションにおいて標準要件として現れており、データベースの統計を正確かつプライベートにリリースする広範な研究のラインが始められている。 このようなデータベースの数は、複数のソースからのデータからなり、それらすべてが信頼できるわけではない。 これにより、既存のプライベート分析は、腐敗したデータを注入する敵による攻撃に弱い。 プライバシーと堅牢性を同時に保証するアルゴリズムを設計することの重要性にもかかわらず、最も単純な質問でさえもオープンである。 i.i.d.から平均を推定する標準問題のために サンプルでは、幅広い分布のプライバシーと堅牢性を実現する最初の効率的なアルゴリズムを紹介します。 これは堅牢性のために既知の下界と一致する最適な精度を実現するが、サンプルの複雑さは既知の下界からの$d^{1/2}$ギャップの因子を有する。 さらに、このギャップは計算効率によるものであり、このギャップを閉じるが指数時間を要するアルゴリズムの最初のファミリーを導入する。 このイノベーションは、レジリエンス(堅牢な推定において重要な特性)を利用して、感度を適応的にバインドし、プライバシーを向上させることです。

Differential privacy has emerged as a standard requirement in a variety of applications ranging from the U.S. Census to data collected in commercial devices, initiating an extensive line of research in accurately and privately releasing statistics of a database. An increasing number of such databases consist of data from multiple sources, not all of which can be trusted. This leaves existing private analyses vulnerable to attacks by an adversary who injects corrupted data. Despite the significance of designing algorithms that guarantee privacy and robustness (to a fraction of data being corrupted) simultaneously, even the simplest questions remain open. For the canonical problem of estimating the mean from i.i.d. samples, we introduce the first efficient algorithm that achieves both privacy and robustness for a wide range of distributions. This achieves optimal accuracy matching the known lower bounds for robustness, but the sample complexity has a factor of $d^{1/2}$ gap from known lower bounds. We further show that this gap is due to the computational efficiency; we introduce the first family of algorithms that close this gap but takes exponential time. The innovation is in exploiting resilience (a key property in robust estimation) to adaptively bound the sensitivity and improve privacy.
翻訳日:2021-02-19 22:51:42 公開日:2021-02-18
# (参考訳) エコー状態音声認識 [全文訳有]

Echo State Speech Recognition ( http://arxiv.org/abs/2102.09114v1 )

ライセンス: CC BY 4.0
Harsh Shrivastava, Ankush Garg, Yuan Cao, Yu Zhang, Tara Sainath(参考訳) エコー状態ネットワーク(ESN)にインスパイアされた自動音声認識(ASR)モデルを提案する。このモデルにおける再帰ニューラルネットワーク(RNN)層のサブセットはランダムに初期化され、訓練されない。 本研究ではRNN-TおよびConformerモデルに着目し,デコーダが完全にランダム化されてもモデル品質が低下しないことを示す。 さらに、デコーダを更新する必要がないため、そのようなモデルをより効率的にトレーニングできます。 対照的に、ランダム化エンコーダはモデル品質を損なうため、音声認識にはエンコーダの最適化と適切な音響入力表現の学習が不可欠である。 全体として、すべてのコンポーネントに対してASRモデルをトレーニングする一般的な実践に挑戦し、ESNベースのモデルが完全にトレーニング可能なモデルよりも効率的なトレーニングとストレージを可能にすることを実証する。

We propose automatic speech recognition (ASR) models inspired by echo state network (ESN), in which a subset of recurrent neural networks (RNN) layers in the models are randomly initialized and untrained. Our study focuses on RNN-T and Conformer models, and we show that model quality does not drop even when the decoder is fully randomized. Furthermore, such models can be trained more efficiently as the decoders do not require to be updated. By contrast, randomizing encoders hurts model quality, indicating that optimizing encoders and learn proper representations for acoustic inputs are more vital for speech recognition. Overall, we challenge the common practice of training ASR models for all components, and demonstrate that ESN-based models can perform equally well but enable more efficient training and storage than fully-trainable counterparts.
翻訳日:2021-02-19 22:50:20 公開日:2021-02-18
# (参考訳) 放射線医学レポートに応用した自然言語処理の体系的検討

A Systematic Review of Natural Language Processing Applied to Radiology Reports ( http://arxiv.org/abs/2102.09553v1 )

ライセンス: CC BY 4.0
Arlene Casey, Emma Davidson, Michael Poon, Hang Dong, Daniel Duma, Andreas Grivas, Claire Grover, V\'ictor Su\'arez-Paniagua, Richard Tobin, William Whiteley, Honghan Wu, Beatrice Alex(参考訳) NLPは医療の進歩において重要な役割を担っており、放射線医学レポートから構造化された情報を抽出する鍵であることがわかっています。 放射線学へのNLP適用の最近の展開を理解することは重要であるが、近年のレビューは限られている。 本研究は, 放射線学報告に応用されたNLPの最近の文献を体系的に評価する。 当社の自動文献検索は、自動フィルタリング、メタデータ強化ステップ、引用検索と手動レビューを組み合わせた4,799結果をもたらします。 本研究は, 放射線学的特徴, nlp法, 性能, 研究, 臨床応用特性を含む21の変数に基づく。 本研究は6つの臨床応用カテゴリのうちの1つに分類された164の論文を包括的に分析する。 ディープラーニングの利用は増加するが、従来の機械学習アプローチはまだ一般的である。 ディープラーニングは、データが不足し、臨床実践への採用の証拠がほとんどない場合にも課題があります。 0.85 F1以上のスコアを報告している研究の17%にもかかわらず、これらのアプローチを比較評価することは困難である。 14の研究のみがデータを公開し、15のコードで10の外部検証結果が得られた。 放射線医学レポートの臨床的ナラティブの自動理解は、医療プロセスを強化する可能性を秘めているが、その領域が応用を臨床利用に移す場合、モデルの再現性と説明可能性が重要である。 異なる機関データに対するメソッドの検証を可能にするコードを共有するために、また研究間比較を可能にする研究プロパティの報告における異種性を減らすために、さらに多くのことができる。 本研究は,既存の作業の体系的な合成,ギャップの特定,コラボレーションの機会,重複の回避など,研究者にとって重要である。

NLP has a significant role in advancing healthcare and has been found to be key in extracting structured information from radiology reports. Understanding recent developments in NLP application to radiology is of significance but recent reviews on this are limited. This study systematically assesses recent literature in NLP applied to radiology reports. Our automated literature search yields 4,799 results using automated filtering, metadata enriching steps and citation search combined with manual review. Our analysis is based on 21 variables including radiology characteristics, NLP methodology, performance, study, and clinical application characteristics. We present a comprehensive analysis of the 164 publications retrieved with each categorised into one of 6 clinical application categories. Deep learning use increases but conventional machine learning approaches are still prevalent. Deep learning remains challenged when data is scarce and there is little evidence of adoption into clinical practice. Despite 17% of studies reporting greater than 0.85 F1 scores, it is hard to comparatively evaluate these approaches given that most of them use different datasets. Only 14 studies made their data and 15 their code available with 10 externally validating results. Automated understanding of clinical narratives of the radiology reports has the potential to enhance the healthcare process but reproducibility and explainability of models are important if the domain is to move applications into clinical use. More could be done to share code enabling validation of methods on different institutional data and to reduce heterogeneity in reporting of study properties allowing inter-study comparisons. Our results have significance for researchers providing a systematic synthesis of existing work to build on, identify gaps, opportunities for collaboration and avoid duplication.
翻訳日:2021-02-19 22:40:40 公開日:2021-02-18
# (参考訳) 深層最適経路フォレストを用いた階層学習 [全文訳有]

Hierarchical Learning Using Deep Optimum-Path Forest ( http://arxiv.org/abs/2102.09312v1 )

ライセンス: CC BY 4.0
Luis C. S. Afonso, Clayton R. Pereira, Silke A. T. Weber, Christian Hook, Alexandre X. Falc\~ao, Jo\~ao P. Papa(参考訳) バグオブビジュアルワード(bovw)やディープラーニング技術は、コンピュータ支援医療診断を含むいくつかの領域で広く使われている。 本研究では機械学習とBoVWの概念を用いたパーキンソン病の自動同定ツールの開発に興味を持っている。 提案手法は,深い最適パスフォレスト分類器を用いた視覚辞書設計のための階層型学習手法である。 本手法は筆跡検定の際に個人から収集したデータから得られた6つのデータセットで評価した。 実験結果は、この技術の可能性を、堅牢な成果で示しました。

Bag-of-Visual Words (BoVW) and deep learning techniques have been widely used in several domains, which include computer-assisted medical diagnoses. In this work, we are interested in developing tools for the automatic identification of Parkinson's disease using machine learning and the concept of BoVW. The proposed approach concerns a hierarchical-based learning technique to design visual dictionaries through the Deep Optimum-Path Forest classifier. The proposed method was evaluated in six datasets derived from data collected from individuals when performing handwriting exams. Experimental results showed the potential of the technique, with robust achievements.
翻訳日:2021-02-19 22:22:40 公開日:2021-02-18
# (参考訳) ジオローカリゼーションのための階層的注意融合 [全文訳有]

Hierarchical Attention Fusion for Geo-Localization ( http://arxiv.org/abs/2102.09186v1 )

ライセンス: CC BY 4.0
Liqi Yan, Yiming Cui, Yingjie Chen, Dongfang Liu(参考訳) ジオローカリゼーションはコンピュータビジョンにおいて重要なタスクです。 本研究では2次元画像検索タスクとしてジオローカライズを行った。 2Dジオローカリゼーションの現在の最先端の方法は、イメージ表現の1つのセマンティックレベルからのみ機能を利用するため、劇的なスケールバリエーションのあるシーンを見つけるには堅牢ではありません。 この制限に対処するため、ジオローカリゼーションのためのマルチスケール機能を使用した階層的注目融合ネットワークを紹介します。 畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。 学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。 画像検索と大規模ジオローカリゼーションベンチマークの評価結果から,本手法が既存の最新手法を上回っていることが示唆された。 コードはここにある: \url{https://github.com/Y anLiqi/HAF}。

Geo-localization is a critical task in computer vision. In this work, we cast the geo-localization as a 2D image retrieval task. Current state-of-the-art methods for 2D geo-localization are not robust to locate a scene with drastic scale variations because they only exploit features from one semantic level for image representations. To address this limitation, we introduce a hierarchical attention fusion network using multi-scale features for geo-localization. We extract the hierarchical feature maps from a convolutional neural network (CNN) and organically fuse the extracted features for image representations. Our training is self-supervised using adaptive weights to control the attention of feature emphasis from each hierarchical level. Evaluation results on the image retrieval and the large-scale geo-localization benchmarks indicate that our method outperforms the existing state-of-the-art methods. Code is available here: \url{https://github.com/Y anLiqi/HAF}.
翻訳日:2021-02-19 21:58:21 公開日:2021-02-18
# (参考訳) 単眼深予測のための並列同期マルチモーダルネットワークを用いたイベントとフレームの組み合わせ [全文訳有]

Combining Events and Frames using Recurrent Asynchronous Multimodal Networks for Monocular Depth Prediction ( http://arxiv.org/abs/2102.09320v1 )

ライセンス: CC BY 4.0
Daniel Gehrig, Michelle R\"uegg, Mathias Gehrig, Javier Hidalgo Carrio, Davide Scaramuzza(参考訳) イベントカメラは、非同期な"イベント"のストリームとしてピクセルごとの明るさ変化を報告する新しい視覚センサーである。 標準のカメラに比べて、高時間分解能、高ダイナミックレンジ、動きのぼかしがないため、大きな利点がある。 しかし、イベントは視覚信号の異なるコンポーネントのみを測定するため、シーンコンテキストをエンコードする能力が制限される。 対照的に、標準的なカメラは絶対強度のフレームを測定し、シーンのよりリッチな表現を捉える。 両方のセンサーは相補的である。 しかし、イベントの非同期性のために、同期画像と組み合わせることは、特に学習ベースの方法では難しいままです。 これは、従来のリカレントニューラルネットワーク(RNN)が追加のセンサーからの非同期および不規則なデータ用に設計されていないためです。 この課題を解決するため、従来のRNNを一般化し、複数のセンサからの非同期および不規則なデータを処理できるRecurrent Asynchronous Multimodal(RAM)ネットワークを導入しました。 従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。 この新しいアーキテクチャをイベントやフレームによる単眼深度推定に適用し、平均絶対深度誤差において最先端の手法よりも最大30%向上したことを示す。 イベントを用いたマルチモーダル学習のさらなる研究を可能にするために、イベントスケープ、インテンシティフレーム、セマンティックラベル、深さマップをcarlaシミュレータに記録した新しいデータセットをリリースする。

Event cameras are novel vision sensors that report per-pixel brightness changes as a stream of asynchronous "events". They offer significant advantages compared to standard cameras due to their high temporal resolution, high dynamic range and lack of motion blur. However, events only measure the varying component of the visual signal, which limits their ability to encode scene context. By contrast, standard cameras measure absolute intensity frames, which capture a much richer representation of the scene. Both sensors are thus complementary. However, due to the asynchronous nature of events, combining them with synchronous images remains challenging, especially for learning-based methods. This is because traditional recurrent neural networks (RNNs) are not designed for asynchronous and irregular data from additional sensors. To address this challenge, we introduce Recurrent Asynchronous Multimodal (RAM) networks, which generalize traditional RNNs to handle asynchronous and irregular data from multiple sensors. Inspired by traditional RNNs, RAM networks maintain a hidden state that is updated asynchronously and can be queried at any time to generate a prediction. We apply this novel architecture to monocular depth estimation with events and frames where we show an improvement over state-of-the-art methods by up to 30% in terms of mean absolute depth error. To enable further research on multimodal learning with events, we release EventScape, a new dataset with events, intensity frames, semantic labels, and depth maps recorded in the CARLA simulator.
翻訳日:2021-02-19 21:49:29 公開日:2021-02-18
# (参考訳) StablePose:幾何学的に安定したパッチから6Dオブジェクトを学習する [全文訳有]

StablePose: Learning 6D Object Poses from Geometrically Stable Patches ( http://arxiv.org/abs/2102.09334v1 )

ライセンス: CC BY 4.0
Junwen Huang, Yifei Shi, Xin Xu, Yifan Zhang, Kai Xu(参考訳) 本稿では,6次元物体ポーズ推定問題に対する幾何学的安定性の概念を紹介し,観測された3次元点雲から抽出した幾何学的安定パッチに基づくポーズ推定法を提案する。 幾何安定性解析の理論によれば、3つの平面/円筒のパッチの最小セットは幾何学的に安定であり、対象の完全な6DoFを決定する。 深層ニューラルネットワークをトレーニングし、幾何学的に安定なパッチ群に基づく6Dオブジェクトのポーズを、パッチ内幾何学的特徴とパッチ間文脈的特徴の両方を学習する。 サブネットワークは、パッチごとのポーズを予測するために共同で訓練される。 この補助的なタスクはグループポーズ予測の緩和である: 単一のパッチは完全な6DoFを決定できないが、対応するDoFのポーズ精度を改善することができる。 パッチグループを扱うことで、ランダムな閉塞や目に見えないインスタンスに対してよく一般化できる。 この方法は対称性の曖昧さを解決するのに容易である。 提案手法は,深度のみでなく,RGBD法にも比較して,公開ベンチマークの最先端結果を実現する。 カテゴリーレベルのポーズ推定でもうまく機能する。

We introduce the concept of geometric stability to the problem of 6D object pose estimation and propose to learn pose inference based on geometrically stable patches extracted from observed 3D point clouds. According to the theory of geometric stability analysis, a minimal set of three planar/cylindrical patches are geometrically stable and determine the full 6DoFs of the object pose. We train a deep neural network to regress 6D object pose based on geometrically stable patch groups via learning both intra-patch geometric features and inter-patch contextual features. A subnetwork is jointly trained to predict per-patch poses. This auxiliary task is a relaxation of the group pose prediction: A single patch cannot determine the full 6DoFs but is able to improve pose accuracy in its corresponding DoFs. Working with patch groups makes our method generalize well for random occlusion and unseen instances. The method is easily amenable to resolve symmetry ambiguities. Our method achieves the state-of-the-art results on public benchmarks compared not only to depth-only but also to RGBD methods. It also performs well in category-level pose estimation.
翻訳日:2021-02-19 21:31:43 公開日:2021-02-18
# (参考訳) Deep Gait Recognition: サーベイ [全文訳有]

Deep Gait Recognition: A Survey ( http://arxiv.org/abs/2102.09546v1 )

ライセンス: CC BY 4.0
Alireza Sepas-Moghaddam, Ali Etemad(参考訳) 歩行認識は、歩き方に基づいて個人を識別することを目的とした魅力的な生体測定モダリティです。 ディープラーニングは、差別的な表現を自動的に学習する能力によって、2015年からこの分野の研究環境を再構築した。 ディープラーニングに基づく歩容認識手法がこの分野の最先端を席巻し、現実世界の応用を育んでいる。 本稿では,データセット,テストプロトコル,最先端のソリューション,課題,今後の研究方向性など,幅広いトピックを網羅した,深層学習による歩行認識のブレークスルーと最近の展開の概要を紹介する。 まず、一般的に使用されるgaitデータセットと、それらを評価するために設計された原則をレビューします。 そこで本研究では, 身体表現, 時間表現, 特徴表現, ニューラルアーキテクチャという4つの異なる次元からなる新しい分類法を提案し, 研究のランドスケープと文学を特徴づけ, 整理する。 提案した分類学に続いて,深層学習を用いた歩行認識手法を総合的に調査し,その性能,特性,利点,限界について考察した。 本調査は,現在の課題を議論して結論づけ,歩容認識における今後の研究の有望な方向性について述べる。

Gait recognition is an appealing biometric modality which aims to identify individuals based on the way they walk. Deep learning has reshaped the research landscape in this area since 2015 through the ability to automatically learn discriminative representations. Gait recognition methods based on deep learning now dominate the state-of-the-art in the field and have fostered real-world applications. In this paper, we present a comprehensive overview of breakthroughs and recent developments in gait recognition with deep learning, and cover broad topics including datasets, test protocols, state-of-the-art solutions, challenges, and future research directions. We first review the commonly used gait datasets along with the principles designed for evaluating them. We then propose a novel taxonomy made up of four separate dimensions namely body representation, temporal representation, feature representation, and neural architecture, to help characterize and organize the research landscape and literature in this area. Following our proposed taxonomy, a comprehensive survey of gait recognition methods using deep learning is presented with discussions on their performances, characteristics, advantages, and limitations. We conclude this survey with a discussion on current challenges and mention a number of promising directions for future research in gait recognition.
翻訳日:2021-02-19 21:16:42 公開日:2021-02-18
# (参考訳) 典型的な難解なファジィ言語とオートマトンについて [全文訳有]

On Typical Hesitant Fuzzy Languages and Automata ( http://arxiv.org/abs/2102.09347v1 )

ライセンス: CC BY 4.0
Valdigleis S. Costa, Benjam\'in C. Bedregal and Regivan H. N. Santiago(参考訳) 非決定論的な典型的なhesitantファジィオートマタのアイデアは、コスタとベドレガルによって提示されたファジィオートマタの一般化である。 本稿では,非決定論的な典型的ファジィオートマトンによって計算される典型的なヘジットファジィ言語について,十分かつ必要な条件を示す。 さらに,本論文では,古典的ヘジット・ファジィ・オートマタの新しいクラスをクリップ遷移で導入し,このクラスがコスタリカとベドレガルが導入したオリジナルクラスと同等のものであることを示す。

The idea of nondeterministic typical hesitant fuzzy automata is a generalization of the fuzzy automata presented by Costa and Bedregal. This paper, presents the sufficient and necessary conditions for a typical hesitant fuzzy language to be computed by nondeterministic typical hesitant fuzzy automata. Besides, the paper introduces a new class of Typical Hesitant Fuzzy Automata with crisp transitions, and we will show that this new class is equivalent to the original class introduced by Costa and Bedregal
翻訳日:2021-02-19 20:11:50 公開日:2021-02-18
# (参考訳) 適応ロバストネスの一貫した非パラメトリック法 [全文訳有]

Consistent Non-Parametric Methods for Adaptive Robustness ( http://arxiv.org/abs/2102.09086v1 )

ライセンス: CC BY 4.0
Robi Bhattacharjee and Kamalika Chaudhuri(参考訳) 相手の例に堅牢な学習分類器は、最近多くの注目を集めています。 標準ロバスト学習フレームワークの大きな欠点は、すべての入力に適用される人工ロバスト性半径$r$の付与であり、データが非常に不均一であるという事実を無視している。 本論文では,適応的堅牢性のための新たなフレームワークを提案することにより,この制限に対処する。 重み関数として表現できる一般的な非パラメトリックな手法がロバスト性の概念を満足する十分な条件を示し、隣人およびカーネル分類器の両方が大きなサンプル極限でこれらの条件を満たすことを示す。

Learning classifiers that are robust to adversarial examples has received a great deal of recent attention. A major drawback of the standard robust learning framework is the imposition of an artificial robustness radius $r$ that applies to all inputs, and ignores the fact that data may be highly heterogeneous. In this paper, we address this limitation by proposing a new framework for adaptive robustness, called neighborhood preserving robustness. We present sufficient conditions under which general non-parametric methods that can be represented as weight functions satisfy our notion of robustness, and show that both nearest neighbors and kernel classifiers satisfy these conditions in the large sample limit.
翻訳日:2021-02-19 19:18:44 公開日:2021-02-18
# (参考訳) 対向ロバスト性向上のためのランダム投影法 [全文訳有]

Random Projections for Improved Adversarial Robustness ( http://arxiv.org/abs/2102.09230v1 )

ライセンス: CC BY 4.0
Ginevra Carbone, Guido Sanguinetti, Luca Bortolussi(参考訳) 敵攻撃に対するニューラルネットワークの堅牢性を改善するための2つのトレーニング手法を提案する。 不正な予測にネットワークを騙すために悪質に作られた入力の操作。 どちらの方法も選択された攻撃とは独立であり、元の入力のランダムな射影を活用し、次元の縮小と逆摂動の幾何学的性質の両方を利用する。 最初のテクニックはRP-Ensembleと呼ばれ、元の入力の複数の投影バージョンで訓練されたネットワークのアンサンブルで構成されています。 2番目のRP-Regularizerはトレーニング目標に正規化用語を追加する。

We propose two training techniques for improving the robustness of Neural Networks to adversarial attacks, i.e. manipulations of the inputs that are maliciously crafted to fool networks into incorrect predictions. Both methods are independent of the chosen attack and leverage random projections of the original inputs, with the purpose of exploiting both dimensionality reduction and some characteristic geometrical properties of adversarial perturbations. The first technique is called RP-Ensemble and consists of an ensemble of networks trained on multiple projected versions of the original inputs. The second one, named RP-Regularizer, adds instead a regularization term to the training objective.
翻訳日:2021-02-19 18:39:24 公開日:2021-02-18
# (参考訳) リカレント合理ネットワーク [全文訳有]

Recurrent Rational Networks ( http://arxiv.org/abs/2102.09407v1 )

ライセンス: CC BY 4.0
Quentin Delfosse, Patrick Schramowski, Alejandro Molina and Kristian Kersting(参考訳) 生物学の最近の知見は、知能はニューロン間のつながりから生じるだけでなく、個々のニューロンが計算責任を担っていることを示している。 現在のニューラルネットワークの設計と探索は、固定活性化関数に偏っている。 より高度な学習可能なアクティベーション機能を使用して、ニューラルネットワークに学習能力を提供します。 しかし、そのようなネットワークを構築するための一般的なガイダンスはまだ欠けています。 本稿では、まず、なぜrationalsがアクティベーション関数に最適な選択を提供するのかを説明する。 残差接続の下で閉じていることを示し、残差ネットワークの繰り返しにインスパイアされて、Rationals: Recurrent Rationalsの自己正規化バージョンを導出する。 画像分類と深層強化学習において,(繰り返し)レーショナルネットワークは高い性能向上をもたらすことを実証した。

Latest insights from biology show that intelligence does not only emerge from the connections between the neurons, but that individual neurons shoulder more computational responsibility. Current Neural Network architecture design and search are biased on fixed activation functions. Using more advanced learnable activation functions provide Neural Networks with higher learning capacity. However, general guidance for building such networks is still missing. In this work, we first explain why rationals offer an optimal choice for activation functions. We then show that they are closed under residual connections, and inspired by recurrence for residual networks we derive a self-regularized version of Rationals: Recurrent Rationals. We demonstrate that (Recurrent) Rational Networks lead to high performance improvements on Image Classification and Deep Reinforcement Learning.
翻訳日:2021-02-19 18:28:01 公開日:2021-02-18
# (参考訳) 教師なしラベル補正による自殺・抑うつ診断の深層学習 [全文訳有]

Deep Learning for Suicide and Depression Identification with Unsupervised Label Correction ( http://arxiv.org/abs/2102.09427v1 )

ライセンス: CC BY 4.0
Ayaan Haque, Viraaj Reddi, and Tyler Giallanza(参考訳) うつ病患者の自殺観念の早期発見は、適切な医療的注意と支援を可能にし、多くの場合、命を救うことができる。 最近のNLP研究は、個人が自殺的または臨床的に健康である場合、あるテキストから分類することに焦点を当てている。 しかし、うつ病と自殺観念を区別する大きな試みは行われておらず、これは重要な臨床的課題である。 EHRデータや自殺メモなどの確認済み資料が不足しているため、Webクエリデータが有望な代替手段として現れている。 Redditなどのオンラインソースは、症状の正直な開示を促す匿名性を認めており、臨床現場でも信頼できる情報源となっている。 しかし、これらのオンラインデータセットは性能を低下させ、ノイズ除去プロセスを必要とするwebスクレイプラベルの固有のノイズに起因する可能性がある。 そこで本研究では,深層学習による自殺対抑うつ分類手法であるSDCNLを提案する。 redditのオンラインコンテンツを利用してアルゴリズムを学習し,ノイズラベルの検証と修正を行うため,従来の作業とは異なり,事前のノイズ分布情報を必要としない新しいラベル補正手法を提案する。 複数単語埋め込みモデルと分類器を用いた広範囲な実験は,新しい難解な分類法において,この手法の強い性能を示す。 コードとデータセットをhttps://github.com/a yaanzhaque/SDCNLで公開します。

Early detection of suicidal ideation in depressed individuals can allow for adequate medical attention and support, which in many cases is life-saving. Recent NLP research focuses on classifying, from a given piece of text, if an individual is suicidal or clinically healthy. However, there have been no major attempts to differentiate between depression and suicidal ideation, which is an important clinical challenge. Due to the scarce availability of EHR data, suicide notes, or other similar verified sources, web query data has emerged as a promising alternative. Online sources, such as Reddit, allow for anonymity that prompts honest disclosure of symptoms, making it a plausible source even in a clinical setting. However, these online datasets also result in lower performance, which can be attributed to the inherent noise in web-scraped labels, which necessitates a noise-removal process. Thus, we propose SDCNL, a suicide versus depression classification method through a deep learning approach. We utilize online content from Reddit to train our algorithm, and to verify and correct noisy labels, we propose a novel unsupervised label correction method which, unlike previous work, does not require prior noise distribution information. Our extensive experimentation with multiple deep word embedding models and classifiers display the strong performance of the method in anew, challenging classification application. We make our code and dataset available at https://github.com/a yaanzhaque/SDCNL
翻訳日:2021-02-19 18:23:11 公開日:2021-02-18
# (参考訳) 機能ラグランジアンによる確率的仕様の検証 [全文訳有]

Verifying Probabilistic Specifications with Functional Lagrangians ( http://arxiv.org/abs/2102.09479v1 )

ライセンス: CC BY 4.0
Leonard Berrada, Sumanth Dathathri, Krishnamurthy (Dj) Dvijotham, Robert Stanforth, Rudy Bunel, Jonathan Uesato, Sven Gowal, M. Pawan Kumar(参考訳) 本稿では,標準ラグランジュ双対性を一般化した関数ラグランジュ乗算器を用いて,ニューラルネットワークの入出力仕様を検証する汎用フレームワークを提案する。 任意の確率的仕様を扱えるフレームワークの理論的性質を導出し、十分に柔軟な機能的乗算器のクラスが選択された場合、それが確実に厳密な検証につながることを示す。 関数的乗数クラスの司法的選択により、このフレームワークは厳密性と複雑性の間の望ましいトレードオフを許容できる。 このフレームワークは,ガウス後部近似を用いたベイズニューラルネットワーク,MCドロップアウトネットワークなど,多様なネットワークを扱えることを実証的に証明し,対向ロバスト性およびアウト・オブ・ディストリビューション(OOD)検出の仕様を検証した。 我々のフレームワークは、いくつかの設定における事前作業を改善するとともに、分散的に堅牢なOOD検出など、新しい確率的ネットワークや確率的仕様に一般化する。

We propose a general framework for verifying input-output specifications of neural networks using functional Lagrange multipliers that generalizes standard Lagrangian duality. We derive theoretical properties of the framework, which can handle arbitrary probabilistic specifications, showing that it provably leads to tight verification when a sufficiently flexible class of functional multipliers is chosen. With a judicious choice of the class of functional multipliers, the framework can accommodate desired trade-offs between tightness and complexity. We demonstrate empirically that the framework can handle a diverse set of networks, including Bayesian neural networks with Gaussian posterior approximations, MC-dropout networks, and verify specifications on adversarial robustness and out-of-distribution( OOD) detection. Our framework improves upon prior work in some settings and also generalizes to new stochastic networks and probabilistic specifications, like distributionally robust OOD detection.
翻訳日:2021-02-19 18:12:00 公開日:2021-02-18
# (参考訳) 機械学習モデルを用いたフォトプレチモグラフ信号からの呼吸速度の新しい非侵襲的推定法 [全文訳有]

A Novel Non-Invasive Estimation of Respiration Rate from Photoplethysmograph Signal Using Machine Learning Model ( http://arxiv.org/abs/2102.09483v1 )

ライセンス: CC BY 4.0
Md Nazmul Islam Shuzan, Moajjem Hossain Chowdhury, Muhammad E.H. Chowdhury, M. Monir Uddin, Amith Khandakar, Zaid B. Mahbub and Naveed Nawaz(参考訳) 喘息、慢性閉塞性肺疾患(COPD)、肺炎、肺癌などの呼吸器疾患は生命を脅かすものです。 呼吸速度 (RR) は患者の健康を示す重要な指標である。 RRの継続的な監視は早期の指示を与え、それによって命を救うことができる。 しかし、リアルタイムの連続RR監視施設は、機器のサイズとコストのために集中ケアユニット(ICU)でのみ利用可能です。 最近の研究では、RR推定のためのPhotoplethysmogram(P PG)および/心電図(ECG)信号が提案されているが、ウェアラブルデバイスでは利用できないため、ECGの使用は制限されている。 PPGセンサーを内蔵したウェアラブルスマートウォッチの出現により、RRの継続的な監視が検討されている。 本稿では,PPG信号特性を有する機械学習(ML)モデルを用いたRR推定手法について述べる。 特徴選択アルゴリズムは計算の複雑さとオーバーフィットの可能性を減らすために用いられた。 最良mlモデルと最良特徴選択アルゴリズムの組み合わせは、ハイパーパラメータ最適化を用いてその性能を最適化するために微調整された。 ガウス過程回帰(GPR)とフィジャーグプ特徴選択アルゴリズムは、他の組み合わせよりも優れており、ルート平均二乗誤差(RMSE)、平均絶対誤差(MAE)、および2標準偏差(2SD)はそれぞれ2.57, 1.91, 5.13呼吸/分である。 このMLモデルに基づくRR推定は、患者をリアルタイムに監視するウェアラブルデバイスに組み込むことができる。

Respiratory ailments such as asthma, chronic obstructive pulmonary disease (COPD), pneumonia, and lung cancer are life-threatening. Respiration rate (RR) is a vital indicator of the wellness of a patient. Continuous monitoring of RR can provide early indication and thereby save lives. However, a real-time continuous RR monitoring facility is only available at the intensive care unit (ICU) due to the size and cost of the equipment. Recent researches have proposed Photoplethysmogram (PPG) and/ Electrocardiogram (ECG) signals for RR estimation however, the usage of ECG is limited due to the unavailability of it in wearable devices. Due to the advent of wearable smartwatches with built-in PPG sensors, it is now being considered for continuous monitoring of RR. This paper describes a novel approach to RR estimation using machine learning (ML) models with the PPG signal features. Feature selection algorithms were used to reduce computational complexity and the chance of overfitting. The best ML model and the best feature selection algorithm combination was fine-tuned to optimize its performance using hyperparameter optimization. Gaussian Process Regression (GPR) with fitrgp feature selection algorithm outperformed all other combinations and exhibits a root mean squared error (RMSE), mean absolute error (MAE), and two-standard deviation (2SD) of 2.57, 1.91, and 5.13 breaths per minute, respectively. This ML model based RR estimation can be embedded in wearable devices for real-time continuous monitoring of the patient.
翻訳日:2021-02-19 17:22:26 公開日:2021-02-18
# (参考訳) ちょっと良くなった? バンディット学習のための定量情報

A Bit Better? Quantifying Information for Bandit Learning ( http://arxiv.org/abs/2102.09488v1 )

ライセンス: CC BY 4.0
Adithya M. Devraj, Benjamin Van Roy, Kuang Xu(参考訳) 情報比率は、エージェントが探索と搾取のバランスをとる効果を評価するためのアプローチを提供する。 当初、これは2乗の期待された後悔と環境と行動観察のペアの間の相互情報との比率として定義され、これは情報獲得の尺度を表す。 最近の研究は、特により厳しい後悔の境界に到達するためにバンディット学習アルゴリズムの分析に使用するための代替情報対策の考察に触発されました。 情報の定量化により,情報指向サンプリングの実現性能が向上するかどうかを検討し,情報比の最小化を目指す。

The information ratio offers an approach to assessing the efficacy with which an agent balances between exploration and exploitation. Originally, this was defined to be the ratio between squared expected regret and the mutual information between the environment and action-observation pair, which represents a measure of information gain. Recent work has inspired consideration of alternative information measures, particularly for use in analysis of bandit learning algorithms to arrive at tighter regret bounds. We investigate whether quantification of information via such alternatives can improve the realized performance of information-directed sampling, which aims to minimize the information ratio.
翻訳日:2021-02-19 16:57:54 公開日:2021-02-18
# (参考訳) 実世界フルエントオブジェクトを用いた長期アウトカムの最適化:サッカーへの応用 [全文訳有]

Optimising Long-Term Outcomes using Real-World Fluent Objectives: An Application to Football ( http://arxiv.org/abs/2102.09469v1 )

ライセンス: CC BY 4.0
Ryan Beal, Georgios Chalkiadakis, Timothy J. Norman and Sarvapali D. Ramchurn(参考訳) 本論文では,サッカー(サッカー)における長期戦術的・戦略的な意思決定を,ある時間枠をまたいだリーグ環境におけるイベントをカプセル化することで最適化する新しいアプローチを提案する。 シーズンのチームの目標をモデル化し、ゲームが展開するにつれてこれらがどのように進化するかを追跡し、意思決定ゲームに役立つ流動的な目標を提供します。 私たちは、マルコフチェーンモンテカルロと学習ベースのアルゴリズムを開発し、環境における以前のゲームや他のゲームから学び、チームの長期的なパフォーマンスを向上させるために流れるような目的を利用します。 760試合の実際のデータセットを用いたアプローチのシミュレーションでは、流動性のある目標と事前のゲームで最適化された戦術を用いることで、平均的な増加チームではリーグ内の分布を最大35.6%まで増やすことができる。

In this paper, we present a novel approach for optimising long-term tactical and strategic decision-making in football (soccer) by encapsulating events in a league environment across a given time frame. We model the teams' objectives for a season and track how these evolve as games unfold to give a fluent objective that can aid in decision-making games. We develop Markov chain Monte Carlo and deep learning-based algorithms that make use of the fluent objectives in order to learn from prior games and other games in the environment and increase the teams' long-term performance. Simulations of our approach using real-world datasets from 760 matches shows that by using optimised tactics with our fluent objective and prior games, we can on average increase teams mean expected finishing distribution in the league by up to 35.6%.
翻訳日:2021-02-19 16:56:56 公開日:2021-02-18
# (参考訳) DeepMetaHandles:Biha rmonic Coordinatesを用いた3Dメッシュの変形メタハンドルの学習 [全文訳有]

DeepMetaHandles: Learning Deformation Meta-Handles of 3D Meshes with Biharmonic Coordinates ( http://arxiv.org/abs/2102.09105v1 )

ライセンス: CC BY 4.0
Minghua Liu, Minhyuk Sung, Radomir Mech, Hao Su(参考訳) メッシュ変形に基づく3次元条件生成モデルであるDeepMetaHandlesを提案する。 カテゴリの3次元メッシュの集合とその変形ハンドル(制御点)が与えられた場合,本手法は与えられたハンドルの組み合わせとして表現される,各形状のメタハンドルの集合を学習する。 切り離されたメタハンドルは、形状のすべての可塑性変形を分解し、それぞれが直感的な変形に対応する。 新しい変形は、特定の範囲のメタハンドルの係数をサンプリングすることによって生成することができる。 制御点の翻訳をメッシュ全体にスムーズに伝達できる変形機能として、バイハーモニック座標を採用しています。 メタハンドルとしてゼロ変形を学習することを避けるため、入力メッシュを変形してランダムなターゲットにマッチするターゲットフィッティングモジュールを組み込んだ。 変形の可視性を高めるために,メッシュを2次元空間に投影するソフトラスタライザベースの判別器を用いる。 実験では, 生成した変形の優越性, 学習したメタハンドルの解釈性と一貫性を実証した。

We propose DeepMetaHandles, a 3D conditional generative model based on mesh deformation. Given a collection of 3D meshes of a category and their deformation handles (control points), our method learns a set of meta-handles for each shape, which are represented as combinations of the given handles. The disentangled meta-handles factorize all the plausible deformations of the shape, while each of them corresponds to an intuitive deformation. A new deformation can then be generated by sampling the coefficients of the meta-handles in a specific range. We employ biharmonic coordinates as the deformation function, which can smoothly propagate the control points' translations to the entire mesh. To avoid learning zero deformation as meta-handles, we incorporate a target-fitting module which deforms the input mesh to match a random target. To enhance deformations' plausibility, we employ a soft-rasterizer-base d discriminator that projects the meshes to a 2D space. Our experiments demonstrate the superiority of the generated deformations as well as the interpretability and consistency of the learned meta-handles.
翻訳日:2021-02-19 16:41:47 公開日:2021-02-18
# (参考訳) 自己監督深度予測のための点変換法の改良 [全文訳有]

Improved Point Transformation Methods For Self-Supervised Depth Prediction ( http://arxiv.org/abs/2102.09142v1 )

ライセンス: CC BY 4.0
Chen Ziwen, Zixuan Guo, Jerod Weinman(参考訳) ステレオ画像対やエゴモーション画像対が与えられた場合、単眼深度推定の教師なし学習の一般的な成功方法は、学習した深度予測による画像再構成の品質を測定することである。 近年の継続的な研究により、全体的なアプローチが改善されているが、共通フレームワークには依然としていくつかの重要な制限が残っている。 先行研究はヒューリスティックにこの問題に対処しているが,本稿ではオクルード点を正しく効率的に処理するzブッフィングアルゴリズムを提案する。 このアルゴリズムは、機械学習ライブラリの典型的なオペレーターによって実装されているため、差別化を自動サポートした既存の教師なし深度学習フレームワークに組み込むことができる。 さらに、変換後の負の深さを持つ点はしばしば誤った浅みの予測を示すため、この望ましくない振舞いを明示する損失関数を導入する。 KITTIデータセットの実験結果から,zバッファと負の深度損失はともに,アート深度予測ネットワークの性能を向上させることが示された。

Given stereo or egomotion image pairs, a popular and successful method for unsupervised learning of monocular depth estimation is to measure the quality of image reconstructions resulting from the learned depth predictions. Continued research has improved the overall approach in recent years, yet the common framework still suffers from several important limitations, particularly when dealing with points occluded after transformation to a novel viewpoint. While prior work has addressed this problem heuristically, this paper introduces a z-buffering algorithm that correctly and efficiently handles occluded points. Because our algorithm is implemented with operators typical of machine learning libraries, it can be incorporated into any existing unsupervised depth learning framework with automatic support for differentiation. Additionally, because points having negative depth after transformation often signify erroneously shallow depth predictions, we introduce a loss function to penalize this undesirable behavior explicitly. Experimental results on the KITTI data set show that the z-buffer and negative depth loss both improve the performance of a state of the art depth-prediction network.
翻訳日:2021-02-19 16:23:11 公開日:2021-02-18
# (参考訳) vision-aided 6g wireless communications: blockage predictionとproactive handoff [全文訳有]

Vision-Aided 6G Wireless Communications: Blockage Prediction and Proactive Handoff ( http://arxiv.org/abs/2102.09527v1 )

ライセンス: CC BY 4.0
Gouranga Charan, Muhammad Alrabeiah, and Ahmed Alkhateeb(参考訳) 遮断に対する感度は、高周波(5Gミリ波と6Gサブテラヘルツ)無線ネットワークにとって重要な課題です。 これらのネットワークは主にLOSリンクに依存しているため、突然のリンクブロックはネットワークの信頼性を脅かす。 さらに、LOSリンクがブロックされた場合、ネットワークは通常、ユーザを別のLOSベースステーションに渡す必要がある。 信頼性とレイテンシの課題に取り組む有望な方法は、無線ネットワークのプロアクションを可能にすることだ。 proactionは基本的に、ネットワークがブロック、特に動的ブロックを予測し、事前にユーザのハンドオフを開始することができる。 本論文では,基地局に設置されたRGBカメラの映像データを活用した無線ネットワークにおけるプロアクションを実現するための完全な機械学習フレームワークを提案する。 そこで本論文では,バイモーダルマシンラーニングを用いた視覚支援型無線通信ソリューションを提案し,アクティブブロッキング予測とユーザハンドオフを行う。 このソリューションの基礎は、視覚的および無線的データから受信する閉塞を予測する方法を学ぶディープラーニングアルゴリズムです。 このアルゴリズムの予測は無線ネットワークによって積極的にハンドオフ決定を開始し、不要な遅延を回避するために使用される。 このアルゴリズムは、ViWiデータ生成フレームワークを用いて生成されたビジョンワイヤレスデータセットに基づいて開発されている。 異なるカメラを持つ2つの基地局での実験結果は、アルゴリズムが正確に入ってくるブロックを90ドル以上正確に検出できることを示している。 このような閉塞予測能力は、プロアクティブハンドオフの精度に直接反映され、これはまた$87\%$に近づきます。 これは将来の無線ネットワークにおいて高い信頼性と低レイテンシを実現する、有望な方向を強調している。

The sensitivity to blockages is a key challenge for the high-frequency (5G millimeter wave and 6G sub-terahertz) wireless networks. Since these networks mainly rely on line-of-sight (LOS) links, sudden link blockages highly threatens the reliability of the networks. Further, when the LOS link is blocked, the network typically needs to hand off the user to another LOS basestation, which may incur critical time latency, especially if a search over a large codebook of narrow beams is needed. A promising way to tackle the reliability and latency challenges lies in enabling proaction in wireless networks. Proaction basically allows the network to anticipate blockages, especially dynamic blockages, and initiate user hand-off beforehand. This paper presents a complete machine learning framework for enabling proaction in wireless networks relying on visual data captured, for example, by RGB cameras deployed at the base stations. In particular, the paper proposes a vision-aided wireless communication solution that utilizes bimodal machine learning to perform proactive blockage prediction and user hand-off. The bedrock of this solution is a deep learning algorithm that learns from visual and wireless data how to predict incoming blockages. The predictions of this algorithm are used by the wireless network to proactively initiate hand-off decisions and avoid any unnecessary latency. The algorithm is developed on a vision-wireless dataset generated using the ViWi data-generation framework. Experimental results on two basestations with different cameras indicate that the algorithm is capable of accurately detecting incoming blockages more than $\sim 90\%$ of the time. Such blockage prediction ability is directly reflected in the accuracy of proactive hand-off, which also approaches $87\%$. This highlights a promising direction for enabling high reliability and low latency in future wireless networks.
翻訳日:2021-02-19 16:07:22 公開日:2021-02-18
# (参考訳) No-Substitution $k$-means Clustering with Low Center Complexity and Memory [全文訳有]

No-Substitution $k$-means Clustering with Low Center Complexity and Memory ( http://arxiv.org/abs/2102.09101v1 )

ライセンス: CC BY 4.0
Robi Bhattacharjee and Jacob Imola(参考訳) クラスタリングは機械学習の基本的なタスクです。 データセット $X = \{x_1, \ldots x_n\}$ を考えると、$k$-means クラスタリングの目標は、各点から最も近い中心までの平方距離の合計を最小化する方法で $X$ から $k$ "centers" を選択することである。 我々は、オンラインにおける$k$-meansクラスタリングを検討し、置換設定はせず、ストリーミングした直後に$x_t$をセンターとして取るかどうかを決めなければならない。 オンラインの代替設定はクラスタリングに困難ではない - 任意の$O(1)$-近似$k$-meansアルゴリズムが中心複雑度$\Omega(n)$を持つ必要があるデータセット$X$が存在することを示すことができる。 bhattacharjee と moshkovitz (2020) はこの境界を、$lower_{\alpha, k}(x)$と呼ばれる複雑性測度を定義し、任意の$\alpha$近似アルゴリズムが$\omega(lower_{\alpha, k}(x))$を持つことを証明することで洗練した。 すると彼らは、中心複雑性が $O(k^3)$-approximation アルゴリズムを $\tilde{O}(k^2Lower_{k^3, k}(X))$ で与え、それらのパラメータが要求中心複雑性の厳密な測度であることを示した。 しかし、アルゴリズムの主な欠点は、そのメモリ要件であり、これは$O(n)$です。 これにより、非常に大きなデータセットではアルゴリズムが非現実的になる。 本研究では,3つの領域のアルゴリズムを厳格に改良し,中心的複雑性が$\tilde{O}(kLower_{36, k}(X))$で,O(k)$追加メモリのみを使用する36$近似アルゴリズムを開発した。 ほぼ最適なメモリを持つのに加えて、このアルゴリズムは、中心複雑性を$lower_{36, k}(x)$で区切られた最初の既知のアルゴリズムであり、これは真の$o(1)$近似であり、近似係数は$k$または$n$とは独立である。

Clustering is a fundamental task in machine learning. Given a dataset $X = \{x_1, \ldots x_n\}$, the goal of $k$-means clustering is to pick $k$ "centers" from $X$ in a way that minimizes the sum of squared distances from each point to its nearest center. We consider $k$-means clustering in the online, no substitution setting, where one must decide whether to take $x_t$ as a center immediately upon streaming it and cannot remove centers once taken. The online, no substitution setting is challenging for clustering--one can show that there exist datasets $X$ for which any $O(1)$-approximation $k$-means algorithm must have center complexity $\Omega(n)$, meaning that it takes $\Omega(n)$ centers in expectation. Bhattacharjee and Moshkovitz (2020) refined this bound by defining a complexity measure called $Lower_{\alpha, k}(X)$, and proving that any $\alpha$-approximati on algorithm must have center complexity $\Omega(Lower_{\alpha, k}(X))$. They then complemented their lower bound by giving a $O(k^3)$-approximation algorithm with center complexity $\tilde{O}(k^2Lower_{k^3, k}(X))$, thus showing that their parameter is a tight measure of required center complexity. However, a major drawback of their algorithm is its memory requirement, which is $O(n)$. This makes the algorithm impractical for very large datasets. In this work, we strictly improve upon their algorithm on all three fronts; we develop a $36$-approximation algorithm with center complexity $\tilde{O}(kLower_{36, k}(X))$ that uses only $O(k)$ additional memory. In addition to having nearly optimal memory, this algorithm is the first known algorithm with center complexity bounded by $Lower_{36, k}(X)$ that is a true $O(1)$-approximation with its approximation factor being independent of $k$ or $n$.
翻訳日:2021-02-19 15:33:00 公開日:2021-02-18
# (参考訳) オーディオ・イント・イメージ・アルゴリズムのためのディープニューラルネットワークを用いた見えないステレオグラフィ [全文訳有]

Deep Neural Networks based Invisible Steganography for Audio-into-Image Algorithm ( http://arxiv.org/abs/2102.09173v1 )

ライセンス: CC BY-SA 4.0
Quang Pham Huu, Thoi Hoang Dinh, Ngoc N. Tran, Toan Pham Van and Thanh Ta Minh(参考訳) 過去数年間、ステガノグラフィーは、単に情報セキュリティの分野以上に応用が拡大しているため、多くの研究者から注目を集めている。 最も伝統的な方法は、最下位ビット符号化のようなデジタル信号処理に基づいている。 近年,ステガノグラフィ問題に対する深層学習を用いた新たなアプローチが提案されている。 しかし、既存のアプローチのほとんどはイメージ・イン・イメージ・ステガノグラフィー用に設計されている。 本論文では,秘密音声をデジタル画像に隠蔽する深層学習手法を提案する。 第1のネットワークは秘密の音声を画像に隠蔽し、第2のネットワークは画像を復号して元の音声を得る責務を負う。 大規模な実験は24K画像とVIVOS Corpusオーディオデータセットを用いて行われる。 実験結果から,本手法は従来の手法よりも有効であることがわかった。 画像と音声の整合性は良好に保たれ、隠れた音声の最大長は大幅に改善されている。

In the last few years, steganography has attracted increasing attention from a large number of researchers since its applications are expanding further than just the field of information security. The most traditional method is based on digital signal processing, such as least significant bit encoding. Recently, there have been some new approaches employing deep learning to address the problem of steganography. However, most of the existing approaches are designed for image-in-image steganography. In this paper, the use of deep learning techniques to hide secret audio into the digital images is proposed. We employ a joint deep neural network architecture consisting of two sub-models: the first network hides the secret audio into an image, and the second one is responsible for decoding the image to obtain the original audio. Extensive experiments are conducted with a set of 24K images and the VIVOS Corpus audio dataset. Through experimental results, it can be seen that our method is more effective than traditional approaches. The integrity of both image and audio is well preserved, while the maximum length of the hidden audio is significantly improved.
翻訳日:2021-02-19 14:58:08 公開日:2021-02-18
# SLAKE: 医用ビジュアル質問応答のためのセマンティックラベル付き知識強化データセット

SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering ( http://arxiv.org/abs/2102.09542v1 )

ライセンス: Link先を確認
Bo Liu, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, Xiao-Ming Wu(参考訳) 医学的視覚的質問応答(Med-VQA)は、医療において大きな可能性を秘めている。 しかし、この技術の開発は、トレーニングと評価のための公開可能で高品質のラベル付きデータセットの欠如によって妨げられています。 本稿では、経験者によって注釈付けされた包括的セマンティックラベルと、Med-VQAのための新しい構造的医療知識ベースを備えた大規模なバイリンガルデータセットSLAKEを提案する。 さらに、SLAKEはよりリッチなモダリティを含み、現在利用可能なデータセットよりも多くの人体部分をカバーする。 SLAKEは,Med-VQAシステムの開発と評価を容易にするために利用できることを示す。 データセットはhttp://www.med-vqa.c om/slakeからダウンロードできる。

Medical visual question answering (Med-VQA) has tremendous potential in healthcare. However, the development of this technology is hindered by the lacking of publicly-available and high-quality labeled datasets for training and evaluation. In this paper, we present a large bilingual dataset, SLAKE, with comprehensive semantic labels annotated by experienced physicians and a new structural medical knowledge base for Med-VQA. Besides, SLAKE includes richer modalities and covers more human body parts than the currently available dataset. We show that SLAKE can be used to facilitate the development and evaluation of Med-VQA systems. The dataset can be downloaded from http://www.med-vqa.c om/slake.
翻訳日:2021-02-19 14:35:37 公開日:2021-02-18
# 電気自動車充電ステーションにおける時間行動パターン検出のためのマトリクス手法

A matrix approach to detect temporal behavioral patterns at electric vehicle charging stations ( http://arxiv.org/abs/2102.09260v1 )

ライセンス: Link先を確認
Milan Straka, Lucia Piatrikov\'a, Peter van Bokhoven, \v{L}ubo\v{s} Buzna(参考訳) 電気自動車(ev)の到着時刻と充電ステーションへのev接続期間に基づいて、同様の充電パターンを2つのアプローチで適用した充電ステーションの充電パターンと導出群を同定する。 支配されたアプローチは、時間間隔と閾値のセットを指定することで充電パターンを導出する。 第2のアプローチでは、修正されたl-pノルム(行列の異質性尺度として)と階層的クラスタリングを組み合わせることで、そのようなパターンに関連する充電パターンと充電ステーションのグループを自動的に識別する。 公共充電ステーションの大規模なネットワークで収集されたデータセットは、両方のアプローチをテストするために使用される。 両手法を用いて帯電パターンを導出した。 最初のルールベースのアプローチは、事前定義されたパターンの導出でうまく動作し、後者の階層的クラスタリングは、予期しないチャージパターンを提供する能力を示した。

Based on the electric vehicle (EV) arrival times and the duration of EV connection to the charging station, we identify charging patterns and derive groups of charging stations with similar charging patterns applying two approaches. The ruled based approach derives the charging patterns by specifying a set of time intervals and a threshold value. In the second approach, we combine the modified l-p norm (as a matrix dissimilarity measure) with hierarchical clustering and apply them to automatically identify charging patterns and groups of charging stations associated with such patterns. A dataset collected in a large network of public charging stations is used to test both approaches. Using both methods, we derived charging patterns. The first, rule-based approach, performed well at deriving predefined patterns and the latter, hierarchical clustering, showed the capability of delivering unexpected charging patterns.
翻訳日:2021-02-19 14:35:26 公開日:2021-02-18
# ビデオ予測のためのクロックワーク変動オートエンコーダ

Clockwork Variational Autoencoders for Video Prediction ( http://arxiv.org/abs/2102.09532v1 )

ライセンス: Link先を確認
Vaibhav Saxena, Jimmy Ba, Danijar Hafner(参考訳) ディープラーニングにより、アルゴリズムは現実的な画像を生成することができる。 しかし、長いビデオシーケンスを正確に予測するには、長期的な依存関係を理解する必要がある。 既存のビデオ予測モデルはシャープな画像を生成するのに成功するが、未来まで正確に予測できない傾向にある。 Clockwork VAE (CW-VAE) は遅延列の階層構造を利用したビデオ予測モデルであり、高いレベルが遅い間隔でダクトされる。 CW-VAEは、最大1000フレームのシーケンスを持つ4つの多様なビデオ予測データセットにおいて、階層的遅延と時間的抽象化の両方の利点を示す。 さらに,長期ビデオ予測のためのMinecraftベンチマークを提案する。 我々はcw-vaeに関する洞察を得るためにいくつかの実験を行い、より遅いレベルがビデオでよりゆっくり変化するオブジェクトを表現することを学び、より速いレベルがより速いオブジェクトを表すことを学ぶ。

Deep learning has enabled algorithms to generate realistic images. However, accurately predicting long video sequences requires understanding long-term dependencies and remains an open challenge. While existing video prediction models succeed at generating sharp images, they tend to fail at accurately predicting far into the future. We introduce the Clockwork VAE (CW-VAE), a video prediction model that leverages a hierarchy of latent sequences, where higher levels tick at slower intervals. We demonstrate the benefits of both hierarchical latents and temporal abstraction on 4 diverse video prediction datasets with sequences of up to 1000 frames, where CW-VAE outperforms top video prediction models. Additionally, we propose a Minecraft benchmark for long-term video prediction. We conduct several experiments to gain insights into CW-VAE and confirm that slower levels learn to represent objects that change more slowly in the video, and faster levels learn to represent faster objects.
翻訳日:2021-02-19 14:34:50 公開日:2021-02-18
# 不均衡回帰の深化

Delving into Deep Imbalanced Regression ( http://arxiv.org/abs/2102.09554v1 )

ライセンス: Link先を確認
Yuzhe Yang, Kaiwen Zha, Ying-Cong Chen, Hao Wang, Dina Katabi(参考訳) 現実世界のデータはしばしば不均衡な分布を示し、特定の目標値の観測は著しく少ない。 不均衡なデータを扱う既存のテクニックは、カテゴリのインデックス、すなわち異なるクラスを持つターゲットに焦点を当てている。 しかし、多くのタスクは、クラス間のハードバウンダリが存在しない連続的なターゲットを含む。 我々は,そのような不均衡なデータから連続的目標を学習し,目標値に対する潜在的な欠落データを扱うこと,目標範囲全体を一般化すること,dir(deep unbalanced regression)を定義している。 カテゴリ空間と連続ラベル空間の本質的な違いを動機に、ラベルと特徴の両方の分布平滑化を提案し、近くのターゲットの効果を明示的に認識し、ラベルと学習された特徴分布の両方をキャリブレーションします。 コンピュータビジョン、自然言語処理、ヘルスケア領域における一般的な現実世界のタスクから大規模なDIRデータセットを収集およびベンチマークします。 広範な実験は、我々の戦略の優れた性能を検証する。 我々の研究は、実際の不均衡回帰問題に対するベンチマークとテクニックのギャップを埋める。 コードとデータはhttps://github.com/y yzharry/imbalanced-r egressionで入手できる。

Real-world data often exhibit imbalanced distributions, where certain target values have significantly fewer observations. Existing techniques for dealing with imbalanced data focus on targets with categorical indices, i.e., different classes. However, many tasks involve continuous targets, where hard boundaries between classes do not exist. We define Deep Imbalanced Regression (DIR) as learning from such imbalanced data with continuous targets, dealing with potential missing data for certain target values, and generalizing to the entire target range. Motivated by the intrinsic difference between categorical and continuous label space, we propose distribution smoothing for both labels and features, which explicitly acknowledges the effects of nearby targets, and calibrates both label and learned feature distributions. We curate and benchmark large-scale DIR datasets from common real-world tasks in computer vision, natural language processing, and healthcare domains. Extensive experiments verify the superior performance of our strategies. Our work fills the gap in benchmarks and techniques for practical imbalanced regression problems. Code and data are available at https://github.com/Y yzHarry/imbalanced-r egression.
翻訳日:2021-02-19 14:34:32 公開日:2021-02-18
# VAE近似誤差:ELBOと条件付き独立

VAE Approximation Error: ELBO and Conditional Independence ( http://arxiv.org/abs/2102.09310v1 )

ライセンス: Link先を確認
Dmitrij Schlesinger, Alexander Shekhovtsov, Boris Flach(参考訳) Variational Autoencoderの重要性は、スタンドアロンのジェネレーティブモデルにとどまらず、遅延表現の学習にも使用され、半教師付き学習に一般化することができる。 これは一般的に知られている欠点である後部崩壊と近似誤差の徹底的な解析を必要とする。 本稿では,ELBO目標とエンコーダ確率系列の選択の組み合わせによるVAE近似誤差を,特に条件付き独立仮定の下で解析する。 我々はエンコーダファミリーに準拠した生成モデルのサブクラスを同定する。 我々は、ELBOオプティマイザが可能性オプティマイザからこの一貫性のあるサブセットに向かって引き出されることを示した。 さらに、このサブセットを拡大することはできず、より深いエンコーダネットワークを考慮するだけで、各エラーを削減できない。

The importance of Variational Autoencoders reaches far beyond standalone generative models -- the approach is also used for learning latent representations and can be generalized to semi-supervised learning. This requires a thorough analysis of their commonly known shortcomings: posterior collapse and approximation errors. This paper analyzes VAE approximation errors caused by the combination of the ELBO objective with the choice of the encoder probability family, in particular under conditional independence assumptions. We identify the subclass of generative models consistent with the encoder family. We show that the ELBO optimizer is pulled from the likelihood optimizer towards this consistent subset. Furthermore, this subset can not be enlarged, and the respective error cannot be decreased, by only considering deeper encoder networks.
翻訳日:2021-02-19 14:34:16 公開日:2021-02-18
# 多エージェント予測と追跡のための時空間グラフデュアルアテンションネットワーク

Spatio-Temporal Graph Dual-Attention Network for Multi-Agent Prediction and Tracking ( http://arxiv.org/abs/2102.09117v1 )

ライセンス: Link先を確認
Jiachen Li and Hengbo Ma and Zhihao Zhang and Jinning Li and Masayoshi Tomizuka(参考訳) インテリジェントなモバイルシステム(例えば、)には、環境の効果的な理解と周囲の動的障害の正確な軌道予測が不可欠です。 自動運転車とソーシャルロボット) 高度にインタラクティブで混み合ったシナリオをナビゲートすることで、安全で高品質な計画を実現する。 シーン進化における頻繁な相互作用や不確実性のため,各エージェントに対して,異なるエンティティに対する関係推論を可能とし,将来的な軌跡の分布を予測システムに提供することが望まれる。 本稿では, 異種エージェントを含む多エージェント軌道予測のための汎用生成ニューラルシステム(STG-DAT)を提案する。 動的グラフ表現にリレーショナル帰納バイアスを組み込むことにより、明示的な相互作用モデリングに一歩前進し、軌跡情報とシーンコンテキスト情報の両方を活用する。 また,車両軌道予測に適用する効率的な運動制約層も採用する。 制約は物理的な実現性を保証するだけでなく、モデルのパフォーマンスも向上します。 さらに、提案された予測モデルは、マルチターゲットトラッキングフレームワークによって容易に適用できる。 追跡精度は実験結果により向上することが証明される。 提案システムは,歩行者,サイクリスト,車載車両を対象とする軌道予測のための3つの公開ベンチマークデータセット上で評価される。 実験結果から,予測精度および追跡精度の点で,本モデルが様々なベースラインアプローチよりも優れた性能を示すことが示された。

An effective understanding of the environment and accurate trajectory prediction of surrounding dynamic obstacles are indispensable for intelligent mobile systems (e.g. autonomous vehicles and social robots) to achieve safe and high-quality planning when they navigate in highly interactive and crowded scenarios. Due to the existence of frequent interactions and uncertainty in the scene evolution, it is desired for the prediction system to enable relational reasoning on different entities and provide a distribution of future trajectories for each agent. In this paper, we propose a generic generative neural system (called STG-DAT) for multi-agent trajectory prediction involving heterogeneous agents. The system takes a step forward to explicit interaction modeling by incorporating relational inductive biases with a dynamic graph representation and leverages both trajectory and scene context information. We also employ an efficient kinematic constraint layer applied to vehicle trajectory prediction. The constraint not only ensures physical feasibility but also enhances model performance. Moreover, the proposed prediction model can be easily adopted by multi-target tracking frameworks. The tracking accuracy proves to be improved by empirical results. The proposed system is evaluated on three public benchmark datasets for trajectory prediction, where the agents cover pedestrians, cyclists and on-road vehicles. The experimental results demonstrate that our model achieves better performance than various baseline approaches in terms of prediction and tracking accuracy.
翻訳日:2021-02-19 14:34:04 公開日:2021-02-18
# Abstractive Text Summarizationのエンティティレベルの実体整合性

Entity-level Factual Consistency of Abstractive Text Summarization ( http://arxiv.org/abs/2102.09130v1 )

ライセンス: Link先を確認
Feng Nan, Ramesh Nallapati, Zhiguo Wang, Cicero Nogueira dos Santos, Henghui Zhu, Dejiao Zhang, Kathleen McKeown, Bing Xiang(参考訳) 抽象要約の鍵となる課題は、生成した要約の原文書に対する事実的一貫性を保証することである。 例えば、既存のデータセットでトレーニングされた最先端モデルは、エンティティ幻覚を示し、ソースドキュメントに存在しないエンティティの名前を生成する。 生成した要約のエンティティレベルの事実一貫性を定量化するための新しいメトリクスのセットを提案し、トレーニングデータをフィルタリングするだけでエンティティの幻覚問題を軽減できることを示した。 さらに, 学習プロセスにおける要約にふさわしいエンティティ分類タスクと, 統合エンティティと要約生成アプローチを提案し, エンティティレベルの指標をさらに改善した。

A key challenge for abstractive summarization is ensuring factual consistency of the generated summary with respect to the original document. For example, state-of-the-art models trained on existing datasets exhibit entity hallucination, generating names of entities that are not present in the source document. We propose a set of new metrics to quantify the entity-level factual consistency of generated summaries and we show that the entity hallucination problem can be alleviated by simply filtering the training data. In addition, we propose a summary-worthy entity classification task to the training process as well as a joint entity and summary generation approach, which yield further improvements in entity level metrics.
翻訳日:2021-02-19 14:33:44 公開日:2021-02-18
# 極端なマルチラベルからマルチクラスへ:フレーズレベルの注意によるicd-10符号化の階層的アプローチ

From Extreme Multi-label to Multi-class: A Hierarchical Approach for Automated ICD-10 Coding Using Phrase-level Attention ( http://arxiv.org/abs/2102.09136v1 )

ライセンス: Link先を確認
Cansu Sen, Bingyang Ye, Javed Aslam, Amir Tahmasebi(参考訳) 臨床コーディングは、ICD(International Classification of Diseases)と呼ばれる一組のアルファ数値符号を、臨床物語で捉えた文脈に基づいて医療イベントに割り当てるタスクである。 ICD-10の最新バージョンには70,000以上のコードが含まれている。 これは労働集約的でエラーを起こしやすいタスクであるため、機械学習を用いた医療レポートの自動ICDコーディングは、過去10年間で大きな関心を集めている。 既存の文献ではこの問題をマルチラベルタスクとしてモデル化している。 しかし、非常に大きなラベルセットサイズのため、そのようなマルチラベルアプローチは困難である。 さらに、予測の解釈性はエンドユーザー(医療提供者や保険会社など)にとって不可欠である。 本稿では,過度なマルチラベル問題を階層的解法を用いて,より単純なマルチクラス問題に書き換えることにより,自動ICD符号化のための新しい手法を提案する。 このアプローチを広範なデータ収集を通じて実現し、フレーズレベルのヒューマンコーダアノテーションを取得し、入力テキストと予測IDDコードの特定の関係を学習するモデルを監督しました。 本手法では,個別に学習した2つのネットワーク,ment taggerとicd分類器を階層的に積み重ねて医療報告用コードを予測する。 文タガーは、ICD符号化に関連する医療イベントまたは概念を含む焦点文を識別する。 教師付き注意機構を用いて、ICD分類器は、各フォーカス文にICD符号を割り当てる。 提案手法は,サブセット精度が23%,マイクロF1が18%,インスタンスベースF-1が15%と,強力なベースラインを上回っている。 提案手法では、暗黙的に学習した注意スコアではなく、人間のコーダによって選択された特定の文や単語に各予測を帰属させることで解釈可能となる。

Clinical coding is the task of assigning a set of alphanumeric codes, referred to as ICD (International Classification of Diseases), to a medical event based on the context captured in a clinical narrative. The latest version of ICD, ICD-10, includes more than 70,000 codes. As this is a labor-intensive and error-prone task, automatic ICD coding of medical reports using machine learning has gained significant interest in the last decade. Existing literature has modeled this problem as a multi-label task. Nevertheless, such multi-label approach is challenging due to the extremely large label set size. Furthermore, the interpretability of the predictions is essential for the endusers (e.g., healthcare providers and insurance companies). In this paper, we propose a novel approach for automatic ICD coding by reformulating the extreme multi-label problem into a simpler multi-class problem using a hierarchical solution. We made this approach viable through extensive data collection to acquire phrase-level human coder annotations to supervise our models on learning the specific relations between the input text and predicted ICD codes. Our approach employs two independently trained networks, the sentence tagger and the ICD classifier, stacked hierarchically to predict a codeset for a medical report. The sentence tagger identifies focus sentences containing a medical event or concept relevant to an ICD coding. Using a supervised attention mechanism, the ICD classifier then assigns each focus sentence with an ICD code. The proposed approach outperforms strong baselines by large margins of 23% in subset accuracy, 18% in micro-F1, and 15% in instance based F-1. With our proposed approach, interpretability is achieved not through implicitly learned attention scores but by attributing each prediction to a particular sentence and words selected by human coders.
翻訳日:2021-02-19 14:33:33 公開日:2021-02-18
# 偽ニュース検出: ベクトル空間における利用可能なディープラーニング技術の比較

Fake News Detection: a comparison between available Deep Learning techniques in vector space ( http://arxiv.org/abs/2102.09470v1 )

ライセンス: Link先を確認
Lovedeep Singh(参考訳) フェイクニュース検出は自然言語処理の分野で不可欠な問題である。 この分野における効果的なソリューションの利点は、社会の善意のためのマニホールドです。 表面レベルでは、テキスト分類の一般的な問題と広く一致している。 研究者は、単純かつ複雑な手法を用いてフェイクニュースに取り組むための様々なアプローチを提案している。 本稿では,一般の数学的操作と利用可能なベクトル空間表現の組み合わせを用いて,いくつかのベクトル空間におけるニュースインスタンスの表現により,現在の深層学習手法の比較を試みる。 様々な組み合わせと置換を用いて多数の実験を行う。 最後に,結果の音響分析を行い,その結果の理由について検討した。

Fake News Detection is an essential problem in the field of Natural Language Processing. The benefits of an effective solution in this area are manifold for the goodwill of society. On a surface level, it broadly matches with the general problem of text classification. Researchers have proposed various approaches to tackle fake news using simple as well as some complex techniques. In this paper, we try to make a comparison between the present Deep Learning techniques by representing the news instances in some vector space using a combination of common mathematical operations with available vector space representations. We do a number of experiments using various combinations and permutations. Finally, we conclude with a sound analysis of the results and evaluate the reasons for such results.
翻訳日:2021-02-19 14:33:01 公開日:2021-02-18
# 低リソース抽象要約のためのメタ伝達学習

Meta-Transfer Learning for Low-Resource Abstractive Summarization ( http://arxiv.org/abs/2102.09397v1 )

ライセンス: Link先を確認
Yi-Syuan Chen and Hong-Han Shuai(参考訳) 神経の抽象的要約は多くの文献で研究され、大きなコーパスの助けを借りて大きな成功を収めた。 しかし、新しいタスクに遭遇する場合、ドメインシフト問題による転校学習の恩恵を受けるとは限らないし、十分なラベル付き例がなければ過剰フィッティングが発生する可能性がある。 さらに、抽象的要約の注釈はコストがかかり、しばしばドメイン知識を要求され、基礎的品質が保証される。 したがって、ターゲットコーパスの限られたラベル付き例で、過去の経験を活用してパフォーマンスを向上させることを目的とした低リソースアストロアクティブ要約へのアピールが増加しています。 本稿では,2つの知識豊富な情報源を用いて,大規模事前学習モデルと多種多様な既存コーパスを提案する。 前者は要約タスクに対処する主要な能力を提供し、後者は一般化能力を改善するために一般的な構文情報や意味情報を見つけるのに役立つ。 書体や書体が異なる様々な要約コーパスについて広範な実験を行った。 その結果,学習可能なパラメータの0.7%に留まらず,低リソースシナリオで6コーパスの最先端を実現することができた。

Neural abstractive summarization has been studied in many pieces of literature and achieves great success with the aid of large corpora. However, when encountering novel tasks, one may not always benefit from transfer learning due to the domain shifting problem, and overfitting could happen without adequate labeled examples. Furthermore, the annotations of abstractive summarization are costly, which often demand domain knowledge to ensure the ground-truth quality. Thus, there are growing appeals for Low-Resource Abstractive Summarization, which aims to leverage past experience to improve the performance with limited labeled examples of target corpus. In this paper, we propose to utilize two knowledge-rich sources to tackle this problem, which are large pre-trained models and diverse existing corpora. The former can provide the primary ability to tackle summarization tasks; the latter can help discover common syntactic or semantic information to improve the generalization ability. We conduct extensive experiments on various summarization corpora with different writing styles and forms. The results demonstrate that our approach achieves the state-of-the-art on 6 corpora in low-resource scenarios, with only 0.7% of trainable parameters compared to previous work.
翻訳日:2021-02-19 14:32:38 公開日:2021-02-18
# Text-Image-Layout Transformerによるドキュメント理解のフルTILTブギー

Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer ( http://arxiv.org/abs/2102.09550v1 )

ライセンス: Link先を確認
Rafa{\l} Powalski, {\L}ukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Micha{\l} Pietruszka, Gabriela Pa{\l}ka(参考訳) 本稿では,レイアウト情報,視覚特徴,テキスト意味論を同時に学習するtiltニューラルネットワークアーキテクチャを導入することで,平文文書以外の自然言語理解の課題を解決する。 従来のアプローチとは対照的に、自然言語に関わるすべての問題を解決することができるデコーダに依存しています。 レイアウトは注意のバイアスとして表現され、コンテキスト化された視覚情報と補完され、モデルのコアは事前訓練されたエンコーダデコーダトランスフォーマーです。 私たちは、テーブル、数字、フォームなど、さまざまなレイアウトの実際の文書のネットワークを訓練しました。 提案手法は,文書から情報を抽出し,質問に回答し,レイアウト理解(DocVQA, CORD, WikiOps, SROIE)を要求する手法である。 同時に、エンドツーエンドモデルを採用することでプロセスを簡素化します。

We address the challenging problem of Natural Language Comprehension beyond plain-text documents by introducing the TILT neural network architecture which simultaneously learns layout information, visual features, and textual semantics. Contrary to previous approaches, we rely on a decoder capable of solving all problems involving natural language. The layout is represented as an attention bias and complemented with contextualized visual information, while the core of our model is a pretrained encoder-decoder Transformer. We trained our network on real-world documents with different layouts, such as tables, figures, and forms. Our novel approach achieves state-of-the-art in extracting information from documents and answering questions, demanding layout understanding (DocVQA, CORD, WikiOps, SROIE). At the same time, we simplify the process by employing an end-to-end model.
翻訳日:2021-02-19 14:32:17 公開日:2021-02-18
# SeaPearl: 強化学習による制約プログラミングソリューション

SeaPearl: A Constraint Programming Solver guided by Reinforcement Learning ( http://arxiv.org/abs/2102.09193v1 )

ライセンス: Link先を確認
F\'elix Chalumeau (1), Ilan Coulon (1), Quentin Cappart (2), Louis-Martin Rousseau (2) ((1) \'Ecole Polytechnique, Institut Polytechnique de Paris, (2) \'Ecole Polytechnique de Montr\'eal)(参考訳) 組合せ最適化問題を解決するための効率的で汎用的なアルゴリズムの設計は長年にわたって活発に研究されてきた。 標準的な正確な解法は、ソリューションセットの巧妙で完全な列挙に基づいています。 このような方法による重要かつ自明でない設計の選択は分岐戦略であり、検索の実行方法を指示する。 過去10年間、組合せ最適化問題を解決するために機械学習ベースのヒューリスティックスの設計に関心が高まっている。 目標は、過去のデータからの知識を活用して、同様の新しい問題の事例を解決することだ。 単独で使うと、そのようなヒューリスティックスは近似解を効率的に提供できるだけであるが、解の最適性や境界を証明できない。 近年の研究では、強化学習が制約プログラミング(CP)ソルバの探索フェーズの駆動に有効であることが示されている。 しかし、標準CPフレームワークには機械学習メカニズムがネイティブに含まれていないため、このハイブリッド化は構築が難しいことも示されています。 本論文では、強化学習を用いた分岐決定を学習するために機械学習ルーチンをサポートするJuliaで実装された新しいCPソルバであるSeaPearlのコンセプト実証について述べる。 学習コンポーネントのモデリングもサポートされている。 この新しいソルバーのモデリングとソリューションのパフォーマンスを2つの問題で説明します。 SeaPearlは、産業用ソルバーとはまだ競合していないが、制約プログラミングと機械学習のハイブリッド化における将来の研究を促進するために、柔軟でオープンソースのフレームワークを提供することを目指している。

The design of efficient and generic algorithms for solving combinatorial optimization problems has been an active field of research for many years. Standard exact solving approaches are based on a clever and complete enumeration of the solution set. A critical and non-trivial design choice with such methods is the branching strategy, directing how the search is performed. The last decade has shown an increasing interest in the design of machine learning-based heuristics to solve combinatorial optimization problems. The goal is to leverage knowledge from historical data to solve similar new instances of a problem. Used alone, such heuristics are only able to provide approximate solutions efficiently, but cannot prove optimality nor bounds on their solution. Recent works have shown that reinforcement learning can be successfully used for driving the search phase of constraint programming (CP) solvers. However, it has also been shown that this hybridization is challenging to build, as standard CP frameworks do not natively include machine learning mechanisms, leading to some sources of inefficiencies. This paper presents the proof of concept for SeaPearl, a new CP solver implemented in Julia, that supports machine learning routines in order to learn branching decisions using reinforcement learning. Support for modeling the learning component is also provided. We illustrate the modeling and solution performance of this new solver on two problems. Although not yet competitive with industrial solvers, SeaPearl aims to provide a flexible and open-source framework in order to facilitate future research in the hybridization of constraint programming and machine learning.
翻訳日:2021-02-19 14:32:01 公開日:2021-02-18
# 凸アルゴリズムの離散差による経路グラフ上の集合グラフモデルの非近似推論

Non-approximate Inference for Collective Graphical Models on Path Graphs via Discrete Difference of Convex Algorithm ( http://arxiv.org/abs/2102.09191v1 )

ライセンス: Link先を確認
Yasunori Akagi, Naoki Marumo, Hideaki Kim, Takeshi Kurashima and Hiroyuki Toda(参考訳) 複数の個人のデータから算出される集計カウントデータの重要性は、増加し続けている。 collective graphical model (cgm) は、集計データの分析に対する確率的アプローチである。 CGMにおける最も重要な操作の1つは、与えられた観測の下で観測されていない変数の最大後部推定(MAP)である。 一般CGMに対するMAP推論問題はNPハードであることが示されており、近似問題を解くアプローチが提案されている。 しかし、このアプローチには2つの大きな欠点がある。 まず、計算表の値が小さい場合、近似が不正確になるため、ソリューションの品質が低下します。 第二に、連続緩和が適用されるので、出力の積分性制約が破られる。 そこで本論文では,パスグラフ上のCGMに対するMAP推論の新しい手法を提案する。 まず、MAP推論問題を(非線形)最小コストフロー問題として定式化できることを示す。 そこで、凸関数と凹関数の和として表される関数を最小化する一般的な手法である凸アルゴリズムの違い(DCA)を適用します。 提案手法では,dcaの重要なサブルーチンを最小凸コストフローアルゴリズムにより効率的に計算できる。 実験の結果,提案手法は従来の手法よりも高い品質のソリューションを出力することがわかった。

The importance of aggregated count data, which is calculated from the data of multiple individuals, continues to increase. Collective Graphical Model (CGM) is a probabilistic approach to the analysis of aggregated data. One of the most important operations in CGM is maximum a posteriori (MAP) inference of unobserved variables under given observations. Because the MAP inference problem for general CGMs has been shown to be NP-hard, an approach that solves an approximate problem has been proposed. However, this approach has two major drawbacks. First, the quality of the solution deteriorates when the values in the count tables are small, because the approximation becomes inaccurate. Second, since continuous relaxation is applied, the integrality constraints of the output are violated. To resolve these problems, this paper proposes a new method for MAP inference for CGMs on path graphs. First we show that the MAP inference problem can be formulated as a (non-linear) minimum cost flow problem. Then, we apply Difference of Convex Algorithm (DCA), which is a general methodology to minimize a function represented as the sum of a convex function and a concave function. In our algorithm, important subroutines in DCA can be efficiently calculated by minimum convex cost flow algorithms. Experiments show that the proposed method outputs higher quality solutions than the conventional approach.
翻訳日:2021-02-19 14:31:05 公開日:2021-02-18
# 連続二重制約バッチ強化学習

Continuous Doubly Constrained Batch Reinforcement Learning ( http://arxiv.org/abs/2102.09225v1 )

ライセンス: Link先を確認
Rasool Fakoor and Jonas Mueller and Pratik Chaudhari and Alexander J. Smola(参考訳) 良い行動を学習するには実験が多すぎるため、現在の強化学習(RL)アルゴリズムは現実世界の設定で適用可能性が限られており、探索を許すには高価すぎる可能性があります。 環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。 バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。 これは、我々の候補ポリシーがデータを生成するポリシーから切り離されるとき、特に厳しい外挿につながる。 この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。 32の連続作用バッチRLベンチマークを総合的に比較し,オフラインデータの収集方法に関わらず,最先端の手法と比較した。

Reliant on too many experiments to learn good actions, current Reinforcement Learning (RL) algorithms have limited applicability in real-world settings, which can be too expensive to allow exploration. We propose an algorithm for batch RL, where effective policies are learned using only a fixed offline dataset instead of online interactions with the environment. The limited data in batch RL produces inherent uncertainty in value estimates of states/actions that were insufficiently represented in the training data. This leads to particularly severe extrapolation when our candidate policies diverge from one that generated the data. We propose to mitigate this issue via two straightforward penalties: a policy-constraint to reduce this divergence and a value-constraint that discourages overly optimistic estimates. Over a comprehensive set of 32 continuous-action batch RL benchmarks, our approach compares favorably to state-of-the-art methods, regardless of how the offline data were collected.
翻訳日:2021-02-19 14:30:46 公開日:2021-02-18
# 深層学習の数学的原理:Wasserstein空間における幾何学的曲線の学習

A Mathematical Principle of Deep Learning: Learn the Geodesic Curve in the Wasserstein Space ( http://arxiv.org/abs/2102.09235v1 )

ライセンス: Link先を確認
Kuo Gai and Shihua Zhang(参考訳) 最近の研究では、ディープニューラルネットワーク(DNN)と動的システムの数学的接続が明らかになった。 しかし、DNNの基本原理は、最適化と一般化の観点から、動的システムを完全に特徴づけていない。 そのために、DNNの前方伝播過程をモデル化するために、測定が保存されているDNNと連続方程式の接続を構築します。 DNNは、入力分布から出力分布への変換を学習する。 しかし測度空間では、2つの分布を接続する無限曲線が存在する。 どちらがDNNの最適化と一般化につながりますか? 最適輸送理論を掘り下げることで、重量減衰を持つdnnは、最適輸送写像によって誘導されるワッサーシュタイン空間の測地線曲線を学習しようとする。 普通のネットワークと比較して、ResNetはジオデジック曲線に対するより良い近似であり、ResNetが最適化され、より一般化できる理由を説明します。 数値実験により、プレーンネットワークとresnetのデータトラックは線状スコア(lss)の項で線状になりがちであり、resnetによって学習されたマップは最適なトランスポートスコア(ots)の項で最適なトランスポートマップに近いことが示されている。 一言で言えば、深層学習の数学的原理は、ワッサースタイン空間における測地線曲線を学習することであり、深層学習は高次元空間における連続変換の素晴らしいエンジニアリング実現である。

Recent studies revealed the mathematical connection of deep neural network (DNN) and dynamic system. However, the fundamental principle of DNN has not been fully characterized with dynamic system in terms of optimization and generalization. To this end, we build the connection of DNN and continuity equation where the measure is conserved to model the forward propagation process of DNN which has not been addressed before. DNN learns the transformation of the input distribution to the output one. However, in the measure space, there are infinite curves connecting two distributions. Which one can lead to good optimization and generaliztion for DNN? By diving the optimal transport theory, we find DNN with weight decay attempts to learn the geodesic curve in the Wasserstein space, which is induced by the optimal transport map. Compared with plain network, ResNet is a better approximation to the geodesic curve, which explains why ResNet can be optimized and generalize better. Numerical experiments show that the data tracks of both plain network and ResNet tend to be line-shape in term of line-shape score (LSS), and the map learned by ResNet is closer to the optimal transport map in term of optimal transport score (OTS). In a word, we conclude a mathematical principle of deep learning is to learn the geodesic curve in the Wasserstein space; and deep learning is a great engineering realization of continuous transformation in high-dimensional space.
翻訳日:2021-02-19 14:30:31 公開日:2021-02-18
# オンライン凸最適化のためのブースト

Boosting for Online Convex Optimization ( http://arxiv.org/abs/2102.09305v1 )

ライセンス: Link先を確認
Elad Hazan, Karan Singh(参考訳) 我々は,オンライン凸最適化の意思決定フレームワークを,非常に多くの専門家と検討する。 この設定は、ポリシークラスのサイズが実行不能なポリシークラス内の列挙と検索をレンダリングするコンテキストおよび強化学習問題で普遍的です。 代わりに、オンラインブースティングの方法論を一般化することを検討する。 我々は,弱い学習アルゴリズムを,専門家の基底クラスに対して乗法的に近似的な後悔を保証するメカニズムとして定義する。 このアクセスモデルでは、ベースクラスの凸包に対して最適に近い後悔を保証する効率的なブースティングアルゴリズムを提供する。 全体と部分(a.k.a.)の両方を検討する。 情報フィードバックモデル。 また、i.i.dに類似の効率的なブースティングアルゴリズムを与える。 統計的設定 また,オンラインブースティングと勾配ブースティングを,文脈学習モデル,オンライン凸最適化,バンディット線形最適化設定に一般化した。

We consider the decision-making framework of online convex optimization with a very large number of experts. This setting is ubiquitous in contextual and reinforcement learning problems, where the size of the policy class renders enumeration and search within the policy class infeasible. Instead, we consider generalizing the methodology of online boosting. We define a weak learning algorithm as a mechanism that guarantees multiplicatively approximate regret against a base class of experts. In this access model, we give an efficient boosting algorithm that guarantees near-optimal regret against the convex hull of the base class. We consider both full and partial (a.k.a. bandit) information feedback models. We also give an analogous efficient boosting algorithm for the i.i.d. statistical setting. Our results simultaneously generalize online boosting and gradient boosting guarantees to contextual learning model, online convex optimization and bandit linear optimization settings.
翻訳日:2021-02-19 14:30:06 公開日:2021-02-18
# 繰り返し加重によるブラックボックスメトリックの最適化

Optimizing Black-box Metrics with Iterative Example Weighting ( http://arxiv.org/abs/2102.09492v1 )

ライセンス: Link先を確認
Gaurush Hiranandani, Jatin Mathur, Oluwasanmi Koyejo, Mahdi Milani Fard, Harikrishna Narasimhan(参考訳) 混乱行列のブラックボックス関数によって定義される分類基準を最適化する学習を検討する。 このようなブラックボックス学習設定は、例えば、学習者が興味のあるメトリックへのクエリアクセスしか持たない場合や、学習者が小さなバリデーションサンプルを使用してパフォーマンス評価によってメトリックを評価する必要があるノイズラベルおよびドメイン適応アプリケーションにおいて、ユビキタスである。 提案手法は,トレーニングデータセットのサンプル重みを適応的に学習し,その結果の重み付け目標が検証サンプルの計量値に最も近いようにすることである。 実例の重みをモデル化して推定し、事前学習したクラス確率推定器を反復的にポストシフトして分類器を構築する方法を示す。 また,得られたプロシージャの統計特性も解析する。 様々なラベルノイズ、ドメインシフト、公正な分類設定に関する実験により、各アプリケーションに対する個々の最先端のベースラインよりも優れた提案が得られた。

We consider learning to optimize a classification metric defined by a black-box function of the confusion matrix. Such black-box learning settings are ubiquitous, for example, when the learner only has query access to the metric of interest, or in noisy-label and domain adaptation applications where the learner must evaluate the metric via performance evaluation using a small validation sample. Our approach is to adaptively learn example weights on the training dataset such that the resulting weighted objective best approximates the metric on the validation sample. We show how to model and estimate the example weights and use them to iteratively post-shift a pre-trained class probability estimator to construct a classifier. We also analyze the resulting procedure's statistical properties. Experiments on various label noise, domain shift, and fair classification setups confirm that our proposal is better than the individual state-of-the-art baselines for each application.
翻訳日:2021-02-19 14:29:52 公開日:2021-02-18
# PLAM(Posit Logarithm-approximat e multiplier for Power Efficient Posit-based DNNs)

PLAM: a Posit Logarithm-Approximat e Multiplier for Power Efficient Posit-based DNNs ( http://arxiv.org/abs/2102.09262v1 )

ライセンス: Link先を確認
Raul Murillo, Alberto A. Del Barrio, Guillermo Botella, Min Soo Kim, HyunJin Kim and Nader Bagherzadeh(参考訳) ポジット番号システムは2017年に浮動小数点数の代替として導入された。 それ以来、コミュニティはニューラルネットワーク関連のタスクでその応用を探求し、浮動小数点演算器との競合に程遠いいくつかのユニットデザインを作成した。 本稿では,Deep Neural Network アーキテクチャにおける最もパワーハングリーユニットである posit multipliers の複雑さを大幅に削減するための Posit Logarithm-Approximat e Multiplication (PLAM) スキームを提案する。 最先端のポジット乗算器と比較した場合,提案手法は,ハードウェア乗算器の面積,電力,遅延を72.86%,81.79%,17.01% まで低減し,精度を低下させることなく改善することを示した。

The Posit Number System was introduced in 2017 as a replacement for floating-point numbers. Since then, the community has explored its application in Neural Network related tasks and produced some unit designs which are still far from being competitive with their floating-point counterparts. This paper proposes a Posit Logarithm-Approximat e Multiplication (PLAM) scheme to significantly reduce the complexity of posit multipliers, the most power-hungry units within Deep Neural Network architectures. When comparing with state-of-the-art posit multipliers, experiments show that the proposed technique reduces the area, power, and delay of hardware multipliers up to 72.86%, 81.79%, and 17.01%, respectively, without accuracy degradation.
翻訳日:2021-02-19 14:29:36 公開日:2021-02-18
# DeeperForensics Challenge 2020 on Real-World Face Forgery Detection: Methods and Results

DeeperForensics Challenge 2020 on Real-World Face Forgery Detection: Methods and Results ( http://arxiv.org/abs/2102.09471v1 )

ライセンス: Link先を確認
Liming Jiang, Zhengkui Guo, Wayne Wu, Zhaoyang Liu, Ziwei Liu, Chen Change Loy, Shuo Yang, Yuanjun Xiong, Wei Xia, Baoying Chen, Peiyu Zhuang, Sili Li, Shen Chen, Taiping Yao, Shouhong Ding, Jilin Li, Feiyue Huang, Liujuan Cao, Rongrong Ji, Changlei Lu, Ganchao Tan(参考訳) 本稿では,現実世界の顔偽造検出に関するDeeperForensics Challenge 2020の手法と結果について報告する。 この課題はDeeperForensics-1.0データセットを採用しており、最も広く公開されている現実世界の顔認識データセットの1つであり、合計17.6百万フレームで構成される60,000のビデオがある。 モデル評価は、複数のソースと多様な歪みを持つ高品質の隠れテストセット上でオンラインで行われる。 115人の参加者が参加し、25のチームが有効な応募を行った。 受賞したソリューションをまとめ、潜在的な研究方向性についていくつかの議論を行います。

This paper reports methods and results in the DeeperForensics Challenge 2020 on real-world face forgery detection. The challenge employs the DeeperForensics-1.0 dataset, one of the most extensive publicly available real-world face forgery detection datasets, with 60,000 videos constituted by a total of 17.6 million frames. The model evaluation is conducted online on a high-quality hidden test set with multiple sources and diverse distortions. A total of 115 participants registered for the competition, and 25 teams made valid submissions. We will summarize the winning solutions and present some discussions on potential research directions.
翻訳日:2021-02-19 14:29:19 公開日:2021-02-18
# 授業インクリメンタルラーニングのための本質

Essentials for Class Incremental Learning ( http://arxiv.org/abs/2102.09517v1 )

ライセンス: Link先を確認
Sudhanshu Mittal and Silvio Galesso and Thomas Brox(参考訳) 現代のニューラルネットワークは、進化するトレーニングデータの流れから学ぶ能力に制限があります。 新しいタスクや進化するタスクを順次トレーニングすると、その正確さは急激に低下し、多くの現実世界のアプリケーションに適さない。 この研究では、このよく知られた未解決現象(しばしば破滅的な忘れ物と呼ばれる)の原因を、クラスインクリメンタルな設定で明らかにした。 単純なコンポーネントと、タスク内学習とタスク間学習のバランスをとる損失の組み合わせは、文学で提案されたより複雑な措置と同じ程度に忘れを解決できることを示しています。 さらに,学習表現の質の低さを,クラスilにおける壊滅的な忘れの理由の一つとして捉えた。 モデルによって学習された二次クラス情報(ダーク知識)とパフォーマンスが相関し,適切な正則化によって改善できることを示す。 これらの教訓により、CIFAR-100とImageNetのクラス増分学習結果は、アプローチをシンプルに保ちながら、最先端技術よりも大幅に改善される。

Contemporary neural networks are limited in their ability to learn from evolving streams of training data. When trained sequentially on new or evolving tasks, their accuracy drops sharply, making them unsuitable for many real-world applications. In this work, we shed light on the causes of this well-known yet unsolved phenomenon - often referred to as catastrophic forgetting - in a class-incremental setup. We show that a combination of simple components and a loss that balances intra-task and inter-task learning can already resolve forgetting to the same extent as more complex measures proposed in literature. Moreover, we identify poor quality of the learned representation as another reason for catastrophic forgetting in class-IL. We show that performance is correlated with secondary class information (dark knowledge) learned by the model and it can be improved by an appropriate regularizer. With these lessons learned, class-incremental learning results on CIFAR-100 and ImageNet improve over the state-of-the-art by a large margin, while keeping the approach simple.
翻訳日:2021-02-19 14:29:08 公開日:2021-02-18
# AIによるアートの理解と創造:レビューと展望

Understanding and Creating Art with AI: Review and Outlook ( http://arxiv.org/abs/2102.09109v1 )

ライセンス: Link先を確認
Eva Cetinic and James She(参考訳) 人工知能(AI)に関連する技術は、視覚芸術における研究と創造的実践の変化に強い影響を与える。 aiとアートの交点に現れる研究イニシアティブや創造的応用の増加は、アートのコンテキストにおけるai技術の創造的かつ探索的な可能性を調査し、議論する動機付けとなります。 本稿では,AIとアートの2つの側面を総合的にレビューする:1)AIはアート分析に使用され,デジタル化されたアートコレクションに使用される;2)AIは創造的な目的に使用され,新しいアート作品を生成する。 アート理解のためのAI関連研究の文脈において、分類、オブジェクト検出、類似性検索、マルチモーダル表現、計算美学など、様々なタスクに対処するアートデータセットと最近の研究の概要を概観する。 アート作成におけるAIの役割に関連して、AIアートの様々な実践的および理論的側面に対処し、それらのトピックを詳細に扱う関連作品を統合する。 最後に、芸術の理解と創造に対するAI技術の今後の進歩と潜在的影響に関する簡潔な展望を提供する。

Technologies related to artificial intelligence (AI) have a strong impact on the changes of research and creative practices in visual arts. The growing number of research initiatives and creative applications that emerge in the intersection of AI and art, motivates us to examine and discuss the creative and explorative potentials of AI technologies in the context of art. This paper provides an integrated review of two facets of AI and art: 1) AI is used for art analysis and employed on digitized artwork collections; 2) AI is used for creative purposes and generating novel artworks. In the context of AI-related research for art understanding, we present a comprehensive overview of artwork datasets and recent works that address a variety of tasks such as classification, object detection, similarity retrieval, multimodal representations, computational aesthetics, etc. In relation to the role of AI in creating art, we address various practical and theoretical aspects of AI Art and consolidate related works that deal with those topics in detail. Finally, we provide a concise outlook on the future progression and potential impact of AI technologies on our understanding and creation of art.
翻訳日:2021-02-19 14:28:49 公開日:2021-02-18
# ニュースストーリーのためのクイズスタイル質問生成

Quiz-Style Question Generation for News Stories ( http://arxiv.org/abs/2102.09094v1 )

ライセンス: Link先を確認
Adam D. Lelkes, Vinh Q. Tran, Cong Yu(参考訳) アメリカの成人の大多数は、少なくとも一部のニュースをインターネットから得ている。 多くのオンラインニュース製品はユーザーにニュースを伝えるという目標を持っているが、この目標を達成するためのスケーラブルで信頼性の高いツールが欠けているため、パフォーマンスを追跡するにはノイズの多いプロキシメトリクス(クリックスルーレートや読み込み時間など)を使わなければならない。 本稿では,ニュース情報度を大規模に測定する第一歩として,最近のニュースの知識をユーザに提供するクイズスタイルの複数選択質問生成の問題について検討する。 特に,質問応答生成(QAG)と不適切な回答,生成(DG)の2つのシーケンス・ツー・シーケンスタスクとして問題を定式化する。 5kニュース記事要約から2kの人間による質問応答ペアを含む,クイズ形式の質問応答生成を目的とした最初のデータセットであるnewsquizqaを紹介する。 そこで本稿では,このデータセットを用いて,pegasus と t5 という大容量プリトレーニングトランスコーダ・デコーダモデルを適用し,質問者生成と邪魔者生成のタスクに適用する手法を提案する。 私たちのモデルは、自動メトリックとヒューマンレーティングの両方を使用して強力なベースラインを上回ります。 Google Surveysプラットフォームを通じて,2ヶ月間にわたって,実世界のユーザに対して毎週クイズを実行するケーススタディを提供する。 ユーザーは通常、自動的に生成された質問が教育的で楽しいことが分かりました。 最後に、研究コミュニティに奉仕するために、newsquizqaデータセットをリリースします。

A large majority of American adults get at least some of their news from the Internet. Even though many online news products have the goal of informing their users about the news, they lack scalable and reliable tools for measuring how well they are achieving this goal, and therefore have to resort to noisy proxy metrics (e.g., click-through rates or reading time) to track their performance. As a first step towards measuring news informedness at a scale, we study the problem of quiz-style multiple-choice question generation, which may be used to survey users about their knowledge of recent news. In particular, we formulate the problem as two sequence-to-sequence tasks: question-answer generation (QAG) and distractor, or incorrect answer, generation (DG). We introduce NewsQuizQA, the first dataset intended for quiz-style question-answer generation, containing 20K human written question-answer pairs from 5K news article summaries. Using this dataset, we propose a series of novel techniques for applying large pre-trained Transformer encoder-decoder models, namely PEGASUS and T5, to the tasks of question-answer generation and distractor generation. We show that our models outperform strong baselines using both automated metrics and human raters. We provide a case study of running weekly quizzes on real-world users via the Google Surveys platform over the course of two months. We found that users generally found the automatically generated questions to be educational and enjoyable. Finally, to serve the research community, we are releasing the NewsQuizQA dataset.
翻訳日:2021-02-19 14:28:31 公開日:2021-02-18
# FrugalMCT: マルチラベル分類タスクのための効率的なオンラインML API選択

FrugalMCT: Efficient Online ML API Selection for Multi-Label Classification Tasks ( http://arxiv.org/abs/2102.09127v1 )

ライセンス: Link先を確認
Lingjiao Chen and Matei Zaharia and James Zou(参考訳) OCRやマルチオブジェクト認識などのマルチラベル分類タスクは、サービス産業としての機械学習の成長の主要な焦点です。 多くのマルチラベル予測APIが利用可能であるが、それらのAPIの価格とパフォーマンスの異質性のために、ユーザが自分のデータと予算に使用するAPIを決定することは困難である。 最近の研究は、シングルラベル予測APIの選択方法を示している。 しかし、従来の手法の計算複雑性はラベル数で指数関数的であるため、OCRのような設定には適さない。 本研究では,ユーザの予算を尊重しつつ,異なるデータに対して使用するAPIをオンライン方式で適応的に選択する原則化されたフレームワークであるFrugalMCTを提案する。 API選択問題は整数線形プログラムとして実装されており、高い性能保証を備えた効率的なオンラインAPIセレクタの開発に活用できる特別な構造を持つことを示す。 マルチラベル画像分類、シーンテキスト認識、名前付きエンティティ認識などのタスクに対して、Google、Microsoft、Amazon、IBM、TencentなどのML APIを使用した体系的な実験を行う。 さまざまなタスクにわたって、frugalmctは最高のシングルapiの精度にマッチしながら90%以上のコスト削減を達成し、最高のapiのコストにマッチしながら最大8%の精度を向上できる。

Multi-label classification tasks such as OCR and multi-object recognition are a major focus of the growing machine learning as a service industry. While many multi-label prediction APIs are available, it is challenging for users to decide which API to use for their own data and budget, due to the heterogeneity in those APIs' price and performance. Recent work shows how to select from single-label prediction APIs. However the computation complexity of the previous approach is exponential in the number of labels and hence is not suitable for settings like OCR. In this work, we propose FrugalMCT, a principled framework that adaptively selects the APIs to use for different data in an online fashion while respecting user's budget. The API selection problem is cast as an integer linear program, which we show has a special structure that we leverage to develop an efficient online API selector with strong performance guarantees. We conduct systematic experiments using ML APIs from Google, Microsoft, Amazon, IBM, Tencent and other providers for tasks including multi-label image classification, scene text recognition and named entity recognition. Across diverse tasks, FrugalMCT can achieve over 90% cost reduction while matching the accuracy of the best single API, or up to 8% better accuracy while matching the best API's cost.
翻訳日:2021-02-19 14:28:07 公開日:2021-02-18
# ニューロモルフィックエネルギー有効時間ニューラルネットワークを用いた時系列信号の教師なしクラスタリング

Unsupervised Clustering of Time Series Signals using Neuromorphic Energy-Efficient Temporal Neural Networks ( http://arxiv.org/abs/2102.09200v1 )

ライセンス: Link先を確認
Shreyas Chaudhari, Harideep Nair, Jos\'e M.F. Moura and John Paul Shen(参考訳) 監視されていない時系列クラスタリングは、異常検出、バイオウェアラブルなど、さまざまな産業用途で困難な問題です。 これらのアプリケーションは通常、エッジ上の小さな低消費電力デバイスがリアルタイムの知覚信号を収集し処理する。 最先端の時系列クラスタリング手法は、エッジデバイスの観点から非常に計算集約的な損失最小化を行う。 本研究では,超低消費電力連続オンライン学習が可能なテンポラルニューラルネットワークに基づく,教師なし時系列クラスタリングのためのニューロモーフィックアプローチを提案する。 UCR Time Series Archiveデータセットのサブセットでクラスタリングのパフォーマンスを実証します。 その結果,提案手法は既存のアルゴリズムのほとんどに匹敵する性能をもち,より効率的なハードウェア実装が可能であることが示された。 私たちのハードウェア評価分析は、提案されたアーキテクチャは平均して7 nmCMOSで0.005 mm^2ダイエリアと22 uWの電力を消費し、約5 nsの遅延で各信号を処理できることを示しています。

Unsupervised time series clustering is a challenging problem with diverse industrial applications such as anomaly detection, bio-wearables, etc. These applications typically involve small, low-power devices on the edge that collect and process real-time sensory signals. State-of-the-art time-series clustering methods perform some form of loss minimization that is extremely computationally intensive from the perspective of edge devices. In this work, we propose a neuromorphic approach to unsupervised time series clustering based on Temporal Neural Networks that is capable of ultra low-power, continuous online learning. We demonstrate its clustering performance on a subset of UCR Time Series Archive datasets. Our results show that the proposed approach either outperforms or performs similarly to most of the existing algorithms while being far more amenable for efficient hardware implementation. Our hardware assessment analysis shows that in 7 nm CMOS the proposed architecture, on average, consumes only about 0.005 mm^2 die area and 22 uW power and can process each signal with about 5 ns latency.
翻訳日:2021-02-19 14:27:46 公開日:2021-02-18
# データセンター混雑制御のための強化学習

Reinforcement Learning for Datacenter Congestion Control ( http://arxiv.org/abs/2102.09337v1 )

ライセンス: Link先を確認
Chen Tessler, Yuval Shpigelman, Gal Dalal, Amit Mandelbaum, Doron Haritan Kazakov, Benjamin Fuhrer, Gal Chechik, Shie Mannor(参考訳) Reinforcement Learning (RL) を用いて,データセンタにおけるネットワーク混雑制御のタスクにアプローチする。 渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。 今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。 明らかに、最近の最も人気のあるデプロイメントは、所定のベンチマークセットでテストされるルールベースのヒューリスティックに依存している。 したがって、これらのヒューリスティックは、新しいシナリオにうまく一般化しない。 対照的に、実世界のデータセンターネットワークの異なる構成に一般化するために、RLに基づくアルゴリズムを考案する。 部分可観測性、非定常性、多目的性といった課題を克服する。 さらに,報奨関数の解析構造を活用し,その導出を近似し,安定性を向上させるポリシ勾配アルゴリズムを提案する。 本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。 実験は,通信ネットワークの動作をエミュレートする現実的なシミュレータ上で実施し,実データセンタにデプロイされる一般的なアルゴリズムと比較して,複数の測定値で同時に性能が向上することを示す。 弊社のアルゴリズムは、世界最大のデータセンターのヒューリスティックスを置き換えるために生産されている。

We approach the task of network congestion control in datacenters using Reinforcement Learning (RL). Successful congestion control algorithms can dramatically improve latency and overall network throughput. Until today, no such learning-based algorithms have shown practical potential in this domain. Evidently, the most popular recent deployments rely on rule-based heuristics that are tested on a predetermined set of benchmarks. Consequently, these heuristics do not generalize well to newly-seen scenarios. Contrarily, we devise an RL-based algorithm with the aim of generalizing to different configurations of real-world datacenter networks. We overcome challenges such as partial-observabilit y, non-stationarity, and multi-objectiveness. We further propose a policy gradient algorithm that leverages the analytical structure of the reward function to approximate its derivative and improve stability. We show that this scheme outperforms alternative popular RL approaches, and generalizes to scenarios that were not seen during training. Our experiments, conducted on a realistic simulator that emulates communication networks' behavior, exhibit improved performance concurrently on the multiple considered metrics compared to the popular algorithms deployed today in real datacenters. Our algorithm is being productized to replace heuristics in some of the largest datacenters in the world.
翻訳日:2021-02-19 14:27:30 公開日:2021-02-18
# L2E: 相手を爆発させる学習

L2E: Learning to Exploit Your Opponent ( http://arxiv.org/abs/2102.09381v1 )

ライセンス: Link先を確認
Zhe Wu, Kai Li, Enmin Zhao, Hang Xu, Meng Zhang, Haobo Fu, Bo An, Junliang Xing(参考訳) 対向モデリングは、戦略的相互作用における準最適相手を利用するために不可欠である。 これまでのほとんどの作品は、モデルのトレーニングに大量のデータを必要とする相手のスタイルや戦略を直接予測するための明示的なモデルの構築に焦点を当てており、未知の相手への適応性が欠けています。 本研究では,暗黙的相手モデリングのためのLearning to Exploit (L2E)フレームワークを提案する。 L2Eは、トレーニング中に異なる相手とのいくつかの相互作用によって相手を悪用する能力を獲得し、テスト中に未知のスタイルを持つ新しい相手に迅速に適応することができる。 本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。 2つのポーカーゲームと1つのグリッドサッカーゲームでL2Eを評価します。 総合的な実験結果から、L2Eは未知の相手の多様なスタイルに迅速に適応することが示された。

Opponent modeling is essential to exploit sub-optimal opponents in strategic interactions. Most previous works focus on building explicit models to directly predict the opponents' styles or strategies, which require a large amount of data to train the model and lack adaptability to unknown opponents. In this work, we propose a novel Learning to Exploit (L2E) framework for implicit opponent modeling. L2E acquires the ability to exploit opponents by a few interactions with different opponents during training, thus can adapt to new opponents with unknown styles during testing quickly. We propose a novel opponent strategy generation algorithm that produces effective opponents for training automatically. We evaluate L2E on two poker games and one grid soccer game, which are the commonly used benchmarks for opponent modeling. Comprehensive experimental results indicate that L2E quickly adapts to diverse styles of unknown opponents.
翻訳日:2021-02-19 14:27:14 公開日:2021-02-18
# ガウス語以外の連続指数家族を学習する

Learning Continuous Exponential Families Beyond Gaussian ( http://arxiv.org/abs/2102.09198v1 )

ライセンス: Link先を確認
Christopher X. Ren, Sidhant Misra, Marc Vuffray, Andrey Y. Lokhov(参考訳) 我々は,unbounded supportを伴う連続的指数関数的家族分布の学習の問題に対処する。 ガウス図形モデルの学習には多くの進歩があったが、平均と共分散を超えたデータの高次モーメントをモデル化する一般的な連続指数族を再構築するためのスケーラブルなアルゴリズムはいまだに欠けている。 本稿では,対話スクリーニング手法に基づく連続的グラフィカルモデル学習のための計算効率の高い手法を提案する。 一連の数値実験により、アルゴリズムの実行時間を大幅に改善しながら、条件付き可能性の最大化などの代替アプローチと比較して、精度とサンプルの複雑さの点で同様の要件を維持することを示しています。

We address the problem of learning of continuous exponential family distributions with unbounded support. While a lot of progress has been made on learning of Gaussian graphical models, we are still lacking scalable algorithms for reconstructing general continuous exponential families modeling higher-order moments of the data beyond the mean and the covariance. Here, we introduce a computationally efficient method for learning continuous graphical models based on the Interaction Screening approach. Through a series of numerical experiments, we show that our estimator maintains similar requirements in terms of accuracy and sample complexity compared to alternative approaches such as maximization of conditional likelihood, while considerably improving upon the algorithm's run-time.
翻訳日:2021-02-19 14:26:19 公開日:2021-02-18
# Recursive-LASSO-base d symbolic regressionによる自然法則の定式化

Data-driven formulation of natural laws by recursive-LASSO-base d symbolic regression ( http://arxiv.org/abs/2102.09210v1 )

ライセンス: Link先を確認
Yuma Iwasaki and Masahiko Ishida(参考訳) 新しい自然法則の発見は、長い間、天才のインスピレーションに依存してきた。 しかし近年,人間の偏見や偏見を伴わないビッグデータを解析する機械学習技術が,新たな自然法則の発見を期待されている。 ここでは,提案した機械学習,再帰的LASSOに基づく記号回帰(RLS)により,雑音データから自然法則をデータ駆動で定式化できることを実証する。 RLS回帰は、特徴生成と特徴選択を繰り返し繰り返し、最終的に非常に非線形な特徴を持つデータ駆動モデルを構築する。 このデータ駆動定式化法は極めて一般的であり、様々な科学分野で新しい法則を発見することができる。

Discovery of new natural laws has for a long time relied on the inspiration of some genius. Recently, however, machine learning technologies, which analyze big data without human prejudice and bias, are expected to find novel natural laws. Here we demonstrate that our proposed machine learning, recursive-LASSO-base d symbolic (RLS) regression, enables data-driven formulation of natural laws from noisy data. The RLS regression recurrently repeats feature generation and feature selection, eventually constructing a data-driven model with highly nonlinear features. This data-driven formulation method is quite general and thus can discover new laws in various scientific fields.
翻訳日:2021-02-19 14:26:05 公開日:2021-02-18
# 確率最適化のためのステップデカイステップサイズ収束について

On the Convergence of Step Decay Step-Size for Stochastic Optimization ( http://arxiv.org/abs/2102.09393v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Sindri Magn\'usson and Mikael Johansson(参考訳) 確率勾配降下の収束は、ステップサイズ、特にニューラルネットワークの訓練のような非凸問題に大きく依存している。 ステップ崩壊のステップサイズスケジュール(定数とカット)は、その優れた収束性と一般化特性のため、実際に広く用いられているが、その理論的性質はまだよく理解されていない。 非凸系におけるステップ減衰の収束結果を提供し、勾配ノルムが$\mathcal{o}(\ln t/\sqrt{t})$レートで消滅することを保証する。 また、一般(おそらく非滑らかな)凸問題に対する収束保証を提供し、$\mathcal{O}(\ln T/\sqrt{T})$収束率を保証する。 最後に、強凸の場合、滑らかな問題に対する $\mathcal{O}(\ln T/T)$ レートを確立し、これはまた、タイトであることを証明し、滑らかさの仮定なしに $\mathcal{O}(\ln^2 T/T)$ レートを確立する。 複数の大規模深層ニューラルネットワークトレーニングタスクにおけるステップ崩壊ステップサイズの実用的効率を示す。

The convergence of stochastic gradient descent is highly dependent on the step-size, especially on non-convex problems such as neural network training. Step decay step-size schedules (constant and then cut) are widely used in practice because of their excellent convergence and generalization qualities, but their theoretical properties are not yet well understood. We provide the convergence results for step decay in the non-convex regime, ensuring that the gradient norm vanishes at an $\mathcal{O}(\ln T/\sqrt{T})$ rate. We also provide the convergence guarantees for general (possibly non-smooth) convex problems, ensuring an $\mathcal{O}(\ln T/\sqrt{T})$ convergence rate. Finally, in the strongly convex case, we establish an $\mathcal{O}(\ln T/T)$ rate for smooth problems, which we also prove to be tight, and an $\mathcal{O}(\ln^2 T /T)$ rate without the smoothness assumption. We illustrate the practical efficiency of the step decay step-size in several large scale deep neural network training tasks.
翻訳日:2021-02-19 14:25:53 公開日:2021-02-18
# 故障しないものを修正するな: 極小最適化のための交互勾配Descent-Ascentの局所収束

Don't Fix What ain't Broke: Near-optimal Local Convergence of Alternating Gradient Descent-Ascent for Minimax Optimization ( http://arxiv.org/abs/2102.09468v1 )

ライセンス: Link先を確認
Guodong Zhang, Yuanhao Wang, Laurent Lessard, Roger Grosse(参考訳) 敵アーキテクチャやアルゴリズムの普及に伴い,Minimaxの最適化が注目されている。 しばしば、スムーズなミニマックスゲームは、同時にまたは交互に勾配を更新する。 更新を交互に行うアルゴリズムは、多くのアプリケーション(例えば GAN トレーニング)で一般的に使われているが、既存の理論分析のほとんどは同時アルゴリズムに重点を置いている。 本稿では,ミニマックスゲームにおける勾配降下上昇(Alt-GDA)を交互に検討し,多くの場面でAlt-GDAが同等(Sim-GDA)よりも優れていることを示す。 特に、Alt-GDAが強凸強凸問題に対してほぼ最適局所収束率を達成するのに対し、Sim-GDAははるかに遅い速度で収束することを示す。 さらに, 交互更新の加速効果は, ミニマックス問題が双対変数の強い凹凸のみを持つ場合にも継続することを示した。 二次ミニマックスゲームにおける数値実験は我々の主張を検証する。 さらに、更新の交互化によってGANトレーニングが大幅にスピードアップし、最適化の使用は同時アルゴリズムにしか役立ちません。

Minimax optimization has recently gained a lot of attention as adversarial architectures and algorithms proliferate. Often, smooth minimax games proceed by simultaneous or alternating gradient updates. Although algorithms with alternating updates are commonly used in practice for many applications (e.g., GAN training), the majority of existing theoretical analyses focus on simultaneous algorithms. In this paper, we study alternating gradient descent-ascent (Alt-GDA) in minimax games and show that Alt-GDA is superior to its simultaneous counterpart (Sim-GDA) in many settings. In particular, we prove that Alt-GDA achieves a near-optimal local convergence rate for strongly-convex strongly-concave problems while Sim-GDA converges with a much slower rate. Moreover, we show that the acceleration effect of alternating updates remains when the minimax problem has only strong concavity in the dual variables. Numerical experiments on quadratic minimax games validate our claims. Additionally, we demonstrate that alternating updates speed up GAN training significantly and the use of optimism only helps for simultaneous algorithms.
翻訳日:2021-02-19 14:25:30 公開日:2021-02-18
# 線形回帰のための転送学習:ゲインの統計的テスト

Transfer Learning for Linear Regression: a Statistical Test of Gain ( http://arxiv.org/abs/2102.09504v1 )

ライセンス: Link先を確認
David Obst and Badih Ghattas and Jairo Cugliari and Georges Oppenheim and Sandra Claudel and Yannig Goude(参考訳) ナレッジトランスファーとも呼ばれるトランスファーラーニングは、ソースデータセットからのナレッジを同様のターゲットに再利用することを目指している。 多くの実証研究は転校学習の利点を示しているが、特に回帰問題に関して理論的な結果が確立されていない。 本稿では,線形モデルに対するパラメータ転送問題に対する理論的枠組みを提案する。 新しい入力ベクトル$x$に対する転送の質は、問題のパラメータを含む固有基底における表現に依存することが示されている。 さらに、未観測試料のベースターゲットモデルよりも微調整モデルの方が2次的リスクが低いかを予測するための統計的テストを構築した。 テストの効率は、実際の電力消費データだけでなく合成データにも示される。

Transfer learning, also referred as knowledge transfer, aims at reusing knowledge from a source dataset to a similar target one. While many empirical studies illustrate the benefits of transfer learning, few theoretical results are established especially for regression problems. In this paper a theoretical framework for the problem of parameter transfer for the linear model is proposed. It is shown that the quality of transfer for a new input vector $x$ depends on its representation in an eigenbasis involving the parameters of the problem. Furthermore a statistical test is constructed to predict whether a fine-tuned model has a lower prediction quadratic risk than the base target model for an unobserved sample. Efficiency of the test is illustrated on synthetic data as well as real electricity consumption data.
翻訳日:2021-02-19 14:25:08 公開日:2021-02-18
# 統計的逆学習問題における凸正規化

Convex regularization in statistical inverse learning problems ( http://arxiv.org/abs/2102.09526v1 )

ライセンス: Link先を確認
Tatiana A. Bubba and Martin Burger and Tapio Helin and(参考訳) 我々は,統計逆学習問題を考える。そこでは,騒音点評価値である$af$ に基づいて関数 $f$ を推定し,ここでは$a$ を線形作用素とする。 関数 $Af$ は i.i.d で評価される。 ランダム設計ポイント $u_n$, $n=1,...,n$ 未知の一般確率分布によって生成される。 一般凸関数と$p$-均質ペナルティ関数によるティコノフ正規化と、ペナルティ関数によって誘導される対称ブレグマン距離で測定された基底真理に対する正規化解の導出濃度率を検討する。 我々は,Besov法則の厳格な罰則を導出し,X線トモグラフィーの文脈における観測値との対応性を数値的に示す。

We consider a statistical inverse learning problem, where the task is to estimate a function $f$ based on noisy point evaluations of $Af$, where $A$ is a linear operator. The function $Af$ is evaluated at i.i.d. random design points $u_n$, $n=1,...,N$ generated by an unknown general probability distribution. We consider Tikhonov regularization with general convex and $p$-homogeneous penalty functionals and derive concentration rates of the regularized solution to the ground truth measured in the symmetric Bregman distance induced by the penalty functional. We derive concrete rates for Besov norm penalties and numerically demonstrate the correspondence with the observed rates in the context of X-ray tomography.
翻訳日:2021-02-19 14:24:56 公開日:2021-02-18
# Off-policy Confidence Sequences

Off-policy Confidence Sequences ( http://arxiv.org/abs/2102.09540v1 )

ライセンス: Link先を確認
Nikos Karampatziakis, Paul Mineiro, Aaditya Ramdas(参考訳) 文脈的バンディット設定において,オフポリシー評価に一定時間をかけて保持する信頼度境界を開発する。 これらの信頼の順序はMartingaleの分析からの最近の考えに基づいてあり、任意停止時間に非asymptotic、非パラメトリック、および有効です。 計算効率と統計効率のバランスを良くする信頼度列を計算するためのアルゴリズムを提供する。 フェール確率とワイドの観点から,我々のアプローチの厳密さを実証的に実証し,プロダクションコンテキストのバンディットシステムを安全にアップグレードする"ゲート展開"問題に適用する。

We develop confidence bounds that hold uniformly over time for off-policy evaluation in the contextual bandit setting. These confidence sequences are based on recent ideas from martingale analysis and are non-asymptotic, non-parametric, and valid at arbitrary stopping times. We provide algorithms for computing these confidence sequences that strike a good balance between computational and statistical efficiency. We empirically demonstrate the tightness of our approach in terms of failure probability and width and apply it to the "gated deployment" problem of safely upgrading a production contextual bandit system.
翻訳日:2021-02-19 14:24:43 公開日:2021-02-18
# メラノーマ検出における偽陰性率の最小化と分類の原因に関する知見

Minimizing false negative rate in melanoma detection and providing insight into the causes of classification ( http://arxiv.org/abs/2102.09199v1 )

ライセンス: Link先を確認
Ell\'ak Somfai, Benj\'amin Baffy, Kristian Fenech, Changlu Guo, Rita Hossz\'u, Dorina Kor\'ozs, Marcell P\'olik, Attila Ulbert, Andr\'as L\H{o}rincz(参考訳) 私たちの目標は、メラノーマ検出で人間とマシンインテリジェンスを橋渡しすることです。 我々は,視覚前処理,深層学習,アンサンブルの組み合わせを利用して,専門家に説明を提供し,メラノーマ検出の精度を維持しながら偽陰性率を最小限に抑える分類システムを開発した。 ソース画像は、最初にU-net CNNを使用して自動的に分割されます。 セグメンテーションの結果は、人間の評価に関連する画像サブエリアと特定のパラメータ(中心、境界、非対称性)を抽出するために使われる。 これらのデータは、構造探索アルゴリズムを含むニューラルネットワークによって処理される。 部分的な結果は、委員会マシンによってアンサンブルされる。 今日公開されている最大の皮膚病変データセットISIC-2019の評価は、元の画像のみを使用してベースライン上のすべての評価指標の改善を示しています。 また,特徴分類器によって計算された示唆的スコアは,決定を下す様々な特徴について有用な洞察を与えることができることを示した。

Our goal is to bridge human and machine intelligence in melanoma detection. We develop a classification system exploiting a combination of visual pre-processing, deep learning, and ensembling for providing explanations to experts and to minimize false negative rate while maintaining high accuracy in melanoma detection. Source images are first automatically segmented using a U-net CNN. The result of the segmentation is then used to extract image sub-areas and specific parameters relevant in human evaluation, namely center, border, and asymmetry measures. These data are then processed by tailored neural networks which include structure searching algorithms. Partial results are then ensembled by a committee machine. Our evaluation on the largest skin lesion dataset which is publicly available today, ISIC-2019, shows improvement in all evaluated metrics over a baseline using the original images only. We also showed that indicative scores computed by the feature classifiers can provide useful insight into the various features on which the decision can be based.
翻訳日:2021-02-19 14:24:31 公開日:2021-02-18
# DINO:ドメイン翻訳のための条件付きエネルギーベースGAN

DINO: A Conditional Energy-Based GAN for Domain Translation ( http://arxiv.org/abs/2102.09281v1 )

ライセンス: Link先を確認
Konstantinos Vougioukas, Stavros Petridis and Maja Pantic(参考訳) ドメイン翻訳は、共通のセマンティクスを維持しながら、あるドメインから別のドメインにデータを変換するプロセスです。 最も一般的なドメイン翻訳システムは、ソースドメインデータを使用してジェネレータを駆動し、識別器への入力を行う条件付き生成逆数ネットワークに基づいている。 しかし、条件付き入力はしばしば判別者によって無視されるため、このアプローチは共有意味論の保存を強制しない。 コンディショニングの代替方法を提案し,2つのネットワークを同時に教師付きで訓練し,異方向のドメイン翻訳を行う新しいフレームワークを提案する。 提案手法は2つのドメイン間の共有情報をキャプチャするだけでなく,より汎用的であり,より幅広い問題に適用できる。 提案手法は、ビデオ駆動音声再構成など、他のシステムが対応を維持するのに苦労するクロスモーダル翻訳にも有効である。

Domain translation is the process of transforming data from one domain to another while preserving the common semantics. Some of the most popular domain translation systems are based on conditional generative adversarial networks, which use source domain data to drive the generator and as an input to the discriminator. However, this approach does not enforce the preservation of shared semantics since the conditional input can often be ignored by the discriminator. We propose an alternative method for conditioning and present a new framework, where two networks are simultaneously trained, in a supervised manner, to perform domain translation in opposite directions. Our method is not only better at capturing the shared information between two domains but is more generic and can be applied to a broader range of problems. The proposed framework performs well even in challenging cross-modal translations, such as video-driven speech reconstruction, for which other systems struggle to maintain correspondence.
翻訳日:2021-02-19 14:24:16 公開日:2021-02-18
# 深層学習による単一画像スーパーレゾリューションの総合的検討

A Comprehensive Review of Deep Learning-based Single Image Super-resolution ( http://arxiv.org/abs/2102.09351v1 )

ライセンス: Link先を確認
Syed Muhammad Arsalan Bashir, Yi Wang, Mahrukh Khan(参考訳) 画像スーパー解像度(SR)は、コンピュータビジョンの分野における画像の解像度を向上させる重要な画像処理方法の1つです。 過去20年間で、特にディープラーニングの手法を利用して、超解像の分野で大きな進歩を遂げた。 この調査は、深層学習の観点から超解像領域の最近の進歩を詳細に調査すると同時に、超解像達成に用いる初期の古典的手法についても報告する試みである。 本調査は,画像sr法を,古典法,教師付き学習法,教師なし学習法,ドメイン固有sr法という4つのカテゴリに分類した。 また、画像品質指標、利用可能な参照データセット、SRチャレンジに関する直感を提供するSRの問題も紹介します。 SRの深層学習に基づくアプローチは参照データセットを用いて評価される。 最後に、この調査は、SRの分野における今後の方向性とトレンドと、研究者によって対処されるSRのオープンな問題で締めくくられる。

Image super-resolution (SR) is one of the vital image processing methods that improve the resolution of an image in the field of computer vision. In the last two decades, significant progress has been made in the field of super-resolution, especially utilizing deep learning methods. This survey is an effort to provide a detailed survey of recent progress in the field of super-resolution in the perspective of deep learning while also informing about the initial classical methods used for achieving super-resolution. The survey classifies the image SR methods into four categories, i.e., classical methods, supervised learning-based methods, unsupervised learning-based methods, and domain-specific SR methods. We also introduce the problem of SR to provide intuition about image quality metrics, available reference datasets, and SR challenges. Deep learning-based approaches of SR are evaluated using a reference dataset. Finally, this survey is concluded with future directions and trends in the field of SR and open problems in SR to be addressed by the researchers.
翻訳日:2021-02-19 14:24:01 公開日:2021-02-18
# リカレントニューラルネットワークを用いたロバストPDF文書変換

Robust PDF Document Conversion Using Recurrent Neural Networks ( http://arxiv.org/abs/2102.09395v1 )

ライセンス: Link先を確認
Nikolaos Livathinos (1), Cesar Berrospi (1), Maksym Lysak (1), Viktor Kuropiatnyk (1), Ahmed Nassar (1), Andre Carvalho (1), Michele Dolfi (1), Christoph Auer (1), Kasper Dinkla (1), Peter Staar (1) ((1) IBM Research)(参考訳) 近年,PDF 文書の発行件数は急増している。 豊富なコンテンツを情報検索ツールに発見できるようにする必要性が高まっています。 本稿では,従来の文献で提案されているように,レンダリングされたpdfページを視覚的に再解釈する代わりに,リカレントニューラルネットワークを用いて,低レベルのpdfデータ表現を直接処理する新しい手法を提案する。 本稿では、ニューラルネットワークへの入力としてpdf印刷コマンドのシーケンスをどのように使用できるか、ネットワークが各印刷コマンドをそのページの構造機能に応じて分類するかをデモする。 このアプローチには3つの利点がある: まず、よりきめ細かいラベル(典型的には視覚的手法の1-5よりも10-20のラベル)を区別し、より正確で詳細な文書構造解決をもたらす。 第2に、シーケンシャルなページの印刷コマンドを結合できるため、視覚的な方法に比べてページ間のテキストフローをより自然に考慮することができる。 最後に,提案手法はメモリを少なくし,視覚的手法よりも計算コストを低くする。 これにより、このようなモデルをはるかに低コストで本番環境にデプロイできます。 高度な機能エンジニアリングと組み合わせた広範なアーキテクチャ検索により、17の異なる構造ラベルで平均F1スコアが97%の重み付けされたモデルを実装することができました。 私たちが達成した最高のモデルは、現在KDD18(arXiv:1806.022 84)で発表されたコーパス変換サービス(CCS)の運用環境で提供されます。 このモデルは、目に見えないすべてのドキュメントレイアウトに人間の注釈付きラベルグランドトラスの必要性を排除するため、CCSの機能を大幅に強化します。 これは、COVID-19に関連するPDF記事の膨大なコーパスに適用した場合、特に有用であることが判明した。

The number of published PDF documents has increased exponentially in recent decades. There is a growing need to make their rich content discoverable to information retrieval tools. In this paper, we present a novel approach to document structure recovery in PDF using recurrent neural networks to process the low-level PDF data representation directly, instead of relying on a visual re-interpretation of the rendered PDF page, as has been proposed in previous literature. We demonstrate how a sequence of PDF printing commands can be used as input into a neural network and how the network can learn to classify each printing command according to its structural function in the page. This approach has three advantages: First, it can distinguish among more fine-grained labels (typically 10-20 labels as opposed to 1-5 with visual methods), which results in a more accurate and detailed document structure resolution. Second, it can take into account the text flow across pages more naturally compared to visual methods because it can concatenate the printing commands of sequential pages. Last, our proposed method needs less memory and it is computationally less expensive than visual methods. This allows us to deploy such models in production environments at a much lower cost. Through extensive architectural search in combination with advanced feature engineering, we were able to implement a model that yields a weighted average F1 score of 97% across 17 distinct structural labels. The best model we achieved is currently served in production environments on our Corpus Conversion Service (CCS), which was presented at KDD18 (arXiv:1806.02284). This model enhances the capabilities of CCS significantly, as it eliminates the need for human annotated label ground-truth for every unseen document layout. This proved particularly useful when applied to a huge corpus of PDF articles related to COVID-19.
翻訳日:2021-02-19 14:23:29 公開日:2021-02-18
# グラフニューラルネットワークによる組合せ最適化と推論

Combinatorial optimization and reasoning with graph neural networks ( http://arxiv.org/abs/2102.09544v1 )

ライセンス: Link先を確認
Quentin Cappart, Didier Ch\'etelat, Elias Khalil, Andrea Lodi, Christopher Morris, Petar Veli\v{c}kovi\'c(参考訳) コンビナート最適化は、オペレーション研究とコンピュータサイエンスにおいて確立された領域です。 最近まで、その方法は、分離中の問題インスタンスの解決に焦点を当てており、実際に関連するデータ分布に起因することが多いという事実を無視しています。 しかし、近年、機械学習、特にグラフニューラルネットワーク(GNN)を、ソルバーまたはヘルパー関数として組み合わせタスクの重要なビルディングブロックとして使用することへの関心が高まっています。 GNNはインダクティブバイアスであり、それらの置換不変性およびスパーシティ認識により、コンビネーション入力とリレーショナル入力を効果的に符号化する。 本稿では,この新興分野における近年の鍵となる進歩を,最適化と機械学習研究者の両面から考察する。

Combinatorial optimization is a well-established area in operations research and computer science. Until recently, its methods have focused on solving problem instances in isolation, ignoring the fact that they often stem from related data distributions in practice. However, recent years have seen a surge of interest in using machine learning, especially graph neural networks (GNNs), as a key building block for combinatorial tasks, either as solvers or as helper functions. GNNs are an inductive bias that effectively encodes combinatorial and relational input due to their permutation-invarian ce and sparsity awareness. This paper presents a conceptual review of recent key advancements in this emerging field, aiming at both the optimization and machine learning researcher.
翻訳日:2021-02-19 14:22:38 公開日:2021-02-18
# パフォーマンス保証付き不確定な動的環境におけるオンライン最適化と学習

Online Optimization and Learning in Uncertain Dynamical Environments with Performance Guarantees ( http://arxiv.org/abs/2102.09111v1 )

ライセンス: Link先を確認
Dan Li, Dariush Fooladivanda, Sonia Martinez(参考訳) 未知かつ不確実な動的環境におけるオンライン最適化と学習問題を解決するための新しいフレームワークを提案する。 このフレームワークは、オンラインの決定を定量的に堅牢にしながら、不確実な動的環境を同時に学ぶことができます。 主な技術的アプローチは、適応確率的あいまいさ集合を利用する分布的ロバスト最適化の理論に依存する。 しかし、定義されているように、あいまいさセットは通常、オンラインの難解な問題につながり、私たちの仕事の最初の部分は、客観的関数の2つのサブクラスのためのオンライン凸問題の形で改革を見つけるように指示されています。 提案手法の問題点を解決するため,NesterovAccelered-g radientアルゴリズムのオンライン版をさらに導入する。 提案手法は, ある条件下での確率的後悔をいかに達成するかを決定する。 提案フレームワークの適用性を示す2つのアプリケーションがある。

We propose a new framework to solve online optimization and learning problems in unknown and uncertain dynamical environments. This framework enables us to simultaneously learn the uncertain dynamical environment while making online decisions in a quantifiably robust manner. The main technical approach relies on the theory of distributional robust optimization that leverages adaptive probabilistic ambiguity sets. However, as defined, the ambiguity set usually leads to online intractable problems, and the first part of our work is directed to find reformulations in the form of online convex problems for two sub-classes of objective functions. To solve the resulting problems in the proposed framework, we further introduce an online version of the Nesterov accelerated-gradient algorithm. We determine how the proposed solution system achieves a probabilistic regret bound under certain conditions. Two applications illustrate the applicability of the proposed framework.
翻訳日:2021-02-19 14:22:26 公開日:2021-02-18
# 軌跡推論の数学的理論に向けて

Towards a mathematical theory of trajectory inference ( http://arxiv.org/abs/2102.09204v1 )

ライセンス: Link先を確認
Hugo Lavenant, Stephen Zhang, Young-Heon Kim, Geoffrey Schiebinger(参考訳) 時間的限界のスナップショットから確率過程の軌跡を推定するための理論的枠組みと数値的手法を考案する。 この問題は、細胞状態の高次元計測を提供するが、経時的に細胞の軌道を追跡できない単細胞rna配列データの解析において生じる。 確率過程のクラスにおいて,各時点における時間的辺縁の限られたサンプルから基底真理軌道を復元することが可能であることが証明され,実際に行うための効率的なアルゴリズムが提供される。 開発したGlobal Waddington-OT (gWOT) は, エントロピー規則化された最適輸送を含む全時間点において, 円滑な凸最適化問題に導かれる。 そこで本研究では,本課題を効率的に解決できることを示すとともに,いくつかの合成データと実データを用いて,良好な再構成を実現する。

We devise a theoretical framework and a numerical method to infer trajectories of a stochastic process from snapshots of its temporal marginals. This problem arises in the analysis of single cell RNA-sequencing data, which provide high dimensional measurements of cell states but cannot track the trajectories of the cells over time. We prove that for a class of stochastic processes it is possible to recover the ground truth trajectories from limited samples of the temporal marginals at each time-point, and provide an efficient algorithm to do so in practice. The method we develop, Global Waddington-OT (gWOT), boils down to a smooth convex optimization problem posed globally over all time-points involving entropy-regularized optimal transport. We demonstrate that this problem can be solved efficiently in practice and yields good reconstructions, as we show on several synthetic and real datasets.
翻訳日:2021-02-19 14:22:13 公開日:2021-02-18
# オープンドメイン対話生成のための階層的およびグローバル視点におけるコンテキスト選択の学習

Learning to Select Context in a Hierarchical and Global Perspective for Open-domain Dialogue Generation ( http://arxiv.org/abs/2102.09282v1 )

ライセンス: Link先を確認
Lei Shen, Haolan Zhan, Xin Shen, Yang Feng(参考訳) オープンドメインのマルチターン会話は、主に階層的セマンティック構造、冗長情報、長期依存性の3つの特徴を持つ。 これらに基づいて、関連するコンテキストの選択は、マルチターン対話生成のチャレンジステップになります。 しかし,既存の手法では,応答から長距離で有用な単語と発話を区別することはできない。 さらに、以前の作業はデコーダの状態に基づいてコンテキスト選択を実行するだけで、グローバルなガイダンスが欠如しており、無関係または不要な情報に焦点を絞ることができる。 本論文では, 階層的自己保持機構と遠隔監視を備えた新しいモデルを提案し, 関連語や発話を短距離および長距離に検出するだけでなく, 復号化時に関連情報をグローバルに識別する。 自動評価と人的評価の2つの公開データセットによる実験結果から,我々のモデルは,流速,コヒーレンス,情報性において,他のベースラインよりも有意に優れていた。

Open-domain multi-turn conversations mainly have three features, which are hierarchical semantic structure, redundant information, and long-term dependency. Grounded on these, selecting relevant context becomes a challenge step for multi-turn dialogue generation. However, existing methods cannot differentiate both useful words and utterances in long distances from a response. Besides, previous work just performs context selection based on a state in the decoder, which lacks a global guidance and could lead some focuses on irrelevant or unnecessary information. In this paper, we propose a novel model with hierarchical self-attention mechanism and distant supervision to not only detect relevant words and utterances in short and long distances, but also discern related information globally when decoding. Experimental results on two public datasets of both automatic and human evaluations show that our model significantly outperforms other baselines in terms of fluency, coherence, and informativeness.
翻訳日:2021-02-19 14:21:58 公開日:2021-02-18
# UnibucKernel:エンサンブル学習を用いたスイスとドイツのジョデルのジオロケーション

UnibucKernel: Geolocating Swiss-German Jodels Using Ensemble Learning ( http://arxiv.org/abs/2102.09379v1 )

ライセンス: Link先を確認
Mihaela Gaman, Sebastian Cojocariu, Radu Tudor Ionescu(参考訳) 本稿では,2021年のVarDial Evaluation Campaignにおけるソーシャルメディアのバラエティ測地課題に対処するアプローチについて述べる。 我々は、スイスの約3万のドイツのジョデルからなるデータセットに基づいて、第2のサブタスクに焦点を当てる。 方言識別タスクは、試験サンプルの緯度と経度を正確に予測することです。 我々は、xgboostメタリーナーと、緯度と経度の両方を予測する様々な機械学習アプローチの組み合わせを用いて、タスクを二重回帰問題として構成する。 私たちのアンサンブルに含まれるモデルは、Support Vector Regressionのような単純な回帰技術から、ハイブリッドニューラルネットワークやニューラルトランスフォーマーなどのディープニューラルモデルまで多岐にわたります。 予測誤差を最小限に抑えるため,いくつかの異なる視点から問題にアプローチし,低レベルの文字n-gramから高レベルのBERT埋め込みに至るまで,様々な特徴について考察する。 XGBoostアンサンブルは、上記の手法のパワーを組み合わせることで、テストデータ上で中央値の23.6kmを達成し、それぞれ第1および第2の入力から6.05kmと2.9kmの差で、ランキング3位に私たちを配置する。

In this work, we describe our approach addressing the Social Media Variety Geolocation task featured in the 2021 VarDial Evaluation Campaign. We focus on the second subtask, which is based on a data set formed of approximately 30 thousand Swiss German Jodels. The dialect identification task is about accurately predicting the latitude and longitude of test samples. We frame the task as a double regression problem, employing an XGBoost meta-learner with the combined power of a variety of machine learning approaches to predict both latitude and longitude. The models included in our ensemble range from simple regression techniques, such as Support Vector Regression, to deep neural models, such as a hybrid neural network and a neural transformer. To minimize the prediction error, we approach the problem from a few different perspectives and consider various types of features, from low-level character n-grams to high-level BERT embeddings. The XGBoost ensemble resulted from combining the power of the aforementioned methods achieves a median distance of 23.6 km on the test data, which places us on the third place in the ranking, at a difference of 6.05 km and 2.9 km from the submissions on the first and second places, respectively.
翻訳日:2021-02-19 14:21:43 公開日:2021-02-18
# サリエント物体検出のための密度ネストトップダウンフロー

Densely Nested Top-Down Flows for Salient Object Detection ( http://arxiv.org/abs/2102.09133v1 )

ライセンス: Link先を確認
Chaowei Fang, Haibin Tian, Dingwen Zhang, Qiang Zhang, Jungong Han, Junwei Han(参考訳) 近年,各入力画像から画素単位の正当性物体領域を特定することを目的として,正当性物体検出(SOD)が注目されている。 主流sod手法の一つはボトムアップ特徴符号化手順とトップダウン情報復号手順によって形成される。 多くのアプローチがこのタスクのボトムアップ機能抽出を検討しているが、トップダウンフローの設計はまだ検討されていない。 そこで本稿では,高次物体検出におけるトップダウンモデリングの役割を再考し,高密度ネストトダウンフロー(DNTDF)に基づく新しいフレームワークを設計する。 DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。 提案手法の特徴は以下のとおりである。 1) 比較的強い意味情報を持つ高レベルの特徴の伝播は, 復号処理において強化され, 2) PCSPの助けを借りて, トップダウン情報フローにおける非線形操作によって生じる問題を解消し, 3) 高レベルの特徴の完全な探索により, 提案手法の復号処理は, 既存の手法と比較して比較的メモリ効率が良い。 DNTDFとEfficientNetを統合することで,計算量が非常に少ない軽量SODモデルを構築する。 提案手法の有効性を示すために,6つのベンチマークデータセットを用いた総合実験を行った。 最先端の手法と慎重に設計されたベースラインモデルの比較は、SODのトップダウンフローモデリングに関する当社の洞察を検証します。 この論文のコードはhttps://github.com/n ew-stone-object/DNTD で入手できる。

With the goal of identifying pixel-wise salient object regions from each input image, salient object detection (SOD) has been receiving great attention in recent years. One kind of mainstream SOD methods is formed by a bottom-up feature encoding procedure and a top-down information decoding procedure. While numerous approaches have explored the bottom-up feature extraction for this task, the design on top-down flows still remains under-studied. To this end, this paper revisits the role of top-down modeling in salient object detection and designs a novel densely nested top-down flows (DNTDF)-based framework. In every stage of DNTDF, features from higher levels are read in via the progressive compression shortcut paths (PCSP). The notable characteristics of our proposed method are as follows. 1) The propagation of high-level features which usually have relatively strong semantic information is enhanced in the decoding procedure; 2) With the help of PCSP, the gradient vanishing issues caused by non-linear operations in top-down information flows can be alleviated; 3) Thanks to the full exploration of high-level features, the decoding process of our method is relatively memory efficient compared against those of existing methods. Integrating DNTDF with EfficientNet, we construct a highly light-weighted SOD model, with very low computational complexity. To demonstrate the effectiveness of the proposed model, comprehensive experiments are conducted on six widely-used benchmark datasets. The comparisons to the most state-of-the-art methods as well as the carefully-designed baseline models verify our insights on the top-down flow modeling for SOD. The code of this paper is available at https://github.com/n ew-stone-object/DNTD .
翻訳日:2021-02-19 14:20:55 公開日:2021-02-18
# 屋内グラフィックシーンにおける3次元家具レイアウトシミュレーションのマルチエージェント強化学習

Multi-Agent Reinforcement Learning of 3D Furniture Layout Simulation in Indoor Graphics Scenes ( http://arxiv.org/abs/2102.09137v1 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu(参考訳) 工業用インテリアデザインのプロセスでは、プロのデザイナーが家具のレイアウトを計画し、販売に適した3Dデザインを実現する。 本稿では,マルチエージェント強化学習による3次元シミュレーションにおけるマルコフ決定過程(MDP)としての内部グラフィックシーン設計課題について検討する。 目標は、室内グラフィックシーンの3Dシミュレーションで家具のレイアウトを作成することである。 特に、まず3Dインテリアグラフィックシーンを2つの2Dシミュレートシーンに変換します。 次に、シミュレーション環境を設計し、2つの強化学習エージェントを適用し、MDP定式化の最適3次元レイアウトを協調的に学習する。 プロのデザイナーによる工業デザインを含む大規模な実世界のインテリアレイアウトデータセットの実験を行っています。 本研究では,提案モデルが最新モデルと比較して高い品質のレイアウトが得られることを実証した。 開発されたシミュレータとコードは \url{https://github.com/C ODE-SUBMIT/simulator 2} で利用可能である。

In the industrial interior design process, professional designers plan the furniture layout to achieve a satisfactory 3D design for selling. In this paper, we explore the interior graphics scenes design task as a Markov decision process (MDP) in 3D simulation, which is solved by multi-agent reinforcement learning. The goal is to produce furniture layout in the 3D simulation of the indoor graphics scenes. In particular, we firstly transform the 3D interior graphic scenes into two 2D simulated scenes. We then design the simulated environment and apply two reinforcement learning agents to learn the optimal 3D layout for the MDP formulation in a cooperative way. We conduct our experiments on a large-scale real-world interior layout dataset that contains industrial designs from professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts as compared with the state-of-art model. The developed simulator and codes are available at \url{https://github.com/C ODE-SUBMIT/simulator 2}.
翻訳日:2021-02-19 14:20:26 公開日:2021-02-18
# DSRN: イメージリライティングのための効率的なディープネットワーク

DSRN: an Efficient Deep Network for Image Relighting ( http://arxiv.org/abs/2102.09242v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Nisarg A. Shah, Saikat Dutta, Himanshu Kumar(参考訳) カスタム照明条件と自然照明条件は、編集後のシーンの画像にエミュレートできる。 このような目的のために、ディープラーニングフレームワークの特別な機能を利用することができる。 深い画像リライトにより、照明固有のリタッチによる自動写真強化が可能。 ライティングの最先端の手法のほとんどは、実行時の集中度とメモリ非効率である。 本稿では,入力画像からの集約的特徴を異なるスケールで利用することにより,画像リライトのための効率的なリアルタイムフレームワークDep Stacked Relighting Network (DSRN)を提案する。 我々のモデルは非常に軽量で、総サイズは約42MBで、解像度1024 \times 1024$の画像の平均推論時間は0.0116sであり、他のマルチスケールモデルと比較して高速である。 当社のソリューションは、入力画像からターゲット画像への画像色温度の変換に非常に堅牢であり、ターゲット画像に対する光勾配生成にも適度に機能します。 また、反対方向から照らされた画像を入力として使用する場合、一つの入力画像より質的結果が向上することを示す。

Custom and natural lighting conditions can be emulated in images of the scene during post-editing. Extraordinary capabilities of the deep learning framework can be utilized for such purpose. Deep image relighting allows automatic photo enhancement by illumination-specifi c retouching. Most of the state-of-the-art methods for relighting are run-time intensive and memory inefficient. In this paper, we propose an efficient, real-time framework Deep Stacked Relighting Network (DSRN) for image relighting by utilizing the aggregated features from input image at different scales. Our model is very lightweight with total size of about 42 MB and has an average inference time of about 0.0116s for image of resolution $1024 \times 1024$ which is faster as compared to other multi-scale models. Our solution is quite robust for translating image color temperature from input image to target image and also performs moderately for light gradient generation with respect to the target image. Additionally, we show that if images illuminated from opposite directions are used as input, the qualitative results improve over using a single input image.
翻訳日:2021-02-19 14:20:11 公開日:2021-02-18
# HandTailor: 高精度なモノクル3Dハンドリカバリを目指して

HandTailor: Towards High-Precision Monocular 3D Hand Recovery ( http://arxiv.org/abs/2102.09244v1 )

ライセンス: Link先を確認
Jun Lv, Wenqiang Xu, Lixin Yang, Sucheng Qian, Chongzhao Mao, Cewu Lu(参考訳) 3次元手ポーズ推定と形状復元はコンピュータビジョンにおける課題である。 学習ベースのハンドモジュールと最適化ベースのテーラーモジュールを組み合わせて,モノクロRGB画像から高精度の手メッシュ回復を実現する,新しいフレームワークHandTailorを提案する。 提案するハンドモジュールは,1つのネットワークにおける視点投影と弱い視点投影を,精度指向およびワイルドシナリオに向けて統一する。 提案したテーラーモジュールは,ハンドモジュールの粗い再構成メッシュモデルを初期化として利用し,エネルギー関数を反復的に最適化してより良い結果を得る。 テーラーモジュールは時間効率が良く、1フレームあたり8msしかコストがかからない。 我々は、HandTailorがいくつかの公開ベンチマークで最先端のパフォーマンスを得られることを実証した。

3D hand pose estimation and shape recovery are challenging tasks in computer vision. We introduce a novel framework HandTailor, which combines a learning-based hand module and an optimization-based tailor module to achieve high-precision hand mesh recovery from a monocular RGB image. The proposed hand module unifies perspective projection and weak perspective projection in a single network towards accuracy-oriented and in-the-wild scenarios. The proposed tailor module then utilizes the coarsely reconstructed mesh model provided by the hand module as initialization, and iteratively optimizes an energy function to obtain better results. The tailor module is time-efficient, costs only 8ms per frame on a modern CPU. We demonstrate that HandTailor can get state-of-the-art performance on several public benchmarks, with impressive qualitative results on in-the-wild experiments.
翻訳日:2021-02-19 14:19:54 公開日:2021-02-18
# Sliced $\mathcal{L}_2$ Distance for Colour Grading

Sliced $\mathcal{L}_2$ Distance for Colour Grading ( http://arxiv.org/abs/2102.09297v1 )

ライセンス: Link先を確認
Hana Alghamdi and Rozenn Dahyot(参考訳) 対応に関する利用可能な情報を考慮に入れ、ある$N$次元分布を別の次元分布にマップする、$\mathcal{L}_2$距離を持つ新しい方法を提案する。 反復射影法を用いて1次元空間の高次元問題を解く。 このマッピングの可能性を示すため、重なり合うシーンを示す2つの画像間の色移動に適用する。 実験では, アートカラー転送法と比較し, 定量的, 質的な競争結果を示した。

We propose a new method with $\mathcal{L}_2$ distance that maps one $N$-dimensional distribution to another, taking into account available information about correspondences. We solve the high-dimensional problem in 1D space using an iterative projection approach. To show the potentials of this mapping, we apply it to colour transfer between two images that exhibit overlapped scenes. Experiments show quantitative and qualitative competitive results as compared with the state of the art colour transfer methods.
翻訳日:2021-02-19 14:19:40 公開日:2021-02-18
# Deep Miner: 個人再識別のためのリッチで多様な機能をマイニングするディープおよびマルチブランチネットワーク

Deep Miner: A Deep and Multi-branch Network which Mines Rich and Diverse Features for Person Re-identification ( http://arxiv.org/abs/2102.09321v1 )

ライセンス: Link先を確認
Abdallah Benzine, Mohamed El Amine Seddik, Julien Desmarais(参考訳) 最近の人物再識別アプローチは、ディープ畳み込みニューラルネットワーク(CNN)の利用に基づいている。 これらのネットワークは、分類やオブジェクト検出などの複数のタスクで有効であるが、関連するすべての特徴を検索するよりも、オブジェクトの最も差別的な部分に焦点を当てる傾向がある。 この振る舞いは、多種多様できめ細かい特徴を識別する必要があるため、再識別タスクにおけるCNNのパフォーマンスを罰する。 そこで, ネットワークにさまざまな特性を学習させ, 人々の再識別プロセスを効果的かつ堅牢にし, 変化をより細かくする上で重要である。 本稿では,CNNがより豊かで多様な特徴を識別し,その再識別を可能にする手法であるDeep Minerを紹介する。 Deep Minerは、Globalブランチ(Gブランチ)、Localブランチ(Lブランチ)、Input-Erasedブランチ(IEブランチ)の3つのタイプのブランチで構成されている。 Gブランチはグローバル特性を予測する最初のバックボーンに対応し、Lブランチは部品レベルの解像度特性を取得します。 IEブランチは、部分的に抑圧された特徴マップを入力として受け取り、ネットワークが新たな特徴(Gブランチによって無視される)を出力として"マイニング"することができる。 この目的のために、所定のcnn内の特徴を特定し除去するための専用の抑制手順を導入する。 この抑制手順は単純であることの主な利点を持ち、最新(SOTA)再識別方法を大幅に上回るモデルを生成します。 具体的には、4つの標準人物再識別ベンチマークの実験を行い、SOTAと比較して6.5%mAPまでの絶対性能向上を目撃しています。

Most recent person re-identification approaches are based on the use of deep convolutional neural networks (CNNs). These networks, although effective in multiple tasks such as classification or object detection, tend to focus on the most discriminative part of an object rather than retrieving all its relevant features. This behavior penalizes the performance of a CNN for the re-identification task, since it should identify diverse and fine grained features. It is then essential to make the network learn a wide variety of finer characteristics in order to make the re-identification process of people effective and robust to finer changes. In this article, we introduce Deep Miner, a method that allows CNNs to "mine" richer and more diverse features about people for their re-identification. Deep Miner is specifically composed of three types of branches: a Global branch (G-branch), a Local branch (L-branch) and an Input-Erased branch (IE-branch). G-branch corresponds to the initial backbone which predicts global characteristics, while L-branch retrieves part level resolution features. The IE-branch for its part, receives partially suppressed feature maps as input thereby allowing the network to "mine" new features (those ignored by G-branch) as output. For this special purpose, a dedicated suppression procedure for identifying and removing features within a given CNN is introduced. This suppression procedure has the major benefit of being simple, while it produces a model that significantly outperforms state-of-the-art (SOTA) re-identification methods. Specifically, we conduct experiments on four standard person re-identification benchmarks and witness an absolute performance gain up to 6.5% mAP compared to SOTA.
翻訳日:2021-02-19 14:19:31 公開日:2021-02-18
# HVAQ:高分解能ビジョンに基づく空気品質データセット

HVAQ: A High-Resolution Vision-Based Air Quality Dataset ( http://arxiv.org/abs/2102.09332v1 )

ライセンス: Link先を確認
Zuohui Chen, Tony Zhang, Zhuangzhi Chen, Yun Xiang, Qi Xuan, and Robert P. Dick(参考訳) 粒子状物質のような空気汚染物質は人間の健康に強い影響を及ぼす。 既存の汚染監視技術のほとんどは、通常、ステーショナリーセンサーを使用します。 しかし、実世界の汚染分布は宇宙空間において急速に変化し、空気汚染物質の視覚効果は高分解能で濃度を推定するのに使うことができる。 正確な汚染監視には、高密度に配置された従来の点センサ、遠隔監視ベースの汚染監視、または両方の組み合わせが必要です。 本稿では,(1)pm2.5,pm10,温度,湿度データからなる高時間分解能,空間分解能の空気品質データセットを提示し,(2)粒子カウンタの位置をカバーする画像を同時に取得し,(3)複数の視覚に基づくpm濃度予測アルゴリズムをデータセット上で評価し,センサ密度と画像で予測精度が向上することを示す。 このデータセットは、大気品質の推定に取り組んでいる他の研究チームによる進歩を可能にすることができるという私たちの意図と信念です。

Air pollutants, such as particulate matter, strongly impact human health. Most existing pollution monitoring techniques use stationary sensors, which are typically sparsely deployed. However, real-world pollution distributions vary rapidly in space and the visual effects of air pollutant can be used to estimate concentration, potentially at high spatial resolution. Accurate pollution monitoring requires either densely deployed conventional point sensors, at-a-distance vision-based pollution monitoring, or a combination of both. This paper makes the following contributions: (1) we present a high temporal and spatial resolution air quality dataset consisting of PM2.5, PM10, temperature, and humidity data; (2) we simultaneously take images covering the locations of the particle counters; and (3) we evaluate several vision-based state-of-art PM concentration prediction algorithms on our dataset and demonstrate that prediction accuracy increases with sensor density and image. It is our intent and belief that this dataset can enable advances by other research teams working on air quality estimation.
翻訳日:2021-02-19 14:19:04 公開日:2021-02-18
# 手動アノテーションを伴わない手術器具の分割のための画像合成

Image Compositing for Segmentation of Surgical Tools without Manual Annotations ( http://arxiv.org/abs/2102.09528v1 )

ライセンス: Link先を確認
Luis C. Garcia-Peraza-Herrer a, Lucas Fidon, Claudia D'Ettorre, Danail Stoyanov, Tom Vercauteren, Sebastien Ourselin(参考訳) 手動、ピクセル精度、画像セグメンテーションラベルの作成は面倒で時間がかかる。 これは多くの場合、外科的シーンにおける楽器背景セグメンテーションのための深い畳み込みネットワークのトレーニングなど、大量のラベル付き画像が必要な場合、レート制限要因です。 このタスクには、コンピュータビジョンコミュニティの業界標準に匹敵する大規模なデータセットは使用できない。 この問題を回避するために,特殊効果を生かした技術を活用して,視覚的魅力ではなく,トレーニングパフォーマンスを目標としたリアルなトレーニングデータセットの自動作成を提案する。 前景データをクロマキー(a.k.a.)上にサンプル外科器具を置くことにより取得する。 グリーンスクリーン) 制御された環境では、関連する画像セグメントの抽出が簡単になる。 機器やカメラを動かして光源を変調することで、複数の照明条件や視点をシミュレーションで捉えて導入することができます。 背景データは、楽器を含まないビデオの収集によって取得される。 既存の楽器のない背景ビデオがない場合は、オンラインで自由に利用可能な手術介入ビデオから手術器具を含まないフレームを選択するだけで、最小限のラベリングが必要となる。 組織上で楽器をブレンドするための異なる方法を比較し,複数の選択肢を生かした新しいデータ拡張手法を提案する。 半合成データのみを用いてバニラU-Netをトレーニングし、簡単な後処理を適用することで、公開可能な実データセットでトレーニングされた同じネットワークの結果と一致できることを示す。

Producing manual, pixel-accurate, image segmentation labels is tedious and time-consuming. This is often a rate-limiting factor when large amounts of labeled images are required, such as for training deep convolutional networks for instrument-backgroun d segmentation in surgical scenes. No large datasets comparable to industry standards in the computer vision community are available for this task. To circumvent this problem, we propose to automate the creation of a realistic training dataset by exploiting techniques stemming from special effects and harnessing them to target training performance rather than visual appeal. Foreground data is captured by placing sample surgical instruments over a chroma key (a.k.a. green screen) in a controlled environment, thereby making extraction of the relevant image segment straightforward. Multiple lighting conditions and viewpoints can be captured and introduced in the simulation by moving the instruments and camera and modulating the light source. Background data is captured by collecting videos that do not contain instruments. In the absence of pre-existing instrument-free background videos, minimal labeling effort is required, just to select frames that do not contain surgical instruments from videos of surgical interventions freely available online. We compare different methods to blend instruments over tissue and propose a novel data augmentation approach that takes advantage of the plurality of options. We show that by training a vanilla U-Net on semi-synthetic data only and applying a simple post-processing, we are able to match the results of the same network trained on a publicly available manually labeled real dataset.
翻訳日:2021-02-19 14:18:44 公開日:2021-02-18
# CReST:不均衡な半教師付き学習のためのクラスリバランス自己学習フレームワーク

CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2102.09559v1 )

ライセンス: Link先を確認
Chen Wei, Kihyuk Sohn, Clayton Mellina, Alan Yuille, Fan Yang(参考訳) クラス不均衡データに対する半教師付き学習は現実的な問題であるが、研究が進められている。 既存の半教師付き学習(SSL)手法はマイノリティークラスでは性能が低いことが知られているが、それでもマイノリティークラスでは高い精度の擬似ラベルを生成する。 本研究では、この性質を利用して、クラスアンバランスデータに対する既存のSSLメソッドを改善するためのシンプルで効果的なフレームワークであるClass-Rebalancing Self-Training(CReST) を提案する。 CRESTは、未ラベルの集合から擬似ラベル付きサンプルを追加することにより拡張されたラベル付き集合でベースラインSSLモデルを反復的に再トレーニングし、推定クラス分布に応じて少数クラスの擬似ラベル付きサンプルをより頻繁に選択する。 また,CreST+と呼ばれるリバランス強度を適応的に調整するプログレッシブ分布アライメントを提案する。 CReSTとCReST+は、様々なクラスアンバランスデータセットにおける最先端のSSLアルゴリズムを改善し、他の一般的な再バランス方法よりも一貫して優れています。

Semi-supervised learning on class-imbalanced data, although a realistic problem, has been under studied. While existing semi-supervised learning (SSL) methods are known to perform poorly on minority classes, we find that they still generate high precision pseudo-labels on minority classes. By exploiting this property, in this work, we propose Class-Rebalancing Self-Training (CReST), a simple yet effective framework to improve existing SSL methods on class-imbalanced data. CReST iteratively retrains a baseline SSL model with a labeled set expanded by adding pseudo-labeled samples from an unlabeled set, where pseudo-labeled samples from minority classes are selected more frequently according to an estimated class distribution. We also propose a progressive distribution alignment to adaptively adjust the rebalancing strength dubbed CReST+. We show that CReST and CReST+ improve state-of-the-art SSL algorithms on various class-imbalanced datasets and consistently outperform other popular rebalancing methods.
翻訳日:2021-02-19 14:18:20 公開日:2021-02-18
# less is more: 弱いデコーダを用いた強力なシアムエンコーダの事前トレーニング

Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder ( http://arxiv.org/abs/2102.09206v1 )

ライセンス: Link先を確認
Shuqi Lu, Chenyan Xiong, Di He, Guolin Ke, Waleed Malik, Zhicheng Dou, Paul Bennett, Tieyan Liu, Arnold Overwijk(参考訳) 多くの実世界のアプリケーションはSiameseネットワークを使用して、高品質のシーケンスエンコーディングを必要とする大規模なテキストシーケンスを効率的にマッチングします。 本稿では,シームズアーキテクチャにおけるシーケンスマッチング専用の言語モデルを事前学習する。 まず、シーケンス全体の再構成が可能ならば、表現はシーケンスマッチングに適している、という仮説を立てる。しかし、標準的なオートエンコーダでは達成できない: 強力なデコーダは、そのキャパシティと自然言語パターンに依存して、より優れたシーケンスエンコーディングの必要性を回避できる。 そこで本研究では,エンコーダの[cls]表現から元のシーケンスを再構成するが,キャパシティと注意範囲は制限される,弱いデコーダでエンコーダを事前学習する新しい自己学習手法を提案する。 web 検索とレコメンデーションに関する実験では,事前学習したシードエンコーダである "siamese oriented encoder by reconstructioning from weak decoder" が,siamese ネットワークで微調整を行った場合の一般化能力が著しく向上し,全体的な精度が向上した。 コードとモデルはリリースされます。

Many real-world applications use Siamese networks to efficiently match text sequences at scale, which require high-quality sequence encodings. This paper pre-trains language models dedicated to sequence matching in Siamese architectures. We first hypothesize that a representation is better for sequence matching if the entire sequence can be reconstructed from it, which, however, is unlikely to be achieved in standard autoencoders: A strong decoder can rely on its capacity and natural language patterns to reconstruct and bypass the needs of better sequence encodings. Therefore we propose a new self-learning method that pretrains the encoder with a weak decoder, which reconstructs the original sequence from the encoder's [CLS] representations but is restricted in both capacity and attention span. In our experiments on web search and recommendation, the pre-trained SEED-Encoder, "SiamEsE oriented encoder by reconstructing from weak decoder", shows significantly better generalization ability when fine-tuned in Siamese networks, improving overall accuracy and few-shot performances. Our code and models will be released.
翻訳日:2021-02-19 14:18:02 公開日:2021-02-18
# 構成可能なジェネラティブモデル

Composable Generative Models ( http://arxiv.org/abs/2102.09249v1 )

ライセンス: Link先を確認
Johan Leduc and Nicolas Grislain(参考訳) 生成モデリングは最近、変分オートエンコーダ(VAE)やGAN(Generative Adversarial Networks)といった深層生成アーキテクチャの出現によって、多くのエキサイティングな発展を遂げている。 合成i.i.d.を描ける能力 与えられたデータセットと同じ結合確率分布を持つ観測は、表現学習、圧縮または計算を含む幅広い応用を有する。 また、特に差分プライバシー技術と組み合わせて使用する場合、プライバシー保護データ分析にも多くの応用があるようだ。 本稿では,プライバシ保護アプリケーションを考慮した合成データ生成モデルについて述べる。 テーブルデータ生成における最先端の技術である、新しいアーキテクチャであるcomposable generative model(cgm)を紹介している。 任意の条件生成モデルは、CGM自体を含むCGMのサブコンポーネントとして使用することができ、数値、カテゴリデータ、画像、テキスト、または時系列の生成を可能にする。 CGMは13のデータセット(6つの標準データセットと7のシミュレーション)で評価され、14の最近の生成モデルと比較されている。 グラフデータ生成における最先端の技術を、かなりのマージンで打ち負かしている。

Generative modeling has recently seen many exciting developments with the advent of deep generative architectures such as Variational Auto-Encoders (VAE) or Generative Adversarial Networks (GAN). The ability to draw synthetic i.i.d. observations with the same joint probability distribution as a given dataset has a wide range of applications including representation learning, compression or imputation. It appears that it also has many applications in privacy preserving data analysis, especially when used in conjunction with differential privacy techniques. This paper focuses on synthetic data generation models with privacy preserving applications in mind. It introduces a novel architecture, the Composable Generative Model (CGM) that is state-of-the-art in tabular data generation. Any conditional generative model can be used as a sub-component of the CGM, including CGMs themselves, allowing the generation of numerical, categorical data as well as images, text, or time series. The CGM has been evaluated on 13 datasets (6 standard datasets and 7 simulated) and compared to 14 recent generative models. It beats the state of the art in tabular data generation by a significant margin.
翻訳日:2021-02-19 14:17:42 公開日:2021-02-18
# 深層強化学習を用いた貨物輸送における戦略入札

Strategic bidding in freight transport using deep reinforcement learning ( http://arxiv.org/abs/2102.09253v1 )

ライセンス: Link先を確認
Wouter van Heeswijk(参考訳) 本稿では,貨物輸送市場における戦略的入札行動を表すマルチエージェント強化学習アルゴリズムを提案する。 本アルゴリズムを用いて,エージェント間の中央制御や通信を行わずに市場均衡が実現可能かどうかを検討する。 このような環境での学習行動は、物理インターネットのような自己組織型物流システムへの足掛かりとなるかもしれない。 我々は,出荷者と運送業者が政策グラデーション手法を用いて入札戦略を積極的に学習し,入札を行い,個々のコンテナレベルで価格を求めるエージェントベースの環境をモデル化する。 どちらのエージェントも、相手のエージェントが期待する行動を考えると、最善の反応を学ぶことを目指している。 中立ブローカーは入札の拡散に基づいてジョブを割り当てます。 我々のゲーム理論解析と数値実験は行動の洞察に焦点を当てている。 システム性能を評価するため, ナッシュ均衡, 報酬分配の公平性, 輸送能力の活用度を測定した。 予測可能,決定論的条件(ナッシュ均衡に約95%の順守)と確率的環境(約85%の順守)において良好な性能を示す。 リスク発見行動は、戦略が過度に攻撃的でない限り、エージェントの報酬シェアを増加させる可能性がある。 その結果,貨物輸送市場の完全自動化と分散化の可能性が示唆された。

This paper presents a multi-agent reinforcement learning algorithm to represent strategic bidding behavior in freight transport markets. Using this algorithm, we investigate whether feasible market equilibriums arise without any central control or communication between agents. Studying behavior in such environments may serve as a stepping stone towards self-organizing logistics systems like the Physical Internet. We model an agent-based environment in which a shipper and a carrier actively learn bidding strategies using policy gradient methods, posing bid- and ask prices at the individual container level. Both agents aim to learn the best response given the expected behavior of the opposing agent. A neutral broker allocates jobs based on bid-ask spreads. Our game-theoretical analysis and numerical experiments focus on behavioral insights. To evaluate system performance, we measure adherence to Nash equilibria, fairness of reward division and utilization of transport capacity. We observe good performance both in predictable, deterministic settings (~95% adherence to Nash equilibria) and highly stochastic environments (~85% adherence). Risk-seeking behavior may increase an agent's reward share, as long as the strategies are not overly aggressive. The results suggest a potential for full automation and decentralization of freight transport markets.
翻訳日:2021-02-19 14:17:22 公開日:2021-02-18
# サンプル依存と学習可能なカーネルに基づくドメイン適応学習

Domain Adaptive Learning Based on Sample-Dependent and Learnable Kernels ( http://arxiv.org/abs/2102.09340v1 )

ライセンス: Link先を確認
Xinlong Lu, Zhengming Ma, Yuanping Lin(参考訳) Kernel Hilbert Space(RKHS)は、機械学習におけるさまざまなカーネルメソッドの一般的な数学的プラットフォームである。 カーネル学習の目的は、異なる機械学習シナリオとトレーニングサンプルに従って適切なrkhsを学ぶことである。 RKHSはカーネル関数によって一意に生成されるため、カーネル学習はカーネル関数学習と見なすことができる。 本稿では,SDLK-DAL(Sample-Dep endent and Learnable Kernels)に基づくドメイン適応学習手法を提案する。 我々の研究の最初の貢献は、サンプルに依存して学習可能な正定定値カーネル関数(PDQK)フレームワークを提案することである。 ガウス核関数の指数パラメータや核結合係数の学習とは異なり、提案されたpdqkは正の定値二次関数であり、対称正の半定値行列が機械学習アプリケーションで学習可能な部分である。 第2の貢献は、ドメイン適応学習(dal)にpdqkを適用することだ。 提案手法は,ソースドメインとターゲットドメインのデータ間の平均差を最小化してPDQKを学習し,PDQKが生成する最適化RKHSに変換する。 PDQKによって決定されたRKHSがいくつかの最先端のDALアルゴリズムに取って代わる一連の実験を行い、我々のアプローチはより良いパフォーマンスを実現します。

Reproducing Kernel Hilbert Space (RKHS) is the common mathematical platform for various kernel methods in machine learning. The purpose of kernel learning is to learn an appropriate RKHS according to different machine learning scenarios and training samples. Because RKHS is uniquely generated by the kernel function, kernel learning can be regarded as kernel function learning. This paper proposes a Domain Adaptive Learning method based on Sample-Dependent and Learnable Kernels (SDLK-DAL). The first contribution of our work is to propose a sample-dependent and learnable Positive Definite Quadratic Kernel function (PDQK) framework. Unlike learning the exponential parameter of Gaussian kernel function or the coefficient of kernel combinations, the proposed PDQK is a positive definite quadratic function, in which the symmetric positive semi-definite matrix is the learnable part in machine learning applications. The second contribution lies on that we apply PDQK to Domain Adaptive Learning (DAL). Our approach learns the PDQK through minimizing the mean discrepancy between the data of source domain and target domain and then transforms the data into an optimized RKHS generated by PDQK. We conduct a series of experiments that the RKHS determined by PDQK replaces those in several state-of-the-art DAL algorithms, and our approach achieves better performance.
翻訳日:2021-02-19 14:17:01 公開日:2021-02-18
# ランダムエンコーダによる状態エントロピー最大化による効率的な探索

State Entropy Maximization with Random Encoders for Efficient Exploration ( http://arxiv.org/abs/2102.09430v1 )

ライセンス: Link先を確認
Younggyo Seo, Lili Chen, Jinwoo Shin, Honglak Lee, Pieter Abbeel, Kimin Lee(参考訳) 近年,深層強化学習(rl)におけるサンプル効率向上のための手法が提案されている。 しかし、高次元観測空間での効率的な探索は依然として課題である。 本稿では,本質的な報酬として状態エントロピーを利用する探索手法であるRandom Encoders for Efficient Exploration (RE3)を提案する。 高次元観測環境における状態エントロピーを推定するために、畳み込みエンコーダの低次元表現空間におけるk-アネレス近傍エントロピー推定器を用いる。 特に, 学習中に固定されたランダム初期化エンコーダを利用することにより, 状態エントロピーを安定かつ計算効率良く推定できることがわかった。 実験の結果,RE3 は,DeepMind Control Suite と MiniGrid ベンチマークによるロコモーションおよびナビゲーションタスクにおけるモデルフリーおよびモデルベース RL 手法のサンプル効率を著しく向上することがわかった。 また,re3は,外部報酬を伴わずに多様な動作を学習でき,下流タスクのサンプル効率を効果的に向上できることを示した。 ソースコードとビデオはhttps://sites.google .com/view/re3-rl.com で入手できる。

Recent exploration methods have proven to be a recipe for improving sample-efficiency in deep reinforcement learning (RL). However, efficient exploration in high-dimensional observation spaces still remains a challenge. This paper presents Random Encoders for Efficient Exploration (RE3), an exploration method that utilizes state entropy as an intrinsic reward. In order to estimate state entropy in environments with high-dimensional observations, we utilize a k-nearest neighbor entropy estimator in the low-dimensional representation space of a convolutional encoder. In particular, we find that the state entropy can be estimated in a stable and compute-efficient manner by utilizing a randomly initialized encoder, which is fixed throughout training. Our experiments show that RE3 significantly improves the sample-efficiency of both model-free and model-based RL methods on locomotion and navigation tasks from DeepMind Control Suite and MiniGrid benchmarks. We also show that RE3 allows learning diverse behaviors without extrinsic rewards, effectively improving sample-efficiency in downstream tasks. Source code and videos are available at https://sites.google .com/view/re3-rl.
翻訳日:2021-02-19 14:16:25 公開日:2021-02-18
# 知識ハイパーグラフ埋め込みがリレーショナル代数に会う

Knowledge Hypergraph Embedding Meets Relational Algebra ( http://arxiv.org/abs/2102.09557v1 )

ライセンス: Link先を確認
Bahare Fatemi, Perouz Taslakian, David Vazquez, David Poole(参考訳) 知識ハイパーグラフにおける推論のための埋め込みベース手法は、各エンティティと関係の表現を学ぶ。 現在のメソッドは、グラフ内の関係の基礎となる手続き規則をキャプチャしない。 本稿では,知識ハイパーグラフ(一般化知識グラフ)においてリンク予測を行い,関係代数演算の観点からハイレベルな抽象化を表現できる,realeと呼ばれる単純な埋め込みベースモデルを提案する。 理論上、ReAlEが完全表現的であることを示し、原始的リレーショナル代数演算の大きな部分集合、すなわちリネーム、射影、集合結合、選択、集合差を表現できるという証明と経験的証拠を提供する。 また、reale が知識ハイパーグラフ補完において最先端モデルを上回ることを実験的に検証し、これらの原始関係代数演算のそれぞれを表現する。 後者の実験では,ランダムグラフを生成するためのerdos-r'enyiモデルに基づくアルゴリズムを設計する合成知識ハイパーグラフを生成する。

Embedding-based methods for reasoning in knowledge hypergraphs learn a representation for each entity and relation. Current methods do not capture the procedural rules underlying the relations in the graph. We propose a simple embedding-based model called ReAlE that performs link prediction in knowledge hypergraphs (generalized knowledge graphs) and can represent high-level abstractions in terms of relational algebra operations. We show theoretically that ReAlE is fully expressive and provide proofs and empirical evidence that it can represent a large subset of the primitive relational algebra operations, namely renaming, projection, set union, selection, and set difference. We also verify experimentally that ReAlE outperforms state-of-the-art models in knowledge hypergraph completion, and in representing each of these primitive relational algebra operations. For the latter experiment, we generate a synthetic knowledge hypergraph, for which we design an algorithm based on the Erdos-R'enyi model for generating random graphs.
翻訳日:2021-02-19 14:16:03 公開日:2021-02-18
# iX-BSP:Incremental Belief Space Planning

iX-BSP: Incremental Belief Space Planning ( http://arxiv.org/abs/2102.09539v1 )

ライセンス: Link先を確認
Elad I. Farhi and Vadim Indelman(参考訳) 次に何を決定するのか? ロボット工学と人工知能の根本的な問題です。 信念空間計画(BSP)の下では、部分的に観測可能な環境では、予想される累積された信念に依存した報酬を計算する必要がある。 この一般的な非近似問題の解法はすぐに難解になるので、最先端の手法は計画セッションをゼロから計算しながら近似に切り替える。 本研究は,計画セッション間の計算が本質的に類似しており,適切に再利用できるというキーインサイトに基づいて,新たなパラダイムであるIncremental BSP(iX-BSP)を提案する。 複数重要度サンプリング技術を用いて、事前の計画セッションから選択的な再サンプリングと測定の再使用に期待を段階的に計算します。 本手法の定式化は,データ関連に関する一般的な分布と説明を考察する。 iML-BSPの導入により、iX-BSPが一般的な問題の既存の近似にどのように役立つかを実証します。 両手法を評価し,統計的に精度を保ちながら計算時間を大幅に削減することを示す。 この評価には、自律型ビジョンベースのナビゲーションとSLAMを考慮したシミュレーションと実世界の実験の両方が含まれる。 さらなる貢献として、iX-BSPに非積分的山火事近似を導入し、「十分近い」ときに再使用した信念の更新を回避し、計算性能の精度を取引できるようにする。 我々は,iX-BSPを山火事下で評価し,精度の犠牲を抑えながら計算時間を大幅に短縮した。 また、wildfireが客観的値に対して持つ効果の、分析的および経験的境界も提供する。

Deciding what's next? is a fundamental problem in robotics and Artificial Intelligence. Under belief space planning (BSP), in a partially observable setting, it involves calculating the expected accumulated belief-dependent reward, where the expectation is with respect to all future measurements. Since solving this general un-approximated problem quickly becomes intractable, state of the art approaches turn to approximations while still calculating planning sessions from scratch. In this work we propose a novel paradigm, Incremental BSP (iX-BSP), based on the key insight that calculations across planning sessions are similar in nature and can be appropriately re-used. We calculate the expectation incrementally by utilizing Multiple Importance Sampling techniques for selective re-sampling and re-use of measurement from previous planning sessions. The formulation of our approach considers general distributions and accounts for data association aspects. We demonstrate how iX-BSP could benefit existing approximations of the general problem, introducing iML-BSP, which re-uses calculations across planning sessions under the common Maximum Likelihood assumption. We evaluate both methods and demonstrate a substantial reduction in computation time while statistically preserving accuracy. The evaluation includes both simulation and real-world experiments considering autonomous vision-based navigation and SLAM. As a further contribution, we introduce to iX-BSP the non-integral wildfire approximation, allowing one to trade accuracy for computational performance by averting from updating re-used beliefs when they are "close enough". We evaluate iX-BSP under wildfire demonstrating a substantial reduction in computation time while controlling the accuracy sacrifice. We also provide analytical and empirical bounds of the effect wildfire holds over the objective value.
翻訳日:2021-02-19 14:15:08 公開日:2021-02-18
# ネットワーク自己回帰モデルに対するベイズ変数推論

The Variational Bayesian Inference for Network Autoregression Models ( http://arxiv.org/abs/2102.09232v1 )

ライセンス: Link先を確認
Wei-Ting Lai, Ray-Bing Chen, Ying Chen, Thorsten Koch(参考訳) ネットワーク自動回帰フレームワークにおける大規模動的ネットワークモデルを推定するための変動ベイズ(VB)アプローチを開発している。 VBアプローチはそのようなモデルの動的構造の自動同定を可能にし、後続密度の直接近似を得る。 マルコフ連鎖モンテカルロ(mcmc)ベースのサンプリング手法と比較して、vbアプローチは推定精度を犠牲にすることなく計算効率の向上を実現する。 そこで本研究では,動的ネットワークモデルに対して,様々な種類の固有活性構造を検出するVB手法を提案する。 代替手法と比較して,提案手法の精度は同等かそれ以上であり,計算時間は半減する。 2013年10月から2015年9月までの51ノードを持つドイツのガス伝送ネットワークにおける日頭天然ガス流量予測の実データ分析シナリオにおいて、VBアプローチは動的依存の観点から明確に検出された構造とともに予測精度を期待できる。

We develop a variational Bayesian (VB) approach for estimating large-scale dynamic network models in the network autoregression framework. The VB approach allows for the automatic identification of the dynamic structure of such a model and obtains a direct approximation of the posterior density. Compared to Markov Chain Monte Carlo (MCMC) based sampling approaches, the VB approach achieves enhanced computational efficiency without sacrificing estimation accuracy. In the simulation study conducted here, the proposed VB approach detects various types of proper active structures for dynamic network models. Compared to the alternative approach, the proposed method achieves similar or better accuracy, and its computational time is halved. In a real data analysis scenario of day-ahead natural gas flow prediction in the German gas transmission network with 51 nodes between October 2013 and September 2015, the VB approach delivers promising forecasting accuracy along with clearly detected structures in terms of dynamic dependence.
翻訳日:2021-02-19 14:14:39 公開日:2021-02-18
# 経験的リプレイによるアルゴリズムコリュージョンの理解

Understanding algorithmic collusion with experience replay ( http://arxiv.org/abs/2102.09139v1 )

ライセンス: Link先を確認
Bingyan Han(参考訳) 無限に繰り返される価格ゲームでは、人工知能(q-learning)に基づく価格設定アルゴリズムは、コミュニケーションなしでも常に超競合価格を課金することを学ぶ。 アルゴリズムの共謀に関する懸念は生じたが、根本的な要因についてはほとんど知られていない。 本研究では,3種類の経験再生によるアルゴリズムのダイナミクスを実験的に解析する。 アルゴリズムコリュージョンは依然として人間の好みに根ざしている。 ランダム化経験は静的なベルトランド均衡に近い価格をもたらし、最新の経験を好んで高い価格が容易に回復される。 さらに、相対的なパフォーマンスの懸念も共謀を安定化させる。 最後に, 異種剤によるシナリオの解明と各種因子に対するロバスト性試験を行った。

In an infinitely repeated pricing game, pricing algorithms based on artificial intelligence (Q-learning) may consistently learn to charge supra-competitive prices even without communication. Although concerns on algorithmic collusion have arisen, little is known on underlying factors. In this work, we experimentally analyze the dynamics of algorithms with three variants of experience replay. Algorithmic collusion still has roots in human preferences. Randomizing experience yields prices close to the static Bertrand equilibrium and higher prices are easily restored by favoring the latest experience. Moreover, relative performance concerns also stabilize the collusion. Finally, we investigate the scenarios with heterogeneous agents and test robustness on various factors.
翻訳日:2021-02-19 14:14:23 公開日:2021-02-18
# 野生の時空間顔面効果推定のための遅延機能を組み合わせた拡張型対人ネットワーク

An Enhanced Adversarial Network with Combined Latent Features for Spatio-Temporal Facial Affect Estimation in the Wild ( http://arxiv.org/abs/2102.09150v1 )

ライセンス: Link先を確認
Decky Aspandi, Federico Sukno, Bj\"orn Schuller and Xavier Binefa(参考訳) affective computingは最近、様々な分野に応用されているため、研究コミュニティの注目を集めている。 この文脈において、ビデオベースのデータの出現は、時間的情報を含むことで、広く使用される空間的特徴を豊かにすることができる。 しかし、そのような時空間モデリングは、しばしば非常に高次元の特徴空間と大量のデータをもたらすため、トレーニングは困難で時間がかかります。 本論文では,潜在特徴に基づく時間モデルの強化により,データ空間的特徴と時間的特徴の両方を効率的に抽出する新しいモデルを提案する。 提案モデルは3つの主要ネットワークから成り,造語生成器,判別器,コンビネータを用いて,適応型アテンションモジュールを実現するために,敵対的な学習環境において訓練を行う。 本実験では,AFEW-VAデータセットとSEWAデータセットの競合結果を報告し,時間的モデル化によって定量的・定量的に影響推定値を改善することを示唆した。 さらに,注意機構を取り入れることで,時間的局所化と強度の両面での顔の動きの出現と重みが相関しているため,高い精度の向上がもたらされることが判明した。 最後に,約160\,msのシーケンス長を時間モデルに最適なものとし,類似の長さを利用した他の関連する結果と一致させる。

Affective Computing has recently attracted the attention of the research community, due to its numerous applications in diverse areas. In this context, the emergence of video-based data allows to enrich the widely used spatial features with the inclusion of temporal information. However, such spatio-temporal modelling often results in very high-dimensional feature spaces and large volumes of data, making training difficult and time consuming. This paper addresses these shortcomings by proposing a novel model that efficiently extracts both spatial and temporal features of the data by means of its enhanced temporal modelling based on latent features. Our proposed model consists of three major networks, coined Generator, Discriminator, and Combiner, which are trained in an adversarial setting combined with curriculum learning to enable our adaptive attention modules. In our experiments, we show the effectiveness of our approach by reporting our competitive results on both the AFEW-VA and SEWA datasets, suggesting that temporal modelling improves the affect estimates both in qualitative and quantitative terms. Furthermore, we find that the inclusion of attention mechanisms leads to the highest accuracy improvements, as its weights seem to correlate well with the appearance of facial movements, both in terms of temporal localisation and intensity. Finally, we observe the sequence length of around 160\,ms to be the optimum one for temporal modelling, which is consistent with other relevant findings utilising similar lengths.
翻訳日:2021-02-19 14:14:02 公開日:2021-02-18
# TapNet: 画面外モバイル入力のためのマルチタスク学習CNNの設計、トレーニング、実装、およびアプリケーション

TapNet: The Design, Training, Implementation, and Applications of a Multi-Task Learning CNN for Off-Screen Mobile Input ( http://arxiv.org/abs/2102.09087v1 )

ライセンス: Link先を確認
Michael Xuelin Huang, Yang Li, Nazneen Nazneen, Alexander Chao, Shumin Zhai(参考訳) 特殊なハードウェアを使わずにオフスクリーンインタラクションを実現するため,携帯端末に内蔵されている一般的なIMUセンサ(加速度計,ジャイロスコープ)を片手インタラクションイベントの有用なセットに加工する深層学習手法について検討した。 本稿では,スマートフォンのタップを検出するマルチタスクネットワークであるTapNetの設計,トレーニング,実装,応用について述べる。 電話フォームファクターを補助情報として、TapNetはデバイス間のデータから共同で学習し、タップ方向やタップ位置などの複数のタップ特性を同時に認識する。 135K以上のトレーニングサンプル,38Kテストサンプル,32名の参加者からなる2つのデータセットを開発した。 実験的評価により,tapnetの設計の有効性が実証され,その性能が向上した。 データセット(https://sites.googl e.com/site/michaelxl huang/datasets/tapne t-datasets)と広範な実験に加えて、TapNetはオフスクリーンのモバイル入力のための新しい技術基盤を確立する。

To make off-screen interaction without specialized hardware practical, we investigate using deep learning methods to process the common built-in IMU sensor (accelerometers and gyroscopes) on mobile phones into a useful set of one-handed interaction events. We present the design, training, implementation and applications of TapNet, a multi-task network that detects tapping on the smartphone. With phone form factor as auxiliary information, TapNet can jointly learn from data across devices and simultaneously recognize multiple tap properties, including tap direction and tap location. We developed two datasets consisting of over 135K training samples, 38K testing samples, and 32 participants in total. Experimental evaluation demonstrated the effectiveness of the TapNet design and its significant improvement over the state of the art. Along with the datasets, (https://sites.googl e.com/site/michaelxl huang/datasets/tapne t-dataset), and extensive experiments, TapNet establishes a new technical foundation for off-screen mobile input.
翻訳日:2021-02-19 14:13:22 公開日:2021-02-18
# adom:時間変動ネットワークのための高速化分散最適化手法

ADOM: Accelerated Decentralized Optimization Method for Time-Varying Networks ( http://arxiv.org/abs/2102.09234v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Egor Shulgin, Peter Richt\'arik, Alexander Rogozin, Alexander Gasnikov(参考訳) 本稿では,時間変動ネットワーク上の滑らかかつ強凸分散最適化のための高速化手法である adom を提案する。 ADOMは二重のオラクル、すなわち、個々の損失関数のフェンシェル共役の勾配にアクセスできると仮定する。 ネットワーク構造のみに依存する定数まで、その通信の複雑さは加速ネステロフ勾配法(nesterov, 2003)と同じである。 私たちの知識を最大限に活用するには、Rogozinらのアルゴリズムのみ。 (2019) 同様の性質を持つ収束率を有する。 しかし、それらのアルゴリズムは、ネットワーク変更の数がイテレーション数のごく一部に満たないという非常に限定的な仮定の下で収束する。 この仮定は、ネットワークトポロジの変更が通常制御できないため、実際には満たすのは難しい。 対照的に、ammは単にネットワークを時間を通して接続し続けることを要求する。

We propose ADOM - an accelerated method for smooth and strongly convex decentralized optimization over time-varying networks. ADOM uses a dual oracle, i.e., we assume access to the gradient of the Fenchel conjugate of the individual loss functions. Up to a constant factor, which depends on the network structure only, its communication complexity is the same as that of accelerated Nesterov gradient method (Nesterov, 2003). To the best of our knowledge, only the algorithm of Rogozin et al. (2019) has a convergence rate with similar properties. However, their algorithm converges under the very restrictive assumption that the number of network changes can not be greater than a tiny percentage of the number of iterations. This assumption is hard to satisfy in practice, as the network topology changes usually can not be controlled. In contrast, ADOM merely requires the network to stay connected throughout time.
翻訳日:2021-02-19 14:13:00 公開日:2021-02-18
# Alibabaにおけるディスプレイ広告のトランケーションフリーマッチングシステム

Truncation-Free Matching System for Display Advertising at Alibaba ( http://arxiv.org/abs/2102.09283v1 )

ライセンス: Link先を確認
Jin Li, Jie Liu, Shangzhou Li, Yao Xu, Ran Cao, Qi Li, Biye Jiang, Guan Wang, Han Zhu, Kun Gai, Xiaoqiang Zhu(参考訳) マッチングモジュールはディスプレイ広告システムにおいて重要な役割を果たす。 ユーザーからの問い合わせがなければ、システムがユーザーのトラフィックと広告を適切に一致させることは困難です。 システムは、同じ性別や同様のショッピングの興味などの共通の特性を持つユーザーのグループを群衆にパックします。 ここでは、群衆はユーザーに対するタグと見なすことができる。 そして広告主は、異なる群衆に入札し、ターゲットユーザーに広告を配信する。 ほとんどの産業用ディスプレイ広告システムのマッチングモジュールは、2段階のパラダイムに従います。 ユーザリクエストを受信すると、(i)マッチングシステムは、ユーザが所属する群衆を見つけ出し、(ii)その群衆をターゲットにしたすべての広告を検索する。 しかし、alibabaのディスプレイ広告のようなアプリケーションでは、膨大な数の群衆や広告があるため、両者のマッチングの段階は、遅延が限定された状態で、オンラインサービスのためのロングテール部分を切り離さなければならない。 つまり、全ての広告がオンラインマッチングに参加するチャンスがあるわけではないのです。 これにより、広告パフォーマンスとプラットフォーム収益の両方に最適化された結果が得られます。 本稿では、切り捨て問題について検討し、Truncation Free Matching System (TFMS) を提案する。 基本的なアイデアは、オンラインパイプラインからマッチング計算を分離することです。 TFMSは、ユーザーが訪れた時に2段階のマッチングを実行する代わりに、ほぼ直線的なトランケーションフリーマッチングを使用して、各ユーザーにとって最も価値のある広告を事前計算し保存する。 そして、オンラインパイプラインは、プレストアされた広告をマッチング結果として取り出す必要がある。 このようにして、オンラインシステムのレイテンシと計算コストの制限から抜け出し、柔軟な計算リソースを活用してユーザーアドマッチングを完了することができます。 TFMSは、2019年以降、当社の生産システムに配備されており、(i)減損に遭遇した広告主のインプレッションが50%以上改善され、(ii)収益1マイル当たりの利益が9.4%となり、ビジネスに十分な意味を持つ。

Matching module plays a critical role in display advertising systems. Without query from user, it is challenging for system to match user traffic and ads suitably. System packs up a group of users with common properties such as the same gender or similar shopping interests into a crowd. Here term crowd can be viewed as a tag over users. Then advertisers bid for different crowds and deliver their ads to those targeted users. Matching module in most industrial display advertising systems follows a two-stage paradigm. When receiving a user request, matching system (i) finds the crowds that the user belongs to; (ii) retrieves all ads that have targeted those crowds. However, in applications such as display advertising at Alibaba, with very large volumes of crowds and ads, both stages of matching have to truncate the long-tailed parts for online serving, under limited latency. That's to say, not all ads have the chance to participate in online matching. This results in sub-optimal result for both advertising performance and platform revenue. In this paper, we study the truncation problem and propose a Truncation Free Matching System (TFMS). The basic idea is to decouple the matching computation from the online pipeline. Instead of executing the two-stage matching when user visits, TFMS utilizes a near-line truncation-free matching to pre-calculate and store those top valuable ads for each user. Then the online pipeline just needs to fetch the pre-stored ads as matching results. In this way, we can jump out of online system's latency and computation cost limitations, and leverage flexible computation resource to finish the user-ad matching. TFMS has been deployed in our productive system since 2019, bringing (i) more than 50% improvement of impressions for advertisers who encountered truncation before, (ii) 9.4% Revenue Per Mile gain, which is significant enough for the business.
翻訳日:2021-02-19 14:12:46 公開日:2021-02-18
# 心筋梗塞の予測因子としての24時間心拍変動の正規化sd1とsd2指標の組み合わせの機械学習モデル

A Machine Learning model of the combination of normalized SD1 and SD2 indexes from 24h-Heart Rate Variability as a predictor of myocardial infarction ( http://arxiv.org/abs/2102.09410v1 )

ライセンス: Link先を確認
Antonio Carlos Silva-Filho, Sara Raquel Dutra-Macedo, Adeilson Serra Mendes Vieira and Cristiano Mostarda(参考訳) 目標:マシンラーニング法を用いたMIの予測器としての非線形24HRVの能力を評価する:サンプルは218の患者を2つのグループ(Healthy, n=128; MI n=90)に分けた。 サンプルデータセットはロチェスター大学医療センターのテレメトリック・ホルター心電図倉庫(telemetric and holter electrocardiogram warehouse, thew)データベースの一部である。 最も一般的なMLアルゴリズムを10倍のクロスバリデーション(ブライフ、線形回帰、線形判別分析、k-Nearest Neighbour、ランダムフォレスト、サポートベクターマシン、Na\"ive Bayes、C 5.0、Stochastic Gradient Boosting)の設定と比較した。 結果: SD1nu + SD2nuの組合せは, 他のHRV指標と比較して, MIの予測能力が高いことが明らかとなった。 結論: 非線形HRV指標を用いたMLモデルは, 確率勾配ブースティングモデルの精度良く表現されたMLの適用により, 線形領域よりも有効であることが証明された。 キーワード:心拍変動、機械学習、非線形ドメイン、心血管疾患

Aim: to evaluate the ability of the nonlinear 24-HRV as a predictor of MI using Machine Learning Methods: The sample was composed of 218 patients divided into two groups (Healthy, n=128; MI n=90). The sample dataset is part of the Telemetric and Holter Electrocardiogram Warehouse (THEW) database, from the University of Rochester Medical Center. We used the most common ML algorithms for accuracy comparison with a setting of 10-fold cross-validation (briefly, Linear Regression, Linear Discriminant Analysis, k-Nearest Neighbour, Random Forest, Supporting Vector Machine, Na\"ive Bayes, C 5.0 and Stochastic Gradient Boosting). Results: The main findings of this study show that the combination of SD1nu + SD2nu has greater predictive power for MI in comparison to other HRV indexes. Conclusion: The ML model using nonlinear HRV indexes showed to be more effective than the linear domain, evidenced through the application of ML, represented by a good precision of the Stochastic Gradient Boosting model. Keywords: heart rate variability, machine learning, nonlinear domain, cardiovascular disease
翻訳日:2021-02-19 14:12:06 公開日:2021-02-18
# 確率エンコーダの利点について

On the advantages of stochastic encoders ( http://arxiv.org/abs/2102.09270v1 )

ライセンス: Link先を確認
Lucas Theis and Eirikur Agustsson(参考訳) 確率エンコーダは、処理が容易であるため、レート歪み理論と神経圧縮に使用されています。 しかし、決定論的エンコーダのパフォーマンス比較において、それらはしばしば悪化するので、符号化プロセスのノイズは一般に悪いアイデアである可能性がある。 確率的エンコーダが決定論的エンコーダよりも優れているかどうかはよく理解できない。 本稿では,確率エンコーダが最適な決定論的エンコーダを著しく上回ることを示す例を示す。 我々のおもちゃの例は、確率エンコーダが「完璧な知覚品質」の体制において特に有用である可能性を示唆している。

Stochastic encoders have been used in rate-distortion theory and neural compression because they can be easier to handle. However, in performance comparisons with deterministic encoders they often do worse, suggesting that noise in the encoding process may generally be a bad idea. It is poorly understood if and when stochastic encoders do better than deterministic encoders. In this paper we provide one illustrative example which shows that stochastic encoders can significantly outperform the best deterministic encoders. Our toy example suggests that stochastic encoders may be particularly useful in the regime of "perfect perceptual quality".
翻訳日:2021-02-19 14:11:19 公開日:2021-02-18
# 新型コロナウイルス時代のバイオメトリックス:課題と可能性

Biometrics in the Era of COVID-19: Challenges and Opportunities ( http://arxiv.org/abs/2102.09258v1 )

ライセンス: Link先を確認
Marta Gomez-Barrero, Pawel Drozdowski, Christian Rathgeb, Jose Patino, Massimmiliano Todisco, Andras Nautsch, Naser Damer, Jannis Priesnitz, Nicholas Evans, Christoph Busch(参考訳) 2020年の初めから、新型コロナウイルスのパンデミックは日常生活の多くの側面に大きな影響を与えてきた。 新たな感染率を下げ、国民保健サービスへの圧力を管理するため、世界各地で様々な措置が講じられている。 主な戦略は、リモートワークと教育の優先順位付けを通じて、集まりと伝達の可能性を減らすことである。 手の衛生の向上と顔面マスクの使用は、集会が避けられないときに病原体の拡散を減少させました。 これらの特定の尺度は、例えば、信頼できる生体認証の課題を提示する。 顔、音声、手のバイオメトリックス。 同時に、新しい挑戦は新たな機会と研究の方向性を生み出している。 非拘束性虹彩または眼内認識、タッチレス指紋および静脈ベースの認証、および疾患検出のための生体測定特性の使用への新たな関心。 本稿では、これらの課題と新たな機会に取り組むために行われた研究の概要について述べる。

Since early 2020 the COVID-19 pandemic has had a considerable impact on many aspects of daily life. A range of different measures have been implemented worldwide to reduce the rate of new infections and to manage the pressure on national health services. A primary strategy has been to reduce gatherings and the potential for transmission through the prioritisation of remote working and education. Enhanced hand hygiene and the use of facial masks have decreased the spread of pathogens when gatherings are unavoidable. These particular measures present challenges for reliable biometric recognition, e.g. for facial-, voice- and hand-based biometrics. At the same time, new challenges create new opportunities and research directions, e.g. renewed interest in non-constrained iris or periocular recognition, touch-less fingerprint- and vein-based authentication and the use of biometric characteristics for disease detection. This article presents an overview of the research carried out to address those challenges and emerging opportunities.
翻訳日:2021-02-19 14:11:10 公開日:2021-02-18
# 言語に基づく製品画像検索のための階層的類似性学習

Hierarchical Similarity Learning for Language-based Product Image Retrieval ( http://arxiv.org/abs/2102.09375v1 )

ライセンス: Link先を確認
Zhe Ma, Fenghao Liu, Jianfeng Dong, Xiaoye Qu, Yuan He, Shouling Ji(参考訳) 本稿では,言語に基づく製品画像検索タスクを提案する。 以前の作品の大部分は、ネットワーク構造、類似度測定、損失関数を設計することで大きな進歩を遂げている。 しかし、通常は、画像の固有の複数の粒度に関係なく、ある粒度で視覚テキストマッチングを行う。 本稿では,クロスモーダルな類似度測定に着目し,新しい階層的類似性学習(HSL)ネットワークを提案する。 HSLはまず,重み付きエンコーダによる入力データのマルチレベル表現を学習し,各レベルでオブジェクト・粒度類似度と画像・粒度類似度を算出する。 すべての類似性は、最終的な階層横断類似性として結合される。 大規模製品検索データセットの実験により,提案手法の有効性を実証した。 コードとデータはhttps://github.com/l iufh1/hslで入手できる。

This paper aims for the language-based product image retrieval task. The majority of previous works have made significant progress by designing network structure, similarity measurement, and loss function. However, they typically perform vision-text matching at certain granularity regardless of the intrinsic multiple granularities of images. In this paper, we focus on the cross-modal similarity measurement, and propose a novel Hierarchical Similarity Learning (HSL) network. HSL first learns multi-level representations of input data by stacked encoders, and object-granularity similarity and image-granularity similarity are computed at each level. All the similarities are combined as the final hierarchical cross-modal similarity. Experiments on a large-scale product retrieval dataset demonstrate the effectiveness of our proposed method. Code and data are available at https://github.com/l iufh1/hsl.
翻訳日:2021-02-19 14:10:58 公開日:2021-02-18
# 事前の信念と市場フィードバックによる有界合理的意思決定の最大エントロピーモデル

A maximum entropy model of bounded rational decision-making with prior beliefs and market feedback ( http://arxiv.org/abs/2102.09180v1 )

ライセンス: Link先を確認
Benjamin Patrick Evans, Mikhail Prokopenko(参考訳) 境界有理性は、エージェントが処理能力に制限を課すことがしばしばあり、多くの実タスクに完全有理性の仮定が適用できないという事実から生じる重要な考察である。 スミソニアン競争におけるエージェント決定の推論に対する情報理論的アプローチを提案する。 このモデルは、エージェントの境界性(情報処理能力に制限がある)を、以前の信念を拡張するための情報取得のコストとして明示的に捉えている。 拡張は、後方決定と以前の信念の間のKal Black-Leiblerの分岐として測定される。 情報取得が無料の場合、 \textit{homo economyus} エージェントが回収されますが、情報取得が高価になった場合、エージェントは代わりに以前の信念に戻ります。 最大エントロピー原理は、量子応答統計平衡フレームワーク内で形式化されたスミディアン競争の概念に基づいて、最小偏りの決定を推測するために使用されます。 このような枠組みに先着的信念を組み込むことにより、市場フィードバックの存在下で、先着的信念が意思決定に与える影響を体系的に検討することができました。 オーストラリアの住宅市場データを用いて提案モデルを確認し,先行知識の組み入れがエージェントの決定をどう変えるかを示した。 具体的には、過去の信念とエージェントの実用的最大化行動の分離(および分析)を可能にした。

Bounded rationality is an important consideration stemming from the fact that agents often have limits on their processing abilities, making the assumption of perfect rationality inapplicable to many real tasks. We propose an information-theoreti c approach to the inference of agent decisions under Smithian competition. The model explicitly captures the boundedness of agents (limited in their information-processi ng capacity) as the cost of information acquisition for expanding their prior beliefs. The expansion is measured as the Kullblack-Leibler divergence between posterior decisions and prior beliefs. When information acquisition is free, the \textit{homo economicus} agent is recovered, while in cases when information acquisition becomes costly, agents instead revert to their prior beliefs. The maximum entropy principle is used to infer least-biased decisions, based upon the notion of Smithian competition formalised within the Quantal Response Statistical Equilibrium framework. The incorporation of prior beliefs into such a framework allowed us to systematically explore the effects of prior beliefs on decision-making, in the presence of market feedback. We verified the proposed model using Australian housing market data, showing how the incorporation of prior knowledge alters the resulting agent decisions. Specifically, it allowed for the separation (and analysis) of past beliefs and utility maximisation behaviour of the agent.
翻訳日:2021-02-19 14:10:46 公開日:2021-02-18
# 安全模倣学習における閉ループ分布シフトの閉鎖

Closing the Closed-Loop Distribution Shift in Safe Imitation Learning ( http://arxiv.org/abs/2102.09161v1 )

ライセンス: Link先を確認
Stephen Tu and Alexander Robey and Nikolai Matni(参考訳) モデル予測や制御のような最適化に基づく制御戦略は、しばしば証明可能な安定性、堅牢性、安全性を享受する。 しかし、そのような手法を実装するには、リソース制約のあるコモディティハードウェアでは不可能な、高頻度でオンライン最適化問題を解く必要がある。 さらに、カメラなどのリッチな知覚センシング方式を使用するシステムに対して、このようなアプローチの安全性保証を拡張する方法は不明である。 本稿では、模倣学習問題において、安全最適化に基づく制御戦略を専門家として扱い、実行時に安価に評価でき、専門家と同じ安全性保証を確実に満足する学習方針を訓練することで、このギャップに対処する。 特に,確率的混合反復学習,制約付きポリシー最適化,非線形ロバスト制御からアイデアを融合した,新しいオンポリシーロバストな模倣学習アルゴリズムである制約付き混合反復学習(cmile)を提案する。 提案手法では,専門家を模倣する学習課題と,元々の専門家方針から逸脱した分布シフトの両方によってもたらされる誤りを制御できる。 非線形ロバスト制御から学習ポリシーに安定性制約を課すためのツールの使用価値は,タスク時間ホライゾンに依存しないサンプル複雑境界によって示される。 我々は,状態フィードバック型エキスパートを用いて,確実に安全な知覚ベースのコントローラをトレーニングすることを含む,広範囲な実験を通じてcmileの有用性を示す。

Commonly used optimization-based control strategies such as model-predictive and control Lyapunov/barrier function based controllers often enjoy provable stability, robustness, and safety properties. However, implementing such approaches requires solving optimization problems online at high-frequencies, which may not be possible on resource-constrained commodity hardware. Furthermore, how to extend the safety guarantees of such approaches to systems that use rich perceptual sensing modalities, such as cameras, remains unclear. In this paper, we address this gap by treating safe optimization-based control strategies as experts in an imitation learning problem, and train a learned policy that can be cheaply evaluated at run-time and that provably satisfies the same safety guarantees as the expert. In particular, we propose Constrained Mixing Iterative Learning (CMILe), a novel on-policy robust imitation learning algorithm that integrates ideas from stochastic mixing iterative learning, constrained policy optimization, and nonlinear robust control. Our approach allows us to control errors introduced by both the learning task of imitating an expert and by the distribution shift inherent to deviating from the original expert policy. The value of using tools from nonlinear robust control to impose stability constraints on learned policies is shown through sample-complexity bounds that are independent of the task time-horizon. We demonstrate the usefulness of CMILe through extensive experiments, including training a provably safe perception-based controller using a state-feedback-based expert.
翻訳日:2021-02-19 14:08:57 公開日:2021-02-18
# クラウドソーシングシステムに対するデータ中毒攻撃と防御

Data Poisoning Attacks and Defenses to Crowdsourcing Systems ( http://arxiv.org/abs/2102.09171v1 )

ライセンス: Link先を確認
Minghong Fang, Minghao Sun, Qi Li, Neil Zhenqiang Gong, Jin Tian, Jia Liu(参考訳) ビッグデータ分析の重要な課題は、大量の(ラベル付き)データを収集する方法だ。 クラウドソーシングは、広汎なクライアント/ユーザから高品質なデータ(テキストの感情ラベルなど)を集約し、推定することで、この問題に対処しようとしている。 クラウドソーシングに関する既存の研究は、信頼できない、騒々しいクライアントから集約されたデータ品質を改善する新しい方法の設計に焦点を当てています。 しかし、そのようなクラウドソーシングシステムのセキュリティ面は、現在まで未調査のままです。 私たちはこの仕事のギャップを埋めることを目指している。 具体的には、クラウドソーシングがデータ中毒の攻撃に対して脆弱であることを示し、悪意のあるクライアントはデータを慎重に作成して集約したデータを破損させる。 提案するデータ中毒攻撃を,集約データの誤差を最大化する最適化問題として定式化する。 1つの合成および2つの実世界のベンチマークデータセットの評価結果は、提案された攻撃が集計データの推定誤差を大幅に増加させることができることを示しています。 また,悪意のあるクライアントの影響を減らすための2つの防御策を提案する。 実験の結果,提案手法はデータ中毒攻撃の推定誤差を大幅に低減できることがわかった。

A key challenge of big data analytics is how to collect a large volume of (labeled) data. Crowdsourcing aims to address this challenge via aggregating and estimating high-quality data (e.g., sentiment label for text) from pervasive clients/users. Existing studies on crowdsourcing focus on designing new methods to improve the aggregated data quality from unreliable/noisy clients. However, the security aspects of such crowdsourcing systems remain under-explored to date. We aim to bridge this gap in this work. Specifically, we show that crowdsourcing is vulnerable to data poisoning attacks, in which malicious clients provide carefully crafted data to corrupt the aggregated data. We formulate our proposed data poisoning attacks as an optimization problem that maximizes the error of the aggregated data. Our evaluation results on one synthetic and two real-world benchmark datasets demonstrate that the proposed attacks can substantially increase the estimation errors of the aggregated data. We also propose two defenses to reduce the impact of malicious clients. Our empirical results show that the proposed defenses can substantially reduce the estimation errors of the data poisoning attacks.
翻訳日:2021-02-19 14:08:32 公開日:2021-02-18
# DeepMuD: 深層学習による無許可NOMAIoTネットワークのマルチユーザ検出

DeepMuD: Multi-user Detection for Uplink Grant-Free NOMA IoT Networks via Deep Learning ( http://arxiv.org/abs/2102.09196v1 )

ライセンス: Link先を確認
Ahmet Emir, Ferdi Kara, Hakan Kaya, Halim Yanikomeroglu(参考訳) 本稿では,オフライン学習型長期短期記憶(lstm)ベースのネットワークをマルチユーザ検出に使用する大規模マシン型通信の強化を目的として,uplink非orthogonal multi access(noma)におけるディープラーニング支援マルチユーザ検出(deepmud)を提案する。 提案したDeepMuDでは,パイロット対フレーム比が極めて低い場合に,パイロット応答との結合チャネル推定とマルチユーザ検出を行うことができるため,完全チャネル状態情報(CSI)も不要である。 提案したDeepMuDは、アップリンクNOMAの誤差性能を著しく改善し、従来の検出器(完全なCSIでも)より優れている。 さらに、IoT(Internet of Things, モノのインターネット)デバイスの数が増加するにつれて、この増加は加速する。 さらに,提案するdeepmudは柔軟な検出が可能であり,iotデバイス数にかかわらず,マルチユーザ検出を行うことができる。 これにより、任意の数のIoTデバイスを信号オーバーヘッドなしで提供でき、許可なしの通信が可能になります。

In this letter, we propose a deep learning-aided multi-user detection (DeepMuD) in uplink non-orthogonal multiple access (NOMA) to empower the massive machine-type communication where an offline-trained Long Short-Term Memory (LSTM)-based network is used for multi-user detection. In the proposed DeepMuD, a perfect channel state information (CSI) is also not required since it is able to perform a joint channel estimation and multi-user detection with the pilot responses, where the pilot-to-frame ratio is very low. The proposed DeepMuD improves the error performance of the uplink NOMA significantly and outperforms the conventional detectors (even with perfect CSI). Moreover, this gain becomes superb with the increase in the number of Internet of Things (IoT) devices. Furthermore, the proposed DeepMuD has a flexible detection and regardless of the number of IoT devices, the multi-user detection can be performed. Thus, an arbitrary number of IoT devices can be served without a signaling overhead, which enables the grant-free communication.
翻訳日:2021-02-19 14:08:13 公開日:2021-02-18
# therapeutics data commons: 機械学習データセットと治療のためのタスク

Therapeutics Data Commons: Machine Learning Datasets and Tasks for Therapeutics ( http://arxiv.org/abs/2102.09548v1 )

ライセンス: Link先を確認
Kexin Huang, Tianfan Fu, Wenhao Gao, Yue Zhao, Yusuf Roohani, Jure Leskovec, Connor W. Coley, Cao Xiao, Jimeng Sun, Marinka Zitnik(参考訳) 治療のための機械学習は、イノベーションと拡張の素晴らしい機会を持つ新興分野だ。 最初の成功にもかかわらず、多くの重要な課題はオープンのままです。 本稿では,治療全般にわたって機械学習を体系的にアクセスし,評価する最初の統一フレームワークである therapeutics data commons (tdc) を紹介する。 TDCは、アルゴリズムの革新をバイオメディカルおよび臨床実装に翻訳できる、キュレートされたデータセットと学習タスクのコレクションです。 現在までに、tdcは安全で効果的な医薬品の発見と開発にまたがる22の学習タスクから66の機械学習対応データセットを含んでいる。 tdcはまた、データ機能、体系的モデル評価のための戦略、有意義なデータ分割、データプロセッサ、分子生成オラクルを含む、ツール、ライブラリ、リーダーボード、コミュニティリソースのエコシステムを提供する。 すべてのデータセットと学習タスクは、オープンソースライブラリを通じて統合され、アクセスできます。 TDCは、アルゴリズムと科学的進歩を促進し、開発、検証、および生産および臨床実装への移行を加速することができると考えています。 TDCは、継続的なオープンソースイニシアチブであり、研究コミュニティからの貢献を招待します。 TDCはhttps://tdcommons.ai .comで公開されている。

Machine learning for therapeutics is an emerging field with incredible opportunities for innovation and expansion. Despite the initial success, many key challenges remain open. Here, we introduce Therapeutics Data Commons (TDC), the first unifying framework to systematically access and evaluate machine learning across the entire range of therapeutics. At its core, TDC is a collection of curated datasets and learning tasks that can translate algorithmic innovation into biomedical and clinical implementation. To date, TDC includes 66 machine learning-ready datasets from 22 learning tasks, spanning the discovery and development of safe and effective medicines. TDC also provides an ecosystem of tools, libraries, leaderboards, and community resources, including data functions, strategies for systematic model evaluation, meaningful data splits, data processors, and molecule generation oracles. All datasets and learning tasks are integrated and accessible via an open-source library. We envision that TDC can facilitate algorithmic and scientific advances and accelerate development, validation, and transition into production and clinical implementation. TDC is a continuous, open-source initiative, and we invite contributions from the research community. TDC is publicly available at https://tdcommons.ai .
翻訳日:2021-02-19 14:07:53 公開日:2021-02-18
# 量子場理論機械学習

Quantum field-theoretic machine learning ( http://arxiv.org/abs/2102.09449v1 )

ライセンス: Link先を確認
Dimitrios Bachtis, Gert Aarts, Biagio Lucini(参考訳) 量子場理論で記述されたダイナミクス内で推論と学習を可能にする、離散ユークリッド場の理論から機械学習アルゴリズムを導出する。 具体的には、$\phi^{4}$スカラー場理論がハマーズリー・クリフォードの定理を満たすことを証明し、マルコフ確率場の数学的に厳密な枠組みの中で機械学習アルゴリズムとして再キャストする。 確率分布の確率分布と対象分布との非対称距離を最小化し、確率分布間の統計的アンサンブルの重なりを定量化し、より長い距離の相互作用を持つ複素値の作用に重み付けすることで、概念を説明する。 ニューラルネットワークアーキテクチャは、従来のニューラルネットワークの一般化として見ることができる$\phi^{4}$理論から派生し、アプリケーションを提示する。 この提案が量子場理論における機械学習の数学的および計算的枠組みを開発する新しい研究道を開く方法を議論することによって結論づける。

We derive machine learning algorithms from discretized Euclidean field theories, making inference and learning possible within dynamics described by quantum field theory. Specifically, we demonstrate that the $\phi^{4}$ scalar field theory satisfies the Hammersley-Clifford theorem, therefore recasting it as a machine learning algorithm within the mathematically rigorous framework of Markov random fields. We illustrate the concepts by minimizing an asymmetric distance between the probability distribution of the $\phi^{4}$ theory and that of target distributions, by quantifying the overlap of statistical ensembles between probability distributions and through reweighting to complex-valued actions with longer-range interactions. Neural networks architectures are additionally derived from the $\phi^{4}$ theory which can be viewed as generalizations of conventional neural networks and applications are presented. We conclude by discussing how the proposal opens up a new research avenue, that of developing a mathematical and computational framework of machine learning within quantum field theory.
翻訳日:2021-02-19 14:07:35 公開日:2021-02-18
# ネットワーク型マルチエージェントシステムにおける線形解法最適制御のための分散アルゴリズム

Distributed Algorithms for Linearly-Solvable Optimal Control in Networked Multi-Agent Systems ( http://arxiv.org/abs/2102.09104v1 )

ライセンス: Link先を確認
Neng Wan, Aditya Gahlawat, Naira Hovakimyan, Evangelos A. Theodorou, Petros G. Voulgaris(参考訳) 本稿では,ネットワーク型マルチエージェントシステム(MAS)の離散時間および連続時間線形可解最適制御(LSOC)問題に対する分散アルゴリズムについて検討する。 分散フレームワークは、ネットワーク化されたMASの最適制御問題を、各(中央)エージェントが中央エージェントとその周辺エージェントからなるサブシステムの結合コスト関数を最小限に抑えるために最適に振る舞うように、要因的サブシステム内の複数の局所的最適制御問題に分割するために提案され、局所制御行動(政治)は局所観測の知識にのみ依存する。 この枠組みでは,隣接エージェント間の相関を保存できるだけでなく,ネットワーク上のサンプリング処理と計算処理を分散することで通信と計算の複雑さを緩和する。 マルコフ決定過程によってモデル化された離散時間系では、各サブシステムのジョイントベルマン方程式は線形方程式系に変換され、並列プログラミングを用いて解かれる。 It\^o拡散過程をモデルとした連続時間系では、各サブシステムの共同最適度方程式が線形偏微分方程式に変換され、その解はそれぞれパス積分公式とサンプル効率の相対的エントロピー政策探索アルゴリズムによって近似される。 学習された制御方針は構成性原理に依拠して未学習の課題を解決するために一般化され、これらのアルゴリズムの有効性と利点を検証するために協調uavチームの例が提供されている。

Distributed algorithms for both discrete-time and continuous-time linearly solvable optimal control (LSOC) problems of networked multi-agent systems (MASs) are investigated in this paper. A distributed framework is proposed to partition the optimal control problem of a networked MAS into several local optimal control problems in factorial subsystems, such that each (central) agent behaves optimally to minimize the joint cost function of a subsystem that comprises a central agent and its neighboring agents, and the local control actions (policies) only rely on the knowledge of local observations. Under this framework, we not only preserve the correlations between neighboring agents, but moderate the communication and computational complexities by decentralizing the sampling and computational processes over the network. For discrete-time systems modeled by Markov decision processes, the joint Bellman equation of each subsystem is transformed into a system of linear equations and solved using parallel programming. For continuous-time systems modeled by It\^o diffusion processes, the joint optimality equation of each subsystem is converted into a linear partial differential equation, whose solution is approximated by a path integral formulation and a sample-efficient relative entropy policy search algorithm, respectively. The learned control policies are generalized to solve the unlearned tasks by resorting to the compositionality principle, and illustrative examples of cooperative UAV teams are provided to verify the effectiveness and advantages of these algorithms.
翻訳日:2021-02-19 14:07:18 公開日:2021-02-18
# (参考訳) Cross-SEAN:COVID-19フェイクニュース検出のためのクロススタイル半スーパービジョンニューラルアテンションモデル

Cross-SEAN: A Cross-Stitch Semi-Supervised Neural Attention Model for COVID-19 Fake News Detection ( http://arxiv.org/abs/2102.08924v2 )

ライセンス: CC BY 4.0
William Scott Paka, Rachit Bansal, Abhay Kaushik, Shubhashis Sengupta, Tanmoy Chakraborty(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中に広がる中、偽ニュースやソーシャルメディアの誤報が相次いだ。 公衆衛生と安全に信頼できる情報が不可欠である現在、新型コロナウイルス関連の偽ニュースは事実よりも急速に広まっている。 新型コロナウイルスのパンデミックなどの間、フェイクニュースは知的混乱を引き起こすだけでなく、人々の命を危険にさらす可能性があります。 これにより、ソーシャルメディア上での誤報の拡散を即時に取り込む必要がある。 偽ツイートと偽ツイートをラベル付けした最初のcovid-19twitterフェイクニュースデータセットであるctfを紹介します。 また、多量の不整合データを活用したクロスステッチベースのセミスーパーバイザーエンドツーエンドの神経注意モデルCross-SEANを提案する。 cross-seanは、外部の知識から学ぶフェイクニュースを部分的に一般化する。 クロスセブンと偽ニュース検出手法を比較検討した。 我々は、CTFで0.95$ F1スコアを達成し、最高のベースラインを$ 9\%$で上回ることを観察する。 また,偽ツイートをリアルタイムに検出するクロスseanベースのchromeエクステンションであるchrome-seanも開発した。

As the COVID-19 pandemic sweeps across the world, it has been accompanied by a tsunami of fake news and misinformation on social media. At the time when reliable information is vital for public health and safety, COVID-19 related fake news has been spreading even faster than the facts. During times such as the COVID-19 pandemic, fake news can not only cause intellectual confusion but can also place lives of people at risk. This calls for an immediate need to contain the spread of such misinformation on social media. We introduce CTF, the first COVID-19 Twitter fake news dataset with labeled genuine and fake tweets. Additionally, we propose Cross-SEAN, a cross-stitch based semi-supervised end-to-end neural attention model, which leverages the large amount of unlabelled data. Cross-SEAN partially generalises to emerging fake news as it learns from relevant external knowledge. We compare Cross-SEAN with seven state-of-the-art fake news detection methods. We observe that it achieves $0.95$ F1 Score on CTF, outperforming the best baseline by $9\%$. We also develop Chrome-SEAN, a Cross-SEAN based chrome extension for real-time detection of fake tweets.
翻訳日:2021-02-19 12:01:44 公開日:2021-02-18
# (参考訳) StatEcoNet: 種分布モデルのための統計生態ニューラルネットワーク

StatEcoNet: Statistical Ecology Neural Networks for Species Distribution Modeling ( http://arxiv.org/abs/2102.08534v2 )

ライセンス: CC BY 4.0
Eugene Seo, Rebecca A. Hutchinson, Xiao Fu, Chelsea Li, Tyler A. Hallman, John Kilbride, W. Douglas Robinson(参考訳) 本稿では、計算持続可能性と統計生態学のコアタスクである種分布モデリング(SDM)に焦点を当てる。 SDMでは、景観上の種の発生パターンは、一連の場所における観察に基づいて環境特性によって予測される。 最初は、SDMはバイナリ分類の問題であるように見え、それに取り組むために古典的なツール(例えば、ロジスティック回帰、サポートベクターマシン、ニューラルネットワーク)を採用する傾向があります。 しかし、野生動物調査は、種の観察に構造化ノイズ(特にアンダーカウント)を導入します。 これらの観測誤差はSDMを体系的にバイアスする。 本稿では,SDMのユニークな課題を解決するため,StatEcoNetというフレームワークを提案する。 具体的には、統計生態学におけるグラフィカルな生成モデルを用いて、提案した計算フレームワークの骨格として機能し、ニューラルネットワークを慎重に統合する。 関連するアプローチに対するstateconetの利点は、鳥種データと同様にシミュレーションデータセット上で実証されている。 SDMは生態学と天然資源管理にとって重要なツールであるため、StatEcoNetは、脅威のある種の研究と保全など、社会的に重大な影響を与える幅広いアプリケーションに、計算および分析能力の増強を提供する可能性がある。

This paper focuses on a core task in computational sustainability and statistical ecology: species distribution modeling (SDM). In SDM, the occurrence pattern of a species on a landscape is predicted by environmental features based on observations at a set of locations. At first, SDM may appear to be a binary classification problem, and one might be inclined to employ classic tools (e.g., logistic regression, support vector machines, neural networks) to tackle it. However, wildlife surveys introduce structured noise (especially under-counting) in the species observations. If unaccounted for, these observation errors systematically bias SDMs. To address the unique challenges of SDM, this paper proposes a framework called StatEcoNet. Specifically, this work employs a graphical generative model in statistical ecology to serve as the skeleton of the proposed computational framework and carefully integrates neural networks under the framework. The advantages of StatEcoNet over related approaches are demonstrated on simulated datasets as well as bird species data. Since SDMs are critical tools for ecological science and natural resource management, StatEcoNet may offer boosted computational and analytical powers to a wide range of applications that have significant social impacts, e.g., the study and conservation of threatened species.
翻訳日:2021-02-19 12:00:52 公開日:2021-02-18
# 仮説テストの敵対者に対するアクティブプライバシユーティリティトレードオフ

Active Privacy-utility Trade-off Against a Hypothesis Testing Adversary ( http://arxiv.org/abs/2102.08308v2 )

ライセンス: Link先を確認
Ecenaz Erdemir and Pier Luigi Dragotti and Deniz Gunduz(参考訳) 利用者は、サービス見返りにいくつかの個人情報を含むデータを公開する。 我々は,ユーザの個人情報を2つの相関確率変数としてモデル化し,そのうちの1つは秘密変数と呼ばれ,もう1つは有用変数と呼ばれ,実用のために開示される。 アクティブシーケンシャルデータリリース(Active sequence data release)を検討し、各ステップにおいて、ユーザーは有限なリリースメカニズムの中から選択し、それぞれがユーザーの個人情報、すなわち真の仮説に関する情報を異なる統計で明らかにする。 ユーザは、潜在有用な変数に関する情報の最大量を開示し、感度の高い変数に対する信頼度を予め定義されたレベル以下に保たれるように、オンライン形式でデータリリースを管理する。 本研究では,有用変数を正しく検出する確率と,有用変数と解放されたデータとの間の相互情報(MI)について考察する。 両方の問題をマルコフ決定プロセス(MDP)として定式化し、アドバンテージアクタークリティカル(A2C)深層強化学習(RL)により数値的に解く。

We consider a user releasing her data containing some personal information in return of a service. We model user's personal information as two correlated random variables, one of them, called the secret variable, is to be kept private, while the other, called the useful variable, is to be disclosed for utility. We consider active sequential data release, where at each time step the user chooses from among a finite set of release mechanisms, each revealing some information about the user's personal information, i.e., the true hypotheses, albeit with different statistics. The user manages data release in an online fashion such that maximum amount of information is revealed about the latent useful variable, while the confidence for the sensitive variable is kept below a predefined level. For the utility, we consider both the probability of correct detection of the useful variable and the mutual information (MI) between the useful variable and released data. We formulate both problems as a Markov decision process (MDP), and numerically solve them by advantage actor-critic (A2C) deep reinforcement learning (RL).
翻訳日:2021-02-19 11:58:44 公開日:2021-02-18
# Hough2Map -- 高速鉄道マッピングのための反復イベントベースのHough変換

Hough2Map -- Iterative Event-based Hough Transform for High-Speed Railway Mapping ( http://arxiv.org/abs/2102.08145v2 )

ライセンス: Link先を確認
Florian Tschopp, Cornelius von Einem, Andrei Cramariuc, David Hug, Andrew William Palmer, Roland Siegwart, Margarita Chli, Juan Nieto(参考訳) 鉄道網における輸送需要の増加に対応するためには、既存の鉄道インフラの安全かつ効率的な利用を可能にするため、正確で堅牢で高周波な位置決めが必要である。 ローカライズシステムの基盤として,車両近傍の電力線からの極など,堅牢な有意義なランドマークをマッピング可能な,完全なオンボードマッピングパイプラインを提案する。 このような極地は、厳しい気象条件や季節変化によっても、信頼性と長期のランドマークのよい候補である。 鉄道シナリオにおける動きのぼかしと照明変化の課題に対処するために,新しいイベントベースカメラであるダイナミックビジョンセンサーを採用した。 横向きのオンボードカメラを使用して、ポールは垂直線として現れる。 このような行をリアルタイムイベントストリームにマップするために,近接構造の検出,追跡,三角化が可能な,新たな連続イベントベースのhough変換フレームワークであるhough2mapを紹介する。 Hough2Mapの実際のデータへのマッピングの信頼性と精度を典型的な使用シナリオで実証し、調査されたインフラストラクチャーの地上真理マップを使用して評価します。 Hough2Mapは最大92%の検出信頼性と1.1518mのマッピングルート平均平方誤差精度を実現します。

To cope with the growing demand for transportation on the railway system, accurate, robust, and high-frequency positioning is required to enable a safe and efficient utilization of the existing railway infrastructure. As a basis for a localization system we propose a complete on-board mapping pipeline able to map robust meaningful landmarks, such as poles from power lines, in the vicinity of the vehicle. Such poles are good candidates for reliable and long term landmarks even through difficult weather conditions or seasonal changes. To address the challenges of motion blur and illumination changes in railway scenarios we employ a Dynamic Vision Sensor, a novel event-based camera. Using a sideways oriented on-board camera, poles appear as vertical lines. To map such lines in a real-time event stream, we introduce Hough2Map, a novel consecutive iterative event-based Hough transform framework capable of detecting, tracking, and triangulating close-by structures. We demonstrate the mapping reliability and accuracy of Hough2Map on real-world data in typical usage scenarios and evaluate using surveyed infrastructure ground truth maps. Hough2Map achieves a detection reliability of up to 92% and a mapping root mean square error accuracy of 1.1518m.
翻訳日:2021-02-19 11:58:25 公開日:2021-02-18
# 機械学習によるバイオリントッププレートのパラメトリック最適化

Parametric Optimization of Violin Top Plates using Machine Learning ( http://arxiv.org/abs/2102.07133v2 )

ライセンス: Link先を確認
Davide Salvi, Sebastian Gonzalez, Fabio Antonacci, Augusto Sarti(参考訳) 我々は最近,バイオリントッププレートを定義する幾何学的パラメータと機械的パラメータを入力として受け取り,自由境界条件で計算した最初の10個の固有周波数を出力するニューラルネットワークを開発した。 本稿では、バイオリントッププレートの固有スペクトル問題とそのジオメトリの関係を解析することを目的に、ネットワークを用いて複数の誤差関数を最適化する。 まず、バイオリンの輪郭に焦点を合わせます。 振動の特徴を考えると、我々はそれを得るためにプレートの最高のジオメトリを見つける。 第2に, 振動の観点からは, 厚み分布において輪郭形状の変化を1つずつ補正できるか, その逆について検討する。 最後に、材料特性が異なるため、バイオリンの形状を変更して応答を一定に保つ方法を分析します。 これは、人工知能がまだ広く使われていない音楽音響学の原型技術である。 これにより、楽器の振動挙動を幾何学から計算し、その形状を所定の応答に最適化することができる。 さらに、この方法はヴァイオリン製作者にとって大きな助けとなり、構築するヴァイオリンの幾何学的変化の影響を容易に理解し、最も関連性の高いものの一つに光を遮ると同時に、楽器の製作過程のあまり理解されていない側面も理解することができる。

We recently developed a neural network that receives as input the geometrical and mechanical parameters that define a violin top plate and gives as output its first ten eigenfrequencies computed in free boundary conditions. In this manuscript, we use the network to optimize several error functions, with the goal of analyzing the relationship between the eigenspectrum problem for violin top plates and their geometry. First, we focus on the violin outline. Given a vibratory feature, we find which is the best geometry of the plate to obtain it. Second, we investigate whether, from the vibrational point of view, a change in the outline shape can be compensated by one in the thickness distribution and vice versa. Finally, we analyze how to modify the violin shape to keep its response constant as its material properties vary. This is an original technique in musical acoustics, where artificial intelligence is not widely used yet. It allows us to both compute the vibrational behavior of an instrument from its geometry and optimize its shape for a given response. Furthermore, this method can be of great help to violin makers, who can thus easily understand the effects of the geometry changes in the violins they build, shedding light on one of the most relevant and, at the same time, less understood aspects of the construction process of musical instruments.
翻訳日:2021-02-19 11:58:05 公開日:2021-02-18
# 暗黙的深層学習の理論--暗黙的層を用いた大域的収束

On the Theory of Implicit Deep Learning: Global Convergence with Implicit Layers ( http://arxiv.org/abs/2102.07346v2 )

ライセンス: Link先を確認
Kenji Kawaguchi(参考訳) 深い平衡モデルは暗黙の層を使い、無限の計算列の平衡点を通して暗黙的に定義される。 これは、ルートフィンディングによって直接平衡点を見つけ、暗黙の微分を通じて勾配を計算することによって無限列の明示的な計算を避ける。 本稿では,重み行列と重みの非凸目的関数のみに非線形性をもつ深部平衡モデルの勾配ダイナミクスを回帰と分類のために解析する。 非凸性にもかかわらず、線形速度で最適なグローバルへの収束は、モデルの幅を前提にすることなく保証され、幅は出力寸法とデータポイントの数よりも小さくなります。 さらに,深い暗黙層の勾配ダイナミクスと浅い明示層の信頼領域ニュートン法のダイナミクスとの関係を証明した。 この数学的に証明された関係と数値的観察は、暗黙の層の暗黙のバイアスを理解することの重要性を示唆し、トピックに関するオープンな問題である。 我々の証明は、暗黙の層、重み付け、およびウェイト上の非線形性を扱うもので、関連する文献と異なる。

A deep equilibrium model uses implicit layers, which are implicitly defined through an equilibrium point of an infinite sequence of computation. It avoids any explicit computation of the infinite sequence by finding an equilibrium point directly via root-finding and by computing gradients via implicit differentiation. In this paper, we analyze the gradient dynamics of deep equilibrium models with nonlinearity only on weight matrices and non-convex objective functions of weights for regression and classification. Despite non-convexity, convergence to global optimum at a linear rate is guaranteed without any assumption on the width of the models, allowing the width to be smaller than the output dimension and the number of data points. Moreover, we prove a relation between the gradient dynamics of the deep implicit layer and the dynamics of trust region Newton method of a shallow explicit layer. This mathematically proven relation along with our numerical observation suggests the importance of understanding implicit bias of implicit layers and an open problem on the topic. Our proofs deal with implicit layers, weight tying and nonlinearity on weights, and differ from those in the related literature.
翻訳日:2021-02-19 11:57:43 公開日:2021-02-18