このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201221となっている論文です。

PDF登録状況(公開日: 20201221)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) クロスモーダル検索と合成(X-MRS):共有部分空間におけるモダリティギャップを閉鎖する [全文訳有]

Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in shared subspace ( http://arxiv.org/abs/2012.01345v2 )

ライセンス: CC BY 4.0
Ricardo Guerrero, Hai Xuan Pham and Vladimir Pavlovic(参考訳) 食品の理解を自動化するための幅広い手法である計算食品分析(CFA)は、自然に特定の食品や料理のマルチモーダルな証拠の分析を必要とする。 画像、レシピテキスト、準備ビデオ、栄養ラベルなど。 CFAを実現するための鍵はマルチモーダル共有部分空間学習であり、これは、特に食品画像とその対応するテキストレシピ間の相互モーダル検索および/または合成に使用できる。 本研究では,食品画像からレシピへの検索問題に取り組むために使用される,共有部分空間学習のための単純かつ斬新なアーキテクチャを提案する。 提案手法は,従来の画像埋め込みアーキテクチャと組み合わせた,効率的なトランスフォーマーベースの多言語レシピエンコーダを用いる。 一般向けRecipe1Mデータセットの実験的分析から,提案手法を用いて学習したサブスペースは,食品検索における現状(SoTA)を大きなマージンで上回り,リコール@1の0。 さらに,学習された部分空間の表現力を示すために,レシピの埋め込みを条件とした生成的食品画像合成モデルを提案する。 合成画像は、ペア化されたサンプルの視覚的外観を効果的に再現することができ、画像からレシピ検索実験において0.68のR@1を達成することにより、テキストレシピのセマンティクスを効果的に取得することができる。

Computational food analysis (CFA), a broad set of methods that attempt to automate food understanding, naturally requires analysis of multi-modal evidence of a particular food or dish, e.g. images, recipe text, preparation video, nutrition labels, etc. A key to making CFA possible is multi-modal shared subspace learning, which in turn can be used for cross-modal retrieval and/or synthesis, particularly, between food images and their corresponding textual recipes. In this work we propose a simple yet novel architecture for shared subspace learning, which is used to tackle the food image-to-recipe retrieval problem. Our proposed method employs an effective transformer based multilingual recipe encoder coupled with a traditional image embedding architecture. Experimental analysis on the public Recipe1M dataset shows that the subspace learned via the proposed method outperforms the current state-of-the-arts (SoTA) in food retrieval by a large margin, obtaining recall@1 of 0.64. Furthermore, in order to demonstrate the representational power of the learned subspace, we propose a generative food image synthesis model conditioned on the embeddings of recipes. Synthesized images can effectively reproduce the visual appearance of paired samples, achieving R@1 of 0.68 in the image-to-recipe retrieval experiment, thus effectively capturing the semantics of the textual recipe.
翻訳日:2021-05-30 06:19:20 公開日:2020-12-21
# 地道より優れているか? 光音響画像再構成のための教師あり学習

Better Than Ground-truth? Beyond Supervised Learning for Photoacoustic Imaging Reconstruction ( http://arxiv.org/abs/2012.02472v2 )

ライセンス: Link先を確認
Hengrong Lan, Changchun Yang, Feng Gao, and Fei Gao(参考訳) 光音響ct(pact)は生のpa信号から初期圧力分布を再構成する。 標準再構成は、トランスデューサの限られた角度カバレッジ、有限帯域幅、不確実な不均一な生体組織の影響を受け、リミテッドビュー信号を用いてアーティファクトを誘導する。 近年,教師付き深層学習は,地道を要する限定的な視点問題を克服するために用いられている。 しかし、フルビューサンプリングでさえ、モデルをトレーニングするのに使用できないアーティファクトを誘導します。 現実には完璧な地味さを得られないというジレンマを引き起こします。 本稿では,地上構造の品質への依存を軽減するため,深層学習に基づく外部教師付き再構築フレームワーク(BSR-Net)を提案する。 四分の一の位置情報をモデルに入力し、グループフルビューデータを出力する。 具体的には, 残余構造を導入し, 残余構造を教師あり復元結果を超えて生成し, アーティファクトの出力が地中よりも大幅に減少することを示す。 さらに、2つの新たな損失は、アーティファクトを抑制するように設計されている。 数値的,in-vivoな結果から,人工物を用いずにフルビュー画像を再現する手法の性能を実証した。

Photoacoustic computed tomography (PACT) reconstructs the initial pressure distribution from raw PA signals. Standard reconstruction always induces artifacts using limited-view signals, which are influenced by limited angle coverage of transducers, finite bandwidth, and uncertain heterogeneous biological tissue. Recently, supervised deep learning has been used to overcome limited-view problem that requires ground-truth. However, even full-view sampling still induces artifacts that cannot be used to train the model. It causes a dilemma that we could not acquire perfect ground-truth in practice. To reduce the dependence on the quality of ground-truth, in this paper, for the first time, we propose a beyond supervised reconstruction framework (BSR-Net) based on deep learning to compensate the limited-view issue by feeding limited-view position-wise data. A quarter position-wise data is fed into model and outputs a group full-view data. Specifically, our method introduces a residual structure, which generates beyond supervised reconstruction result, whose artifacts are drastically reduced in the output compared to ground-truth. Moreover, two novel losses are designed to restrain the artifacts. The numerical and in-vivo results have demonstrated the performance of our method to reconstruct the full-view image without artifacts.
翻訳日:2021-05-22 20:52:28 公開日:2020-12-21
# (参考訳) データに基づく支配方程式の発見 [全文訳有]

Data-based Discovery of Governing Equations ( http://arxiv.org/abs/2012.06036v2 )

ライセンス: CC BY 4.0
Waad Subber, Piyush Pandita, Sayan Ghosh, Genghis Khan, Liping Wang, Roger Ghanem(参考訳) ほとんどの一般的な力学モデルは、与えられた物理現象を説明するために伝統的に数学的形式で示される。 一方、機械学習アルゴリズムは、データを生成する基盤となる物理的プロセスを明確に記述することなく、入力データを出力にマッピングするメカニズムを提供する。 観測データから制御方程式の自動発見のためのデータベース物理発見(DPD)フレームワークを提案する。 モデル構造の事前の定義がなければ、まず方程式の自由形式が発見され、得られたデータに対して校正され検証される。 観測データに加えて、PDフレームワークは利用可能な事前物理モデルとドメインエキスパートのフィードバックを利用することができる。 事前モデルが利用可能であれば、dpdフレームワークは記号的に表される加法あるいは乗法補正項を見つけることができる。 補正項は、既存の入力変数の事前モデルへの関数、または新しく導入された変数である。 事前のモデルが利用できない場合、PDフレームワークは観測を統制する新しいデータベースのスタンドアロンモデルを発見する。 航空産業における実世界のアプリケーションにおける提案フレームワークの性能を実証する。

Most common mechanistic models are traditionally presented in mathematical forms to explain a given physical phenomenon. Machine learning algorithms, on the other hand, provide a mechanism to map the input data to output without explicitly describing the underlying physical process that generated the data. We propose a Data-based Physics Discovery (DPD) framework for automatic discovery of governing equations from observed data. Without a prior definition of the model structure, first a free-form of the equation is discovered, and then calibrated and validated against the available data. In addition to the observed data, the DPD framework can utilize available prior physical models, and domain expert feedback. When prior models are available, the DPD framework can discover an additive or multiplicative correction term represented symbolically. The correction term can be a function of the existing input variable to the prior model, or a newly introduced variable. In case a prior model is not available, the DPD framework discovers a new data-based standalone model governing the observations. We demonstrate the performance of the proposed framework on a real-world application in the aerospace industry.
翻訳日:2021-05-22 15:47:10 公開日:2020-12-21
# PAC-Bayesian Perspective on Structured Prediction with Implicit Loss Embeddings

A PAC-Bayesian Perspective on Structured Prediction with Implicit Loss Embeddings ( http://arxiv.org/abs/2012.03780v2 )

ライセンス: Link先を確認
Th\'eophile Cantelobre and Benjamin Guedj and Mar\'ia P\'erez-Ortiz and John Shawe-Taylor(参考訳) 多くの実用的な機械学習タスクは、いくつかの出力変数が予測され、相互依存と見なされる構造化予測問題として構成することができる。 構造化予測の最近の理論的進歩は、高速速度収束保証、特に暗黙的損失埋め込み(ile)フレームワークの獲得に焦点を当てている。 PAC-Bayesは最近、予測分布の厳密なリスクバウンドを生成する能力に関心を寄せている。 この研究は、 ILE Structured 予測フレームワークに関する新しい PAC-Bayes の視点を提案する。 我々は,リスクと過剰リスクの2つの一般化境界を示し,ile予測者の行動に対する洞察を与える。 2つの学習アルゴリズムはこれらの境界から導かれる。 アルゴリズムは実装され、ソースコードは \url{https://github.com/t heophilec/PAC-Bayes- ILE-Structured-Predi ction} で公開されている。

Many practical machine learning tasks can be framed as Structured prediction problems, where several output variables are predicted and considered interdependent. Recent theoretical advances in structured prediction have focused on obtaining fast rates convergence guarantees, especially in the Implicit Loss Embedding (ILE) framework. PAC-Bayes has gained interest recently for its capacity of producing tight risk bounds for predictor distributions. This work proposes a novel PAC-Bayes perspective on the ILE Structured prediction framework. We present two generalization bounds, on the risk and excess risk, which yield insights into the behavior of ILE predictors. Two learning algorithms are derived from these bounds. The algorithms are implemented and their behavior analyzed, with source code available at \url{https://github.com/t heophilec/PAC-Bayes- ILE-Structured-Predi ction}.
翻訳日:2021-05-16 21:37:56 公開日:2020-12-21
# 特徴アライメントを用いた物体検出におけるクリーン平均精度と対向ロバスト性の改善

Using Feature Alignment Can Improve Clean Average Precision and Adversarial Robustness in Object Detection ( http://arxiv.org/abs/2012.04382v2 )

ライセンス: Link先を確認
Weipeng Xu, Hongcheng Huang, Shaoyou Pan(参考訳) クリーン画像における2Dオブジェクト検出は、よく研究されているトピックであるが、敵攻撃に対する脆弱性はまだ懸念されている。 既存の作業は、敵の訓練によって物体検出器の堅牢性を改善し、同時にクリーン画像の平均精度(AP)は大幅に低下した。 本稿では,中間層の特徴アライメントを用いることで,オブジェクト検出におけるAPとロバスト性を向上できることを示す。 さらに,敵対的学習に基づいて,より効果的な特徴を生成するためにネットワークを誘導する,知識拡散機能調整(KDFA)モジュールと自己監督機能調整(SSFA)モジュールの2つの特徴アライメントモジュールを提案する。 提案手法の有効性を検証するため,PASCAL VOCおよびMS-COCOデータセットについて広範な実験を行った。 私たちの実験のコードはhttps://github.com/g rispeut/feature-alig nment.gitで入手できます。

The 2D object detection in clean images has been a well studied topic, but its vulnerability against adversarial attack is still worrying. Existing work has improved robustness of object detectors by adversarial training, at the same time, the average precision (AP) on clean images drops significantly. In this paper, we propose that using feature alignment of intermediate layer can improve clean AP and robustness in object detection. Further, on the basis of adversarial training, we present two feature alignment modules: Knowledge-Distilled Feature Alignment (KDFA) module and Self-Supervised Feature Alignment (SSFA) module, which can guide the network to generate more effective features. We conduct extensive experiments on PASCAL VOC and MS-COCO datasets to verify the effectiveness of our proposed approach. The code of our experiments is available at https://github.com/g rispeut/Feature-Alig nment.git.
翻訳日:2021-05-16 21:15:27 公開日:2020-12-21
# フェデレーション学習のためのコミュニケーション計算効率の良いセキュアアグリゲーション

Communication-Comput ation Efficient Secure Aggregation for Federated Learning ( http://arxiv.org/abs/2012.05433v2 )

ライセンス: Link先を確認
Beongjun Choi, Jy-yong Sohn, Dong-Jun Han and Jaekyun Moon(参考訳) フェデレーション学習は、ノードがデータを共有する必要なしに、複数のノードに分散したデータを使用してニューラルネットワークをトレーニングする方法として注目されている。 残念なことに、フェデレーション学習中に送信されるモデルパラメータから、敵がローカルデータに関する特定の情報を抽出することができるため、データのプライバシが完全に保証されないことも示されている。 セキュアアグリゲーションプリミティブに基づく最近のソリューションでは,プライバシ保護型のフェデレーション学習が可能だったが,通信/計算リソースが大幅に増加した。 本稿では,データプライバシを犠牲にすることなく,既存のセキュアソリューションに対する通信/計算リソースの量を大幅に削減する通信計算効率の高いセキュアアグリゲーションを提案する。 提案手法の背後にある重要なアイデアは、秘密共有ノードのトポロジーを、既存のソリューションに対応する完全なグラフではなく、スパースランダムグラフとして設計することである。 まず、情報理論的な意味での信頼性とプライベートなフェデレーション学習を保証するために、グラフ上で必要かつ十分な条件を得る。 次に,特にerd\h{o}s-r\'enyiグラフを用いることを提案し,提案手法の信頼性とプライバシーに関する理論的保証を提供する。 実世界の大規模な実験を通じて,従来のスキームで必要とされるリソースのわずか20:sim 30\%を使用すれば,実践的なフェデレート学習システムにおいて,ほぼ同じレベルの信頼性とデータプライバシを維持することが実証された。

Federated learning has been spotlighted as a way to train neural networks using data distributed over multiple nodes without the need for the nodes to share data. Unfortunately, it has also been shown that data privacy could not be fully guaranteed as adversaries may be able to extract certain information on local data from the model parameters transmitted during federated learning. A recent solution based on the secure aggregation primitive enabled privacy-preserving federated learning, but at the expense of significant extra communication/comput ational resources. In this paper, we propose communication-comput ation efficient secure aggregation which substantially reduces the amount of communication/comput ational resources relative to the existing secure solution without sacrificing data privacy. The key idea behind the suggested scheme is to design the topology of the secret-sharing nodes as sparse random graphs instead of the complete graph corresponding to the existing solution. We first obtain the necessary and sufficient condition on the graph to guarantee reliable and private federated learning in the information-theoreti c sense. We then suggest using the Erd\H{o}s-R\'enyi graph in particular and provide theoretical guarantees on the reliability/privacy of the proposed scheme. Through extensive real-world experiments, we demonstrate that our scheme, using only $20 \sim 30\%$ of the resources required in the conventional scheme, maintains virtually the same levels of reliability and data privacy in practical federated learning systems.
翻訳日:2021-05-15 06:06:38 公開日:2020-12-21
# (参考訳) 文脈認識歩行者軌跡予測のための自己成長型空間グラフネットワーク [全文訳有]

Self-Growing Spatial Graph Network for Context-Aware Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2012.06320v2 )

ライセンス: CC BY-SA 4.0
Sirin Haddad, Siew-Kei Lam(参考訳) 歩行者軌道予測は、歩行者の社会的相互作用の正確なモデルとその文脈コンプライアンスを動的空間グラフに埋め込む研究が最近行われている活発な研究領域である。 しかし、既存の作品はシーンとダイナミクスに関する空間的な仮定に依存しており、オンラインシステムのために未知の環境にグラフ構造を適用するという大きな課題を伴っている。 さらに、リレーショナルモデリングが予測パフォーマンスに与える影響に対する評価アプローチが欠如している。 このギャップを埋めるために、コンテキスト的シーン特徴と歩行者視覚的手がかりに基づいて、データ駆動型適応型オンライン地区レコメンデーションを利用するSocial Trajectory Recommender-Gated Graph Recurrent Neighborhood Network (STR-GGRNN)を提案する。 歩行者の軌道を予測するためのグラフ隣接行列を構築するために, オンライン非負行列因子化(NMF)により, 地区推薦を行う。 広く使われているデータセットに基づく実験により,本手法は最先端の手法よりも優れていることが示された。 ETH-UCYデータセット上で12cm ADEと$\sim$15 cm FDEを達成した。 提案手法は,フレーム毎の20K将来の軌跡をサンプリングするのにわずか0.49秒を要する。

Pedestrian trajectory prediction is an active research area with recent works undertaken to embed accurate models of pedestrians social interactions and their contextual compliance into dynamic spatial graphs. However, existing works rely on spatial assumptions about the scene and dynamics, which entails a significant challenge to adapt the graph structure in unknown environments for an online system. In addition, there is a lack of assessment approach for the relational modeling impact on prediction performance. To fill this gap, we propose Social Trajectory Recommender-Gated Graph Recurrent Neighborhood Network, (STR-GGRNN), which uses data-driven adaptive online neighborhood recommendation based on the contextual scene features and pedestrian visual cues. The neighborhood recommendation is achieved by online Nonnegative Matrix Factorization (NMF) to construct the graph adjacency matrices for predicting the pedestrians' trajectories. Experiments based on widely-used datasets show that our method outperforms the state-of-the-art. Our best performing model achieves 12 cm ADE and $\sim$15 cm FDE on ETH-UCY dataset. The proposed method takes only 0.49 seconds when sampling a total of 20K future trajectories per frame.
翻訳日:2021-05-11 12:42:54 公開日:2020-12-21
# (参考訳) 新しいニューラルネットワークのスムーズ性制約の1例 [全文訳有]

A case for new neural network smoothness constraints ( http://arxiv.org/abs/2012.07969v2 )

ライセンス: CC BY 4.0
Mihaela Rosca, Theophane Weber, Arthur Gretton, Shakir Mohamed(参考訳) 機械学習モデルは、どの程度変化を入力すべきか? モデル平滑性の問題に取り組み,一般化,対向ロバスト性,生成モデル,強化学習を支援する効果的な帰納バイアスであることを示す。 我々は、スムーズな制約を課す現在の方法を探り、新しいタスクに適応する柔軟性が欠如していること、データモダリティを考慮せず、損失やアーキテクチャ、最適化と完全には理解されていない方法で相互作用するのを観察します。 この分野の新しい進歩は、データ、タスク、学習を滑らかさの定義に組み込む方法を見つけることに集中していると結論づけた。

How sensitive should machine learning models be to input changes? We tackle the question of model smoothness and show that it is a useful inductive bias which aids generalization, adversarial robustness, generative modeling and reinforcement learning. We explore current methods of imposing smoothness constraints and observe they lack the flexibility to adapt to new tasks, they don't account for data modalities, they interact with losses, architectures and optimization in ways not yet fully understood. We conclude that new advances in the field are hinging on finding ways to incorporate data, tasks and learning into our definitions of smoothness.
翻訳日:2021-05-08 17:37:28 公開日:2020-12-21
# (参考訳) プリトレーニングタンパク質埋め込みを用いたベイジアンニューラルネットワークは、薬物-タンパク質相互作用の予測精度を高める [全文訳有]

Bayesian neural network with pretrained protein embedding enhances prediction accuracy of drug-protein interaction ( http://arxiv.org/abs/2012.08194v2 )

ライセンス: CC BY 4.0
QHwan Kim, Joon-Hyuk Ko, Sunghoon Kim, Nojun Park, Wonho Jhe(参考訳) 薬物とタンパク質の相互作用のキャラクタリゼーションは、薬物発見のための高スループットスクリーニングにおいて重要である。 深層学習に基づくアプローチは、人間が試行錯誤することなく薬物とタンパク質の相互作用を予測できるため、注目を集めている。 しかし、データラベリングは重要なリソースを必要とするため、利用可能なタンパク質データのサイズは比較的小さく、結果としてモデルの性能が低下する。 本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。 まず,タンパク質配列を事前訓練したモデルで符号化するトランスファーラーニングを用いて,汎用配列表現を教師なしで訓練する。 次に,ベイズ型ニューラルネットワークを用いて,データ不確かさを推定することでロバストなモデルを構築する。 その結果,本モデルでは,従来の基準値よりも,薬物とタンパク質の相互作用を予測できる性能が向上した。 また,ベイズ推定の量的不確実性は信頼度と相関し,DPIデータポイントのスクリーニングに使用できることを示す。

The characterization of drug-protein interactions is crucial in the high-throughput screening for drug discovery. The deep learning-based approaches have attracted attention because they can predict drug-protein interactions without trial-and-error by humans. However, because data labeling requires significant resources, the available protein data size is relatively small, which consequently decreases model performance. Here we propose two methods to construct a deep learning framework that exhibits superior performance with a small labeled dataset. At first, we use transfer learning in encoding protein sequences with a pretrained model, which trains general sequence representations in an unsupervised manner. Second, we use a Bayesian neural network to make a robust model by estimating the data uncertainty. As a result, our model performs better than the previous baselines for predicting drug-protein interactions. We also show that the quantified uncertainty from the Bayesian inference is related to the confidence and can be used for screening DPI data points.
翻訳日:2021-05-08 07:38:43 公開日:2020-12-21
# 高齢化帯域:確率条件付き無線ネットワークにおけるレギュレット解析と順序最適学習アルゴリズム

Aging Bandits: Regret Analysis and Order-Optimal Learning Algorithm for Wireless Networks with Stochastic Arrivals ( http://arxiv.org/abs/2012.08682v2 )

ライセンス: Link先を確認
Eray Unsal Atay, Igor Kadota and Eytan Modiano(参考訳) 我々は、複数の信頼できないチャンネル上で、送信元が目的地にタイムセンシティブな情報を伝達するシングルホップ無線ネットワークを考える。 各ソースからのパケットは、既知の統計の確率過程に従って生成され、各無線チャネルの状態(ON/OFF)は、未知の統計の確率過程によって変化する。 無線チャネルの信頼性は観測を通して学ぶ必要がある。 学習アルゴリズムは1つのペア(ソース、チャネル)を選択し、選択されたソースは選択されたチャネルを介してパケットを送信しようとする。 送信先への送信成功の確率は、選択されたチャネルの信頼性に依存する。 学習アルゴリズムの目標は、ネットワークのaoi( age-of-information)を$t$のタイムスロットで最小化することである。 学習アルゴリズムの性能を分析するために,学習アルゴリズムの期待累積aoiと,先行するチャネルの信頼性を知っているgenieアルゴリズムの期待累積aoiとの差であるaoi regretの概念を導入する。 aoi regretは、t$タイムスロット上でチャネルの統計を学習することによって発生するペナルティをキャプチャする。 まず、確率的多重武装バンディット問題(例えば、$\epsilon$-Greedy、Upper Confidence Bound、Thompson Sampling)によく知られた解を用いる学習アルゴリズムを検討し、彼らのAoIが後悔して$\Theta(\log T)$にスケールしたことを示す。 私たちの知る限りでは、これはAoI境界を持つ最初の学習アルゴリズムです。

We consider a single-hop wireless network with sources transmitting time-sensitive information to the destination over multiple unreliable channels. Packets from each source are generated according to a stochastic process with known statistics and the state of each wireless channel (ON/OFF) varies according to a stochastic process with unknown statistics. The reliability of the wireless channels is to be learned through observation. At every time slot, the learning algorithm selects a single pair (source, channel) and the selected source attempts to transmit its packet via the selected channel. The probability of a successful transmission to the destination depends on the reliability of the selected channel. The goal of the learning algorithm is to minimize the Age-of-Information (AoI) in the network over $T$ time slots. To analyze the performance of the learning algorithm, we introduce the notion of AoI regret, which is the difference between the expected cumulative AoI of the learning algorithm under consideration and the expected cumulative AoI of a genie algorithm that knows the reliability of the channels a priori. The AoI regret captures the penalty incurred by having to learn the statistics of the channels over the $T$ time slots. The results are two-fold: first, we consider learning algorithms that employ well-known solutions to the stochastic multi-armed bandit problem (such as $\epsilon$-Greedy, Upper Confidence Bound, and Thompson Sampling) and show that their AoI regret scales as $\Theta(\log T)$; second, we develop a novel learning algorithm and show that it has $O(1)$ regret. To the best of our knowledge, this is the first learning algorithm with bounded AoI regret.
翻訳日:2021-05-03 03:01:57 公開日:2020-12-21
# マルチラベル分類器の回避攻撃性特性

Characterizing the Evasion Attackability of Multi-label Classifiers ( http://arxiv.org/abs/2012.09427v2 )

ライセンス: Link先を確認
Zhuo Yang, Yufei Han, Xiangliang Zhang(参考訳) マルチレーベル学習システムにおける回避攻撃は、興味深く、広く目撃されているが、研究トピックを探究することは稀である。 多ラベルの敵の脅威の攻撃可能性を決定する重要な要因を特徴づけることが、敵の脆弱性の起源を解釈し、それを緩和する方法を理解する鍵である。 我々の研究は敵のリスクバウンドの理論にインスパイアされている。 対象とするマルチラベル分類器の攻撃性と分類器の規則性とトレーニングデータ分布を関連付ける。 理論的攻撃性解析以外にも, グリーディラベル空間探索による効率的な攻撃性推定法を提案する。 計算効率と近似精度が保証される。 実世界データセットの実質的実験結果 : 提示された攻撃可能性因子と提案する経験的攻撃可能性指標の有効性

Evasion attack in multi-label learning systems is an interesting, widely witnessed, yet rarely explored research topic. Characterizing the crucial factors determining the attackability of the multi-label adversarial threat is the key to interpret the origin of the adversarial vulnerability and to understand how to mitigate it. Our study is inspired by the theory of adversarial risk bound. We associate the attackability of a targeted multi-label classifier with the regularity of the classifier and the training data distribution. Beyond the theoretical attackability analysis, we further propose an efficient empirical attackability estimator via greedy label space exploration. It provides provably computational efficiency and approximation accuracy. Substantial experimental results on real-world datasets validate the unveiled attackability factors and the effectiveness of the proposed empirical attackability indicator
翻訳日:2021-05-02 07:20:49 公開日:2020-12-21
# (参考訳) テストケース優先化のためのニューラルネットワーク埋め込み [全文訳有]

Neural Network Embeddings for Test Case Prioritization ( http://arxiv.org/abs/2012.10154v2 )

ライセンス: CC BY 4.0
Jo\~ao Lousada, Miguel Ribeiro(参考訳) 現代のソフトウエアエンジニアリングでは、継続的インテグレーション(CI)はソフトウェア開発のライフサイクルを体系的に管理するために必要なステップになっています。 大規模な企業はパイプラインの更新と運用の維持に苦労し、多くの変更と機能の追加によって、さまざまなプラットフォームで作業する開発者を抱えている。 このようなソフトウェア変更に関連して、テストには必ず強力なコンポーネントがあります。 チームやプロジェクトが成長するにつれて、徹底的なテストはすぐに阻害的になり、ソフトウェア品質を損なうことなく、最も適切なテストケースを先に選択するようになる。 nne-tcp(neural network embeeding for test case prioritization)と呼ばれる新しいツールを開発した。これは、テストステータス遷移があったときにどのファイルが変更されたかを解析し、それらのファイルとテストの関係を多次元ベクトルにマッピングし、類似性によってグループ化する新しい機械学習(ml)フレームワークである。 新しい変更が行われると、修正されたファイルにリンクされる可能性が高いテストが優先され、新しく導入された障害を見つけるために必要なリソースが削減される。 さらに、NNE-TCPは低次元空間におけるエンティティの可視化を可能にし、ファイルとテストの類似性によるグループ化や冗長性の低減を可能にする。 NNE-TCPを適用することで、修正ファイルとテストの間の接続が他の従来の方法と比較して重要かつ競合的であることを示す。

In modern software engineering, Continuous Integration (CI) has become an indispensable step towards systematically managing the life cycles of software development. Large companies struggle with keeping the pipeline updated and operational, in useful time, due to the large amount of changes and addition of features, that build on top of each other and have several developers, working on different platforms. Associated with such software changes, there is always a strong component of Testing. As teams and projects grow, exhaustive testing quickly becomes inhibitive, becoming adamant to select the most relevant test cases earlier, without compromising software quality. We have developed a new tool called Neural Network Embeeding for Test Case Prioritization (NNE-TCP) is a novel Machine-Learning (ML) framework that analyses which files were modified when there was a test status transition and learns relationships between these files and tests by mapping them into multidimensional vectors and grouping them by similarity. When new changes are made, tests that are more likely to be linked to the files modified are prioritized, reducing the resources needed to find newly introduced faults. Furthermore, NNE-TCP enables entity visualization in low-dimensional space, allowing for other manners of grouping files and tests by similarity and to reduce redundancies. By applying NNE-TCP, we show for the first time that the connection between modified files and tests is relevant and competitive relative to other traditional methods.
翻訳日:2021-05-02 00:30:32 公開日:2020-12-21
# (参考訳) 自覚症状を用いたアウトブレイク予測と分析 [全文訳有]

COVID-19 Outbreak Prediction and Analysis using Self Reported Symptoms ( http://arxiv.org/abs/2101.10266v1 )

ライセンス: CC BY 4.0
Rohan Sukumaran, Parth Patwa, T V Sethuraman, Sheshank Shankar, Rishank Kanaparti, Joseph Bae, Yash Mathur, Abhishek Singh, Ayush Chopra, Myungsun Kang, Priya Ramaswamy and Ramesh Raskar(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、科学者や政策立案者に対して、公衆衛生政策に新たなアプローチを開発するよう国際的に呼びかけている。 さらに、covid-19の流行と拡散は、空間的、時間的、人口層によって異なることが観察されている。 テストの増加にもかかわらず、世界中のほとんどの地域ではまだ必要なレベルではありません。 そこで本研究では、自己申告症状調査データを用いて、新型コロナウイルスの流行の動向を理解する。 本研究の目的は,感受性の高い個体群を区分することである。 このような人口を理解するために, 公衆衛生・政策データセットを用いた探索データ解析, アウトブレイク予測, 時系列予測を行う。 本研究は、自己申告された症状に基づいて、新型コロナウイルス陽性の集団の確率%を予測しようと試みた。 以上より,無痛症や老年症などの症状の予測値を再確認した。 また、COVID-19様疾患(CLI)の人口の%と、それぞれ0.15%と1.14%の絶対誤差で陽性であった人口を予測した。 これらの発見は、特に低レベルの検査と自己報告症状への依存度が高い地域で、公衆衛生政策の迅速な発展に役立つ可能性がある。 我々の分析は、異なる人口層にまたがる臨床属性の同定に光を当てている。 また、さまざまな政策の制定が新型コロナウイルスの感染拡大に及ぼす影響についても考察する。

The COVID-19 pandemic has challenged scientists and policy-makers internationally to develop novel approaches to public health policy. Furthermore, it has also been observed that the prevalence and spread of COVID-19 vary across different spatial, temporal, and demographics. Despite ramping up testing, we still are not at the required level in most parts of the globe. Therefore, we utilize self-reported symptoms survey data to understand trends in the spread of COVID-19. The aim of this study is to segment populations that are highly susceptible. In order to understand such populations, we perform exploratory data analysis, outbreak prediction, and time-series forecasting using public health and policy datasets. From our studies, we try to predict the likely % of the population that tested positive for COVID-19 based on self-reported symptoms. Our findings reaffirm the predictive value of symptoms, such as anosmia and ageusia. And we forecast that % of the population having COVID-19-like illness (CLI) and those tested positive as 0.15% and 1.14% absolute error respectively. These findings could help aid faster development of the public health policy, particularly in areas with low levels of testing and having a greater reliance on self-reported symptoms. Our analysis sheds light on identifying clinical attributes of interest across different demographics. We also provide insights into the effects of various policy enactments on COVID-19 prevalence.
翻訳日:2021-04-29 12:34:59 公開日:2020-12-21
# (参考訳) 雑音ラベル付きトリミング確率勾配降下によるニューラルネットワーク最適化の正則化 [全文訳有]

Regularization in neural network optimization via trimmed stochastic gradient descent with noisy label ( http://arxiv.org/abs/2012.11073v1 )

ライセンス: CC BY 4.0
Kensuke Nakamura and Byung-Woo Hong(参考訳) ニューラルネットワーク最適化において、トレーニングデータの過度な適合を避けるためには、正規化が不可欠である。 ラベルノイズは、トレーニング例のターゲットとなる真実ラベルを均一なランダムラベルに置き換えることで、強い暗黙の正規化を提供する。 しかし、不正確なラベルによる大きな損失のために、望ましくない誤解を招く勾配を引き起こすこともある。 本稿では,ラベルノイズとサンプルトリミングを組み合わせた1次最適化手法(Label-Noised Trim-SGD)を提案する。 提案アルゴリズムにより,ラベルの大きいノイズを付加し,元の手法よりも優れた正規化効果が得られる。 ラベルノイズの挙動,サンプルトリミング,提案アルゴリズムを比較して定量的解析を行った。 また,本手法が最先端最適化手法を上回った主要なベンチマークと基本ネットワークを用いて,アルゴリズムの有効性を示す実験結果を示す。

Regularization is essential for avoiding over-fitting to training data in neural network optimization, leading to better generalization of the trained networks. The label noise provides a strong implicit regularization by replacing the target ground truth labels of training examples by uniform random labels. However, it may also cause undesirable misleading gradients due to the large loss associated with incorrect labels. We propose a first-order optimization method (Label-Noised Trim-SGD) which combines the label noise with the example trimming in order to remove the outliers. The proposed algorithm enables us to impose a large label noise and obtain a better regularization effect than the original methods. The quantitative analysis is performed by comparing the behavior of the label noise, the example trimming, and the proposed algorithm. We also present empirical results that demonstrate the effectiveness of our algorithm using the major benchmarks and the fundamental networks, where our method has successfully outperformed the state-of-the-art optimization methods.
翻訳日:2021-04-29 11:34:25 公開日:2020-12-21
# (参考訳) DynamicHS:シークエンシャル診断のためのライターのハッティングセットツリーのストリーム化

DynamicHS: Streamlining Reiter's Hitting-Set Tree for Sequential Diagnosis ( http://arxiv.org/abs/2012.11078v1 )

ライセンス: CC BY 4.0
Patrick Rodler(参考訳) 期待通りに機能しないシステムを考えると、シーケンシャル診断 (sd) は、システムの誤動作の真の説明を潜在的に指数関数的な説明の集合から分離する一連のシステム計測を提案することを目的としている。 SD法は、最もよい次の測定を推察するために、通常反復診断プロセスの各ステップで可能な故障説明のサンプルを必要とする。 このサンプルの計算は様々な診断探索アルゴリズムによって達成される。 その中でも、ReiterのHS-Treeはその望ましい特性と一般的な適用性から最も人気がある。 通常、HS-TreeはSDプロセス全体を通してステートレスな方法で使われ、各イテレーションで可能な障害説明のサンプルを(再)計算する。 この時点では、構築されたサーチツリーは2つのイテレーションの間に破棄されるが、多くの場合、ツリーの大きな部分は次のイテレーションで再構築され、冗長な操作と費用のかかる推論サービスへの呼び出しが必要となる。 これに対する対策として,診断セッション全体を通して状態を保ち,さらに高価な推論回数を最小限に抑えるための特別な戦略を取り入れたHS-Treeの変種であるDynamicHSを提案する。 この例では、DynamicHSは1987年の論文の中でレイモンド・ライター(Raymond Reiter)の長年の疑問に対する答えを提供している。 実世界の診断問題に対する広範囲な評価は、DynamicHSの推論可能性を示し、HS-Tree wrtに対する明確な優位性を証明している。 計算時間。 より具体的には、DynamicHSは実行されたシーケンシャル診断セッションの96%でHS-Treeを上回り、実行毎に後者は前者の800%の時間を必要とした。 注目すべきは、DynamicHSは、すべての望ましい特性とHS-Treeの適用性を保ちながら、これらのパフォーマンス改善を実現していることだ。

Given a system that does not work as expected, Sequential Diagnosis (SD) aims at suggesting a series of system measurements to isolate the true explanation for the system's misbehavior from a potentially exponential set of possible explanations. To reason about the best next measurement, SD methods usually require a sample of possible fault explanations at each step of the iterative diagnostic process. The computation of this sample can be accomplished by various diagnostic search algorithms. Among those, Reiter's HS-Tree is one of the most popular due its desirable properties and general applicability. Usually, HS-Tree is used in a stateless fashion throughout the SD process to (re)compute a sample of possible fault explanations in each iteration, each time given the latest (updated) system knowledge including all so-far collected measurements. At this, the built search tree is discarded between two iterations, although often large parts of the tree have to be rebuilt in the next iteration, involving redundant operations and calls to costly reasoning services. As a remedy to this, we propose DynamicHS, a variant of HS-Tree that maintains state throughout the diagnostic session and additionally embraces special strategies to minimize the number of expensive reasoner invocations. In this vein, DynamicHS provides an answer to a longstanding question posed by Raymond Reiter in his seminal paper from 1987. Extensive evaluations on real-world diagnosis problems prove the reasonability of the DynamicHS and testify its clear superiority to HS-Tree wrt. computation time. More specifically, DynamicHS outperformed HS-Tree in 96% of the executed sequential diagnosis sessions and, per run, the latter required up to 800% the time of the former. Remarkably, DynamicHS achieves these performance improvements while preserving all desirable properties as well as the general applicability of HS-Tree.
翻訳日:2021-04-29 11:25:03 公開日:2020-12-21
# (参考訳) 選択された脳接続表現を用いた安静時脳波性分類 [全文訳有]

Resting-state EEG sex classification using selected brain connectivity representation ( http://arxiv.org/abs/2012.11105v1 )

ライセンス: CC BY 4.0
Jean Li, Jeremiah D. Deng, Divya Adhia and Dirk de Ridder(参考訳) 臨床応用の可能性に対する脳波信号の効果的な分析は難しい課題である。 これまでのところ、脳波の分析と条件付けは性中立のままである。 本稿では,脳波信号に対する性影響の証拠を機械学習で探索し,脳波信号の性別予測を成功させることにより,これらの効果の一般性を確認する。 特定のセンサーチャネル間のコヒーレンスによって表される脳の接続性は、セックスの予測因子であることがわかった。

Effective analysis of EEG signals for potential clinical applications remains a challenging task. So far, the analysis and conditioning of EEG have largely remained sex-neutral. This paper employs a machine learning approach to explore the evidence of sex effects on EEG signals, and confirms the generality of these effects by achieving successful sex prediction of resting-state EEG signals. We have found that the brain connectivity represented by the coherence between certain sensor channels are good predictors of sex.
翻訳日:2021-04-29 10:35:15 公開日:2020-12-21
# (参考訳) 新型コロナウイルス分析のためのK平均クラスタリングアルゴリズム [全文訳有]

An Efficient K-means Clustering Algorithm for Analysing COVID-19 ( http://arxiv.org/abs/2101.03140v1 )

ライセンス: CC BY 4.0
Md. Zubair, MD.Asif Iqbal, Avijeet Shil, Enamul Haque, Mohammed Moshiul Hoque and Iqbal H. Sarker(参考訳) 新型コロナウイルス(COVID-19)は、世界中のほとんどの国でパンデミック(パンデミック)の事態を引き起こした。 世界はこのパンデミックの状況を乗り越えようとしている。 より良い医療の質は、国がパンデミックに取り組むのに役立つかもしれない。 同様の種類の医療の質を持つ国のクラスターを作ることは、各国の医療の質に関する洞察を与える。 機械学習とデータサイエンスの分野では、K平均クラスタリングアルゴリズムは典型的に類似性に基づいてクラスタを作成するために使用される。 本稿では,クラスタの初期センタロイドを効率的に決定する効率的なk平均クラスタリング手法を提案する。 提案手法に基づき、covid-19データセットを活用した各国の医療品質クラスタを決定した。 実験の結果,従来のk-meansクラスタリングアルゴリズムと比較して,covid-19の解析に要するイテレーション数と実行時間を削減することができた。

COVID-19 hits the world like a storm by arising pandemic situations for most of the countries around the world. The whole world is trying to overcome this pandemic situation. A better health care quality may help a country to tackle the pandemic. Making clusters of countries with similar types of health care quality provides an insight into the quality of health care in different countries. In the area of machine learning and data science, the K-means clustering algorithm is typically used to create clusters based on similarity. In this paper, we propose an efficient K-means clustering method that determines the initial centroids of the clusters efficiently. Based on this proposed method, we have determined health care quality clusters of countries utilizing the COVID-19 datasets. Experimental results show that our proposed method reduces the number of iterations and execution time to analyze COVID-19 while comparing with the traditional k-means clustering algorithm.
翻訳日:2021-04-29 10:14:56 公開日:2020-12-21
# (参考訳) EMLight:球面分布近似による照明推定 [全文訳有]

EMLight: Lighting Estimation via Spherical Distribution Approximation ( http://arxiv.org/abs/2012.11116v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Changgong Zhang, Yingchen Yu, Yuan Chang, Shijian Lu, Feiying Ma, Xuansong Xie(参考訳) 単一画像からの照明推定は3次元レンダリングにおいて重要であり、コンピュータビジョンおよびコンピュータグラフィック研究コミュニティで広く研究されている。 一方、既存の作品では、光パラメータを後退させるか、最適化が難しいか不正確な予測を生成する傾向がある照明マップを生成するかで照明を推定している。 我々は、回帰ネットワークとニューラルプロジェクタを利用して正確な照明推定を行う照明推定フレームワークであるEarth Mover Light(EMLight)を提案する。 照明図を球状光分布,光強度,周囲項に分解し,照明推定を3つの照明成分のパラメータ回帰タスクとして定義する。 本研究では,球面分布の微妙な性質を生かして,光分布パラメータを正確に後退させる新しい球面移動器の損失をデザインする。 予測された球面分布、光強度、周囲項の誘導の下で、神経プロジェクターは現実的な光周波数でパノラマ照明マップを合成する。 広範囲な実験により,EMLightは正確な照明推定を達成し,3次元物体の埋め込みにおいて生成した照度は,最先端の手法と比較して高い妥当性と忠実性を示すことがわかった。

Illumination estimation from a single image is critical in 3D rendering and it has been investigated extensively in the computer vision and computer graphic research community. On the other hand, existing works estimate illumination by either regressing light parameters or generating illumination maps that are often hard to optimize or tend to produce inaccurate predictions. We propose Earth Mover Light (EMLight), an illumination estimation framework that leverages a regression network and a neural projector for accurate illumination estimation. We decompose the illumination map into spherical light distribution, light intensity and the ambient term, and define the illumination estimation as a parameter regression task for the three illumination components. Motivated by the Earth Mover distance, we design a novel spherical mover's loss that guides to regress light distribution parameters accurately by taking advantage of the subtleties of spherical distribution. Under the guidance of the predicted spherical distribution, light intensity and ambient term, the neural projector synthesizes panoramic illumination maps with realistic light frequency. Extensive experiments show that EMLight achieves accurate illumination estimation and the generated relighting in 3D object embedding exhibits superior plausibility and fidelity as compared with state-of-the-art methods.
翻訳日:2021-04-29 10:08:41 公開日:2020-12-21
# (参考訳) Visual Question Answeringのための言語バイアスによる内容と文脈の学習 [全文訳有]

Learning content and context with language bias for Visual Question Answering ( http://arxiv.org/abs/2012.11134v1 )

ライセンス: CC BY 4.0
Chao Yang, Su Feng, Dongsheng Li, Huawei Shen, Guoqing Wang and Bin Jiang(参考訳) VQA(Visual Question Answering)は、画像に関する疑問に答えるための課題である。 多くの作品は、モデルが視覚的なコンテンツや言語コンテキストを無視して質問に答える、言語バイアスを減らす方法に集中している。 しかし、言語バイアスを減らすことで、VQAモデルの事前学習能力も弱まる。 この問題に対処するため、我々はCCBという新しい学習戦略を提案し、VQAモデルに対して、言語バイアスによるコンテンツとコンテキストに依存した質問に答えるよう強制する。 具体的には、CCBは、基本VQAモデルの上にContentとContextのブランチを確立し、それぞれローカルキーコンテンツとグローバル有効コンテキストに集中させます。 さらに, 偏差サンプルの重要性を低減し, 解答に対する有益な影響を維持するために, 共同損失関数を提案する。 実験の結果, CCBはVQA-CP v2の精度において最先端の手法よりも優れていた。

Visual Question Answering (VQA) is a challenging multimodal task to answer questions about an image. Many works concentrate on how to reduce language bias which makes models answer questions ignoring visual content and language context. However, reducing language bias also weakens the ability of VQA models to learn context prior. To address this issue, we propose a novel learning strategy named CCB, which forces VQA models to answer questions relying on Content and Context with language Bias. Specifically, CCB establishes Content and Context branches on top of a base VQA model and forces them to focus on local key content and global effective context respectively. Moreover, a joint loss function is proposed to reduce the importance of biased samples and retain their beneficial influence on answering questions. Experiments show that CCB outperforms the state-of-the-art methods in terms of accuracy on VQA-CP v2.
翻訳日:2021-04-29 09:55:42 公開日:2020-12-21
# (参考訳) 薬物・薬物相互作用予測におけるエンティティ固有の知識グラフ情報の導入に向けて [全文訳有]

Towards Incorporating Entity-specific Knowledge Graph Information in Predicting Drug-Drug Interactions ( http://arxiv.org/abs/2012.11142v1 )

ライセンス: CC BY 4.0
Ishani Mondal(参考訳) 最近リリースされた様々な訓練済み言語モデル(BERT、XLNETなど)から得られたオフザシェルフバイオメディカル埋め込みは、バイオメディカル領域における様々な自然言語理解タスク(NLU)の最先端の結果(精度の観点から)を実証している。 関係分類(RC)は最も重要な課題の一つに該当する。 本稿では,テキストコーパスから薬物と薬物の相互作用を予測するために,知識グラフ(KG)埋め込みから得られたバイオメディカルエンティティ(薬物,疾患,遺伝子など)のドメイン知識を組み込む方法について検討する。 本稿では,他のバイオメディカル・エンティティとの相互作用から得られる薬物の埋め込みと,ドメイン固有のBioBERT埋め込みに基づくRCアーキテクチャを組み合わせる新しい手法であるBERTKG-DDIを提案する。 DDIExtraction 2013コーパスで実施された実験は、この戦略が他のベースラインアーキテクチャを4.1%のマクロF1スコアで改善することを明確に示している。

Off-the-shelf biomedical embeddings obtained from the recently released various pre-trained language models (such as BERT, XLNET) have demonstrated state-of-the-art results (in terms of accuracy) for the various natural language understanding tasks (NLU) in the biomedical domain. Relation Classification (RC) falls into one of the most critical tasks. In this paper, we explore how to incorporate domain knowledge of the biomedical entities (such as drug, disease, genes), obtained from Knowledge Graph (KG) Embeddings, for predicting Drug-Drug Interaction from textual corpus. We propose a new method, BERTKG-DDI, to combine drug embeddings obtained from its interaction with other biomedical entities along with domain-specific BioBERT embedding-based RC architecture. Experiments conducted on the DDIExtraction 2013 corpus clearly indicate that this strategy improves other baselines architectures by 4.1% macro F1-score.
翻訳日:2021-04-29 09:45:45 公開日:2020-12-21
# (参考訳) ホップホップ関係認識グラフニューラルネットワーク [全文訳有]

Hop-Hop Relation-aware Graph Neural Networks ( http://arxiv.org/abs/2012.11147v1 )

ライセンス: CC BY 4.0
Li Zhang, Yan Ge, Haiping Lu(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習に広く用いられている。 しかし、ほとんどのGNN法は等質グラフまたは異質グラフのために設計されている。 本稿では,これら2種類のグラフの表現学習を統一するモデルhop-hop relation-aware graph neural network (hhr-gnn)を提案する。 HHR-GNNは、各ノードに対するパーソナライズされた受容領域を知識グラフ埋め込みを利用して学習し、中央ノードの表現間の関係スコアを異なるホップで学習する。 近所のアグリゲーションでは,ホップ対応の投影とアグリゲーションを同時に行う。 この機構により、中心ノードは同質グラフと異質グラフの両方に適用できるホップワイド近傍混合を学習することができる。 5つのベンチマークによる実験結果から,大規模な異種グラフ上でのトレーニング1時間あたりの時間コストは,最先端のGNNと比較して最大13K高速であることがわかった。

Graph Neural Networks (GNNs) are widely used in graph representation learning. However, most GNN methods are designed for either homogeneous or heterogeneous graphs. In this paper, we propose a new model, Hop-Hop Relation-aware Graph Neural Network (HHR-GNN), to unify representation learning for these two types of graphs. HHR-GNN learns a personalized receptive field for each node by leveraging knowledge graph embedding to learn relation scores between the central node's representations at different hops. In neighborhood aggregation, our model simultaneously allows for hop-aware projection and aggregation. This mechanism enables the central node to learn a hop-wise neighborhood mixing that can be applied to both homogeneous and heterogeneous graphs. Experimental results on five benchmarks show the competitive performance of our model compared to state-of-the-art GNNs, e.g., up to 13K faster in terms of time cost per training epoch on large heterogeneous graphs.
翻訳日:2021-04-29 09:37:02 公開日:2020-12-21
# (参考訳) 半導体マルチモードレーザーにおける完全かつ並列かつ自律的なフォトニックニューラルネットワーク [全文訳有]

A complete, parallel and autonomous photonic neural network in a semiconductor multimode laser ( http://arxiv.org/abs/2012.11153v1 )

ライセンス: CC BY 4.0
Xavier Porte, Anas Skalli, Nasibeh Haghighi, Stephan Reitzenstein, James A. Lott, Daniel Brunner(参考訳) ニューラルネットワークは、私たちの時代の破壊的なコンピューティング概念の1つです。 しかし、これらは古典的なアルゴリズムコンピューティングとは、多くの基本的な側面において根本的に異なる。 これらの違いは、現在のコンピューティング基盤を用いたニューラルネットワークコンピューティングにおいて、等しく基本的な、重大で関連する課題をもたらす。 ニューラルネットワークはプロセッサ全体にわたって並列性を求め、メモリと算術の同時配置を求める。 ノイマン建築以外のもの 特に並列性はフォトニクスを非常に有望なプラットフォームとしたが、これまではスケーラブルで統合可能な概念は乏しい。 本稿では,高効率かつ高速な半導体レーザの空間分散モードを用いて,完全並列で完全に実装されたフォトニックニューラルネットワークをいかに実現できるかを初めて示す。 重要なのは、すべてのニューラルネットワーク接続がハードウェアで実現され、プロセッサが前処理や後処理なしで結果を生成することです。 130以上のノードを大面積の垂直キャビティ面発光レーザに実装し、多モードファイバの複合伝送行列とデジタルマイクロミラーアレイを介して入力および出力重みをそれぞれ実現した。 読み出し重みを2ビットヘッダ認識,2ビットxor,2ビットディジタルアナログ変換に訓練し,それぞれ<0.910^-3と2.910^-2の誤り率を得た。 最後に、デジタルアナログ変換は5.410^-2の標準偏差で実現できる。 我々のシステムは、非常に大きなサイズと20GHzを超える帯域幅にスケーラブルです。

Neural networks are one of the disruptive computing concepts of our time. However, they fundamentally differ from classical, algorithmic computing in a number of fundamental aspects. These differences result in equally fundamental, severe and relevant challenges for neural network computing using current computing substrates. Neural networks urge for parallelism across the entire processor and for a co-location of memory and arithmetic, i.e. beyond von Neumann architectures. Parallelism in particular made photonics a highly promising platform, yet until now scalable and integratable concepts are scarce. Here, we demonstrate for the first time how a fully parallel and fully implemented photonic neural network can be realized using spatially distributed modes of an efficient and fast semiconductor laser. Importantly, all neural network connections are realized in hardware, and our processor produces results without pre- or post-processing. 130+ nodes are implemented in a large-area vertical cavity surface emitting laser, input and output weights are realized via the complex transmission matrix of a multimode fiber and a digital micro-mirror array, respectively. We train the readout weights to perform 2-bit header recognition, a 2-bit XOR and 2-bit digital analog conversion, and obtain < 0.9 10^-3 and 2.9 10^-2 error rates for digit recognition and XOR, respectively. Finally, the digital analog conversion can be realized with a standard deviation of only 5.4 10^-2. Our system is scalable to much larger sizes and to bandwidths in excess of 20 GHz.
翻訳日:2021-04-29 09:21:29 公開日:2020-12-21
# (参考訳) FlowDB 大規模降水・河川・フラッシュ洪水データセット [全文訳有]

FlowDB a large scale precipitation, river, and flash flood dataset ( http://arxiv.org/abs/2012.11154v1 )

ライセンス: CC BY 4.0
Isaac Godfried, Kriti Mahajan, Maggie Wang, Kevin Li, Pranjalya Tiwari(参考訳) 洪水は年間80億ドルの損害をもたらし、気象関連の出来事で最も多く死亡する原因となっている。 気候変動のため、科学者は将来もっと重い降雨を期待している。 しかし、時給降水データと河川流データの両方を含む現在のデータセットは存在しない。 本稿では,新しい時流と降水量のデータセットと,損傷推定値と損傷数を含む洪水洪水の2番目のサブセットを紹介する。 これらのデータセットを用いて,(1)一般流れ予測と(2)フラッシュフラッド損傷推定の2つの課題を提示する。 私たちはいくつかの公開ベンチマークと簡単に使えるパッケージを作成しました。 さらに, 今後, スノーパックデータと土壌指数水分データを用いてデータセットの強化を行い, 予測精度の向上を目指す。

Flooding results in 8 billion dollars of damage annually in the US and causes the most deaths of any weather related event. Due to climate change scientists expect more heavy precipitation events in the future. However, no current datasets exist that contain both hourly precipitation and river flow data. We introduce a novel hourly river flow and precipitation dataset and a second subset of flash flood events with damage estimates and injury counts. Using these datasets we create two challenges (1) general stream flow forecasting and (2) flash flood damage estimation. We have created several publicly available benchmarks and an easy to use package. Additionally, in the future we aim to augment our dataset with snow pack data and soil index moisture data to improve predictions.
翻訳日:2021-04-29 09:11:39 公開日:2020-12-21
# (参考訳) BERTChem-DDI : 化学構造情報を用いたテキストからの薬物・薬物相互作用予測の改善 [全文訳有]

BERTChem-DDI : Improved Drug-Drug Interaction Prediction from text using Chemical Structure Information ( http://arxiv.org/abs/2012.11599v1 )

ライセンス: CC BY 4.0
Ishani Mondal(参考訳) 言語モデルから得られた従来のバイオメディカルな埋め込みは、最近医学領域における関係抽出(RE)タスクの最先端の結果を示している。 本稿では,薬物の分子構造として利用可能なドメイン知識を,テキストコーパスから薬物と薬物の相互作用を予測するために組み込む方法について検討する。 市販ドメイン固有のBioBERT埋め込み型REアーキテクチャとともに、医薬品の豊富な化学構造から得られる薬物の埋め込みを効率的に組み合わせる手法であるBERTChem-DDIを提案する。 DDIExtraction 2013コーパスで行われた実験は、この戦略が他の強力なベースラインアーキテクチャを3.4\%のマクロF1スコアで改善することを示している。

Traditional biomedical version of embeddings obtained from pre-trained language models have recently shown state-of-the-art results for relation extraction (RE) tasks in the medical domain. In this paper, we explore how to incorporate domain knowledge, available in the form of molecular structure of drugs, for predicting Drug-Drug Interaction from textual corpus. We propose a method, BERTChem-DDI, to efficiently combine drug embeddings obtained from the rich chemical structure of drugs along with off-the-shelf domain-specific BioBERT embedding-based RE architecture. Experiments conducted on the DDIExtraction 2013 corpus clearly indicate that this strategy improves other strong baselines architectures by 3.4\% macro F1-score.
翻訳日:2021-04-29 09:07:55 公開日:2020-12-21
# (参考訳) Triplet Network を用いたメディカルエンティティリンク [全文訳有]

Medical Entity Linking using Triplet Network ( http://arxiv.org/abs/2012.11164v1 )

ライセンス: CC BY 4.0
Ishani Mondal, Sukannya Purkayastha, Sudeshna Sarkar, Pawan Goyal, Jitesh Pillai, Amitava Bhattacharyya, Mahanandeeshwar Gattu(参考訳) エンティティリンク(または正規化)は、与えられた知識ベース(kb)の標準エンティティに医学的テキストで言及されるエンティティをマッピングする、テキストマイニングにおいて不可欠なタスクである。 この仕事は医療分野において非常に重要である。 また、異なる医学および臨床のオントロジーをマージするためにも用いられる。 本稿では,疾患のリンクや正規化の問題を中心に検討する。 このタスクは、候補生成と候補スコアの2つのフェーズで実行される。 本稿では, 候補知識基準項目の分類法について, 疾患言及と類似性に基づいて分類する手法を提案する。 我々はTriplet Networkを候補者ランキングに利用している。 既存の手法では, 候補生成のためのシーブと外部資源を慎重に利用してきたが, 手作りのルールを使用しない頑健でポータブルな候補生成方式を導入する。 標準ベンチマーク ncbi disease dataset における実験結果から,本システムは従来の手法よりも有意な差を示した。

Entity linking (or Normalization) is an essential task in text mining that maps the entity mentions in the medical text to standard entities in a given Knowledge Base (KB). This task is of great importance in the medical domain. It can also be used for merging different medical and clinical ontologies. In this paper, we center around the problem of disease linking or normalization. This task is executed in two phases: candidate generation and candidate scoring. In this paper, we present an approach to rank the candidate Knowledge Base entries based on their similarity with disease mention. We make use of the Triplet Network for candidate ranking. While the existing methods have used carefully generated sieves and external resources for candidate generation, we introduce a robust and portable candidate generation scheme that does not make use of the hand-crafted rules. Experimental results on the standard benchmark NCBI disease dataset demonstrate that our system outperforms the prior methods by a significant margin.
翻訳日:2021-04-29 08:44:14 公開日:2020-12-21
# (参考訳) 誰が私の要求を受け入れますか。 双方向関係ネットワークにおけるリンク開始の応答予測 [全文訳有]

Who will accept my request? Predicting response of link initiation in two-way relation networks ( http://arxiv.org/abs/2012.11172v1 )

ライセンス: CC BY 4.0
Amin Javari, Mehrab Norouzitallab, Mahdi Jalili(参考訳) ソーシャルネットワークの普及はここ数年で急速に増加し、日々の生活は適切に機能しないまま中断している。 ソーシャルネットワーキングプラットフォームは、グループの作成と結合、メッセージの送受信、関心の共有、友情関係の創出など、個人間の複数のインタラクションタイプを提供する。 本稿では、双方向ネットワークにおけるリンク開始フィードバックの予測方法である、ソーシャルネットワーク分析とマイニングにおける重要な問題に対処する。 双方向ネットワークにおける2つの個人間の関係には、1人の個人からのリンク招待が含まれており、招待者が受け入れれば確立されたリンクとなる。 我々は,スポーツゲームソーシャルネットワーキングプラットフォームを検討し,複数のユーザ間で多層的なソーシャルネットワークを構築する。 リンク開始プロセスによって形成されるネットワークは、レイヤの1つ上にあり、他の2つのレイヤには、ユーザ間のメッセージング関係とインタラクションが含まれている。 本稿では,この多層的手法によるリンク開始フィードバック予測問題を解く手法を提案する。 提案手法は,メタパスから抽出した特徴,すなわち特徴に基づく。 多層ネットワークの複数の層から異なる個人の間で定義される経路。 データセットのスパーシリティ問題に対処するためのクラスタベースのアプローチを提案しました。 実験の結果,提案手法は最先端手法よりも正確な予測を行うことができることがわかった。

Popularity of social networks has rapidly increased over the past few years, and daily lives interrupt without their proper functioning. Social networking platform provide multiple interaction types between individuals, such as creating and joining groups, sending and receiving messages, sharing interests and creating friendship relationships. This paper addresses an important problem in social networks analysis and mining that is how to predict link initiation feedback in two-way networks. Relationships between two individuals in a two-way network include a link invitation from one of the individuals, which will be an established link if it is accepted by the invitee. We consider a sport gaming social networking platform and construct a multilayer social network between a number of users. The network formed by the link initiation process is on one of the layers, while the other two layers include a messaging relationships and interactions between the users. We propose a methodology to solve the link initiation feedback prediction problem in this multilayer fashion. The proposed method is based on features extracted from meta-paths, i.e. paths defined between different individuals from multiples layers in multilayer networks. We proposed a cluster-based approach to handle the sparsity issue in the dataset. Experimental results show that the proposed method can provide accurate prediction that outperforms state-of-the-art methods.
翻訳日:2021-04-29 08:37:13 公開日:2020-12-21
# (参考訳) Yolov3に基づく赤外画像歩行者目標検出とマイグレーション学習 [全文訳有]

Infrared image pedestrian target detection based on Yolov3 and migration learning ( http://arxiv.org/abs/2012.11185v1 )

ライセンス: CC BY 4.0
Shengqi Geng(参考訳) 自動走行における赤外線暗視車両支援システムの段階的適用により、歩行者の収集した赤外線画像の精度が徐々に向上する。 本稿では、移動学習法を用いて、YOLOv3モデルを用いて、赤外線画像における歩行者目標検出を実現する。 目標検出モデルYOLOv3は、CVC赤外線歩行者データセットに移行し、ダイオー損失を使用して、元のYOLOモデルの損失関数を置き換えることにより、異なるスーパーパラメータのテストを行い、最高のマイグレーション学習効果を得る。 実験の結果,CVCデータセットの歩行者検出タスクでは,平均精度(AP)が96.35%,Diou-Yolov3モデルが72.14%,後者が損失曲線の収束速度が速いことがわかった。 移行学習の効果は2つのモデルを比較して得られる。

With the gradual application of infrared night vision vehicle assistance system in automatic driving, the accuracy of the collected infrared images of pedestrians is gradually improved. In this paper, the migration learning method is used to apply YOLOv3 model to realize pedestrian target detection in infrared images. The target detection model YOLOv3 is migrated to the CVC infrared pedestrian data set, and Diou loss is used to replace the loss function of the original YOLO model to test different super parameters to obtain the best migration learning effect. The experimental results show that in the pedestrian detection task of CVC data set, the average accuracy (AP) of Yolov3 model reaches 96.35%, and that of Diou-Yolov3 model is 72.14%, but the latter has a faster convergence rate of loss curve. The effect of migration learning can be obtained by comparing the two models.
翻訳日:2021-04-29 08:21:06 公開日:2020-12-21
# (参考訳) ユーザ動作からの学習に基づくパーソナライズされた転倒検出モニタリングシステム [全文訳有]

Personalized fall detection monitoring system based on learning from the user movements ( http://arxiv.org/abs/2012.11195v1 )

ライセンス: CC BY 4.0
Pranesh Vallabh, Nazanin Malekian, Reza Malekian, Ting-Mei Li(参考訳) パーソナライズされた転倒検出システムは、現在の転倒検出システムと比較して、さらに多くの利点を提供する。 パーソナライズされたモデルは、1つのデータクラスが収集しにくいものにも適用できる。 その結果,ユーザのニーズに応じてシステム全体の精度を向上させることができた。 将来の作業には、スマートフォンをユーザーの体の上に検知し、ユーザーがシステムをどこにでも配置し、確実に検出できるようにする。 精度は100%ではないものの、パーソナライズの概念の証明は、より高い精度を達成するために使用できる。 本論文のパーソナライズの概念は、医学分野の他の研究や、特定のクラスにおいてデータの入手が難しい分野にも拡張することができる。 特徴抽出および特徴選択モジュールに関するさらなる研究を行う必要がある。 機能選択モジュールについては、1つのクラスデータに基づいた機能選択に関するさらなる研究がある。

Personalized fall detection system is shown to provide added and more benefits compare to the current fall detection system. The personalized model can also be applied to anything where one class of data is hard to gather. The results show that adapting to the user needs, improve the overall accuracy of the system. Future work includes detection of the smartphone on the user so that the user can place the system anywhere on the body and make sure it detects. Even though the accuracy is not 100% the proof of concept of personalization can be used to achieve greater accuracy. The concept of personalization used in this paper can also be extended to other research in the medical field or where data is hard to come by for a particular class. More research into the feature extraction and feature selection module should be investigated. For the feature selection module, more research into selecting features based on one class data.
翻訳日:2021-04-29 08:15:39 公開日:2020-12-21
# (参考訳) 神経関節エントロピー推定 [全文訳有]

Neural Joint Entropy Estimation ( http://arxiv.org/abs/2012.11197v1 )

ライセンス: CC BY 4.0
Yuval Shalev, Amichai Painsky, Irad Ben-Gal(参考訳) 離散確率変数のエントロピーの推定は情報理論と関連する分野における根本的な問題である。 この問題は、機械学習、統計、データ圧縮など、さまざまな領域で多くの応用がある。 長年にわたり、様々な見積もりスキームが提案されてきた。 しかし、大きな進歩にもかかわらず、ほとんどの方法は、変数のアルファベットサイズに比べてサンプルが小さい場合、依然として苦労している。 本稿では,McAllester and Statos (2020) の業績を拡張した,この問題に対する実用的な解決策を提案する。 提案手法は、ディープニューラルネットワーク(DNN)におけるクロスエントロピー推定の一般化能力を用いて、改良されたエントロピー推定精度を導入する。 さらに,条件エントロピーや相互情報など,関連する情報理論の指標を推定する家系を紹介する。 これらの推定器は強い一貫性を持ち,様々なユースケースでその性能を示す。 まず,大きなアルファベットエントロピー推定について考察する。 そして、その範囲を相互情報推定に拡張する。 次に,本提案手法を独立性テストタスクに着目し,相互情報推定の条件付けに応用する。 最後に,転送エントロピー推定問題について検討する。 提案手法は,テスト済みの既存手法と比較して性能が向上した。

Estimating the entropy of a discrete random variable is a fundamental problem in information theory and related fields. This problem has many applications in various domains, including machine learning, statistics and data compression. Over the years, a variety of estimation schemes have been suggested. However, despite significant progress, most methods still struggle when the sample is small, compared to the variable's alphabet size. In this work, we introduce a practical solution to this problem, which extends the work of McAllester and Statos (2020). The proposed scheme uses the generalization abilities of cross-entropy estimation in deep neural networks (DNNs) to introduce improved entropy estimation accuracy. Furthermore, we introduce a family of estimators for related information-theoreti c measures, such as conditional entropy and mutual information. We show that these estimators are strongly consistent and demonstrate their performance in a variety of use-cases. First, we consider large alphabet entropy estimation. Then, we extend the scope to mutual information estimation. Next, we apply the proposed scheme to conditional mutual information estimation, as we focus on independence testing tasks. Finally, we study a transfer entropy estimation problem. The proposed estimators demonstrate improved performance compared to existing methods in all tested setups.
翻訳日:2021-04-29 08:00:44 公開日:2020-12-21
# (参考訳) 低ランクテンソル近似のベイズ枠組みにおける交互線型スキーム [全文訳有]

Alternating linear scheme in a Bayesian framework for low-rank tensor approximation ( http://arxiv.org/abs/2012.11228v1 )

ライセンス: CC0 1.0
Clara Menzen, Manon Kok, Kim Batselier(参考訳) マルチウェイデータはしばしば、低ランクテンソル分解によって概ね表されるテンソル形式で自然に発生する。 これは、複雑さを著しく低減し、大規模データセットの処理を容易にするために有用である。 本論文では,ベイズ推論問題を解くことにより,与えられたテンソルの低ランク表現を求める。 これは、全体の推論問題を1つのテンソル分解成分の後方分布を順次推測する部分問題に分割することで達成される。 これはよく知られた反復アルゴリズム交代線形スキーム(als)の確率論的解釈につながる。 このようにして、測定ノイズの考慮と、応用固有の事前知識の組み込みと、低ランクテンソル推定の不確かさの定量化が可能となる。 テンソル分解成分の後方分布から低ランクテンソル推定を計算するために, テンソルトレイン形式で非香り変換を行うアルゴリズムを提案する。

Multiway data often naturally occurs in a tensorial format which can be approximately represented by a low-rank tensor decomposition. This is useful because complexity can be significantly reduced and the treatment of large-scale data sets can be facilitated. In this paper, we find a low-rank representation for a given tensor by solving a Bayesian inference problem. This is achieved by dividing the overall inference problem into sub-problems where we sequentially infer the posterior distribution of one tensor decomposition component at a time. This leads to a probabilistic interpretation of the well-known iterative algorithm alternating linear scheme (ALS). In this way, the consideration of measurement noise is enabled, as well as the incorporation of application-specific prior knowledge and the uncertainty quantification of the low-rank tensor estimate. To compute the low-rank tensor estimate from the posterior distributions of the tensor decomposition components, we present an algorithm that performs the unscented transform in tensor train format.
翻訳日:2021-04-27 14:07:42 公開日:2020-12-21
# (参考訳) ディープニューラルネットワークの高速化のためのハードウェアとソフトウェア最適化 - 最新動向, 課題, 路頭調査

Hardware and Software Optimizations for Accelerating Deep Neural Networks: Survey of Current Trends, Challenges, and the Road Ahead ( http://arxiv.org/abs/2012.11233v1 )

ライセンス: CC BY 4.0
Maurizio Capra, Beatrice Bussolino, Alberto Marchisio, Guido Masera, Maurizio Martina, Muhammad Shafique(参考訳) 現在、機械学習(ML)は日常的に普及している。 ディープ・ラーニング(DL)は、医療のためのコンピュータビジョンから現代の自動車の自律運転、セキュリティ、医療、金融など多くの分野にすでに存在している。 しかし、優れた性能を達成するために、これらのアルゴリズムは非常に深いネットワークを使用し、トレーニング時間と推論時間の両方でかなりの計算能力を必要とする。 DLモデルの単一推論は数十億の乗算および累積演算を必要とする可能性があるため、DLは非常に計算量とエネルギーを消費する。 限られたエネルギーと低レイテンシで複数の高度なアルゴリズムを実行する必要があるシナリオでは、エネルギー効率の良いDL実行を実装できるコスト効率のよいハードウェアプラットフォームの必要性が生じる。 本稿では,まず,deep neural network (dnn) と spiking neural network (snn) という2つの脳にインスパイアされたモデルの重要特性について紹介する。 この研究は、cpu、gpu、fpga、asicといったアルゴリズムの実行のための4つの主要なプラットフォームのための作業の要約と比較を行い、最先端のソリューションを記述する。 本稿では、ハードウェアソリューションに加えて、これらのDNNおよびSNNモデルが実行中に持つ重要なセキュリティ問題についても論じ、ベンチマークの包括的なセクションを提供し、異なるネットワークやハードウェアシステムの品質を評価する方法について説明する。

Currently, Machine Learning (ML) is becoming ubiquitous in everyday life. Deep Learning (DL) is already present in many applications ranging from computer vision for medicine to autonomous driving of modern cars as well as other sectors in security, healthcare, and finance. However, to achieve impressive performance, these algorithms employ very deep networks, requiring a significant computational power, both during the training and inference time. A single inference of a DL model may require billions of multiply-and-accumul ated operations, making the DL extremely compute- and energy-hungry. In a scenario where several sophisticated algorithms need to be executed with limited energy and low latency, the need for cost-effective hardware platforms capable of implementing energy-efficient DL execution arises. This paper first introduces the key properties of two brain-inspired models like Deep Neural Network (DNN), and Spiking Neural Network (SNN), and then analyzes techniques to produce efficient and high-performance designs. This work summarizes and compares the works for four leading platforms for the execution of algorithms such as CPU, GPU, FPGA and ASIC describing the main solutions of the state-of-the-art, giving much prominence to the last two solutions since they offer greater design flexibility and bear the potential of high energy-efficiency, especially for the inference process. In addition to hardware solutions, this paper discusses some of the important security issues that these DNN and SNN models may have during their execution, and offers a comprehensive section on benchmarking, explaining how to assess the quality of different networks and hardware systems designed for them.
翻訳日:2021-04-27 13:31:26 公開日:2020-12-21
# (参考訳) 政策グラディエントの違い [全文訳有]

Difference Rewards Policy Gradients ( http://arxiv.org/abs/2012.11258v1 )

ライセンス: CC BY 4.0
Jacopo Castellini, Sam Devlin, Frans A. Oliehoek, Rahul Savani(参考訳) ポリシー勾配法は、マルチエージェント強化学習において最も一般的なアルゴリズムの1つである。 しかし、これらの方法の多くで対処されていない重要な課題は、マルチエージェントの信用割当である: エージェントの全体的なパフォーマンスへの貢献を評価することは、優れたポリシーを学ぶために不可欠である。 本稿では,報酬関数が知られている場合の分散型政策の学習を可能にするために,差分報酬と政策勾配を組み合わせたDr.Reinforceという新しいアルゴリズムを提案する。 報酬関数を直接区別することにより、Dr.Reinforceは、最先端の差分報酬法であるCOMA(Counterfactual Multiagent Policy Gradients)によるQ関数の学習に伴う困難を回避する。 報酬関数が未知のアプリケーションについては、reinforce が差分報酬を推定するために使用される追加の報酬ネットワークを学習するの有効性を示す。

Policy gradient methods have become one of the most popular classes of algorithms for multi-agent reinforcement learning. A key challenge, however, that is not addressed by many of these methods is multi-agent credit assignment: assessing an agent's contribution to the overall performance, which is crucial for learning good policies. We propose a novel algorithm called Dr.Reinforce that explicitly tackles this by combining difference rewards with policy gradients to allow for learning decentralized policies when the reward function is known. By differencing the reward function directly, Dr.Reinforce avoids difficulties associated with learning the Q-function as done by Counterfactual Multiagent Policy Gradients (COMA), a state-of-the-art difference rewards method. For applications where the reward function is unknown, we show the effectiveness of a version of Dr.Reinforce that learns an additional reward network that is used to estimate the difference rewards.
翻訳日:2021-04-27 13:30:01 公開日:2020-12-21
# (参考訳) 知識伝達に基づくきめ細かい視覚分類 [全文訳有]

Knowledge Transfer Based Fine-grained Visual Classification ( http://arxiv.org/abs/2012.11389v1 )

ライセンス: CC BY 4.0
Siqing Zhang, Ruoyi Du, Dongliang Chang, Zhanyu Ma, Jun Guo(参考訳) きめ細かい視覚分類(FGVC)は、同じカテゴリーのサブクラスを識別することを目的としており、その重要な解決策は、微妙で差別的な領域をマイニングすることである。 クロスエントロピー損失(CE-loss)を損失関数として用いた畳み込みニューラルネットワーク(CNN)は,最も識別性の高い部分のみを学習し,他の意味のある領域を無視できるため,性能が低下する。 いくつかの既存の研究は、検出技術や注意機構によってより識別的な領域を採掘することでこの問題を解決しようとする。 しかし、それらのほとんどが、より識別可能な領域を見つけようとすると、背景ノイズの問題を満たします。 本稿では,知識伝達学習の手法を用いて対処する。 複数のモデルが1つずつ訓練され、以前のモデルは全て、現在のモデルのトレーニングを監督する教師モデルと見なされる。 特に、ネットワークが多様で有意義な地域を見つけることを促すために、直交損失(or-loss)が提案されている。 さらに、最初のモデルはCE-Lossでのみ訓練される。 最後に、最終的な予測結果のために、相補的な知識を持つすべてのモデルの出力を組み合わせる。 提案手法の優位性を実証し、3つのFGVCデータセット上での最先端(SOTA)性能を得る。

Fine-grained visual classification (FGVC) aims to distinguish the sub-classes of the same category and its essential solution is to mine the subtle and discriminative regions. Convolution neural networks (CNNs), which employ the cross entropy loss (CE-loss) as the loss function, show poor performance since the model can only learn the most discriminative part and ignore other meaningful regions. Some existing works try to solve this problem by mining more discriminative regions by some detection techniques or attention mechanisms. However, most of them will meet the background noise problem when trying to find more discriminative regions. In this paper, we address it in a knowledge transfer learning manner. Multiple models are trained one by one, and all previously trained models are regarded as teacher models to supervise the training of the current one. Specifically, a orthogonal loss (OR-loss) is proposed to encourage the network to find diverse and meaningful regions. In addition, the first model is trained with only CE-Loss. Finally, all models' outputs with complementary knowledge are combined together for the final prediction result. We demonstrate the superiority of the proposed method and obtain state-of-the-art (SOTA) performances on three popular FGVC datasets.
翻訳日:2021-04-27 13:09:04 公開日:2020-12-21
# (参考訳) TechTexC: 畳み込みと双方向長期記憶ネットワークを用いた技術テキストの分類 [全文訳有]

TechTexC: Classification of Technical Texts using Convolution and Bidirectional Long Short Term Memory Network ( http://arxiv.org/abs/2012.11420v1 )

ライセンス: CC BY-SA 4.0
Omar Sharif, Eftekhar Hossain, Mohammed Moshiul Hoque(参考訳) 本稿では,TechDofication 2020への参加の一環として開発された技術テキスト分類システムとその成果について詳述する。 共有タスクは2つのサブタスクから構成される: (i) 第一タスクは指定された言語で与えられたテキストの粗い技術的ドメインを識別し、第二タスクはコンピュータサイエンス領域のテキストをきめ細かなサブドメインに分類する。 畳み込みニューラルネットワーク(CNN)、双方向長短期記憶(BiLSTM)ネットワーク、CNNとBiLSTMの3つの手法を用いて分類タスクを実行するために、分類システム(TechTexC)を開発した。 その結果,BiLSTMモデルを用いたCNNはサブタスク(a,b,c,g)とタスク2aのタスク-1に関する他の手法よりも優れていた。 この組み合わせモデルは、開発データセット上で82.63(サブタスクa)、81.95(サブタスクb)、82.39(サブタスクc)、84.37(サブタスクg)、67.44(タスク2a)のf1スコアを得た。 さらにテストセットの場合、cnnとbilstmの併用により、サブタスク1a (70.76%), 1b (79.97%), 1c (65.45%), 1g (49.23%), 2a (70.14%) の精度が向上した。

This paper illustrates the details description of technical text classification system and its results that developed as a part of participation in the shared task TechDofication 2020. The shared task consists of two sub-tasks: (i) first task identify the coarse-grained technical domain of given text in a specified language and (ii) the second task classify a text of computer science domain into fine-grained sub-domains. A classification system (called 'TechTexC') is developed to perform the classification task using three techniques: convolution neural network (CNN), bidirectional long short term memory (BiLSTM) network, and combined CNN with BiLSTM. Results show that CNN with BiLSTM model outperforms the other techniques concerning task-1 of sub-tasks (a, b, c and g) and task-2a. This combined model obtained f1 scores of 82.63 (sub-task a), 81.95 (sub-task b), 82.39 (sub-task c), 84.37 (sub-task g), and 67.44 (task-2a) on the development dataset. Moreover, in the case of test set, the combined CNN with BiLSTM approach achieved that higher accuracy for the subtasks 1a (70.76%), 1b (79.97%), 1c (65.45%), 1g (49.23%) and 2a (70.14%).
翻訳日:2021-04-27 12:23:28 公開日:2020-12-21
# (参考訳) アルゴリズムフェアネスにおけるデータ不足のモデル化の重要性:因果的視点 [全文訳有]

The Importance of Modeling Data Missingness in Algorithmic Fairness: A Causal Perspective ( http://arxiv.org/abs/2012.11448v1 )

ライセンス: CC BY 4.0
Naman Goel, Alfonso Amayuelas, Amit Deshpande, Amit Sharma(参考訳) 機械学習のためのトレーニングデータセットには、何らかの欠如があることが多い。 例えば、誰にローンを与えるかを決めるモデルを学ぶために、利用可能なトレーニングデータは、過去にローンを与えられた個人を含むが、そうではない個人を含む。 この欠如は、無視されると、モデルのデプロイ時にトレーニング手順のフェアネス保証を無効にする。 因果グラフを用いて,実世界の異なるシナリオにおける欠落機構を特徴付ける。 一般的な公平性アルゴリズムで使用される様々な分布が、トレーニングデータから復元可能であるか、できないかを示す。 我々の理論的結果は、これらのアルゴリズムの多くは実際フェアネスを保証できないことを示している。 不足をモデル化することは、公正アルゴリズムの設計原則の正しい特定にも役立ちます。 例えば、複数のスクリーニングラウンドで意思決定を行うマルチステージ環境では、公正なアルゴリズムの設計に必要な最小限の分布を導出するためにフレームワークを使用します。 提案手法は意思決定過程を分散化し, 集中化と再定義不能分布を必要とする最適アルゴリズムと同様の性能を実現する。

Training datasets for machine learning often have some form of missingness. For example, to learn a model for deciding whom to give a loan, the available training data includes individuals who were given a loan in the past, but not those who were not. This missingness, if ignored, nullifies any fairness guarantee of the training procedure when the model is deployed. Using causal graphs, we characterize the missingness mechanisms in different real-world scenarios. We show conditions under which various distributions, used in popular fairness algorithms, can or can not be recovered from the training data. Our theoretical results imply that many of these algorithms can not guarantee fairness in practice. Modeling missingness also helps to identify correct design principles for fair algorithms. For example, in multi-stage settings where decisions are made in multiple screening rounds, we use our framework to derive the minimal distributions required to design a fair algorithm. Our proposed algorithm decentralizes the decision-making process and still achieves similar performance to the optimal algorithm that requires centralization and non-recoverable distributions.
翻訳日:2021-04-27 12:12:32 公開日:2020-12-21
# (参考訳) Leaf Segmentation and Counting with Deep Learning: on Model Certainity, Test-Time Augmentation, Trade-Offs [全文訳有]

Leaf Segmentation and Counting with Deep Learning: on Model Certainty, Test-Time Augmentation, Trade-Offs ( http://arxiv.org/abs/2012.11486v1 )

ライセンス: CC BY 4.0
Douglas Pinto Sampaio Gomes, Lihong Zheng(参考訳) 葉分画や計数などの植物表現型タスクは、表現型形質の研究に不可欠である。 これらのタスクには適しているため、近年では、セグメンテーションや数え葉でのモデルの改善を提案する研究において、深い教師付き学習が盛んに行われている。 研究グループによる優れた努力にもかかわらず、より良い方法を提案する主な課題の1つは、ラベル付きデータ可用性の制限である。 この分野の主な取り組みは、既存の限られたデータセットの強化であり、モデリングプロセスのいくつかの側面は、過小評価されている。 本稿では,葉分別課題や小松菜の外部データセットにおいて,最も優れた評価手法の開発につながった課題と実験について検討する。 このモデルは、最近提案された他のモデルよりも間違いなくシンプルである。 実験はまた、モデル濃度とテスト時間拡張がシングルクラスとハイオクルージョンのオブジェクトセグメンテーションに強く応用されうるという事実や、最近提案されたベンチマーク用のデータセットのデータ分布といった知見ももたらした。

Plant phenotyping tasks such as leaf segmentation and counting are fundamental to the study of phenotypic traits. Since it is well-suited for these tasks, deep supervised learning has been prevalent in recent works proposing better performing models at segmenting and counting leaves. Despite good efforts from research groups, one of the main challenges for proposing better methods is still the limitation of labelled data availability. The main efforts of the field seem to be augmenting existing limited data sets, and some aspects of the modelling process have been under-discussed. This paper explores such topics and present experiments that led to the development of the best-performing method in the Leaf Segmentation Challenge and in another external data set of Komatsuna plants. The model has competitive performance while been arguably simpler than other recently proposed ones. The experiments also brought insights such as the fact that model cardinality and test-time augmentation may have strong applications in object segmentation of single class and high occlusion, and regarding the data distribution of recently proposed data sets for benchmarking.
翻訳日:2021-04-27 11:51:45 公開日:2020-12-21
# (参考訳) Zeroth-Order Hybrid Gradient Descent: Principled Black-Box Optimization Frameworkを目指して [全文訳有]

Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework ( http://arxiv.org/abs/2012.11518v1 )

ライセンス: CC BY 4.0
Pranay Sharma, Kaidi Xu, Sijia Liu, Pin-Yu Chen, Xue Lin and Pramod K. Varshney(参考訳) 本研究では,一階勾配情報を必要とせず,関数評価のみを用いる確率ゼロ階最適化(ZO)の研究に焦点をあてる。 zo最適化の問題は、最近の多くの機械学習アプリケーションで発生しており、目的関数の勾配が使用できないか、計算が難しい。 そのような場合、関数値に基づく勾配推定により全勾配あるいは確率勾配を近似することができる。 本稿では,ランダム勾配推定のクエリ効率と座標方向勾配推定の分散還元を生かした,新しいハイブリッド勾配推定器(hge)を提案する。 コーディネート重要度サンプリングの優雅な設計により,提案手法であるhgeベースのzo最適化手法は,反復複雑性と関数問合せコストの両方において効率的であることを示す。 本稿では, 提案手法の非凸, 凸, 強凸最適化の収束に関する理論的解析を行う。 導出する収束速度は、非凸の場合のいくつかの顕著な既存手法の結果を一般化し、凸の場合の最適結果と一致することを示す。 また,本手法の最先端ZO最適化手法に対する実証的優位性を実証するために,実世界のブラックボックス攻撃生成アプリケーションと理論の相関性を示す。

In this work, we focus on the study of stochastic zeroth-order (ZO) optimization which does not require first-order gradient information and uses only function evaluations. The problem of ZO optimization has emerged in many recent machine learning applications, where the gradient of the objective function is either unavailable or difficult to compute. In such cases, we can approximate the full gradients or stochastic gradients through function value based gradient estimates. Here, we propose a novel hybrid gradient estimator (HGE), which takes advantage of the query-efficiency of random gradient estimates as well as the variance-reduction of coordinate-wise gradient estimates. We show that with a graceful design in coordinate importance sampling, the proposed HGE-based ZO optimization method is efficient both in terms of iteration complexity as well as function query cost. We provide a thorough theoretical analysis of the convergence of our proposed method for non-convex, convex, and strongly-convex optimization. We show that the convergence rate that we derive generalizes the results for some prominent existing methods in the nonconvex case, and matches the optimal result in the convex case. We also corroborate the theory with a real-world black-box attack generation application to demonstrate the empirical advantage of our method over state-of-the-art ZO optimization approaches.
翻訳日:2021-04-27 11:19:31 公開日:2020-12-21
# (参考訳) 人々がどこから来るのか 学べますか? 融合状況における起源の再現 [全文訳有]

Can we learn where people come from? Retracing of origins in merging situations ( http://arxiv.org/abs/2012.11527v1 )

ライセンス: CC BY 4.0
Marion G\"odel and Luca Spataro and Gerta K\"oster(参考訳) 歩行者の群衆シミュレーションにとって重要な情報のひとつは、起源から特定のターゲットへ移動するエージェントの数である。 このセットアップはシミュレーションに大きな影響を与えるが、ほとんどのセットアップでは、シミュレーションのソースで発生すべきエージェントの数を見つけることは困難である。 多くの場合、数字はモデラーやイベント主催者の調査や経験に基づいて選ばれる。 これらのアプローチは重要で有用なものですが、リアルタイムの予測を行う場合には限界に達します。 この場合、インフローに関する静的情報だけでは不十分である。 その代わり、予測が開始されるたびに検索できる動的な情報が必要です。 今日では、ビデオ映像や群衆のGPSトラックなどのセンサーデータもしばしば利用できる。 このセンサデータから特定起源の歩行者数を推定できれば,シミュレーションを動的に初期化することができる。 本研究では,センサデータから導出可能な密度熱マップを,ランダムな森林回帰器の入力として使用し,原点分布を予測する。 シミュレーションデータセット、実験データ、実験データとシミュレーションデータの両方を用いたハイブリッドアプローチの3つの異なるデータセットについて検討する。 ハイブリッドセットアップでは、モデルはシミュレーションデータでトレーニングされ、実験データでテストされる。 その結果,ランダムフォレストモデルは3つの構成すべてについて,単一の密度ヒートマップに基づいて原産地分布を予測できることがわかった。 これは、利用可能なデータ量が限られていることが多いため、実データにアプローチを適用する上で特に有望である。

One crucial information for a pedestrian crowd simulation is the number of agents moving from an origin to a certain target. While this setup has a large impact on the simulation, it is in most setups challenging to find the number of agents that should be spawned at a source in the simulation. Often, number are chosen based on surveys and experience of modelers and event organizers. These approaches are important and useful but reach their limits when we want to perform real-time predictions. In this case, a static information about the inflow is not sufficient. Instead, we need a dynamic information that can be retrieved each time the prediction is started. Nowadays, sensor data such as video footage or GPS tracks of a crowd are often available. If we can estimate the number of pedestrians who stem from a certain origin from this sensor data, we can dynamically initialize the simulation. In this study, we use density heatmaps that can be derived from sensor data as input for a random forest regressor to predict the origin distributions. We study three different datasets: A simulated dataset, experimental data, and a hybrid approach with both experimental and simulated data. In the hybrid setup, the model is trained with simulated data and then tested on experimental data. The results demonstrate that the random forest model is able to predict the origin distribution based on a single density heatmap for all three configurations. This is especially promising for applying the approach on real data since there is often only a limited amount of data available.
翻訳日:2021-04-27 10:07:20 公開日:2020-12-21
# (参考訳) 絶縁体頭上導体の部分放電検出のための周波数と位相の注意に基づくディープラーニングフレームワーク [全文訳有]

A Frequency And Phase Attention Based Deep Learning Framework For Partial Discharge Detection On Insulated Overhead Conductors ( http://arxiv.org/abs/2012.11532v1 )

ライセンス: CC BY 4.0
Mohammad Zunaed Rafi, Ankur Nath, Md. Saifur Rahman(参考訳) 絶縁系の劣化の指標として部分放電が知られ、被覆導体の内部部分放電を検出する方法の信頼性と選択性は背景雑音のレベルによって決定される。 背景雑音は部分放電パターン(PDパターン)を歪め、絶縁システムの劣化に対応するPDパターンの特徴を認識する検出方法の能力を低下させる。 本稿では,周波数・位相注目層を新たに実装した深層学習フレームワークを提案する。導入される位相・周波数注目層は,信号のスペクトログラムにおけるpd活動に寄与する識別領域を見出す。

Partial discharges are known as indicators of degradation of insulation systems.The reliability and selectivity of methods to detect internal partial discharges in the covered conductors are dictated by the level of background noise. The background noise distorts the pattern of partial discharges (PD-pattern) and decreases the capability of detection methods to recognize the features of PD-pattern corresponding to the degradation of an insulation system. This paper proposes a deep learning based framework with novel implementation of frequency and phase attention layers to detect partial discharge pattern on insulated overhead conductors.The introduced phase and frequency attention layers finds the discriminative regions responsible for PD activity in the spectograms of the signals.
翻訳日:2021-04-27 10:01:15 公開日:2020-12-21
# (参考訳) 潜時空間モデルを用いた画像からのオフライン強化学習 [全文訳有]

Offline Reinforcement Learning from Images with Latent Space Models ( http://arxiv.org/abs/2012.11547v1 )

ライセンス: CC BY 4.0
Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn(参考訳) オフライン強化学習(RL)とは、環境相互作用の静的データセットからの学習ポリシーの問題を指す。 オフラインRLは、過去のデータセットの広範な使用と再利用を可能にすると同時に、オンライン探索に関連する安全性上の懸念を緩和し、RLの現実的な適用性を拡大する。 オフラインrlのほとんどの作業は、コンパクトな状態表現を持つタスクに焦点を当てている。 しかし、画像のようなリッチな観測空間から直接学習できることは、ロボット工学のような現実世界の応用には不可欠である。 本研究では,オフラインrlのためのモデルベースアルゴリズムの最近の進歩に基づき,それらを高次元視覚観測空間に拡張する。 モデルベースオフラインRLアルゴリズムは、状態ベースタスクにおける技術結果の状態を達成し、強力な理論的保証を有する。 しかし、これらはモデル予測の不確実性を定量化する能力に大きく依存しており、特に画像観察では困難である。 この課題を克服するため,我々は潜在状態ダイナミクスモデルを学び,潜在空間における不確実性を表現することを提案する。 提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。 画像に基づくロコモーションと操作タスクの多種多様な実験において、我々のアルゴリズムは従来のオフラインモデルなしRL法と最先端のオンラインビジュアルモデルベースRL法を著しく上回っていることがわかった。 さらに,本手法は,既存のデータセットを用いた実ロボットにおける画像ベースドローダクローズタスクよりも優れていることがわかった。 ビデオを含むすべての結果は、https://sites.google .com/view/lompo/で見ることができる。

Offline reinforcement learning (RL) refers to the problem of learning policies from a static dataset of environment interactions. Offline RL enables extensive use and re-use of historical datasets, while also alleviating safety concerns associated with online exploration, thereby expanding the real-world applicability of RL. Most prior work in offline RL has focused on tasks with compact state representations. However, the ability to learn directly from rich observation spaces like images is critical for real-world applications such as robotics. In this work, we build on recent advances in model-based algorithms for offline RL, and extend them to high-dimensional visual observation spaces. Model-based offline RL algorithms have achieved state of the art results in state based tasks and have strong theoretical guarantees. However, they rely crucially on the ability to quantify uncertainty in the model predictions, which is particularly challenging with image observations. To overcome this challenge, we propose to learn a latent-state dynamics model, and represent the uncertainty in the latent space. Our approach is both tractable in practice and corresponds to maximizing a lower bound of the ELBO in the unknown POMDP. In experiments on a range of challenging image-based locomotion and manipulation tasks, we find that our algorithm significantly outperforms previous offline model-free RL methods as well as state-of-the-art online visual model-based RL methods. Moreover, we also find that our approach excels on an image-based drawer closing task on a real robot using a pre-existing dataset. All results including videos can be found online at https://sites.google .com/view/lompo/ .
翻訳日:2021-04-27 09:55:03 公開日:2020-12-21
# (参考訳) 放射線学的モダリティを用いたcovid-19の検出と診断における深層学習 [全文訳有]

Deep Learning in Detection and Diagnosis of Covid-19 using Radiology Modalities: A Systematic Review ( http://arxiv.org/abs/2012.11577v1 )

ライセンス: CC BY 4.0
Mustafa Ghaderzadeh and Farkhondeh Asadi(参考訳) 目的:covid-19の早期発見と診断、非共感染例の早期および早期の正確な分離は、covid-19の流行の主な課題の1つである。 疾患の新規性については, 診断センターで多用されているにもかかわらず, 放射線画像に基づく診断方法には欠点がある。 そのため、医学とコンピュータの研究者は、画像分析に機械学習モデルを使う傾向があった。 方法】2019年11月1日から2020年7月20日まで,PubMed, Scopus, Web of Scienceの3つのデータベースを検索した結果,検索戦略に基づき,キーワードがCovid-19,ディープラーニング,診断,検出であり,最終的に37項目が包含基準を適用して調査対象として選択された168項目が抽出された。 結果:本研究は,放射線学的モダリティと深層学習に基づく処理を通して,Covid-19の検出と診断のための全てのモデルの現状について概説する。 この発見によると、ディープラーニングベースのモデルは、ctスキャンとx線画像の処理に使用されるcovid-19の検出と診断の正確かつ効率的なシステムを実現する能力を持っているため、感度と特異性が大幅に向上する。 結論:Covid-19放射線画像処理分野における深層学習(DL)の適用は,この疾患の検出と診断において偽陽性および負の誤りを低減させ,迅速で安価で安全な診断サービスを提供するための最適な機会を提供する。

Purpose: Early detection and diagnosis of Covid-19 and accurate separation of patients with non-Covid-19 cases at the lowest cost and in the early stages of the disease are one of the main challenges in the epidemic of Covid-19. Concerning the novelty of the disease, the diagnostic methods based on radiological images suffer shortcomings despite their many uses in diagnostic centers. Accordingly, medical and computer researchers tended to use machine-learning models to analyze radiology images. Methods: Present systematic review was conducted by searching three databases of PubMed, Scopus, and Web of Science from November 1, 2019, to July 20, 2020 Based on a search strategy, the keywords were Covid-19, Deep learning, Diagnosis and Detection leading to the extraction of 168 articles that ultimately, 37 articles were selected as the research population by applying inclusion and exclusion criteria. Result: This review study provides an overview of the current state of all models for the detection and diagnosis of Covid-19 through radiology modalities and their processing based on deep learning. According to the finding, Deep learning Based models have an extraordinary capacity to achieve an accurate and efficient system for the detection and diagnosis of Covid-19, which using of them in the processing of CT-Scan and X-Ray images, would lead to a significant increase in sensitivity and specificity values. Conclusion: The Application of Deep Learning (DL) in the field of Covid-19 radiologic image processing leads to the reduction of false-positive and negative errors in the detection and diagnosis of this disease and provides an optimal opportunity to provide fast, cheap, and safe diagnostic services to patients.
翻訳日:2021-04-27 09:15:44 公開日:2020-12-21
# (参考訳) 制御されたテキスト生成への分布的アプローチ

A Distributional Approach to Controlled Text Generation ( http://arxiv.org/abs/2012.11635v1 )

ライセンス: CC BY 4.0
Muhammad Khalifa, Hady Elsahar, Marc Dymetman(参考訳) 本稿では,事前学習された言語モデル(LM)から制御されたテキスト生成に対処する分布的アプローチを提案する。 この見解は、単一の形式的フレームワークにおいて、ターゲット LM 上の「点的」かつ「分布的」な制約を定義することを可能にします -- 我々の知識によれば、これはそのような一般化を持つ最初のアプローチであり、一方、初期 LM 分布との KL の発散を最小化します。 最適目標分布は明示的なEMM(Energy-Based Model)表現として一意に決定される。 その最適表現から、ターゲット制御された自己回帰的LMをポリシーグラディエントの適応分布変種を用いて訓練する。 本研究は,最初のLM(GPT-2)から逸脱した制約満足度を制御したLMを得るという観点から,一連のベースラインに対するアプローチの利点を示すポイントワイド制約に関する最初の実験を行う。 次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。 アブレーション研究を通じて,より高速な収束を得るための適応手法の有効性を示す。

We propose a Distributional Approach to address Controlled Text Generation from pre-trained Language Models (LMs). This view permits to define, in a single formal framework, "pointwise" and "distributional" constraints over the target LM -- to our knowledge, this is the first approach with such generality -- while minimizing KL divergence with the initial LM distribution. The optimal target distribution is then uniquely determined as an explicit EBM (Energy-Based Model) representation. From that optimal representation we then train the target controlled autoregressive LM through an adaptive distributional variant of Policy Gradient. We conduct a first set of experiments over pointwise constraints showing the advantages of our approach over a set of baselines, in terms of obtaining a controlled LM balancing constraint satisfaction with divergence from the initial LM (GPT-2). We then perform experiments over distributional constraints, a unique feature of our approach, demonstrating its potential as a remedy to the problem of Bias in Language Models. Through an ablation study we show the effectiveness of our adaptive technique for obtaining faster convergence.
翻訳日:2021-04-27 09:04:19 公開日:2020-12-21
# (参考訳) myGym: Visuomotor Robotic Tasksのためのモジュールツールキット [全文訳有]

myGym: Modular Toolkit for Visuomotor Robotic Tasks ( http://arxiv.org/abs/2012.11643v1 )

ライセンス: CC BY 4.0
Michal Vavrecka, Nikita Sokovnin, Megi Mejdrechova, Gabriela Sejnova, Marek Otahal(参考訳) 本研究では,強化学習(rl),本質的動機づけ,模倣学習タスクを3次元シミュレータで学習するための仮想ロボットツールキットmygymを提案する。 訓練されたタスクは、現実世界のロボットシナリオに簡単に転送できる。 シミュレータのモジュラ構造により、ユーザはさまざまなロボット、環境、タスクを使って、多数のシナリオでアルゴリズムをトレーニングし、検証することができる。 既存のツールキット(例えば)と比較すると 古典的なRLに適したOpenAI Gym(Roboschool)も、本質的なモチベーションを必要とするビズモトール(視覚と運動を組み合わせた)教師なしのタスク、すなわち、準備されている。 ロボットは自分自身の目標を 生み出すことができます また、人間とロボットの相互作用を意図した協調シナリオもある。 このツールキットは、Visuomotorタスク用に事前トレーニングされたビジュアルモジュールを提供し、迅速なプロトタイピングを可能にし、さらに視覚的なサブモジュールをカスタマイズしたり、自身のオブジェクトで再トレーニングすることができる。 実際には、ユーザはシミュレーションパラメータとして所望の環境、ロボット、オブジェクト、タスク、報酬の種類を選択し、トレーニング、可視化、テスト自体を自動的に処理する。 これにより、ユーザは事前に定義されたパラメータを使用して環境の振る舞いを制御しながら、ニューラルネットワークアーキテクチャの開発に完全に集中することができる。

We introduce a novel virtual robotic toolkit myGym, developed for reinforcement learning (RL), intrinsic motivation and imitation learning tasks trained in a 3D simulator. The trained tasks can then be easily transferred to real-world robotic scenarios. The modular structure of the simulator enables users to train and validate their algorithms on a large number of scenarios with various robots, environments and tasks. Compared to existing toolkits (e.g. OpenAI Gym, Roboschool) which are suitable for classical RL, myGym is also prepared for visuomotor (combining vision & movement) unsupervised tasks that require intrinsic motivation, i.e. the robots are able to generate their own goals. There are also collaborative scenarios intended for human-robot interaction. The toolkit provides pretrained visual modules for visuomotor tasks allowing rapid prototyping, and, moreover, users can customize the visual submodules and retrain with their own set of objects. In practice, the user selects the desired environment, robot, objects, task and type of reward as simulation parameters, and the training, visualization and testing themselves are handled automatically. The user can thus fully focus on development of the neural network architecture while controlling the behaviour of the environment using predefined parameters.
翻訳日:2021-04-27 09:02:59 公開日:2020-12-21
# (参考訳) fast physical activity suggestions: モバイル健康における効率的なハイパーパラメータ学習 [全文訳有]

Fast Physical Activity Suggestions: Efficient Hyperparameter Learning in Mobile Health ( http://arxiv.org/abs/2012.11646v1 )

ライセンス: CC BY 4.0
Marianne Menictas and Sabina Tomkins and Susan Murphy(参考訳) ユーザは、モバイルデバイス上の関連性やタイムリーな提案を通じて、通常の身体活動などの健全な行動を採用することができる。 近年、強化学習アルゴリズムは、提案を行うための最適な文脈を学習するのに有効であることが判明した。 しかし、これらのアルゴリズムは必ずしもモバイルヘルス(mhealth)の設定によって生じる制約のために設計されているわけではない。 我々は,mhealth設定で身体活動を提案するアルゴリズムを提案する。 ドメイン科学を用いて,線形混合効果モデルを用いたコンテキストバンディットアルゴリズムを定式化する。 次に、競合するアプローチよりもはるかに少ない計算資源を用いて、ハイパーパラメータ更新を効率的に行う手順を導入する。 私たちのアプローチは計算効率が優れるだけでなく、クローズドフォーム行列代数的な更新でも容易に実装でき、速度と精度がそれぞれ99%と56%という、最先端のアプローチよりも改善しています。

Users can be supported to adopt healthy behaviors, such as regular physical activity, via relevant and timely suggestions on their mobile devices. Recently, reinforcement learning algorithms have been found to be effective for learning the optimal context under which to provide suggestions. However, these algorithms are not necessarily designed for the constraints posed by mobile health (mHealth) settings, that they be efficient, domain-informed and computationally affordable. We propose an algorithm for providing physical activity suggestions in mHealth settings. Using domain-science, we formulate a contextual bandit algorithm which makes use of a linear mixed effects model. We then introduce a procedure to efficiently perform hyper-parameter updating, using far less computational resources than competing approaches. Not only is our approach computationally efficient, it is also easily implemented with closed form matrix algebraic updates and we show improvements over state of the art approaches both in speed and accuracy of up to 99% and 56% respectively.
翻訳日:2021-04-27 08:54:04 公開日:2020-12-21
# (参考訳) 強化学習による低分数次元軌道の明示的促進 [全文訳有]

Explicitly Encouraging Low Fractional Dimensional Trajectories Via Reinforcement Learning ( http://arxiv.org/abs/2012.11662v1 )

ライセンス: CC BY 4.0
Sean Gillen and Katie Byl(参考訳) フィードバック制御ポリシの開発において、機械学習の様々な現代的な手法を使用する際の重要な制限は、ロバスト性に関する保証(統計的にも)をいかなる形でも行うという点において、長期的なダイナミクスを分析するための適切な方法論がないことである。 その主な理由は、いわゆる次元の呪いと、結果として生じるコントロールポリシー自体のブラックボックスの性質が組み合わさったものである。 本稿では,これらの課題の1つをめざす。 系の完全状態空間は次元的にはかなり大きいかもしれないが、ほとんどのモデルベースの制御手法では、結果として生じる閉ループ系は、内部の低次元部分空間に急速に駆動される支配的ダイナミクスを示す。 この研究において、この部分空間の次元性はフラクタル幾何学、すなわち分数次元の様々な概念の道具によって捉えられると論じる。 次に,モデル自由強化学習エージェントによって誘導される軌道の次元性が,エージェント報酬信号に後処理関数を加えることに影響を及ぼすことを示した。 システムに付加されるノイズに対して寸法の低減が堅牢であることを検証するとともに, 改良されたエージェントは一般に, 騒音や押圧障害に対してより現実的に堅牢であることを示す。

A key limitation in using various modern methods of machine learning in developing feedback control policies is the lack of appropriate methodologies to analyze their long-term dynamics, in terms of making any sort of guarantees (even statistically) about robustness. The central reasons for this are largely due to the so-called curse of dimensionality, combined with the black-box nature of the resulting control policies themselves. This paper aims at the first of these issues. Although the full state space of a system may be quite large in dimensionality, it is a common feature of most model-based control methods that the resulting closed-loop systems demonstrate dominant dynamics that are rapidly driven to some lower-dimensional sub-space within. In this work we argue that the dimensionality of this subspace is captured by tools from fractal geometry, namely various notions of a fractional dimension. We then show that the dimensionality of trajectories induced by model free reinforcement learning agents can be influenced adding a post processing function to the agents reward signal. We verify that the dimensionality reduction is robust to noise being added to the system and show that that the modified agents are more actually more robust to noise and push disturbances in general for the systems we examined.
翻訳日:2021-04-27 08:42:26 公開日:2020-12-21
# (参考訳) インテント検出とスロットフィリングのためのトランスフォーマーエンコーダにおける構文知識の符号化 [全文訳有]

Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection and Slot Filling ( http://arxiv.org/abs/2012.11689v1 )

ライセンス: CC BY 4.0
Jixuan Wang, Kai Wei, Martin Radfar, Weiwei Zhang, Clement Chung(参考訳) 本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。 具体的には、構文的知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。 本モデルは,自己着脱層とフィードフォワード層に基づいており,推論時に外部の構文情報を必要としない。 実験により、2つのベンチマークデータセットにおいて、2つのトランスフォーマーエンコーダ層しか持たないモデルが最先端の結果を得ることが示された。 事前学習を行わないモデルと比較すると,SNIPSデータセット上でのスロットフィリングとインテント検出において,絶対F1スコアと精度が1.59%,0.85%向上した。 また,本モデルでは,atisデータセットのスロット充填率とインテント検出率について,従来の最良モデルと比較して,絶対的なf1スコアと0.1%,0.34%の精度向上を達成している。 さらに, 自己着力重みの可視化は, 訓練中に統語的情報を取り込むことの利点を示す。

We propose a novel Transformer encoder-based architecture with syntactical knowledge encoded for intent detection and slot filling. Specifically, we encode syntactic knowledge into the Transformer encoder by jointly training it to predict syntactic parse ancestors and part-of-speech of each token via multi-task learning. Our model is based on self-attention and feed-forward layers and does not require external syntactic information to be available at inference time. Experiments show that on two benchmark datasets, our models with only two Transformer encoder layers achieve state-of-the-art results. Compared to the previously best performed model without pre-training, our models achieve absolute F1 score and accuracy improvement of 1.59% and 0.85% for slot filling and intent detection on the SNIPS dataset, respectively. Our models also achieve absolute F1 score and accuracy improvement of 0.1% and 0.34% for slot filling and intent detection on the ATIS dataset, respectively, over the previously best performed model. Furthermore, the visualization of the self-attention weights illustrates the benefits of incorporating syntactic information during training.
翻訳日:2021-04-27 08:31:27 公開日:2020-12-21
# (参考訳) 協調蒸留による画像キャプションにおけるノイズ低減 [全文訳有]

Alleviating Noisy Data in Image Captioning with Cooperative Distillation ( http://arxiv.org/abs/2012.11691v1 )

ライセンス: CC BY 4.0
Pierre Dognin, Igor Melnyk, Youssef Mroueh, Inkit Padhi, Mattia Rigotti, Jarret Ross, Yair Schiff(参考訳) 画像キャプションシステムは、Microsoft COCOやVizwizのような、対応するイメージの正確な記述を持つキュレートされたデータセットが利用可能であることから、大きく進歩している。 残念ながら、このようなきれいにラベル付けされたデータが利用可能でないと、訓練されたアルゴリズムは、画像の詳細に精細で慣用的に特定できるキャプションを生成することになる。 本稿では,クリーンキュレートされたデータセットとgoogle concept captions dataset (gcc) のキャプションを自動抽出した web スケールのキャプションを組み合わせた,画像の記述が乏しいが大きさが豊富で,より表現力に富んだキャプションを生成する新しい技術を提案する。

Image captioning systems have made substantial progress, largely due to the availability of curated datasets like Microsoft COCO or Vizwiz that have accurate descriptions of their corresponding images. Unfortunately, scarce availability of such cleanly labeled data results in trained algorithms producing captions that can be terse and idiosyncratically specific to details in the image. We propose a new technique, cooperative distillation that combines clean curated datasets with the web-scale automatically extracted captions of the Google Conceptual Captions dataset (GCC), which can have poor descriptions of images, but is abundant in size and therefore provides a rich vocabulary resulting in more expressive captions.
翻訳日:2021-04-27 08:15:30 公開日:2020-12-21
# (参考訳) 補助技術としてのイメージキャプション - VizWiz 2020 Challengeから学んだ教訓 [全文訳有]

Image Captioning as an Assistive Technology: Lessons Learned from VizWiz 2020 Challenge ( http://arxiv.org/abs/2012.11696v1 )

ライセンス: CC BY 4.0
Pierre Dognin, Igor Melnyk, Youssef Mroueh, Inkit Padhi, Mattia Rigotti, Jarret Ross, Yair Schiff, Richard A. Young, Brian Belgodere(参考訳) 画像キャプションは最近、MS-COCOのようなキュレートデータセットでトレーニングされたニューラルネットワークアルゴリズムの導入によって、目覚ましい進歩を見せている。 この分野での作業は、実際的な応用におけるキャプションシステムの導入の約束によって動機づけられることが多い。 しかし、多くの競合データセットにおけるデータとコンテキストの不足は、視覚障害者が日常のタスクをナビゲートして達成するのを助けるなど、現実の環境で補助技術として制限されたこれらのデータセットでトレーニングされたシステムの実用性を反映している。 このギャップは、視覚障害者によって撮影された画像と、タスク指向の情報を持つキャプションからなる、新しいVizWizデータセットの導入を動機付けている。 VizWizデータセットのキュレーターは、機械学習コンピュータビジョンフィールドが社会にポジティブな影響を及ぼす技術を生み出すという約束を実現するのを助けるために、画像キャプションを含むいくつかのコンペを開催している。 この研究は、2020年のキャプションコンテストの優勝論文から、その理論とエンジニアリングを詳述している。 我々の研究は、補助画像キャプションシステムの改善に向けた一歩となる。

Image captioning has recently demonstrated impressive progress largely owing to the introduction of neural network algorithms trained on curated dataset like MS-COCO. Often work in this field is motivated by the promise of deployment of captioning systems in practical applications. However, the scarcity of data and contexts in many competition datasets renders the utility of systems trained on these datasets limited as an assistive technology in real-world settings, such as helping visually impaired people navigate and accomplish everyday tasks. This gap motivated the introduction of the novel VizWiz dataset, which consists of images taken by the visually impaired and captions that have useful, task-oriented information. In an attempt to help the machine learning computer vision field realize its promise of producing technologies that have positive social impact, the curators of the VizWiz dataset host several competitions, including one for image captioning. This work details the theory and engineering from our winning submission to the 2020 captioning competition. Our work provides a step towards improved assistive image captioning systems.
翻訳日:2021-04-27 08:11:42 公開日:2020-12-21
# (参考訳) 制約下におけるポートフォリオ配分ポリシーのオフポリシー最適化 [全文訳有]

Off-Policy Optimization of Portfolio Allocation Policies under Constraints ( http://arxiv.org/abs/2012.11715v1 )

ライセンス: CC BY 4.0
Nymisha Bandi and Theja Tulabandhula(参考訳) 金融における動的なポートフォリオ最適化問題は、投資家の好みやリスクによって引き起こされる様々な制約に従う学習ポリシーを必要とすることが多い。 本研究の目的は, 逐次的意思決定枠組み内でアロケーションポリシを見つけることであり, (a) 適用済みのポリシに基づいて収集されたデータを使用すること, (b) 所望の制約を課すこと, (b) ほぼ最適ポリシーをこのデータで計算することである。 筆者らのフレームワークは,オンライン学習戦略を用いて制約違反の制御を行う,ミニマックス目標(minimax objective)の解法に依存している。 我々は,オフ・ポリシー推定とそれに対応する最適化サブルーチンの様々な選択を広範囲に検討し,それらの制約対応割り当てポリシーに対する影響を定量化する。 本研究は,様々な運用・寸法・制約条件の下で,過去の株式データをバックテストした場合の政策構築に有望な結果を示す。

The dynamic portfolio optimization problem in finance frequently requires learning policies that adhere to various constraints, driven by investor preferences and risk. We motivate this problem of finding an allocation policy within a sequential decision making framework and study the effects of: (a) using data collected under previously employed policies, which may be sub-optimal and constraint-violating , and (b) imposing desired constraints while computing near-optimal policies with this data. Our framework relies on solving a minimax objective, where one player evaluates policies via off-policy estimators, and the opponent uses an online learning strategy to control constraint violations. We extensively investigate various choices for off-policy estimation and their corresponding optimization sub-routines, and quantify their impact on computing constraint-aware allocation policies. Our study shows promising results for constructing such policies when back-tested on historical equities data, under various regimes of operation, dimensionality and constraints.
翻訳日:2021-04-27 07:47:55 公開日:2020-12-21
# (参考訳) 変分伝達学習のためのクロスドメイン潜時変調 [全文訳有]

Cross-Domain Latent Modulation for Variational Transfer Learning ( http://arxiv.org/abs/2012.11727v1 )

ライセンス: CC BY 4.0
Jinyong Hou, Jeremiah D. Deng, Stephen Cranefield, Xuejie Ding(参考訳) 本稿では,変分オートエンコーダ(vae)フレームワーク内のクロスドメイン潜在変調機構を提案する。 私たちのキーとなるアイデアは、あるデータドメインから深い表現を取得し、別のドメインで潜在変数の再パラメータ化の摂動として使うことです。 具体的には、まず、ソースとターゲットドメインの深い表現を統一推論モデルで抽出し、勾配反転を用いて整列する。 第二に、学習した深度表現は、代替ドメインの潜時符号化に相互変調される。 次に、修飾潜時符号化からの再構成と深部表現サンプルを用いた生成との整合性を適用し、潜時空間におけるクラス間アライメントを生成する。 提案モデルは,教師なし領域適応や画像から画像への変換など,多くのトランスファー学習タスクに適用する。 実験の結果,本モデルが競争性能をもたらすことがわかった。

We propose a cross-domain latent modulation mechanism within a variational autoencoders (VAE) framework to enable improved transfer learning. Our key idea is to procure deep representations from one data domain and use it as perturbation to the reparameterization of the latent variable in another domain. Specifically, deep representations of the source and target domains are first extracted by a unified inference model and aligned by employing gradient reversal. Second, the learned deep representations are cross-modulated to the latent encoding of the alternate domain. The consistency between the reconstruction from the modulated latent encoding and the generation using deep representation samples is then enforced in order to produce inter-class alignment in the latent space. We apply the proposed model to a number of transfer learning tasks including unsupervised domain adaptation and image-toimage translation. Experimental results show that our model gives competitive performance.
翻訳日:2021-04-27 07:39:33 公開日:2020-12-21
# (参考訳) 不正アプリケーションに対するコストに敏感な半教師付き分類 [全文訳有]

Cost-sensitive Semi-supervised Classification for Fraud Applications ( http://arxiv.org/abs/2012.11743v1 )

ライセンス: CC BY 4.0
Sulaf Elshaar, Samira Sadaoui(参考訳) 本研究では,不正検出領域におけるコスト・センシティブ・ラーニング(CSL)について検討し,不正クラスの誤予測を低減し,その精度を向上させる。 特に,シロと合法入札者の行動が類似していることから,検出が難しいシロ入札詐欺に注目する。 本稿では,ラベル付き不正データの不足に対処するため,SSC(Semi-Supervised Classification)フレームワーク内のCSLについて検討する。 本論文は,詐欺検出のためのSCとSCを統合する最初の試みである。 誤分類エラーのコストを管理するためにメタCSLアプローチを採用し、SSCアルゴリズムは不均衡なデータで訓練する。 実際のシレル入札データセットを用いて、CSLとSSCのハイブリッドモデルの性能を評価し、それらの誤分類誤差と精度を統計的に比較する。 最も効率的なCSL+SSCモデルは、詐欺師の99%を検出でき、総コストは最低であった。

This research explores Cost-Sensitive Learning (CSL) in the fraud detection domain to decrease the fraud class's incorrect predictions and increase its accuracy. Notably, we concentrate on shill bidding fraud that is challenging to detect because the behavior of shill and legitimate bidders are similar. We investigate CSL within the Semi-Supervised Classification (SSC) framework to address the scarcity of labeled fraud data. Our paper is the first attempt to integrate CSL with SSC for fraud detection. We adopt a meta-CSL approach to manage the costs of misclassification errors, while SSC algorithms are trained with imbalanced data. Using an actual shill bidding dataset, we assess the performance of several hybrid models of CSL and SSC and then compare their misclassification error and accuracy rates statistically. The most efficient CSL+SSC model was able to detect 99% of fraudsters and with the lowest total cost.
翻訳日:2021-04-27 07:23:43 公開日:2020-12-21
# (参考訳) ランダム行列を用いたMEM-DFAを用いたO(1)メモリにおけるDNNの訓練 [全文訳有]

Training DNNs in O(1) memory with MEM-DFA using Random Matrices ( http://arxiv.org/abs/2012.11745v1 )

ライセンス: CC BY 4.0
Tien Chu, Kamil Mykitiuk, Miron Szewczyk, Adam Wiktor, Zbigniew Wojna(参考訳) 本稿では,ディープニューラルネットワークのトレーニングにおいて,メモリ消費を一定の複雑性に低減する手法を提案する。 このアルゴリズムは、直接フィードバックアライメント(DFA)とフィードバックアライメント(FA)という、生物学的に妥当なバックプロパゲーション(BP)の代替法に基づいている。 提案手法は, メモリ効率の高い直接フィードバックアライメント(MEM-DFA)であり, DFAの層独立性を高め, 標準BP, FA, DFAとは異なり, 一度に全てのアクティベーションベクトルを格納することができない。 したがって、ニューラルネットワークの層数に関係なく、我々のアルゴリズムのメモリ使用量は一定である。 この方法は計算コストを1つの余分なフォワードパスの定数によってのみ増加させる。 MEM-DFA,BP,FA,DFAは、MNISTおよびCIFAR-10データセットのメモリプロファイルとともに、様々なニューラルネットワークモデル上で評価された。 実験は理論結果と一致し,MEM-DFAのメモリコストが他のアルゴリズムと比較して大幅に低下したことを示す。

This work presents a method for reducing memory consumption to a constant complexity when training deep neural networks. The algorithm is based on the more biologically plausible alternatives of the backpropagation (BP): direct feedback alignment (DFA) and feedback alignment (FA), which use random matrices to propagate error. The proposed method, memory-efficient direct feedback alignment (MEM-DFA), uses higher independence of layers in DFA and allows avoiding storing at once all activation vectors, unlike standard BP, FA, and DFA. Thus, our algorithm's memory usage is constant regardless of the number of layers in a neural network. The method increases the computational cost only by a constant factor of one extra forward pass. The MEM-DFA, BP, FA, and DFA were evaluated along with their memory profiles on MNIST and CIFAR-10 datasets on various neural network models. Our experiments agree with our theoretical results and show a significant decrease in the memory cost of MEM-DFA compared to the other algorithms.
翻訳日:2021-04-27 07:13:00 公開日:2020-12-21
# 視覚推論の物体中心診断

Object-Centric Diagnosis of Visual Reasoning ( http://arxiv.org/abs/2012.11587v1 )

ライセンス: Link先を確認
Jianwei Yang, Jiayuan Mao, Jiajun Wu, Devi Parikh, David D. Cox, Joshua B. Tenenbaum, Chuang Gan(参考訳) 画像に関する質問に答える場合、画像内のきめ細かい内容(オブジェクト、関係性など)を理解するだけでなく、質問の答えを導き出すために視覚的な手がかりを根拠として推論する理由も知る必要があります。 ここ数年、視覚的な質問に対する回答は大幅に進歩しています。 精度が向上するにつれ、これらのモデルが視覚的な推論を基礎づけているのか、トレーニングデータのスプリアス相関を単に活用しているのかを知るには遅れている。 近年, 接地や頑健性といった観点から, この問題に答えようと試みている研究が数多くある。 しかし、そのほとんどは言語側に焦点を当てているか、ピクセルレベルのアテンションマップを粗く研究している。 本稿では,gqaデータセットで提供されるステップワイズオブジェクトの接地アノテーションを活用して,まず,接地とロバスト性,特に視覚面での視覚的推論の体系的オブジェクト中心診断を提案する。 異なるモデル間での広範な比較によると、精度の高いモデルでさえ、オブジェクトを正確にグラウンド化したり、視覚的コンテンツの摂動に頑健なことには向いていない。 対照的に、シンボリックモデルとモジュラモデルは比較的精度の犠牲にもかかわらず、接地性とロバスト性が優れている。 これらの異なる側面を整理するために、さらに診断モデル、すなわちグラフ推論マシンを開発する。 本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。 設計したモデルは、透明性を継承しながら、バニラニューラルシンボリックモデル上の3つのメトリクスすべてのパフォーマンスを改善する。 さらなるアブレーション研究により、この改善は主により正確な画像理解と適切な中間推論監督によるものであることが示唆された。

When answering questions about an image, it not only needs knowing what -- understanding the fine-grained contents (e.g., objects, relationships) in the image, but also telling why -- reasoning over grounding visual cues to derive the answer for a question. Over the last few years, we have seen significant progress on visual question answering. Though impressive as the accuracy grows, it still lags behind to get knowing whether these models are undertaking grounding visual reasoning or just leveraging spurious correlations in the training data. Recently, a number of works have attempted to answer this question from perspectives such as grounding and robustness. However, most of them are either focusing on the language side or coarsely studying the pixel-level attention maps. In this paper, by leveraging the step-wise object grounding annotations provided in the GQA dataset, we first present a systematical object-centric diagnosis of visual reasoning on grounding and robustness, particularly on the vision side. According to the extensive comparisons across different models, we find that even models with high accuracy are not good at grounding objects precisely, nor robust to visual content perturbations. In contrast, symbolic and modular models have a relatively better grounding and robustness, though at the cost of accuracy. To reconcile these different aspects, we further develop a diagnostic model, namely Graph Reasoning Machine. Our model replaces purely symbolic visual representation with probabilistic scene graph and then applies teacher-forcing training for the visual reasoning module. The designed model improves the performance on all three metrics over the vanilla neural-symbolic model while inheriting the transparency. Further ablation studies suggest that this improvement is mainly due to more accurate image understanding and proper intermediate reasoning supervisions.
翻訳日:2021-04-27 06:48:10 公開日:2020-12-21
# LQF:線形二次微調整

LQF: Linear Quadratic Fine-Tuning ( http://arxiv.org/abs/2012.11140v1 )

ライセンス: Link先を確認
Alessandro Achille, Aditya Golatkar, Avinash Ravichandran, Marzia Polito, Stefano Soatto(参考訳) パラメータで線形であり、凸損失関数を最適化して訓練される分類器は、トレーニングデータの変化、初期条件、最適化に関して予測可能な振る舞いを持つ。 このような望ましい特性はディープニューラルネットワーク(DNN)では欠落しており、通常はトレーニング済みモデルの非線形微調整によって訓練される。 従来のDNNの線形化の試みは、興味深い理論的洞察をもたらしたが、標準的な非線形最適化に比べて性能の差が大きいため、その実践には影響を与えなかった。 本稿では,実世界の画像分類タスクのほとんどにおいて,非線形微調整に匹敵する性能を実現する事前学習モデルに対する最初の線形化手法を提案する。 LQFはアーキテクチャの単純な変更、損失関数、最適化が典型的な分類に使われる:ReLUの代わりにLeaky-ReLU、クロスエントロピーの代わりに2乗損失の平均、Kronecker因子化を用いた事前条件付け。 これらの独立性の変化は、非線形微調整の性能に近づくには十分ではない。 組み合わせて使用すると、線形四元数最適化の単純さ、堅牢性、解釈性を享受しながら、同等のパフォーマンスに到達し、低データ構造においてさらに優れている。

Classifiers that are linear in their parameters, and trained by optimizing a convex loss function, have predictable behavior with respect to changes in the training data, initial conditions, and optimization. Such desirable properties are absent in deep neural networks (DNNs), typically trained by non-linear fine-tuning of a pre-trained model. Previous attempts to linearize DNNs have led to interesting theoretical insights, but have not impacted the practice due to the substantial performance gap compared to standard non-linear optimization. We present the first method for linearizing a pre-trained model that achieves comparable performance to non-linear fine-tuning on most of real-world image classification tasks tested, thus enjoying the interpretability of linear models without incurring punishing losses in performance. LQF consists of simple modifications to the architecture, loss function and optimization typically used for classification: Leaky-ReLU instead of ReLU, mean squared loss instead of cross-entropy, and pre-conditioning using Kronecker factorization. None of these changes in isolation is sufficient to approach the performance of non-linear fine-tuning. When used in combination, they allow us to reach comparable performance, and even superior in the low-data regime, while enjoying the simplicity, robustness and interpretability of linear-quadratic optimization.
翻訳日:2021-04-27 06:46:44 公開日:2020-12-21
# SChuBERT: BERTエンコードによるCitation Count予測による文書化

SChuBERT: Scholarly Document Chunks with BERT-encoding boost Citation Count Prediction ( http://arxiv.org/abs/2012.11740v1 )

ライセンス: Link先を確認
Thomas van Dongen, Gideon Maillette de Buy Wenniger, Lambert Schomaker(参考訳) 学術文書の引用数を予測することは学術文書処理における今後の課題である。 この情報の本質的なメリットに加えて、大量の学術文書で安価に利用できるという利点を持つ品質の不完全な代理人として広く利用されている。 以前の研究では、比較的小さなトレーニングデータセットや大きなデータセットで、短い不完全な入力テキストで、引用数を予測していた。 本研究では,オープンアクセスACLアンソロジーコレクションとセマンティック学術文献データベースを併用して,学術文献の大量のコーパスと関連する引用情報を作成し,SChuBERTと呼ばれる新たな引用予測モデルを提案する。 実験では、SChuBERTといくつかの最先端の引用予測モデルを比較し、従来の手法よりも大きなマージンで優れていることを示す。 また,より多くの学習データと,引用数予測のためのより長い入力を用いるメリットを示す。

Predicting the number of citations of scholarly documents is an upcoming task in scholarly document processing. Besides the intrinsic merit of this information, it also has a wider use as an imperfect proxy for quality which has the advantage of being cheaply available for large volumes of scholarly documents. Previous work has dealt with number of citations prediction with relatively small training data sets, or larger datasets but with short, incomplete input text. In this work we leverage the open access ACL Anthology collection in combination with the Semantic Scholar bibliometric database to create a large corpus of scholarly documents with associated citation information and we propose a new citation prediction model called SChuBERT. In our experiments we compare SChuBERT with several state-of-the-art citation prediction models and show that it outperforms previous methods by a large margin. We also show the merit of using more training data and longer input for number of citations prediction.
翻訳日:2021-04-27 06:46:07 公開日:2020-12-21
# グラフの深い生成モデルを用いたlegoの構築

Building LEGO Using Deep Generative Models of Graphs ( http://arxiv.org/abs/2012.11543v1 )

ライセンス: Link先を確認
Rylee Thompson, Elahe Ghalebi, Terrance DeVries, Graham W. Taylor(参考訳) 生成モデルは現在、様々な高品質デジタルアーティファクトの作成に使われている。 しかし、物理オブジェクトの設計における彼らの使用は、あまり注目されていない。 本稿では,シーケンシャルアセンブリの生成モデルを開発するためのプラットフォームとして,建設玩具であるlegoを提唱する。 我々は,人造構造から学習し,視覚的に魅力的な設計を実現できるグラフ構造化ニューラルネットワークに基づく生成モデルを開発した。 私たちのコードは、https://github.com/u oguelph-mlrg/generat ivelegoでリリースされています。

Generative models are now used to create a variety of high-quality digital artifacts. Yet their use in designing physical objects has received far less attention. In this paper, we advocate for the construction toy, LEGO, as a platform for developing generative models of sequential assembly. We develop a generative model based on graph-structured neural networks that can learn from human-built structures and produce visually compelling designs. Our code is released at: https://github.com/u oguelph-mlrg/Generat iveLEGO.
翻訳日:2021-04-27 06:45:50 公開日:2020-12-21
# 健康情報伝達の理解--情報処理における理解可能な深層学習アプローチ

Understanding Health Misinformation Transmission: An Interpretable Deep Learning Approach to Manage Infodemics ( http://arxiv.org/abs/2101.01076v1 )

ライセンス: Link先を確認
Jiaheng Xie, Yidong Chai, Xiao Liu(参考訳) ソーシャルメディア上の健康情報の誤報は、身体的および精神的な健康を破滅させ、健康上の利益を無効化し、潜在的に生命を犠牲にする。 医療情報の伝達方法を理解することは、研究者、ソーシャルメディアプラットフォーム、医療セクター、政策立案者にとって、これらの影響を緩和するための緊急の目標である。 誤情報の拡散を予測するための深層学習手法が展開されている。 最先端の予測性能を達成する一方で、深層学習法はブラックボックスの性質による解釈性を欠いている。 そこで本研究では,新しい解釈可能な深層学習手法であるgenerative adversarial network based piecewise wide and attention deep learning (gan-piwad)を提案する。 最先端の解釈方法の改善により、gan-piwadはマルチモーダルデータ間のインタラクションをキャプチャし、各特徴の総効果を偏りなく推定し、その値が変化すると各特徴の動的総効果をモデル化する。 社会交換理論に基づいて特徴を選定し,4,445個の誤報ビデオ上でGAN-PiWADを評価する。 提案手法は強力なベンチマークを上回った。 GAN-PiWADの解釈は、ビデオ記述、負の映像コンテンツ、チャンネルの信頼性が、誤情報のウイルス感染を引き起こす重要な特徴であることを示している。 本研究は、他の人間の決定要因を理解するために一般化可能な、新しい解釈可能な深層学習手法でISに貢献する。 本研究は,ソーシャルメディアプラットフォームや政策立案者に対して,誤情報を識別し,伝達を制御し,インフォデミクスを管理するための積極的な介入をデザインする直接的意義を与える。

Health misinformation on social media devastates physical and mental health, invalidates health gains, and potentially costs lives. Understanding how health misinformation is transmitted is an urgent goal for researchers, social media platforms, health sectors, and policymakers to mitigate those ramifications. Deep learning methods have been deployed to predict the spread of misinformation. While achieving the state-of-the-art predictive performance, deep learning methods lack the interpretability due to their blackbox nature. To remedy this gap, this study proposes a novel interpretable deep learning approach, Generative Adversarial Network based Piecewise Wide and Attention Deep Learning (GAN-PiWAD), to predict health misinformation transmission in social media. Improving upon state-of-the-art interpretable methods, GAN-PiWAD captures the interactions among multi-modal data, offers unbiased estimation of the total effect of each feature, and models the dynamic total effect of each feature when its value varies. We select features according to social exchange theory and evaluate GAN-PiWAD on 4,445 misinformation videos. The proposed approach outperformed strong benchmarks. Interpretation of GAN-PiWAD indicates video description, negative video content, and channel credibility are key features that drive viral transmission of misinformation. This study contributes to IS with a novel interpretable deep learning method that is generalizable to understand other human decision factors. Our findings provide direct implications for social media platforms and policymakers to design proactive interventions to identify misinformation, control transmissions, and manage infodemics.
翻訳日:2021-04-27 06:45:44 公開日:2020-12-21
# 深層位相検索のための展開アルゴリズム

Unfolded Algorithms for Deep Phase Retrieval ( http://arxiv.org/abs/2012.11102v1 )

ライセンス: Link先を確認
Naveed Naimipour, Shahin Khobahi, Mojtaba Soltanalian(参考訳) 位相探索というアイデアは、広範囲のアプリケーションに現れるため、何十年もの間、研究者の興味を惹きつけてきた。 位相探索アルゴリズムの課題は、通常、線形位相レス測定から信号を回復することである。 本稿では,unfolded phase retrieval (upr) と呼ばれるハイブリッドモデルに基づくデータ駆動型ディープアーキテクチャを提案し,最新データ駆動型およびモデルベースフェーズ検索アルゴリズムの性能向上に有意な可能性を示す。 提案手法は、モデルベースアルゴリズムの汎用性と解釈可能性から恩恵を受けると同時に、深層ニューラルネットワークの表現力から恩恵を受ける。 特に,提案するモデルに基づくディープ・アーキテクチャは,従来の位相探索問題(インクリメンタル・リフォーム・ワーチンガー・フロー・アルゴリズム)とスパース位相検索問題(スパース・トラクテッド・振幅・フロー・アルゴリズム)に適用され,両ケースで有望な結果が得られた。 さらに,センシングマトリクスと信号処理アルゴリズムの合同設計について検討し,その過程での深い展開法を応用した。 計算結果は,このようなハイブリッドモデルとデータ駆動型フレームワークの有効性を示し,既存の位相探索アルゴリズムを強化するために,データ支援手法の未使用の可能性を示す。

Exploring the idea of phase retrieval has been intriguing researchers for decades, due to its appearance in a wide range of applications. The task of a phase retrieval algorithm is typically to recover a signal from linear phaseless measurements. In this paper, we approach the problem by proposing a hybrid model-based data-driven deep architecture, referred to as Unfolded Phase Retrieval (UPR), that exhibits significant potential in improving the performance of state-of-the art data-driven and model-based phase retrieval algorithms. The proposed method benefits from versatility and interpretability of well-established model-based algorithms, while simultaneously benefiting from the expressive power of deep neural networks. In particular, our proposed model-based deep architecture is applied to the conventional phase retrieval problem (via the incremental reshaped Wirtinger flow algorithm) and the sparse phase retrieval problem (via the sparse truncated amplitude flow algorithm), showing immense promise in both cases. Furthermore, we consider a joint design of the sensing matrix and the signal processing algorithm and utilize the deep unfolding technique in the process. Our numerical results illustrate the effectiveness of such hybrid model-based and data-driven frameworks and showcase the untapped potential of data-aided methodologies to enhance the existing phase retrieval algorithms.
翻訳日:2021-04-27 06:45:16 公開日:2020-12-21
# 顔面微小表現解析の概観 : データ, 方法論, 課題

An Overview of Facial Micro-Expression Analysis: Data, Methodology and Challenge ( http://arxiv.org/abs/2012.11307v1 )

ライセンス: Link先を確認
Hong-Xia Xie, Ling Lo, Hong-Han Shuai and Wen-Huang Cheng(参考訳) 顔の微小表現は、感情的なコミュニケーション中に現れる簡潔で微妙な顔の動きを示す。 マクロ表現と比較して、マイクロ表現は短い時間ときめ細かい変化のために分析することがより困難である。 近年、マイクロ表現認識(mer)は、例えば、幅広い応用にメリットがあるため、多くの注目を集めている。 警察の尋問、臨床診断、抑うつ分析、ビジネスネゴシエーション。 本調査では,近年のMERタスクにおける新たな研究の方向性と課題について概説する。 例えば、merアプローチをマクロからマイクロへの適応、キー頂点フレームに基づく認識、顔行動単位に基づく認識という3つの新しい側面から検討する。 さらに, 限定的および偏りのあるmeデータの問題を緩和するために, マイクロ表現データの多様性向上のための合成データ生成法について検討した。 マイクロ表現スポッティングによってマイクロ表現解析が促進されるため,本稿では最先端のスポッティング技術も紹介する。 最終的に、mer研究の課題を議論し、潜在的な解決策とさらなる調査の方向性を提供する。

Facial micro-expressions indicate brief and subtle facial movements that appear during emotional communication. In comparison to macro-expressions, micro-expressions are more challenging to be analyzed due to the short span of time and the fine-grained changes. In recent years, micro-expression recognition (MER) has drawn much attention because it can benefit a wide range of applications, e.g. police interrogation, clinical diagnosis, depression analysis, and business negotiation. In this survey, we offer a fresh overview to discuss new research directions and challenges these days for MER tasks. For example, we review MER approaches from three novel aspects: macro-to-micro adaptation, recognition based on key apex frames, and recognition based on facial action units. Moreover, to mitigate the problem of limited and biased ME data, synthetic data generation is surveyed for the diversity enrichment of micro-expression data. Since micro-expression spotting can boost micro-expression analysis, the state-of-the-art spotting works are also introduced in this paper. At last, we discuss the challenges in MER research and provide potential solutions as well as possible directions for further investigation.
翻訳日:2021-04-27 06:43:57 公開日:2020-12-21
# SENTRY: 教師なしドメイン適応のための委員会一貫性による選択エントロピー最適化

SENTRY: Selective Entropy Optimization via Committee Consistency for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2012.11460v1 )

ライセンス: Link先を確認
Viraj Prabhu, Shivam Khare, Deeksha Kartik, Judy Hoffman(参考訳) 教師なしドメイン適応(UDA)のための多くの既存のアプローチは、データ分散シフトのみの下で適応することに焦点を当てており、追加のドメインラベル分散シフトの下では限定的な成功を提供する。 ターゲットの擬似ラベルを用いた自己学習に基づく最近の研究では、promiseが示されているが、難しいシフトでは、疑似ラベルは信頼性が低く、自己学習に使用するとエラーの蓄積やドメインの誤認を引き起こす可能性がある。 本研究では,ランダム画像変換委員会において,その予測一貫性に基づいて対象インスタンスの信頼性を判定するudaアルゴリズムである委員会一貫性(sentry)による選択的エントロピー最適化を提案する。 提案アルゴリズムは,予測エントロピーを選択的に最小化し,高い一貫性のあるターゲットインスタンスに対する信頼性を高めるとともに,予測エントロピーを最大化し,高い一貫性のないインスタンスに対する信頼性を低減する。 擬似ラベルに基づく近似的クラスバランスと組み合わせることで,標準的なUDAベンチマークや,ラベル分布シフト下でのストレス-テスト適応を目的としたベンチマークから,27/31ドメインシフトの最先端よりも大幅に向上した。

Many existing approaches for unsupervised domain adaptation (UDA) focus on adapting under only data distribution shift and offer limited success under additional cross-domain label distribution shift. Recent work based on self-training using target pseudo-labels has shown promise, but on challenging shifts pseudo-labels may be highly unreliable, and using them for self-training may cause error accumulation and domain misalignment. We propose Selective Entropy Optimization via Committee Consistency (SENTRY), a UDA algorithm that judges the reliability of a target instance based on its predictive consistency under a committee of random image transformations. Our algorithm then selectively minimizes predictive entropy to increase confidence on highly consistent target instances, while maximizing predictive entropy to reduce confidence on highly inconsistent ones. In combination with pseudo-label based approximate target class balancing, our approach leads to significant improvements over the state-of-the-art on 27/31 domain shifts from standard UDA benchmarks as well as benchmarks designed to stress-test adaptation under label distribution shift.
翻訳日:2021-04-27 06:43:43 公開日:2020-12-21
# 教師なし表現学習のためのオンラインビジュアルワード生成

Online Bag-of-Visual-Words Generation for Unsupervised Representation Learning ( http://arxiv.org/abs/2012.11552v1 )

ライセンス: Link先を確認
Spyros Gidaris, Andrei Bursuc, Gilles Puy, Nikos Komodakis, Matthieu Cord, Patrick P\'erez(参考訳) 人間の監督なしに画像表現を学ぶことは重要かつ活発な研究分野である。 最近のいくつかのアプローチは、このような表現を異なるタイプの摂動の下で不変にするというアイデアをうまく活用している。 効果的な視覚表現は、実際にそのような不変性を示すべきであるが、文脈推論スキルを符号化するなど、代替的な再構成に基づくアプローチがより適している、その他の重要な特徴がある。 このことを念頭において,同画像の摂動バージョンを入力として与えられた画像のbag-of-visual-words( BoW)表現を再構成するために,コンネットを訓練して表現を学習する教師学習方式を提案する。 私たちの戦略は、教師ネットワーク(弓のターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、視覚単語語彙のオンライン更新(弓のターゲットに使用される)を行います。 このアイデアは、完全にオンラインのBoW誘導型教師なし学習を可能にする。 複数のアプリケーションにおいて、従来の最先端の手法(対照的な手法を含む)を超越したBoWベースの戦略の関心を示している。 例えば、Pascalオブジェクト検出、Pascal分類、Places205分類などの下流タスクでは、従来の教師なしアプローチよりも改善され、教師付き事前学習よりもはるかに優れた新しい最先端の結果が確立される。 実装コードはhttps://github.com/v aleoai/obowで提供します。

Learning image representations without human supervision is an important and active research field. Several recent approaches have successfully leveraged the idea of making such a representation invariant under different types of perturbations, especially via contrastive-based instance discrimination training. Although effective visual representations should indeed exhibit such invariances, there are other important characteristics, such as encoding contextual reasoning skills, for which alternative reconstruction-based approaches might be better suited. With this in mind, we propose a teacher-student scheme to learn representations by training a convnet to reconstruct a bag-of-visual-words (BoW) representation of an image, given as input a perturbed version of that same image. Our strategy performs an online training of both the teacher network (whose role is to generate the BoW targets) and the student network (whose role is to learn representations), along with an online update of the visual-words vocabulary (used for the BoW targets). This idea effectively enables fully online BoW-guided unsupervised learning. Extensive experiments demonstrate the interest of our BoW-based strategy which surpasses previous state-of-the-art methods (including contrastive-based ones) in several applications. For instance, in downstream tasks such Pascal object detection, Pascal classification and Places205 classification, our method improves over all prior unsupervised approaches, thus establishing new state-of-the-art results that are also significantly better even than those of supervised pre-training. We provide the implementation code at https://github.com/v aleoai/obow.
翻訳日:2021-04-27 06:43:22 公開日:2020-12-21
# がん検出のための全スライド画像の深層学習における自然対平衡分布

Natural vs Balanced Distribution in Deep Learning on Whole Slide Images for Cancer Detection ( http://arxiv.org/abs/2012.11684v1 )

ライセンス: Link先を確認
Ismat Ara Reshma, Sylvain Cussat-Blanc, Radu Tudor Ionescu, Herv\'e Luga, Josiane Mothe(参考訳) データのクラス分布は、機械学習モデルのパフォーマンスを規制する要因の1つである。 しかし、文献で利用可能な異なる分布の影響に関する調査はほとんどなく、時にはドメイン固有のタスクに欠けている。 本稿では,Deep Learning(DL)モデルにおける学習セットの自然分布とバランス分布の影響を組織像(全スライド画像(WSI)とも呼ばれる)に適用して解析する。 WSIはがん診断の金の標準とされている。 近年、研究者は診断プロセスの自動化と加速のためにdlモデルに注意を向けている。 このようなdlモデルのトレーニングでは、wsisから非関心領域を除外し、人工分布(通常はバランス分布)を採用することが一般的な傾向である。 本分析では,WSIsデータを通常の分布(自然分布と呼ぶ)に保持することで,FPsがFNsに匹敵する偽陰性(False negatives, FNs)が,人工的に得られた平衡分布よりも少なくなることを示す。 本研究では,各分布に対して10個のランダムな折り畳みを持つ実験的検討を行い,結果の平均性能レベルを5つの異なる評価基準で比較した。 実験の結果,全ての評価指標のバランスの取れた値に対する自然分布の有効性が示された。

The class distribution of data is one of the factors that regulates the performance of machine learning models. However, investigations on the impact of different distributions available in the literature are very few, sometimes absent for domain-specific tasks. In this paper, we analyze the impact of natural and balanced distributions of the training set in deep learning (DL) models applied on histological images, also known as whole slide images (WSIs). WSIs are considered as the gold standard for cancer diagnosis. In recent years, researchers have turned their attention to DL models to automate and accelerate the diagnosis process. In the training of such DL models, filtering out the non-regions-of-inter est from the WSIs and adopting an artificial distribution (usually, a balanced distribution) is a common trend. In our analysis, we show that keeping the WSIs data in their usual distribution (which we call natural distribution) for DL training produces fewer false positives (FPs) with comparable false negatives (FNs) than the artificially-obtaine d balanced distribution. We conduct an empirical comparative study with 10 random folds for each distribution, comparing the resulting average performance levels in terms of five different evaluation metrics. Experimental results show the effectiveness of the natural distribution over the balanced one across all the evaluation metrics.
翻訳日:2021-04-27 06:42:57 公開日:2020-12-21
# オープンワールドにおける自己学習のアウト・ディストリビューション

Out-distribution aware Self-training in an Open World Setting ( http://arxiv.org/abs/2012.12372v1 )

ライセンス: Link先を確認
Maximilian Augustin, Matthias Hein(参考訳) ディープラーニングは、さらなる改善を制限する大きなラベル付きデータセットに大きく依存する。 ラベルなしデータは、特に画像認識において大量に利用可能であるが、ラベルなしデータはタスク関連であるという半教師付き学習のクローズドワールド仮定を満たさない。 本研究の目的は,未ラベルデータを利用したオープンワールド環境での予測性能の向上である。 そこで本研究では,分類器の信頼度に基づく注意深いサンプル選択戦略を含む,分散型自己学習を提案する。 通常の自己学習は予測性能を低下させるが,本手法はラベル付きデータの最大15倍の精度で改善する。 さらに, 分類器は, アウト・ディストリビューション・アウェアメントを設計することで, タスク関連入力と非関連入力を区別することができる。

Deep Learning heavily depends on large labeled datasets which limits further improvements. While unlabeled data is available in large amounts, in particular in image recognition, it does not fulfill the closed world assumption of semi-supervised learning that all unlabeled data are task-related. The goal of this paper is to leverage unlabeled data in an open world setting to further improve prediction performance. For this purpose, we introduce out-distribution aware self-training, which includes a careful sample selection strategy based on the confidence of the classifier. While normal self-training deteriorates prediction performance, our iterative scheme improves using up to 15 times the amount of originally labeled data. Moreover, our classifiers are by design out-distribution aware and can thus distinguish task-related inputs from unrelated ones.
翻訳日:2021-04-27 06:42:34 公開日:2020-12-21
# AttentionLite: ビジョンのための効率的な自己注意モデルを目指して

AttentionLite: Towards Efficient Self-Attention Models for Vision ( http://arxiv.org/abs/2101.05216v1 )

ライセンス: Link先を確認
Souvik Kundu, Sairam Sundaresan(参考訳) 本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。 先行研究は主に、知識蒸留または刈り取りによるモデルの最適化に重点を置いてきた。 これら2つの機構を融合することに加えて, 共用最適化フレームワークでは, 畳み込みの代用として近年の自己着脱の進歩も活用している。 計算量の多い教師から知識を同時に蒸留すると同時に,学生モデルを1パスの訓練で刈り込み,トレーニングや微調整の時間を大幅に短縮する。 CIFAR-10, CIFAR-100, Tiny-ImageNetデータセットに対する提案手法の有効性を評価する。 アテンションライトモデルは、最適化されていないモデルの精度を大幅に上回っているだけでなく、一部のパラメータとフラップを消費しながら、計算量の多い先生とほぼ同等の性能を発揮する場合もあります。 具体的には、AttentionLiteモデルは教師に比べて精度が低下することなく、最大30倍のパラメータ効率と2倍の計算効率を達成することができる。

We propose a novel framework for producing a class of parameter and compute efficient models called AttentionLitesuitabl e for resource-constrained applications. Prior work has primarily focused on optimizing models either via knowledge distillation or pruning. In addition to fusing these two mechanisms, our joint optimization framework also leverages recent advances in self-attention as a substitute for convolutions. We can simultaneously distill knowledge from a compute-heavy teacher while also pruning the student model in a single pass of training thereby reducing training and fine-tuning times considerably. We evaluate the merits of our proposed approach on the CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets. Not only do our AttentionLite models significantly outperform their unoptimized counterparts in accuracy, we find that in some cases, that they perform almost as well as their compute-heavy teachers while consuming only a fraction of the parameters and FLOPs. Concretely, AttentionLite models can achieve upto30x parameter efficiency and 2x computation efficiency with no significant accuracy drop compared to their teacher.
翻訳日:2021-04-27 06:42:20 公開日:2020-12-21
# なぜ」の関連について なぜそうでないのか? 解説

On Relating 'Why?' and 'Why Not?' Explanations ( http://arxiv.org/abs/2012.11067v1 )

ライセンス: Link先を確認
Alexey Ignatiev, Nina Narodytska, Nicholas Asher, Joao Marques-Silva(参考訳) 機械学習(ML)モデルの説明は、しばしば「なぜ」に対処する。 質問だ このような説明は、予測に十分な特徴値対を選択することに関連付けられる。 最近の研究は「なぜそうでないのか」の説明を調査している。 質問、i.e. 予測の変化を保証する特徴値の変化を見つけること。 彼らの目標を考えると、これらの2種類のMLモデルの予測は、ほとんど無関係であるように見える。 しかし、この論文はそれ以外を実証し、「なぜ」の厳格な関係を確立している。 なぜそうでないのか? 説明だ 具体的には、この論文は、どんな事例でも「なぜ?」と証明している。 説明は「なぜしないのか」の最小セットである。 説明と逆説。 さらに, 両形態の説明を抽出し, 列挙する新しいアルゴリズムを考案する。

Explanations of Machine Learning (ML) models often address a 'Why?' question. Such explanations can be related with selecting feature-value pairs which are sufficient for the prediction. Recent work has investigated explanations that address a 'Why Not?' question, i.e. finding a change of feature values that guarantee a change of prediction. Given their goals, these two forms of explaining predictions of ML models appear to be mostly unrelated. However, this paper demonstrates otherwise, and establishes a rigorous formal relationship between 'Why?' and 'Why Not?' explanations. Concretely, the paper proves that, for any given instance, 'Why?' explanations are minimal hitting sets of 'Why Not?' explanations and vice-versa. Furthermore, the paper devises novel algorithms for extracting and enumerating both forms of explanations.
翻訳日:2021-04-27 06:42:03 公開日:2020-12-21
# 変分量子クローニング:量子クリプトアナリシスの実用性の向上

Variational Quantum Cloning: Improving Practicality for Quantum Cryptanalysis ( http://arxiv.org/abs/2012.11424v1 )

ライセンス: Link先を確認
Brian Coyle, Mina Doosti, Elham Kashefi, Niraj Kumar(参考訳) 標準的な量子暗号システムにおけるクリプトアナリシスは、一般に、基盤となるプロトコル上で最適な敵攻撃戦略を見つけることを伴う。 多くの場合、量子攻撃をモデル化する基本原理は、いくつかの意味のある秘密情報の抽出を容易にする未知の量子状態のクローン化能力に還元される。 明示的な最適な攻撃戦略は一般に大きな回路深度のために高い計算資源を必要とするか、多くの場合不明である。 本研究では,量子機械学習に基づく暗号解析アルゴリズムである変分量子クローニング(VQC)を提案する。 このアルゴリズムは、理論的保証、量子回路構造学習、勾配降下に基づく最適化を含む運用上の有意義なコスト関数を含む。 この手法により,量子状態の特定の族をクローンするハードウェア効率の良い量子回路をエンドツーエンドで発見することが可能となり,量子ハードウェア上で実装されたfideliteのクローン化が改善される。 最後に、これらの結果を量子暗号プリミティブ、特に量子コインの反転に結びつける。 量子クローニングとVQCの促進による2つのプロトコルの攻撃を例として導いた。 その結果、近似量子クローニングを資源として、これらのプロトコルの短期攻撃を改善することができる。

Cryptanalysis on standard quantum cryptographic systems generally involves finding optimal adversarial attack strategies on the underlying protocols. The core principle of modelling quantum attacks in many cases reduces to the adversary's ability to clone unknown quantum states which facilitates the extraction of some meaningful secret information. Explicit optimal attack strategies typically require high computational resources due to large circuit depths or, in many cases, are unknown. In this work, we propose variational quantum cloning (VQC), a quantum machine learning based cryptanalysis algorithm which allows an adversary to obtain optimal (approximate) cloning strategies with short depth quantum circuits, trained using hybrid classical-quantum techniques. The algorithm contains operationally meaningful cost functions with theoretical guarantees, quantum circuit structure learning and gradient descent based optimisation. Our approach enables the end-to-end discovery of hardware efficient quantum circuits to clone specific families of quantum states, which in turn leads to an improvement in cloning fidelites when implemented on quantum hardware: the Rigetti Aspen chip. Finally, we connect these results to quantum cryptographic primitives, in particular quantum coin flipping. We derive attacks on two protocols as examples, based on quantum cloning and facilitated by VQC. As a result, our algorithm can improve near term attacks on these protocols, using approximate quantum cloning as a resource.
翻訳日:2021-04-27 06:41:55 公開日:2020-12-21
# リアルタイム人工知能アプリケーションにおけるタスクのための高速エッジベース同期器

A Fast Edge-Based Synchronizer for Tasks in Real-Time Artificial Intelligence Applications ( http://arxiv.org/abs/2012.11731v1 )

ライセンス: Link先を確認
Richard Olaniyan and Muthucumaru Maheswaran(参考訳) エッジコンピューティングにマッピングされたリアルタイム人工知能(AI)アプリケーションは、利用可能なデバイスを使用しながら、所定のバウンド内でデータキャプチャ、データ処理、デバイスアクティベーションを実行する必要がある。 デバイス間のタスク同期は、キャプチャされたデータの品質、データの処理時間、アクティベーションの品質を決定することによって、AIアプリケーションのタイムリーな進捗に影響を与える重要な問題である。 本稿では,入力出力タスクの実行と計算タスクの時間的整合が可能な,エッジベースの高速同期方式を提案する。 高速同期器の第一のアイデアは、デバイスをタスク実行時に高度に同期するグループにまとめ、ゲーム理論的な解法を用いて、静的に少数の同期点を決定することである。 デバイスのクラスタは、遅延通知プロトコルを使用して、予め計算された同期ポイントのベストポイントを選択し、できるだけ早くタイムアラインなタスク実行に到達する。 トレース駆動型シミュレーションを用いて同期方式の性能を評価し,実時間AIアプリケーションタスクの分散同期方式との比較を行った。 同期方式を実装し、トレーニング精度とトレーニング時間を他のパラメータサーバ同期フレームワークと比較する。

Real-time artificial intelligence (AI) applications mapped onto edge computing need to perform data capture, process data, and device actuation within given bounds while using the available devices. Task synchronization across the devices is an important problem that affects the timely progress of an AI application by determining the quality of the captured data, time to process the data, and the quality of actuation. In this paper, we develop a fast edge-based synchronization scheme that can time align the execution of input-output tasks as well compute tasks. The primary idea of the fast synchronizer is to cluster the devices into groups that are highly synchronized in their task executions and statically determine few synchronization points using a game-theoretic solver. The cluster of devices use a late notification protocol to select the best point among the pre-computed synchronization points to reach a time aligned task execution as quickly as possible. We evaluate the performance of our synchronization scheme using trace-driven simulations and we compare the performance with existing distributed synchronization schemes for real-time AI application tasks. We implement our synchronization scheme and compare its training accuracy and training time with other parameter server synchronization frameworks.
翻訳日:2021-04-27 06:41:16 公開日:2020-12-21
# 容積3次元ct手荷物検診画像におけるコントラバンド材料検出

Contraband Materials Detection Within Volumetric 3D Computed Tomography Baggage Security Screening Imagery ( http://arxiv.org/abs/2012.11753v1 )

ライセンス: Link先を確認
Qian Wang, Toby P. Breckon(参考訳) 2D/3D X線CT(CT)における物体の自動検出は、チェックポイントでの航空安全スクリーニングを強化するために文献で研究されている。 深部畳み込みニューラルネットワーク(CNN)は2次元X線画像において優れた性能を示した。 しかし、深層ニューラルネットワークが3次元CTバッグスキャン画像内の物質検出でどのように機能するかは、非常に限定的な証拠が存在する。 本稿では,このギャップを3次元コントラバンド物質検出にディープニューラルネットワークを適用することで解消する。 具体的には、3次元セマンティックセグメンテーション問題として定式化し、コントラバンド材料を検出可能な全てのボクセルの材料タイプを特定する。 そこで本研究では,まず3D U-Netなどの3次元CNNに基づくセマンティックセマンティックセマンティクスアルゴリズムについて検討する。 従来の3次元CTデータの高密度表現形式とは対照的に,我々はCTボリュームを疎点クラウドに変換し,ポイントネット++などの点クラウド処理アプローチをより効率的な処理に活用することを提案する。 公開データセット(NEU ATR)の実験結果は,3次元CT画像の材料検出における3次元U-NetとPointNet++の有効性を示した。

Automatic prohibited object detection within 2D/3D X-ray Computed Tomography (CT) has been studied in literature to enhance the aviation security screening at checkpoints. Deep Convolutional Neural Networks (CNN) have demonstrated superior performance in 2D X-ray imagery. However, there exists very limited proof of how deep neural networks perform in materials detection within volumetric 3D CT baggage screening imagery. We attempt to close this gap by applying Deep Neural Networks in 3D contraband substance detection based on their material signatures. Specifically, we formulate it as a 3D semantic segmentation problem to identify material types for all voxels based on which contraband materials can be detected. To this end, we firstly investigate 3D CNN based semantic segmentation algorithms such as 3D U-Net and its variants. In contrast to the original dense representation form of volumetric 3D CT data, we propose to convert the CT volumes into sparse point clouds which allows the use of point cloud processing approaches such as PointNet++ towards more efficient processing. Experimental results on a publicly available dataset (NEU ATR) demonstrate the effectiveness of both 3D U-Net and PointNet++ in materials detection in 3D CT imagery for baggage security screening.
翻訳日:2021-04-27 06:40:37 公開日:2020-12-21
# 強対数凹分布に対するジグザグサンプリングアルゴリズムの複雑さ

Complexity of zigzag sampling algorithm for strongly log-concave distributions ( http://arxiv.org/abs/2012.11094v1 )

ライセンス: Link先を確認
Jianfeng Lu and Lihan Wang(参考訳) 強対数凹分布に対するジグザグサンプリングアルゴリズムの計算複雑性について検討した。 zigzagプロセスは、実装に時間的離散化を必要とせず、それぞれのバウンシングイベントはポテンシャルの部分微分の1つの評価しか必要とせず、その収束率は次元に依存しないという利点がある。 これらの特性を用いて、ジグザグサンプリングアルゴリズムは、計算コストが$O\bigl(\kappa^2 d^\frac{1}{2}(\log\frac{1}{\varepsilon})^{\frac{3}{2}}\bigr)$gradient evaluations in the regime $\kappa \ll \frac{d}{\log d}$ in a warm start assumption, where $\kappa$ is the condition number and $d$ is the dimension.

We study the computational complexity of zigzag sampling algorithm for strongly log-concave distributions. The zigzag process has the advantage of not requiring time discretization for implementation, and that each proposed bouncing event requires only one evaluation of partial derivative of the potential, while its convergence rate is dimension independent. Using these properties, we prove that the zigzag sampling algorithm achieves $\varepsilon$ error in chi-square divergence with a computational cost equivalent to $O\bigl(\kappa^2 d^\frac{1}{2}(\log\frac{1}{\varepsilon})^{\frac{3}{2}}\bigr)$ gradient evaluations in the regime $\kappa \ll \frac{d}{\log d}$ under a warm start assumption, where $\kappa$ is the condition number and $d$ is the dimension.
翻訳日:2021-04-27 06:40:19 公開日:2020-12-21
# 変分輸送:分布最適化のための収束粒子に基づくアルゴリズム

Variational Transport: A Convergent Particle-BasedAlgori thm for Distributional Optimization ( http://arxiv.org/abs/2012.11554v1 )

ライセンス: Link先を確認
Zhuoran Yang, Yufeng Zhang, Yongxin Chen, Zhaoran Wang(参考訳) 確率分布の族上で定義された関数を最小化する最適化問題を考える。 このような分布最適化問題は、モンテカルロサンプリング、変分推論、ポリシー最適化、生成的敵ネットワークを例に、機械学習や統計学において広く発生する。 本研究では,粒子群を反復的に押すことにより,確率分布の多様体上でワッサースタイン勾配降下を近似的に行う,変分移動と呼ばれる新しい粒子ベースアルゴリズムを提案する。 具体的には、二階ワッサースタイン距離に対する機能勾配の方向への測地線に沿っての移動は、確率分布にプッシュフォワードマッピングを適用することと同値であり、粒子の集合を押して正確に近似できることを証明する。 具体的には, 変分輸送の各反復において, まず, 粒子を用いて目的関数に関連する変分問題を解き, その解がワッサーシュタイン勾配方向を導く。 次に,各粒子をそのような溶液で指定された方向に沿って押し付けて電流分布を更新する。 ワッサーシュタイン勾配の推定における統計的誤差と最適化アルゴリズムの進歩の両方を特徴付けることにより、目的関数がポリアック-\L{}ojasiewicz (PL) (ポリアック, 1963) の関数バージョンを満たすとき、変動輸送は、ある統計誤差まで線形に収束し、粒子の数が無限大になるにつれて、下位に崩壊する。

We consider the optimization problem of minimizing a functional defined over a family of probability distributions, where the objective functional is assumed to possess a variational form. Such a distributional optimization problem arises widely in machine learning and statistics, with Monte-Carlo sampling, variational inference, policy optimization, and generative adversarial network as examples. For this problem, we propose a novel particle-based algorithm, dubbed as variational transport, which approximately performs Wasserstein gradient descent over the manifold of probability distributions via iteratively pushing a set of particles. Specifically, we prove that moving along the geodesic in the direction of functional gradient with respect to the second-order Wasserstein distance is equivalent to applying a pushforward mapping to a probability distribution, which can be approximated accurately by pushing a set of particles. Specifically, in each iteration of variational transport, we first solve the variational problem associated with the objective functional using the particles, whose solution yields the Wasserstein gradient direction. Then we update the current distribution by pushing each particle along the direction specified by such a solution. By characterizing both the statistical error incurred in estimating the Wasserstein gradient and the progress of the optimization algorithm, we prove that when the objective function satisfies a functional version of the Polyak-\L{}ojasiewicz (PL) (Polyak, 1963) and smoothness conditions, variational transport converges linearly to the global minimum of the objective functional up to a certain statistical error, which decays to zero sublinearly as the number of particles goes to infinity.
翻訳日:2021-04-27 06:39:50 公開日:2020-12-21
# labプロトコルの名前付きエンティティ認識のためのドメイン固有bert表現

Domain specific BERT representation for Named Entity Recognition of lab protocol ( http://arxiv.org/abs/2012.11145v1 )

ライセンス: Link先を確認
Tejas Vaidhya and Ayush Kaushal(参考訳) 表現からプロパティを予測するようにトレーニングされた教師付きモデルは、様々なタスクで高い精度を達成しています。 例えば、BERTファミリーは、NERタグ付けから他の言語タスクの範囲まで、下流タスクで非常にうまく機能しているようです。 しかし、医学分野で使われる語彙には、異なる疾患、装置、生物、医薬品など、医療業界でのみ使用される多くの異なるトークンが含まれている。 これにより、従来のBERTモデルがコンテキスト化された埋め込みを作成するのが難しくなる。 本稿では,Bio-Bert に基づく Entity Tagging システムについて解説する。 実験の結果,本モデルはベースラインよりも大幅に改善し,f1得点では第4位に,リコールでは第1位に,最下位では2.21f1に留まった。

Supervised models trained to predict properties from representations have been achieving high accuracy on a variety of tasks. For instance, the BERT family seems to work exceptionally well on the downstream task from NER tagging to the range of other linguistic tasks. But the vocabulary used in the medical field contains a lot of different tokens used only in the medical industry such as the name of different diseases, devices, organisms, medicines, etc. that makes it difficult for traditional BERT model to create contextualized embedding. In this paper, we are going to illustrate the System for Named Entity Tagging based on Bio-Bert. Experimental results show that our model gives substantial improvements over the baseline and stood the fourth runner up in terms of F1 score, and first runner up in terms of Recall with just 2.21 F1 score behind the best one.
翻訳日:2021-04-27 06:39:02 公開日:2020-12-21
# 複数粒度表現を出力する文書終端レベルニューラルディスコースパーザ

An End-to-End Document-Level Neural Discourse Parser Exploiting Multi-Granularity Representations ( http://arxiv.org/abs/2012.11169v1 )

ライセンス: Link先を確認
Ke Shi, Zhengyuan Liu, Nancy F. Chen(参考訳) RST(Rhetorical Structure Theory)に従って、文書レベルの言論解析は依然として難しい。 課題には、文書レベルの談話木の深い構造、微妙な意味判断の要求、大規模学習コーパスの欠如などが含まれる。 このような課題に対処するため,我々は,構文や意味論にまたがる複数のレベルの粒度に由来するロバスト表現を活用し,その表現をエンド・ツー・エンドのエンコーダ・デコーダ・ニューラル・アーキテクチャに組み込んで,よりリソースに富んだ談話処理を実現することを提案する。 特に、我々はまず、高次および長距離依存を具現化した事前学習された文脈言語モデルを用いて、より微細な粒度意味論、統語論、組織表現を可能にする。 さらに,このような表現を境界情報と階層情報でエンコードし,文書レベルの談話処理のためのより洗練されたモデリングを得る。 実験の結果,ベンチマークしたrstデータセットにおける人間レベルの性能に近づいた,最先端の性能が得られた。

Document-level discourse parsing, in accordance with the Rhetorical Structure Theory (RST), remains notoriously challenging. Challenges include the deep structure of document-level discourse trees, the requirement of subtle semantic judgments, and the lack of large-scale training corpora. To address such challenges, we propose to exploit robust representations derived from multiple levels of granularity across syntax and semantics, and in turn incorporate such representations in an end-to-end encoder-decoder neural architecture for more resourceful discourse processing. In particular, we first use a pre-trained contextual language model that embodies high-order and long-range dependency to enable finer-grain semantic, syntactic, and organizational representations. We further encode such representations with boundary and hierarchical information to obtain more refined modeling for document-level discourse processing. Experimental results show that our parser achieves the state-of-the-art performance, approaching human-level performance on the benchmarked RST dataset.
翻訳日:2021-04-27 06:38:48 公開日:2020-12-21
# ペルシャ抽象テキスト要約のための ParsBERT と事前訓練 mT5 の活用

Leveraging ParsBERT and Pretrained mT5 for Persian Abstractive Text Summarization ( http://arxiv.org/abs/2012.11204v1 )

ライセンス: Link先を確認
Mehrdad Farahani, Mohammad Gharachorloo, Mohammad Manthouri(参考訳) テキスト要約は、最も重要な自然言語処理(NLP)タスクの1つである。 この分野では日々多くの研究が行なわれている。 事前訓練されたトランスフォーマーベースのエンコーダデコーダモデルがこれらのタスクで人気を集め始めている。 本稿では,この課題に対処する2つの手法を提案し,ペルシャ抽象テキスト要約のための新しいデータセットpn-summaryを提案する。 この論文で使用されたモデルはmT5とParsBERTモデルのエンコーダ・デコーダバージョン(ペルシャ語用単言語BERTモデル)である。 これらのモデルはpn-summaryデータセット上で微調整される。 現在の作業はこの種の最初のもので、有望な結果を達成することで、将来の作業のベースラインとして機能することができる。

Text summarization is one of the most critical Natural Language Processing (NLP) tasks. More and more researches are conducted in this field every day. Pre-trained transformer-based encoder-decoder models have begun to gain popularity for these tasks. This paper proposes two methods to address this task and introduces a novel dataset named pn-summary for Persian abstractive text summarization. The models employed in this paper are mT5 and an encoder-decoder version of the ParsBERT model (i.e., a monolingual BERT model for Persian). These models are fine-tuned on the pn-summary dataset. The current work is the first of its kind and, by achieving promising results, can serve as a baseline for any future work.
翻訳日:2021-04-27 06:38:29 公開日:2020-12-21
# 検索型オープンドメイン対話システムの性能向上のためのセルフアテンション比較モジュール

Self-attention Comparison Module for Boosting Performance on Retrieval-based Open-Domain Dialog Systems ( http://arxiv.org/abs/2012.11357v1 )

ライセンス: Link先を確認
Tian Lan, Xian-Ling Mao, Zhipeng Zhao, Wei Wei, Heyan Huang(参考訳) 事前学習された言語モデルが広く使われているため、検索に基づくオープンドメインダイアログシステムは近年、研究者の注目を集めている。 以前の作品のほとんどは、クエリと個々の候補応答の一致度に応じてのみ適切な応答を選択する。 優れた性能が得られたが、これらの最近の研究は、最も適切な応答を選択するための豊富な情報を提供する候補応答の比較を無視している。 直観的には、モデルがすべての候補応答間の比較情報にアクセスできるようになると、より良い決定が出来ます。 そこで本研究では,検索に基づくオープンドメインダイアログシステムであるSCMのための,新規かつプラグイン型のセルフアテンション比較モジュールを提案する。 実験の結果,提案する自己注意比較モジュールは,既存の検索型オープンドメインダイアログシステムの性能を効果的に向上させることが示された。 さらに、将来の研究のためにソースコードを公開しています。

Since the pre-trained language models are widely used, retrieval-based open-domain dialog systems, have attracted considerable attention from researchers recently. Most of the previous works select a suitable response only according to the matching degree between the query and each individual candidate response. Although good performance has been achieved, these recent works ignore the comparison among the candidate responses, which could provide rich information for selecting the most appropriate response. Intuitively, better decisions could be made when the models can get access to the comparison information among all the candidate responses. In order to leverage the comparison information among the candidate responses, in this paper, we propose a novel and plug-in Self-attention Comparison Module for retrieval-based open-domain dialog systems, called SCM. Extensive experiment results demonstrate that our proposed self-attention comparison module effectively boosts the performance of the existing retrieval-based open-domain dialog systems. Besides, we have publicly released our source codes for future research.
翻訳日:2021-04-27 06:38:18 公開日:2020-12-21
# リコンストラクションによる文書レベル関係抽出

Document-Level Relation Extraction with Reconstruction ( http://arxiv.org/abs/2012.11384v1 )

ライセンス: Link先を確認
Wang Xu, Kehai Chen and Tiejun Zhao(参考訳) ドキュメントレベルの関係抽出(DocRE)において、グラフ構造は一般に、各エンティティペア間の関係カテゴリを分類するために入力文書内の関係情報をエンコードするために使用され、過去数年間でDocREタスクを大きく進歩させてきた。 しかし、学習グラフ表現は、これらのエンティティ対の間に関係があるかどうかに関わらず、すべてのエンティティ対間の関係情報を普遍的にモデル化する。 したがって、関係のないエンティティペアは、関係を持つオブジェクトに対してエンコーダ分類子docreの注意を分散させ、docreの改善を更に阻害する可能性がある。 この問題を軽減するために,DocREのための新しいエンコーダ分類器再構成モデルを提案する。 リコンストラクタは、グラフ表現から基底パス依存性を再構築し、提案されたdocreモデルがトレーニングにおけるエンティティペアのエンコードにより多くの注意を払うことを保証する。 さらに、復元子は、推論における関係分類を支援する関係指標と見なされ、docreモデルの性能をさらに向上させることができる。 大規模docreデータセットにおける実験結果から,提案モデルにより,グラフベースラインにおける関係抽出精度が大幅に向上することが示された。

In document-level relation extraction (DocRE), graph structure is generally used to encode relation information in the input document to classify the relation category between each entity pair, and has greatly advanced the DocRE task over the past several years. However, the learned graph representation universally models relation information between all entity pairs regardless of whether there are relationships between these entity pairs. Thus, those entity pairs without relationships disperse the attention of the encoder-classifier DocRE for ones with relationships, which may further hind the improvement of DocRE. To alleviate this issue, we propose a novel encoder-classifier-r econstructor model for DocRE. The reconstructor manages to reconstruct the ground-truth path dependencies from the graph representation, to ensure that the proposed DocRE model pays more attention to encode entity pairs with relationships in the training. Furthermore, the reconstructor is regarded as a relationship indicator to assist relation classification in the inference, which can further improve the performance of DocRE model. Experimental results on a large-scale DocRE dataset show that the proposed model can significantly improve the accuracy of relation extraction on a strong heterogeneous graph-based baseline.
翻訳日:2021-04-27 06:38:05 公開日:2020-12-21
# 音声アシスタントシステムにおけるクエリ書き換えのためのパターン認識データ拡張

Pattern-aware Data Augmentation for Query Rewriting in Voice Assistant Systems ( http://arxiv.org/abs/2012.11468v1 )

ライセンス: Link先を確認
Yunmo Chen, Sixing Lu, Fan Yang, Xiaojiang Huang, Xing Fan, Chenlei Guo(参考訳) クエリ書き換え(QR)システムは、音声言語理解パイプラインにおけるエラーによる摩擦を軽減するために広く利用されている。 しかし、基礎となる教師付きモデルは多数のラベル付きペアを必要とし、これらのペアは収集が困難でコストがかかる。 そこで本研究では,既存のトレーニングペアからパターンを学習し,書き直しラベルから書き直し候補を生成する拡張フレームワークを提案する。 提案手法は,シーケンス・ツー・シーケンス生成タスクとして拡張問題をキャストし,制御可能な報酬処理のためのポリシー勾配手法を用いて最適化処理を実行する。 このアプローチは従来のヒューリスティックやルールベースの拡張メソッドを越えており、単語のスワップ/リプレースに関する事前定義されたパターンを生成するには制限されていない。 実験の結果,QRベースラインを十分に訓練し,低リソース領域やローカライズ領域でのQR性能向上に有効である可能性が示された。

Query rewriting (QR) systems are widely used to reduce the friction caused by errors in a spoken language understanding pipeline. However, the underlying supervised models require a large number of labeled pairs, and these pairs are hard and costly to be collected. Therefore, We propose an augmentation framework that learns patterns from existing training pairs and generates rewrite candidates from rewrite labels inversely to compensate for insufficient QR training data. The proposed framework casts the augmentation problem as a sequence-to-sequence generation task and enforces the optimization process with a policy gradient technique for controllable rewarding. This approach goes beyond the traditional heuristics or rule-based augmentation methods and is not constrained to generate predefined patterns of swapping/replacing words. Our experimental results show its effectiveness compared with a fully trained QR baseline and demonstrate its potential application in boosting the QR performance on low-resource domains or locales.
翻訳日:2021-04-27 06:37:46 公開日:2020-12-21
# 低資源単語アライメントのためのサブワードサンプリング

Subword Sampling for Low Resource Word Alignment ( http://arxiv.org/abs/2012.11657v1 )

ライセンス: Link先を確認
Ehsaneddin Asgari and Masoud Jalili Sabet and Philipp Dufter and Christopher Ringlstetter and Hinrich Sch\"utze(参考訳) アノテーションプロジェクションは、低リソース言語のための言語リソースの作成に大きく貢献できる、NLPの重要な領域である。 この設定では単語アライメントが重要な役割を果たす。 しかし、既存の単語アライメント手法のほとんどは、数百万の並列文が利用可能な機械翻訳における高リソース設定のために設計されている。 この金額は、既存のIBMモデルに失敗した低リソース言語を扱う場合、数千の文に減少する。 本稿では,テキスト単位のサブワードサンプリングに基づくアライメントを提案する。 この手法の仮説は、特定の言語対に対する異なる粒度のテキストの集合が単語レベルのアライメントに役立つというものである。 金標準アライメントが存在する特定の言語に対して、ソースとターゲット文のサブワード表現の空間から可能なサブワードの選択を最適化する反復ベイズ最適化フレームワークを提案する。 本手法は,英語-ドイツ語,英語-フランス語,英語-ルーマニア語,英語-ペルシャ語,英語-ヒンディー語,英語-イヌクティトゥット語の6つの言語対における単語レベルのアライメントを一貫して上回ることを示す。 さらに,特定の言語ペアで学習したハイパーパラメータを,無監督で他の言語に適用でき,一貫性を持ってアライメント結果が向上することを示す。 5k$の並列文と,提案する副単語サンプリング手法を用いて,既存の単語レベルの高速アラインメント法における1k$の並列文を用いて,類似のf1スコアを得る。

Annotation projection is an important area in NLP that can greatly contribute to creating language resources for low-resource languages. Word alignment plays a key role in this setting. However, most of the existing word alignment methods are designed for a high resource setting in machine translation where millions of parallel sentences are available. This amount reduces to a few thousands of sentences when dealing with low-resource languages failing the existing established IBM models. In this paper, we propose subword sampling-based alignment of text units. This method's hypothesis is that the aggregation of different granularities of text for certain language pairs can help word-level alignment. For certain languages for which gold-standard alignments exist, we propose an iterative Bayesian optimization framework to optimize selecting possible subwords from the space of possible subword representations of the source and target sentences. We show that the subword sampling method consistently outperforms word-level alignment on six language pairs: English-German, English-French, English-Romanian, English-Persian, English-Hindi, and English-Inuktitut. In addition, we show that the hyperparameters learned for certain language pairs can be applied to other languages at no supervision and consistently improve the alignment results. We observe that using $5K$ parallel sentences together with our proposed subword sampling approach, we obtain similar F1 scores to the use of $100K$'s of parallel sentences in existing word-level fast-align/eflomal alignment methods.
翻訳日:2021-04-27 06:37:30 公開日:2020-12-21
# Get it Scored using AutoSAS -- 短い回答をスコーリングする自動化システム

Get It Scored Using AutoSAS -- An Automated System for Scoring Short Answers ( http://arxiv.org/abs/2012.11243v1 )

ライセンス: Link先を確認
Yaman Kumar, Swati Aggarwal, Debanjan Mahata, Rajiv Ratn Shah, Ponnurangam Kumaraguru, Roger Zimmermann(参考訳) MOOCの時代、オンライン試験は何百万人もの候補者によって行われ、短い回答が不可欠である。 人間の学年で評価するのは難しそうだ。 したがって、これらの応答をグレードできる汎用的な自動化システムは、設計およびデプロイされるべきである。 本稿では,sas(automated short answer scoring)に対する高速,スケーラブル,高精度なアプローチを提案する。 本稿では,SASシステム,すなわちAutoSASの設計と開発について述べる。 AutoSASはそのグレードされたサンプルとともに質問を受け、それをうまく評価する方法を学ぶことができる。 本稿ではさらに,提案モデルの構築において重要な役割を果たす語彙多様性,word2vec,プロンプト,コンテンツ重なりなどの特徴について述べる。 また,回答のスコアを決定する要因を示す手法を提案する。 トレーニングされたモデルは、広く使われている公開データセット、すなわちAutomated Student Assessment Prize Short Answer Scoring (ASAP-SAS)で評価される。 AutoSASは最先端のパフォーマンスを示し、Quadratic Weighted Kappa (QWK)が測定したいくつかの質問プロンプトで8%以上のパフォーマンスを実現し、人間に匹敵するパフォーマンスを示している。

In the era of MOOCs, online exams are taken by millions of candidates, where scoring short answers is an integral part. It becomes intractable to evaluate them by human graders. Thus, a generic automated system capable of grading these responses should be designed and deployed. In this paper, we present a fast, scalable, and accurate approach towards automated Short Answer Scoring (SAS). We propose and explain the design and development of a system for SAS, namely AutoSAS. Given a question along with its graded samples, AutoSAS can learn to grade that prompt successfully. This paper further lays down the features such as lexical diversity, Word2Vec, prompt, and content overlap that plays a pivotal role in building our proposed model. We also present a methodology for indicating the factors responsible for scoring an answer. The trained model is evaluated on an extensively used public dataset, namely Automated Student Assessment Prize Short Answer Scoring (ASAP-SAS). AutoSAS shows state-of-the-art performance and achieves better results by over 8% in some of the question prompts as measured by Quadratic Weighted Kappa (QWK), showing performance comparable to humans.
翻訳日:2021-04-27 06:36:59 公開日:2020-12-21
# マシンコモンセンスベンチマークの探索と解析

Exploring and Analyzing Machine Commonsense Benchmarks ( http://arxiv.org/abs/2012.11634v1 )

ライセンス: Link先を確認
Henrique Santos, Minor Gordon, Zhicheng Liang, Gretchen Forbush, Deborah L. McGuinness(参考訳) コモンセンスQA(Commonsense Question-Awering)タスクは、ベンチマークの形で、コモンセンスQAシステムに挑戦し比較するために常に導入されている。 ベンチマークは、システム開発者が公式のリーダーボードに実装を提出する前に、新しいモデルのトレーニングとテストに使用できる質問セットを提供する。 これらのタスクは、特定次元のシステムを評価するために作成される(例)。 トピック、推論タイプ) このメタデータは制限され、ほとんど構造化されていないフォーマットで表示されます。 機械常識は速いペースの場であるため、これらの評価次元に関して現在のベンチマークやシステムを完全に評価する問題は悪化する。 これらのアプローチのメタデータを統一するための共通の語彙の欠如は、システムの欠陥を理解し、将来のタスクに効果的な選択をする研究者の努力を制限していると論じている。 本稿では,このMCSエコシステムについて,その要素とそのメタデータの観点から論じる。 次に,まずはcommonsenseベンチマークに注目して,アプローチの評価を支援する方法を提案する。 ベンチマークメタデータを形式化する拡張可能な共通語彙である最初のmcsベンチマークオントロジーについて説明し、ベンチマーク探索と分析を可能にするベンチマークツールの開発をどのようにサポートするかを示す。

Commonsense question-answering (QA) tasks, in the form of benchmarks, are constantly being introduced for challenging and comparing commonsense QA systems. The benchmarks provide question sets that systems' developers can use to train and test new models before submitting their implementations to official leaderboards. Although these tasks are created to evaluate systems in identified dimensions (e.g. topic, reasoning type), this metadata is limited and largely presented in an unstructured format or completely not present. Because machine common sense is a fast-paced field, the problem of fully assessing current benchmarks and systems with regards to these evaluation dimensions is aggravated. We argue that the lack of a common vocabulary for aligning these approaches' metadata limits researchers in their efforts to understand systems' deficiencies and in making effective choices for future tasks. In this paper, we first discuss this MCS ecosystem in terms of its elements and their metadata. Then, we present how we are supporting the assessment of approaches by initially focusing on commonsense benchmarks. We describe our initial MCS Benchmark Ontology, an extensible common vocabulary that formalizes benchmark metadata, and showcase how it is supporting the development of a Benchmark tool that enables benchmark exploration and analysis.
翻訳日:2021-04-27 06:36:40 公開日:2020-12-21
# ResizeMix:保存されたオブジェクト情報と真のラベルを混合する

ResizeMix: Mixing Data with Preserved Object Information and True Labels ( http://arxiv.org/abs/2012.11101v1 )

ライセンス: Link先を確認
Jie Qin, Jiemin Fang, Qian Zhang, Wenyu Liu, Xingang Wang, Xinggang Wang(参考訳) データ拡張はデータの多様性を高める強力な技術であり、画像認識タスクにおけるニューラルネットワークの一般化能力を効果的に改善することができる。 最近のデータ混合による拡張戦略は大きな成功を収めた。 特にcutmixは、ある画像からパッチをランダムに切り取り、別の画像に貼り付けることで分類器を改善するために、単純だが効果的な方法を使っている。 CutMixの性能をさらに向上させるために、画像の精度情報を用いてミキシングをガイドする一連の研究が進められている。 本研究では,データ混合におけるサリーエンシー情報の重要性を体系的に検討し,サリーエンシー情報は増補性能向上のためには必要ではないことを見出した。 さらに,カットベースデータミキシング手法ではラベルミスロケーションとオブジェクト情報の欠落という2つの問題があり,同時に解決できないことがわかった。 本稿では,より効率的で実装が容易なresizemix法を提案する。 ソースイメージを小さなパッチに直接リサイズし、別のイメージにペーストすることで、データをミックスします。 得られたパッチは、従来のカットベースの方法と比較して、より実質的なオブジェクト情報を保持する。 resizemix は、画像分類とオブジェクト検出タスクの両方において cutmix や saliency-guided よりも、計算コストを増すことなく、明らかに優れている。

Data augmentation is a powerful technique to increase the diversity of data, which can effectively improve the generalization ability of neural networks in image recognition tasks. Recent data mixing based augmentation strategies have achieved great success. Especially, CutMix uses a simple but effective method to improve the classifiers by randomly cropping a patch from one image and pasting it on another image. To further promote the performance of CutMix, a series of works explore to use the saliency information of the image to guide the mixing. We systematically study the importance of the saliency information for mixing data, and find that the saliency information is not so necessary for promoting the augmentation performance. Furthermore, we find that the cutting based data mixing methods carry two problems of label misallocation and object information missing, which cannot be resolved simultaneously. We propose a more effective but very easily implemented method, namely ResizeMix. We mix the data by directly resizing the source image to a small patch and paste it on another image. The obtained patch preserves more substantial object information compared with conventional cut-based methods. ResizeMix shows evident advantages over CutMix and the saliency-guided methods on both image classification and object detection tasks without additional computation cost, which even outperforms most costly search-based automatic augmentation methods.
翻訳日:2021-04-27 06:36:19 公開日:2020-12-21
# マルチスケールメモリをオートエンコーダに適用した教師なし異常局在の改善

Improving unsupervised anomaly localization by applying multi-scale memories to autoencoders ( http://arxiv.org/abs/2012.11113v1 )

ライセンス: Link先を確認
Yifei Yang, Shibing Xiang, Ruixiang Zhang(参考訳) Autoencoder and its variants have been widely applicated in anomaly detection.The previous work memory-augmented deep autoencoder proposed memorizing normality to detect anomaly, however it neglects the feature discrepancy between different resolution scales, therefore we introduce multi-scale memories to record scale-specific features and multi-scale attention fuser between the encoding and decoding module of the autoencoder for anomaly detection, namely MMAE.MMAE updates slots at corresponding resolution scale as prototype features during unsupervised learning. 異常検出のために、各スケールで元の符号化画像の特徴を最も関連性の高いプロトタイプ機能に置き換えて異常除去を行い、復号モジュールに入力して画像再構成を行う。 各種データセットに対する実験結果から,MMAEは異なるスケールで異常を除去し,類似の再構成手法と比較して,複数のデータセットで良好に機能することを確認した。

Autoencoder and its variants have been widely applicated in anomaly detection.The previous work memory-augmented deep autoencoder proposed memorizing normality to detect anomaly, however it neglects the feature discrepancy between different resolution scales, therefore we introduce multi-scale memories to record scale-specific features and multi-scale attention fuser between the encoding and decoding module of the autoencoder for anomaly detection, namely MMAE.MMAE updates slots at corresponding resolution scale as prototype features during unsupervised learning. For anomaly detection, we accomplish anomaly removal by replacing the original encoded image features at each scale with most relevant prototype features,and fuse these features before feeding to the decoding module to reconstruct image. Experimental results on various datasets testify that our MMAE successfully removes anomalies at different scales and performs favorably on several datasets compared to similar reconstruction-based methods.
翻訳日:2021-04-27 06:35:16 公開日:2020-12-21
# 畳み込みニューラルネットワークを用いた臨床CT画像における強度校正ファントムの自動セグメンテーション

Automated segmentation of an intensity calibration phantom in clinical CT images using a convolutional neural network ( http://arxiv.org/abs/2012.11151v1 )

ライセンス: Link先を確認
Keisuke Uemura (1 and 2), Yoshito Otake (1), Masaki Takao (3), Mazen Soufi (1), Akihiro Kawasaki (1), Nobuhiko Sugano (2), Yoshinobu Sato (1) ((1) Division of Information Science, Graduate School of Science and Technology, Nara Institute of Science and Technology, Ikoma city, Japan, (2) Department of Orthopaedic Medical Engineering, Osaka University Graduate School of Medicine, Suita city, Japan, (3) Department of Orthopaedics, Osaka University Graduate School of Medicine, Suita city, Japan)(参考訳) 目的:CT画像の強度校正ファントム領域を分割するシステムを開発するために畳み込みニューラルネットワーク(CNN)を適用し,その堅牢性を評価するために大きなコホートでシステムをテストする。 方法: 強度校正ファントム(b-mas200、京都華学、京都)を使用した計1040例(各2機関520例)を含む。 トレーニングデータセットは、ファントムの領域を40ケース(それぞれ20ケース)で手動でセグメンテーションすることで作成されました。 cnnモデルのセグメンテーション精度を4次元クロス検証によりdice係数と平均対称表面距離(asd)で評価した。 さらに, 放射線密度値の絶対差(hounsfield unit: hu)を, 手動セグメンテーション領域と自動セグメンテーション領域で比較した。 システムは残りの1000件で試験された。 各施設において,放射密度とファントム密度の相関係数を計算するために線形回帰が適用された。 結果: トレーニング後, 中央値は0.977mm, 中央値は0.116mmであった。 分割領域を手動セグメンテーションと自動セグメンテーションで比較すると,平均絶対差は0.114 huであった。 テストケースでは, 中央相関係数が0.9998であり, 他方では0.9999であり, 最小値が0.9863であった。 結論: CNNモデルはCT画像の校正ファントム領域を精度良く分割し, 従来の手作業法と少なくとも同等の自動化法が得られた。 今後,骨密度をct画像から完全に定量化できるように骨に対する興味領域を自動的に分割してシステムを統合する必要がある。

Purpose: To apply a convolutional neural network (CNN) to develop a system that segments intensity calibration phantom regions in computed tomography (CT) images, and to test the system in a large cohort to evaluate its robustness. Methods: A total of 1040 cases (520 cases each from two institutions), in which an intensity calibration phantom (B-MAS200, Kyoto Kagaku, Kyoto, Japan) was used, were included herein. A training dataset was created by manually segmenting the regions of the phantom for 40 cases (20 cases each). Segmentation accuracy of the CNN model was assessed with the Dice coefficient and the average symmetric surface distance (ASD) through the 4-fold cross validation. Further, absolute differences of radiodensity values (in Hounsfield units: HU) were compared between manually segmented regions and automatically segmented regions. The system was tested on the remaining 1000 cases. For each institution, linear regression was applied to calculate coefficients for the correlation between radiodensity and the densities of the phantom. Results: After training, the median Dice coefficient was 0.977, and the median ASD was 0.116 mm. When segmented regions were compared between manual segmentation and automated segmentation, the median absolute difference was 0.114 HU. For the test cases, the median correlation coefficient was 0.9998 for one institution and was 0.9999 for the other, with a minimum value of 0.9863. Conclusions: The CNN model successfully segmented the calibration phantom's regions in the CT images with excellent accuracy, and the automated method was found to be at least equivalent to the conventional manual method. Future study should integrate the system by automatically segmenting the region of interest in bones such that the bone mineral density can be fully automatically quantified from CT images.
翻訳日:2021-04-27 06:35:02 公開日:2020-12-21
# 確率勾配Descentを用いた神経進化によるディープニューラルネットワークの最適化

Optimizing Deep Neural Networks through Neuroevolution with Stochastic Gradient Descent ( http://arxiv.org/abs/2012.11184v1 )

ライセンス: Link先を確認
Haichao Zhang, Kuangrong Hao, Lei Gao, Bing Wei, Xuesong Tang(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンにおいて顕著な成功を収めているが、良好なパフォーマンスのためにDNNをトレーニングすることは依然として困難であり、トレーニングのための最適化アルゴリズムの実験的選択に対する感受性に悩まされている。 確率勾配降下(SGD)は、DNNの損失関数を最小限に抑えるためにニューラルネットワークの重みを調整することでDNNのトレーニングにおいて支配的である。 代替のアプローチとして、神経進化は進化過程に沿っており、神経進化における個々の協調に基づくヒューリスティックなブラックボックス探索戦略など、SGDでは利用できない重要な機能を提供している。 本稿では,神経進化とsgdの利点を融合し,進化的探索,並列探索,最適dnnのための効果的なプローブを実現する新しいアプローチを提案する。 個体群の多様性を改善するために,個体間の重み更新を克服する階層型クラスタ型抑制アルゴリズムも開発されている。 提案手法は、4つの公開データセットに基づいて4つの代表DNNに実装する。 実験の結果,提案手法により最適化された4つのDNNは,すべてのデータセット上でSGDのみによって最適化されたものよりも優れていた。 提案手法により最適化されたDNNの性能も最先端のディープネットワークより優れている。 この研究は、人工知能の追求にも意味のある試みである。

Deep neural networks (DNNs) have achieved remarkable success in computer vision; however, training DNNs for satisfactory performance remains challenging and suffers from sensitivity to empirical selections of an optimization algorithm for training. Stochastic gradient descent (SGD) is dominant in training a DNN by adjusting neural network weights to minimize the DNNs loss function. As an alternative approach, neuroevolution is more in line with an evolutionary process and provides some key capabilities that are often unavailable in SGD, such as the heuristic black-box search strategy based on individual collaboration in neuroevolution. This paper proposes a novel approach that combines the merits of both neuroevolution and SGD, enabling evolutionary search, parallel exploration, and an effective probe for optimal DNNs. A hierarchical cluster-based suppression algorithm is also developed to overcome similar weight updates among individuals for improving population diversity. We implement the proposed approach in four representative DNNs based on four publicly-available datasets. Experiment results demonstrate that the four DNNs optimized by the proposed approach all outperform corresponding ones optimized by only SGD on all datasets. The performance of DNNs optimized by the proposed approach also outperforms state-of-the-art deep networks. This work also presents a meaningful attempt for pursuing artificial general intelligence.
翻訳日:2021-04-27 06:34:33 公開日:2020-12-21
# エンド・ツー・エンド人物探索のための多元的知識蒸留

Diverse Knowledge Distillation for End-to-End Person Search ( http://arxiv.org/abs/2012.11187v1 )

ライセンス: Link先を確認
Xinyu Zhang, Xinlong Wang, Jia-Wang Bian, Chunhua Shen, Mingyu You(参考訳) 人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。 最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。 前者は、人物探索を2つの独立したタスクと見なし、個別に訓練された人物検出と再同定(Re-ID)モデルを用いて支配的な結果を得る。 後者はエンドツーエンドで人物検索を行う。 エンドツーエンドのアプローチでは推論効率が向上するが、精度面では2段階のアプローチに大きく遅れている。 本稿では,2種類の手法間のギャップは,主にエンドツーエンド手法のRe-IDサブネットワークによって生じると論じる。 この目的のために,多様な知識を蒸留してボトルネックを解消する,シンプルながら強力なエンドツーエンドネットワークを提案する。 また,不正確な検出結果に不変なモデルを支援する空間不変な拡張も設計する。 cuhk-sysu と prw データセットの実験結果は,既存の手法と同等の精度を示しつつ,単一ジョイントモデルによる高い効率を維持する。 コードは、https://git.io/DKD-P ersonSearch.comで入手できる。

Person search aims to localize and identify a specific person from a gallery of images. Recent methods can be categorized into two groups, i.e., two-step and end-to-end approaches. The former views person search as two independent tasks and achieves dominant results using separately trained person detection and re-identification (Re-ID) models. The latter performs person search in an end-to-end fashion. Although the end-to-end approaches yield higher inference efficiency, they largely lag behind those two-step counterparts in terms of accuracy. In this paper, we argue that the gap between the two kinds of methods is mainly caused by the Re-ID sub-networks of end-to-end methods. To this end, we propose a simple yet strong end-to-end network with diverse knowledge distillation to break the bottleneck. We also design a spatial-invariant augmentation to assist model to be invariant to inaccurate detection results. Experimental results on the CUHK-SYSU and PRW datasets demonstrate the superiority of our method against existing approaches -- it achieves on par accuracy with state-of-the-art two-step methods while maintaining high efficiency due to the single joint model. Code is available at: https://git.io/DKD-P ersonSearch.
翻訳日:2021-04-27 06:34:11 公開日:2020-12-21
# きめ細かい知識伝達による画像翻訳

Image Translation via Fine-grained Knowledge Transfer ( http://arxiv.org/abs/2012.11193v1 )

ライセンス: Link先を確認
Xuanhong Chen, Ziang Liu, Ting Qiu, Bingbing Ni, Naiyuan Liu, Xiwei Hu, Yuhan Li(参考訳) 一般的な画像翻訳フレームワークは、画像の処理をエンドツーエンドスタイルで行おうとしている。 しかしながら、これらの手法は解釈可能性に欠けており、異なる画像翻訳タスク(スタイル転送、HDRなど)では拡張性がない。 本稿では,知識検索と伝達による画像翻訳を実現する,解釈可能な知識ベース画像翻訳フレームワークを提案する。 詳しくは、このフレームワークは、プラグアンドプレイとモデルに依存しない汎用知識ライブラリを構築し、タスク固有のスタイル、音調、テクスチャパターンなどを記憶している。 さらに,膨大な知識ライブラリの検索の難しさに対処すべく,バンドパス階層型k-means (bhkm) という高速検索手法を提案する。 広範な実験により,様々な画像変換タスクにおけるフレームワークの有効性と実現性が実証された。 特に,バックトラック実験は,本手法の解釈可能性を検証する。 私たちのコードはまもなくhttps://github.com/A ceSix/Knowledge_Tran sfer.comで利用可能になります。

Prevailing image-translation frameworks mostly seek to process images via the end-to-end style, which has achieved convincing results. Nonetheless, these methods lack interpretability and are not scalable on different image-translation tasks (e.g., style transfer, HDR, etc.). In this paper, we propose an interpretable knowledge-based image-translation framework, which realizes the image-translation through knowledge retrieval and transfer. In details, the framework constructs a plug-and-play and model-agnostic general purpose knowledge library, remembering task-specific styles, tones, texture patterns, etc. Furthermore, we present a fast ANN searching approach, Bandpass Hierarchical K-Means (BHKM), to cope with the difficulty of searching in the enormous knowledge library. Extensive experiments well demonstrate the effectiveness and feasibility of our framework in different image-translation tasks. In particular, backtracking experiments verify the interpretability of our method. Our code soon will be available at https://github.com/A ceSix/Knowledge_Tran sfer.
翻訳日:2021-04-27 06:33:51 公開日:2020-12-21
# 制御可能な画像復元ネットワークの探索

Searching for Controllable Image Restoration Networks ( http://arxiv.org/abs/2012.11225v1 )

ライセンス: Link先を確認
Heewon Kim, Sungyong Baik, Myungsub Choi, Janghoon Choi, Kyoung Mu Lee(参考訳) 画像に対する多様なユーザの好みは、画像復元タスクにおける画像効果の制御に多大な関心を寄せている。 しかし、既存の手法では、各出力毎にネットワーク全体の推論を分離する必要があるため、長いレイテンシによる複数の画像効果の比較が困難になる。 そこで本研究では,タスク非依存とタスク固有プルーニングという2段階のプルーニングにより,複数の画像効果を効率的に生成できるニューラルアーキテクチャ探索手法に基づく新しい枠組みを提案する。 具体的には、タスク固有のプルーニングは、各タスクの無関係なネットワークパラメータを適応的に除去することを学び、タスクに依存しないプルーニングは、異なるタスク間でネットワークの初期レイヤを共有することによって、効率的なアーキテクチャを見つけることを学ぶ。 共有層は機能再利用を可能にするため、入力画像から複数の画像効果を生成するためにタスク非依存層の1つの推論しか必要としない。 提案したタスク依存型およびタスク固有型プルーニングスキームを併用することにより、FLOPと実際の推論遅延をベースラインと比較して大幅に低減する。 27のイメージエフェクトを生成する場合、フラップの95.7%を削減し、4k解像度画像のgpuレイテンシを73.0%高速化した。

Diverse user preferences over images have recently led to a great amount of interest in controlling the imagery effects for image restoration tasks. However, existing methods require separate inference through the entire network per each output, which hinders users from readily comparing multiple imagery effects due to long latency. To this end, we propose a novel framework based on a neural architecture search technique that enables efficient generation of multiple imagery effects via two stages of pruning: task-agnostic and task-specific pruning. Specifically, task-specific pruning learns to adaptively remove the irrelevant network parameters for each task, while task-agnostic pruning learns to find an efficient architecture by sharing the early layers of the network across different tasks. Since the shared layers allow for feature reuse, only a single inference of the task-agnostic layers is needed to generate multiple imagery effects from the input image. Using the proposed task-agnostic and task-specific pruning schemes together significantly reduces the FLOPs and the actual latency of inference compared to the baseline. We reduce 95.7% of the FLOPs when generating 27 imagery effects, and make the GPU latency 73.0% faster on 4K-resolution images.
翻訳日:2021-04-27 06:33:33 公開日:2020-12-21
# 深い階層的コンテキストネットワークに基づく画像アノテーション

Image Annotation based on Deep Hierarchical Context Networks ( http://arxiv.org/abs/2012.11253v1 )

ライセンス: Link先を確認
Mingyuan Jiu and Hichem Sahbi(参考訳) コンテキストモデリングは視覚認識の最も豊かなサブフィールドの1つであり、内在的および外在的な関係を取り入れながら識別的な画像表現を設計することを目的としている。 しかしながら、現在、コンテキストモデリングの可能性は過小評価されており、既存のソリューションのほとんどはコンテキストフリーか単純な手作りの幾何学的関係に限定されている。 本稿では、幾何学的・意味的関係を含むさまざまな文脈源を利用する新しい階層型コンテキストネットワークDHCNを紹介する。 提案手法は、忠実性項と文脈基準と正規化子を混合する目的関数の最小化に基づいている。 この目的関数の解は、二レベル階層的コンテキストネットワークのアーキテクチャを定義し、このネットワークの第1レベルはシーンの幾何学を捉え、第2レベルは意味的関係に対応する。 本研究では,二レベル文脈関係に最も影響を与えやすいパラメータを持つ深層ネットワークをトレーニングすることで,この表現学習問題を解決し,挑戦的imageclefベンチマークを用いて画像アノテーションの性能評価を行う。

Context modeling is one of the most fertile subfields of visual recognition which aims at designing discriminant image representations while incorporating their intrinsic and extrinsic relationships. However, the potential of context modeling is currently underexplored and most of the existing solutions are either context-free or restricted to simple handcrafted geometric relationships. We introduce in this paper DHCN: a novel Deep Hierarchical Context Network that leverages different sources of contexts including geometric and semantic relationships. The proposed method is based on the minimization of an objective function mixing a fidelity term, a context criterion and a regularizer. The solution of this objective function defines the architecture of a bi-level hierarchical context network; the first level of this network captures scene geometry while the second one corresponds to semantic relationships. We solve this representation learning problem by training its underlying deep network whose parameters correspond to the most influencing bi-level contextual relationships and we evaluate its performances on image annotation using the challenging ImageCLEF benchmark.
翻訳日:2021-04-27 06:33:12 公開日:2020-12-21
# 3次元ハンドオブジェクト関節再建のための時間整合自己訓練による教師なし領域適応

Unsupervised Domain Adaptation with Temporal-Consistent Self-Training for 3D Hand-Object Joint Reconstruction ( http://arxiv.org/abs/2012.11260v1 )

ライセンス: Link先を確認
Mengshi Qi, Edoardo Remelli, Mathieu Salzmann, Pascal Fua(参考訳) 手動3Dポーズと形状推定のためのディープラーニングソリューションは、アノテートデータセットを使用して、テスト時に遭遇するシナリオと照明条件をトレーニングする場合、非常に効果的になった。 残念なことに、これは必ずしもそうではなく、しばしば合成データでトレーニングを行う必要があるため、実際の状況でうまく機能することを保証しない。 本稿では,cyclegan(cycleerati ve adversarial network)における3次元幾何学的制約を利用してドメイン適応を行う手法を提案する。 さらに,無ラベル実映像で利用可能なリッチな時間情報を監督の源として利用できない既存の作品の多くとは対照的に,自己教師付きでドメイン適応モデルに微調整するために,短期的・長期的一貫性を強制することを提案する。 我々は、我々のアプローチが3つの広く使用されているベンチマークで最先端の3dハンドオブジェクト統合再構築手法を上回っており、コードを公開することを実証する。

Deep learning-solutions for hand-object 3D pose and shape estimation are now very effective when an annotated dataset is available to train them to handle the scenarios and lighting conditions they will encounter at test time. Unfortunately, this is not always the case, and one often has to resort to training them on synthetic data, which does not guarantee that they will work well in real situations. In this paper, we introduce an effective approach to addressing this challenge by exploiting 3D geometric constraints within a cycle generative adversarial network (CycleGAN) to perform domain adaptation. Furthermore, in contrast to most existing works, which fail to leverage the rich temporal information available in unlabeled real videos as a source of supervision, we propose to enforce short- and long-term temporal consistency to fine-tune the domain-adapted model in a self-supervised fashion. We will demonstrate that our approach outperforms state-of-the-art 3D hand-object joint reconstruction methods on three widely-used benchmarks and will make our code publicly available.
翻訳日:2021-04-27 06:32:54 公開日:2020-12-21
# 単眼深度パラメータ化ネットワーク

Monocular Depth Parameterizing Networks ( http://arxiv.org/abs/2012.11301v1 )

ライセンス: Link先を確認
Patrik Persson, Linn \"Ostr\"om, Carl Olsson(参考訳) 単眼深度推定は、深層ニューラルネットワークでしばしば対処される非常に難しい問題である。 これらは画像の特徴の認識を利用して、合理的な深度マップを予測できるが、結果の精度は低いことが多い。 対照的に、複数のカメラを用いた従来のステレオ手法は、ピクセルマッチングが可能な場合に高い精度で推定できる。 本研究では,それぞれの強みを活用する2つのアプローチを組み合わせることを提案する。 この目的のために,画像が与えられると,可能な形状の深さ写像の集合のパラメータ化を行うネットワーク構造を提案する。 パラメータ化を最適化することで、他の画像に対して一貫した解の形状を探索することができる。 これにより、単一の画像で観察するのが難しい幾何学的性質を強制し、学習問題を緩和し、比較的小さなネットワークを使うことができる。 実験により,本手法はより正確な深度マップを生成し,競合する最先端手法よりも一般化することを示す。

Monocular depth estimation is a highly challenging problem that is often addressed with deep neural networks. While these are able to use recognition of image features to predict reasonably looking depth maps the result often has low metric accuracy. In contrast traditional stereo methods using multiple cameras provide highly accurate estimation when pixel matching is possible. In this work we propose to combine the two approaches leveraging their respective strengths. For this purpose we propose a network structure that given an image provides a parameterization of a set of depth maps with feasible shapes. Optimizing over the parameterization then allows us to search the shapes for a photo consistent solution with respect to other images. This allows us to enforce geometric properties that are difficult to observe in single image as well as relaxes the learning problem allowing us to use relatively small networks. Our experimental evaluation shows that our method generates more accurate depth maps and generalizes better than competing state-of-the-art approaches.
翻訳日:2021-04-27 06:32:17 公開日:2020-12-21
# セマンティックスラムの高精度オブジェクトアソシエーションとポーズ更新

Accurate Object Association and Pose Updating for Semantic SLAM ( http://arxiv.org/abs/2012.11368v1 )

ライセンス: Link先を確認
Kaiqi Chen, Jialing Liu, Jianhua Zhang, Zhenhua Wang(参考訳) 現在、セマンティックSLAMの分野では、データアソシエーションに意味情報を正しく利用する方法が研究に値する問題となっている。 この問題を解決する鍵は、一つのオブジェクトランドマークの複数のオブジェクト測定を正しく関連付け、オブジェクトランドマークの配置を洗練することだ。 しかし、密接な位置にある異なるオブジェクトは一つのオブジェクトランドマークとして関連付けられやすく、一つのオブジェクトランドマークに関連する複数のオブジェクト測定から最適なポーズを取るのは難しい。 これらの問題に対処するために,閉じたオブジェクトが異なるオブジェクトランドマークに正しく関連付けられるような,複数のオブジェクト追跡による階層的オブジェクトアソシエーション戦略と,複数のオブジェクト計測からオブジェクトランドマークの配置を洗練するためのアプローチを提案する。 提案手法は,Kittiデータセットのシミュレーションシーケンスと複数のシーケンスに基づいて評価する。 実験の結果,従来のSLAM法と最先端の意味的SLAM法に関して,非常に顕著な改善が得られた。

Nowadays in the field of semantic SLAM, how to correctly use semantic information for data association is still a problem worthy of study. The key to solving this problem is to correctly associate multiple object measurements of one object landmark, and refine the pose of object landmark. However, different objects locating closely are prone to be associated as one object landmark, and it is difficult to pick up a best pose from multiple object measurements associated with one object landmark. To tackle these problems, we propose a hierarchical object association strategy by means of multiple object tracking, through which closing objects will be correctly associated to different object landmarks, and an approach to refine the pose of object landmark from multiple object measurements. The proposed method is evaluated on a simulated sequence and several sequences in the Kitti dataset. Experimental results show a very impressive improvement with respect to the traditional SLAM and the state-of-the-art semantic SLAM method.
翻訳日:2021-04-27 06:32:04 公開日:2020-12-21
# pointformerを用いた3次元物体検出

3D Object Detection with Pointformer ( http://arxiv.org/abs/2012.11409v1 )

ライセンス: Link先を確認
Xuran Pan, Zhuofan Xia, Shiji Song, Li Erran Li, Gao Huang(参考訳) 3dポイントクラウドデータの不規則性のため、ポイントクラウドから3dオブジェクト検出のための機能学習は非常に難しい。 本稿では,3DポイントクラウドのためのトランスフォーマーバックボーンであるPointformerを提案し,その特徴を効果的に学習する。 具体的には、ローカルトランスフォーマーモジュールを使用して、オブジェクトレベルでコンテキスト依存の領域特徴を学習するローカル領域のポイント間の相互作用をモデル化する。 Global Transformerは、シーンレベルでコンテキスト対応の表現を学ぶように設計されている。 マルチスケール表現間の依存関係をさらに把握するために,ローカル特徴とグローバル特徴を高解像度から統合するローカル・グローバル・トランスフォーマーを提案する。 さらに,オブジェクトの提案生成を改善するために,ダウンサンプリングされた点をオブジェクトのセントロイドに近づける効率的な座標修正モジュールを導入する。 我々は、pointformerを最先端オブジェクト検出モデルのバックボーンとして使用し、屋内および屋外のデータセットにおいて、オリジナルモデルよりも大幅に改善しています。

Feature learning for 3D object detection from point clouds is very challenging due to the irregularity of 3D point cloud data. In this paper, we propose Pointformer, a Transformer backbone designed for 3D point clouds to learn features effectively. Specifically, a Local Transformer module is employed to model interactions among points in a local region, which learns context-dependent region features at an object level. A Global Transformer is designed to learn context-aware representations at the scene level. To further capture the dependencies among multi-scale representations, we propose Local-Global Transformer to integrate local features with global features from higher resolution. In addition, we introduce an efficient coordinate refinement module to shift down-sampled points closer to object centroids, which improves object proposal generation. We use Pointformer as the backbone for state-of-the-art object detection models and demonstrate significant improvements over original models on both indoor and outdoor datasets.
翻訳日:2021-04-27 06:31:47 公開日:2020-12-21
# 対向攻撃に対する複雑な層出力操作による畳み込みニューラルネットワークにおけるプールの爆発脆弱性

Exploiting Vulnerability of Pooling in Convolutional Neural Networks by Strict Layer-Output Manipulation for Adversarial Attacks ( http://arxiv.org/abs/2012.11413v1 )

ライセンス: Link先を確認
Chenchen Zhao and Hao Li(参考訳) 畳み込みニューラルネットワーク(CNN)は、インテリジェントな車両などの移動ロボットにますます応用されている。 ロボティクスアプリケーションにおけるCNNのセキュリティは重要な問題であり、CNNに対する潜在的な敵攻撃が研究に値する。 ポーリングはCNNにおける次元削減と情報破棄の典型的なステップである。 このような情報廃棄は、ネットワークの出力に大きな影響を及ぼすデータ特徴の誤削除と誤保存をもたらす可能性がある。 これにより、CNNの攻撃に対する脆弱性が増大する可能性がある。 本稿では,ネットワーク構造の観点から,プールの脆弱性を調査し,活用することで,CNNに対する敵対攻撃を行う。 まず,SLOM(Strict Layer-Output Manipulation)と呼ばれる新たな攻撃手法を提案する。 次に、SLOM精神のインスタンス化であるSPM(Strict Pooling Manipulation)に基づく攻撃手法を設計し、ターゲットCNNに対するI型とII型の両方の敵攻撃を効果的に実現する。 異なる深度でのSPMに基づく攻撃性能についても検討・比較を行った。 さらに、CNNの異なる操作層でSLOMの精神をインスタンス化して設計した攻撃手法の性能を比較した。 実験結果は、プールはCNNの他の操作よりも敵攻撃に弱い傾向があることを反映している。

Convolutional neural networks (CNN) have been more and more applied in mobile robotics such as intelligent vehicles. Security of CNNs in robotics applications is an important issue, for which potential adversarial attacks on CNNs are worth research. Pooling is a typical step of dimension reduction and information discarding in CNNs. Such information discarding may result in mis-deletion and mis-preservation of data features which largely influence the output of the network. This may aggravate the vulnerability of CNNs to adversarial attacks. In this paper, we conduct adversarial attacks on CNNs from the perspective of network structure by investigating and exploiting the vulnerability of pooling. First, a novel adversarial attack methodology named Strict Layer-Output Manipulation (SLOM) is proposed. Then an attack method based on Strict Pooling Manipulation (SPM) which is an instantiation of the SLOM spirit is designed to effectively realize both type I and type II adversarial attacks on a target CNN. Performances of attacks based on SPM at different depths are also investigated and compared. Moreover, performances of attack methods designed by instantiating the SLOM spirit with different operation layers of CNNs are compared. Experiment results reflect that pooling tends to be more vulnerable to adversarial attacks than other operations in CNNs.
翻訳日:2021-04-27 06:31:33 公開日:2020-12-21
# データ拡張による前方・後方差の増幅 -- よりロバストな深部単眼方位推定ソリューション

Amplifying the Anterior-Posterior Difference via Data Enhancement -- A More Robust Deep Monocular Orientation Estimation Solution ( http://arxiv.org/abs/2012.11431v1 )

ライセンス: Link先を確認
Chenchen Zhao and Hao Li(参考訳) 既存のディープラーニングに基づく単眼方向推定アルゴリズムは、車や歩行者などの交通シーンにおける典型的な物体の特徴的類似性に起因する、物体の前部と後部の混同の問題に直面している。 解決は難しいが、この問題は重大な方向推定誤差を引き起こし、予測された物体の軌道が地平線と反対の方向を持つ可能性があるため、エゴ車両の今後の意思決定プロセスに脅威をもたらす可能性がある。 本稿では,事前学習手法を提案することでこの問題を緩和する。 この方法は、物体の向きが位置する左右半円の予測に焦点を当てている。 訓練された半円予測モデルは、方向角推定モデルに統合され、範囲 $[0, \pi]$ の値が予測される。 実験の結果,提案した半円予測は,方向推定の精度を高め,上記の問題を緩和することがわかった。 提案手法では,ネットワーク構造の設計が整った既存手法と同様の方向推定性能を実現する。

Existing deep-learning based monocular orientation estimation algorithms faces the problem of confusion between the anterior and posterior parts of the objects, caused by the feature similarity of such parts in typical objects in traffic scenes such as cars and pedestrians. While difficult to solve, the problem may lead to serious orientation estimation errors, and pose threats to the upcoming decision making process of the ego vehicle, since the predicted tracks of objects may have directions opposite to ground truths. In this paper, we mitigate this problem by proposing a pretraining method. The method focuses on predicting the left/right semicircle in which the orientation of the object is located. The trained semicircle prediction model is then integrated into the orientation angle estimation model which predicts a value in range $[0, \pi]$. Experiment results show that the proposed semicircle prediction enhances the accuracy of orientation estimation, and mitigates the problem stated above. With the proposed method, a backbone achieves similar state-of-the-art orientation estimation performance to existing approaches with well-designed network structures.
翻訳日:2021-04-27 06:31:14 公開日:2020-12-21
# 3次元ポイントベース深層学習法によるバラの植物構造部分の分別

Segmentation of structural parts of rosebush plants with 3D point-based deep learning methods ( http://arxiv.org/abs/2012.11489v1 )

ライセンス: Link先を確認
Kaya Turgut, Helin Dutagaci, Gilles Galopin, David Rousseau(参考訳) 植物の3次元モデルの構造部分のセグメンテーションは、特に建築的・形態学的特性のモニタリングにおいて重要なステップである。 本研究は,3次元植物モデル,特にローズブッシュモデルにおける臓器セグメント化における3次元ポイントベースディープラーニング手法の性能評価のためのベンチマークを導入する。 最近の6つのディープラーニングアーキテクチャは、3Dポイントクラウドをセマンティックな部分に分割し、比較している。 本手法はROSE-Xデータセットを用いて実生バラの3Dモデルを含む実験を行った。 また,Lindenmayerシステムから生成した合成3Dモデルをトレーニングデータに組み込んだ。

Segmentation of structural parts of 3D models of plants is an important step for plant phenotyping, especially for monitoring architectural and morphological traits. This work introduces a benchmark for assessing the performance of 3D point-based deep learning methods on organ segmentation of 3D plant models, specifically rosebush models. Six recent deep learning architectures that segment 3D point clouds into semantic parts were adapted and compared. The methods were tested on the ROSE-X data set, containing fully annotated 3D models of real rosebush plants. The contribution of incorporating synthetic 3D models generated through Lindenmayer systems into training data was also investigated.
翻訳日:2021-04-27 06:30:57 公開日:2020-12-21
# AVAE: 逆変分オートエンコーダ

AVAE: Adversarial Variational Auto Encoder ( http://arxiv.org/abs/2012.11551v1 )

ライセンス: Link先を確認
Antoine Plumerault, Herv\'e Le Borgne, C\'eline Hudelot(参考訳) 多様な画像生成モデルのうち、2つのモデルは変分オートエンコーダ(VAE)とGAN(Generative Adversarial Networks)である。 GANはリアルな画像を生成できるが、モード崩壊に悩まされており、画像の潜伏表現を得るための簡単な方法を提供していない。 一方、VAEはこれらの問題を持たないが、GANよりも現実的な画像を生成することが多い。 本稿では、この現実主義の欠如は、自然像多様体次元の共通な過大評価によるものであることを述べる。 そこで本研究では,VAEとGANを相補的に組み合わせた新たなフレームワークを導入し,GAN品質の画像を生成しながら,VAEの特性を保ちながら自動符号化モデルを作成する。 5つの画像データセットを質的かつ定量的に評価した。

Among the wide variety of image generative models, two models stand out: Variational Auto Encoders (VAE) and Generative Adversarial Networks (GAN). GANs can produce realistic images, but they suffer from mode collapse and do not provide simple ways to get the latent representation of an image. On the other hand, VAEs do not have these problems, but they often generate images less realistic than GANs. In this article, we explain that this lack of realism is partially due to a common underestimation of the natural image manifold dimensionality. To solve this issue we introduce a new framework that combines VAE and GAN in a novel and complementary way to produce an auto-encoding model that keeps VAEs properties while generating images of GAN-quality. We evaluate our approach both qualitatively and quantitatively on five image datasets.
翻訳日:2021-04-27 06:30:45 公開日:2020-12-21
# HDNET:3Dオブジェクト検出のためのHDマップのエクスプロイト

HDNET: Exploiting HD Maps for 3D Object Detection ( http://arxiv.org/abs/2012.11704v1 )

ライセンス: Link先を確認
Bin Yang, Ming Liang, Raquel Urtasun(参考訳) 本稿では,高精細度(hd)マップが,現代の3次元物体検出器の性能と頑健性を高める強力な事前情報を提供することを示す。 この目的に向けて,HDマップから幾何学的特徴と意味的特徴を抽出する単一ステージ検出器を設計する。 地図は至る所では利用できないため、生のLiDARデータからフライ時の地図を推定するマップ予測モジュールも提案する。 我々は、KITTIと100万フレームを含む大規模3D検出ベンチマークの広範な実験を行い、提案したマップ認識検出器が、マップ化されたシナリオと未マップ化されたシナリオの両方において、常に最先端であることを示す。 重要なことに、フレームワーク全体が毎秒20フレームで動作します。

In this paper we show that High-Definition (HD) maps provide strong priors that can boost the performance and robustness of modern 3D object detectors. Towards this goal, we design a single stage detector that extracts geometric and semantic features from the HD maps. As maps might not be available everywhere, we also propose a map prediction module that estimates the map on the fly from raw LiDAR data. We conduct extensive experiments on KITTI as well as a large-scale 3D detection benchmark containing 1 million frames, and show that the proposed map-aware detector consistently outperforms the state-of-the-art in both mapped and un-mapped scenarios. Importantly the whole framework runs at 20 frames per second.
翻訳日:2021-04-27 06:29:00 公開日:2020-12-21
# 道路境界抽出のための畳み込みリカレントネットワーク

Convolutional Recurrent Network for Road Boundary Extraction ( http://arxiv.org/abs/2012.12160v1 )

ライセンス: Link先を確認
Justin Liang, Namdar Homayounfar, Wei-Chiu Ma, Shenlong Wang, Raquel Urtasun(参考訳) シーンの静的要素の正確な情報を含む高定義マップを作成することは、自動運転車を安全に運転できるようにする上で最も重要である。 本稿では,LiDARとカメラ画像からの道路境界抽出の問題に取り組む。 この目的に向けて,完全畳み込みネットワークが道路境界の位置と方向をエンコードした深い特徴を取得し,畳み込み再帰ネットワークがそれらのそれぞれに対してポリライン表現を出力する構造モデルを設計する。 重要なことに,本手法は完全自動であり,ループ内のユーザを必要としない。 本研究では, 道路境界の完全トポロジーを高精度かつリコールすることで, 道路境界の99.3%の完全なトポロジーが得られる北米大都市において, 提案手法の有効性を示す。

Creating high definition maps that contain precise information of static elements of the scene is of utmost importance for enabling self driving cars to drive safely. In this paper, we tackle the problem of drivable road boundary extraction from LiDAR and camera imagery. Towards this goal, we design a structured model where a fully convolutional network obtains deep features encoding the location and direction of road boundaries and then, a convolutional recurrent network outputs a polyline representation for each one of them. Importantly, our method is fully automatic and does not require a user in the loop. We showcase the effectiveness of our method on a large North American city where we obtain perfect topology of road boundaries 99.3% of the time at a high precision and recall.
翻訳日:2021-04-27 06:28:46 公開日:2020-12-21
# MT-Teql:メタモルフィックテストによるテキスト-SQLモデルの一貫性の評価と拡張

MT-Teql: Evaluating and Augmenting Consistency of Text-to-SQL Models with Metamorphic Testing ( http://arxiv.org/abs/2012.11163v1 )

ライセンス: Link先を確認
Pingchuan Ma and Shuai Wang(参考訳) Text-to-SQLは、人間の発話からSQLクエリを生成するタスクである。 しかし、自然言語の変化により、2つの意味的に等価な発話が語彙レベルで異なる形で現れることがある。 同様に、ユーザー好み(例えば正規形式の選択)は、概念的に同一のスキーマを表現する際にテーブル構造を劇的に変化させる可能性がある。 本稿では,テキストからsqlへのモデルの一貫性を体系的に評価・強化するためのメタモルフィックテストベースのフレームワークであるmt-teqlを提案する。 MT-Teqlは、ソフトウェアメタモルフィックテストの原則に触発されて、メタモルフィック関係(MR)の包括的なセットを実装し、発話やスキーマに対するセマンティックス保存変換を実行する、モデルに依存しないフレームワークを提供する。 モデルの不整合は、オリジナルの入力と変換された入力が異なるsqlクエリを誘発するときに露呈できる。 さらに,モデルのロバスト性向上のために,変換入力をモデルの再トレーニングに活用する。 実験の結果,我々のフレームワークはSOTAモデルから数千の予測誤差を公開し,既存のデータセットを桁違いに拡張し,標準精度を損なうことなく40%以上の不整合誤差を排除していることがわかった。

Text-to-SQL is a task to generate SQL queries from human utterances. However, due to the variation of natural language, two semantically equivalent utterances may appear differently in the lexical level. Likewise, user preferences (e.g., the choice of normal forms) can lead to dramatic changes in table structures when expressing conceptually identical schemas. Envisioning the general difficulty for text-to-SQL models to preserve prediction consistency against linguistic and schema variations, we propose MT-Teql, a Metamorphic Testing-based framework for systematically evaluating and augmenting the consistency of TExt-to-SQL models. Inspired by the principles of software metamorphic testing, MT-Teql delivers a model-agnostic framework which implements a comprehensive set of metamorphic relations (MRs) to conduct semantics-preserving transformations toward utterances and schemas. Model Inconsistency can be exposed when the original and transformed inputs induce different SQL queries. In addition, we leverage the transformed inputs to retrain models for further model robustness boost. Our experiments show that our framework exposes thousands of prediction errors from SOTA models and enriches existing datasets by order of magnitude, eliminating over 40% inconsistency errors without compromising standard accuracy.
翻訳日:2021-04-27 06:28:33 公開日:2020-12-21
# グラフに基づく最近傍探索に関する一考察

A Note on Graph-Based Nearest Neighbor Search ( http://arxiv.org/abs/2012.11083v1 )

ライセンス: Link先を確認
Hongya Wang, Zhizheng Wang, Wei Wang, Yingyuan Xiao, Zeng Zhao, Kaixiang Yang(参考訳) 近隣の検索は、機械学習、データマイニング、大規模データ処理システムに多くの応用を見出している。 過去数年間、空間分割アルゴリズムよりも優れているため、グラフベースの近接探索パラダイムが人気を博してきた。 グラフベースのアルゴリズムの効率を実証する実証的研究は多いが、なぜグラフベースのアルゴリズムが実際にこれほどうまく機能するのかという根本的な疑問にはあまり注目されていない。 そして、どのデータプロパティが効率と方法に影響するのか? 本稿では,これらの疑問に答えようと試みる。 我々の洞察では、"ある点 o の隣人が KNN グラフの隣人となる確率" は、クエリ効率にとって重要なデータ特性である。 与えられたデータセットに対して、そのような性質はKNNグラフのクラスタリング係数によって定性的に測定することができる。 クラスタリング係数がパフォーマンスにどのように影響するかを示すために、グローバル接続の代わりに、あるクエリq周辺のローカル接続がリコールに直接影響を与えることを識別する。 具体的には、高いクラスタリング係数がq の k 近傍の大部分をグラフ内の最大連結成分 (SCC) に配置することを示した。 アルゴリズム的な観点からは、探索手続きは実際には最大scc外の2つのフェーズと、それに含まれるもう1つのフェーズで構成されており、これは広く受け入れられている単一の経路や複数の経路の探索モデルとは異なる。 グラフに基づく探索アルゴリズムは,任意の地点を訪れると最大 SCC を横切ることが保証されている。 解析の結果,クラスタリング係数が高いと最大sccのサイズが大きくなり,二相探索の助けを借りて回答品質が良好であることが判明した。 包括的なデータセットコレクションに対する広範な実験結果が、我々の発見を裏付ける。

Nearest neighbor search has found numerous applications in machine learning, data mining and massive data processing systems. The past few years have witnessed the popularity of the graph-based nearest neighbor search paradigm because of its superiority over the space-partitioning algorithms. While a lot of empirical studies demonstrate the efficiency of graph-based algorithms, not much attention has been paid to a more fundamental question: why graph-based algorithms work so well in practice? And which data property affects the efficiency and how? In this paper, we try to answer these questions. Our insight is that "the probability that the neighbors of a point o tends to be neighbors in the KNN graph" is a crucial data property for query efficiency. For a given dataset, such a property can be qualitatively measured by clustering coefficient of the KNN graph. To show how clustering coefficient affects the performance, we identify that, instead of the global connectivity, the local connectivity around some given query q has more direct impact on recall. Specifically, we observed that high clustering coefficient makes most of the k nearest neighbors of q sit in a maximum strongly connected component (SCC) in the graph. From the algorithmic point of view, we show that the search procedure is actually composed of two phases - the one outside the maximum SCC and the other one in it, which is different from the widely accepted single or multiple paths search models. We proved that the commonly used graph-based search algorithm is guaranteed to traverse the maximum SCC once visiting any point in it. Our analysis reveals that high clustering coefficient leads to large size of the maximum SCC, and thus provides good answer quality with the help of the two-phase search procedure. Extensive empirical results over a comprehensive collection of datasets validate our findings.
翻訳日:2021-04-27 06:27:55 公開日:2020-12-21
# Sub-Linear Memory:Performer SLiMの作り方

Sub-Linear Memory: How to Make Performers SLiM ( http://arxiv.org/abs/2012.11346v1 )

ライセンス: Link先を確認
Valerii Likhosherstov, Krzysztof Choromanski, Jared Davis, Xingyou Song, Adrian Weller(参考訳) Transformerアーキテクチャはシーケンシャルなデータに対する深い学習に革命をもたらし、様々なアプリケーションのための最先端のソリューションでユビキタスになった。 しかし、バニラトランスフォーマはリソース効率が良く、入力長$l$の関数としてシリアル時間とメモリに$o(l^2)$を必要とする。 最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。 本研究では, 計算の複雑さの観点から, 最近の変圧器機構を線形自己着型演奏者を用いて徹底的に解析する。 計算の柔軟性は顕著である: 並列設定でより時間的複雑さを犠牲にして、サブリニアメモリを$l$の関数として使用することで、前方および後方の伝播を近似することなく、(入力シーケンスの無視可能なストレージに加えて)実行することができる。 極端な場合、Performerはトレーニング中にわずか$O(1)$メモリしか消費せず、それでも$O(L)$時間を必要とする。 この時間メモリのトレードオフは、トレーニングや完全な後方互換性のため、低メモリデバイスの微調整に使用することができる。 スマートフォンや前世代のgpuは、分散化と民主化の深層学習に寄与する。

The Transformer architecture has revolutionized deep learning on sequential data, becoming ubiquitous in state-of-the-art solutions for a wide variety of applications. Yet vanilla Transformers are notoriously resource-expensive, requiring $O(L^2)$ in serial time and memory as functions of input length $L$. Recent works proposed various linear self-attention mechanisms, scaling only as $O(L)$ for serial computation. We perform a thorough analysis of recent Transformer mechanisms with linear self-attention, Performers, in terms of overall computational complexity. We observe a remarkable computational flexibility: forward and backward propagation can be performed with no approximations using sublinear memory as a function of $L$ (in addition to negligible storage for the input sequence), at a cost of greater time complexity in the parallel setting. In the extreme case, a Performer consumes only $O(1)$ memory during training, and still requires $O(L)$ time. This discovered time-memory tradeoff can be used for training or, due to complete backward-compatibili ty, for fine-tuning on a low-memory device, e.g. a smartphone or an earlier-generation GPU, thus contributing towards decentralized and democratized deep learning.
翻訳日:2021-04-27 06:27:28 公開日:2020-12-21
# 決定木の遺伝的逆行訓練

Genetic Adversarial Training of Decision Trees ( http://arxiv.org/abs/2012.11352v1 )

ライセンス: Link先を確認
Francesco Ranzato and Marco Zanella(参考訳) 遺伝的アルゴリズムを用いて決定木をアンサンブルするための新しい学習手法を提案し,その精度と敵の摂動に対する頑健性の両方を最大化するために決定木を訓練する。 この学習アルゴリズムは、よく知られた静的プログラム解析手法である抽象解釈に基づく決定木のロバスト性に対する完全形式的検証手法を内部的に活用している。 本アルゴリズムをMeta-Silvae (MS) というツールに実装し, 対人訓練に用いる参照データセットを用いて実験的に評価した。 実験の結果,MSはよりコンパクトであり,解釈可能かつ効率的な木モデルでありながら,決定木に対する対角的訓練の現在の技術に対抗し,しばしば改善する頑健なモデルを訓練できることがわかった。

We put forward a novel learning methodology for ensembles of decision trees based on a genetic algorithm which is able to train a decision tree for maximizing both its accuracy and its robustness to adversarial perturbations. This learning algorithm internally leverages a complete formal verification technique for robustness properties of decision trees based on abstract interpretation, a well known static program analysis technique. We implemented this genetic adversarial training algorithm in a tool called Meta-Silvae (MS) and we experimentally evaluated it on some reference datasets used in adversarial training. The experimental results show that MS is able to train robust models that compete with and often improve on the current state-of-the-art of adversarial training of decision trees while being much more compact and therefore interpretable and efficient tree models.
翻訳日:2021-04-27 06:27:07 公開日:2020-12-21
# 不変性としての知識 -知識強化機械学習の歴史と展望-

Knowledge as Invariance -- History and Perspectives of Knowledge-augmented Machine Learning ( http://arxiv.org/abs/2012.11406v1 )

ライセンス: Link先を確認
Alexander Sagel and Amit Sahu and Stefan Matthes and Holger Pfeifer and Tianming Qiu and Harald Rue{\ss} and Hao Shen and Julian W\"ormann(参考訳) 機械学習の研究は転換点にある。 教師付き深層学習は、これまでにないペースでこの分野を征服し、前例のない精度で推論問題を解く能力を示したが、学習を主題や問題に関する知識獲得の過程と考えると、その名前にはまだ達していない。 現在のディープラーニングモデルの主な弱点は、例えば、環境の変化への適応性の欠如や、トレーニングされたものよりも他の種類のタスクを実行することができないことである。 これらの制限を克服する方法はまだ分かっていないが、機械学習コミュニティ内のパラダイムシフトを観察することが可能であり、非常にパラメータ化されたモデルのパフォーマンスを極端に特定のタスクに引き上げることから、非常に多様なドメインで機械学習アルゴリズムを採用することへと、研究の関心が移り変わる。 この研究は異なる角度からアプローチすることができる。 例えば、Informed AIの分野は、正規化やデータ拡張、後処理といったテクニックを使用して、ドメイン知識を機械学習モデルに注入する問題を調査している。 一方で、近年の注目すべき作品は、ドメインや問題に対して、それ自体がある程度の汎用性と不変性を保証するモデルの開発に焦点をあてている。 したがって、機械学習モデルにドメイン固有の知識を提供する方法を検討するのではなく、モデルにそれ自身で知識を取得する能力を与える方法を探求する。 このホワイトペーパーは、機械学習研究におけるこの新興分野の紹介と議論を提供する。 この目的のために、機械学習における知識の役割をレビューし、その分野の文献レビューを提供する前に、不変の概念との関係について論じる。

Research in machine learning is at a turning point. While supervised deep learning has conquered the field at a breathtaking pace and demonstrated the ability to solve inference problems with unprecedented accuracy, it still does not quite live up to its name if we think of learning as the process of acquiring knowledge about a subject or problem. Major weaknesses of present-day deep learning models are, for instance, their lack of adaptability to changes of environment or their incapability to perform other kinds of tasks than the one they were trained for. While it is still unclear how to overcome these limitations, one can observe a paradigm shift within the machine learning community, with research interests shifting away from increasing the performance of highly parameterized models to exceedingly specific tasks, and towards employing machine learning algorithms in highly diverse domains. This research question can be approached from different angles. For instance, the field of Informed AI investigates the problem of infusing domain knowledge into a machine learning model, by using techniques such as regularization, data augmentation or post-processing. On the other hand, a remarkable number of works in the recent years has focused on developing models that by themselves guarantee a certain degree of versatility and invariance with respect to the domain or problem at hand. Thus, rather than investigating how to provide domain-specific knowledge to machine learning models, these works explore methods that equip the models with the capability of acquiring the knowledge by themselves. This white paper provides an introduction and discussion of this emerging field in machine learning research. To this end, it reviews the role of knowledge in machine learning, and discusses its relation to the concept of invariance, before providing a literature review of the field.
翻訳日:2021-04-27 06:26:33 公開日:2020-12-21
# 時系列分類のためのハイブリッドアーキテクチャを用いた多面表現学習

Multi-Faceted Representation Learning with Hybrid Architecture for Time Series Classification ( http://arxiv.org/abs/2012.11472v1 )

ライセンス: Link先を確認
Zhenyu Liu, Jian Cheng(参考訳) 時系列分類問題は多くの分野に存在し、数十年にわたって研究されてきた。 しかし、それらは依然として挑戦的であり、それらのソリューションは精度と効率の両面で現実世界のアプリケーションにさらに改善される必要がある。 本稿では,不定時系列の多面表現を学ぶために,自己注意型再帰畳み込みネットワーク(sarcon)と呼ばれるハイブリッドニューラルネットワークを提案する。 SARCoNは、長い短期記憶ネットワークと、異なる視点から単変量時系列の表現を学ぶために並列に動作する完全な畳み込みネットワークの合成である。 提案するアーキテクチャのコンポーネントモジュールは、エンドツーエンドで共同で訓練され、入力時系列を協調的に分類する。 ドメインに依存しない性質のため、SARCoNはドメインタスクの多様性を一般化することができる。 実験結果から, 時系列分類の最先端手法と比較して, 提案アーキテクチャは, UCRレポジトリからの単変量時系列ベンチマークの集合に対して, 顕著な改善を達成できることが示唆された。 さらに,提案アーキテクチャにおける自己着脱とグローバル平均プーリングにより,元の時系列の寄与領域の同定を容易にすることにより,可視的な解釈が可能となる。 全体分析により,時系列分類性能の向上に欠かせない複雑な時系列内の時間的補正を,時系列の多面的表現が捉えることが確認された。 我々の研究は、時系列分類の理解を深める新しいアングルを提供し、提案したモデルを現実世界のアプリケーションに最適な選択肢とみなす。

Time series classification problems exist in many fields and have been explored for a couple of decades. However, they still remain challenging, and their solutions need to be further improved for real-world applications in terms of both accuracy and efficiency. In this paper, we propose a hybrid neural architecture, called Self-Attentive Recurrent Convolutional Networks (SARCoN), to learn multi-faceted representations for univariate time series. SARCoN is the synthesis of long short-term memory networks with self-attentive mechanisms and Fully Convolutional Networks, which work in parallel to learn the representations of univariate time series from different perspectives. The component modules of the proposed architecture are trained jointly in an end-to-end manner and they classify the input time series in a cooperative way. Due to its domain-agnostic nature, SARCoN is able to generalize a diversity of domain tasks. Our experimental results show that, compared to the state-of-the-art approaches for time series classification, the proposed architecture can achieve remarkable improvements for a set of univariate time series benchmarks from the UCR repository. Moreover, the self-attention and the global average pooling in the proposed architecture enable visible interpretability by facilitating the identification of the contribution regions of the original time series. An overall analysis confirms that multi-faceted representations of time series aid in capturing deep temporal corrections within complex time series, which is essential for the improvement of time series classification performance. Our work provides a novel angle that deepens the understanding of time series classification, qualifying our proposed model as an ideal choice for real-world applications.
翻訳日:2021-04-27 06:26:06 公開日:2020-12-21
# CNN機能エクストラクタによる設計ルールチェック

Design Rule Checking with a CNN Based Feature Extractor ( http://arxiv.org/abs/2012.11510v1 )

ライセンス: Link先を確認
Luis Francisco, Tanmay Lagare, Arpit Jain, Somal Chaudhary, Madhura Kulkarni, Divya Sardana, W. Rhett Davis and Paul Franzon(参考訳) 高度なノード技術では設計ルールチェック(drc)がますます複雑になっています。 レイアウト中に使用可能な高速な対話型DRCエンジンが望まれる。 本研究では,このようなエンジンの実現可能性の証明を確立する。 提案モデルは畳み込みニューラルネットワーク(cnn)を用いて,drm違反を検出する。 このモデルは、50ドルのsram設計のセットから派生した人工データで訓練された。 このデモの焦点は金属1のルールだった。 この方法を用いることで,最大92の精度で,複数のDRC違反をBooleanチェッカーの32倍高速に検出できる。 提案した解は、容易に完全なルールセットに拡張できる。

Design rule checking (DRC) is getting increasingly complex in advanced nodes technologies. It would be highly desirable to have a fast interactive DRC engine that could be used during layout. In this work, we establish the proof of feasibility for such an engine. The proposed model consists of a convolutional neural network (CNN) trained to detect DRC violations. The model was trained with artificial data that was derived from a set of $50$ SRAM designs. The focus in this demonstration was metal 1 rules. Using this solution, we can detect multiple DRC violations 32x faster than Boolean checkers with an accuracy of up to 92. The proposed solution can be easily expanded to a complete rule set.
翻訳日:2021-04-27 06:25:40 公開日:2020-12-21
# domainadversarial neural networkを用いた教師なし言語間音声感情認識

Unsupervised Cross-Lingual Speech Emotion Recognition Using DomainAdversarial Neural Network ( http://arxiv.org/abs/2012.11174v1 )

ライセンス: Link先を確認
Xiong Cai, Zhiyong Wu, Kuo Zhong, Bin Su, Dongyang Dai, Helen Meng(参考訳) ディープラーニングアプローチを用いることで、単一ドメインの音声感情認識(ser)は多くの優れた結果を得た。 しかし、ドメイン間SERは、依然としてソースとターゲットドメイン間の分散シフトの課題であり、本研究では、この分散シフトを言語間SERに緩和するドメイン適応ニューラルネットワーク(DANN)に基づくアプローチを提案する。 具体的には,特徴抽出器の後に言語分類器と勾配反転層を追加し,学習表現を強制する。 我々の手法は教師なし、すなわちラベルソンターゲット言語は不要であるので、他の言語にメソッドをp-plyするのが容易である。 実験結果から,提案手法は平均3.91%の絶対値向上を実現し,平均値と平均値の分類を行った。 さらに,バッチ正規化はDANNの性能向上に有益であることがわかった。 したがって、バッチ正規化のためのデータ組み合わせの異なる方法の影響についても検討する。

By using deep learning approaches, Speech Emotion Recog-nition (SER) on a single domain has achieved many excellentresults. However, cross-domain SER is still a challenging taskdue to the distribution shift between source and target domains.In this work, we propose a Domain Adversarial Neural Net-work (DANN) based approach to mitigate this distribution shiftproblem for cross-lingual SER. Specifically, we add a languageclassifier and gradient reversal layer after the feature extractor toforce the learned representation both language-independent andemotion-meaningfu l. Our method is unsupervised, i. e., labelson target language are not required, which makes it easier to ap-ply our method to other languages. Experimental results showthe proposed method provides an average absolute improve-ment of 3.91% over the baseline system for arousal and valenceclassificatio n task. Furthermore, we find that batch normaliza-tion is beneficial to the performance gain of DANN. Thereforewe also explore the effect of different ways of data combinationfor batch normalization.
翻訳日:2021-04-27 06:25:05 公開日:2020-12-21
# ニューラルネットワークの固定点実装のインクリメンタル検証

Incremental Verification of Fixed-Point Implementations of Neural Networks ( http://arxiv.org/abs/2012.11220v1 )

ライセンス: Link先を確認
Luiz Sena, Erickson Alves, Iury Bessa, Eddie Filho, and Lucas Cordeiro(参考訳) 人工ニューラルネットワーク(ANN)の実装は、ANNが並列性が高く、パラメータがほとんど解釈できないため、設計段階では予測できない失敗につながる可能性がある。 本稿では, インクリメンタル境界モデル検査 (BMC) , SMT (Satisfiability modulo theory) および不変推論を用いた新しい記号検証フレームワークの開発と評価を行い, 多層パーセプトロン (MLP) における逆ケースの取得とカバレッジ手法の検証を行う。 ニューロンの入力から境界を計算するために間隔解析に基づくインクリメンタルbmcを利用する。 次に、後者を伝播させて、次のニューロンの入力であるため、ニューロンの出力を効果的に見つける。 本稿では,変分推論に基づくCUDAにおけるANNの実際の実装を推論する最初のビット精度シンボル検証フレームワークについて述べる。 提案手法は,効率的なSMTベース有界モデルチェッカー(ESBMC)上に実装されており,その実験結果から,ANNの実際の実装における安全性特性の検証と,MLPにおける実敵ケースの生成が可能であることが示された。 提案手法は,異なる入力画像を考慮した21の試験事例の85.8%,カバー手法に関連する特性の100%を検証・生成することができた。 検証時間は既存の手法よりも高いが,現状の検証手法では無視できる固定点実装の側面を検討することができる。

Implementations of artificial neural networks (ANNs) might lead to failures, which are hardly predicted in the design phase since ANNs are highly parallel and their parameters are barely interpretable. Here, we develop and evaluate a novel symbolic verification framework using incremental bounded model checking (BMC), satisfiability modulo theories (SMT), and invariant inference, to obtain adversarial cases and validate coverage methods in a multi-layer perceptron (MLP). We exploit incremental BMC based on interval analysis to compute boundaries from a neuron's input. Then, the latter are propagated to effectively find a neuron's output since it is the input of the next one. This paper describes the first bit-precise symbolic verification framework to reason over actual implementations of ANNs in CUDA, based on invariant inference, therefore providing further guarantees about finite-precision arithmetic and its rounding errors, which are routinely ignored in the existing literature. We have implemented the proposed approach on top of the efficient SMT-based bounded model checker (ESBMC), and its experimental results show that it can successfully verify safety properties, in actual implementations of ANNs, and generate real adversarial cases in MLPs. Our approach was able to verify and produce adversarial examples for 85.8% of 21 test cases considering different input images, and 100% of the properties related to covering methods. Although our verification time is higher than existing approaches, our methodology can consider fixed-point implementation aspects that are disregarded by the state-of-the-art verification methodologies.
翻訳日:2021-04-27 06:24:50 公開日:2020-12-21
# ソフトウェア定義mdpのためのユニバーサルポリシー

Universal Policies for Software-Defined MDPs ( http://arxiv.org/abs/2012.11401v1 )

ライセンス: Link先を確認
Daniel Selsam, Jesse Michael Han, Leonardo de Moura, Patrice Godefroid(参考訳) 我々は,プログラムがマルコフ決定プロセス(MDP)を規定し,言語が普遍的なポリシーを提供する,オラクル誘導決定プログラミングと呼ばれる新しいプログラミングパラダイムを導入する。 我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。 dodonaインタプリタは、最適な決定を行うために必要なすべての情報のロスレスエンコーディングを含む値または選択ポイントのどちらかを返す。 メタインタプリタは、これらの選択ポイント上のDodonaの(神経)託宣をクエリして、ポリシーと価値の推定値を取得し、基礎となるMDPのヒューリスティック検索を実行するために使用できる。 リスト,木,教会データ構造,多項式,一階項および高階項上の基本的な操作をシミュレートする何百もの合成タスクをメタラーニングすることで,ドドーナのゼロショットヒューリスティックな指導の可能性を示す。

We introduce a new programming paradigm called oracle-guided decision programming in which a program specifies a Markov Decision Process (MDP) and the language provides a universal policy. We prototype a new programming language, Dodona, that manifests this paradigm using a primitive 'choose' representing nondeterministic choice. The Dodona interpreter returns either a value or a choicepoint that includes a lossless encoding of all information necessary in principle to make an optimal decision. Meta-interpreters query Dodona's (neural) oracle on these choicepoints to get policy and value estimates, which they can use to perform heuristic search on the underlying MDP. We demonstrate Dodona's potential for zero-shot heuristic guidance by meta-learning over hundreds of synthetic tasks that simulate basic operations over lists, trees, Church datastructures, polynomials, first-order terms and higher-order terms.
翻訳日:2021-04-27 06:24:23 公開日:2020-12-21
# 原則を真剣に受け止める - 価値アライメントへのハイブリッドアプローチ

Taking Principles Seriously: A Hybrid Approach to Value Alignment ( http://arxiv.org/abs/2012.11705v1 )

ライセンス: Link先を確認
Tae Wan Kim, John Hooker, Thomas Donaldson(参考訳) AIにおける価値アライメント(VA)システムの開発における重要なステップは、VAが有効な倫理的原則をどのように反映できるかを理解することである。 VAシステムの設計者は倫理的推論と経験的観察の両方が果たすハイブリッドアプローチを利用して倫理を取り入れることを提案する。 これは「存在」から「存在」を導き出そうとする「自然主義的誤り」を犯すことを避け、その誤りが犯されていない場合に倫理的推論のより適切な形式を提供する。 量子化されたモデル論理を用いて、非オントロジ的倫理から導かれる原則を正確に定式化し、AIルールベースの任意のアクションプランに対してどのように「テスト命題」を具体化するかを示す。 アクションプランは、試験命題が実証的真である場合に限り倫理的であり、経験的VAに基づいて決定される。 これにより、経験的VAは独立して正当化された倫理原則とシームレスに統合できる。

An important step in the development of value alignment (VA) systems in AI is understanding how VA can reflect valid ethical principles. We propose that designers of VA systems incorporate ethics by utilizing a hybrid approach in which both ethical reasoning and empirical observation play a role. This, we argue, avoids committing the "naturalistic fallacy," which is an attempt to derive "ought" from "is," and it provides a more adequate form of ethical reasoning when the fallacy is not committed. Using quantified model logic, we precisely formulate principles derived from deontological ethics and show how they imply particular "test propositions" for any given action plan in an AI rule base. The action plan is ethical only if the test proposition is empirically true, a judgment that is made on the basis of empirical VA. This permits empirical VA to integrate seamlessly with independently justified ethical principles.
翻訳日:2021-04-27 06:24:05 公開日:2020-12-21
# DeepKeyGen: 医用画像暗号化と復号のためのディープラーニングベースのストリーム暗号生成装置

DeepKeyGen: A Deep Learning-based Stream Cipher Generator for Medical Image Encryption and Decryption ( http://arxiv.org/abs/2012.11097v1 )

ライセンス: Link先を確認
Yi Ding, Fuyuan Tan, Zhen Qin, Mingsheng Cao, Kim-Kwang Raymond Choo and Zhiguang Qin(参考訳) 医療画像暗号化の必要性は、患者の医療画像データのプライバシーを保護するなど、ますます顕著になっている。 本稿では,新たな深層学習型鍵生成ネットワーク(DeepKeyGen)をストリーム暗号生成器として提案し,秘密鍵を生成し,医用画像の暗号化と復号化に利用することができる。 DeepKeyGenでは、生成敵対ネットワーク(GAN)が学習ネットワークとして採用され、秘密鍵を生成する。 さらに、変換ドメイン(生成される秘密鍵の「スタイル」を表す)は、学習ネットワークを誘導して秘密鍵生成プロセスを実現するように設計されている。 DeepKeyGenの目標は、初期画像をプライベートキーに転送する方法のマッピング関係を学ぶことだ。 我々は,モンゴメリー郡胸部X線データセット,超音波ブラキアルプレクスデータセット,BraTS18データセットの3つのデータセットを用いてDeepKeyGenを評価する。 評価結果とセキュリティ分析により,提案した鍵生成ネットワークは秘密鍵の生成において高いセキュリティを実現することができることが示された。

The need for medical image encryption is increasingly pronounced, for example to safeguard the privacy of the patients' medical imaging data. In this paper, a novel deep learning-based key generation network (DeepKeyGen) is proposed as a stream cipher generator to generate the private key, which can then be used for encrypting and decrypting of medical images. In DeepKeyGen, the generative adversarial network (GAN) is adopted as the learning network to generate the private key. Furthermore, the transformation domain (that represents the "style" of the private key to be generated) is designed to guide the learning network to realize the private key generation process. The goal of DeepKeyGen is to learn the mapping relationship of how to transfer the initial image to the private key. We evaluate DeepKeyGen using three datasets, namely: the Montgomery County chest X-ray dataset, the Ultrasonic Brachial Plexus dataset, and the BraTS18 dataset. The evaluation findings and security analysis show that the proposed key generation network can achieve a high-level security in generating the private key.
翻訳日:2021-04-27 06:23:38 公開日:2020-12-21
# スワーミングマップに基づくベイズ最適化による高速適応型ロボット群

Rapidly adapting robot swarms with Swarm Map-based Bayesian Optimisation ( http://arxiv.org/abs/2012.11444v1 )

ライセンス: Link先を確認
David M. Bossens and Danesh Tarapore(参考訳) 予期せぬ環境変動による迅速な性能回復は、Swarm Roboticsにとって大きな課題である。 この課題を解決するために,制御器のアーカイブを検索して潜在的な回復ソリューションを探索する行動適応手法を提案する。 群ロボットシステムに行動適応を適用するために, (i) Swarm Map-based Optimisation (SMBO) と (ii) Swarm Map-based Optimisation Decentralized (SMBO-Dec) の2つのアルゴリズムを提案する。 近距離センサや地上センサ、個々のロボットのアクチュエータに障害を注入し、それぞれに100種類の異なる組み合わせで飼料実験を行った。 また,Swarmの動作環境における障害についても検討し,Swarmは環境内で利用可能なリソース数が大きく変化すること,Swarmの他の部分に対して破壊的に行動するロボットの1つに適応する必要がある。 smbo, smbo-decの有効性を示し, ランダムサーチ, 勾配降下, 各種アブレーションの変種と比較し, 30以上の評価において, 故障注入時の性能を80%まで向上させた。

Rapid performance recovery from unforeseen environmental perturbations remains a grand challenge in swarm robotics. To solve this challenge, we investigate a behaviour adaptation approach, where one searches an archive of controllers for potential recovery solutions. To apply behaviour adaptation in swarm robotic systems, we propose two algorithms: (i) Swarm Map-based Optimisation (SMBO), which selects and evaluates one controller at a time, for a homogeneous swarm, in a centralised fashion; and (ii) Swarm Map-based Optimisation Decentralised (SMBO-Dec), which performs an asynchronous batch-based Bayesian optimisation to simultaneously explore different controllers for groups of robots in the swarm. We set up foraging experiments with a variety of disturbances: injected faults to proximity sensors, ground sensors, and the actuators of individual robots, with 100 unique combinations for each type. We also investigate disturbances in the operating environment of the swarm, where the swarm has to adapt to drastic changes in the number of resources available in the environment, and to one of the robots behaving disruptively towards the rest of the swarm, with 30 unique conditions for each such perturbation. The viability of SMBO and SMBO-Dec is demonstrated, comparing favourably to variants of random search and gradient descent, and various ablations, and improving performance up to 80% compared to the performance at the time of fault injection within at most 30 evaluations.
翻訳日:2021-04-27 06:23:18 公開日:2020-12-21
# マルチビューダイナミックフュージョンフレームワーク:マルチビューからマルチモーダル脳腫瘍の分離を改善するには?

A Multi-View Dynamic Fusion Framework: How to Improve the Multimodal Brain Tumor Segmentation from Multi-Views? ( http://arxiv.org/abs/2012.11211v1 )

ライセンス: Link先を確認
Yi Ding, Wei Zheng, Guozheng Wu, Ji Geng, Mingsheng Cao, Zhiguang Qin(参考訳) 脳腫瘍を診断する場合、医師は、軸線、コロナビュー、矢状ビューから多変量脳画像を観察して診断する。 そして、マルチビューから得られた情報に基づいて脳腫瘍の診断を包括的に決定する。 この診断プロセスに触発され、データセットに隠された3d情報をさらに活用するために、脳腫瘍の分節性能を向上させるための多視点動的融合フレームワークを提案する。 The proposed framework consists of 1) a multi-view deep neural network architecture, which represents multi learning networks for segmenting the brain tumor from different views and each deep neural network corresponds to multi-modal brain images from one single view and 2) the dynamic decision fusion method, which is mainly used to fuse segmentation results from multi-views as an integrate one and two different fusion methods, the voting method and the weighted averaging method, have been adopted to evaluate the fusing process. さらに,セグメンテーション損失,遷移損失,決定損失からなる多視点融合損失は,セグメンテーション結果の融合プロセスだけでなく,学習ネットワークのトレーニングプロセスにおいても,外観と空間の整合性を維持するために,多視点学習ネットワークのトレーニングプロセスを容易にする。 \par BRATS 2015 と BRATS 2018 で提案したフレームワークを評価することで,複数ビューの融合結果が単一ビューのセグメンテーション結果よりも優れた性能を示し,提案した多視点融合損失の有効性も証明されている。 さらに,提案フレームワークは,他の手法と比較してセグメンテーション性能と効率性の向上を実現している。

When diagnosing the brain tumor, doctors usually make a diagnosis by observing multimodal brain images from the axial view, the coronal view and the sagittal view, respectively. And then they make a comprehensive decision to confirm the brain tumor based on the information obtained from multi-views. Inspired by this diagnosing process and in order to further utilize the 3D information hidden in the dataset, this paper proposes a multi-view dynamic fusion framework to improve the performance of brain tumor segmentation. The proposed framework consists of 1) a multi-view deep neural network architecture, which represents multi learning networks for segmenting the brain tumor from different views and each deep neural network corresponds to multi-modal brain images from one single view and 2) the dynamic decision fusion method, which is mainly used to fuse segmentation results from multi-views as an integrate one and two different fusion methods, the voting method and the weighted averaging method, have been adopted to evaluate the fusing process. Moreover, the multi-view fusion loss, which consists of the segmentation loss, the transition loss and the decision loss, is proposed to facilitate the training process of multi-view learning networks so as to keep the consistency of appearance and space, not only in the process of fusing segmentation results, but also in the process of training the learning network. \par By evaluating the proposed framework on BRATS 2015 and BRATS 2018, it can be found that the fusion results from multi-views achieve a better performance than the segmentation result from the single view and the effectiveness of proposed multi-view fusion loss has also been proved. Moreover, the proposed framework achieves a better segmentation performance and a higher efficiency compared to other counterpart methods.
翻訳日:2021-04-27 06:22:53 公開日:2020-12-21
# daq: ディープイメージスーパーレゾリューションネットワークのための分散アウェア量子化

DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution Networks ( http://arxiv.org/abs/2012.11230v1 )

ライセンス: Link先を確認
Cheeun Hong, Heewon Kim, Junghun Oh, Kyoung Mu Lee(参考訳) 画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。 しかし、既存の作品では、4ビット以下の超低精度での性能低下に悩まされるか、あるいは性能回復に大量の微調整プロセスが必要になる。 私たちの知る限り、この脆弱性は、特徴マップ値の2つの統計観測に依存する。 第1に、特徴マップ値の分布は、チャネル単位と入力画像単位で大きく異なる。 第二に、特徴写像は量子化誤差を支配できる外れ値を持つ。 これらの結果に基づき,超低精度で正確なトレーニングフリー量子化を実現する新しい分布認識量子化スキーム (daq) を提案する。 DAQの単純な関数は、計算負担の少ない特徴写像と重みの動的範囲を決定する。 さらに,各チャネルの相対感度を計算することで,学習過程を伴わずに混合精度の量子化が可能となる。 それでも、量子化対応のトレーニングは補助的な性能向上にも適用できる。 本手法は,最先端の超解像ネットワークに対して,超低精度で最新のトレーニングフリーおよびトレーニングベース量子化手法を上回っている。

Quantizing deep convolutional neural networks for image super-resolution substantially reduces their computational costs. However, existing works either suffer from a severe performance drop in ultra-low precision of 4 or lower bit-widths, or require a heavy fine-tuning process to recover the performance. To our knowledge, this vulnerability to low precisions relies on two statistical observations of feature map values. First, distribution of feature map values varies significantly per channel and per input image. Second, feature maps have outliers that can dominate the quantization error. Based on these observations, we propose a novel distribution-aware quantization scheme (DAQ) which facilitates accurate training-free quantization in ultra-low precision. A simple function of DAQ determines dynamic range of feature maps and weights with low computational burden. Furthermore, our method enables mixed-precision quantization by calculating the relative sensitivity of each channel, without any training process involved. Nonetheless, quantization-aware training is also applicable for auxiliary performance gain. Our new method outperforms recent training-free and even training-based quantization methods to the state-of-the-art image super-resolution networks in ultra-low precision.
翻訳日:2021-04-27 06:22:26 公開日:2020-12-21
# ネットワークをブルーリングする - 特徴ピーク抑制とガウスブラリングによる敵攻撃

Blurring Fools the Network -- Adversarial Attacks by Feature Peak Suppression and Gaussian Blurring ( http://arxiv.org/abs/2012.11442v1 )

ライセンス: Link先を確認
Chenchen Zhao and Hao Li(参考訳) 既存のピクセルレベルの敵攻撃は、カメラキャプチャと複数の画像前処理ステップの後、データに対するピクセルレベルの変更がニューラルネットワークに完全に配信できないため、実際のシナリオでは不十分である可能性がある。 一方,本稿では,画像前処理の一般的な手法であるガウス的ぼかしが,特定の場面で攻撃的になり,現実の敵攻撃にネットワークを晒す可能性がある,という意見もある。 まず,データの特徴におけるピーク要素の値を抑制することで,対向攻撃デモであるピーク抑圧(ps)を提案する。 さらに,PSのぼやけた精神に基づいて,ガウスのぼやけをデータに適用し,ガウスのぼやけがネットワークの性能に与える影響と脅威について検討する。 実験の結果、psとよく設計されたガウスのぼやけは、訓練された標的ネットワークの分類結果を完全に変える敵の攻撃を形成することが示されている。 ガウスのぼやきの強い物理的意義と幅広い応用により、提案されたアプローチは現実世界の攻撃も行うことができる。

Existing pixel-level adversarial attacks on neural networks may be deficient in real scenarios, since pixel-level changes on the data cannot be fully delivered to the neural network after camera capture and multiple image preprocessing steps. In contrast, in this paper, we argue from another perspective that gaussian blurring, a common technique of image preprocessing, can be aggressive itself in specific occasions, thus exposing the network to real-world adversarial attacks. We first propose an adversarial attack demo named peak suppression (PS) by suppressing the values of peak elements in the features of the data. Based on the blurring spirit of PS, we further apply gaussian blurring to the data, to investigate the potential influence and threats of gaussian blurring to performance of the network. Experiment results show that PS and well-designed gaussian blurring can form adversarial attacks that completely change classification results of a well-trained target network. With the strong physical significance and wide applications of gaussian blurring, the proposed approach will also be capable of conducting real world attacks.
翻訳日:2021-04-27 06:21:28 公開日:2020-12-21
# 勾配等級とログ信号の2次和に基づくシフト非感受性フルリファレンス画像品質評価モデル

A Shift-insensitive Full Reference Image Quality Assessment Model Based on Quadratic Sum of Gradient Magnitude and LOG signals ( http://arxiv.org/abs/2012.11525v1 )

ライセンス: Link先を確認
Congmin Chen, Xuanqin Mou(参考訳) 画像の主観的品質を推定することを目的とした画質評価を行い、異なるアプリケーションで画像の知覚的品質を評価するモデルを構築する。 ヒト視覚システム(HVS)が構造情報に非常に敏感であるという事実に基づいて、エッジ情報抽出は様々なIQAメトリクスに広く適用されている。 これまでの研究では、画像勾配等級(GM)とガウス作用素(LOG)は、IQAタスクにおける2つの効率的な構造的特徴である。 しかし、IQAの指標のほとんどは、歪んだ画像が参照画像に完全に登録されている場合にのみ優れた性能を発揮するが、小さい翻訳で画像上では実行できない。 本稿では,GMとLOG信号の2次和を持つFR-IQAモデルを提案する。 実験結果から,提案モデルは,様々な歪みタイプとレベルを含む3つの大規模主観型IQAデータベース上で頑健に動作し,単一の歪みタイプやデータベース全体に関係なく,最先端のFR-IQAモデルに留まっていることがわかった。 さらに, 従来のIQAのCW-SSIM測定値と比較して, シフト非感受性特性が良好であることを確認した。 一方,提案手法はアプリケーションに効率的なCW-SSIMよりもはるかに単純である。

Image quality assessment that aims at estimating the subject quality of images, builds models to evaluate the perceptual quality of the image in different applications. Based on the fact that the human visual system (HVS) is highly sensitive to structural information, the edge information extraction is widely applied in different IQA metrics. According to previous studies, the image gradient magnitude (GM) and the Laplacian of Gaussian (LOG) operator are two efficient structural features in IQA tasks. However, most of the IQA metrics achieve good performance only when the distorted image is totally registered with the reference image, but fail to perform on images with small translations. In this paper, we propose an FR-IQA model with the quadratic sum of the GM and the LOG signals, which obtains good performance in image quality estimation considering shift-insensitive property for not well-registered reference and distortion image pairs. Experimental results show that the proposed model works robustly on three large scale subjective IQA databases which contain a variety of distortion types and levels, and stays in the state-of-the-art FR-IQA models no matter for single distortion type or across whole database. Furthermore, we validated that the proposed metric performs better with shift-insensitive property compared with the CW-SSIM metric that is considered to be shift-insensitive IQA so far. Meanwhile, the proposed model is much simple than the CW-SSIM, which is efficient for applications.
翻訳日:2021-04-27 06:21:07 公開日:2020-12-21
# 高次元における経験的ベイズPCA

Empirical Bayes PCA in high dimensions ( http://arxiv.org/abs/2012.11676v1 )

ライセンス: Link先を確認
Xinyi Zhong and Chang Su and Zhou Fan(参考訳) データの次元が利用可能なデータサンプルの数と同等かそれ以上である場合、主成分分析(PCA)は高次元ノイズの異常な現象を示すことが知られている。 本研究では,主成分の結合分布に先行する構造を推定することにより,このノイズを低減できる経験的ベイズPCA法を提案する。 このEB-PCA法は,経験的ベイズ推定のための古典的キーファー・ウルフウィッツ非パラメトリックMLE,サンプルPCのランダム行列理論から導かれた分布結果,および近似メッセージパッシング(AMP)アルゴリズムによる反復的改善に基づいている。 理論的「スパイクされた」モデルでは、EB-PCAは、真の事前を知っているオラクルAMP手順と同じ設定でベイズ最適推定精度を達成する。 EB-PCAは、シミュレーションと1000 Genomes ProjectとInternational HapMap Projectのデータを用いて構築された数種類の定量的ベンチマークの両方において、強い事前構造が存在する場合、PCAよりも大幅に改善できる。 単細胞RNA-seqで得られた遺伝子発現データの解析のための最終図表を提示する。

When the dimension of data is comparable to or larger than the number of available data samples, Principal Components Analysis (PCA) is known to exhibit problematic phenomena of high-dimensional noise. In this work, we propose an Empirical Bayes PCA method that reduces this noise by estimating a structural prior for the joint distributions of the principal components. This EB-PCA method is based upon the classical Kiefer-Wolfowitz nonparametric MLE for empirical Bayes estimation, distributional results derived from random matrix theory for the sample PCs, and iterative refinement using an Approximate Message Passing (AMP) algorithm. In theoretical "spiked" models, EB-PCA achieves Bayes-optimal estimation accuracy in the same settings as the oracle Bayes AMP procedure that knows the true priors. Empirically, EB-PCA can substantially improve over PCA when there is strong prior structure, both in simulation and on several quantitative benchmarks constructed using data from the 1000 Genomes Project and the International HapMap Project. A final illustration is presented for an analysis of gene expression data obtained by single-cell RNA-seq.
翻訳日:2021-04-27 06:20:41 公開日:2020-12-21
# 話すか働くか:重量量子化と5g伝送共設計によるモバイルデバイス上でのエネルギー効率のよい連合学習

To Talk or to Work: Energy Efficient Federated Learning over Mobile Devices via the Weight Quantization and 5G Transmission Co-Design ( http://arxiv.org/abs/2012.11070v1 )

ライセンス: Link先を確認
Rui Chen, Liang Li, Kaiping Xue, Chi Zhang, Lingjia Liu, Miao Pan(参考訳) Federated Learning(FL)は、モバイルデバイス全体にわたる大規模学習タスクのための新しいパラダイムである。 しかし、リソース制約のあるモバイルデバイス上での実用的FLデプロイメントは、複数の課題に直面している。 例えば、モバイルデバイス上でFLをサポートする効果的な無線ネットワークアーキテクチャを確立する方法が明確ではない。 さらに、現代の機械学習モデルがますます複雑化するにつれて、FLのローカルなオンデバイストレーニング/インターミディエートモデルのアップデートは、モバイルデバイスが手頃な価格でリソースを消費しすぎている。 これらの課題に対処するため,本稿では,近年の新興技術である5GをFLで橋渡しし,不均一な5Gモバイルデバイス上でのエネルギー効率FLのための無線伝送および重み量子化共設計を開発する。 簡単に言えば、高いデータレートを備えた5Gは、通信上の深刻な懸念を和らげるのに役立ち、5Gのマルチアクセスエッジコンピューティング(MEC)は、FLをサポートするための完璧なネットワークアーキテクチャを提供する。 MECアーキテクチャでは、不均一な5Gモバイルデバイス上でデバイス上でのローカルトレーニングを容易にするフレキシブルウェイト量子化方式を開発した。 ローカルコンピューティングのエネルギー消費が5g伝送によるモデル更新に匹敵するという事実を観察し、エネルギー効率のよいfl問題を混合整数計画問題に定式化し、量子化戦略を精巧に決定し、異種5gモバイルデバイスの無線帯域幅を割り当てる。 目的は、学習性能とトレーニング遅延を保証しながら、5Gモバイルデバイス上でのFLエネルギー消費(計算+5G送信)を最小化することである。 一般化ベンダー分解は実現可能な解の開発に応用され,提案手法の有効性を検証するために広範なシミュレーションが行われる。

Federated learning (FL) is a new paradigm for large-scale learning tasks across mobile devices. However, practical FL deployment over resource constrained mobile devices confronts multiple challenges. For example, it is not clear how to establish an effective wireless network architecture to support FL over mobile devices. Besides, as modern machine learning models are more and more complex, the local on-device training/intermediat e model update in FL is becoming too power hungry/radio resource intensive for mobile devices to afford. To address those challenges, in this paper, we try to bridge another recent surging technology, 5G, with FL, and develop a wireless transmission and weight quantization co-design for energy efficient FL over heterogeneous 5G mobile devices. Briefly, the 5G featured high data rate helps to relieve the severe communication concern, and the multi-access edge computing (MEC) in 5G provides a perfect network architecture to support FL. Under MEC architecture, we develop flexible weight quantization schemes to facilitate the on-device local training over heterogeneous 5G mobile devices. Observed the fact that the energy consumption of local computing is comparable to that of the model updates via 5G transmissions, we formulate the energy efficient FL problem into a mixed-integer programming problem to elaborately determine the quantization strategies and allocate the wireless bandwidth for heterogeneous 5G mobile devices. The goal is to minimize the overall FL energy consumption (computing + 5G transmissions) over 5G mobile devices while guaranteeing learning performance and training latency. Generalized Benders' Decomposition is applied to develop feasible solutions and extensive simulations are conducted to verify the effectiveness of the proposed scheme.
翻訳日:2021-04-27 06:20:22 公開日:2020-12-21
# 深部強化学習を用いた低コストカメラを用いた移動ロボットプランナ

Mobile Robot Planner with Low-cost Cameras Using Deep Reinforcement Learning ( http://arxiv.org/abs/2012.11160v1 )

ライセンス: Link先を確認
Minh Q. Tran, Ngoc Q. Ly(参考訳) 本研究は、深層強化学習に基づくロボット移動政策を開発する。 従来のロボットナビゲーションの方法は、正確な地図再現とハイエンドセンサーを必要とするため、学習に基づく方法はポジティブな傾向であり、特に深層強化学習である。 この問題はマルコフ決定プロセス(MDP)の形でモデル化され、エージェントは移動ロボットである。 その視点はレーザーアイソレーションやカメラなどの入力センサーによって得られ、目的が衝突することなく目標に向かって移動することである。 この問題を解決する深層学習手法は数多く存在する。 しかし、ロボットを市場に投入するためには、低コストの大量生産も課題となる。 そこで本研究では,安定性能を維持しつつ,単一カメラ画像からの直接深度行列予測に基づく擬似レーザ発見システムの構築を試みた。 実験の結果、他のセンサーと直接比較できることがわかった。

This study develops a robot mobility policy based on deep reinforcement learning. Since traditional methods of conventional robotic navigation depend on accurate map reproduction as well as require high-end sensors, learning-based methods are positive trends, especially deep reinforcement learning. The problem is modeled in the form of a Markov Decision Process (MDP) with the agent being a mobile robot. Its state of view is obtained by the input sensors such as laser findings or cameras and the purpose is navigating to the goal without any collision. There have been many deep learning methods that solve this problem. However, in order to bring robots to market, low-cost mass production is also an issue that needs to be addressed. Therefore, this work attempts to construct a pseudo laser findings system based on direct depth matrix prediction from a single camera image while still retaining stable performances. Experiment results show that they are directly comparable with others using high-priced sensors.
翻訳日:2021-04-27 06:19:50 公開日:2020-12-21
# 複雑な構造における音響放射源の局在化のためのベイズ法

A Bayesian methodology for localising acoustic emission sources in complex structures ( http://arxiv.org/abs/2012.11058v1 )

ライセンス: Link先を確認
Matthew R. Jones, Tim J. Rogers, Keith Worden, Elizabeth J. Cross(参考訳) 構造的健康モニタリング(SHM)の分野では、損傷源をローカライズするための音響放射の取得が一般的なアプローチとして現れている。 近年の進歩にもかかわらず、非自明な幾何学的特徴を含む複合材料や構造物の損傷を突き止める作業は依然として大きな課題となっている。 本稿では,これらの複雑さに頑健なベイズ的ソースローカライゼーション戦略について述べる。 この新たな枠組みの下では、ガウス過程を用いて、複数のセンサペアのソース位置と対応する時間差値の関係を学習する。 未知の起源を持つ音響放射イベントが観測されると、構造の表面を横断する放射位置の可能性を定量化するマッピングが生成される。 新しい確率的マッピングは、複数の利点を提供し、決定論的予測や、関連する信頼境界を持つ単点推定よりも有益な局所化戦略をもたらす。 本手法は,多くの複雑な幾何学的特徴を持つ構造について検討し,他の類似の局所化法と比較して良好な性能を示す。

In the field of structural health monitoring (SHM), the acquisition of acoustic emissions to localise damage sources has emerged as a popular approach. Despite recent advances, the task of locating damage within composite materials and structures that contain non-trivial geometrical features, still poses a significant challenge. Within this paper, a Bayesian source localisation strategy that is robust to these complexities is presented. Under this new framework, a Gaussian process is first used to learn the relationship between source locations and the corresponding difference-in-time-o f-arrival values for a number of sensor pairings. As an acoustic emission event with an unknown origin is observed, a mapping is then generated that quantifies the likelihood of the emission location across the surface of the structure. The new probabilistic mapping offers multiple benefits, leading to a localisation strategy that is more informative than deterministic predictions or single-point estimates with an associated confidence bound. The performance of the approach is investigated on a structure with numerous complex geometrical features and demonstrates a favourable performance in comparison to other similar localisation methods.
翻訳日:2021-04-27 06:19:40 公開日:2020-12-21
# 無線信号を用いた機械学習に基づく局所化に関する総合調査

A Comprehensive Survey of Machine Learning Based Localization with Wireless Signals ( http://arxiv.org/abs/2012.11171v1 )

ライセンス: Link先を確認
Daoud Burghal, Ashwin T. Ravi, Varun Rao, Abdullah A. Alghafis, Andreas F. Molisch(参考訳) 過去数十年間、位置情報サービスへの関心が高まってきた。 無線周波数(RF)信号に基づくローカライゼーションシステムは,室内および屋外の両方で有効であることが証明されている。 しかし、これらのシステムの複雑さと正確性に関して課題は残る。 機械学習(ML)は、これらの問題を緩和するための最も有望な方法の1つであり、ML(特にディープラーニング)は、ローカライズシステムに統合可能な、強力な実用的なデータ駆動ツールを提供する。 本稿では,RF信号を用いたMLに基づくローカライズソリューションの総合的な調査を行う。 調査は、システムアーキテクチャから入力機能、MLメソッド、データセットまで、さまざまな側面にまたがっている。 本稿の主なポイントは、ローカライゼーションシステムの物理から生じるドメイン知識と、さまざまなMLアプローチとの相互作用である。 ML法以外にも,活用された入力機能は,ローカライゼーションソリューションを形成する上で重要な役割を担っている。我々は,その特徴と,それらにどのような影響を及ぼすか,基礎となる無線技術や標準,あるいはプリプロセス技術などについて,詳細な議論を行う。 ローカライズ問題に適用されたさまざまなmlメソッドに関する詳細な議論が行われ、基盤となる問題とソリューション構造について論じられている。 さらに,データセットの取得方法の相違点を要約し,公開可能なデータセットをリストアップする。 全体として、この調査はこの分野の約400の論文からの洞察を分類し、部分的に要約している。 このサーベイは自己完結型であり、MLと無線伝搬のコンセプトを簡潔にレビューすることで、調査対象の研究者が調査対象のソリューションをナビゲートし、オープンな問題を提案するのに役立つ。

The last few decades have witnessed a growing interest in location-based services. Using localization systems based on Radio Frequency (RF) signals has proven its efficacy for both indoor and outdoor applications. However, challenges remain with respect to both complexity and accuracy of such systems. Machine Learning (ML) is one of the most promising methods for mitigating these problems, as ML (especially deep learning) offers powerful practical data-driven tools that can be integrated into localization systems. In this paper, we provide a comprehensive survey of ML-based localization solutions that use RF signals. The survey spans different aspects, ranging from the system architectures, to the input features, the ML methods, and the datasets. A main point of the paper is the interaction between the domain knowledge arising from the physics of localization systems, and the various ML approaches. Besides the ML methods, the utilized input features play a major role in shaping the localization solution; we present a detailed discussion of the different features and what could influence them, be it the underlying wireless technology or standards or the preprocessing techniques. A detailed discussion is dedicated to the different ML methods that have been applied to localization problems, discussing the underlying problem and the solution structure. Furthermore, we summarize the different ways the datasets were acquired, and then list the publicly available ones. Overall, the survey categorizes and partly summarizes insights from almost 400 papers in this field. This survey is self-contained, as we provide a concise review of the main ML and wireless propagation concepts, which shall help the researchers in either field navigate through the surveyed solutions, and suggested open problems.
翻訳日:2021-04-27 06:18:34 公開日:2020-12-21
# 薬品発見のための大規模非標識分子からの分子表現の学習

Learn molecular representations from large-scale unlabeled molecules for drug discovery ( http://arxiv.org/abs/2012.11175v1 )

ライセンス: Link先を確認
Pengyong Li, Jun Wang, Yixuan Qiao, Hao Chen, Yihuan Yu, Xiaojun Yao, Peng Gao, Guotong Xie, Sen Song(参考訳) 表現的分子表現の創出は、AIによる薬物発見の根本的な課題である。 グラフニューラルネットワーク(GNN)は、分子データモデリングの強力な技術として登場した。 しかし、従来の教師付きアプローチは通常ラベル付きデータの不足に苦しみ、一般化能力に乏しい。 本稿では, 大規模未標識分子から分子表現を学習するMPGという, グラフに基づく新しいディープラーニングフレームワークを提案する。 MPGでは,ノードレベルとグラフレベルの両方でモデルを事前学習するための強力な MolGNet モデルと効果的な自己教師型戦略を提案する。 1100万個の未標識分子を事前学習した後、MoldGNetが貴重な化学的な洞察を捉え、解釈可能な表現を作り出すことを明らかにした。 MolGNetは、分子特性予測、薬物と薬物の相互作用、薬物とターゲットの相互作用など、幅広い薬物発見タスクのための最先端のモデルを作成するために、たった1つの出力層で微調整することができる。 我々の研究は、MPGが薬物発見パイプラインにおける新しいアプローチになることを約束していることを示している。

How to produce expressive molecular representations is a fundamental challenge in AI-driven drug discovery. Graph neural network (GNN) has emerged as a powerful technique for modeling molecular data. However, previous supervised approaches usually suffer from the scarcity of labeled data and have poor generalization capability. Here, we proposed a novel Molecular Pre-training Graph-based deep learning framework, named MPG, that leans molecular representations from large-scale unlabeled molecules. In MPG, we proposed a powerful MolGNet model and an effective self-supervised strategy for pre-training the model at both the node and graph-level. After pre-training on 11 million unlabeled molecules, we revealed that MolGNet can capture valuable chemistry insights to produce interpretable representation. The pre-trained MolGNet can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of drug discovery tasks, including molecular properties prediction, drug-drug interaction, and drug-target interaction, involving 13 benchmark datasets. Our work demonstrates that MPG is promising to become a novel approach in the drug discovery pipeline.
翻訳日:2021-04-27 06:18:08 公開日:2020-12-21
# 現在の脅威景観における侵入検知のための教師なし異常検出装置

Unsupervised Anomaly Detectors to Detect Intrusions in the Current Threat Landscape ( http://arxiv.org/abs/2012.11354v1 )

ライセンス: Link先を確認
Tommaso Zoppi, Andrea ceccarelli, Tommaso Capecchi, Andrea Bondavalli(参考訳) 異常検出は、あるシステムの期待する振る舞いにおける予期せぬ変動を特定することを目的としている。 ゼロデイ攻撃の特定に対する信頼性の高い回答として認められており、長年にわたってバイナリ分類に適したMLアルゴリズムが提案されている。 しかし,攻撃データセットの包括的集合に対する異常ベース侵入検出のための広範囲な教師なしアルゴリズムの比較は,まだ検討されていない。 このようなギャップを埋めるために,11のアタックデータセットに対して17の教師なし異常検出アルゴリズムを実行した。 結果として、個々のアルゴリズムの振る舞いからデータセットの適合性、異常検出まで、幅広い議論を解明することができる。 隔離林, 一級支援ベクトルマシン, 自己組織化マップなどのアルゴリズムは侵入検出のアルゴリズムよりも有効であり, クラスタリングアルゴリズムは計算の複雑さが低いために優れた代替手段である。 さらに,不安定な,分散的,あるいは非可逆的な行動による攻撃を,ファズングやワーム,ボットネットなどの検出がより困難である点を詳述する。 最終的に、未知の攻撃の広いプールによって生成される異常を検知するアルゴリズムの能力を精査し、単一の攻撃を特定することで達成されたスコアが変化しないことを示した。

Anomaly detection aims at identifying unexpected fluctuations in the expected behavior of a given system. It is acknowledged as a reliable answer to the identification of zero-day attacks to such extent, several ML algorithms that suit for binary classification have been proposed throughout years. However, the experimental comparison of a wide pool of unsupervised algorithms for anomaly-based intrusion detection against a comprehensive set of attacks datasets was not investigated yet. To fill such gap, we exercise seventeen unsupervised anomaly detection algorithms on eleven attack datasets. Results allow elaborating on a wide range of arguments, from the behavior of the individual algorithm to the suitability of the datasets to anomaly detection. We conclude that algorithms as Isolation Forests, One-Class Support Vector Machines and Self-Organizing Maps are more effective than their counterparts for intrusion detection, while clustering algorithms represent a good alternative due to their low computational complexity. Further, we detail how attacks with unstable, distributed or non-repeatable behavior as Fuzzing, Worms and Botnets are more difficult to detect. Ultimately, we digress on capabilities of algorithms in detecting anomalies generated by a wide pool of unknown attacks, showing that achieved metric scores do not vary with respect to identifying single attacks.
翻訳日:2021-04-27 06:17:48 公開日:2020-12-21
# 正しい木をbarkeing up the right tree: a approach to search over molecular synthesis dag (特集 分子合成dag)

Barking up the right tree: an approach to search over molecule synthesis DAGs ( http://arxiv.org/abs/2012.11522v1 )

ライセンス: Link先を確認
John Bradshaw, Brooks Paige, Matt J. Kusner, Marwin H. S. Segler, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 特定の性質を持つ新しい分子を設計する際には、何を作るかだけでなく、どのように作るかが重要である。 これらの命令は合成指向非環状グラフ(DAG)を形成し、単純な構造ブロックの大きな語彙を化学反応によって再帰的に結合し、より複雑な興味を持つ分子を生成する方法を記述する。 対照的に、分子の多くの深い生成モデルは合成可能性を無視している。 そこで我々は,分子合成dagを直接出力することにより,現実世界のプロセスをよりよく表現する深い生成モデルを提案する。 これは賢明な帰納的バイアスをもたらし、我々のモデルが化学者が解釈可能性と同様に利用できるであろう同じ化学空間を探索することを保証する。 我々のアプローチは化学空間をうまくモデル化でき、様々な分子を生成でき、本質的に制約された問題の非拘束的最適化を可能にしている。

When designing new molecules with particular properties, it is not only important what to make but crucially how to make it. These instructions form a synthesis directed acyclic graph (DAG), describing how a large vocabulary of simple building blocks can be recursively combined through chemical reactions to create more complicated molecules of interest. In contrast, many current deep generative models for molecules ignore synthesizability. We therefore propose a deep generative model that better represents the real world process, by directly outputting molecule synthesis DAGs. We argue that this provides sensible inductive biases, ensuring that our model searches over the same chemical space that chemists would also have access to, as well as interpretability. We show that our approach is able to model chemical space well, producing a wide range of diverse molecules, and allows for unconstrained optimization of an inherently constrained problem: maximize certain chemical properties such that discovered molecules are synthesizable.
翻訳日:2021-04-27 06:17:30 公開日:2020-12-21
# トポロジー再構成下における最適潮流問題のメタラーニング

A Meta-Learning Approach to the Optimal Power Flow Problem Under Topology Reconfigurations ( http://arxiv.org/abs/2012.11524v1 )

ライセンス: Link先を確認
Yexiang Chen, Subhash Lakshminarayana, Carsten Maple, H. Vincent Poor(参考訳) 近年,電力系統の最適電力フロー (OPF) 問題を解決するために,ディープニューラルネットワーク (DNN) を採用することへの関心が高まっている。 訓練されたDNNを用いた最適生成のディスパッチ決定の計算には、従来の最適化解法に比べて大幅に時間がかかる。 しかし、既存の研究の大きな欠点は、機械学習モデルが特定のシステムトポロジのために訓練されていることである。 したがって、DNN予測はシステムトポロジが変化しない限りは有用である。 システムトポロジの変更(システムオペレーターによる開始)では、DNNの再トレーニングが必要となり、トレーニングのオーバーヘッドが大きくなり、大量のトレーニングデータが必要になる(新しいシステムトポロジに対応する)。 この欠点を克服するために,メタラーニング(mtl)アプローチで学習するdnnベースのopf予測器を提案する。 このアプローチの鍵となる考え方は、任意のシステムトポロジの高速なトレーニングを可能にする共通の初期化ベクトルを見つけることである。 開発したOPF予測器はベンチマークIEEEバスシステムを用いてシミュレーションにより検証される。 その結果, MTL 法はトレーニングの高速化を実現し, OPF 予測精度を高めるためには, 少数のデータサンプルと数段の勾配ステップしか必要としないことがわかった。

Recently, there has been a surge of interest in adopting deep neural networks (DNNs) for solving the optimal power flow (OPF) problem in power systems. Computing optimal generation dispatch decisions using a trained DNN takes significantly less time when compared to using conventional optimization solvers. However, a major drawback of existing work is that the machine learning models are trained for a specific system topology. Hence, the DNN predictions are only useful as long as the system topology remains unchanged. Changes to the system topology (initiated by the system operator) would require retraining the DNN, which incurs significant training overhead and requires an extensive amount of training data (corresponding to the new system topology). To overcome this drawback, we propose a DNN-based OPF predictor that is trained using a meta-learning (MTL) approach. The key idea behind this approach is to find a common initialization vector that enables fast training for any system topology. The developed OPF-predictor is validated through simulations using benchmark IEEE bus systems. The results show that the MTL approach achieves significant training speeds-ups and requires only a few gradient steps with a few data samples to achieve high OPF prediction accuracy.
翻訳日:2021-04-27 06:17:15 公開日:2020-12-21
# 遅延を伴うマルチエージェントオンライン最適化:非同期性、適応性、楽観性

Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity, and Optimism ( http://arxiv.org/abs/2012.11579v1 )

ライセンス: Link先を確認
Yu-Guan Hsieh, Franck Iutzeler, J\'er\^ome Malick, Panayotis Mertikopoulos(参考訳) オンライン学習は、データが時間とともに明らかにされる多くの問題にうまく適用されている。 本稿では,遅延と非同期性の存在下でマルチエージェントオンライン学習問題を研究するための汎用フレームワークを提案する。 具体的には,エージェント間の協調を必要とせず,システム全体から受信した勾配フィードバックのみを蓄積する適応型二重平均化スキームの提案と解析を行う。 単一エージェントの場合、提案手法の適応性により、動作の再生とそれに対応するフィードバックの受信の間に有界な遅延が生じる可能性のある問題に対して、既存の結果の範囲を拡張できる。 マルチエージェントの場合、エージェントが基準点として使用するグローバルクロックにアクセスできない場合があるため、状況ははるかに複雑である。 これにより、エージェントレベルとネットワークレベルの両方において、最適な後悔境界を持つ適応学習戦略を導出することができる。 最後に,提案アルゴリズムの「最適」変種を解析し,より遅い変動を伴う問題の予測可能性を利用して,残差を改善できることを示した。

Online learning has been successfully applied to many problems in which data are revealed over time. In this paper, we provide a general framework for studying multi-agent online learning problems in the presence of delays and asynchronicities. Specifically, we propose and analyze a class of adaptive dual averaging schemes in which agents only need to accumulate gradient feedback received from the whole system, without requiring any between-agent coordination. In the single-agent case, the adaptivity of the proposed method allows us to extend a range of existing results to problems with potentially unbounded delays between playing an action and receiving the corresponding feedback. In the multi-agent case, the situation is significantly more complicated because agents may not have access to a global clock to use as a reference point; to overcome this, we focus on the information that is available for producing each prediction rather than the actual delay associated with each feedback. This allows us to derive adaptive learning strategies with optimal regret bounds, at both the agent and network levels. Finally, we also analyze an "optimistic" variant of the proposed algorithm which is capable of exploiting the predictability of problems with a slower variation and leads to improved regret bounds.
翻訳日:2021-04-27 06:16:55 公開日:2020-12-21
# 古典および量子エンハンシングボルツマンマシンによる敵対的攻撃に対する防御

Defence against adversarial attacks using classical and quantum-enhanced Boltzmann machines ( http://arxiv.org/abs/2012.11619v1 )

ライセンス: Link先を確認
Aidan Kehoe, Peter Wittek, Yanbo Xue, Alejandro Pozas-Kerstjens(参考訳) 我々は、識別アルゴリズムに対する敵意攻撃に対する堅牢な防御を提供する。 ニューラルネットワークは、入力データの小さな、調整された摂動に対して自然に脆弱であり、誤った予測につながる。 それとは対照的に、生成モデルはデータセットの基盤となる分布を学習しようと試み、小さな摂動に対して本質的に堅牢である。 識別目的でボルツマンマシンを攻撃耐性分類器として使用し、標準的な対人防御と比較する。 mnistデータセット上のboltzmannマシンによる攻撃に対する5%から72%の改善が見られた。 さらに,d-wave 2000qアニーラからの量子エンハンスドサンプリングによるトレーニングを補完し,古典的手法に匹敵する結果と限界的な改善点を見出した。 これらの結果は、ニューラルネットワークの構築における確率論的手法の関連性を示し、限られたハードウェア能力でも量子コンピュータのパワーを実証する。 この作品はピーター・ウィッテクの記憶に捧げられている。

We provide a robust defence to adversarial attacks on discriminative algorithms. Neural networks are naturally vulnerable to small, tailored perturbations in the input data that lead to wrong predictions. On the contrary, generative models attempt to learn the distribution underlying a dataset, making them inherently more robust to small perturbations. We use Boltzmann machines for discrimination purposes as attack-resistant classifiers, and compare them against standard state-of-the-art adversarial defences. We find improvements ranging from 5% to 72% against attacks with Boltzmann machines on the MNIST dataset. We furthermore complement the training with quantum-enhanced sampling from the D-Wave 2000Q annealer, finding results comparable with classical techniques and with marginal improvements in some cases. These results underline the relevance of probabilistic methods in constructing neural networks and demonstrate the power of quantum computers, even with limited hardware capabilities. This work is dedicated to the memory of Peter Wittek.
翻訳日:2021-04-27 06:16:36 公開日:2020-12-21
# 条件密度推定による新しい物理の教師なし分布異常検出

Unsupervised in-distribution anomaly detection of new physics through conditional density estimation ( http://arxiv.org/abs/2012.11638v1 )

ライセンス: Link先を確認
George Stein, Uros Seljak, Biwei Dai(参考訳) 異常検出は機械学習の重要な応用であるが、一般にデータの低確率密度領域における外部サンプルの検出に焦点を当てている。 そこで我々は,高確率密度領域に分布する一意かつ完全に未知なサンプル集合を見つけるための条件付き密度推定器を用いて,教師なし分布異常検出法を提案し,その動機付けを行った。 本手法は,2020年lhcオリンピックブラインドチャレンジにおいてシミュレーションされた大型ハドロン衝突型加速器 (lhc) の粒子衝突の検出に応用し,100万回の衝突のうち0.08%で新しい粒子が検出されたことを示す。 これまでの成果は、2020年のLHCオリンピックへの盲目の応募で、最先端のパフォーマンスを達成した。

Anomaly detection is a key application of machine learning, but is generally focused on the detection of outlying samples in the low probability density regions of data. Here we instead present and motivate a method for unsupervised in-distribution anomaly detection using a conditional density estimator, designed to find unique, yet completely unknown, sets of samples residing in high probability density regions. We apply this method towards the detection of new physics in simulated Large Hadron Collider (LHC) particle collisions as part of the 2020 LHC Olympics blind challenge, and show how we detected a new particle appearing in only 0.08% of 1 million collision events. The results we present are our original blind submission to the 2020 LHC Olympics, where it achieved the state-of-the-art performance.
翻訳日:2021-04-27 06:16:21 公開日:2020-12-21
# 階層型支持ベクトル回帰のための臨界層数予測

Predicting the Critical Number of Layers for Hierarchical Support Vector Regression ( http://arxiv.org/abs/2012.11734v1 )

ライセンス: Link先を確認
Ryan Mohr, Maria Fonoberova, Zlatko Drma\v{c}, Iva Manojlovi\'c, Igor Mezi\'c(参考訳) 階層的サポートベクトル回帰(hsvr)は、データから関数を、粗いスケールから始まり、階層が続くにつれてより細かいスケールに移動する、svrモデルの線形結合としてモデル化する。 HSVRの当初の定式化では、モデルの深さを選択するためのルールはなかった。 本稿では,トレーニングエラーの位相遷移を複数のモデルで観測する -- 臨界スケールが通過するまで,レイヤーの追加に伴って誤差は比較的一定であり,その時点でトレーニングエラーはゼロに近づき,付加されたレイヤに対してほぼ一定である。 本稿では,データのフーリエ変換と動的モード分解(DMD)スペクトルのどちらがサポートされているかに基づいて,この臨界スケールを事前予測する手法を提案する。 これにより、モデルをトレーニングする前に必要なレイヤ数を決定することができます。

Hierarchical support vector regression (HSVR) models a function from data as a linear combination of SVR models at a range of scales, starting at a coarse scale and moving to finer scales as the hierarchy continues. In the original formulation of HSVR, there were no rules for choosing the depth of the model. In this paper, we observe in a number of models a phase transition in the training error -- the error remains relatively constant as layers are added, until a critical scale is passed, at which point the training error drops close to zero and remains nearly constant for added layers. We introduce a method to predict this critical scale a priori with the prediction based on the support of either a Fourier transform of the data or the Dynamic Mode Decomposition (DMD) spectrum. This allows us to determine the required number of layers prior to training any models.
翻訳日:2021-04-27 06:15:43 公開日:2020-12-21