このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210129となっている論文です。

PDF登録状況(公開日: 20210129)

TitleAuthorsAbstract論文公表日・翻訳日
# 経験的リスクランドスケープによる過剰リスクの完全な特徴付け

A Full Characterization of Excess Risk via Empirical Risk Landscape ( http://arxiv.org/abs/2012.02456v2 )

ライセンス: Link先を確認
Mingyang Yi, Ruoyu Wang, Zhi-Ming Ma(参考訳) 本稿では,滑らかな凸損失関数と非凸損失関数の両方を持つ固有アルゴリズムによって訓練されたモデルの過剰リスクの統一的解析を行う。 イテレーションのステップに依存する文献の既存の境界とは対照的に、過剰なリスクに対する我々の境界はイテレーションの数に偏らない。 これは、少なくともスムースな損失関数に対しては、トレーニング後に過剰なリスクが保証されることを強調する。 リスクを過大にするために,アルゴリズムの安定性と非漸近的なリスクランドスケープのキャラクタリゼーションに基づく手法を開発した。 適切なアルゴリズムで得られたモデルは、この手法で一般化することが証明された。 特に,非凸損失に対しては,構築した補助アルゴリズムの安定性と手法を用いて結論を得る。 これを経験的リスクランドスケープのいくつかの性質と組み合わせることで、古典的な最適化結果の助けを借りて、凸型と非凸型の両方の過剰なリスクに収束した上限を導出する。

In this paper, we provide a unified analysis of the excess risk of the model trained by a proper algorithm with both smooth convex and non-convex loss functions. In contrast to the existing bounds in the literature that depends on iteration steps, our bounds to the excess risk do not diverge with the number of iterations. This underscores that, at least for smooth loss functions, the excess risk can be guaranteed after training. To get the bounds to excess risk, we develop a technique based on algorithmic stability and non-asymptotic characterization of the empirical risk landscape. The model obtained by a proper algorithm is proved to generalize with this technique. Specifically, for non-convex loss, the conclusion is obtained via the technique and analyzing the stability of a constructed auxiliary algorithm. Combining this with some properties of the empirical risk landscape, we derive converged upper bounds to the excess risk in both convex and non-convex regime with the help of some classical optimization results.
翻訳日:2021-05-22 20:38:13 公開日:2021-01-29
# (参考訳) 双曲空間と球面空間における大域リーマン加速度

Global Riemannian Acceleration in Hyperbolic and Spherical Spaces ( http://arxiv.org/abs/2012.03618v3 )

ライセンス: CC BY 4.0
David Mart\'inez-Rubio(参考訳) さらに,双曲空間や球面の部分集合上で定義される滑らかかつ測地凸(g-凸)あるいは強いg-凸関数の最適化のために,ユークリッド空間における加速度勾配降下と同じ速度を達成する最初の大域一階法を導入することにより,リーマン多様体上の加速度現象をさらに研究する。 我々の知る限りでは、これはユークリッド空間以外のリーマン多様体 $\mathcal{m}$ 上で定義される函数上で、この率を世界規模で達成する最初の方法である。 プロキシとして、独立利子の凸性と準凸性の間の条件の下で、制約付き非凸ユークリッド問題を解く。 さらに、有界断面曲率を持つ任意のリーマン多様体に対して、滑らかかつ g-凸函数の最適化法から滑らかかつ強い g-凸函数の方法への還元を与える。

We further research on the acceleration phenomenon on Riemannian manifolds by introducing the first global first-order method that achieves the same rates as accelerated gradient descent in the Euclidean space for the optimization of smooth and geodesically convex (g-convex) or strongly g-convex functions defined on the hyperbolic space or a subset of the sphere, up to constants and log factors. To the best of our knowledge, this is the first method that is proved to achieve these rates globally on functions defined on a Riemannian manifold $\mathcal{M}$ other than the Euclidean space. As a proxy, we solve a constrained non-convex Euclidean problem, under a condition between convexity and quasar-convexity, of independent interest. Additionally, for any Riemannian manifold of bounded sectional curvature, we provide reductions from optimization methods for smooth and g-convex functions to methods for smooth and strongly g-convex functions and vice versa.
翻訳日:2021-05-20 10:49:20 公開日:2021-01-29
# MIX : オープンドメイン質問応答解決のためのマルチタスク学習アプローチ

MIX : a Multi-task Learning Approach to Solve Open-Domain Question Answering ( http://arxiv.org/abs/2012.09766v2 )

ライセンス: Link先を確認
Sofian Chaybouti, Achraf Saghe, Aymen Shabou(参考訳) 本稿では,オープンドメイン質問応答を解決するためのマルチタスク深層学習手法MIXを紹介する。 まず,検索スペースを削減するためにBM25ベースのRetriever,RoBERTaベースのScorerとExtractorという3つのブロックからなる多段パイプラインを設計し,検索した段落をランク付けし,関連するテキストを抽出する。 最終的には,スケーラビリティ問題に対処するために,システムの計算効率をさらに向上する。マルチタスク学習により,ScorerとExtractorによって解決されたタスクを並列化する。 本システムは,概念的に単純化しつつ,スプリットオープンベンチマークにおける最先端のパフォーマンスと同等である。

In this paper, we introduce MIX : a multi-task deep learning approach to solve Open-Domain Question Answering. First, we design our system as a multi-stage pipeline made of 3 building blocks : a BM25-based Retriever, to reduce the search space; RoBERTa based Scorer and Extractor, to rank retrieved paragraphs and extract relevant spans of text respectively. Eventually, we further improve computational efficiency of our system to deal with the scalability challenge : thanks to multi-task learning, we parallelize the close tasks solved by the Scorer and the Extractor. Our system is on par with state-of-the-art performances on the squad-open benchmark while being simpler conceptually.
翻訳日:2021-05-02 07:30:00 公開日:2021-01-29
# PBNS:非制御ガーメントポース空間変形のための物理ベースニューラルシミュレータ

PBNS: Physically Based Neural Simulator for Unsupervised Garment Pose Space Deformation ( http://arxiv.org/abs/2012.11310v2 )

ライセンス: Link先を確認
Hugo Bertiche, Meysam Madadi and Sergio Escalera(参考訳) 本稿では,深層学習による着衣のポーズ空間変形(psd)を自動的に取得する手法を提案する。 古典的なアプローチは、衣服をアニメーションするために物理ベースのシミュレーション(PBS)に依存している。 これらは空間と時間の十分な微細な離散化を与えられた一般的な解であり、非常に現実的な結果が得られる。 しかし、計算コストは高く、シーンの変更によって再シミュレーションが必要となる。 PSDを用いた線形ブレンドスキニング(LBS)はPBSに代わる軽量な代替手段を提供するが、適切なPSDを学ぶには大量のデータが必要である。 我々は,暗黙のPBSとして定式化された深層学習を用いて,制約のあるシナリオで現実的なPose Spaceの変形を教師なしで学習することを提案する。 さらに,数列のPBSに匹敵する時間で,これらのモデルを訓練することが可能であることを示す。 我々の知る限りでは、布のための神経シミュレータを最初に提案する。 ドメインにおけるディープベースアプローチはトレンドになりつつあるが、これらはデータハングリーモデルである。 さらに、PBSデータからしわをよりよく学習するための複雑な定式化を提案することも多い。 データからの依存は、これらのソリューションのスケーラビリティを低下させ、その定式化は適用性と互換性を妨げる。 LBSモデルのPSDを学習するための教師なし方法論(3Dアニメーション標準)を提案することにより、これらの欠点を克服する。 その結果, アニメーション衣服と有意義なポーズ依存性の折り畳み, しわには布の一貫性が認められた。

We present a methodology to automatically obtain Pose Space Deformation (PSD) basis for rigged garments through deep learning. Classical approaches rely on Physically Based Simulations (PBS) to animate clothes. These are general solutions that, given a sufficiently fine-grained discretization of space and time, can achieve highly realistic results. However, they are computationally expensive and any scene modification prompts the need of re-simulation. Linear Blend Skinning (LBS) with PSD offers a lightweight alternative to PBS, though, it needs huge volumes of data to learn proper PSD. We propose using deep learning, formulated as an implicit PBS, to unsupervisedly learn realistic cloth Pose Space Deformations in a constrained scenario: dressed humans. Furthermore, we show it is possible to train these models in an amount of time comparable to a PBS of a few sequences. To the best of our knowledge, we are the first to propose a neural simulator for cloth. While deep-based approaches in the domain are becoming a trend, these are data-hungry models. Moreover, authors often propose complex formulations to better learn wrinkles from PBS data. Dependency from data makes these solutions scalability lower, while their formulation hinders its applicability and compatibility. By proposing an unsupervised methodology to learn PSD for LBS models (3D animation standard), we overcome both of these drawbacks. Results obtained show cloth-consistency in the animated garments and meaningful pose-dependant folds and wrinkles.
翻訳日:2021-04-27 06:21:50 公開日:2021-01-29
# 各種データモダリティからの人間の行動認識 : レビュー

Human Action Recognition from Various Data Modalities: A Review ( http://arxiv.org/abs/2012.11866v3 )

ライセンス: Link先を確認
Zehua Sun, Jun Liu, Qiuhong Ke, Hossein Rahmani, Mohammed Bennamoun and Gang Wang(参考訳) human action recognition(har)は、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。 幅広い応用があり、コンピュータビジョンの分野で注目を集めている。 ヒューマンアクションは、rgb、スケルトン、深さ、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー、wifi信号など、さまざまなデータモダリティを使用して表現することができる。 その結果,HAR の様々なアプローチを様々なモダリティを用いて検討する試みが数多く行われている。 本稿では,HARにおける入力データモダリティのタイプに基づくディープラーニング手法の最近の進歩を包括的に調査する。 具体的には,単一のデータモダリティと複数のデータモダリティに対して,現在の主流となるディープラーニング手法について検討する。 また,いくつかのベンチマークデータセットで比較結果を示し,洞察に富んだ観測を行い,今後の研究の方向性を示唆する。

Human Action Recognition (HAR) aims to understand human behavior and assign a label to each action. It has a wide range of applications, and therefore has been attracting increasing attention in the field of computer vision. Human actions can be represented using various data modalities, such as RGB, skeleton, depth, infrared, point cloud, event stream, audio, acceleration, radar, and WiFi signal, which encode different sources of useful yet distinct information and have various advantages depending on the application scenarios. Consequently, lots of existing works have attempted to investigate different types of approaches for HAR using various modalities. In this paper, we present a comprehensive survey of recent progress in deep learning methods for HAR based on the type of input data modality. Specifically, we review the current mainstream deep learning methods for single data modalities and multiple data modalities, including the fusion-based and the co-learning-based frameworks. We also present comparative results on several benchmark datasets for HAR, together with insightful observations and inspiring future research directions.
翻訳日:2021-04-26 07:31:03 公開日:2021-01-29
# 都市活力指数の教師なし機械学習手法

Unsupervised Machine learning methods for city vitality index ( http://arxiv.org/abs/2012.12082v2 )

ライセンス: Link先を確認
Jean-S\'ebastien Dessureault, Jonathan Simard, and Daniel Massicotte(参考訳) 本稿では, 地域活力指数(VI)を長年にわたって評価し, 予測することの課題について考察する。 標準的な方法はありませんし、過去数十年で遡って行うのはさらに複雑です。 しかし、将来VIを予測するためには、過去の特徴を評価し、学習することが不可欠である。 本稿では,k平均クラスタリングアルゴリズムに基づいて,このようなVIを評価する手法を提案する。 この教師なし機械学習手法のメタパラメータを遺伝的アルゴリズム法により最適化する。 得られたクラスタとVIに基づいて、都市の各地区のVIを予測するために線形回帰を適用する。 クラスタリングで使用される各特徴の重みはランダム森林回帰アルゴリズムを用いて計算する。 この方法は、都市主義者にとって強力な洞察となり、スマートシティの文脈における都市計画の反動を刺激することができる。

This paper concerns the challenge to evaluate and predict a district vitality index (VI) over the years. There is no standard method to do it, and it is even more complicated to do it retroactively in the last decades. Although, it is essential to evaluate and learn features of the past to predict a VI in the future. This paper proposes a method to evaluate such a VI, based on a k-mean clustering algorithm. The meta parameters of this unsupervised machine learning technique are optimized by a genetic algorithm method. Based on the resulting clusters and VI, a linear regression is applied to predict the VI of each district of a city. The weights of each feature used in the clustering are calculated using a random forest regressor algorithm. This method can be a powerful insight for urbanists and inspire the redaction of a city plan in the smart city context.
翻訳日:2021-04-26 07:25:45 公開日:2021-01-29
# ポグゲンドルフ型視覚錯覚に対する皮質誘発サブリーマンモデル

A cortical-inspired sub-Riemannian model for Poggendorff-type visual illusions ( http://arxiv.org/abs/2012.14184v2 )

ライセンス: Link先を確認
Emre Baspinar and Luca Calatroni and Valentina Franceschi and Dario Prandi(参考訳) We consider Wilson-Cowan-type model for the mathematical description of orientation-dependen t Poggendorff-like illusions。 我々のモデリングは、局所的および側方的接続に基づくV1の本質的な異方性機能的アーキテクチャと一致して、サブリーマン熱核を神経細胞相互作用項に埋め込む2つの提案された皮質刺激によるアプローチを改善した。 両モデルの数値的実現のために, 標準勾配降下アルゴリズムとフーリエに基づく手法を組み合わせることで, サブラプラシアン進化の効率的な計算を行う。 数値計算の結果, サブリーマンカーネルを用いることで, 従来の手法と比較して, 数値的に視覚的誤認識や着色型バイアスを再現できることがわかった。

We consider Wilson-Cowan-type models for the mathematical description of orientation-dependen t Poggendorff-like illusions. Our modelling improves two previously proposed cortical-inspired approaches embedding the sub-Riemannian heat kernel into the neuronal interaction term, in agreement with the intrinsically anisotropic functional architecture of V1 based on both local and lateral connections. For the numerical realisation of both models, we consider standard gradient descent algorithms combined with Fourier-based approaches for the efficient computation of the sub-Laplacian evolution. Our numerical results show that the use of the sub-Riemannian kernel allows to reproduce numerically visual misperceptions and inpainting-type biases in a stronger way in comparison with the previous approaches.
翻訳日:2021-04-19 10:56:32 公開日:2021-01-29
# 遅延フィードバックによる逆マルコフ決定過程の学習

Learning Adversarial Markov Decision Processes with Delayed Feedback ( http://arxiv.org/abs/2012.14843v2 )

ライセンス: Link先を確認
Tal Lancewicki and Aviv Rosenberg and Yishay Mansour(参考訳) 強化学習は通常、エージェントが環境からすぐにフィードバックを観察すると仮定するが、多くの現実世界のアプリケーション(レコメンデーションシステムなど)では、フィードバックは遅延して観察される。 そこで本研究では,未知の遷移を伴うマルコフ決定過程 (mdps) におけるオンライン学習について考察する。 つまり、エピソード $k$ の費用と軌道は、エピソード $k + d^k$ の終わりにのみ利用可能であり、遅延 $d^k$ は同一でも有界でもないし、敵によって選択される。 我々は,全情報フィードバック下での$\widetilde o ( \sqrt{k} + \sqrt{d} )$ ($k$ はエピソード数,$d = \sum_{k} d^k$ は総遅延である) の最適化に基づく新しいアルゴリズムを提案する。 バンドイットフィードバックの下では、コストが確率的であると仮定して、同様の$\widetilde O ( \sqrt{K} + \sqrt{D} )$ regret を、一般の場合$\widetilde O ( K^{2/3} + D^{2/3} )$ regret を証明している。 我々の知る限り、我々は敵のMDPにおける遅延フィードバックの重要な設定を最初に検討する。

Reinforcement learning typically assumes that the agent observes feedback from the environment immediately, but in many real-world applications (like recommendation systems) the feedback is observed in delay. Thus, we consider online learning in episodic Markov decision processes (MDPs) with unknown transitions, adversarially changing costs and unrestricted delayed feedback. That is, the costs and trajectory of episode $k$ are only available at the end of episode $k + d^k$, where the delays $d^k$ are neither identical nor bounded, and are chosen by an adversary. We present novel algorithms based on policy optimization that achieve near-optimal high-probability regret of $\widetilde O ( \sqrt{K} + \sqrt{D} )$ under full-information feedback, where $K$ is the number of episodes and $D = \sum_{k} d^k$ is the total delay. Under bandit feedback, we prove similar $\widetilde O ( \sqrt{K} + \sqrt{D} )$ regret assuming that the costs are stochastic, and $\widetilde O ( K^{2/3} + D^{2/3} )$ regret in the general case. To our knowledge, we are the first to consider the important setting of delayed feedback in adversarial MDPs.
翻訳日:2021-04-18 20:33:25 公開日:2021-01-29
# (参考訳) Ask2Transformers:事前学習言語モデルによるゼロショットドメインラベル付け [全文訳有]

Ask2Transformers: Zero-Shot Domain labelling with Pre-trained Language Models ( http://arxiv.org/abs/2101.02661v2 )

ライセンス: CC BY 4.0
Oscar Sainz and German Rigau(参考訳) 本稿では,様々な事前学習された言語モデルを用いて,wordnetのシンセクタにドメインラベルを割り当てるシステムを提案する。 さらに、システムは特定のドメインラベルを使用するように制限されない。 我々は、異なる既成言語モデルとタスク定式化で符号化された知識を利用して、特定のWordNet定義のドメインラベルを推測する。 提案したゼロショットシステムは,評価に用いる英語データセットの新たな最先端化を実現する。

In this paper we present a system that exploits different pre-trained Language Models for assigning domain labels to WordNet synsets without any kind of supervision. Furthermore, the system is not restricted to use a particular set of domain labels. We exploit the knowledge encoded within different off-the-shelf pre-trained Language Models and task formulations to infer the domain label of a particular WordNet definition. The proposed zero-shot system achieves a new state-of-the-art on the English dataset used in the evaluation.
翻訳日:2021-04-10 16:12:14 公開日:2021-01-29
# (参考訳) コスト感受性クラスを用いた対人学習 [全文訳有]

Adversarial Learning with Cost-Sensitive Classes ( http://arxiv.org/abs/2101.12372v1 )

ライセンス: CC BY 4.0
Haojing Shen, Sihong Chen, Ran Wang, Xizhao Wang(参考訳) いくつかの特殊クラスのパフォーマンスを向上させるか、特に敵の学習における攻撃からそれらを保護する必要がある。 本稿では,保護クラスと非保護クラスを区別できるモデルを学習するために,コストに敏感な分類と敵学習を組み合わせた枠組みを提案する。 このフレームワークでは、Min-Maxプロパティと呼ばれるディープニューラルネットワークのトレーニング中に、畳み込み層のほとんどのパラメータの絶対値がゼロに近づく一方で、少数のパラメータの絶対値が著しく大きくなるという興味深い現象が見られます。 ランダム分布の観点から定式化され解析されるこのMin-Max特性に基づいて、敵の強靭性向上のための新たな防御モデルを構築する。 構築されたモデルの利点は、敵の訓練をもはや必要とせず、従って、敵の訓練を必要とする既存のモデルよりも高い計算効率を持つことである。 実験により,全てのクラスの平均精度については,攻撃が起こらない場合の既存モデルとほぼ同等であり,攻撃が発生した場合の既存モデルよりも優れていることを確認した。 具体的には、保護されたクラスの精度について、攻撃が発生した場合、提案モデルは既存のモデルよりもはるかに優れている。

It is necessary to improve the performance of some special classes or to particularly protect them from attacks in adversarial learning. This paper proposes a framework combining cost-sensitive classification and adversarial learning together to train a model that can distinguish between protected and unprotected classes, such that the protected classes are less vulnerable to adversarial examples. We find in this framework an interesting phenomenon during the training of deep neural networks, called Min-Max property, that is, the absolute values of most parameters in the convolutional layer approach zero while the absolute values of a few parameters are significantly larger becoming bigger. Based on this Min-Max property which is formulated and analyzed in a view of random distribution, we further build a new defense model against adversarial examples for adversarial robustness improvement. An advantage of the built model is that it does no longer need adversarial training, and thus, has a higher computational efficiency than most existing models of needing adversarial training. It is experimentally confirmed that, regarding the average accuracy of all classes, our model is almost as same as the existing models when an attack does not occur and is better than the existing models when an attack occurs. Specifically, regarding the accuracy of protected classes, the proposed model is much better than the existing models when an attack occurs.
翻訳日:2021-04-06 13:54:34 公開日:2021-01-29
# (参考訳) シャープ低水準の不平等の需要に対する公平な資源配分 [全文訳有]

Fair Resource Allocation for Demands with Sharp Lower Tail Inequalities ( http://arxiv.org/abs/2101.12403v1 )

ライセンス: CC BY 4.0
Vacharapat Mettanant, Jittat Fakcharoenphol(参考訳) 資源割り当てにおける公平性の問題として、複数のグループが資源を総固定量で共通の情報源から要求する問題を考える。 一般的なモデルはelzaynらによって導入された。 [FAT*'19]。 我々は需要分布が分かっている場合を考慮したDonahue と Kleinberg [FAT*'20] に従う。 鋭利な下尾不等式を満たす多くの共通需要分布において,各グループの平均需要に比例する資源を提供する自然割当は,非常によく機能することを示す。 より具体的には、この自然割当は概ね公平で効率的である(つまり、最大使用量に近い)。 また、少量の不公平が許される場合、Price of Fairness (PoF) が1.5%近くとなることも示している。

We consider a fairness problem in resource allocation where multiple groups demand resources from a common source with the total fixed amount. The general model was introduced by Elzayn et al. [FAT*'19]. We follow Donahue and Kleinberg [FAT*'20] who considered the case when the demand distribution is known. We show that for many common demand distributions that satisfy sharp lower tail inequalities, a natural allocation that provides resources proportional to each group's average demand performs very well. More specifically, this natural allocation is approximately fair and efficient (i.e., it provides near maximum utilization). We also show that, when small amount of unfairness is allowed, the Price of Fairness (PoF), in this case, is close to 1.
翻訳日:2021-04-06 13:35:00 公開日:2021-01-29
# (参考訳) サブストラクショナル最適トランスポートによるクロスドメインアクティビティ認識 [全文訳有]

Cross-domain Activity Recognition via Substructural Optimal Transport ( http://arxiv.org/abs/2102.03353v1 )

ライセンス: CC BY 4.0
Wang Lu, Yiqiang Chen, Jindong Wang, Xin Qin(参考訳) 人間の活動認識(HAR)に十分なラベル付きデータを収集するのは高価で時間を要する。 最近、多くの作業が、ソースドメインのラベル付きサンプルを利用してターゲットドメインにアノテートするドメイン適応によって問題を解決している。 既存のドメイン適応メソッドは、主にドメインレベル、クラスレベル、またはサンプルレベルの分散マッチングによるクロスドメイン表現の適応にフォーカスします。 しかし、ドメインレベルとクラスレベルのマッチングは粗いため、不適応になる可能性があり、サンプルレベルのマッチングはノイズの影響を深刻に受け、最終的に過適応を引き起こす可能性がある。 本稿では,ドメインの内部構造を利用して高精度かつ効率的な知識伝達を行うために,ドメイン適応のためのサブ構造レベルマッチングを提案する。 SSDAに基づいて,クロスドメインHARのための最適トランスポートベース実装であるSubstructural Optimal Transport (SOT)を提案する。 本稿では,クラスタ化手法を用いてアクティビティのサブ構造を取得し,異なるドメイン間の重み付きサブストラクチャの結合を求める。 4つの大規模公共活動認識データセット(すなわち4つの公共活動認識データセット)について総合的な実験を行った。 UCI-DSADS, UCI-HAR, USC-HAD, PAMAP2) は、SOTが他の最先端手法よりも優れていることを示した。 さらに、SOTは比較法よりもはるかに高速である。

It is expensive and time-consuming to collect sufficient labeled data for human activity recognition (HAR). Recently, lots of work solves the problem via domain adaptation which leverages the labeled samples from the source domain to annotate the target domain. Existing domain adaptation methods mainly focus on adapting cross-domain representations via domain-level, class-level, or sample-level distribution matching. However, the domain- and class-level matching are too coarse that may result in under-adaptation, while sample-level matching may be affected by the noise seriously and eventually cause over-adaptation. In this paper, we propose substructure-level matching for domain adaptation (SSDA) to utilize the internal substructures of the domain to perform accurate and efficient knowledge transfer. Based on SSDA, we propose an optimal transport-based implementation, Substructural Optimal Transport (SOT), for cross-domain HAR. We obtain the substructures of activities via clustering methods and seeks the coupling of the weighted substructures between different domains. We conduct comprehensive experiments on four large public activity recognition datasets (i.e. UCI-DSADS, UCI-HAR, USC-HAD, PAMAP2), which demonstrates that SOT significantly outperforms other state-of-the-art methods w.r.t classification accuracy (10%+ improvement). In addition, SOT is much faster than comparison methods.
翻訳日:2021-04-06 13:26:32 公開日:2021-01-29
# (参考訳) 能動符号化による頂点制御のための焦点・周辺視の階層的統合学習 [全文訳有]

Learning Hierarchical Integration of Foveal and Peripheral Vision for Vergence Control by Active Efficient Coding ( http://arxiv.org/abs/2103.05100v1 )

ライセンス: CC BY 4.0
Zhetuo Zhao, Jochen Triesch, Bertram E. Shi(参考訳) 能動的高能率符号化(AEC)フレームワークは、視覚処理と眼球運動のジョイント発達、例えば両眼差選択性ニューロンの出現と、左右の眼像を整列する解離性眼球運動の融合頂点をパロニクス的に説明する。 Vergenceは、相補的な役割を果たす葉と周辺の両方の情報によって駆動される。 高分解能フォビアは正確な短距離運動を駆動することができる。 低解像度周辺は、粗い長距離運動をサポートする。 fovea と periphery は、例えば、矛盾する情報を含むこともある。 物体の深さが異なるためです 過去のAECモデルは周辺情報と胎児情報を統合していたが、これらの特徴を明示的に考慮しなかった。 ここでは2段階の階層的アプローチを提案する。 下部レベルは、窩および周辺領域から異なるバージェンス作用を生成する。 トップレベルは1つを選ぶ。 階層的アプローチは現実的な環境において従来のアプローチよりも優れており、アライメントが良く、振動も少ないことを示す。

The active efficient coding (AEC) framework parsimoniously explains the joint development of visual processing and eye movements, e.g., the emergence of binocular disparity selective neurons and fusional vergence, the disjunctive eye movements that align left and right eye images. Vergence can be driven by information in both the fovea and periphery, which play complementary roles. The high resolution fovea can drive precise short range movements. The lower resolution periphery supports coarser long range movements. The fovea and periphery may also contain conflicting information, e.g. due to objects at different depths. While past AEC models did integrate peripheral and foveal information, they did not explicitly take into account these characteristics. We propose here a two-level hierarchical approach that does. The bottom level generates different vergence actions from foveal and peripheral regions. The top level selects one. We demonstrate that the hierarchical approach performs better than prior approaches in realistic environments, exhibiting better alignment and less oscillation.
翻訳日:2021-04-06 13:09:09 公開日:2021-01-29
# (参考訳) 非定常環境におけるユーザ嗜好の学習

Learning User Preferences in Non-Stationary Environments ( http://arxiv.org/abs/2101.12506v1 )

ライセンス: CC BY 4.0
Wasim Huleihel and Soumyabrata Pal and Ofer Shayevitz(参考訳) レコメンデーションシステムは、オンラインコラボレーティブ・フィルタリング(CF)アルゴリズムを使用して、ユーザーが過去に提供したレーティングに基づいて、あるユーザが好むアイテムを時間とともに識別する。 この問題は、ユーザの好みが時間とともに変化しない場合(静的の場合)に広く研究されてきた。 本稿では,ユーザの嗜好に時間的不確実性をもたらすオンライン非定常レコメンデーションシステムのための新しいモデルを提案する。 本モデルでは,ユーザベースのCFアルゴリズムを提案し,その達成可能な報酬の理論的解析を行う。 関連する非定常的マルチアームバンディット文学と比較して、本モデルの主な難しさは、あるユーザの好みの変化が他のユーザの推薦に深刻な影響を及ぼすという事実にある。 また、実世界のデータセット上でアルゴリズムをテストし、実世界のアプリケーションでその効果を示す。 我々の実験で最も驚くべき観察の1つは、我々のアルゴリズムが時間とともに好みが変化しない場合でも、他の静的アルゴリズムよりも優れているという事実である。 これは、実際に我々が提案したような動的アルゴリズムは静止環境においても有益である、という一般的な結論を示唆している。

Recommendation systems often use online collaborative filtering (CF) algorithms to identify items a given user likes over time, based on ratings that this user and a large number of other users have provided in the past. This problem has been studied extensively when users' preferences do not change over time (static case); an assumption that is often violated in practical settings. In this paper, we introduce a novel model for online non-stationary recommendation systems which allows for temporal uncertainties in the users' preferences. For this model, we propose a user-based CF algorithm, and provide a theoretical analysis of its achievable reward. Compared to related non-stationary multi-armed bandit literature, the main fundamental difficulty in our model lies in the fact that variations in the preferences of a certain user may affect the recommendations for other users severely. We also test our algorithm over real-world datasets, showing its effectiveness in real-world applications. One of the main surprising observations in our experiments is the fact our algorithm outperforms other static algorithms even when preferences do not change over time. This hints toward the general conclusion that in practice, dynamic algorithms, such as the one we propose, might be beneficial even in stationary environments.
翻訳日:2021-04-06 12:59:52 公開日:2021-01-29
# (参考訳) digitalexposome: real-time multi-sensor fusion と deep belief network による都市環境の定量化 [全文訳有]

DigitalExposome: Quantifying the Urban Environment Influence on Wellbeing based on Real-Time Multi-Sensor Fusion and Deep Belief Network ( http://arxiv.org/abs/2101.12615v1 )

ライセンス: CC BY-SA 4.0
Thomas Johnson, Eiman Kanjo, Kieran Woodward(参考訳) 本稿では,「DigitalExposome」という用語を,マルチモデルモバイルセンシング技術を用いた環境,個人特性,行動,幸福感の関連性を理解するための概念的枠組みとして定義する。 具体的には, 都市環境要因を含むマルチセンサデータ(例えば, 初めて)を同時収集した。 PM1, PM2.5, PM10, Oxidised, Reduced, NH3 and Noise, People Count in the neighborhood, body reaction (EDA, HR, HRV, Body temperature, BVP and Movement)、および個人の反応(例)を含む大気汚染。 都市環境における自己申告値) 私たちのユーザは、事前に特定された都市パスに従って、包括的なセンシングエッジデバイスを使用してデータを収集しました。 データは即座に融合され、タイムスタンプされ、コレクションの時点でジオタグ付けされる。 変数間の関係を明らかにするために, 原理成分分析, 回帰, 空間可視化など多変量統計解析手法が適用されている。 その結果, EDAと心拍変動HRVは環境変数とともに環境中の粒子状物質(PM)のレベルに著しく影響していることがわかった。 さらに,Deep Belief Network を用いて,畳み込みニューラルネットワークの性能を最大 (a=80.8%, {\sigma}=0.001) まで向上させたマルチモデルデータフィードから特徴を抽出した。

In this paper, we define the term 'DigitalExposome' ; as a conceptual framework that takes us closer towards understanding the relationship between environment, personal characteristics, behaviour and wellbeing using multimodel mobile sensing technology. Specifically, we simultaneously collected (for the first time) multi-sensor data including urban environmental factors (e.g. air pollution including: PM1, PM2.5, PM10, Oxidised, Reduced, NH3 and Noise, People Count in the vicinity), body reaction (physiological reactions including: EDA, HR, HRV, Body Temperature, BVP and movement) and individuals' perceived responses (e.g. self-reported valence) in urban settings. Our users followed a pre-specified urban path and collected the data using a comprehensive sensing edge devices. The data is instantly fused, time-stamped and geo-tagged at the point of collection. A range of multivariate statistical analysis techniques have been applied including Principle Component Analysis, Regression and spatial visualisations to unravel the relationship between the variables. Results showed that EDA and Heart Rate Variability HRV are noticeably impacted by the level of Particulate Matters (PM) in the environment well with the environmental variables. Furthermore, we adopted Deep Belief Network to extract features from the multimodel data feed which outperformed Convolutional Neural Network and achieved up to (a=80.8%, {\sigma}=0.001) accuracy.
翻訳日:2021-04-06 11:32:06 公開日:2021-01-29
# (参考訳) state of the art: content-based and hybrid phishing detection [全文訳有]

State of the Art: Content-based and Hybrid Phishing Detection ( http://arxiv.org/abs/2101.12723v1 )

ライセンス: CC BY 4.0
F. Casta\~no, E. Fidalgo, E. Alegre, D. Chaves, M. Sanchez-Paniagua(参考訳) フィッシング攻撃は時間とともに進化し増加しており、そのため、正当なサイトとフィッシングサイトを区別する作業はますます難しくなり、最も熟練したユーザーさえも騙すことになる。 この問題を解決するための主な提案は、リストベース、urlベース、コンテンツベース、ハイブリッドの4つのアプローチに分けられる。 この技術の現状では、Webコンテンツベースとハイブリッドアプローチを用いたフィッシング検出の手法を概観し、比較している。

Phishing attacks have evolved and increased over time and, for this reason, the task of distinguishing between a legitimate site and a phishing site is more and more difficult, fooling even the most expert users. The main proposals focused on addressing this problem can be divided into four approaches: List-based, URL based, content-based, and hybrid. In this state of the art, the most recent techniques using web content-based and hybrid approaches for Phishing Detection are reviewed and compared.
翻訳日:2021-04-06 11:12:54 公開日:2021-01-29
# (参考訳) general stein's unbiased risk estimatorを用いた画像再構成のためのモデル適応 [全文訳有]

Model Adaptation for Image Reconstruction using Generalized Stein's Unbiased Risk Estimator ( http://arxiv.org/abs/2102.00047v1 )

ライセンス: CC BY 4.0
Hemant Kumar Aggarwal, Mathews Jacob(参考訳) 深層学習画像再構成アルゴリズムは、取得方式がトレーニング中に使用する前方モデルと大きく異なる場合、しばしばモデルミスマッチに悩まされる。 我々は、ネットワークをk空間のデータに適応させ、モデルミスフィットの影響を最小限に抑えるために、一般化スタインの非バイアスリスク推定(GSURE)損失指標を導入する。 k空間の平均二乗誤差に依存する現在の方法とは異なり、提案手法は測定のノイズを考慮に入れている。 これにより、アプローチのオーバーフィッティングに対する脆弱性が軽減され、平均二乗誤差に依存するスキームに比べて、再構築品質が改善される。 このアプローチは、事前学習されたモデルを新しい取得設定(例えば、マルチサイト)やトレーニングデータとは異なるコントラストに迅速に適応するのに役立つかもしれない。

Deep learning image reconstruction algorithms often suffer from model mismatches when the acquisition scheme differs significantly from the forward model used during training. We introduce a Generalized Stein's Unbiased Risk Estimate (GSURE) loss metric to adapt the network to the measured k-space data and minimize model misfit impact. Unlike current methods that rely on the mean square error in kspace, the proposed metric accounts for noise in the measurements. This makes the approach less vulnerable to overfitting, thus offering improved reconstruction quality compared to schemes that rely on mean-square error. This approach may be useful to rapidly adapt pre-trained models to new acquisition settings (e.g., multi-site) and different contrasts than training data
翻訳日:2021-04-06 11:07:33 公開日:2021-01-29
# (参考訳) RecSSD: ソリッドステートドライブに基づく推奨推論のためのニアデータ処理 [全文訳有]

RecSSD: Near Data Processing for Solid State Drive Based Recommendation Inference ( http://arxiv.org/abs/2102.00075v1 )

ライセンス: CC BY 4.0
Mark Wilkening, Udit Gupta, Samuel Hsia, Caroline Trippel, Carole-Jean Wu, David Brooks, Gu-Yeon Wei(参考訳) ニューラルネットワークによるパーソナライズドレコメンデーションモデルは、検索、ソーシャルメディア、エンターテイメントなど、さまざまなデータセンタアプリケーションで使用されている。 最先端モデルは、膨大なメモリ容量を必要とする数十億のパラメータを持つ大規模な埋め込みテーブルで構成されている。 残念ながら、大規模かつ高速なDRAMベースのメモリは、高いインフラストラクチャコストを伴います。 従来のSSDベースのストレージソリューションは、桁違いの容量を提供するが、読み込み遅延と帯域幅が悪く、推論性能が低下する。 RecSSDは、ニューラルレコメンデーション推論用にカスタマイズされた、ニアデータ処理ベースのSSDメモリシステムである。

Neural personalized recommendation models are used across a wide variety of datacenter applications including search, social media, and entertainment. State-of-the-art models comprise large embedding tables that have billions of parameters requiring large memory capacities. Unfortunately, large and fast DRAM-based memories levy high infrastructure costs. Conventional SSD-based storage solutions offer an order of magnitude larger capacity, but have worse read latency and bandwidth, degrading inference performance. RecSSD is a near data processing based SSD memory system customized for neural recommendation inference that reduces end-to-end model inference latency by 2X compared to using COTS SSDs across eight industry-representat ive models.
翻訳日:2021-04-06 11:00:30 公開日:2021-01-29
# (参考訳) 個人化学生のプロクラッションモデリングのための刺激感性ホークスプロセス [全文訳有]

Stimuli-Sensitive Hawkes Processes for Personalized Student Procrastination Modeling ( http://arxiv.org/abs/2102.00089v1 )

ライセンス: CC BY 4.0
Mengfan Yao, Siqian Zhao, Shaghayegh Sahebi, Reza Feyzi Behnagh(参考訳) オンライン学習環境において、学生の先延ばしと期限の取り締まりは大きな課題であり、負の教育効果と幸福な副作用がある。 学生の活動の連続的なモデリングと次の学習時間の予測は、これらの課題を緩和するために個人化されたタイムリーな介入を作成するのに役立つ重要な問題である。 しかし、学生のプロクラッションを動的にモデル化しようとする試みは、次の活動時間を予測することができず、活動履歴の欠如に対処できず、パーソナライズされず、割任期限などの重要なコース特性を無視するなど、大きな問題に悩まされていた。 これらの問題を解決するために,すべての学生配置ペアを共同でモデル化し,その類似性を生かし,歴史的観察のない学生の次の活動時間を予測することによって,新たな刺激感受性ホークスプロセスモデル(SSHP)を導入する。 環境から一定の外部トリガー効果を仮定する通常の点過程とは異なり、割り当ての有効性、割り当て期限、各学生の時間管理習慣に応じて3種類の動的外部刺激をモデル化する。 2つの合成データセットと2つの実世界のデータセットに関する実験は、最先端モデルと比較して、将来の活動予測の優れた性能を示している。 また,本モデルでは,学習者の活動強度を柔軟かつ正確にパラメータ化できることを示す。

Student procrastination and cramming for deadlines are major challenges in online learning environments, with negative educational and well-being side effects. Modeling student activities in continuous time and predicting their next study time are important problems that can help in creating personalized timely interventions to mitigate these challenges. However, previous attempts on dynamic modeling of student procrastination suffer from major issues: they are unable to predict the next activity times, cannot deal with missing activity history, are not personalized, and disregard important course properties, such as assignment deadlines, that are essential in explaining the cramming behavior. To resolve these problems, we introduce a new personalized stimuli-sensitive Hawkes process model (SSHP), by jointly modeling all student-assignment pairs and utilizing their similarities, to predict students' next activity times even when there are no historical observations. Unlike regular point processes that assume a constant external triggering effect from the environment, we model three dynamic types of external stimuli, according to assignment availabilities, assignment deadlines, and each student's time management habits. Our experiments on two synthetic datasets and two real-world datasets show a superior performance of future activity prediction, comparing with state-of-the-art models. Moreover, we show that our model achieves a flexible and accurate parameterization of activity intensities in students.
翻訳日:2021-04-06 10:37:52 公開日:2021-01-29
# (参考訳) 緩和したクラスターホークス過程によるmoocsのプロクラスチン化モデリング [全文訳有]

Relaxed Clustered Hawkes Process for Procrastination Modeling in MOOCs ( http://arxiv.org/abs/2102.00093v1 )

ライセンス: CC BY 4.0
Mengfan Yao, Siqian Zhao, Shaghayegh Sahebi, Reza Feyzi Behnagh(参考訳) ホークスプロセスは、金融やソーシャルネットワークのアクティビティ分析など、さまざまなアプリケーションにおけるバーストシーケンスのモデリングにおいて効率的であることが示されている。 伝統的に、これらのモデルは各プロセスを独立にパラメータ化し、各ポイントプロセスの歴史を完全に観察できると仮定する。 しかし、そのようなモデルは、そのような仮定に違反する教育の分野など、特定の実世界の応用において非効率もしくは禁止される可能性がある。 本研究は,学生の学習者の確率的傾向を発見・予測する問題に起因し,補助的特徴に頼らずに,すべての観察過程を同時に学習することで,意味のある学生行動クラスタを発見できる,新しい個人化されたホークスプロセスモデル(RCHawkes-Gamma)を提案する。 本研究は,rchawkes-gammaが学生集団とその時間的プロクチングダイナミクスを効果的に回復し,将来の学生活動の予測性能を向上させることを実証するものである。 学習パラメータと学生遅延との関連についてさらに分析した結果,学生集団は,学生の様々な先延ばし行動の有意義な表現を明らかにした。

Hawkes processes have been shown to be efficient in modeling bursty sequences in a variety of applications, such as finance and social network activity analysis. Traditionally, these models parameterize each process independently and assume that the history of each point process can be fully observed. Such models could however be inefficient or even prohibited in certain real-world applications, such as in the field of education, where such assumptions are violated. Motivated by the problem of detecting and predicting student procrastination in students Massive Open Online Courses (MOOCs) with missing and partially observed data, in this work, we propose a novel personalized Hawkes process model (RCHawkes-Gamma) that discovers meaningful student behavior clusters by jointly learning all partially observed processes simultaneously, without relying on auxiliary features. Our experiments on both synthetic and real-world education datasets show that RCHawkes-Gamma can effectively recover student clusters and their temporal procrastination dynamics, resulting in better predictive performance of future student activities. Our further analyses of the learned parameters and their association with student delays show that the discovered student clusters unveil meaningful representations of various procrastination behaviors in students.
翻訳日:2021-04-06 10:19:57 公開日:2021-01-29
# (参考訳) パルスオキシメトリー信号を用いた覚醒時および睡眠時の睡眠ステージ分類のための時間畳み込みネットワークとトランスフォーマー [全文訳有]

Temporal convolutional networks and transformers for classifying the sleep stage in awake or asleep using pulse oximetry signals ( http://arxiv.org/abs/2102.03352v1 )

ライセンス: CC BY 4.0
Ramiro Casal, Leandro E. Di Persia, and Gast\'on Schlotthauer(参考訳) 睡眠障害は世界人口において非常に広範に存在し、診断方法の複雑さを考えると、一般的な低診断に苦しむ。 そのため,より簡易なスクリーニング手法の開発への関心が高まっている。 パルスオキシメータは、ポータブルで低コストでアクセス可能な技術であるため、睡眠障害スクリーニングの理想的な装置である。 この装置は、睡眠段階に関する情報を得るのに役立つ心拍数(HR)を推定することができる。 本研究では,パルスオキシメータからのhr信号のみを用いて覚醒時や睡眠時の睡眠ステージを分類することを目的としたネットワークアーキテクチャを開発した。 提案されたアーキテクチャには2つの基本部分がある。 第1部は、時間的畳み込みネットワークを用いてHRの表現を得る目的を有する。 次に、得られた表現を用いて、注意機構のみを組み込んだモデルであるトランスフォーマーに基づく第2部をフィードする。 トランスフォーマーはシーケンスをモデル化し、睡眠段階間の遷移ルールを学ぶことができる。 提案法の性能は,健常者5000名と病的被験者5000名からなる睡眠時心健康調査データセットで評価した。 データセットは、トレーニング用2500ドル、検証用250ドル、テスト用1250ドルの3つのサブセットに分割された。 全体の正確性、特異性、感受性、およびコーエンのカッパ係数は90.0%, 94.9%, 78.1%, 0.73であった。

Sleep disorders are very widespread in the world population and suffer from a generalized underdiagnosis, given the complexity of their diagnostic methods. Therefore, there is an increasing interest in developing simpler screening methods. A pulse oximeter is an ideal device for sleep disorder screenings since it is a portable, low-cost and accessible technology. This device can provide an estimation of the heart rate (HR), which can be useful to obtain information regarding the sleep stage. In this work, we developed a network architecture with the aim of classifying the sleep stage in awake or asleep using only HR signals from a pulse oximeter. The proposed architecture has two fundamental parts. The first part has the objective of obtaining a representation of the HR by using temporal convolutional networks. Then, the obtained representation is used to feed the second part, which is based on transformers, a model built solely with attention mechanisms. Transformers are able to model the sequence, learning the transition rules between sleep stages. The performance of the proposed method was evaluated on Sleep Heart Health Study dataset, composed of 5000 healthy and pathological subjects. The dataset was split into three subsets: 2500 for training, $1250$ for validating, and 1250 for testing. The overall accuracy, specificity, sensibility, and Cohen's Kappa coefficient were 90.0%, 94.9%, 78.1%, and 0.73.
翻訳日:2021-04-06 09:59:18 公開日:2021-01-29
# 適応型ニューラルネットワークによるレイアウト設計のための生成設計手法

An adaptive artificial neural network-based generative design method for layout designs ( http://arxiv.org/abs/2101.12410v1 )

ライセンス: Link先を確認
Chao Qian, Renkai Tan, Wenjing Ye(参考訳) レイアウトデザインは様々な分野で遭遇する。 多くの設計自由度を持つ問題に対して、設計手法の効率が大きな関心事となっている。 近年,ニューラルネットワークなどの機械学習手法が,設計プロセスの高速化に利用されてきている。 このような多くのアプローチの主な問題は、高次元シミュレーションを用いて生成される大規模なトレーニングデータのコーパスの必要性である。 トレーニングデータ生成に関連する高い計算コストは、機械学習手法を用いて得られる効率を大幅に低下させる。 本研究では,適応型ニューラルネットワークを用いた生成設計手法を提案する。 本手法では,生成逆ネットワークを用いて設計候補を生成し,設計変数の数を大幅に削減する。 目的関数の評価を高速化するため、関数評価のための代理モデルとして畳み込みニューラルネットワークを構築した。 逆設計は遺伝的アルゴリズムと2つのニューラルネットワークを用いて行う。 最適解探索のために設計空間を効果的に探索できる新しい適応学習・最適化戦略が提案されている。 そのため、必要なトレーニングデータの数は大幅に削減される。 2つの熱源レイアウト設計問題に対して,提案手法の性能を実証した。 どちらの問題も最適な設計が得られた。 既存のアプローチと比べ、提案手法は正確性と効率の点で最高の性能を持つ。

Layout designs are encountered in a variety of fields. For problems with many design degrees of freedom, efficiency of design methods becomes a major concern. In recent years, machine learning methods such as artificial neural networks have been used increasingly to speed up the design process. A main issue of many such approaches is the need for a large corpus of training data that are generated using high-dimensional simulations. The high computational cost associated with training data generation largely diminishes the efficiency gained by using machine learning methods. In this work, an adaptive artificial neural network-based generative design approach is proposed and developed. This method uses a generative adversarial network to generate design candidates and thus the number of design variables is greatly reduced. To speed up the evaluation of the objective function, a convolutional neural network is constructed as the surrogate model for function evaluation. The inverse design is carried out using the genetic algorithm in conjunction with two neural networks. A novel adaptive learning and optimization strategy is proposed, which allows the design space to be effectively explored for the search for optimal solutions. As such the number of training data needed is greatly reduced. The performance of the proposed design method is demonstrated on two heat source layout design problems. In both problems, optimal designs have been obtained. Compared with several existing approaches, the proposed approach has the best performance in terms of accuracy and efficiency.
翻訳日:2021-04-05 00:28:53 公開日:2021-01-29
# 類似した畳み込みカーネルペアの共有による2次元異種マルチタスクの学習

Learning Twofold Heterogeneous Multi-Task by Sharing Similar Convolution Kernel Pairs ( http://arxiv.org/abs/2101.12431v1 )

ライセンス: Link先を確認
Quan Feng and Songcan Chen(参考訳) 不均質なマルチタスク学習(HMTL)はマルチタスク学習(MTL)において重要なトピックである。 既存のほとんどのHMTL法は、全てのタスクが同じ入力(ラベル)空間に存在するが、必要のない一貫した出力(ラベル)空間またはそれらの入力(ラベル)空間が不均一であるシナリオを解決している。 しかし,我々の知る限りでは,入力空間と出力空間が不整合あるいは不均一であるような2次元不均質mtl(thmtl)シナリオは限定的である。 本稿では,この複雑なシナリオに対処するために,マルチタスク適応学習(mtal,multi-task adaptive learning)ネットワークを設計し,thmtl設定で複数のタスクを学習する。 特に,mtalネットワークの各層における類似した畳み込みカーネルからの知識共有のためのタスク間の固有関係を探索し,活用する。 そして、共有を実現するために、任意の対の畳み込みカーネルを、閾値$\rho$よりも大きな類似度で重み付けて集約し、ネットワーク全体の冗長性を抑えつつ、効果的にクロスタスク学習を行う。 最後に、エンドツーエンドのトレーニングを行います。 本手法の有効性を実例と比較し,本手法の有効性を実証した。

Heterogeneous multi-task learning (HMTL) is an important topic in multi-task learning (MTL). Most existing HMTL methods usually solve either scenario where all tasks reside in the same input (feature) space yet unnecessarily the consistent output (label) space or scenario where their input (feature) spaces are heterogeneous while the output (label) space is consistent. However, to the best of our knowledge, there is limited study on twofold heterogeneous MTL (THMTL) scenario where the input and the output spaces are both inconsistent or heterogeneous. In order to handle this complicated scenario, in this paper, we design a simple and effective multi-task adaptive learning (MTAL) network to learn multiple tasks in such THMTL setting. Specifically, we explore and utilize the inherent relationship between tasks for knowledge sharing from similar convolution kernels in individual layers of the MTAL network. Then in order to realize the sharing, we weightedly aggregate any pair of convolutional kernels with their similarity greater than some threshold $\rho$, consequently, our model effectively performs cross-task learning while suppresses the intra-redundancy of the entire network. Finally, we conduct end-to-end training. Our experimental results demonstrate the effectiveness of our method in comparison with the state-of-the-art counterparts.
翻訳日:2021-04-05 00:28:39 公開日:2021-01-29
# リジェクトオプション分類器の最適戦略

Optimal strategies for reject option classifiers ( http://arxiv.org/abs/2101.12523v1 )

ライセンス: Link先を確認
V. Franc, D. Prusa, V. Voracek(参考訳) リジェクトオプションによる分類では、不確定なケースでは、分類器は予測を省略することができる。 リジェクトオプション分類器の古典的なコストベースモデルは、リジェクションのコストを明示的に定義する必要がある。 代替の有界改善モデルは、拒絶コストの概念を避け、選択的リスクと最大被覆が保証された分類子を求める。 我々は、最小選択リスクと保証カバレッジを持つ分類器を求める有界被覆モデルという対称的な定義を作成した。 異なる定式化にもかかわらず、3つの拒絶モデルは同じ予測戦略をもたらすことを証明している: ベイズ分類器は、ランダム化されたベイズ選択関数を持つ。 確率化されたベイズ選択関数を構成するのに十分な予測不確かさのスカラー要約として、適切な不確かさスコアの概念を定義する。 任意のブラックボックス分類器の例から適切な不確かさスコアを学習するための2つのアルゴリズムを提案する。 どちらのアルゴリズムもフィッシャーの適切な不確実性スコアの一貫した推定を提供し、分類、順序回帰、構造化出力分類といった様々な予測問題に対してその効率性を示す。

In classification with a reject option, the classifier is allowed in uncertain cases to abstain from prediction. The classical cost-based model of a reject option classifier requires the cost of rejection to be defined explicitly. An alternative bounded-improvement model, avoiding the notion of the reject cost, seeks for a classifier with a guaranteed selective risk and maximal cover. We coin a symmetric definition, the bounded-coverage model, which seeks for a classifier with minimal selective risk and guaranteed coverage. We prove that despite their different formulations the three rejection models lead to the same prediction strategy: a Bayes classifier endowed with a randomized Bayes selection function. We define a notion of a proper uncertainty score as a scalar summary of prediction uncertainty sufficient to construct the randomized Bayes selection function. We propose two algorithms to learn the proper uncertainty score from examples for an arbitrary black-box classifier. We prove that both algorithms provide Fisher consistent estimates of the proper uncertainty score and we demonstrate their efficiency on different prediction problems including classification, ordinal regression and structured output classification.
翻訳日:2021-04-05 00:28:16 公開日:2021-01-29
# Deep Radial Basis Function Data Descriptor (D-RBFDD) Network: 異常検出のための1クラスニューラルネットワーク

The Deep Radial Basis Function Data Descriptor (D-RBFDD) Network: A One-Class Neural Network for Anomaly Detection ( http://arxiv.org/abs/2101.12632v1 )

ライセンス: Link先を確認
Mehran H. Z. Bazargani, Arjun Pakrashi, Brian Mac Namee(参考訳) 異常検出は機械学習では難しい問題であり、低レベルの生データ表現でキャプチャされたインスタンスを扱う場合には、十分な技術的機能セットが存在しない。 放射状基底関数データ記述子(rbfdd)ネットワークは異常検出に有効な解であるが、生のデータ表現を効果的に処理しない浅層モデルである。 本稿では,rbfddネットワークを低レベルの生データ表現を用いた異常検出問題に適した深い1クラス分類器に変換する手法について検討する。 トランスファー学習に基づくアプローチは有効ではないこと,また,汎用分類モデルによって学習された潜在表現が異常検出に適さないことが示唆された。 代わりに、D-RBFDD(Deep Radial Basis Function Data Descriptor)ネットワークを形成するために、RBF層の前に複数の畳み込み層を追加するアプローチが非常に効果的であることを示す。 本研究は,画像分類データセットから生成された複数の異常検出シナリオと,心電図(ECG)データから異なる種類の不整脈を検出する実世界の異常検出データセットを用いて評価実験を行った。 本研究では,d-rbfddネットワークが,画像データセット上のdeep support vector data descriptor (deep svdd),one-class svm,アイソレーションフォレストを含む最先端の異常検出手法よりも優れており,ecgデータセットの競合結果が得られることを示す。

Anomaly detection is a challenging problem in machine learning, and is even more so when dealing with instances that are captured in low-level, raw data representations without a well-behaved set of engineered features. The Radial Basis Function Data Descriptor (RBFDD) network is an effective solution for anomaly detection, however, it is a shallow model that does not deal effectively with raw data representations. This paper investigates approaches to modifying the RBFDD network to transform it into a deep one-class classifier suitable for anomaly detection problems with low-level raw data representations. We show that approaches based on transfer learning are not effective and our results suggest that this is because the latent representations learned by generic classification models are not suitable for anomaly detection. Instead we show that an approach that adds multiple convolutional layers before the RBF layer, to form a Deep Radial Basis Function Data Descriptor (D-RBFDD) network, is very effective. This is shown in a set of evaluation experiments using multiple anomaly detection scenarios created from publicly available image classification datasets, and a real-world anomaly detection dataset in which different types of arrhythmia are detected in electrocardiogram (ECG) data. Our experiments show that the D-RBFDD network out-performs state-of-the-art anomaly detection methods including the Deep Support Vector Data Descriptor (Deep SVDD), One-Class SVM, and Isolation Forest on the image datasets, and produces competitive results for the ECG dataset.
翻訳日:2021-04-05 00:28:00 公開日:2021-01-29
# 厳格な信用格付けのモデル化:機械学習技術を用いた正確性と運転要因の評価

Modelling Sovereign Credit Ratings: Evaluating the Accuracy and Driving Factors using Machine Learning Techniques ( http://arxiv.org/abs/2101.12684v1 )

ライセンス: Link先を確認
Bart H.L. Overes and Michel van der Wel(参考訳) 国家信用格付けは国の信用格付けを要約する。 これらの評価は、政府が新しい債務を発行できる経済と利回りに大きな影響を及ぼす。 本稿では,多層パーセプトロン(MLP),分類・回帰木(CART),オーダード・ロジット(OL)モデルを用いて,主権信用格付けの予測を行う。 ソブリン信用格付けの予測にはmlpが最も適しており、68%の精度で、カート(59%)とol(33%)が続く。 決定要因の調査は、全てのモデルにおいてほぼ同じ説明変数が重要であり、規制品質、一人当たりGDP、失業率が共通の重要な変数であることを示している。 経済理論とは対照的に、一人当たりの規制品質やGDPは高い信用格付けに関連付けられ、高い失業率は低い信用格付けに関連付けられている。

Sovereign credit ratings summarize the creditworthiness of countries. These ratings have a large influence on the economy and the yields at which governments can issue new debt. This paper investigates the use of a Multilayer Perceptron (MLP), Classification and Regression Trees (CART), and an Ordered Logit (OL) model for the prediction of sovereign credit ratings. We show that MLP is best suited for predicting sovereign credit ratings, with an accuracy of 68%, followed by CART (59%) and OL (33%). Investigation of the determining factors shows that roughly the same explanatory variables are important in all models, with regulatory quality, GDP per capita and unemployment rate as common important variables. Consistent with economic theory, a higher regulatory quality and/or GDP per capita are associated with a higher credit rating, while a higher unemployment rate is associated with a lower credit rating.
翻訳日:2021-04-05 00:26:19 公開日:2021-01-29
# ステップ間:big-mと凸包式の間の中間緩和

Between steps: Intermediate relaxations between big-M and convex hull formulations ( http://arxiv.org/abs/2101.12708v1 )

ライセンス: Link先を確認
Jan Kronqvist and Ruth Misener and Calvin Tsay(参考訳) この研究は、big-m と凸包式の間の緩和のクラスを発達させ、両者の利点を引き出す。 提案する「p-split」定式化は、付加的に分離可能な制約をpパーティションに分割し、分割された分節の凸包を形成する。 パラメータPはモデルサイズと緩和強度のトレードオフを表す。 新たな定式化を考察し、ある仮定の下で、緩和がビッグm同値から凸包へ収束する階層を形成することを証明した。 提案した定式化を,K平均クラスタリング,P_ball問題,ReLUニューラルネットワークを含むテストセット上で,Big-Mおよびconvexの船体定式化と比較した。 計算結果から, 中間 p-split 定式化は拡張凸包定式よりも少ない変数と制約で凸包の強い外的近似を形成できることが示され, ビッグm と凸包の両方に対して大きな計算上の優位性が得られた。

This work develops a class of relaxations in between the big-M and convex hull formulations of disjunctions, drawing advantages from both. The proposed "P-split" formulations split convex additively separable constraints into P partitions and form the convex hull of the partitioned disjuncts. Parameter P represents the trade-off of model size vs. relaxation strength. We examine the novel formulations and prove that, under certain assumptions, the relaxations form a hierarchy starting from a big-M equivalent and converging to the convex hull. We computationally compare the proposed formulations to big-M and convex hull formulations on a test set including: K-means clustering, P_ball problems, and ReLU neural networks. The computational results show that the intermediate P-split formulations can form strong outer approximations of the convex hull with fewer variables and constraints than the extended convex hull formulations, giving significant computational advantages over both the big-M and convex hull.
翻訳日:2021-04-05 00:26:02 公開日:2021-01-29
# 一度だけクエリする: 最小繰り返しのクエリによる効果的なブラックボックス攻撃

You Only Query Once: Effective Black Box Adversarial Attacks with Minimal Repeated Queries ( http://arxiv.org/abs/2102.00029v1 )

ライセンス: Link先を確認
Devin Willmott, Anit Kumar Sahu, Fatemeh Sheikholeslami, Filipe Condessa, Zico Kolter(参考訳) 研究者は、深い分類器(クラスラベルを著しく変更する小さな摂動)に対する敵対的な攻撃を、分類器へのクエリアクセスしか持たない「ブラックボックス」設定でも実行可能であることを繰り返し示してきた。 しかし、ブラックボックス設定のすべての以前の作業は、同じ画像を小さな変更(通常数千回以上)で繰り返しクエリすることで分類器を攻撃し、ディフェンダーがそれに続く攻撃を検出するのが容易である。 本研究では、異なる画像のシーケンスを1回だけクエリすることで、ブラックボックス設定で(普遍的な)逆摂動を作ることができることを示す。 この攻撃は、多くの類似クエリの検出を防止し、クラス化子への入力に適用されると誤分類を引き起こす摂動を生成する。 実験では、この制限に従う攻撃は、MNISTとCIFAR-10の分類器入力の大部分を騙し、イメージネット分類器に60~70 %の入力を超過する未目標の敵の摂動を生じさせることを示した。 対象設定では,1画像につき1クエリのみ許可した場合に20\%$以上,画像毎に2クエリを許可した場合に66\%$以下,imagenet分類器に対してターゲットのブラックボックスユニバーサルアタックを提示する。

Researchers have repeatedly shown that it is possible to craft adversarial attacks on deep classifiers (small perturbations that significantly change the class label), even in the "black-box" setting where one only has query access to the classifier. However, all prior work in the black-box setting attacks the classifier by repeatedly querying the same image with minor modifications, usually thousands of times or more, making it easy for defenders to detect an ensuing attack. In this work, we instead show that it is possible to craft (universal) adversarial perturbations in the black-box setting by querying a sequence of different images only once. This attack prevents detection from high number of similar queries and produces a perturbation that causes misclassification when applied to any input to the classifier. In experiments, we show that attacks that adhere to this restriction can produce untargeted adversarial perturbations that fool the vast majority of MNIST and CIFAR-10 classifier inputs, as well as in excess of $60-70\%$ of inputs on ImageNet classifiers. In the targeted setting, we exhibit targeted black-box universal attacks on ImageNet classifiers with success rates above $20\%$ when only allowed one query per image, and $66\%$ when allowed two queries per image.
翻訳日:2021-04-05 00:25:40 公開日:2021-01-29
# ドメインエキスパートからデータサイエンティストへの知識共有によるNLPモデルの構築

Facilitating Knowledge Sharing from Domain Experts to Data Scientists for Building NLP Models ( http://arxiv.org/abs/2102.00036v1 )

ライセンス: Link先を確認
Soya Park, April Wang, Ban Kawas, Q. Vera Liao, David Piorkowski, Marina Danilevsky(参考訳) データサイエンティストは、機械学習(ML)モデルを構築したい新しいドメインを理解するために、急な学習曲線に直面します。 ドメインの専門家からのインプットは役に立つが、そのようなインプットは制限され、高価であり、一般的にモデル開発パイプラインで簡単に消費できる形式ではない。 本稿では、NLPモデルを構築するために、ドメインエキスパートがデータサイエンティストと重要なドメイン知識を共有するためのフレームワークであるZivaを提案する。 Zivaでは、専門家がドメイン概念抽出器と5種類のラベル正当性を代表データサンプル上で蒸留し、共有することができる。 Zivaの設計は、ML開発プロジェクトにおけるドメイン知識獲得プロセスの現在の実践を理解するために、データサイエンティストの予備インタビューによって通知される。 設計を評価するために、mix-methodのケーススタディを実施して、zivaがドメインの専門家とデータサイエンティストのインタラクションをいかに促進できるかを評価します。 以上の結果から,(1) ドメインの専門家は,心的負荷とストレスレベルを低く保ちながら,豊かなドメイン知識を提供するために,(2) ドメインの専門家は,ドメインに関する重要な情報を学習し,情報のスケーラビリティを提供し,知識を共有するためのドメイン専門家の負担を軽減するために,Zivaの成果を見出すことができた。 本研究は, ケーススタディによるZiva出力を用いたNLPモデルの構築実験により結論付けられた。

Data scientists face a steep learning curve in understanding a new domain for which they want to build machine learning (ML) models. While input from domain experts could offer valuable help, such input is often limited, expensive, and generally not in a form readily consumable by a model development pipeline. In this paper, we propose Ziva, a framework to guide domain experts in sharing essential domain knowledge to data scientists for building NLP models. With Ziva, experts are able to distill and share their domain knowledge using domain concept extractors and five types of label justification over a representative data sample. The design of Ziva is informed by preliminary interviews with data scientists, in order to understand current practices of domain knowledge acquisition process for ML development projects. To assess our design, we run a mix-method case-study to evaluate how Ziva can facilitate interaction of domain experts and data scientists. Our results highlight that (1) domain experts are able to use Ziva to provide rich domain knowledge, while maintaining low mental load and stress levels; and (2) data scientists find Ziva's output helpful for learning essential information about the domain, offering scalability of information, and lowering the burden on domain experts to share knowledge. We conclude this work by experimenting with building NLP models using the Ziva output by our case study.
翻訳日:2021-04-05 00:25:15 公開日:2021-01-29
# カーゴ容量管理予約制御問題の解決に機械学習は役立つか?

Can Machine Learning Help in Solving Cargo Capacity Management Booking Control Problems? ( http://arxiv.org/abs/2102.00092v1 )

ライセンス: Link先を確認
Justin Dumouchelle, Emma Frejinger, Andrea Lodi(参考訳) 収益管理は航空会社(航空会社や鉄道など)にとって重要である。 本稿では,本論文で注目されていない貨物容量管理に焦点をあてる。 より正確には、予約受理/拒否決定の制御の問題に焦点をあてる: 限られた能力の付与、予約要求の受け入れ、あるいは、潜在的に高い収益で将来の予約の予備能力への拒否。 この問題を有限水平確率動的プログラムとして定式化する。 受理された予約の費用は、地平線の終わりに発生し、貨物の荷造りと経路に依存する。 これは計算的に難しい側面であり、後者は運用上の意思決定問題に対する解決策であり、我々のアプリケーションでは車両ルーティング問題(VRP)である。 オンライン計算とオフライン計算のバランスを求めるため,教師付き学習を用いてvrpに対するソリューションコストの予測者を訓練する。 そこで我々は,この予測を近似動的プログラミングと強化学習アルゴリズムでオンラインに利用し,予約制御問題を解く。 その結果を文献の既存手法と比較し,評価時間を短縮して利益を増大させる制御方針を得ることができることを示した。 これは、運用コストの正確な近似と、VRPの解決と比較して無視可能な計算時間によって達成される。

Revenue management is important for carriers (e.g., airlines and railroads). In this paper, we focus on cargo capacity management which has received less attention in the literature than its passenger counterpart. More precisely, we focus on the problem of controlling booking accept/reject decisions: Given a limited capacity, accept a booking request or reject it to reserve capacity for future bookings with potentially higher revenue. We formulate the problem as a finite-horizon stochastic dynamic program. The cost of fulfilling the accepted bookings, incurred at the end of the horizon, depends on the packing and routing of the cargo. This is a computationally challenging aspect as the latter are solutions to an operational decision-making problem, in our application a vehicle routing problem (VRP). Seeking a balance between online and offline computation, we propose to train a predictor of the solution costs to the VRPs using supervised learning. In turn, we use the predictions online in approximate dynamic programming and reinforcement learning algorithms to solve the booking control problem. We compare the results to an existing approach in the literature and show that we are able to obtain control policies that provide increased profit at a reduced evaluation time. This is achieved thanks to accurate approximation of the operational costs and negligible computing time in comparison to solving the VRPs.
翻訳日:2021-04-05 00:24:51 公開日:2021-01-29
# thz/vlc無線vrネットワークにおける信頼通信のためのメタ強化学習

Meta-Reinforcement Learning for Reliable Communication in THz/VLC Wireless VR Networks ( http://arxiv.org/abs/2102.12277v1 )

ライセンス: Link先を確認
Yining Wang, Mingzhe Chen, Zhaohui Yang, Walid Saad, Tao luo, Shuguang Cui, H. Vincent Poor(参考訳) 本稿では,屋内テラヘルツ(THz)/可視光通信(VLC)無線ネットワークにおいて,VR(VR)サービスの品質向上の課題について検討する。 研究モデルでは、小型基地局(SBS)は、THz帯と発光ダイオード(LED)を介して高品質なVR画像をVRユーザーに送信し、VLCを用いた正確な屋内位置決めサービスを提供する。 ここで、vrユーザーはリアルタイムで動き、その動きパターンはアプリケーションによって時間とともに変化する。 THzとVLCのリンクはVRユーザーの身体によってブロックされる。 研究対象の THz/VLC 無線VR ネットワークのエネルギー消費を制御するため,VLC アクセスポイント (VAP) を選択的にオンにする必要がある。 ユーザの位置に基づいて、各sbは対応するvr画像を生成し、ボディブロックなしでthzリンクを構築してvrコンテンツを送信する。 本課題は,SBSのユーザ関連性を制御し,適切なVAPを選択することで,VRユーザの平均使用回数を最大化する最適化問題として定式化されている。 この問題を解決するために,訓練されたポリシが新たなユーザ動作パターンに迅速に適応できるメタポリシ勾配(mpg)アルゴリズムを提案する。 多数のユーザを抱えるVRシナリオの問題を解決するために,低複雑性のデュアルメソッドベースMPGアルゴリズム(D-MPG)を提案する。 シミュレーションの結果、ベースライン信頼領域ポリシー最適化アルゴリズム(TRPO)と比較して、提案したMPGとD-MPGのアルゴリズムは、平均サービス利用者数で最大38.2%、33.8%、収束速度で75%、87.5%向上していることがわかった。

In this paper, the problem of enhancing the quality of virtual reality (VR) services is studied for an indoor terahertz (THz)/visible light communication (VLC) wireless network. In the studied model, small base stations (SBSs) transmit high-quality VR images to VR users over THz bands and light-emitting diodes (LEDs) provide accurate indoor positioning services for them using VLC. Here, VR users move in real time and their movement patterns change over time according to their applications. Both THz and VLC links can be blocked by the bodies of VR users. To control the energy consumption of the studied THz/VLC wireless VR network, VLC access points (VAPs) must be selectively turned on so as to ensure accurate and extensive positioning for VR users. Based on the user positions, each SBS must generate corresponding VR images and establish THz links without body blockage to transmit the VR content. The problem is formulated as an optimization problem whose goal is to maximize the average number of successfully served VR users by selecting the appropriate VAPs to be turned on and controlling the user association with SBSs. To solve this problem, a meta policy gradient (MPG) algorithm that enables the trained policy to quickly adapt to new user movement patterns is proposed. In order to solve the problem for VR scenarios with a large number of users, a dual method based MPG algorithm (D-MPG) with a low complexity is proposed. Simulation results demonstrate that, compared to a baseline trust region policy optimization algorithm (TRPO), the proposed MPG and D-MPG algorithms yield up to 38.2% and 33.8% improvement in the average number of successfully served users as well as 75% and 87.5% gains in the convergence speed, respectively.
翻訳日:2021-04-05 00:23:46 公開日:2021-01-29
# RetaGNN:ホリスティックシークエンシャルレコメンデーションのための関係性時間減衰グラフニューラルネットワーク

RetaGNN: Relational Temporal Attentive Graph Neural Networks for Holistic Sequential Recommendation ( http://arxiv.org/abs/2101.12457v1 )

ライセンス: Link先を確認
Cheng Hsu, Cheng-Te Li(参考訳) シークエンシャルレコメンデーション(SR)は、現在のアクセスしたアイテムに基づいて、ユーザのアイテムのリストを正確に推薦することである。 新規ユーザーが現実世界に継続的に到着する一方で、重要なタスクは、ユーザーやアイテムの埋め込みを再トレーニングせずに生成できる誘導的SRを持つことである。 ユーザとイテムの相互作用が極めて疎い場合、別の重要なタスクは、リッチなデータを持つあるドメインから派生した知識を別のドメインに転送可能なSRを持つことである。 本研究は,従来の,帰納的,移譲可能な設定を同時に対応させる包括的SRを提案することを目的とする。 本稿では,新しいディープラーニングモデルであるrelational temporal attentive graph neural networks (retagnn)を提案する。 RetaGNNの主なアイデアは3倍です。 まず,学習可能な重み行列がノードやエッジではなく,ユーザ,アイテム,属性間のさまざまな関係にあるユーザ-テーマペアから抽出したローカルサブグラフ上で,帰納的かつ転送可能な能力を持つために,関係性有意なgnnを訓練する。 第2に,ユーザの嗜好の長期的,短期的な時間的パターンを逐次的自己着脱機構によって符号化する。 第3に、RetaGNNのトレーニングを改善するために、関係対応型正規化用語が考案されている。 MovieLens、Instagram、およびBook-Crossingデータセットで実施された実験によると、RetaGNNは従来の、インダクティブで、転送可能な設定の下で、最先端のメソッドよりも優れたパフォーマンスを発揮する。 導出された注意重みもモデル説明可能性をもたらす。

Sequential recommendation (SR) is to accurately recommend a list of items for a user based on her current accessed ones. While new-coming users continuously arrive in the real world, one crucial task is to have inductive SR that can produce embeddings of users and items without re-training. Given user-item interactions can be extremely sparse, another critical task is to have transferable SR that can transfer the knowledge derived from one domain with rich data to another domain. In this work, we aim to present the holistic SR that simultaneously accommodates conventional, inductive, and transferable settings. We propose a novel deep learning-based model, Relational Temporal Attentive Graph Neural Networks (RetaGNN), for holistic SR. The main idea of RetaGNN is three-fold. First, to have inductive and transferable capabilities, we train a relational attentive GNN on the local subgraph extracted from a user-item pair, in which the learnable weight matrices are on various relations among users, items, and attributes, rather than nodes or edges. Second, long-term and short-term temporal patterns of user preferences are encoded by a proposed sequential self-attention mechanism. Third, a relation-aware regularization term is devised for better training of RetaGNN. Experiments conducted on MovieLens, Instagram, and Book-Crossing datasets exhibit that RetaGNN can outperform state-of-the-art methods under conventional, inductive, and transferable settings. The derived attention weights also bring model explainability.
翻訳日:2021-04-05 00:22:43 公開日:2021-01-29
# AGSTN:短期都市センサ値予測のための意識調整グラフ時空間ネットワーク

AGSTN: Learning Attention-adjusted Graph Spatio-Temporal Networks for Short-term Urban Sensor Value Forecasting ( http://arxiv.org/abs/2101.12465v1 )

ライセンス: Link先を確認
Yi-Ju Lu, Cheng-Te Li(参考訳) 大気汚染警報, 自転車資源管理, インテリジェント交通システムなどの都市分野では, センサ値の時空間相関時系列の予測が重要である。 近年の進歩は,センサ間の空間的および時間的依存関係をよりよく学習するためにグラフニューラルネットワーク(GNN)を利用しているが,センサ間の時間進化時空間相関(STC)をモデル化することはできない。 さらに, 時系列変動の形式はセンサによって異なるため, モデルは変動変調を学習する必要がある。 本稿では,これらの課題に対処するため,新しいGNNモデルであるAttention-adjusted Graph Spatio-Temporal Network (AGSTN)を提案する。 AGSTNでは、時系列学習を伴うマルチグラフ畳み込みを開発し、時間進化STCを学習する。 提案する注意調整機構によりゆらぎ変調を実現する。 3つのセンサデータ、空気質、自転車需要、交通の流れに関する実験は、agstnが最先端の手法よりも優れていることを示している。

Forecasting spatio-temporal correlated time series of sensor values is crucial in urban applications, such as air pollution alert, biking resource management, and intelligent transportation systems. While recent advances exploit graph neural networks (GNN) to better learn spatial and temporal dependencies between sensors, they cannot model time-evolving spatio-temporal correlation (STC) between sensors, and require pre-defined graphs, which are neither always available nor totally reliable, and target at only a specific type of sensor data at one time. Moreover, since the form of time-series fluctuation is varied across sensors, a model needs to learn fluctuation modulation. To tackle these issues, in this work, we propose a novel GNN-based model, Attention-adjusted Graph Spatio-Temporal Network (AGSTN). In AGSTN, multi-graph convolution with sequential learning is developed to learn time-evolving STC. Fluctuation modulation is realized by a proposed attention adjustment mechanism. Experiments on three sensor data, air quality, bike demand, and traffic flow, exhibit that AGSTN outperforms the state-of-the-art methods.
翻訳日:2021-04-05 00:22:12 公開日:2021-01-29
# BridgeDPI: 薬物とタンパク質の相互作用を予測する新しいグラフニューラルネットワーク

BridgeDPI: A Novel Graph Neural Network for Predicting Drug-Protein Interactions ( http://arxiv.org/abs/2101.12547v1 )

ライセンス: Link先を確認
Yifan Wu, Min Gao, Min Zeng, Feiyang Chen, Min Li and Jie Zhang(参考訳) モチベーション(Motivation): 薬物とタンパク質の相互作用(DPI)を探索する。 利用可能な生体データの高速拡張により、計算手法は実験的な手法を効果的に支援することができる。 このうち、深層学習法はタンパク質配列や分子構造などの基本的な特徴のみから特徴を抽出する。 他のものは、配列や分子だけでなく、タンパク質-タンパク質とドラッグ・ドラッグ・アソシエーション(PPAsとDDA)から学ぶことで、著しく改善する。 PPAとDDAは一般に計算手法を用いて得られる。 しかし、既存の計算手法にはいくつかの制限があり、結果として低品質のPPAとDDAが予測性能を妨げている。 そこで我々は,PPAとDDAを効果的に学習し,DPIの特定のタスクの予測性能を向上させるための,教師付き学習手法を開発したいと考えている。 結果:本研究では,新しいディープラーニングフレームワークであるbridgedpiを提案する。 BridgeDPIはハイパーノードと呼ばれるノードのクラスを導入し、異なるタンパク質やドラッグをPPAやDDAとして使えるようにブリッジする。 プロセス全体がエンドツーエンドの学習であるため、ハイパーノードはDPIの特定のタスクのために学習することができる。 従って、そのようなモデルによりDPIの予測性能が向上する。 3つの実世界のデータセットにおいて、BridgeDPIが最先端の手法より優れていることを示す。 さらに、アブレーション研究はハイパーノードの有効性を検証する。 最後に、独立した検証で、BridgeDPIは新型コロナウイルスのタンパク質と様々な抗ウイルス薬の候補結合を調査している。 そして、予測結果は世界保健機関(WHO)の声明と一致し、ブリッジDPIの有効性と信頼性を示している。

Motivation: Exploring drug-protein interactions (DPIs) work as a pivotal step in drug discovery. The fast expansion of available biological data enables computational methods effectively assist in experimental methods. Among them, deep learning methods extract features only from basic characteristics, such as protein sequences, molecule structures. Others achieve significant improvement by learning from not only sequences/molecules but the protein-protein and drug-drug associations (PPAs and DDAs). The PPAs and DDAs are generally obtained by using computational methods. However, existing computational methods have some limitations, resulting in low-quality PPAs and DDAs that hamper the prediction performance. Therefore, we hope to develop a novel supervised learning method to learn the PPAs and DDAs effectively and thereby improve the prediction performance of the specific task of DPI. Results: In this research, we propose a novel deep learning framework, namely BridgeDPI. BridgeDPI introduces a class of nodes named hyper-nodes, which bridge different proteins/drugs to work as PPAs and DDAs. The hyper-nodes can be supervised learned for the specific task of DPI since the whole process is an end-to-end learning. Consequently, such a model would improve prediction performance of DPI. In three real-world datasets, we further demonstrate that BridgeDPI outperforms state-of-the-art methods. Moreover, ablation studies verify the effectiveness of the hyper-nodes. Last, in an independent verification, BridgeDPI explores the candidate bindings among COVID-19's proteins and various antiviral drugs. And the predictive results accord with the statement of the World Health Organization and Food and Drug Administration, showing the validity and reliability of BridgeDPI.
翻訳日:2021-04-05 00:21:51 公開日:2021-01-29
# 太陽フレアGOES時系列分類のための低次元畳み込みニューラルネットワーク

Low Dimensional Convolutional Neural Network For Solar Flares GOES Time Series Classification ( http://arxiv.org/abs/2101.12550v1 )

ライセンス: Link先を確認
Vlad Landa and Yuval Reuveni(参考訳) 太陽フレアのような宇宙天気現象は、一定の大きさに達すると大きな破壊力を持つ。 このような大規模な太陽フレア現象は、宇宙アース無線通信を妨害し、宇宙アース電子機器を中和する可能性がある。 本研究では,太陽フレア予測モデルを構築するための深層学習手法を探索し,利用可能な時系列データに基づいて特徴抽出の能力とともに,その限界を検証する。 そこで我々は,MクラスとXクラスの太陽フレア発生確率を1,3,6,12,24,48,72,96 時間フレームで予測する多層1D畳み込みニューラルネットワーク(CNN)を提案する。 モデルの性能を訓練し評価するために,1998年7月から2019年1月にかけて,利用可能な静止運用環境衛星(goes)のx線時系列データを活用し,太陽周期23,24のほぼすべてをカバーした。 予測モデルは, ランダム選択と, (2) 時系列選択の2つの異なるシナリオで訓練され, 評価された。 その結果,(1) 時間的選択は,(1) 時間的選択が,Mクラスモデルに対するランダム選択と,Xクラスモデルにおける2\%の上昇係数とに対して,3\%の劣化係数が得られることがわかった。 2)x線時系列データのみを利用する場合,提案モデルは他の研究と比較して高いスコアが得られる。 3) x線系列のみと組み合わされたモデルでは,m級とx級の太陽フレア現象の区別に失敗している。 すべてのソースコードはhttps://github.com/v ladlanda/Low-dimensi onal-Convolutional-N eural-Network-For-So lar-Flares-GOES-Time -Series-Classificati onで入手できる。

Space weather phenomena such as solar flares, have massive destructive power when reaches certain amount of magnitude. Such high magnitude solar flare event can interfere space-earth radio communications and neutralize space-earth electronics equipment. In the current study, we explorer the deep learning approach to build a solar flare forecasting model and examine its limitations along with the ability of features extraction, based on the available time-series data. For that purpose, we present a multi-layer 1D Convolutional Neural Network (CNN) to forecast solar flare events probability occurrence of M and X classes at 1,3,6,12,24,48,72,96 hours time frame. In order to train and evaluate the performance of the model, we utilised the available Geostationary Operational Environmental Satellite (GOES) X-ray time series data, ranged between July 1998 and January 2019, covering almost entirely the solar cycles 23 and 24. The forecasting model were trained and evaluated in two different scenarios (1) random selection and (2) chronological selection, which were compare afterward. Moreover we compare our results to those considered as state-of-the-art flare forecasting models, both with similar approaches and different ones.The majority of the results indicates that (1) chronological selection obtain a degradation factor of 3\% versus the random selection for the M class model and elevation factor of 2\% for the X class model. (2) When consider utilizing only X-ray time-series data, the suggested model achieve high score results compare to other studies. (3) The suggested model combined with solely X-ray time-series fails to distinguish between M class magnitude and X class magnitude solar flare events. All source code are available at https://github.com/v ladlanda/Low-Dimensi onal-Convolutional-N eural-Network-For-So lar-Flares-GOES-Time -Series-Classificati on
翻訳日:2021-04-05 00:21:28 公開日:2021-01-29
# リップマン・シュウィンガー方程式に適用する反復局在化ネットワーク

Recurrent Localization Networks applied to the Lippmann-Schwinger Equation ( http://arxiv.org/abs/2102.00063v1 )

ライセンス: Link先を確認
Conlain Kelly, Surya R. Kalidindi(参考訳) 物質科学における物理系をモデル化するための計算手法の大部分は、分析的(すなわち)に由来する。 物理に基づく)またはデータ駆動(すなわち) 機械学習に基づく)起源。 これら2つのアプローチの強みを組み合わせるために,一般化リップマン・シュウィンガー型(l-s)の方程式を解くための新しい機械学習手法を考案する。 このパラダイムでは、与えられた問題を等価なL-S方程式に変換し、最適化問題として解決する。 学習に基づくループアンロールの一部として、リカレント畳み込みニューラルネットワークを用いて、関心のある分野の制御方程式を反復的に解く。 このアーキテクチャは、機械学習アプローチの一般化性と計算効率を活用するが、物理に基づく解釈も可能である。 本研究では, 局所的(ボクセルレベル)弾性ひずみの予測において, 優れた精度が得られる2相弾性局在問題に対する学習手法を示す。 多数の支配方程式を等価なL-S形式に変換することができるため、提案アーキテクチャは多スケールの物質現象にまたがって潜在的に応用できる。

The bulk of computational approaches for modeling physical systems in materials science derive from either analytical (i.e. physics based) or data-driven (i.e. machine-learning based) origins. In order to combine the strengths of these two approaches, we advance a novel machine learning approach for solving equations of the generalized Lippmann-Schwinger (L-S) type. In this paradigm, a given problem is converted into an equivalent L-S equation and solved as an optimization problem, where the optimization procedure is calibrated to the problem at hand. As part of a learning-based loop unrolling, we use a recurrent convolutional neural network to iteratively solve the governing equations for a field of interest. This architecture leverages the generalizability and computational efficiency of machine learning approaches, but also permits a physics-based interpretation. We demonstrate our learning approach on the two-phase elastic localization problem, where it achieves excellent accuracy on the predictions of the local (i.e., voxel-level) elastic strains. Since numerous governing equations can be converted into an equivalent L-S form, the proposed architecture has potential applications across a range of multiscale materials phenomena.
翻訳日:2021-04-05 00:20:56 公開日:2021-01-29
# 構造駆動階層型深層強化学習によるスケーラブル電圧制御

Scalable Voltage Control using Structure-Driven Hierarchical Deep Reinforcement Learning ( http://arxiv.org/abs/2102.00077v1 )

ライセンス: Link先を確認
Sayak Mukherjee, Renke Huang, Qiuhua Huang, Thanh Long Vu, Tianzhixi Yin(参考訳) 本稿では,新しい階層型深層強化学習(drl)による電力系統の電圧制御設計を提案する。 DRLエージェントは、障害後の電圧回復基準を満たすように、高速かつ適応的な制御動作の選択のために訓練される。 既存の電圧制御技術は、動作速度、異なる位置間の最適調整、スケーラビリティの問題に悩まされている。 本研究では,電力系統の領域分割構造を利用して,大規模グリッドモデルに適用可能な階層型drl設計を提案する。 本研究では,2段階アーキテクチャにおける電圧制御問題に適した拡張型ランダム探索アルゴリズムを用いる。 我々は、地域的に分散されたRLエージェントを訓練し、各領域の低レベルポリシーを計算し、低レベルポリシーを更新して下層エージェントが行うコントロールアクションを効率的に調整する高レベルDRLエージェントを同時に訓練する。 ieeeベンチマーク39-busモデルにおける3領域の数値実験により,提案手法の利点と複雑さが示された。

This paper presents a novel hierarchical deep reinforcement learning (DRL) based design for the voltage control of power grids. DRL agents are trained for fast, and adaptive selection of control actions such that the voltage recovery criterion can be met following disturbances. Existing voltage control techniques suffer from the issues of speed of operation, optimal coordination between different locations, and scalability. We exploit the area-wise division structure of the power system to propose a hierarchical DRL design that can be scaled to the larger grid models. We employ an enhanced augmented random search algorithm that is tailored for the voltage control problem in a two-level architecture. We train area-wise decentralized RL agents to compute lower-level policies for the individual areas, and concurrently train a higher-level DRL agent that uses the updates of the lower-level policies to efficiently coordinate the control actions taken by the lower-level agents. Numerical experiments on the IEEE benchmark 39-bus model with 3 areas demonstrate the advantages and various intricacies of the proposed hierarchical approach.
翻訳日:2021-04-05 00:20:38 公開日:2021-01-29
# 非線形偏微分方程式に対する還元作用素推論

Reduced operator inference for nonlinear partial differential equations ( http://arxiv.org/abs/2102.00083v1 )

ライセンス: Link先を確認
Elizabeth Qian, Ionut-Gabriel Farcas, and Karen Willcox(参考訳) 本稿では,時間依存型非線形偏微分方程式(PDE)が支配するシステムの進化を予測するための計算コストのかかる代理モデルとして,データから学習する新しい科学機械学習手法を提案する。 B. Peherstorfer and K. Willcox, data-driven operator inference for non-intrusive projection-based model reduction, Computer Methods in Applied Mechanics and Engineering, 306 (2016)] for systems by ordinary differential equations。 この方法は2つの主要な要素をまとめる。 第一に、プロジェクションに基づくモデル還元のアイデアは、支配PDEの既知の形式を反映した低次元多項式演算子によって学習モデルを明示的にパラメータ化するために用いられる。 第二に、教師付き機械学習ツールは、この物理インフォームドパラメトリゼーションの縮小演算子をデータから推測するために使用される。 より一般的な(非ポリノミカルな)非線形性を含むPDEを管理するシステムでは、学習されたモデル性能は、PDEの多項式構造を露出するリフト可変変換を用いることで改善することができる。 提案手法は,1800万自由度以上の3次元燃焼シミュレーションにおいて,6桁の次元減少と5~6桁のモデル実行時減少を精度良く予測できることを示した。

We present a new scientific machine learning method that learns from data a computationally inexpensive surrogate model for predicting the evolution of a system governed by a time-dependent nonlinear partial differential equation (PDE), an enabling technology for many computational algorithms used in engineering settings. Our formulation generalizes to the PDE setting the Operator Inference method previously developed in [B. Peherstorfer and K. Willcox, Data-driven operator inference for non-intrusive projection-based model reduction, Computer Methods in Applied Mechanics and Engineering, 306 (2016)] for systems governed by ordinary differential equations. The method brings together two main elements. First, ideas from projection-based model reduction are used to explicitly parametrize the learned model by low-dimensional polynomial operators which reflect the known form of the governing PDE. Second, supervised machine learning tools are used to infer from data the reduced operators of this physics-informed parametrization. For systems whose governing PDEs contain more general (non-polynomial) nonlinearities, the learned model performance can be improved through the use of lifting variable transformations, which expose polynomial structure in the PDE. The proposed method is demonstrated on a three-dimensional combustion simulation with over 18 million degrees of freedom, for which the learned reduced models achieve accurate predictions with a dimension reduction of six orders of magnitude and model runtime reduction of 5-6 orders of magnitude.
翻訳日:2021-04-05 00:20:22 公開日:2021-01-29
# 深部強化学習によるレーザー粉末層核融合の熱制御

Thermal Control of Laser Powder Bed Fusion Using Deep Reinforcement Learning ( http://arxiv.org/abs/2102.03355v1 )

ライセンス: Link先を確認
Francis Ogoke, Amir Barati Farimani(参考訳) 粉末ベースの添加物製造技術は、従来の方法では製造が難しい複雑な構造を構築するためのツールを提供する。 レーザー粉体層融合では、粉体層の特定の領域を選択的に溶融して、特定の部分の二次元断面を形成する部品が作られる。 しかし, 欠陥の発生頻度が高いことが, この手法の適用に影響を及ぼす。 したがって、欠陥の発生につながる現象を避けるために、プロセスパラメータを動的に変更するための制御ポリシーが必要である。 これらの欠陥の可能性を最小化する汎用制御戦略を導出する深層強化学習(drl)フレームワークを提案する。 生成した制御ポリシーは溶融過程におけるレーザーの速度を変化させ、溶融プールの一貫性を確保し、生成した製品の過熱を低減する。 各種レーザー軌道下での粉体層層の連続温度分布の効率的なシミュレーションに基づいて制御方針を訓練し検証する。

Powder-based additive manufacturing techniques provide tools to construct intricate structures that are difficult to manufacture using conventional methods. In Laser Powder Bed Fusion, components are built by selectively melting specific areas of the powder bed, to form the two-dimensional cross-section of the specific part. However, the high occurrence of defects impacts the adoption of this method for precision applications. Therefore, a control policy for dynamically altering process parameters to avoid phenomena that lead to defect occurrences is necessary. A Deep Reinforcement Learning (DRL) framework that derives a versatile control strategy for minimizing the likelihood of these defects is presented. The generated control policy alters the velocity of the laser during the melting process to ensure the consistency of the melt pool and reduce overheating in the generated product. The control policy is trained and validated on efficient simulations of the continuum temperature distribution of the powder bed layer under various laser trajectories.
翻訳日:2021-04-05 00:19:32 公開日:2021-01-29
# 薄膜強磁性デバイスを用いた貯留層計算

Reservoir Computing with Thin-film Ferromagnetic Devices ( http://arxiv.org/abs/2101.12700v1 )

ライセンス: Link先を確認
Matthew Dale, Richard F. L. Evans, Sarah Jenkins, Simon O'Keefe, Angelika Sebald, Susan Stepney, Fernando Torre, Martin Trefzer(参考訳) 人工知能の進歩は脳に触発された技術によってもたらされるが、これらの技術は生体システムよりも強力でエネルギー効率が良い。 ニューラルネットワークの非線形ダイナミクスにインスパイアされた新しい非伝統的なコンピューティングハードウェアは、極端な並列性と超低消費電力の可能性を秘めている。 物理貯水池計算は、光ベースからスピントロニクスまで、様々な非伝統的なシステムでこれを実証している。 貯水池コンピュータは、システムの内部ダイナミクスを利用して、高次元特徴空間に入力されるタスクを非線形に投影する。 トレーニングされた読み出し層は、パターン認識や時系列分析などのタスクを実行するために機能を組み合わせる。 進展にもかかわらず、外部信号処理を行わずに最先端の性能を達成することは依然として困難である。 ここでは、シミュレーションにより、薄膜ジオメトリーの磁性物質は、デジタルリカレントニューラルネットワークと同等以上の精度で貯水池コンピュータを実現することができることを示す。 以上の結果から, 磁性膜の基本スピン特性は, 機械学習タスクを解くために必要な非線形ダイナミクスとメモリを生成することがわかった。 さらに,個別の神経コンポーネントや外部処理の必要性をなくすことで,ニューロモルフィックハードウェアのサイズを縮小できることを示した。 磁性薄膜の自然力学とナノスケールサイズは、ポータブルなスマートデバイス、自動運転車、ロボティクスを革新する可能性を持つ高速エネルギー効率コンピューティングへの新たな道を示す。

Advances in artificial intelligence are driven by technologies inspired by the brain, but these technologies are orders of magnitude less powerful and energy efficient than biological systems. Inspired by the nonlinear dynamics of neural networks, new unconventional computing hardware has emerged with the potential for extreme parallelism and ultra-low power consumption. Physical reservoir computing demonstrates this with a variety of unconventional systems from optical-based to spintronic. Reservoir computers provide a nonlinear projection of the task input into a high-dimensional feature space by exploiting the system's internal dynamics. A trained readout layer then combines features to perform tasks, such as pattern recognition and time-series analysis. Despite progress, achieving state-of-the-art performance without external signal processing to the reservoir remains challenging. Here we show, through simulation, that magnetic materials in thin-film geometries can realise reservoir computers with greater than or similar accuracy to digital recurrent neural networks. Our results reveal that basic spin properties of magnetic films generate the required nonlinear dynamics and memory to solve machine learning tasks. Furthermore, we show that neuromorphic hardware can be reduced in size by removing the need for discrete neural components and external processing. The natural dynamics and nanoscale size of magnetic thin-films present a new path towards fast energy-efficient computing with the potential to innovate portable smart devices, self driving vehicles, and robotics.
翻訳日:2021-04-05 00:19:00 公開日:2021-01-29
# 無線デバイス間ネットワークによるフェデレーション学習:アルゴリズムと収束解析

Federated Learning over Wireless Device-to-Device Networks: Algorithms and Convergence Analysis ( http://arxiv.org/abs/2101.12704v1 )

ライセンス: Link先を確認
Hong Xing and Osvaldo Simeone and Suzhi Bi(参考訳) サイロ化されたデータセンタ上でのIoT(Internet-of-Thin gs)デバイスとクラウドコンピューティングアプリケーションの普及は、フェデレーションドラーニング(FL)を通じて、複数のクライアントによる共有モデルの協調トレーニングに新たな関心を喚起している。 無線システムにおけるFL実装の通信効率を向上させるため、近年の研究では、チャネルノイズ、フェード、干渉を考慮したデジタルおよびアナログ伝送方式とともに、圧縮と次元削減機構を提案する。 この先行技術は、主に分散クライアントと中央サーバからなる星のトポロジに焦点を当てている。 対照的に,分散確率勾配降下 (dsgd) のディジタルおよびアナログ実装の性能に関する理論的知見を提供し,無線デバイス間通信 (d2d) ネットワークに対するflの研究を行った。 まず、通信効率の良いDSGDアルゴリズムの汎用ディジタルおよびアナログ無線実装を紹介し、圧縮にはランダム線形符号化(RLC)、同時アナログ伝送にはエアコン(AirComp)を利用する。 次に、凸性と接続性の仮定の下で、両実装に収束境界を提供する。 その結果,ネットワークの接続性とSNR(Signal-to-Noise ratio)レベルに対する最適性ギャップの依存性が示された。 解析は画像分類タスクの実験によって裏付けられる。

The proliferation of Internet-of-Things (IoT) devices and cloud-computing applications over siloed data centers is motivating renewed interest in the collaborative training of a shared model by multiple individual clients via federated learning (FL). To improve the communication efficiency of FL implementations in wireless systems, recent works have proposed compression and dimension reduction mechanisms, along with digital and analog transmission schemes that account for channel noise, fading, and interference. This prior art has mainly focused on star topologies consisting of distributed clients and a central server. In contrast, this paper studies FL over wireless device-to-device (D2D) networks by providing theoretical insights into the performance of digital and analog implementations of decentralized stochastic gradient descent (DSGD). First, we introduce generic digital and analog wireless implementations of communication-effici ent DSGD algorithms, leveraging random linear coding (RLC) for compression and over-the-air computation (AirComp) for simultaneous analog transmissions. Next, under the assumptions of convexity and connectivity, we provide convergence bounds for both implementations. The results demonstrate the dependence of the optimality gap on the connectivity and on the signal-to-noise ratio (SNR) levels in the network. The analysis is corroborated by experiments on an image-classification task.
翻訳日:2021-04-05 00:18:39 公開日:2021-01-29
# (参考訳) Poincar\e Ballにおける知識強化型トップK勧告 [全文訳有]

Knowledge-Enhanced Top-K Recommendation in Poincar\'e Ball ( http://arxiv.org/abs/2101.04852v2 )

ライセンス: CC BY 4.0
Chen Ma, Liheng Ma, Yingxue Zhang, Haolun Wu, Xue Liu and Mark Coates(参考訳) コンテンツやサービスが増えるにつれて、パーソナライズされたリコメンデーションシステムがますます重要になってきています。 豊富な情報を提供する能力のおかげで、推薦性能と解釈可能性を高めるために知識グラフ(KG)が組み込まれている。 知識グラフを効果的に利用するために,双曲空間におけるレコメンデーションモデルを提案し,知識グラフの階層構造の学習を容易にする。 さらに、ある項目の隣接エンティティの相対的重要性を決定するために双曲的注意ネットワークを用いる。 さらに,項目とその隣接表現を適応的に規則化する適応的かつ細粒度の正則化機構を提案する。 実世界の3つのデータセットと最先端の手法との比較により,提案手法はTop-KレコメンデーションのNDCG@Kにおいて,最高の既存モデルを2-16%上回っていることを示す。

Personalized recommender systems are increasingly important as more content and services become available and users struggle to identify what might interest them. Thanks to the ability for providing rich information, knowledge graphs (KGs) are being incorporated to enhance the recommendation performance and interpretability. To effectively make use of the knowledge graph, we propose a recommendation model in the hyperbolic space, which facilitates the learning of the hierarchical structure of knowledge graphs. Furthermore, a hyperbolic attention network is employed to determine the relative importances of neighboring entities of a certain item. In addition, we propose an adaptive and fine-grained regularization mechanism to adaptively regularize items and their neighboring representations. Via a comparison using three real-world datasets with state-of-the-art methods, we show that the proposed model outperforms the best existing models by 2-16% in terms of NDCG@K on Top-K recommendation.
翻訳日:2021-04-03 21:50:22 公開日:2021-01-29
# 不適切な学習による予測問題の誤特定と頑健性について

On Misspecification in Prediction Problems and Robustness via Improper Learning ( http://arxiv.org/abs/2101.05234v2 )

ライセンス: Link先を確認
Annie Marsden, John Duchi, Gregory Valiant(参考訳) 基礎モデルが誤特定された場合の確率的予測ゲームについて検討し,不正確なパラメトリックモデルを用いた予測結果について検討した。 損失関数や分布のパラメトリックな族に対して、同じモデルクラスの最高の予測器と比較して「適切な」予測器を演奏したことの後悔は、少なくとも$\sqrt{\gamma n}$ よりも低い有界スケーリングを持ち、$\gamma$ はモデルが全変動距離において真の分布に不比例する尺度であることを示す。 対照的に、アグリゲーションベース(improper)学習者を用いて、$d$がパラメータの次元である任意の基底生成分布に対して、後悔のあった$d \log n$を得ることができる。 これらの結果は、複数の学習者を統合するための単純な戦略がより堅牢で、いくつかの実験がこの仮説に合致することを示唆している。

We study probabilistic prediction games when the underlying model is misspecified, investigating the consequences of predicting using an incorrect parametric model. We show that for a broad class of loss functions and parametric families of distributions, the regret of playing a "proper" predictor -- one from the putative model class -- relative to the best predictor in the same model class has lower bound scaling at least as $\sqrt{\gamma n}$, where $\gamma$ is a measure of the model misspecification to the true distribution in terms of total variation distance. In contrast, using an aggregation-based (improper) learner, one can obtain regret $d \log n$ for any underlying generating distribution, where $d$ is the dimension of the parameter; we exhibit instances in which this is unimprovable even over the family of all learners that may play distributions in the convex hull of the parametric family. These results suggest that simple strategies for aggregating multiple learners together should be more robust, and several experiments conform to this hypothesis.
翻訳日:2021-03-30 08:06:20 公開日:2021-01-29
# GIID-Net:ニューラル・アーキテクチャ・サーチとアテンションによる一般化可能な画像インペインティング検出

GIID-Net: Generalizable Image Inpainting Detection via Neural Architecture Search and Attention ( http://arxiv.org/abs/2101.07419v2 )

ライセンス: Link先を確認
Haiwei Wu and Jiantao Zhou(参考訳) 深層学習(DL)は、画像インペイントの分野でその強力な能力を示しており、視覚的に妥当な結果をもたらす可能性がある。 一方、高度な画像インペイントツールの悪意ある使用(例)。 フェイクニュースを報告するための重要なオブジェクトを削除する) 画像データの信頼性に対する脅威が増大している。 本研究は, 塗布された領域を画素精度で検出するGIID-Net(General-to- end Generalizable Image Inpainting Detection Network)を提案する。 提案するgiid-netは,拡張ブロック,抽出ブロック,決定ブロックの3つのサブブロックからなる。 具体的には, この拡張ブロックは, 階層的に結合した特殊層を用いることで, 塗工跡の増大を図っている。 ニューラルネットワーク探索(NAS)アルゴリズムによって自動的に設計される抽出ブロックは、実際の塗装検出タスクの特徴を抽出することを目的としている。 抽出された潜在機能をさらに最適化するために,グローバル・アテンションモジュールとローカルアテンションモジュールを決定ブロックに統合し,グローバル・アテンションはグローバル・アテンションの類似度を測定することによってクラス内差異を低減し,ローカル・アテンションはローカル・アテンションの一貫性を強化する。 さらに,giid-netの一般化可能性についても徹底的に検討し,異なるトレーニングデータによって非常に異なる一般化能力が得られることを見出した。 提案するgiid-netの優位性を検証するために,最先端の競合製品と比較実験を行った。 以上の結果から,共通アーティファクトは多彩な画像塗布法で共有されていることが示唆された。 最後に、この領域における将来の研究のために、10Kイメージペアのパブリックな塗装データセットを構築します。

Deep learning (DL) has demonstrated its powerful capabilities in the field of image inpainting, which could produce visually plausible results. Meanwhile, the malicious use of advanced image inpainting tools (e.g. removing key objects to report fake news) has led to increasing threats to the reliability of image data. To fight against the inpainting forgeries, in this work, we propose a novel end-to-end Generalizable Image Inpainting Detection Network (GIID-Net), to detect the inpainted regions at pixel accuracy. The proposed GIID-Net consists of three sub-blocks: the enhancement block, the extraction block and the decision block. Specifically, the enhancement block aims to enhance the inpainting traces by using hierarchically combined special layers. The extraction block, automatically designed by Neural Architecture Search (NAS) algorithm, is targeted to extract features for the actual inpainting detection tasks. In order to further optimize the extracted latent features, we integrate global and local attention modules in the decision block, where the global attention reduces the intra-class differences by measuring the similarity of global features, while the local attention strengthens the consistency of local features. Furthermore, we thoroughly study the generalizability of our GIID-Net, and find that different training data could result in vastly different generalization capability. Extensive experimental results are presented to validate the superiority of the proposed GIID-Net, compared with the state-of-the-art competitors. Our results would suggest that common artifacts are shared across diverse image inpainting methods. Finally, we build a public inpainting dataset of 10K image pairs for the future research in this area.
翻訳日:2021-03-22 11:32:46 公開日:2021-01-29
# 隣人同士をスプライシングして(形式的な)テキストを生成する

Generating (Formulaic) Text by Splicing Together Nearest Neighbors ( http://arxiv.org/abs/2101.08248v2 )

ライセンス: Link先を確認
Sam Wiseman, Arturs Backurs, Karl Stratos(参考訳) 本稿では、検索した「隣接」ソース-ターゲットペアからテキストセグメントを分割することで、条件付きテキスト生成タスク、特に定式テキストを生成するタスクに取り組むことを提案する。 エンコーダ-デコーダ設定で検索された隣人の条件が、左から右へテキストトークンを生成する最近の作業とは異なり、隣接するテキストのセグメントを直接操作するポリシー(つまり、挿入または置換)を学習し、出力を生成する。 このような政策を訓練する標準的な手法は,各世代にオラクルの導出を必要とするため,そのような導出が最短であることは,特定の重み付けされた文脈自由文法の下での構文解析に還元できることを示す。 この方法で学んだポリシーは、近隣のトークンレベルポリシーと競合するテーブル・ツー・テキストや見出し生成を自動メトリクスで解釈できるが、近隣のスキーマベースのポリシー以外は、強力な近隣のベースラインを達成できない。 しかし、いずれの場合もスプライシングによる生成は高速である。

We propose to tackle conditional text generation tasks, especially those which require generating formulaic text, by splicing together segments of text from retrieved "neighbor" source-target pairs. Unlike recent work that conditions on retrieved neighbors in an encoder-decoder setting but generates text token-by-token, left-to-right, we learn a policy that directly manipulates segments of neighbor text (i.e., by inserting or replacing them) to form an output. Standard techniques for training such a policy require an oracle derivation for each generation, and we prove that finding the shortest such derivation can be reduced to parsing under a particular weighted context-free grammar. We find that policies learned in this way allow for interpretable table-to-text or headline generation that is competitive with neighbor-based token-level policies on automatic metrics, though on all but one dataset neighbor-based policies underperform a strong neighborless baseline. In all cases, however, generating by splicing is faster.
翻訳日:2021-03-22 01:36:36 公開日:2021-01-29
# 血管アノテーションとセグメンテーションのための効率的な学習フレームワークVessel-CAPTCHA

Vessel-CAPTCHA: an efficient learning framework for vessel annotation and segmentation ( http://arxiv.org/abs/2101.09321v3 )

ライセンス: Link先を確認
Vien Ngoc Dang and Giuseppe Di Giacomo and Viola Marconetto and Prateek Mathur and Rosa Cortese and Marco Lorenzi and Ferran Prados and Maria A. Zuluaga(参考訳) 3次元脳血管画像分割のためのディープラーニング技術の使用は、他の臓器や組織のセグメンテーションほど広くは普及していない。 これは2つの要因によって説明できる。 第一に、深層学習技術は、全体像の大きさと比較して比較的小さな物体のセグメンテーションにおける性能が劣る傾向にある。 第2に,血管樹の複雑化と血管径の縮小により,深層学習法で典型的に必要とされるアノテートトレーニングデータ量を得ることが困難である。 そこで本研究では,新しいアノテーション効率の高い深層学習容器セグメンテーションフレームワークを提案する。 このフレームワークはピクセル毎のアノテーションを避け、トレーニングセット内のコンテナと非vessel 2dパッチを区別するパッチレベルラベルのみを、webアプリケーションのボットと人間を区別するために使用されるcaptchaに似た設定で要求する。 ユーザが提供するアノテーションは、2つのタスクに使用される: 1)各パッチでコンテナとバックグラウンドのピクセル単位でラベルを自動的に生成し、セグメンテーションネットワークをトレーニングするために、2) 分類器ネットワークをトレーニングする。 分類器ネットワークは、さらに弱いパッチラベルを生成し、さらにアノテーションの負担を軽減し、品質の悪い画像のノイズフィルタとして機能する。 我々はこの枠組みを,Time-of-Flight angiography (TOF) と Susceptibility-Weigh ted Images (SWI) における脳血管ツリーの分画に用いている。 その結果,学習のためのピクセルラベルを用いた学習に基づくセグメンテーション法において,アノテーション時間の最大80%削減しつつ,最先端の精度を実現することができた。

The use of deep learning techniques for 3D brain vessel image segmentation has not been as widespread as for the segmentation of other organs and tissues. This can be explained by two factors. First, deep learning techniques tend to show poor performances at the segmentation of relatively small objects compared to the size of the full image. Second, due to the complexity of vascular trees and the small size of vessels, it is challenging to obtain the amount of annotated training data typically needed by deep learning methods. To address these problems, we propose a novel annotation-efficient deep learning vessel segmentation framework. The framework avoids pixel-wise annotations, only requiring patch-level labels to discriminate between vessel and non-vessel 2D patches in the training set, in a setup similar to the CAPTCHAs used to differentiate humans from bots in web applications. The user-provided annotations are used for two tasks: 1) to automatically generate pixel-wise labels for vessels and background in each patch, which are used to train a segmentation network, and 2) to train a classifier network. The classifier network allows to generate additional weak patch labels, further reducing the annotation burden, and it acts as a noise filter for poor quality images. We use this framework for the segmentation of the cerebrovascular tree in Time-of-Flight angiography (TOF) and Susceptibility-Weigh ted Images (SWI). The results show that the framework achieves state-of-the-art accuracy, while reducing the annotation time by up to 80% with respect to learning-based segmentation methods using pixel-wise labels for training
翻訳日:2021-03-20 17:23:31 公開日:2021-01-29
# UAVリモートセンシングにおける深層学習の展望

A Review on Deep Learning in UAV Remote Sensing ( http://arxiv.org/abs/2101.10861v2 )

ライセンス: Link先を確認
Lucas Prado Osco, Jos\'e Marcato Junior, Ana Paula Marques Ramos, L\'ucio Andr\'e de Castro Jorge, Sarah Narges Fatholahi, Jonathan de Andrade Silva, Edson Takashi Matsubara, Hemerson Pistori, Wesley Nunes Gon\c{c}alves, Jonathan Li(参考訳) Deep Neural Networks(DNN)は、印象的な能力でデータから表現を学び、画像、時系列、自然言語、オーディオ、ビデオなどの処理に重要なブレークスルーをもたらした。 リモートセンシング分野では,DNNアルゴリズムの応用に関する調査と文献の改訂が,そのサブフィールドで生成された情報の量を要約するために行われている。 近年,無人航空機(UAV)の応用が空中センシング研究を支配している。 しかし,「深層学習」と「UAVリモートセンシング」を併用した文献改訂はまだ行われていない。 本研究の動機は,UAV画像に適用されたディープラーニング(DL)の基礎を包括的にレビューすることであった。 本稿では,UAV取得データを用いた最近の応用における分類・回帰手法について述べる。 そのために、国際科学雑誌データベースに掲載された合計232の論文が調査された。 得られた資料を収集し, 応用, センサ, 技術に関する特性評価を行った。 本稿では,有望な結果をDLが提示し,UAV画像データに関連するタスクを処理できる可能性について述べる。 最後に,UAVリモートセンシング分野における顕著なDLパスについて解説し,今後の展望を提案する。 我々のリビジョンは、リモートセンシングの様々なサブフィールドにおけるDNNアルゴリズムによるUAVベースの画像応用の最先端を紹介、解説、要約し、環境、都市、農業の文脈でグループ化するためのフレンドリーなアプローチで構成されている。

Deep Neural Networks (DNNs) learn representation from data with an impressive capability, and brought important breakthroughs for processing images, time-series, natural language, audio, video, and many others. In the remote sensing field, surveys and literature revisions specifically involving DNNs algorithms' applications have been conducted in an attempt to summarize the amount of information produced in its subfields. Recently, Unmanned Aerial Vehicles (UAV) based applications have dominated aerial sensing research. However, a literature revision that combines both "deep learning" and "UAV remote sensing" thematics has not yet been conducted. The motivation for our work was to present a comprehensive review of the fundamentals of Deep Learning (DL) applied in UAV-based imagery. We focused mainly on describing classification and regression techniques used in recent applications with UAV-acquired data. For that, a total of 232 papers published in international scientific journal databases was examined. We gathered the published material and evaluated their characteristics regarding application, sensor, and technique used. We relate how DL presents promising results and has the potential for processing tasks associated with UAV-based image data. Lastly, we project future perspectives, commentating on prominent DL paths to be explored in the UAV remote sensing field. Our revision consists of a friendly-approach to introduce, commentate, and summarize the state-of-the-art in UAV-based image applications with DNNs algorithms in diverse subfields of remote sensing, grouping it in the environmental, urban, and agricultural contexts.
翻訳日:2021-03-20 17:23:03 公開日:2021-01-29
# (参考訳) raspberry piを用いた単チャンネル脳波のための外傷性脳損傷検出システム [全文訳有]

A Raspberry Pi-based Traumatic Brain Injury Detection System for Single-Channel Electroencephalogram ( http://arxiv.org/abs/2101.10869v2 )

ライセンス: CC BY 4.0
Navjodh Singh Dhillon, Agustinus Sutandi, Manoj Vishwanath, Miranda M. Lim, Hung Cao, Dong Si(参考訳) 外傷性脳損傷(TBI)は、死と障害の一般的な原因である。 しかし、既存のtbi診断ツールは主観的または広範な臨床設定と専門知識を必要とする。 TBI関連機械学習研究の有望な成果と相まって、比較的高性能なコンピュータシステムの可利用性と小型化により、TBIを早期に検出するためのコンパクトでポータブルなシステムを構築することができる。 本研究は,機械学習を用いてtbiを効率的に識別し,単一チャネル脳波(eeg)信号から睡眠ステージを自動的にスコアリングする,raspberry piベースのポータブル,リアルタイムデータ取得,自動処理システムについて述べる。 本稿では,ADC(Analog to Digital Converter)を用いて脳波信号をデジタル化するシステムの設計,実装,検証について論じ,軽度TBI(mTBI)の存在を検出するためにリアルタイム信号分類を行う。 畳み込みニューラルネットワーク(CNN)とXGBoostに基づく予測モデルを用いて、性能を評価し、複数の種類の予測モデルで動作するシステムの汎用性を実証する。 ピーク分類精度は最大90%以上であり, TBIと制御条件の比較では, 16秒から64秒までの分類時間が1秒未満である。 本研究は,早期tbi検出およびtbi研究のための医療機器を必要とせずに,現場利用に適したシステムの開発を可能にする。 さらに、この研究は、接続されたリアルタイムTBI関連健康・健康モニタリングシステムを実装するための道を開く。

Traumatic Brain Injury (TBI) is a common cause of death and disability. However, existing tools for TBI diagnosis are either subjective or require extensive clinical setup and expertise. The increasing affordability and reduction in size of relatively high-performance computing systems combined with promising results from TBI related machine learning research make it possible to create compact and portable systems for early detection of TBI. This work describes a Raspberry Pi based portable, real-time data acquisition, and automated processing system that uses machine learning to efficiently identify TBI and automatically score sleep stages from a single-channel Electroen-cephalogra m (EEG) signal. We discuss the design, implementation, and verification of the system that can digitize EEG signal using an Analog to Digital Converter (ADC) and perform real-time signal classification to detect the presence of mild TBI (mTBI). We utilize Convolutional Neural Networks (CNN) and XGBoost based predictive models to evaluate the performance and demonstrate the versatility of the system to operate with multiple types of predictive models. We achieve a peak classification accuracy of more than 90% with a classification time of less than 1 s across 16 s - 64 s epochs for TBI vs control conditions. This work can enable development of systems suitable for field use without requiring specialized medical equipment for early TBI detection applications and TBI research. Further, this work opens avenues to implement connected, real-time TBI related health and wellness monitoring systems.
翻訳日:2021-03-20 13:35:19 公開日:2021-01-29
# ドパミン:医療データに関する異なるプライベートフェデレーション学習

Dopamine: Differentially Private Federated Learning on Medical Data ( http://arxiv.org/abs/2101.11693v2 )

ライセンス: Link先を確認
Mohammad Malekzadeh, Burak Hasircioglu, Nitish Mital, Kunal Katarya, Mehmet Emre Ozfatura, Deniz G\"und\"uz(参考訳) 世界中の病院で豊富な医療データセットがホストされているが、患者のプライバシーに対する懸念は、医療診断のために深層ニューラルネットワーク(DNN)をトレーニングするためにそのようなデータを使用することに対する障壁である。 分散データセット上でDNNを訓練するシステムであるDopamineを提案し,DPSGD(Federated Learning)とDPSGD(Federated stochastic gradient descend)を併用し,セキュアなアグリゲーションを組み合わせることで,差分プライバシ(DP)保証とDNNの精度とのトレードオフを他のアプローチよりも向上することができる。 糖尿病網膜症~(DR)タスクの結果は、ドパミンが集中トレーニングのそれに近いDP保証を提供し、DPSGDを調整せずに適用するパラレルDPのFLよりも優れた分類精度を達成することを示しています。 コードはhttps://github.com/i pc-lab/private-ml-fo r-healthで入手できる。

While rich medical datasets are hosted in hospitals distributed across the world, concerns on patients' privacy is a barrier against using such data to train deep neural networks (DNNs) for medical diagnostics. We propose Dopamine, a system to train DNNs on distributed datasets, which employs federated learning (FL) with differentially-priva te stochastic gradient descent (DPSGD), and, in combination with secure aggregation, can establish a better trade-off between differential privacy (DP) guarantee and DNN's accuracy than other approaches. Results on a diabetic retinopathy~(DR) task show that Dopamine provides a DP guarantee close to the centralized training counterpart, while achieving a better classification accuracy than FL with parallel DP where DPSGD is applied without coordination. Code is available at https://github.com/i pc-lab/private-ml-fo r-health.
翻訳日:2021-03-13 19:31:42 公開日:2021-01-29
# (参考訳) ADePT: 自動エンコーダに基づく微分プライベートテキスト変換 [全文訳有]

ADePT: Auto-encoder based Differentially Private Text Transformation ( http://arxiv.org/abs/2102.01502v1 )

ライセンス: CC BY 4.0
Satyapriya Krishna, Rahul Gupta, Christophe Dupuy(参考訳) プライバシーは、個人情報を含むデータに統計モデルを構築する際に重要な関心事です。 差別化プライバシは、プライバシーの強力な定義を提供し、いくつかのプライバシの懸念を解決するために使用できる(Dwork et al., 2014)。 機密情報を含むデータセットの差分プライベート変換には複数のソリューションが提案されている。 しかし、そのような変換アルゴリズムは、プロセスにノイズが加わるため、自然言語処理(NLP)タスクにおいて有用性が低い。 本論文では,オートエンコーダを用いた実用性保全型プライベートテキスト変換アルゴリズムを提供することにより,この問題に対処する。 提案アルゴリズムはテキストを変換して攻撃に対して頑健性を提供し,下流nlpタスクでうまく機能する高い意味品質の変換を生成する。 本アルゴリズムの理論的プライバシ保証を証明し,変換データを用いたモデル上でのメンバシップ推論攻撃(mia (shokri et al., 2017) によるプライバシリークを評価する。 提案手法は,MIA攻撃に対して,既存のベースラインに比べて基礎となる変換プロセスの有用性を低下させることなく,より優れた性能を発揮することを示す。

Privacy is an important concern when building statistical models on data containing personal information. Differential privacy offers a strong definition of privacy and can be used to solve several privacy concerns (Dwork et al., 2014). Multiple solutions have been proposed for the differentially-priva te transformation of datasets containing sensitive information. However, such transformation algorithms offer poor utility in Natural Language Processing (NLP) tasks due to noise added in the process. In this paper, we address this issue by providing a utility-preserving differentially private text transformation algorithm using auto-encoders. Our algorithm transforms text to offer robustness against attacks and produces transformations with high semantic quality that perform well on downstream NLP tasks. We prove the theoretical privacy guarantee of our algorithm and assess its privacy leakage under Membership Inference Attacks(MIA) (Shokri et al., 2017) on models trained with transformed data. Our results show that the proposed model performs better against MIA attacks while offering lower to no degradation in the utility of the underlying transformation process compared to existing baselines.
翻訳日:2021-02-04 06:48:20 公開日:2021-01-29
# Web ベースコーパスから学ぶエンタープライズドメインオントロジー

Enterprise domain ontology learning from web-based corpus ( http://arxiv.org/abs/2102.01498v1 )

ライセンス: Link先を確認
Andrei Vasilateanu, Nicolae Goga, Elena-Alice Tanase, Iuliana Marin(参考訳) 企業知識は競争の激しい企業環境において重要な資産である。 暗黙的で明示的な知識を学び、保存し、配布する能力は、成功と失敗の違いです。 エンタープライズ・ナレッジ・マネジメントは明確に定義された研究分野であるが、現在の実装では中小企業への方向性が欠けている。 本稿では,自動生成ドメインオントロジーに基づく企業内の関連文書のセマンティック検索エンジンを提案する。 本稿では、オントロジー学習と人口の構成要素に焦点を当てる。

Enterprise knowledge is a key asset in the competing and fast-changing corporate landscape. The ability to learn, store and distribute implicit and explicit knowledge can be the difference between success and failure. While enterprise knowledge management is a well-defined research domain, current implementations lack orientation towards small and medium enterprise. We propose a semantic search engine for relevant documents in an enterprise, based on automatic generated domain ontologies. In this paper we focus on the component for ontology learning and population.
翻訳日:2021-02-03 16:52:47 公開日:2021-01-29
# 統計学者がディープラーニングを教える

A Statistician Teaches Deep Learning ( http://arxiv.org/abs/2102.01194v1 )

ライセンス: Link先を確認
G. Jogesh Babu, David Banks, Hyunsoon Cho, David Han, Hailin Sang and Shouyi Wang(参考訳) ディープラーニング(dl)は注目を集め、現代のデータサイエンスでますます人気が高まっている。 コンピュータ科学者はディープラーニング技術の開発を先導し、そのアイデアと視点は統計学者にとって異質に思える。 それでも統計学者が関与することが重要であり、多くの学生がキャリアのためにこの専門知識を必要としています。 本論文では,統計・応用数理科学研究所で開催されたDLプログラムの一環として,この文化格差に対処し,統計大学院生に深層学習を教えるためのヒントを提供する。 若干の背景から,dlと統計的視点の相違点を列挙し,dl大学院の2つのイテレーションの指導から進化した推奨シラバスを提供し,提案課題の例を示し,教材の注釈付きリストを与え,2つの研究領域の文脈でdlを議論する。

Deep learning (DL) has gained much attention and become increasingly popular in modern data science. Computer scientists led the way in developing deep learning techniques, so the ideas and perspectives can seem alien to statisticians. Nonetheless, it is important that statisticians become involved -- many of our students need this expertise for their careers. In this paper, developed as part of a program on DL held at the Statistical and Applied Mathematical Sciences Institute, we address this culture gap and provide tips on how to teach deep learning to statistics graduate students. After some background, we list ways in which DL and statistical perspectives differ, provide a recommended syllabus that evolved from teaching two iterations of a DL graduate course, offer examples of suggested homework assignments, give an annotated list of teaching resources, and discuss DL in the context of two research areas.
翻訳日:2021-02-03 16:19:04 公開日:2021-01-29
# (参考訳) 有害言語検出のための自動デビアス化の課題 [全文訳有]

Challenges in Automated Debiasing for Toxic Language Detection ( http://arxiv.org/abs/2102.00086v1 )

ライセンス: CC BY 4.0
Xuhui Zhou, Maarten Sap, Swabha Swayamdipta, Noah A. Smith, Yejin Choi(参考訳) バイアス協会は、有毒な言語を検出するための分類器の開発において挑戦的であり、公平性と正確性の両方を妨げる。 近年,有毒な言語検出法として,テキスト分類データセットやモデルに対するデバイアス法が提案されている。 私たちの焦点は語彙(例えば、単語、スラリー、アイデンティティ言及)と方言マーカー(特にアフリカ系アメリカ人英語)である。 包括的実験により,現在の毒性検出装置では,既存の手法が偏りを防止できる能力に制限があることが確認された。 次に,概念実証として,方言認識データの自動補正手法を提案する。 合成ラベルの使用にもかかわらず、この方法は毒性との方言の関連を減らします。 以上の結果から,有毒な言語データに基づいてトレーニングされたモデルのデバイアス化は,既存のバイアスを取り除くために単にデータを緩和するほど効果的ではないことがわかった。

Biased associations have been a challenge in the development of classifiers for detecting toxic language, hindering both fairness and accuracy. As potential solutions, we investigate recently introduced debiasing methods for text classification datasets and models, as applied to toxic language detection. Our focus is on lexical (e.g., swear words, slurs, identity mentions) and dialectal markers (specifically African American English). Our comprehensive experiments establish that existing methods are limited in their ability to prevent biased behavior in current toxicity detectors. We then propose an automatic, dialect-aware data correction method, as a proof-of-concept. Despite the use of synthetic labels, this method reduces dialectal associations with toxicity. Overall, our findings show that debiasing a model trained on biased toxic language data is not as effective as simply relabeling the data to remove existing biases.
翻訳日:2021-02-03 06:59:48 公開日:2021-01-29
# (参考訳) ニューロモルフィック事象に基づく視覚センサに対する中性子誘起単一イベント効果:宇宙応用に向けた第一歩 [全文訳有]

Neutron-Induced, Single-Event Effects on Neuromorphic Event-based Vision Sensor: A First Step Towards Space Applications ( http://arxiv.org/abs/2102.00112v1 )

ライセンス: CC BY 4.0
Seth Roffe, Himanshu Akolkar, Alan D. George, Bernab\'e Linares-barranco and Ryad Benosman(参考訳) 本稿では,宇宙飛行用ニューロモーフィック・イベント・ベース・ビジョンカメラの適合性と,中性子放射による性能への影響について検討する。 ニューロモルフィックイベントベースの視覚カメラは、非同期でクロックレスなデータ取得を実装した新しいセンサーであり、ミリ秒以下の時間精度で120dB以上の輝度の変化に関する情報を提供する。 これらのセンサーは、余分な情報を取り除きながら視覚力学の極めてスパースな表現を提供し、低リソース要求に適合するため、宇宙応用に大きな可能性を秘めている。 ロスアラモス中性子科学センターで広スペクトル中性子照射を行い,その効果を分類した。 その結果,放射時のセンサの回復速度が非常に速く,音源マクロパルスに対するノイズ発生バーストの相関が高かった。 入射角度の異なる事象数との間に有意な差は認められなかったが, 異なる角度での騒音イベントの空間構造には有意差が認められた。 その結果、イベントベースのカメラは、信号対雑音比3.355の空間的な放射環境でも機能することがわかった。 また、放射誘起ノイズがイベントレベルの計算に影響を与えないことも示している。 また、当社が実施したノイズモデリングに基づくシミュレーション環境であるイベントベース放射線誘発ノイズシミュレーション環境(Event-RINSE)を導入し、収集したデータから放射誘起ノイズの影響をあらゆるイベントストリームに注入し、開発したコードが放射能環境で動作できるようにします。 我々の知る限りでは、このような中性子誘起ノイズ解析がニューロモルフィック・ビジョン・センサーで行われてきたのはこれが初めてであり、このようなセンサーを宇宙応用に利用することの利点を示す。

This paper studies the suitability of neuromorphic event-based vision cameras for spaceflight, and the effects of neutron radiation on their performance. Neuromorphic event-based vision cameras are novel sensors that implement asynchronous, clockless data acquisition, providing information about the change in illuminance greater than 120dB with sub-millisecond temporal precision. These sensors have huge potential for space applications as they provide an extremely sparse representation of visual dynamics while removing redundant information, thereby conforming to low-resource requirements. An event-based sensor was irradiated under wide-spectrum neutrons at Los Alamos Neutron Science Center and its effects were classified. We found that the sensor had very fast recovery during radiation, showing high correlation of noise event bursts with respect to source macro-pulses. No significant differences were observed between the number of events induced at different angles of incidence but significant differences were found in the spatial structure of noise events at different angles. The results show that event-based cameras are capable of functioning in a space-like, radiative environment with a signal-to-noise ratio of 3.355. They also show that radiation-induced noise does not affect event-level computation. We also introduce the Event-based Radiation-Induced Noise Simulation Environment (Event-RINSE), a simulation environment based on the noise-modelling we conducted and capable of injecting the effects of radiation-induced noise from the collected data to any stream of events in order to ensure that developed code can operate in a radiative environment. To the best of our knowledge, this is the first time such analysis of neutron-induced noise analysis has been performed on a neuromorphic vision sensor, and this study shows the advantage of using such sensors for space applications.
翻訳日:2021-02-03 03:27:43 公開日:2021-01-29
# (参考訳) Internet of Thing アプリケーションのための暗黙のフィードバックに基づくグループ推奨システム [全文訳有]

Implicit Feedback-based Group Recommender System for Internet of Thing Applications ( http://arxiv.org/abs/2102.00835v1 )

ライセンス: CC BY 4.0
Zhiwei Guo, Keping Yu, Tan Guo, Ali Kashif Bashir, Muhammad Imran, Mohsen Guizani(参考訳) モノのインターネット(IoT)ベースのソーシャルメディアアプリケーションの流行により、人々間の距離が大幅に短縮されました。 その結果、iotベースのソーシャルメディアにおけるリコメンダシステムは、個々のユーザではなく、ユーザグループ指向で開発する必要がある。 しかし、既存の手法は暗黙のフィードバックのシナリオを無視し、明示的な嗜好フィードバックに強く依存していた。 そこで本論文では,IoT型ソーシャルメディアにおける確率推論と非協調ゲーム(GREPING)を用いた暗黙的フィードバック型グループレコメンダーシステムを提案する。 特に、未知のプロセス変数はベイズ後方確率推定によって観測可能な暗黙的フィードバックから推定できる。 さらに,非協調ゲームを用いて,グローバルに最適な推薦結果を算出することができる。 GREPINGを効率性と頑健性という2つの側面から評価する実験を2つのグループで行った。 実験の結果, GREPINGの促進と安定性は, ベースライン法に比べ明らかであった。

With the prevalence of Internet of Things (IoT)-based social media applications, the distance among people has been greatly shortened. As a result, recommender systems in IoT-based social media need to be developed oriented to groups of users rather than individual users. However, existing methods were highly dependent on explicit preference feedbacks, ignoring scenarios of implicit feedback. To remedy such gap, this paper proposes an implicit feedback-based group recommender system using probabilistic inference and non-cooperative game(GREPING) for IoT-based social media. Particularly, unknown process variables can be estimated from observable implicit feedbacks via Bayesian posterior probability inference. In addition, the globally optimal recommendation results can be calculated with the aid of non-cooperative game. Two groups of experiments are conducted to assess the GREPING from two aspects: efficiency and robustness. Experimental results show obvious promotion and considerable stability of the GREPING compared to baseline methods.
翻訳日:2021-02-02 23:45:24 公開日:2021-01-29
# (参考訳) CAMBI: コントラスト対応マルチスケールバンド指数 [全文訳有]

CAMBI: Contrast-aware Multiscale Banding Index ( http://arxiv.org/abs/2102.00079v1 )

ライセンス: CC BY 4.0
Pulkit Tandon, Mariana Afonso, Joel Sole, Luk\'a\v{s} Krasula(参考訳) バンディングアーティファクトは、ビデオ中の滑らかな領域の量子化から生じる人工的な輪郭である。 より効率的なコーデックを備えた最近の高品質のビデオシステムの出現にもかかわらず、これらのアーティファクトは、特に大きなディスプレイで目立つままです。 本研究では,符号化パラメータやディザリングに対するバンドング可視性の依存性を理解するため,包括的主観的研究を行った。 その後、人間の視覚系におけるコントラスト感度関数の洞察を利用してバンドの可視性を予測するCAMBI(Contrast-aware Multiscale Banding Index)と呼ばれるシンプルで直感的な非参照バンディングインデックスを開発しました。 cambiは、視覚モチベーションのハイパーパラメータのみを使用しながら、バンディングの主観的知覚とよく相関する。

Banding artifacts are artificially-introdu ced contours arising from the quantization of a smooth region in a video. Despite the advent of recent higher quality video systems with more efficient codecs, these artifacts remain conspicuous, especially on larger displays. In this work, a comprehensive subjective study is performed to understand the dependence of the banding visibility on encoding parameters and dithering. We subsequently develop a simple and intuitive no-reference banding index called CAMBI (Contrast-aware Multiscale Banding Index) which uses insights from Contrast Sensitivity Function in the Human Visual System to predict banding visibility. CAMBI correlates well with subjective perception of banding while using only a few visually-motivated hyperparameters.
翻訳日:2021-02-02 22:02:45 公開日:2021-01-29
# (参考訳) SCAN: 共同マルチエージェントインテント予測のための空間文脈注意ネットワーク [全文訳有]

SCAN: A Spatial Context Attentive Network for Joint Multi-Agent Intent Prediction ( http://arxiv.org/abs/2102.00109v1 )

ライセンス: CC BY 4.0
Jasmine Sekhon, Cody Fleming(参考訳) 人中心環境における自律的エージェントの安全なナビゲーションには、近隣の歩行者の動きを理解し予測する能力が必要である。 しかし、歩行者の意図を予測することは複雑な問題です。 歩行者の動きは複雑な社会航法規範に支配され、近隣の軌道に依存し、自然界では多様である。 本研究では、シーン内のすべての歩行者に対して社会的に許容可能な複数の将来の軌跡を共同で予測できる \textbf{SCAN}, a \textbf{S}patial \textbf{C}ontext \textbf{A}ttentive \textbf{N}etworkを提案する。 SCANは、仮定が少なく、パラメータ効率が高く、最先端の空間アテンションアプローチよりも解釈しやすい方法で、新しい空間アテンション機構を用いて、空間クローズドな隣人の影響を符号化する。 いくつかのデータセットの実験を通して,提案手法は予測意図の精度の観点から,アート軌道予測手法の精度を定量的に向上させることができることを示した。

Safe navigation of autonomous agents in human centric environments requires the ability to understand and predict motion of neighboring pedestrians. However, predicting pedestrian intent is a complex problem. Pedestrian motion is governed by complex social navigation norms, is dependent on neighbors' trajectories, and is multimodal in nature. In this work, we propose \textbf{SCAN}, a \textbf{S}patial \textbf{C}ontext \textbf{A}ttentive \textbf{N}etwork that can jointly predict socially-acceptable multiple future trajectories for all pedestrians in a scene. SCAN encodes the influence of spatially close neighbors using a novel spatial attention mechanism in a manner that relies on fewer assumptions, is parameter efficient, and is more interpretable compared to state-of-the-art spatial attention approaches. Through experiments on several datasets we demonstrate that our approach can also quantitatively outperform state of the art trajectory prediction methods in terms of accuracy of predicted intent.
翻訳日:2021-02-02 21:51:41 公開日:2021-01-29
# (参考訳) ランダムグラフマッチングにおけるシャープリコンストラクションスレッショルドの設定

Settling the Sharp Reconstruction Thresholds of Random Graph Matching ( http://arxiv.org/abs/2102.00082v1 )

ライセンス: CC BY 4.0
Yihong Wu and Jiaming Xu and Sophie H. Yu(参考訳) 本稿では,二つの辺相関ランダムグラフ間の隠れ頂点対応を回復する問題について検討する。 2つのグラフがガウス重み付き完備グラフであるガウスモデルと、2つのグラフが共通の親 Erd\H{o}s-R\'enyi graph $\mathcal{G}(n,p)$ からサブサンプリングされるエルド\H{o}s-R\'enyiモデルに焦点を当てる。 p=n^{-o(1)}$ の高密度グラフに対して、よりシャープなしきい値が存在することを証明し、上述の頂点の消滅分数を除いて全てと正しく一致することができ、下記の任意の正の分数に正しく一致するようなグラフは不可能である、すなわち「オール・オア・ナッシング」相転移と呼ばれる現象である。 さらに驚くべきことに、ガウスの設定では、すべての頂点は高い確率で正確に一致させることができる。 対照的に、sparse erd\h{o}s-r\'enyi graphs with $p=n^{-\theta(1)}$ に対し、all-or-nothing 現象はもはや存在せず、定数因子まで閾値を決定する。 また, erd\h{o}s-r\'enyiグラフの既存の結果をシャープにすることで, 正確な回復のための鋭いしきい値も導出する。 否定的な結果の証明は、切断された第2モーメント計算に基づく相互情報の厳密な特徴付けと、相互情報と再構成誤差の積分を関連付ける「領域定理」に基づいている。 正の結果は、エッジ上の誘発された置換のサイクル構造を考慮に入れた最大可能性推定器の厳しい分析から生じる。

This paper studies the problem of recovering the hidden vertex correspondence between two edge-correlated random graphs. We focus on the Gaussian model where the two graphs are complete graphs with correlated Gaussian weights and the Erd\H{o}s-R\'enyi model where the two graphs are subsampled from a common parent Erd\H{o}s-R\'enyi graph $\mathcal{G}(n,p)$. For dense graphs with $p=n^{-o(1)}$, we prove that there exists a sharp threshold, above which one can correctly match all but a vanishing fraction of vertices and below which correctly matching any positive fraction is impossible, a phenomenon known as the "all-or-nothing" phase transition. Even more strikingly, in the Gaussian setting, above the threshold all vertices can be exactly matched with high probability. In contrast, for sparse Erd\H{o}s-R\'enyi graphs with $p=n^{-\Theta(1)}$, we show that the all-or-nothing phenomenon no longer holds and we determine the thresholds up to a constant factor. Along the way, we also derive the sharp threshold for exact recovery, sharpening the existing results in Erd\H{o}s-R\'enyi graphs. The proof of the negative results builds upon a tight characterization of the mutual information based on the truncated second-moment computation and an "area theorem" that relates the mutual information to the integral of the reconstruction error. The positive results follows from a tight analysis of the maximum likelihood estimator that takes into account the cycle structure of the induced permutation on the edges.
翻訳日:2021-02-02 17:05:52 公開日:2021-01-29
# VX2TEXT:マルチモーダル入力によるビデオテキスト生成のエンドツーエンド学習

VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs ( http://arxiv.org/abs/2101.12059v2 )

ライセンス: Link先を確認
Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani(参考訳) ビデオ+テキスト、音声、音声からなるマルチモーダル入力からテキストを生成するためのフレームワークである \textsc{vx2text} を提案する。 言語モデリングに有効であることが示されているトランスフォーマーネットワークを活用するために、各モダリティはまず学習可能なトークン化器によって言語埋め込みのセットに変換される。 これにより、言語空間におけるマルチモーダル融合が可能となり、アドホックなクロスモーダル融合モジュールの必要性がなくなる。 連続入力(ビデオやオーディオなど)におけるトークン化の非微分性に対処するために、エンドツーエンドのトレーニングを可能にするリラクゼーションスキームを利用する。 さらに,従来のエンコーダのみのモデルとは異なり,言語エンコーダが融合したマルチモーダル埋め込みからオープンなテキストを生成する自動回帰デコーダも網羅している。 これは、我々のアプローチを完全に生成し、タスクごとに特別なネットワークヘッドを設計する必要なしに、異なる「ビデオ+x$ to text」問題に直接適用します。 提案するフレームワークは概念的に単純であるだけでなく,極めて効果的である。単一のアーキテクチャに基づくアプローチは,映像ベースの3つのテキスト生成タスク – キャプション,質問応答,音声視覚シーン認識ダイアログ – において,最先端の作業よりも優れている,という実験結果が得られた。

We present \textsc{Vx2Text}, a framework for text generation from multimodal inputs consisting of video plus text, speech, or audio. In order to leverage transformer networks, which have been shown to be effective at modeling language, each modality is first converted into a set of language embeddings by a learnable tokenizer. This allows our approach to perform multimodal fusion in the language space, thus eliminating the need for ad-hoc cross-modal fusion modules. To address the non-differentiabilit y of tokenization on continuous inputs (e.g., video or audio), we utilize a relaxation scheme that enables end-to-end training. Furthermore, unlike prior encoder-only models, our network includes an autoregressive decoder to generate open-ended text from the multimodal embeddings fused by the language encoder. This renders our approach fully generative and makes it directly applicable to different "video+$x$ to text" problems without the need to design specialized network heads for each task. The proposed framework is not only conceptually simple but also remarkably effective: experiments demonstrate that our approach based on a single architecture outperforms the state-of-the-art on three video-based text-generation tasks -- captioning, question answering and audio-visual scene-aware dialog.
翻訳日:2021-02-02 17:00:23 公開日:2021-01-29
# 植物健康ブレット分類のための微調整BERTモデル

Fine-tuning BERT-based models for Plant Health Bulletin Classification ( http://arxiv.org/abs/2102.00838v1 )

ライセンス: Link先を確認
Shufan Jiang (CRESTIC, ISEP), Rafael Angarita (ISEP), Stephane Cormier (CRESTIC), Francis Rousseaux (CRESTIC)(参考訳) デジタル化の時代には、農業のさまざまなアクターが多数のデータを生成します。 そのようなデータは、既にドメイン内の潜在的な歴史知識を含んでいる。 この知識は、グローバルまたはローカルの側面における自然災害を正確に研究し、リスク防止タスクを改善し、歩留まりを増強し、人口増加と栄養習慣の変化の課題に取り組むのに役立ちます。 特にフランスの植物健康情報報(bsv、フランス語: bulletin de sant{\e} du v{\'e}g{\e}tal)は、農業生産における植物衛生リスクの発達段階に関する情報を提供する。 しかし、それらは自然言語で書かれており、機械や人間はできるだけ効率的に利用することはできない。 自然言語処理(NLP)技術は、大量の自然言語データを自動処理し分析することを目的としている。 2010年代以降、計算能力と並列化の増大に伴い、表現学習と深層学習の手法がNLPで広まっていった。 最近進歩したBidirectional Encoder Representations from Transformers (BERT)は、植物健康管理領域における知識表現と自然言語理解の再考を促します。 この作業の目標は、BSVを自動的に分類してデータのインデックス化を容易にするBERTベースのアプローチを提案することである。 事前訓練されたbert言語モデルに200個のbsvをサンプリングし, 害虫や病原体として分類し, 予備的な結果を得た。

In the era of digitization, different actors in agriculture produce numerous data. Such data contains already latent historical knowledge in the domain. This knowledge enables us to precisely study natural hazards within global or local aspects, and then improve the risk prevention tasks and augment the yield, which helps to tackle the challenge of growing population and changing alimentary habits. In particular, French Plants Health Bulletins (BSV, for its name in French Bulletin de Sant{\'e} du V{\'e}g{\'e}tal) give information about the development stages of phytosanitary risks in agricultural production. However, they are written in natural language, thus, machines and human cannot exploit them as efficiently as it could be. Natural language processing (NLP) technologies aim to automatically process and analyze large amounts of natural language data. Since the 2010s, with the increases in computational power and parallelization, representation learning and deep learning methods became widespread in NLP. Recent advancements Bidirectional Encoder Representations from Transformers (BERT) inspire us to rethink of knowledge representation and natural language understanding in plant health management domain. The goal in this work is to propose a BERT-based approach to automatically classify the BSV to make their data easily indexable. We sampled 200 BSV to finetune the pretrained BERT language models and classify them as pest or/and disease and we show preliminary results.
翻訳日:2021-02-02 16:47:59 公開日:2021-01-29
# AGIシステムにおけるデファクトプランニング

Counterfactual Planning in AGI Systems ( http://arxiv.org/abs/2102.00834v1 )

ライセンス: Link先を確認
Koen Holtman(参考訳) 人工知能を応用した未来AIシステムにおいて、様々な安全メカニズムを創造するための設計手法として、反現実的計画を提示する。 反現実計画の重要なステップは、AGI機械学習システムを使用して、システムが現実世界とは異なるように設計された反現実世界モデルを構築することです。 反実計画エージェントは、この反実計画世界で期待される実用性を最大限に引き出す行動を決定し、実世界で同じ行動を行う。 agiエージェントの緊急停止ボタンと、エージェントが情報爆発を起こす前に自動的に停止する安全インターロックを構築するために、偽の計画を用いています。 また、人間によってエージェントの報酬関数を反復的に改善するために使用できる入力端末を備えたエージェントを構築し、この改善プロセスを操作するエージェントに対するインセンティブを抑える。 非エージェントAGIシステムにおける反実用計画の例として、反実用オラクルを構築する。 設計手法として、数理対物の定義にグラフィカル表記を用いることを中心に、対物計画が構築される。 この2ダイアグラム表記法は、機械学習エージェントの中に通常存在する複雑な自己参照および間接表現のタイプを推論するためのコンパクトで可読な言語を提供する。

We present counterfactual planning as a design approach for creating a range of safety mechanisms that can be applied in hypothetical future AI systems which have Artificial General Intelligence. The key step in counterfactual planning is to use an AGI machine learning system to construct a counterfactual world model, designed to be different from the real world the system is in. A counterfactual planning agent determines the action that best maximizes expected utility in this counterfactual planning world, and then performs the same action in the real world. We use counterfactual planning to construct an AGI agent emergency stop button, and a safety interlock that will automatically stop the agent before it undergoes an intelligence explosion. We also construct an agent with an input terminal that can be used by humans to iteratively improve the agent's reward function, where the incentive for the agent to manipulate this improvement process is suppressed. As an example of counterfactual planning in a non-agent AGI system, we construct a counterfactual oracle. As a design approach, counterfactual planning is built around the use of a graphical notation for defining mathematical counterfactuals. This two-diagram notation also provides a compact and readable language for reasoning about the complex types of self-referencing and indirect representation which are typically present inside machine learning agents.
翻訳日:2021-02-02 16:41:49 公開日:2021-01-29
# 単一の画像から再ターゲットする神経3D服

Neural 3D Clothes Retargeting from a Single Image ( http://arxiv.org/abs/2102.00062v1 )

ライセンス: Link先を確認
Jae Shin Yoon, Kihwan Kim, Jan Kautz, and Hyun Soo Park(参考訳) 本稿では,所定の3d衣料テンプレートモデルの潜在的なポーズと変形を発生させ,一つのrgb画像で個人に適合させる,衣料再ターゲティング手法を提案する。 この問題は、全く同じ姿勢で異なる3d衣料品テンプレートモデルを身に着けている人々のイメージなど、根拠となる真実データを得ることが不可能であることから、基本的には不適切である。 物理シミュレーションから生成された大規模合成データを利用して、2次元密度体ポーズを3次元衣料変形にマッピングします。 シミュレーションデータを用いて,所定の体間接触点や衣服シルエットと整合して3次元変形の物理的妥当性を検証し,ラベルのない実画像に適合する半教師付き学習フレームワークを提案する。 新しいニューラルネットワークリターゲティングネットワーク(CRNet)は、セミスーパーバイザーのリターゲティングタスクをエンドツーエンドで統合するように設計されている。 本評価では,現実的な3次元ポーズと,実際の実例における衣服モデルの再ターゲティングに必要な変形場を予測できることを示す。

In this paper, we present a method of clothes retargeting; generating the potential poses and deformations of a given 3D clothing template model to fit onto a person in a single RGB image. The problem is fundamentally ill-posed as attaining the ground truth data is impossible, i.e., images of people wearing the different 3D clothing template model at exact same pose. We address this challenge by utilizing large-scale synthetic data generated from physical simulation, allowing us to map 2D dense body pose to 3D clothing deformation. With the simulated data, we propose a semi-supervised learning framework that validates the physical plausibility of the 3D deformation by matching with the prescribed body-to-cloth contact points and clothing silhouette to fit onto the unlabeled real images. A new neural clothes retargeting network (CRNet) is designed to integrate the semi-supervised retargeting task in an end-to-end fashion. In our evaluation, we show that our method can predict the realistic 3D pose and deformation field needed for retargeting clothes models in real-world examples.
翻訳日:2021-02-02 16:39:32 公開日:2021-01-29
# 信念機能に基づく脳腫瘍分割のための半教師付き学習

Belief function-based semi-supervised learning for brain tumor segmentation ( http://arxiv.org/abs/2102.00097v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Thierry Denoeux(参考訳) 病変領域の精密分割は治療の最適化に重要である。 ディープラーニングにより、注釈付きデータを使用して病変領域を検出およびセグメント化することができます。 しかし、正確な注釈付きデータを取得することは、医療分野で非常に困難です。 さらに、不確かさと不正確さのラベル付けはセグメンテーション結果の信頼性を損なう。 本稿では,情報融合戦略を持つ新しい明示的ニューラルネットワークによる不確実な境界問題と,半教師付き学習による注釈付きデータの不足に対処する。 実験の結果,提案手法は最先端手法よりも優れた性能を示す。

Precise segmentation of a lesion area is important for optimizing its treatment. Deep learning makes it possible to detect and segment a lesion field using annotated data. However, obtaining precisely annotated data is very challenging in the medical domain. Moreover, labeling uncertainty and imprecision make segmentation results unreliable. In this paper, we address the uncertain boundary problem by a new evidential neural network with an information fusion strategy, and the scarcity of annotated data by semi-supervised learning. Experimental results show that our proposal has better performance than state-of-the-art methods.
翻訳日:2021-02-02 16:38:53 公開日:2021-01-29
# Kernel Ridge Regression Imputation の項目非応答における統計的推論

Statistical Inference after Kernel Ridge Regression Imputation under item nonresponse ( http://arxiv.org/abs/2102.00058v1 )

ライセンス: Link先を確認
Hengfang Wang, Jae-Kwang Kim(参考訳) Imputationは、欠落したデータを扱う一般的なテクニックである。 カーネルリッジ回帰法による非パラメトリックな計算手法を考察し、一貫した分散推定を提案する。 提案する分散推定器は,エントロピー法を用いて密度比を推定する線形化手法に基づいている。 核リッジ回帰インプテーションにおいてソボレフ空間を利用した場合, インプテーション推定器のルートn一貫性が確立され, 提案する分散推定器の開発が可能となる。 本理論を検証するために合成データ実験を行った。

Imputation is a popular technique for handling missing data. We consider a nonparametric approach to imputation using the kernel ridge regression technique and propose consistent variance estimation. The proposed variance estimator is based on a linearization approach which employs the entropy method to estimate the density ratio. The root-n consistency of the imputation estimator is established when a Sobolev space is utilized in the kernel ridge regression imputation, which enables us to develop the proposed variance estimator. Synthetic data experiments are presented to confirm our theory.
翻訳日:2021-02-02 16:12:11 公開日:2021-01-29
# ロボット手術におけるジェスチャ認識

Gesture Recognition in Robotic Surgery: a Review ( http://arxiv.org/abs/2102.00027v1 )

ライセンス: Link先を確認
Beatrice van Amsterdam, Matthew J. Clarkson, Danail Stoyanov(参考訳) 目的: 手術活動認識はコンピュータ支援介入の基本的なステップである。 本稿では,最近のデータ駆動アプローチに着目したロボット手術における細粒度ジェスチャーの自動認識手法の現状と今後の展望について概説する。 方法: ロボット, ロボット支援, JIGSAWS, 外科, 外科, ジェスチャー, きめ細かな, サーム, アクション, 軌跡, セグメンテーション, 認識, パーシングの5つの文献データベースで検索を行った。 選抜された記事は、トレーニングに必要な監督レベルに基づいて分類され、時系列分析とデータモデリングのための主要なフレームワークを表すグループに分けられた。 結果:合計52記事がレビューされました。 研究分野は急速に拡大しており、記事の大半は過去4年間に掲載されている。 識別的特徴抽出とマルチモーダルデータ統合を用いた深層学習に基づく時間モデルにより,小型手術データセットにおいて有望な結果が得られた。 現在、教師なし手法は教師なし手法よりも大幅に性能が低い。 結論: 注釈付きデモンストレーションの大規模かつ多様なオープンソースデータセットの開発は, 外科的ジェスチャー認識のための堅牢なソリューションの開発と検証に不可欠である。 識別的特徴抽出と知識伝達のための新しい戦略、あるいは教師なし、半教師なしのアプローチは、データとラベルの必要性を軽減できるが、同等のパフォーマンスを達成するためにはまだ実証されていない。 今後の重要な研究方向は、ジェスチャー固有のエラーや異常の検出と予測である。 意義:本稿は,この急速に発展する分野の現状を要約した手術用ジェスチャー認識手法の包括的かつ構造化された分析である。

Objective: Surgical activity recognition is a fundamental step in computer-assisted interventions. This paper reviews the state-of-the-art in methods for automatic recognition of fine-grained gestures in robotic surgery focusing on recent data-driven approaches and outlines the open questions and future research directions. Methods: An article search was performed on 5 bibliographic databases with the following search terms: robotic, robot-assisted, JIGSAWS, surgery, surgical, gesture, fine-grained, surgeme, action, trajectory, segmentation, recognition, parsing. Selected articles were classified based on the level of supervision required for training and divided into different groups representing major frameworks for time series analysis and data modelling. Results: A total of 52 articles were reviewed. The research field is showing rapid expansion, with the majority of articles published in the last 4 years. Deep-learning-based temporal models with discriminative feature extraction and multi-modal data integration have demonstrated promising results on small surgical datasets. Currently, unsupervised methods perform significantly less well than the supervised approaches. Conclusion: The development of large and diverse open-source datasets of annotated demonstrations is essential for development and validation of robust solutions for surgical gesture recognition. While new strategies for discriminative feature extraction and knowledge transfer, or unsupervised and semi-supervised approaches, can mitigate the need for data and labels, they have not yet been demonstrated to achieve comparable performance. Important future research directions include detection and forecast of gesture-specific errors and anomalies. Significance: This paper is a comprehensive and structured analysis of surgical gesture recognition methods aiming to summarize the status of this rapidly evolving field.
翻訳日:2021-02-02 15:59:26 公開日:2021-01-29
# 線形化フレームワークと微調整のためのモデル選択のための新しいベンチマーク

A linearized framework and a new benchmark for model selection for fine-tuning ( http://arxiv.org/abs/2102.00084v1 )

ライセンス: Link先を確認
Aditya Deshpande, Alessandro Achille, Avinash Ravichandran, Hao Li, Luca Zancato, Charless Fowlkes, Rahul Bhotika, Stefano Soatto, Pietro Perona(参考訳) さまざまなドメイン("モデル動物園")で事前トレーニングされたモデルの集合の微調整が、低データ環境でのテスト精度を改善する技術として登場している。 ただし、モデル選択、すなわち。 トレーニングをせずにモデル動物園から微調整する適切なモデルを事前に選択する方法は、オープンなトピックのままです。 我々は線形化フレームワークを用いて微調整を近似し、モデル選択のための2つの新しいベースライン -- ラベル勾配とラベル特徴相関 - を導入する。 文献内のすべてのモデル選択アルゴリズムは、異なるユースケースでテストされ、直接比較されることがないので、我々は、モデル選択のための新しい包括的なベンチマークを導入する:i)単一およびマルチドメインモデルのモデル動物園、およびii)多くのターゲットタスク。 今回のベンチマークでは,imagenetモデルの微調整と比較して,model zooの精度向上が強調された。 モデル選択ベースラインは,少数の選択で微調整可能な最適モデルを選択することができ,既存のアルゴリズムと比較した場合の精度に最も高いランク付け相関を示す。

Fine-tuning from a collection of models pre-trained on different domains (a "model zoo") is emerging as a technique to improve test accuracy in the low-data regime. However, model selection, i.e. how to pre-select the right model to fine-tune from a model zoo without performing any training, remains an open topic. We use a linearized framework to approximate fine-tuning, and introduce two new baselines for model selection -- Label-Gradient and Label-Feature Correlation. Since all model selection algorithms in the literature have been tested on different use-cases and never compared directly, we introduce a new comprehensive benchmark for model selection comprising of: i) A model zoo of single and multi-domain models, and ii) Many target tasks. Our benchmark highlights accuracy gain with model zoo compared to fine-tuning Imagenet models. We show our model selection baseline can select optimal models to fine-tune in few selections and has the highest ranking correlation to fine-tuning accuracy compared to existing algorithms.
翻訳日:2021-02-02 15:58:39 公開日:2021-01-29
# 架空画像における合成データと階層オブジェクト検出

Synthetic Data and Hierarchical Object Detection in Overhead Imagery ( http://arxiv.org/abs/2102.00103v1 )

ライセンス: Link先を確認
Nathan Clement, Alan Schoen, Arnold Boedihardjo, and Andrew Jenkins(参考訳) ニューラルネットワークモデルの性能は、ビッグデータの可用性によって制限されることが多い。 本研究では、衛星画像における低・低サンプル学習を向上するための新しい合成データ生成および増強手法を調査・開発する。 合成データ生成手法の拡張に加えて,合成トレーニングサンプルの有用性向上のための階層的検出手法を提案する。 合成画像3Dモデルとニューラルスタイルトランスファーの既存の技術を検討するとともに、3Dモデルをブレンドするために、逆向きに訓練された再スキーネットワークGAN-Reskinnerを導入します。 さらに,自己構築の2段階の階層的検出・分類モデルにおいて,合成データの値をテストする。 合成画像の有効性を検証するために,検出モデルと2段階モデルの訓練を行い,実際の衛星画像上で得られたモデルを評価する。 合成データのすべてのモダリティは、実用的な地理空間分析問題で広くテストされます。 本手法を用いて開発した合成データは、特に実際のトレーニング画像と組み合わせると、検出性能を高めることがよくあります。 我々のGAN-Reskinnerは、データソースが唯一合成されている場合、従来の3Dモデルよりも性能を向上し、すべての場合において階層モデルはベースラインのエンドツーエンド検出アーキテクチャよりも優れています。

The performance of neural network models is often limited by the availability of big data sets. To treat this problem, we survey and develop novel synthetic data generation and augmentation techniques for enhancing low/zero-sample learning in satellite imagery. In addition to extending synthetic data generation approaches, we propose a hierarchical detection approach to improve the utility of synthetic training samples. We consider existing techniques for producing synthetic imagery--3D models and neural style transfer--as well as introducing our own adversarially trained reskinning network, the GAN-Reskinner, to blend 3D models. Additionally, we test the value of synthetic data in a two-stage, hierarchical detection/classifica tion model of our own construction. To test the effectiveness of synthetic imagery, we employ it in the training of detection models and our two stage model, and evaluate the resulting models on real satellite images. All modalities of synthetic data are tested extensively on practical, geospatial analysis problems. Our experiments show that synthetic data developed using our approach can often enhance detection performance, particularly when combined with some real training images. When the only source of data is synthetic, our GAN-Reskinner often boosts performance over conventionally rendered 3D models and in all cases the hierarchical model outperforms the baseline end-to-end detection architecture.
翻訳日:2021-02-02 15:58:01 公開日:2021-01-29
# ログ損失と誤種別によるシーケンス予測

Sequential prediction under log-loss and misspecification ( http://arxiv.org/abs/2102.00050v1 )

ライセンス: Link先を確認
Meir Feder and Yury Polyanskiy(参考訳) 累積的後悔の観点から,ログロスの下での逐次予測の問題を考える。 すなわち、分布の仮説クラスが与えられた場合、学習者は次の文字を順番に予測(分布)し、その性能は仮説クラスから最高の定数予測器のベースラインと比較される。 よく特定されたケースは、データ生成分布が仮説クラスに属するという追加の仮定に対応する。 ここでは、より一般的な不特定ケースの結果を紹介します。 ログロスの特別な性質のため、密度推定とモデル選択における競合最適性の文脈でも同じ問題が生じる。 d$-次元ガウス位置仮説クラスでは、よく特定され誤認された症例における累積後悔が無症状に一致することを示した。 言い換えると、私たちは、このケースにおける配布不要(またはpac)の後悔の特徴として$o(1)$を提供しています。 この場合の最悪のケース(または個々のシーケンス)の後悔は、加法定数 ${d\over 2} + o(1)$ によって大きいことを思い出す。 驚くべきことに、伝統的なベイズ人の推定値もシュタルコフの正規化された最大確率もpacの後悔を達成できず、我々の推定値には重み付きデータに対する特別な「ロバスト化」が必要となる。 さらに, 最適推定器の存在と特異性, および(漸近的に)近縁な仮説を持つ不明瞭な後悔の間に, 不特定な後悔を挟み込むことの2つの一般的な結果を示す。

We consider the question of sequential prediction under the log-loss in terms of cumulative regret. Namely, given a hypothesis class of distributions, learner sequentially predicts the (distribution of the) next letter in sequence and its performance is compared to the baseline of the best constant predictor from the hypothesis class. The well-specified case corresponds to an additional assumption that the data-generating distribution belongs to the hypothesis class as well. Here we present results in the more general misspecified case. Due to special properties of the log-loss, the same problem arises in the context of competitive-optimali ty in density estimation, and model selection. For the $d$-dimensional Gaussian location hypothesis class, we show that cumulative regrets in the well-specified and misspecified cases asymptotically coincide. In other words, we provide an $o(1)$ characterization of the distribution-free (or PAC) regret in this case -- the first such result as far as we know. We recall that the worst-case (or individual-sequence) regret in this case is larger by an additive constant ${d\over 2} + o(1)$. Surprisingly, neither the traditional Bayesian estimators, nor the Shtarkov's normalized maximum likelihood achieve the PAC regret and our estimator requires special "robustification" ; against heavy-tailed data. In addition, we show two general results for misspecified regret: the existence and uniqueness of the optimal estimator, and the bound sandwiching the misspecified regret between well-specified regrets with (asymptotically) close hypotheses classes.
翻訳日:2021-02-02 15:45:45 公開日:2021-01-29
# 単一時系列の適応シーケンス設計

Adaptive Sequential Design for a Single Time-Series ( http://arxiv.org/abs/2102.00102v1 )

ライセンス: Link先を確認
Ivana Malenica, Aurelien Bibaut and Mark J. van der Laan(参考訳) 現在の研究は、精密医療のための堅牢な統計手法の必要性によって動機付けられており、任意の時点において単一の単位に対して実行可能な推論を提供する統計手法の必要性に対処する。 提案手法は,設計の制御されたコンポーネントの最適かつ未知な選択を学習して,期待する結果を最適化することを目的として,時間とともに収集したデータに基づいて,将来の時刻実験にランダム化機構を適用する。 その結果,一つのサンプルに基づいて最適規則を学習でき,平均目標パラメータの正当な推論により任意の点tにおける設計を調整できることがわかった。 この研究は統計精度医学の分野にいくつかの貢献をしている。 まず、単一の単位時系列データに対する現在のコンテキストによって定義される条件付き因果パラメータの平均の一般クラスを定義する。 本研究は,少数の仮定の下で時系列の確率分布の非パラメトリックモデルを定義し,提案対象パラメータの効率的な影響曲線の二重ロバスト構造を用いて,推定手順における逐次ランダム化を十分に活用することを目的とする。 治療を割り当てるための複数の探索探索戦略、および最適なルールを推定する方法を提示する。 最後に、対象パラメータが個々の観察されたコンテキストに応じて時間とともに適応する最適な治療規則の下で、平均に関するデータ適応推論の研究について述べる。 我々の対象パラメータは2倍の堅牢性を持つ効率的な影響関数でパスワイズに微分可能であり、従来提案されていた変動よりも容易に推定できる。 我々は,マルティンゲール設定に適応したブラケットエントロピーの概念で表現されたドンスカー条件下での推定値の極限分布を特徴付ける。

The current work is motivated by the need for robust statistical methods for precision medicine; as such, we address the need for statistical methods that provide actionable inference for a single unit at any point in time. We aim to learn an optimal, unknown choice of the controlled components of the design in order to optimize the expected outcome; with that, we adapt the randomization mechanism for future time-point experiments based on the data collected on the individual over time. Our results demonstrate that one can learn the optimal rule based on a single sample, and thereby adjust the design at any point t with valid inference for the mean target parameter. This work provides several contributions to the field of statistical precision medicine. First, we define a general class of averages of conditional causal parameters defined by the current context for the single unit time-series data. We define a nonparametric model for the probability distribution of the time-series under few assumptions, and aim to fully utilize the sequential randomization in the estimation procedure via the double robust structure of the efficient influence curve of the proposed target parameter. We present multiple exploration-exploita tion strategies for assigning treatment, and methods for estimating the optimal rule. Lastly, we present the study of the data-adaptive inference on the mean under the optimal treatment rule, where the target parameter adapts over time in response to the observed context of the individual. Our target parameter is pathwise differentiable with an efficient influence function that is doubly robust - which makes it easier to estimate than previously proposed variations. We characterize the limit distribution of our estimator under a Donsker condition expressed in terms of a notion of bracketing entropy adapted to martingale settings.
翻訳日:2021-02-02 15:45:01 公開日:2021-01-29
# (参考訳) NTU60-X:Skeleton-bas ed Recognition of Subtle Human Actions [全文訳有]

NTU60-X: Towards Skeleton-based Recognition of Subtle Human Actions ( http://arxiv.org/abs/2101.11529v2 )

ライセンス: CC BY 4.0
Anirudh Thatipelli, Neel Trivedi, Ravi Kiran Sarvadevabhatla(参考訳) 手指のようなきめ細かい関節の欠如は、最大のアクション認識データセットであるNTU-RGBDでトレーニングされたアートスケルトンアクション認識モデルの状態の基本的なパフォーマンスボトルネックである。 このボトルネックに対処するために、新しいスケルトンベースのヒューマンアクションデータセット、NTU60-Xを導入する。 NTU-RGBDのように各骨格の25個の体関節に加えて、NTU60-Xデータセットは指と顔の関節を含んでおり、より豊かな骨格表現を可能にします。 導入したデータセットを使用したトレーニングを可能にするために,アートアプローチの状態を適切に修正する。 以上の結果から,NTU60-Xは,上記のボトルネックを克服し,総合的かつ最悪の行動カテゴリーにおける芸術的パフォーマンスの向上に有効であることが示唆された。

The lack of fine-grained joints such as hand fingers is a fundamental performance bottleneck for state of the art skeleton action recognition models trained on the largest action recognition dataset, NTU-RGBD. To address this bottleneck, we introduce a new skeleton based human action dataset - NTU60-X. In addition to the 25 body joints for each skeleton as in NTU-RGBD, NTU60-X dataset includes finger and facial joints, enabling a richer skeleton representation. We appropriately modify the state of the art approaches to enable training using the introduced dataset. Our results demonstrate the effectiveness of NTU60-X in overcoming the aforementioned bottleneck and improve state of the art performance, overall and on hitherto worst performing action categories.
翻訳日:2021-02-01 20:12:17 公開日:2021-01-29
# 係り受け解析における構文核 ---多言語探索

Syntactic Nuclei in Dependency Parsing -- A Multilingual Exploration ( http://arxiv.org/abs/2101.11959v2 )

ライセンス: Link先を確認
Ali Basirat and Joakim Nivre(参考訳) 構文的依存解析の標準モデルは、依存関係に入る基本単位として単語を取る。 本論文では,Tesni\`{e}reによって提案された核のより抽象的な概念を用いて,これらのモデルを強化することのメリットについて検討する。 我々は、核の概念をUniversal Dependenciesのフレームワークで定義する方法と、コンポジション関数を使って遷移ベースの依存性パーサにこの概念を認識させる方法を示す。 12言語の実験では、核組成が解析精度の小さいが有意な改善をもたらすことが示されている。 さらなる分析により、改良は主に、名目修飾子、調整の関係、主述語、直接対象を含む少数の依存関係に関係していることが明らかとなった。

Standard models for syntactic dependency parsing take words to be the elementary units that enter into dependency relations. In this paper, we investigate whether there are any benefits from enriching these models with the more abstract notion of nucleus proposed by Tesni\`{e}re. We do this by showing how the concept of nucleus can be defined in the framework of Universal Dependencies and how we can use composition functions to make a transition-based dependency parser aware of this concept. Experiments on 12 languages show that nucleus composition gives small but significant improvements in parsing accuracy. Further analysis reveals that the improvement mainly concerns a small number of dependency relations, including nominal modifiers, relations of coordination, main predicates, and direct objects.
翻訳日:2021-02-01 19:38:43 公開日:2021-01-29
# 自動車の道徳的・社会的影響

Moral and Social Ramifications of Autonomous Vehicles ( http://arxiv.org/abs/2101.11775v2 )

ライセンス: Link先を確認
Veljko Dubljevi\'c (1), Sean Douglas (1), Jovan Milojevich (2), Nirav Ajmeri (3), William A. Bauer (1), George F. List (1) and Munindar P. Singh (1) ((1) North Carolina State University, (2) Oklahoma State University, (3) University of Bristol)(参考訳) 自動運転車(AV)は、特に説明責任、尊厳、正義に関する重要な社会的および倫理的な懸念を提起します。 私たちは、AV技術がプロフェッショナルおよびセミプロフェッショナルドライバーの生活と生活にどのように影響を与えるかから生じる特定の懸念に焦点を当てています。 そのような懸念の以前の研究は専門家の意見に焦点を当てていますが、私たちはこれらの倫理的および社会的課題をドライバー自身の視点から理解するよう努めています。 そこで我々は,半構造化インタビューに基づく質的研究手法を採用した。 これは、調査などの表面的な方法のバイアスを回避することによって、ステークホルダーのコア懸念を深く理解するのに役立つ確立された社会科学方法論です。 運転者は、avが交通システムに大きな影響を与えるという専門家の意見に同意する一方で、生活の見通しを理解し、運転職が不十分で職業が保護に値するものではないという提案を否定する。 ドライバーが専門家とどう違うかを示すことで、私たちの研究はavとaiや他の先進技術との差を広げています。 以上の結果から,新たな技術が倫理的に導入されるためには,ステークホルダーの質的研究が不可欠であることが示唆された。

Autonomous Vehicles (AVs) raise important social and ethical concerns, especially about accountability, dignity, and justice. We focus on the specific concerns arising from how AV technology will affect the lives and livelihoods of professional and semi-professional drivers. Whereas previous studies of such concerns have focused on the opinions of experts, we seek to understand these ethical and societal challenges from the perspectives of the drivers themselves. To this end, we adopted a qualitative research methodology based on semi-structured interviews. This is an established social science methodology that helps understand the core concerns of stakeholders in depth by avoiding the biases of superficial methods such as surveys. We find that whereas drivers agree with the experts that AVs will significantly impact transportation systems, they are apprehensive about the prospects for their livelihoods and dismiss the suggestions that driving jobs are unsatisfying and their profession does not merit protection. By showing how drivers differ from the experts, our study has ramifications beyond AVs to AI and other advanced technologies. Our findings suggest that qualitative research applied to the relevant, especially disempowered, stakeholders is essential to ensuring that new technologies are introduced ethically.
翻訳日:2021-02-01 19:25:44 公開日:2021-01-29
# 新規ポテンシャル3CL$^{\text{pro}}$とPL$^{\text{pro}}$阻害剤の自動設計

Automatic design of novel potential 3CL$^{\text{pro}}$ and PL$^{\text{pro}}$ inhibitors ( http://arxiv.org/abs/2101.11890v2 )

ライセンス: Link先を確認
Timothy Atkinson, Saeed Saremi, Faustino Gomez, Jonathan Masci(参考訳) SARS-CoV-1およびSARS-CoV-2の新規阻害剤の設計を目的として、特定の望ましい特性を有する分子を同定するプロパティ予測器、既知のトレーニング分子と与えられた分子の統計的類似性を近似するエネルギーモデル、および分子探索方法の3つの構成要素からなる一般分子最適化フレームワークである分子ニューラルアッセイサーチ(MONAS)を提案する。 この研究では、これらのコンポーネントは、それぞれ、グラフニューラルネットワーク(GNNs)、Deep Energy Estimator Networks(DEEN)、およびモンテカルロツリーサーチ(MCTS)でインスタンス化される。 この実装は、GNNがSARS-CoV-1阻害剤であると判断した120万分子(40万分子のうち)を同定するために使用され、同時に、GNNの訓練に用いられるデータセットに統計的に近接している。

With the goal of designing novel inhibitors for SARS-CoV-1 and SARS-CoV-2, we propose the general molecule optimization framework, Molecular Neural Assay Search (MONAS), consisting of three components: a property predictor which identifies molecules with specific desirable properties, an energy model which approximates the statistical similarity of a given molecule to known training molecules, and a molecule search method. In this work, these components are instantiated with graph neural networks (GNNs), Deep Energy Estimator Networks (DEEN) and Monte Carlo tree search (MCTS), respectively. This implementation is used to identify 120K molecules (out of 40-million explored) which the GNN determined to be likely SARS-CoV-1 inhibitors, and, at the same time, are statistically close to the dataset used to train the GNN.
翻訳日:2021-02-01 19:20:03 公開日:2021-01-29
# 生成型adversarial networkの隠れたタスク:ganトレーニングにおける代替的視点

The Hidden Tasks of Generative Adversarial Networks: An Alternative Perspective on GAN Training ( http://arxiv.org/abs/2101.11863v2 )

ライセンス: Link先を確認
Romann M. Weber(参考訳) 本稿では、GAN(Generative Adversarial Network)のトレーニングについて、GANジェネレータのトレーニングステップが2つの暗黙のサブプロブレムに分解されることを示す。 第一に、判別器は、およそ逆分類器ラベルによって生成される「逆例」の形で、ジェネレータに新しいターゲットデータを提供する。 第二に、これらの例は、ネットワークのトレーニングに指定された主な損失に関係なく、最小二乗回帰によってジェネレータを更新するターゲットとして使用される。 主たる理論的結果を実験的に検証し、これらのサブ問題を明確にすることで可能な代替トレーニング方法の意味を議論する。 また、ネットワーク内の誘導バイアスの単純な表現も紹介し、その回帰目標に対する発電機の出力を記述することに適用します。

We present an alternative perspective on the training of generative adversarial networks (GANs), showing that the training step for a GAN generator decomposes into two implicit sub-problems. In the first, the discriminator provides new target data to the generator in the form of "inverse examples" produced by approximately inverting classifier labels. In the second, these examples are used as targets to update the generator via least-squares regression, regardless of the main loss specified to train the network. We experimentally validate our main theoretical result and discuss implications for alternative training methods that are made possible by making these sub-problems explicit. We also introduce a simple representation of inductive bias in networks, which we apply to describing the generator's output relative to its regression targets.
翻訳日:2021-02-01 19:14:31 公開日:2021-01-29
# (参考訳) 層ピールモデル:よく訓練されたディープニューラルネットワークの理解に向けて

Layer-Peeled Model: Toward Understanding Well-Trained Deep Neural Networks ( http://arxiv.org/abs/2101.12699v1 )

ライセンス: CC BY 4.0
Cong Fang, Hangfeng He, Qi Long, Weijie J Su(参考訳) 本稿では,十分に長く訓練された深層ニューラルネットワークの理解を深めるため,非凸だが解析的に扱いやすい最適化プログラムであるlayer-peeled modelを提案する。 名前が示すように、この新しいモデルはニューラルネットワークの残りの部分から最上位層を分離し、続いて2つの部分に対して一定の制約を課すことで導出される。 本研究では,ニューラルネットワークの多くの特徴を継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。 まず、クラスバランスデータセットに取り組む際に、このモデルに対する任意の解が単純な等角的強弱フレームを形成することを証明し、このことは、ディープラーニングトレーニング(PHD20)において最近発見された神経崩壊の現象を部分的に説明する。 さらに,不均衡事例に移行する際に,層ピールモデルの解析により,マイノリティ崩壊と呼ぶ未知現象が明らかになり,マイノリティクラスにおけるディープラーニングモデルの性能が基本的に制限される。 さらに、レイヤーピールモデルを使用して、マイノリティ崩壊の軽減方法に関する洞察を得ます。 興味深いことに、この現象は最初に層ピールモデルによって予測され、計算実験によって確認される。

In this paper, we introduce the Layer-Peeled Model, a nonconvex yet analytically tractable optimization program, in a quest to better understand deep neural networks that are trained for a sufficiently long time. As the name suggests, this new model is derived by isolating the topmost layer from the remainder of the neural network, followed by imposing certain constraints separately on the two parts. We demonstrate that the Layer-Peeled Model, albeit simple, inherits many characteristics of well-trained neural networks, thereby offering an effective tool for explaining and predicting common empirical patterns of deep learning training. First, when working on class-balanced datasets, we prove that any solution to this model forms a simplex equiangular tight frame, which in part explains the recently discovered phenomenon of neural collapse in deep learning training [PHD20]. Moreover, when moving to the imbalanced case, our analysis of the Layer-Peeled Model reveals a hitherto unknown phenomenon that we term Minority Collapse, which fundamentally limits the performance of deep learning models on the minority classes. In addition, we use the Layer-Peeled Model to gain insights into how to mitigate Minority Collapse. Interestingly, this phenomenon is first predicted by the Layer-Peeled Model before its confirmation by our computational experiments.
翻訳日:2021-02-01 16:57:07 公開日:2021-01-29
# (参考訳) メタラーニングによる文法誤り訂正のためのFew-Shot Domain Adaptation [全文訳有]

Few-Shot Domain Adaptation for Grammatical Error Correction via Meta-Learning ( http://arxiv.org/abs/2101.12409v1 )

ライセンス: CC BY 4.0
Shengsheng Zhang, Yaping Huang, Yun Chen, Liner Yang, Chencheng Wang, Erhong Yang(参考訳) シーケンス・トゥ・シークエンスに基づく既存のGEC(Grammatical Error Correction)メソッドの多くは、より優れたパフォーマンスを得るためにより多くの擬似データを生成する方法に焦点を当てている。 少数のGECドメイン適応に対処する作業はほとんどない。 本稿では、異なるGECドメインを異なるGECタスクとして扱い、疑似データを使用せずに、メタラーニングを少数のGECドメイン適応に拡張することを提案する。 データ豊富なソースドメインのセットを利用してモデルパラメータの初期化を学び、新しいリソース-poorターゲットドメインへの迅速な適応を促進する。 GECモデルを第2言語学習者の第1言語(L1)に適用する。 提案手法を評価するために,9つのL1をソースドメイン,5つのL1をターゲットドメインとする。 L1 GEC領域適応データセットの実験結果から,提案手法は平均0.50ドルF_{0.5}$スコアのマルチタスク変換学習ベースラインよりも優れており,200のパラレル文しか持たない新しいL1ドメインに効果的に適応できることを示した。

Most existing Grammatical Error Correction (GEC) methods based on sequence-to-sequence mainly focus on how to generate more pseudo data to obtain better performance. Few work addresses few-shot GEC domain adaptation. In this paper, we treat different GEC domains as different GEC tasks and propose to extend meta-learning to few-shot GEC domain adaptation without using any pseudo data. We exploit a set of data-rich source domains to learn the initialization of model parameters that facilitates fast adaptation on new resource-poor target domains. We adapt GEC model to the first language (L1) of the second language learner. To evaluate the proposed method, we use nine L1s as source domains and five L1s as target domains. Experiment results on the L1 GEC domain adaptation dataset demonstrate that the proposed approach outperforms the multi-task transfer learning baseline by 0.50 $F_{0.5}$ score on average and enables us to effectively adapt to a new L1 domain with only 200 parallel sentences.
翻訳日:2021-02-01 16:55:44 公開日:2021-01-29
# (参考訳) ニューラルマシン翻訳のための単言語データ合成 [全文訳有]

Synthesizing Monolingual Data for Neural Machine Translation ( http://arxiv.org/abs/2101.12462v1 )

ライセンス: CC BY 4.0
Benjamin Marie, Atsushi Fujita(参考訳) ニューラルマシン翻訳(NMT)では、ターゲット言語のモノリンガルデータは、通常「バックトランスレーション」と呼ばれる方法で、追加の訓練並列データを合成する。 合成データはより優れたNMT、特に低リソース言語ペアとドメインのトレーニングに役立つことが示されている。 それでも、ターゲットドメインや言語における大きなモノリンガルデータは、必ずしも大きな合成並列データを生成するために利用できない。 本研究では,特定の領域において,非常に小さな単言語データを利用する大規模合成並列データを生成する新しい手法を提案する。 予め訓練されたGPT-2モデルをこのような小さなドメイン内モノリンガルデータに微調整し、その結果モデルを使用して大量の合成インドメインモノリンガルデータを生成します。 次に、バックトランスレーションまたはフォワードトランスレーションを行い、合成インドメイン並列データを生成します。 3つの言語ペアと5つのドメインに関する予備実験を行い,全構成のnmtを改善するために,完全合成だが有用なドメイン内並列データを生成する手法の有効性を示した。 また,パーソナライズされたnmtに対して極端に適応する有望な結果を示す。

In neural machine translation (NMT), monolingual data in the target language are usually exploited through a method so-called "back-translation&quo t; to synthesize additional training parallel data. The synthetic data have been shown helpful to train better NMT, especially for low-resource language pairs and domains. Nonetheless, large monolingual data in the target domains or languages are not always available to generate large synthetic parallel data. In this work, we propose a new method to generate large synthetic parallel data leveraging very small monolingual data in a specific domain. We fine-tune a pre-trained GPT-2 model on such small in-domain monolingual data and use the resulting model to generate a large amount of synthetic in-domain monolingual data. Then, we perform back-translation, or forward translation, to generate synthetic in-domain parallel data. Our preliminary experiments on three language pairs and five domains show the effectiveness of our method to generate fully synthetic but useful in-domain parallel data for improving NMT in all configurations. We also show promising results in extreme adaptation for personalized NMT.
翻訳日:2021-02-01 16:47:48 公開日:2021-01-29
# (参考訳) CD2CR:ドキュメントとドメインの相互参照解決 [全文訳有]

CD2CR: Co-reference Resolution Across Documents and Domains ( http://arxiv.org/abs/2101.12637v1 )

ライセンス: CC BY 4.0
James Ravenscroft and Arie Cattan and Amanda Clare and Ido Dagan and Maria Liakata(参考訳) cross-document co-reference resolution (cdcr) は、多くのテキスト文書にまたがるエンティティや概念への言及を識別しリンクするタスクである。 このタスクの現在の最先端モデルは、すべてのドキュメントが同じタイプ(例えば、)であると仮定する。 ニュース記事)または同じテーマに該当する。 しかし、異なるドメイン(タイプまたはテーマ)でCDCRを実行することも望ましい。 この論文で特に注目するユースケースは、科学的な仕事とそれらの議論する新聞記事にまたがるエンティティの解決である。 科学記事とニュースの両方で同じ実体と対応する概念を識別することは、科学者が彼らの仕事がどのように主流メディアで表現されるかを理解するのに役立ちます。 クロスドキュメントのクロスドメインコリファレンス解決(CD$^2$CR)のための新しいタスクと英語データセットを提案する。 このタスクは異種ドキュメントタイプ間のエンティティ間のリンクを識別することを目的としている。 このクロスドメインなクロスドキュメント設定では、既存のCDCRモデルはうまく動作せず、CD$2$CR上の現在の最先端CDCRモデルより優れたベースラインモデルを提供する。 当社のデータセット、アノテーションツール、ガイドライン、およびクロスドキュメントのクロスドメインコリファレンスモデルはすべて、オープンソースリソースとして提供されています。

Cross-document co-reference resolution (CDCR) is the task of identifying and linking mentions to entities and concepts across many text documents. Current state-of-the-art models for this task assume that all documents are of the same type (e.g. news articles) or fall under the same theme. However, it is also desirable to perform CDCR across different domains (type or theme). A particular use case we focus on in this paper is the resolution of entities mentioned across scientific work and newspaper articles that discuss them. Identifying the same entities and corresponding concepts in both scientific articles and news can help scientists understand how their work is represented in mainstream media. We propose a new task and English language dataset for cross-document cross-domain co-reference resolution (CD$^2$CR). The task aims to identify links between entities across heterogeneous document types. We show that in this cross-domain, cross-document setting, existing CDCR models do not perform well and we provide a baseline model that outperforms current state-of-the-art CDCR models on CD$^2$CR. Our data set, annotation tool and guidelines as well as our model for cross-document cross-domain co-reference are all supplied as open access open source resources.
翻訳日:2021-02-01 16:38:02 公開日:2021-01-29
# (参考訳) 最適化 $\alpha\mu$ [全文訳有]

Optimizing $\alpha\mu$ ( http://arxiv.org/abs/2101.12639v1 )

ライセンス: CC BY 4.0
Tristan Cazenave and Swann Legras and V\'eronique Ventos(参考訳) $\alpha\mu$は、Perfect Information Monte Carlo Searchのデフォルトである戦略融合と非局所性の2つを修復する検索アルゴリズムである。 本稿では,ブリッジゲームに$\alpha\mu$を最適化し,無駄な計算を回避した。 提案した最適化は汎用的で、他の不完全な情報ターンベースゲームに適用できる。 パレートフロントを含む複数の最適化を定義し、これらの最適化が検索を高速化することを示す。 これらの最適化のいくつかは、ノードの検索を停止するカットであり、他の最適化は、不要でコストのかかる評価を避けるために、可能世界の冗長化を追跡する。 また、$\alpha\mu$ search treeの葉の二重ダミー検索の並列化の利点も測定する。

$\alpha\mu$ is a search algorithm which repairs two defaults of Perfect Information Monte Carlo search: strategy fusion and non locality. In this paper we optimize $\alpha\mu$ for the game of Bridge, avoiding useless computations. The proposed optimizations are general and apply to other imperfect information turn-based games. We define multiple optimizations involving Pareto fronts, and show that these optimizations speed up the search. Some of these optimizations are cuts that stop the search at a node, while others keep track of which possible worlds have become redundant, avoiding unnecessary, costly evaluations. We also measure the benefits of parallelizing the double dummy searches at the leaves of the $\alpha\mu$ search tree.
翻訳日:2021-02-01 16:24:26 公開日:2021-01-29
# (参考訳) NeMo: ロバスト3次元ポース推定のためのコントラスト特徴のニューラルネットワークモデル [全文訳有]

NeMo: Neural Mesh Models of Contrastive Features for Robust 3D Pose Estimation ( http://arxiv.org/abs/2101.12378v1 )

ライセンス: CC BY 4.0
Angtian Wang, Adam Kortylewski, Alan Yuille(参考訳) 3Dポーズ推定はコンピュータビジョンにおいて難しいが重要な課題である。 本研究では,3Dポーズ推定における標準的深層学習手法が,対象物が部分的に遮蔽されたり,以前見つからなかったポーズから見たりした場合,堅牢ではないことを示した。 生成的視覚モデルから部分閉塞へのロバスト性に着想を得て,物体の3次元生成表現とディープニューラルネットワークを,NeMoと呼ぶ統一ニューラルネットワークアーキテクチャに統合することを提案する。 特にnemoは、密集した3dメッシュ上の各頂点における神経特徴活性化の生成モデルを学ぶ。 微分可能レンダリングを用いて、NeMoとターゲット画像の特徴表現との再構成誤差を最小化することにより、3Dオブジェクトのポーズを推定する。 レコンストラクション損失の局所視認を避けるために,特徴抽出器を訓練し,メッシュ上の個々の特徴表現間の距離をコントラスト学習を用いて最大化する。 PASCAL3D+、Occluded-PASCAL3D+およびObjectNet3Dに関する広範な実験により、NeMoは通常のディープネットワークに比べて、部分閉塞に対してより堅牢であり、かつ、通常のデータ上での競合性能を維持しながら、目に見えないポーズを示す。 興味深いことに、私たちの実験では、メッシュ表現が真の物体ジオメトリを立方体で粗大に近似するだけであっても、NeMoが合理的にうまく機能することを示しており、正確な3Dポーズ推定には詳細な3Dジオメトリは必要ありません。 コードはhttps://github.com/A ngtian/NeMoで公開されている。

3D pose estimation is a challenging but important task in computer vision. In this work, we show that standard deep learning approaches to 3D pose estimation are not robust when objects are partially occluded or viewed from a previously unseen pose. Inspired by the robustness of generative vision models to partial occlusion, we propose to integrate deep neural networks with 3D generative representations of objects into a unified neural architecture that we term NeMo. In particular, NeMo learns a generative model of neural feature activations at each vertex on a dense 3D mesh. Using differentiable rendering we estimate the 3D object pose by minimizing the reconstruction error between NeMo and the feature representation of the target image. To avoid local optima in the reconstruction loss, we train the feature extractor to maximize the distance between the individual feature representations on the mesh using contrastive learning. Our extensive experiments on PASCAL3D+, occluded-PASCAL3D+ and ObjectNet3D show that NeMo is much more robust to partial occlusion and unseen pose compared to standard deep networks, while retaining competitive performance on regular data. Interestingly, our experiments also show that NeMo performs reasonably well even when the mesh representation only crudely approximates the true object geometry with a cuboid, hence revealing that the detailed 3D geometry is not needed for accurate 3D pose estimation. The code is publicly available at https://github.com/A ngtian/NeMo.
翻訳日:2021-02-01 16:14:10 公開日:2021-01-29
# (参考訳) 異常検出のための学習記憶誘導正規性 [全文訳有]

Re Learning Memory Guided Normality for Anomaly Detection ( http://arxiv.org/abs/2101.12382v1 )

ライセンス: CC BY 4.0
Kevin Stephen, Varun Menon(参考訳) 著者らは,新たに導入されたメモリモジュールを論文で活用する,教師なし異常検出の新しい手法を導入した。 筆者らは,ネットワークが先駆的なパターンを学習し,学習メモリを用いて畳み込みニューラルネットワークの表現能力を低減することで,パフォーマンスの向上に寄与すると主張する。 さらに,著者らが導入した2つの損失,分離性損失とコンパクト性損失の有効性を検証し,記憶項目の識別能力と深層学習機能の向上を図った。 記憶項目のt-SNEプロットの助けを借りて有効性を検証する。

The authors have introduced a novel method for unsupervised anomaly detection that utilises a newly introduced Memory Module in their paper. We validate the authors claim that this helps improve performance by helping the network learn prototypical patterns, and uses the learnt memory to reduce the representation capacity of Convolutional Neural Networks. Further, we validate the efficacy of two losses introduced by the authors, Separateness Loss and Compactness Loss presented to increase the discriminative power of the memory items and the deeply learned features. We test the efficacy with the help of t-SNE plots of the memory items.
翻訳日:2021-02-01 15:58:49 公開日:2021-01-29
# (参考訳) CNNのクラス・アグノスティックな特徴を可視化する「心の目」 [全文訳有]

The Mind's Eye: Visualizing Class-Agnostic Features of CNNs ( http://arxiv.org/abs/2101.12447v1 )

ライセンス: CC BY 4.0
Alexandros Stergiou(参考訳) Convolutional Neural Networks (CNNs) の視覚的な解釈可能性は、CNN の複雑さが内部の動作を理解することに課す大きな課題のために、大きな人気を得ています。 CNNのクラス特徴を視覚化するために多くの技術が提案されているが、そのほとんどが特定の層における入力と抽出した特徴との対応を提供していない。 これにより、各層がより反応する刺激の発見が防止される。 本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。 このクラスに依存しない方法で機能を探索することで、cnnの機能抽出に集中することができる。 本手法では,2目的の活性化最大化と距離最小化損失を発生器ネットワークや元のモデルへの修正を必要とせずに利用する。 これにより、FLOPの数は元のネットワークに制限される。 広く利用されているアーキテクチャの可視化品質を実証する。

Visual interpretability of Convolutional Neural Networks (CNNs) has gained significant popularity because of the great challenges that CNN complexity imposes to understanding their inner workings. Although many techniques have been proposed to visualize class features of CNNs, most of them do not provide a correspondence between inputs and the extracted features in specific layers. This prevents the discovery of stimuli that each layer responds better to. We propose an approach to visually interpret CNN features given a set of images by creating corresponding images that depict the most informative features of a specific layer. Exploring features in this class-agnostic manner allows for a greater focus on the feature extractor of CNNs. Our method uses a dual-objective activation maximization and distance minimization loss, without requiring a generator network nor modifications to the original model. This limits the number of FLOPs to that of the original network. We demonstrate the visualization quality on widely-used architectures.
翻訳日:2021-02-01 15:49:59 公開日:2021-01-29
# (参考訳) アダプティブ・リサイズによるUAVバードの目視物体検出におけるスケール不変性獲得 [全文訳有]

Gaining Scale Invariance in UAV Bird's Eye View Object Detection by Adaptive Resizing ( http://arxiv.org/abs/2101.12694v1 )

ライセンス: CC BY 4.0
Martin Messmer, Benjamin Kiefer, Andreas Zell(参考訳) 本研究では,UAV鳥の視線画像に適用可能な新しい前処理ステップを導入し,適応リサイズ(Adaptive Resizing)と呼ぶ。 これは、UAVデータセットに固有のオブジェクトのスケールの広大な分散を調整するために構築されている。 さらに、平均で4倍から5倍の推論速度を改善します。 私たちは、UAVDT、VisDrone、そして新しいデータセットでこれを広範囲にテストしました。 UAVDTでは,AP50では100%以上の相対的な改善が達成されている。 さらに、この方法が一般的なUAVオブジェクト検出タスクにどのように適用できるかを示す。 さらに,一定の高度で訓練し,異なる領域でテストを行うドメイン転送タスクにおいて,その手法をうまくテストできた。 コードは当社のウェブサイトで公開されます。

In this work, we introduce a new preprocessing step applicable to UAV bird's eye view imagery, which we call Adaptive Resizing. It is constructed to adjust the vast variances in objects' scales, which are naturally inherent to UAV data sets. Furthermore, it improves inference speed by four to five times on average. We test this extensively on UAVDT, VisDrone, and on a new data set, we captured ourselves. On UAVDT, we achieve more than 100 % relative improvement in AP50. Moreover, we show how this method can be applied to a general UAV object detection task. Additionally, we successfully test our method on a domain transfer task where we train on some interval of altitudes and test on a different one. Code will be made available at our website.
翻訳日:2021-02-01 15:41:39 公開日:2021-01-29
# (参考訳) ニューラルネットワーク翻訳のための遷移型グラフデコーダ [全文訳有]

Transition based Graph Decoder for Neural Machine Translation ( http://arxiv.org/abs/2101.12640v1 )

ライセンス: CC BY 4.0
Leshem Choshen, Omri Abend(参考訳) ソース側のシンボリックシンタクティック構造とセマンティック構造をニューラルネットワーク翻訳(NMT)に組み込むことで多くの成果が得られたが、そのような構造の復号化に対処した作品はほとんどなかった。 そこで我々は,Dyer (2016) による RNN を用いた同様の手法に着想を得た,木およびグラフのデコーディングのための汎用的なトランスフォーマーベースアプローチを提案する。 提案する英語・ドイツ語・ドイツ語・英語・ロシア語への普遍的依存構文を持つデコーダを用いた実験では、標準トランスフォーマーデコーダよりも性能が向上し、モデルのアブレーション版も改善されている。

While a number of works showed gains from incorporating source-side symbolic syntactic and semantic structure into neural machine translation (NMT), much fewer works addressed the decoding of such structure. We propose a general Transformer-based approach for tree and graph decoding based on generating a sequence of transitions, inspired by a similar approach that uses RNNs by Dyer (2016). Experiments with using the proposed decoder with Universal Dependencies syntax on English-German, German-English and English-Russian show improved performance over the standard Transformer decoder, as well as over ablated versions of the model.\tacltxt{\footnote{All code implementing the presented models will be released upon acceptance.
翻訳日:2021-02-01 15:34:19 公開日:2021-01-29
# (参考訳) BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge [全文訳有]

BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge ( http://arxiv.org/abs/2101.12729v1 )

ライセンス: CC BY 4.0
Martin Kocour, Guillermo C\'ambara, Jordi Luque, David Bonet, Mireia Farr\'us, Martin Karafi\'at, Karel Vesel\'y and Jan ''Honza'' \^Cernock\'y(参考訳) 本論文では,BUTとTelef\'onica ResearchのAlbayzin 2020 Challengeのための自動音声認識システムの開発に関する共同作業について述べる。 ハイブリッドモデルまたはエンドツーエンドモデルに基づくアプローチを比較します。 ハイブリッドモデリングでは,仕様層が性能に与える影響について検討する。 エンドツーエンドモデリングでは,ゲート線形単位(GLU)を持つ畳み込みニューラルネットワークを用いた。 また, 単語誤り率を改善するため, 追加のn-gram言語モデルを用いて評価を行った。 さらに,雑音環境から音声を抽出する音源分離手法について検討する。 テレビ番組)。 より正確には、demucsという神経ベースの音楽分離器の使用の効果を評価する。 最高のシステムの融合は、アルバイジン2020の公式評価で23.33%のWERを達成した。 最終提出されたシステムで使用される技術とは別に、トレーニングのために高品質な書き起こしを検索する取り組みについても述べます。

This paper describes joint effort of BUT and Telef\'onica Research on development of Automatic Speech Recognition systems for Albayzin 2020 Challenge. We compare approaches based on either hybrid or end-to-end models. In hybrid modelling, we explore the impact of SpecAugment layer on performance. For end-to-end modelling, we used a convolutional neural network with gated linear units (GLUs). The performance of such model is also evaluated with an additional n-gram language model to improve word error rates. We further inspect source separation methods to extract speech from noisy environment (i.e. TV shows). More precisely, we assess the effect of using a neural-based music separator named Demucs. A fusion of our best systems achieved 23.33% WER in official Albayzin 2020 evaluations. Aside from techniques used in our final submitted systems, we also describe our efforts in retrieving high quality transcripts for training.
翻訳日:2021-02-01 15:16:19 公開日:2021-01-29
# (参考訳) 音声アシスタントにおけるモークアップワード検出のための音声強調 [全文訳有]

Speech Enhancement for Wake-Up-Word detection in Voice Assistants ( http://arxiv.org/abs/2101.12732v1 )

ライセンス: CC BY 4.0
David Bonet, Guillermo C\'ambara, Fernando L\'opez, Pablo G\'omez, Carlos Segura, Jordi Luque(参考訳) キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。 音声アシスタントの非常に一般的な問題は、音楽、テレビ、バックグラウンド音声などのバックグラウンドノイズによってアクティベートされ、デバイスが誤って起動してしまうことだ。 本稿では,これらのノイズの存在下での認識率の向上と誤報の低減を目的とした,WUW検出タスクに適応した音声強調(SE)モデルを提案する。 SEモデルは、波形レベルでの完全畳み込み復調自動エンコーダであり、単純なWUW分類ネットワークのBCE損失とともに、ログメルスペクトログラムおよび波形復元損失を使用して訓練される。 キーワードに非常に音素的に類似している負のサンプルを含む困難な条件でWUWを認識するタスクのために、新しいデータベースが意図的に準備されました。 データベースは、公開データベースと、さまざまなノイズや環境をシミュレートする徹底的なデータ拡張によって拡張される。 単純で最先端のWUW検出器とSEを結合することによって得られた結果は、SEとWUW検出器がエンドツーエンドで訓練されている場合に特に、ノイズの存在下でのパフォーマンスを高めながら、静的な環境における認識率にSEが負の影響を及ぼさないことを示しています。

Keyword spotting and in particular Wake-Up-Word (WUW) detection is a very important task for voice assistants. A very common issue of voice assistants is that they get easily activated by background noise like music, TV or background speech that accidentally triggers the device. In this paper, we propose a Speech Enhancement (SE) model adapted to the task of WUW detection that aims at increasing the recognition rate and reducing the false alarms in the presence of these types of noises. The SE model is a fully-convolutional denoising auto-encoder at waveform level and is trained using a log-Mel Spectrogram and waveform reconstruction losses together with the BCE loss of a simple WUW classification network. A new database has been purposely prepared for the task of recognizing the WUW in challenging conditions containing negative samples that are very phonetically similar to the keyword. The database is extended with public databases and an exhaustive data augmentation to simulate different noises and environments. The results obtained by concatenating the SE with a simple and state-of-the-art WUW detectors show that the SE does not have a negative impact on the recognition rate in quiet environments while increasing the performance in the presence of noise, especially when the SE and WUW detector are trained jointly end-to-end.
翻訳日:2021-02-01 15:06:00 公開日:2021-01-29
# (参考訳) 負の副作用を避けるための衝突正則化器の課題 [全文訳有]

Challenges for Using Impact Regularizers to Avoid Negative Side Effects ( http://arxiv.org/abs/2101.12509v1 )

ライセンス: CC BY-SA 4.0
David Lindner and Kyle Matoba and Alexander Meulemans(参考訳) 強化学習のための報酬関数の設計は困難であり、どの行動に報酬が与えられるかを指定する以外に、望ましくない結果も避けなければならない。 不特定の報酬関数は意図しない副作用や全体的な安全でない行動を引き起こす可能性がある。 この問題を克服するため,近年の研究では,環境に大きな影響を及ぼす行動を妨げる影響レギュレータによる報酬関数の強化が提案されている。 影響正則化器による最初の結果は、ある種の副作用を緩和する上で有望であるように思われるが、重要な課題は残る。 本稿では,インパクト・レギュラライザの主な課題を考察し,基本的な設計決定に関連付ける。 我々は,最近のアプローチが抱える課題と未解決の課題について詳細に議論する。 最後に、影響正則化器による負の副作用の防止における未解決課題を克服するための有望な方向を探る。

Designing reward functions for reinforcement learning is difficult: besides specifying which behavior is rewarded for a task, the reward also has to discourage undesired outcomes. Misspecified reward functions can lead to unintended negative side effects, and overall unsafe behavior. To overcome this problem, recent work proposed to augment the specified reward function with an impact regularizer that discourages behavior that has a big impact on the environment. Although initial results with impact regularizers seem promising in mitigating some types of side effects, important challenges remain. In this paper, we examine the main current challenges of impact regularizers and relate them to fundamental design decisions. We discuss in detail which challenges recent approaches address and which remain unsolved. Finally, we explore promising directions to overcome the unsolved challenges in preventing negative side effects with impact regularizers.
翻訳日:2021-02-01 14:54:43 公開日:2021-01-29
# (参考訳) マルチタイプリソース割り当てのシーケンシャルなメカニズム [全文訳有]

Sequential Mechanisms for Multi-type Resource Allocation ( http://arxiv.org/abs/2101.12522v1 )

ライセンス: CC BY 4.0
Sujoy Sikdar, Xiaoxi Guo, Haibin Wang, Lirong Xia, Yongzhi Cao(参考訳) リソース割り当ての問題には、複数のタイプのリソースが関係しており、各タイプのリソースを「ローカル」に割り当てる異なるエージェンシーが責任を持ち、中央プランナーは、与えられたエージェントの好みに応じて最終的なリソース割り当ての特性を保証することを望んでいる。 本研究では, 局所メカニズムの特性, 指定されたタイプの資源を割り当てる責任, およびこれらの局所メカニズムから構成されるシーケンシャルメカニズムの特性の関係を, 語彙的嗜好の下で順次適用し, 人工知能と経済学における複数の資源に対する嗜好のモデルとしてよく研究した。 選好がO-legalである場合、エージェントがそれらのタイプに対して共通の重要順序を共有する場合、各ローカルメカニズムが同じ性質を満たす場合に限り、シーケンシャルメカニズムが匿名性、中立性、非ボッシー性、パレート最適化の望ましい特性を満たすことを示し、順序Oに応じて順次適用される。 我々の主な結果は, o-legal lexicographic preferences では, 戦略的安全性とそれらの組み合わせを満足するすべてのメカニズムは, 戦略的安全性を兼ね備えた局所的機構の逐次構成であり, 同じ特性の組み合わせを満足しなければならない。

Several resource allocation problems involve multiple types of resources, with a different agency being responsible for "locally" allocating the resources of each type, while a central planner wishes to provide a guarantee on the properties of the final allocation given agents' preferences. We study the relationship between properties of the local mechanisms, each responsible for assigning all of the resources of a designated type, and the properties of a sequential mechanism which is composed of these local mechanisms, one for each type, applied sequentially, under lexicographic preferences, a well studied model of preferences over multiple types of resources in artificial intelligence and economics. We show that when preferences are O-legal, meaning that agents share a common importance order on the types, sequential mechanisms satisfy the desirable properties of anonymity, neutrality, non-bossiness, or Pareto-optimality if and only if every local mechanism also satisfies the same property, and they are applied sequentially according to the order O. Our main results are that under O-legal lexicographic preferences, every mechanism satisfying strategyproofness and a combination of these properties must be a sequential composition of local mechanisms that are also strategyproof, and satisfy the same combinations of properties.
翻訳日:2021-02-01 14:42:09 公開日:2021-01-29
# (参考訳) 確率的プログラムのための帰納的合成 [全文訳有]

Inductive Synthesis for Probabilistic Programs Reaches New Horizons ( http://arxiv.org/abs/2101.12683v1 )

ライセンス: CC BY 4.0
Roman Andriushchenko, Milan Ceska, Sebastian Junges, Joost-Pieter Katoen(参考訳) 本稿では,確率的プログラムの自動合成手法を提案する。 開始点は、関連するが明確な位相を持つ有限状態マルコフ鎖の有限族を表すプログラムスケッチと、PCTL仕様である。 この方法は、プログラムに違反するための反例(CE)を熱心に生成し、それらを家族をプルーニングするために使用する新しい誘導性オラクルの上に構築される。 これらの CE は、MDP 抽象化を使用して導関数によって提供される最良および最悪の振る舞いの境界という形で、家族のセマンティクスを活用します。 さらに、合成性能を監視し、インダクティブ推論とインダクティブ推論を適応的に切り替える。 実験により,新しいCE構造はより高速で効率的なプルーニング戦略を提供し,幅広いベンチマーク上での合成プロセスの高速化につながることが示された。 分散化された部分観測可能なコントローラの合成など,困難な問題に対して,実行時間を1日から数分に短縮する。

This paper presents a novel method for the automated synthesis of probabilistic programs. The starting point is a program sketch representing a finite family of finite-state Markov chains with related but distinct topologies, and a PCTL specification. The method builds on a novel inductive oracle that greedily generates counter-examples (CEs) for violating programs and uses them to prune the family. These CEs leverage the semantics of the family in the form of bounds on its best- and worst-case behaviour provided by a deductive oracle using an MDP abstraction. The method further monitors the performance of the synthesis and adaptively switches between the inductive and deductive reasoning. Our experiments demonstrate that the novel CE construction provides a significantly faster and more effective pruning strategy leading to acceleration of the synthesis process on a wide range of benchmarks. For challenging problems, such as the synthesis of decentralized partially-observable controllers, we reduce the run-time from a day to minutes.
翻訳日:2021-02-01 14:02:49 公開日:2021-01-29
# (参考訳) 生成的深層学習による強化学習エージェントの実態説明

Counterfactual State Explanations for Reinforcement Learning Agents via Generative Deep Learning ( http://arxiv.org/abs/2101.12446v1 )

ライセンス: CC BY 4.0
Matthew L. Olson, Roli Khanna, Lawrence Neal, Fuxin Li, Weng-Keen Wong(参考訳) 反事実的な説明、それは"なぜではないのか?"を扱う。 シナリオは、AIエージェントの行動に洞察力のある説明を提供することができます。 本研究では,Atari のような視覚入力環境で動作する深層強化学習(RL)エージェントの非現実的説明の生成に焦点を当てる。 生成的深層学習に基づく非現実的説明に対する新しい例に基づくアプローチである反実状態説明について紹介する。 具体的には、反事実状態は、エージェントが異なるアクションを選択するようにatariゲームイメージに必要最小限の変更を示す。 また,機械学習の専門家でない人に対する反事実状態の有効性についても検討した。 第1回ユーザスタディでは,実際のゲームによって,あるいは生成的な深層学習アプローチによって,逆実状態の説明が生成されるかどうか,人間が識別できるかどうかを調査した。 第2のユーザスタディでは、非専門家が欠陥のあるエージェントを識別する上で、偽造状態の説明が有効かどうかを調査し、実際のゲームからの画像を用いた近隣の説明に基づくベースラインのアプローチと比較した。 以上の結果から,非専門家が欠陥のあるrlエージェントをより効果的に識別し,説明を全く持たないように,反事実的状態説明は実際のゲーム画像に十分な忠実性を有することが示唆された。

Counterfactual explanations, which deal with "why not?" scenarios, can provide insightful explanations to an AI agent's behavior. In this work, we focus on generating counterfactual explanations for deep reinforcement learning (RL) agents which operate in visual input environments like Atari. We introduce counterfactual state explanations, a novel example-based approach to counterfactual explanations based on generative deep learning. Specifically, a counterfactual state illustrates what minimal change is needed to an Atari game image such that the agent chooses a different action. We also evaluate the effectiveness of counterfactual states on human participants who are not machine learning experts. Our first user study investigates if humans can discern if the counterfactual state explanations are produced by the actual game or produced by a generative deep learning approach. Our second user study investigates if counterfactual state explanations can help non-expert participants identify a flawed agent; we compare against a baseline approach based on a nearest neighbor explanation which uses images from the actual game. Our results indicate that counterfactual state explanations have sufficient fidelity to the actual game images to enable non-experts to more effectively identify a flawed RL agent compared to the nearest neighbor baseline and to having no explanation at all.
翻訳日:2021-02-01 13:41:17 公開日:2021-01-29
# (参考訳) 生成モデルによるナノロボット形状の予測 [全文訳有]

Predicting Nanorobot Shapes via Generative Models ( http://arxiv.org/abs/2101.12719v1 )

ライセンス: CC BY-SA 4.0
Emma Benjaminson (1), Rebecca E. Taylor (1,2,3), Matthew Travers (4) ((1) Mechanical Engineering, Carnegie Mellon University, Pittsburgh, PA, (2) Biomedical Engineering, Carnegie Mellon University, Pittsburgh, PA, (3) Electrical and Computer Engineering, Carnegie Mellon University, Pittsburgh PA, (4) Robotics Institute, Carnegie Mellon University, Pittsburgh, PA)(参考訳) dnaナノテクノロジーの分野は、高い収率で、作用可能な特性を持つ異なる構造を組み立てることを可能にした。 例えば、研究者はアクティベート可能なコンポーネントを作成しました。 刺激的な次のステップは、これらのコンポーネントを多機能ナノロボットに組み合わせ、人体のターゲット場所に泳ぐなどの複雑なタスクを実行し、有害反応を検出し、その後、薬物負荷を解放して停止させることです。 しかし、より複雑なナノロボットを組み立て始めると、望まれるナノロボットの収量は、コンポーネントの組み合わせの数が増えるにつれて減少し始める。 したがって、この研究の最終的な目標は、収率を最大化する予測モデルを開発することである。 しかし、予測モデルのトレーニングは通常、大きなデータセットを必要とする。 私たちが組み立てに興味があるナノロボットにとって、これは収集が難しいでしょう。 これは、個々の構造の形状と大きさを特徴付ける高忠実度データが収集に非常に時間がかかるのに対して、低忠実度データは容易に入手できるが、異なるプロセスのバルク統計しか取得できないためである。 そこで本研究では,低忠実度データと高忠実度データを組み合わせて,二段階プロセスを用いて生成モデルを訓練する。 まず、比較的小さな高忠実度データセットを使用して、生成モデルをトレーニングします。 実行時、モデルは低忠実度データを取り込み、高忠実度コンテンツの近似に使用する。 低忠実度データで測定した特定の特性のサンプルに対してモデルに偏りを与えることでこれを行う。 この研究では、我々は最終的にこの研究が焦点を合わせるナノロボットの代理表現として取るグラフィカルモデルの所望のノード程度に私たちの分布をバイアスします。 我々はまだナノロボットの忠実度の高いデータセットを蓄積していないので、molgan architecture [1] と qm9 small molecule dataset [2-3] を利用してアプローチを実証している。

The field of DNA nanotechnology has made it possible to assemble, with high yields, different structures that have actionable properties. For example, researchers have created components that can be actuated. An exciting next step is to combine these components into multifunctional nanorobots that could, potentially, perform complex tasks like swimming to a target location in the human body, detect an adverse reaction and then release a drug load to stop it. However, as we start to assemble more complex nanorobots, the yield of the desired nanorobot begins to decrease as the number of possible component combinations increases. Therefore, the ultimate goal of this work is to develop a predictive model to maximize yield. However, training predictive models typically requires a large dataset. For the nanorobots we are interested in assembling, this will be difficult to collect. This is because high-fidelity data, which allows us to characterize the shape and size of individual structures, is very time-consuming to collect, whereas low-fidelity data is readily available but only captures bulk statistics for different processes. Therefore, this work combines low- and high-fidelity data to train a generative model using a two-step process. We first use a relatively small, high-fidelity dataset to train a generative model. At run time, the model takes low-fidelity data and uses it to approximate the high-fidelity content. We do this by biasing the model towards samples with specific properties as measured by low-fidelity data. In this work we bias our distribution towards a desired node degree of a graphical model that we take as a surrogate representation of the nanorobots that this work will ultimately focus on. We have not yet accumulated a high-fidelity dataset of nanorobots, so we leverage the MolGAN architecture [1] and the QM9 small molecule dataset [2-3] to demonstrate our approach.
翻訳日:2021-02-01 13:40:12 公開日:2021-01-29
# (参考訳) uavからのオブジェクト検出にドメインラベルを活用する [全文訳有]

Leveraging domain labels for object detection from UAVs ( http://arxiv.org/abs/2101.12677v1 )

ライセンス: CC BY 4.0
Benjamin Kiefer, Martin Messmer, Andreas Zell(参考訳) 無人航空機(UAV)からの物体検出は、多くの航空ビジョンベースのアプリケーションで非常に重要です。 汎用物体検出法は非常に成功したが、UAVが捉えた画像に適用すると大きな性能低下が観測される。 これは、高度の変化、視野角の動的変化、撮影時間の違いなど、撮像条件のバリエーションが大きいためである。 ドメイン知識は貴重な情報源であり,自由にアクセス可能なセンサデータを用いて,ドメイン認識対象検出器を提案する。 モデルをクロスドメインとドメイン固有の部分に分割することで、複数のモデルとメトリクスにわたる複数のデータセットで大幅なパフォーマンス改善が達成される。 特に,実時間検出器用UAVDTの最先端性能について述べる。 さらに,高度と視野角のアノテーションを特徴とする2900画像に13個の713個の物体を注釈付けして,新たな空中画像データセットを作成する。

Object detection from Unmanned Aerial Vehicles (UAVs) is of great importance in many aerial vision-based applications. Despite the great success of generic object detection methods, a large performance drop is observed when applied to images captured by UAVs. This is due to large variations in imaging conditions, such as varying altitudes, dynamically changing viewing angles, and different capture times. We demonstrate that domain knowledge is a valuable source of information and thus propose domain-aware object detectors by using freely accessible sensor data. By splitting the model into cross-domain and domain-specific parts, substantial performance improvements are achieved on multiple datasets across multiple models and metrics. In particular, we achieve a new state-of-the-art performance on UAVDT for real-time detectors. Furthermore, we create a new airborne image dataset by annotating 13 713 objects in 2 900 images featuring precise altitude and viewing angle annotations.
翻訳日:2021-02-01 13:30:02 公開日:2021-01-29
# (参考訳) グラフ畳み込みネットワークによる汎用OCRパラグラフの同定 [全文訳有]

General-Purpose OCR Paragraph Identification by Graph Convolution Networks ( http://arxiv.org/abs/2101.12741v1 )

ライセンス: CC BY 4.0
Renshen Wang, Yasuhisa Fujii and Ashok C. Popat(参考訳) パラグラフはドキュメントエンティティの重要なクラスです。 OCRテキストボックスに適用した空間グラフ畳み込みネットワーク(GCN)による段落識別のための新しい手法を提案する。 行分割と行クラスタリングという2つのステップを実行して、OCR結果の行から段落を抽出します。 各ステップはバウンディングボックスから構築されたβ-スケルトングラフを使用し、グラフエッジはグラフ畳み込み操作の効率的なサポートを提供する。 純粋なレイアウト入力機能のみにより、GCNモデルのサイズはR-CNNベースのモデルと比較して3〜4桁小さく、PubLayNetや他のデータセットで同等以上の精度を達成しています。 さらに、GCNモデルは、合成トレーニングデータから実世界画像への良好な一般化と、可変文書スタイルに対する良好な適応性を示す。

Paragraphs are an important class of document entities. We propose a new approach for paragraph identification by spatial graph convolution networks (GCN) applied on OCR text boxes. Two steps, namely line splitting and line clustering, are performed to extract paragraphs from the lines in OCR results. Each step uses a beta-skeleton graph constructed from bounding boxes, where the graph edges provide efficient support for graph convolution operations. With only pure layout input features, the GCN model size is 3~4 orders of magnitude smaller compared to R-CNN based models, while achieving comparable or better accuracies on PubLayNet and other datasets. Furthermore, the GCN models show good generalization from synthetic training data to real-world images, and good adaptivity for variable document styles.
翻訳日:2021-02-01 13:21:04 公開日:2021-01-29
# (参考訳) スパースグラフィカルモデルにおけるツリーベースのノード集約

Tree-based Node Aggregation in Sparse Graphical Models ( http://arxiv.org/abs/2101.12503v1 )

ライセンス: CC BY 4.0
Ines Wilms and Jacob Bien(参考訳) 高次元グラフィカルモデルはしばしば、ネットワーク内のエッジ数を減らすことを目的とした正規化を用いて推定される。 本研究では,グラフィカルモデルのノードを集約することで,より単純なネットワークを生成できることを示す。 木集合型グラフィカルラッソやタグラッソと呼ばれる新しい凸正規化手法を開発し、エッジスパースとノード集約の両方のグラフィカルモデルを推定する。 集約は、ノードの類似性をエンコードし、結果の集約ノードの解釈を容易にするツリーの形式でサイド情報を活用することで、データ駆動の方法で実行される。 本稿では,乗算器の局所適応交互方向法を用いてタグラッソの効率的な実装を行い,シミュレーションや金融・生物学における応用において,提案手法の実用的利点を示す。

High-dimensional graphical models are often estimated using regularization that is aimed at reducing the number of edges in a network. In this work, we show how even simpler networks can be produced by aggregating the nodes of the graphical model. We develop a new convex regularized method, called the tree-aggregated graphical lasso or tag-lasso, that estimates graphical models that are both edge-sparse and node-aggregated. The aggregation is performed in a data-driven fashion by leveraging side information in the form of a tree that encodes node similarity and facilitates the interpretation of the resulting aggregated nodes. We provide an efficient implementation of the tag-lasso by using the locally adaptive alternating direction method of multipliers and illustrate our proposal's practical advantages in simulation and in applications in finance and biology.
翻訳日:2021-02-01 13:00:23 公開日:2021-01-29
# 言語モデルに言語構造を注入することは、脳の記録との整合性を改善するか?

Does injecting linguistic structure into language models lead to better alignment with brain recordings? ( http://arxiv.org/abs/2101.12608v1 )

ライセンス: Link先を確認
Mostafa Abdou, Ana Valeria Gonzalez, Mariya Toneva, Daniel Hershcovich, Anders S{\o}gaard(参考訳) 神経科学者は、自然言語処理のためのディープニューラルネットワークを、脳内で言語がどのように処理されるかの候補モデルとして評価する。 これらのモデルは、しばしば明示的な言語的監督なしで訓練されるが、そのような監督なしで言語構造を学ぶことが示されており(manning et al., 2020)、そのような認知過程のモデリングにおける記号的言語理論の関連性に疑問を投げかける可能性がある(warstadt and bowman, 2020)。 2つのfMRIデータセットで、言語モデルが脳の記録とよく一致しているかどうかを評価します。 依存関係からの構造化や最小限の再帰セマンティックアノテーションを用いることで、データセットの1つに対してアライメントが大幅に改善される。 別のデータセットでは、より複雑な結果が得られます。 これらの結果を広範囲に分析する。 提案手法は,脳内の意味の組成に関するより標的的な仮説の評価を可能にし,神経科学者が行う可能性のある科学的推論の範囲を広げ,計算神経科学と言語学の交差する新たな機会を開放する。

Neuroscientists evaluate deep neural networks for natural language processing as possible candidate models for how language is processed in the brain. These models are often trained without explicit linguistic supervision, but have been shown to learn some linguistic structure in the absence of such supervision (Manning et al., 2020), potentially questioning the relevance of symbolic linguistic theories in modeling such cognitive processes (Warstadt and Bowman, 2020). We evaluate across two fMRI datasets whether language models align better with brain recordings, if their attention is biased by annotations from syntactic or semantic formalisms. Using structure from dependency or minimal recursion semantic annotations, we find alignments improve significantly for one of the datasets. For another dataset, we see more mixed results. We present an extensive analysis of these results. Our proposed approach enables the evaluation of more targeted hypotheses about the composition of meaning in the brain, expanding the range of possible scientific inferences a neuroscientist could make, and opens up new opportunities for cross-pollination between computational neuroscience and linguistics.
翻訳日:2021-02-01 12:59:30 公開日:2021-01-29
# 低ランク予測

Low Rank Forecasting ( http://arxiv.org/abs/2101.12414v1 )

ライセンス: Link先を確認
Shane Barratt, Yining Dong, Stephen Boyd(参考訳) ベクトル時系列の将来について,過去の値を用いて複数の値を予測する問題を考える。 この問題、およびワンステップ予測のような関連するものは、非常に長い歴史を持ち、ベクトル自己回帰モデル、状態空間法、マルチタスク回帰などを含む、そのための多くのよく知られた方法があります。 我々の焦点は、予測を2つのステップに分割する低ランクの予測器である。これは、過去を仮定して潜在状態と解釈できるベクトルを推定し、潜在状態の推定を仮定して時系列の将来の値を推定する。 予測整合性の概念を導入する。これは,異なるタイミングで同じ値の推定値が一貫したことを意味する。 予測問題を一般的な形で定式化し、線形予測器に注目し、凸最適化により解くことができる定式化を提案します。 本稿では,非線形予測,データ重み付け,補助データの導入,目的語の追加など,多くの拡張とバリエーションについて述べる。 いくつかの例を例に紹介する。

We consider the problem of forecasting multiple values of the future of a vector time series, using some past values. This problem, and related ones such as one-step-ahead prediction, have a very long history, and there are a number of well-known methods for it, including vector auto-regressive models, state-space methods, multi-task regression, and others. Our focus is on low rank forecasters, which break forecasting up into two steps: estimating a vector that can be interpreted as a latent state, given the past, and then estimating the future values of the time series, given the latent state estimate. We introduce the concept of forecast consistency, which means that the estimates of the same value made at different times are consistent. We formulate the forecasting problem in general form, and focus on linear forecasters, for which we propose a formulation that can be solved via convex optimization. We describe a number of extensions and variations, including nonlinear forecasters, data weighting, the inclusion of auxiliary data, and additional objective terms. We illustrate our methods with several examples.
翻訳日:2021-02-01 12:58:47 公開日:2021-01-29
# 凸最適化による共分散予測

Covariance Prediction via Convex Optimization ( http://arxiv.org/abs/2101.12416v1 )

ライセンス: Link先を確認
Shane Barratt and Stephen Boyd(参考訳) 我々は、別の特徴ベクトルに基づいて、ゼロ平均ガウスベクトルの共分散を予測する問題を考える。 一般化線形モデル、すなわち特徴のアフィン関数の形式を持つ共分散予測子を、ベクトルを対称正有限行列に写す逆リンク関数として記述する。 log-likelihoodは予測パラメータの凹関数であるため、予測パラメータの適合には凸最適化が伴う。 このような予測器を他のものと組み合わせたり、あるいは性能を改善するために再帰的に適用することができる。

We consider the problem of predicting the covariance of a zero mean Gaussian vector, based on another feature vector. We describe a covariance predictor that has the form of a generalized linear model, i.e., an affine function of the features followed by an inverse link function that maps vectors to symmetric positive definite matrices. The log-likelihood is a concave function of the predictor parameters, so fitting the predictor involves convex optimization. Such predictors can be combined with others, or recursively applied to improve performance.
翻訳日:2021-02-01 12:58:10 公開日:2021-01-29
# MRIにおけるマルチモーダル脳腫瘍セグメンテーションのためのマルチThreshold Attention U-Net(MTAU)モデル

Multi-Threshold Attention U-Net (MTAU) based Model for Multimodal Brain Tumor Segmentation in MRI scans ( http://arxiv.org/abs/2101.12404v1 )

ライセンス: Link先を確認
Navchetan Awasthi, Rohit Pardasani and Swati Gupta(参考訳) グリオーマは最も頻度の高い脳腫瘍の1つで、中等度と低等級のグリオーマに分類される。 腫瘍中心、増強腫瘍等のようなさまざまな地域のセグメンテーション。 重症度と予後を決定する上で重要な役割を果たす。 本研究では、MRI(MRI)における腫瘍の様々な領域の同定のための注意U-Netに基づくマルチスレッショルドモデルを開発した。 マルチパスセグメンテーションを提案し,関心領域の異なる3つのモデルを構築した。 提案モデルでは, 訓練データセットにおいて, 腫瘍, 全腫瘍, 腫瘍コアをそれぞれ0.59, 0.72, 0.61で向上させることができた。 同じモデルは、検証データセットでは平均サイス係数 0.57, 0.73, 0.61 であり、テストデータセットでは 0.59, 0.72, 0.57 である。

Gliomas are one of the most frequent brain tumors and are classified into high grade and low grade gliomas. The segmentation of various regions such as tumor core, enhancing tumor etc. plays an important role in determining severity and prognosis. Here, we have developed a multi-threshold model based on attention U-Net for identification of various regions of the tumor in magnetic resonance imaging (MRI). We propose a multi-path segmentation and built three separate models for the different regions of interest. The proposed model achieved mean Dice Coefficient of 0.59, 0.72, and 0.61 for enhancing tumor, whole tumor and tumor core respectively on the training dataset. The same model gave mean Dice Coefficient of 0.57, 0.73, and 0.61 on the validation dataset and 0.59, 0.72, and 0.57 on the test dataset.
翻訳日:2021-02-01 12:57:41 公開日:2021-01-29
# RGB-D定常物体検出のための自己監督表現学習

Self-Supervised Representation Learning for RGB-D Salient Object Detection ( http://arxiv.org/abs/2101.12482v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu, Xiang Ruan(参考訳) 既存の CNN ベースの RGB-D Salient Object Detection (SOD) ネットワークは、全て ImageNet で事前トレーニングされ、優れた初期化を提供するのに役立つ階層機能を学ぶ必要がある。 しかし、大規模なデータセットの収集とアノテーションは時間がかかり、高価です。 本論文では,Self-Supervised Representation Learning (SSL) を用いて,クロスモーダルオートエンコーダと深度コントール推定の2つのプリテキストタスクを設計する。 我々のプレテキストタスクは、事前トレーニングを行うために少数のラベル付きRGB-Dデータセットのみを必要とするため、ネットワークがリッチなセマンティックコンテキストをキャプチャし、2つのモード間のギャップを減らし、ダウンストリームタスクに効果的な初期化を提供する。 また、RGB-D SODにおけるクロスモーダル融合の固有の問題として、単一の特徴融合をマルチパス融合に分割し、一貫性と差分情報の適切な認識を実現するマルチパス融合(MPF)モジュールを提案する。 MPFモジュールは汎用的で、クロスモーダルおよびクロスレベルな特徴融合に適している。 6つのベンチマークRGB-D SODデータセットに関する広範な実験、RGB-Dデータセットで事前トレーニングされたモデル(アノテーションなしで6,335$)は、ImageNetで事前トレーニングされた最先端のRGB-Dメソッド(画像レベルのアノテーションで1,280,000$)に対して有利に実行できます。

Existing CNNs-Based RGB-D Salient Object Detection (SOD) networks are all required to be pre-trained on the ImageNet to learn the hierarchy features which can help to provide a good initialization. However, the collection and annotation of large-scale datasets are time-consuming and expensive. In this paper, we utilize Self-Supervised Representation Learning (SSL) to design two pretext tasks: the cross-modal auto-encoder and the depth-contour estimation. Our pretext tasks require only a few and unlabeled RGB-D datasets to perform pre-training, which make the network capture rich semantic contexts as well as reduce the gap between two modalities, thereby providing an effective initialization for the downstream task. In addition, for the inherent problem of cross-modal fusion in RGB-D SOD, we propose a multi-path fusion (MPF) module that splits a single feature fusion into multi-path fusion to achieve an adequate perception of consistent and differential information. The MPF module is general and suitable for both cross-modal and cross-level feature fusion. Extensive experiments on six benchmark RGB-D SOD datasets, our model pre-trained on the RGB-D dataset ($6,335$ without any annotations) can perform favorably against most state-of-the-art RGB-D methods pre-trained on ImageNet ($1,280,000$ with image-level annotations).
翻訳日:2021-02-01 12:57:06 公開日:2021-01-29
# 個人再識別における非監視ドメイン適応のための補完的擬似ラベル

Complementary Pseudo Labels For Unsupervised Domain Adaptation On Person Re-identification ( http://arxiv.org/abs/2101.12521v1 )

ライセンス: Link先を確認
Hao Feng, Minghao Chen, Jinming Hu, Dong Shen, Haifeng Liu, Deng Cai(参考訳) 近年、教師付き人物再識別(re-ID)モデルの研究が増えている。 しかし、ソースドメインでトレーニングされたこれらのモデルは、見当たらないドメインでテストする場合、常に劇的なパフォーマンス低下に苦しむ。 既存の手法は、この問題を軽減するために擬似ラベルを使用するのが主な方法である。 最も成功したアプローチの1つは、各ラベルのない画像の隣人を予測し、モデルをトレーニングするためにそれらを使用します。 予測された隣人は信頼できるが、彼らは常に堅い正のサンプルを見逃すため、モデルがラベルなし領域の重要な識別情報を発見できない可能性がある。 本稿では,これらの低リコール近傍擬似ラベルを補完するために,高精度な隣接擬似ラベルと高リコールグループ擬似ラベルを用いて,より優れた特徴埋め込みを学ぶための共同学習フレームワークを提案する。 グループ擬似ラベルは、異なるサンプルの隣人をグループに推移的にマージして高いリコールを達成することによって生成される。 しかし、合併操作は、不完全な隣接予測のためにグループ内のサブグループを引き起こす可能性がある。 グループ擬似ラベルを適切に活用するために,類似度集約損失を用いて,入力サンプルを最も類似した埋め込みへ引き出すことにより,サブグループの影響を緩和する。 3つの大規模データセットに関する広範な実験は、監視されていないドメイン適応再ID設定の下で最新のパフォーマンスを達成できることを示しています。

In recent years, supervised person re-identification (re-ID) models have received increasing studies. However, these models trained on the source domain always suffer dramatic performance drop when tested on an unseen domain. Existing methods are primary to use pseudo labels to alleviate this problem. One of the most successful approaches predicts neighbors of each unlabeled image and then uses them to train the model. Although the predicted neighbors are credible, they always miss some hard positive samples, which may hinder the model from discovering important discriminative information of the unlabeled domain. In this paper, to complement these low recall neighbor pseudo labels, we propose a joint learning framework to learn better feature embeddings via high precision neighbor pseudo labels and high recall group pseudo labels. The group pseudo labels are generated by transitively merging neighbors of different samples into a group to achieve higher recall. However, the merging operation may cause subgroups in the group due to imperfect neighbor predictions. To utilize these group pseudo labels properly, we propose using a similarity-aggregati ng loss to mitigate the influence of these subgroups by pulling the input sample towards the most similar embeddings. Extensive experiments on three large-scale datasets demonstrate that our method can achieve state-of-the-art performance under the unsupervised domain adaptation re-ID setting.
翻訳日:2021-02-01 12:56:22 公開日:2021-01-29
# 道路物体検出のための少数ショット学習

Few-Shot Learning for Road Object Detection ( http://arxiv.org/abs/2101.12543v1 )

ライセンス: Link先を確認
Anay Majee and Kshitij Agrawal and Anbumani Subramanian(参考訳) 少ないショット学習は、ディープラーニングの進化に高い関心を持つ問題である。 本研究では,実世界のクラス不均衡シナリオにおいて,少数ショット物体検出(fsod)の問題を考える。 実験では,インド運転データセット(india driving dataset, idd)を用いて,画像データセットに未使用の道路オブジェクトのクラスを格納し,少数ショット学習に適したセットアップを提供する。 i)道路画像の文脈で学習するモデルの能力を評価するIDDから分離する代表(同じドメイン)と、(ii)現実世界のオープンセット設定に類似したより少ないオブジェクトサンプルを持つオブジェクトクラスという2つの実験設定で、メトリクス学習とメタラーニングベースのFSODメソッドの両方を評価します。 i)11.2 mAP ポイントと (ii) 1.0 mAP ポイントのオープン・セットにより, メトリック・ラーニング法が新規クラスにおけるメタ・ラーニングを上回ることを実証した。 また、実世界のオープンデータセットにおけるオブジェクトクラスの拡張は、数ショットの学習研究に豊かな基盤を提供することを示す。

Few-shot learning is a problem of high interest in the evolution of deep learning. In this work, we consider the problem of few-shot object detection (FSOD) in a real-world, class-imbalanced scenario. For our experiments, we utilize the India Driving Dataset (IDD), as it includes a class of less-occurring road objects in the image dataset and hence provides a setup suitable for few-shot learning. We evaluate both metric-learning and meta-learning based FSOD methods, in two experimental settings: (i) representative (same-domain) splits from IDD, that evaluates the ability of a model to learn in the context of road images, and (ii) object classes with less-occurring object samples, similar to the open-set setting in real-world. From our experiments, we demonstrate that the metric-learning method outperforms meta-learning on the novel classes by (i) 11.2 mAP points on the same domain, and (ii) 1.0 mAP point on the open-set. We also show that our extension of object classes in a real-world open dataset offers a rich ground for few-shot learning studies.
翻訳日:2021-02-01 12:55:40 公開日:2021-01-29
# ニューラルインシシシト表現の一般化に向けて

Towards Generalising Neural Implicit Representations ( http://arxiv.org/abs/2101.12690v1 )

ライセンス: Link先を確認
Theo W. Costain, Victor Adrian Prisacariu(参考訳) ニューラルな暗黙表現は、従来のフォーマットと比較して、3Dデータを効率的に保存する上で大幅に改善されている。 しかし、既存の作業の焦点は、主に保管とその後の再建である。 本研究は, 従来のタスクと並んで, 従来のタスクに比較して, 従来のタスクに対して改善された結果を提供しつつ, 単一タスクのトレーニングと同等の品質の再構築を許容する, より一般的なエンコーディングを実現できることを論じるものである。 再構成,分類,セグメンテーションに関するマルチタスク実験を通じて,提案手法は,タスクごとに高品質な結果をもたらす機能豊富なエンコーディングを学習する。 またセグメンテーションタスクを再構築し、暗黙の表現コンテキストに対するより代表的な課題を創出する。

Neural implicit representations have shown substantial improvements in efficiently storing 3D data, when compared to conventional formats. However, the focus of existing work has mainly been on storage and subsequent reconstruction. In this work, we argue that training neural representations for both reconstruction tasks, alongside conventional tasks, can produce more general encodings that admit equal quality reconstructions to single task training, whilst providing improved results on conventional tasks when compared to single task encodings. Through multi-task experiments on reconstruction, classification, and segmentation our approach learns feature rich encodings that produce high quality results for each task. We also reformulate the segmentation task, creating a more representative challenge for implicit representation contexts.
翻訳日:2021-02-01 12:54:59 公開日:2021-01-29
# 誰のための公平? テキスト要約における読者の公平性認識の理解

Fairness for Whom? Understanding the Reader's Perception of Fairness in Text Summarization ( http://arxiv.org/abs/2101.12406v1 )

ライセンス: Link先を確認
Anurag Shandilya, Abhisek Dash, Abhijnan Chakraborty, Kripabandhu Ghosh, Saptarshi Ghosh(参考訳) ユーザが生成するテキスト情報の増加に伴い、近年、広範囲なコンテンツの概要を提供するための要約アルゴリズムの利用が増加している。 これらのアルゴリズムを評価するための伝統的なメトリクス(例) ROUGEスコア)は、アルゴリズムの要約と人間生成の要約を一致させることに頼っている。 しかし、テキストの内容が異質である場合、例えば、異なる社会的に有能なグループから来る場合、既存の要約アルゴリズムのほとんどは、元のデータにおける分布と非常に異なる社会集団を表すことが示されている。 このような悪影響を軽減するため、公正保存要約アルゴリズムも提案されている。 これらの研究のすべては、内容の作家の視点から公正の規範的な概念を検討し、根底にある公平性の概念に対する読者の認識を無視しています。 このギャップを埋めるため,本研究では,フェアネス概念と読者がテキスト要約でどのように認識するかを考察する。 実験により,読者の公平感は文脈に敏感な場合が多いことを示した。 さらに、標準的なROUGE評価指標は、要約の知覚的(不公平)性を定量化できない。 そこで本研究では,テキスト要約における知覚バイアスを定量化するための,ループ内人間メトリックとグラフベースの自動手法を提案する。 我々は,不均質な社会-政治的マイクロブログデータセットのいくつかの要約(un)を定量化し,その有用性を示す。

With the surge in user-generated textual information, there has been a recent increase in the use of summarization algorithms for providing an overview of the extensive content. Traditional metrics for evaluation of these algorithms (e.g. ROUGE scores) rely on matching algorithmic summaries to human-generated ones. However, it has been shown that when the textual contents are heterogeneous, e.g., when they come from different socially salient groups, most existing summarization algorithms represent the social groups very differently compared to their distribution in the original data. To mitigate such adverse impacts, some fairness-preserving summarization algorithms have also been proposed. All of these studies have considered normative notions of fairness from the perspective of writers of the contents, neglecting the readers' perceptions of the underlying fairness notions. To bridge this gap, in this work, we study the interplay between the fairness notions and how readers perceive them in textual summaries. Through our experiments, we show that reader's perception of fairness is often context-sensitive. Moreover, standard ROUGE evaluation metrics are unable to quantify the perceived (un)fairness of the summaries. To this end, we propose a human-in-the-loop metric and an automated graph-based methodology to quantify the perceived bias in textual summaries. We demonstrate their utility by quantifying the (un)fairness of several summaries of heterogeneous socio-political microblog datasets.
翻訳日:2021-02-01 12:54:26 公開日:2021-01-29
# nlpbk at vlsp-2020 shared task: compose transformer pretrained models for reliable intelligence identification on social network

NLPBK at VLSP-2020 shared task: Compose transformer pretrained models for Reliable Intelligence Identification on Social network ( http://arxiv.org/abs/2101.12672v1 )

ライセンス: Link先を確認
Thanh Chinh Nguyen, Van Nha Nguyen(参考訳) 本論文では,ベトナムのSNS問題に対する信頼性情報同定による適応のためのトランスベースプリトレーニングモデルのチューニング手法について述べる。 我々はまた、コメント数、いいねの数、SNS文書の画像など、いくつかのメタデータ機能とbert-baseプリトレーニングモデルを組み合わせたモデルを提案し、VLSP共有タスクの結果を改善するために...ベトナムのSNS上の信頼性インテリジェンス識別。 適切なトレーニング手法により,本モデルはパブリックテストセットで0.9392 ROC-AUCを達成でき,最終バージョンはプライベートテストセットでトップ2 ROC-AUC (0.9513) に収まる。

This paper describes our method for tuning a transformer-based pretrained model, to adaptation with Reliable Intelligence Identification on Vietnamese SNSs problem. We also proposed a model that combines bert-base pretrained models with some metadata features, such as the number of comments, number of likes, images of SNS documents,... to improved results for VLSP shared task: Reliable Intelligence Identification on Vietnamese SNSs. With appropriate training techniques, our model is able to achieve 0.9392 ROC-AUC on public test set and the final version settles at top 2 ROC-AUC (0.9513) on private test set.
翻訳日:2021-02-01 12:53:45 公開日:2021-01-29
# N-grams ベイズ微分プライバシー

N-grams Bayesian Differential Privacy ( http://arxiv.org/abs/2101.12736v1 )

ライセンス: Link先を確認
Osman Ramadan, James Withers, Douglas Orr(参考訳) 異なるプライバシーは、k匿名性のようなプライバシー緩和技術とは対照的に、強力なプライバシー保証として機械学習で人気を得ています。 しかし、n-gramに差分プライバシーを適用すると、大きな語彙のために派生言語モデルの実用性が著しく低下する。 ベイズ方式では,プライバシ損失指標のエプシロンに厳密な制約を与えるために,公開データを事前設定として使用する差分プライバシー機構を提案する。 まず、カウントをログスペースに変換し、公共およびプライベートデータの分布をガウスとして近似します。 その後、後方分布を評価し、ソフトマックスを適用して確率分布を生成する。 この技術は、これまでのエプシロンのメカニズムと比較して最大85%のKL発散を0.1に減少させる。 我々は、n-gram言語モデリングタスクにおけるk-匿名性と比較し、大きな語彙サイズで競合性能を提供すると同時に、優れたプライバシー保護を提供することを示す。

Differential privacy has gained popularity in machine learning as a strong privacy guarantee, in contrast to privacy mitigation techniques such as k-anonymity. However, applying differential privacy to n-gram counts significantly degrades the utility of derived language models due to their large vocabularies. We propose a differential privacy mechanism that uses public data as a prior in a Bayesian setup to provide tighter bounds on the privacy loss metric epsilon, and thus better privacy-utility trade-offs. It first transforms the counts to log space, approximating the distribution of the public and private data as Gaussian. The posterior distribution is then evaluated and softmax is applied to produce a probability distribution. This technique achieves up to 85% reduction in KL divergence compared to previously known mechanisms at epsilon equals 0.1. We compare our mechanism to k-anonymity in a n-gram language modelling task and show that it offers competitive performance at large vocabulary sizes, while also providing superior privacy protection.
翻訳日:2021-02-01 12:53:10 公開日:2021-01-29
# コミュニティ検出のためのサブハイパーグラフモデルにおける厳密な回復の情報理論的限界

Information Theoretic Limits of Exact Recovery in Sub-hypergraph Models for Community Detection ( http://arxiv.org/abs/2101.12369v1 )

ライセンス: Link先を確認
Jiajun Liang, Chuyang Ke and Jean Honorio(参考訳) 本稿では,地域検出のためのサブハイパーグラフモデルにおける情報理論的境界について検討する。 我々は、$m-$uniform sub-hypergraph stochastic block model (m-$shsbm)と呼ばれる一般モデルを定義する。 $m-$ShSBMの下では、ファノの不等式を用いてモデルパラメータの領域を特定する。 また,最大類似度推定(MLE)アルゴリズムが,高い確率でコミュニティを正確に回復することに成功した地域を特定する。 我々の境界は密接であり, 植込み型ハイパーグラフ確率ブロックモデル, 植込み型高密度サブハイパーグラフモデル, 植込み型マルチパート型ハイパーグラフモデルなど, 様々なモデルにおけるコミュニティ検出問題と関連している。

In this paper, we study the information theoretic bounds for exact recovery in sub-hypergraph models for community detection. We define a general model called the $m-$uniform sub-hypergraph stochastic block model ($m-$ShSBM). Under the $m-$ShSBM, we use Fano's inequality to identify the region of model parameters where any algorithm fails to exactly recover the planted communities with a large probability. We also identify the region where a Maximum Likelihood Estimation (MLE) algorithm succeeds to exactly recover the communities with high probability. Our bounds are tight and pertain to the community detection problems in various models such as the planted hypergraph stochastic block model, the planted densest sub-hypergraph model, and the planted multipartite hypergraph model.
翻訳日:2021-02-01 12:52:32 公開日:2021-01-29
# SVMの総安定性とSVMの局所化

Total Stability of SVMs and Localized SVMs ( http://arxiv.org/abs/2101.12678v1 )

ライセンス: Link先を確認
Hannes K\"ohler, Andreas Christmann(参考訳) サポートベクトルマシン(SVM)のような正規化されたカーネルベースのメソッドは、通常、基礎となる確率測度$\mathrm{P}$(アプリケーションにおける経験的測度$\mathrm{D}_n$)と正規化パラメータ$\lambda$とカーネル$k$に依存する。 古典的な統計的ロバスト性は、$\mathrm{P}$の小さな摂動の影響しか考慮しないが、本論文では、三重項$(\mathrm{P},\lambda,k)$,それぞれ$(\mathrm{D}_n,\lambda_n,k)$の同時小変動が、結果として生じる予測子に与える影響について検討する。 文献からの既存の結果はかなり一般化され、改善されます。 一般のSVMが超線形計算要求に悩まされるようなビッグデータにも適用できるようにするため,我々の結果が局所学習の文脈にどのように移行できるかを示す。 ここでは、例えば $\mathrm{P}$ のそれぞれ $\mathrm{D}_n$ の変化から生じる可能性のある適用地域化におけるわずかな変動の効果も考慮される。

Regularized kernel-based methods such as support vector machines (SVMs) typically depend on the underlying probability measure $\mathrm{P}$ (respectively an empirical measure $\mathrm{D}_n$ in applications) as well as on the regularization parameter $\lambda$ and the kernel $k$. Whereas classical statistical robustness only considers the effect of small perturbations in $\mathrm{P}$, the present paper investigates the influence of simultaneous slight variations in the whole triple $(\mathrm{P},\lambda,k)$, respectively $(\mathrm{D}_n,\lambda_n,k)$, on the resulting predictor. Existing results from the literature are considerably generalized and improved. In order to also make them applicable to big data, where regular SVMs suffer from their super-linear computational requirements, we show how our results can be transferred to the context of localized learning. Here, the effect of slight variations in the applied regionalization, which might for example stem from changes in $\mathrm{P}$ respectively $\mathrm{D}_n$, is considered as well.
翻訳日:2021-02-01 12:51:57 公開日:2021-01-29
# 公平な機械学習の伝統的な仮定を超えて

Beyond traditional assumptions in fair machine learning ( http://arxiv.org/abs/2101.12476v1 )

ライセンス: Link先を確認
Niki Kilbertus(参考訳) この論文は、結果的な意思決定における公平性に対する従来の機械学習アプローチの基礎となる共通の仮定を精査する。 実世界のアプリケーションにおけるこれらの仮定の有効性に挑戦した後、違反した場合に前進する方法を提案する。 まず,観測データの統計的特性に基づいたグループフェアネス基準が,基本的に制限されていることを示す。 この制限を因果的観点から再検討し、より汎用的な概念的枠組み、因果公平性基準、そしてそれらを達成するための最初のアルゴリズムを開発します。 また,因果グラフの誤特定に対して,因果的公平なアルゴリズムがどの程度敏感であるかを分析するツールを提供する。 第2に,センシティブなデータが実際に容易に利用できるという仮定を克服する。 この目的のために、ユーザが機密データや意思決定者に対して、モデルを公開することなく、公正な決定アルゴリズムを訓練、検証、競合するためのセキュアなマルチパーティ計算に基づくプロトコルを考案しました。 最後に、ある決定が下されたときにのみ結果ラベルが観察されることも少なくありません。 予測モデルをトレーニングから直接学習へ移行し、ラベルを常に記録できるという従来の仮定を緩和することを提案する。 この論文の主な貢献は、公正な機械学習の研究を現実世界の応用に近づけるための理論的に実証され実用的な方法の開発である。

This thesis scrutinizes common assumptions underlying traditional machine learning approaches to fairness in consequential decision making. After challenging the validity of these assumptions in real-world applications, we propose ways to move forward when they are violated. First, we show that group fairness criteria purely based on statistical properties of observed data are fundamentally limited. Revisiting this limitation from a causal viewpoint we develop a more versatile conceptual framework, causal fairness criteria, and first algorithms to achieve them. We also provide tools to analyze how sensitive a believed-to-be causally fair algorithm is to misspecifications of the causal graph. Second, we overcome the assumption that sensitive data is readily available in practice. To this end we devise protocols based on secure multi-party computation to train, validate, and contest fair decision algorithms without requiring users to disclose their sensitive data or decision makers to disclose their models. Finally, we also accommodate the fact that outcome labels are often only observed when a certain decision has been made. We suggest a paradigm shift away from training predictive models towards directly learning decisions to relax the traditional assumption that labels can always be recorded. The main contribution of this thesis is the development of theoretically substantiated and practically feasible methods to move research on fair machine learning closer to real-world applications.
翻訳日:2021-02-01 12:51:11 公開日:2021-01-29
# ケースベース医療画像検索のための深トリプレットハッシングネットワーク

Deep Triplet Hashing Network for Case-based Medical Image Retrieval ( http://arxiv.org/abs/2101.12346v1 )

ライセンス: Link先を確認
Jiansheng Fang, Huazhu Fu, Jiang Liu(参考訳) 大規模画像検索における最も効率的な近接探索手法としてディープハッシュ法が示されている。 しかし,既存の深層ハッシュ手法は,症例ベース画像検索において,小標本ランキング性能に乏しい。 返されるクエリ結果のトップランクのイメージは、クエリイメージとは異なるクラスである可能性がある。 このランキング問題は、ハッシュ空間における分類、関心領域(ROI)、および小さなサンプル情報損失によって引き起こされる。 ランキング問題に対処するため,アテンションベースのTriplet Hashing(ATH)ネットワークと呼ばれるエンドツーエンドのフレームワークを提案し,分類,ROI,小サンプル情報を保存する低次元ハッシュコードを学ぶ。 我々は、ROI情報にフォーカスするために、ATHのネットワーク構造に空間アテンションモジュールを埋め込む。 空間アテンテンションモジュールは、チャンネル軸に沿って最大プール、要素方向最大、要素方向平均演算を利用して特徴マップの空間情報を集約する。 三重項クロスエントロピー損失は、画像の分類情報と画像間の類似性をハッシュコードにマップするのに役立ちます。 2つのケースベースの医療データセットに関する広範囲な実験により,提案するathは,最先端のディープハッシュ法に比べて検索性能が向上し,小規模サンプルのランキング性能が向上することを示した。 他の損失方法と比較して、三重項クロスエントロピー損失は分類性能とハッシュコード識別性を高めることができる

Deep hashing methods have been shown to be the most efficient approximate nearest neighbor search techniques for large-scale image retrieval. However, existing deep hashing methods have a poor small-sample ranking performance for case-based medical image retrieval. The top-ranked images in the returned query results may be as a different class than the query image. This ranking problem is caused by classification, regions of interest (ROI), and small-sample information loss in the hashing space. To address the ranking problem, we propose an end-to-end framework, called Attention-based Triplet Hashing (ATH) network, to learn low-dimensional hash codes that preserve the classification, ROI, and small-sample information. We embed a spatial-attention module into the network structure of our ATH to focus on ROI information. The spatial-attention module aggregates the spatial information of feature maps by utilizing max-pooling, element-wise maximum, and element-wise mean operations jointly along the channel axis. The triplet cross-entropy loss can help to map the classification information of images and similarity between images into the hash codes. Extensive experiments on two case-based medical datasets demonstrate that our proposed ATH can further improve the retrieval performance compared to the state-of-the-art deep hashing methods and boost the ranking performance for small samples. Compared to the other loss methods, the triplet cross-entropy loss can enhance the classification performance and hash code-discriminabilit y
翻訳日:2021-02-01 12:50:29 公開日:2021-01-29
# 病理画像解析のためのペトリディッシュ

A Petri Dish for Histopathology Image Analysis ( http://arxiv.org/abs/2101.12355v1 )

ライセンス: Link先を確認
Jerry Wei and Arief Suriawinata and Bing Ren and Xiaoying Liu and Mikhail Lisovsky and Louis Vaickus and Charles Brown and Michael Baker and Naofumi Tomita and Lorenzo Torresani and Jason Wei and Saeed Hassanpour(参考訳) ディープラーニングの台頭に伴い、病理学者が顕微鏡で手作業で検査する生検や切除標本の性質を調べる分野である組織病理学的画像解析にニューラルネットワークを使用することへの関心が高まっています。 しかし、組織病理学的画像解析では、限られたデータ、コストのかかるアノテーション、高解像度および可変サイズの画像の処理などの課題は、参入障壁が高く、モデル設計を迅速に繰り返すことが困難になります。 科学史を通じて、多くの重要な研究の方向性は、大規模なアプリケーションで検証される探索的なアイデアを効率的に評価するためにペトリ皿として小規模の実験的なセットアップを利用しました。 例えば、ショウジョウバエは遺伝学で、MNISTはコンピュータビジョンでよく知られるペトリ料理である。 本稿では,組織病理画像解析のための類似ペトリディッシュであるミニマリスト組織病理画像解析データセット(MHIST)について紹介する。 MHISTは、大腸ポリープの3,152の固定サイズの画像のバイナリ分類データセットであり、それぞれ7人のボード認定消化器病理学者とアノテーションー合意レベルの過半数によって決定される金標準ラベルを有する。 MHISTは400MB未満のディスク空間を占めており、ResNet-18ベースラインはNVIDIA RTX 3090の3.5GBメモリを使用して6分でMHISTに収束するように訓練することができる。 例えば、MHISTを使ってデータセットのサイズ、ネットワーク深度、転送学習、モデルパフォーマンスに影響するハイディグリーメントの例など、自然な質問を研究しています。 MHISTの導入により、現在の組織病理画像研究者の作業を容易にするだけでなく、組織病理画像解析を一般的なコンピュータビジョンコミュニティにとってよりアクセスしやすくすることを願っています。 私たちのデータセットはhttps://bmirds.githu b.io/MHISTで入手できます。

With the rise of deep learning, there has been increased interest in using neural networks for histopathology image analysis, a field that investigates the properties of biopsy or resected specimens that are traditionally manually examined under a microscope by pathologists. In histopathology image analysis, however, challenges such as limited data, costly annotation, and processing high-resolution and variable-size images create a high barrier of entry and make it difficult to quickly iterate over model designs. Throughout scientific history, many significant research directions have leveraged small-scale experimental setups as petri dishes to efficiently evaluate exploratory ideas, which are then validated in large-scale applications. For instance, the Drosophila fruit fly in genetics and MNIST in computer vision are well-known petri dishes. In this paper, we introduce a minimalist histopathology image analysis dataset (MHIST), an analogous petri dish for histopathology image analysis. MHIST is a binary classification dataset of 3,152 fixed-size images of colorectal polyps, each with a gold-standard label determined by the majority vote of seven board-certified gastrointestinal pathologists and annotator agreement level. MHIST occupies less than 400 MB of disk space, and a ResNet-18 baseline can be trained to convergence on MHIST in just 6 minutes using 3.5 GB of memory on a NVIDIA RTX 3090. As example use cases, we use MHIST to study natural questions such as how dataset size, network depth, transfer learning, and high-disagreement examples affect model performance. By introducing MHIST, we hope to not only help facilitate the work of current histopathology imaging researchers, but also make histopathology image analysis more accessible to the general computer vision community. Our dataset is available at https://bmirds.githu b.io/MHIST.
翻訳日:2021-02-01 12:49:44 公開日:2021-01-29
# ビデオに基づく集団推定のための不確かさマッチング付き時空間拡張畳み込み

Spatiotemporal Dilated Convolution with Uncertain Matching for Video-based Crowd Estimation ( http://arxiv.org/abs/2101.12439v1 )

ライセンス: Link先を確認
Yu-Jen Ma, Hong-Han Shuai, and Wen-Huang Cheng(参考訳) 本論文では,3D畳み込みの分解と3D時空間拡張密度畳み込みを含み,Conv3D層に起因するモデルサイズの急速な成長を緩和する映像に基づく群集カウント問題に対処するための,新しいテンポテンポラル畳み込みネットワーク(STDNet)を提案する。 さらに,拡張畳み込みはマルチスケールな特徴を抽出し,拡張畳み込みとチャネルアテンションブロックを組み合わせることで特徴表現を向上させる。 特にビデオでは、群衆のラベル付けの困難さから生じるエラーのため、不正確で標準に一貫性のないラベルはモデルの収束不良につながる可能性がある。 この問題に対処するため,我々はさらに,オリジナルの画素損失を改善する新しいパッチワイズレグレッション損失(prl)を提案する。 3つのビデオベースのベンチマーク、すなわちUCSD、Malma、WorldExpo'10データセットの実験結果は、STDNetが画像とビデオの両方の最先端の方法よりも優れていることを示している。 ソースコードは \url{https://github.com/s tdnet/stdnet} でリリースされる。

In this paper, we propose a novel SpatioTemporal convolutional Dense Network (STDNet) to address the video-based crowd counting problem, which contains the decomposition of 3D convolution and the 3D spatiotemporal dilated dense convolution to alleviate the rapid growth of the model size caused by the Conv3D layer. Moreover, since the dilated convolution extracts the multiscale features, we combine the dilated convolution with the channel attention block to enhance the feature representations. Due to the error that occurs from the difficulty of labeling crowds, especially for videos, imprecise or standard-inconsisten t labels may lead to poor convergence for the model. To address this issue, we further propose a new patch-wise regression loss (PRL) to improve the original pixel-wise loss. Experimental results on three video-based benchmarks, i.e., the UCSD, Mall and WorldExpo'10 datasets, show that STDNet outperforms both image- and video-based state-of-the-art methods. The source codes are released at \url{https://github.com/S TDNet/STDNet}.
翻訳日:2021-02-01 12:48:52 公開日:2021-01-29
# 単一画像参照のためのフィードバックによるロバスト表現学習

Robust Representation Learning with Feedback for Single Image Deraining ( http://arxiv.org/abs/2101.12463v1 )

ライセンス: Link先を確認
Chenghao Chen and Hao Li(参考訳) 送出網は条件発生器として解釈できる。 レーダリングネットワークによって生成される画像劣化は、条件として機能する欠陥のある埋め込み特徴によって引き起こされる。 既存の画像参照手法は通常、不確実性に起因するモデルエラーを無視し、品質を低下させ、品質の低い機能をモデルに直接組み込む。 対照的に、低品質の機能を潜伏する高品質な機能に置き換える。 自動制御分野における閉ループフィードバックの精神を借用し、潜在的な高品質な特徴を得る。 モデルエラーに対処するために,新しい誤り検出法と特徴補償法を提案する。 ベンチマークデータセットと特定の実データセットに関する大規模な実験は、最近の最先端手法よりも提案手法の利点を実証している。

A deraining network may be interpreted as a condition generator. Image degradation generated by the deraining network can be attributed to defective embedding features that serve as conditions. Existing image deraining methods usually ignore uncertainty-caused model errors that lower embedding quality and embed low-quality features into the model directly. In contrast, we replace low-quality features by latent high-quality features. The spirit of closed-loop feedback in the automatic control field is borrowed to obtain latent high-quality features. A new method for error detection and feature compensation is proposed to address model errors. Extensive experiments on benchmark datasets as well as specific real datasets demonstrate the advantage of the proposed method over recent state-of-the-art methods.
翻訳日:2021-02-01 12:48:10 公開日:2021-01-29
# 冠動脈疾患における血管造影ビデオシーケンスの自動ディープラーニング解析

Automated Deep Learning Analysis of Angiography Video Sequences for Coronary Artery Disease ( http://arxiv.org/abs/2101.12505v1 )

ライセンス: Link先を確認
Chengyang Zhou, Thao Vy Dinh, Heyi Kong, Jonathan Yap, Khung Keong Yeo, Hwee Kuan Lee, Kaicheng Liang(参考訳) 冠動脈閉塞 (狭窄) の評価は現在, 医師による冠動脈造影ビデオの視覚的評価により行われている。 手間がかかり、オブザーバ間のバリエーションに影響を受けやすい。 以前の研究はこのプロセスを自動化しようとしたが、アンギオグラムのエンドツーエンド分析のための統合アルゴリズムのスイートを実証した例はほとんどない。 深層学習に基づく自動解析パイプラインを報告し, 冠動脈造影を迅速かつ客観的に評価し, 興味ある冠動脈を強調表示し, 潜在的な狭窄を定量化する。 本稿では,キーフレーム抽出,血管分割,狭窄測定からなる3段階自動解析法を提案する。 ResNetやU-Netなどの強力なディープラーニングアプローチと、従来の画像処理と幾何学的分析を組み合わせたものです。 右冠動脈(RCA)の左前方斜め(LAO)のアルゴリズムを第3の心臓組織から得られた匿名化された血管造影を用いて訓練し、そのアルゴリズムを右前方斜め(RAO)の視点に一般化できることをテストしました。 キーフレーム抽出トップ5の精度98.4%,血管分割f1-score0.891,狭窄測定20.7%の誤差率で,従来の作業の全体的な改善を示した。

The evaluation of obstructions (stenosis) in coronary arteries is currently done by a physician's visual assessment of coronary angiography video sequences. It is laborious, and can be susceptible to interobserver variation. Prior studies have attempted to automate this process, but few have demonstrated an integrated suite of algorithms for the end-to-end analysis of angiograms. We report an automated analysis pipeline based on deep learning to rapidly and objectively assess coronary angiograms, highlight coronary vessels of interest, and quantify potential stenosis. We propose a 3-stage automated analysis method consisting of key frame extraction, vessel segmentation, and stenosis measurement. We combined powerful deep learning approaches such as ResNet and U-Net with traditional image processing and geometrical analysis. We trained and tested our algorithms on the Left Anterior Oblique (LAO) view of the right coronary artery (RCA) using anonymized angiograms obtained from a tertiary cardiac institution, then tested the generalizability of our technique to the Right Anterior Oblique (RAO) view. We demonstrated an overall improvement on previous work, with key frame extraction top-5 precision of 98.4%, vessel segmentation F1-Score of 0.891 and stenosis measurement 20.7% Type I Error rate.
翻訳日:2021-02-01 12:47:41 公開日:2021-01-29
# Open World Compositional Zero-Shot Learning

Open World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2101.12609v1 )

ライセンス: Link先を確認
Massimiliano Mancini, Muhammad Ferjad Naeem, Yongqin Xian, Zeynep Akata(参考訳) 構成ゼロショット学習(CZSL)は、訓練中に見えない状態オブジェクトの合成を認識する必要がある。 本研究では,未発見の合成に関する事前知識の存在を仮定する代わりに,探索空間が多数の未発見の合成を含むオープンワールド設定で動作し,その一部は実現不可能である。 この設定では、視覚的特徴と構成的埋め込みの間のコサイン類似性から始めます。 各構成の実行可能性スコアを推定した後、これらのスコアを用いて出力空間を直接マスクするか、トレーニング中の視覚特徴と構成埋め込みのコサイン類似性のマージンとして用いる。 2つの標準CZSLベンチマーク実験により、オープンワールド環境で適用した場合、全ての手法が深刻な性能劣化を被ることが示された。 私たちの単純なczslモデルはクローズド・ワールドのシナリオで最先端のパフォーマンスを達成していますが、実現可能性スコアはオープン・ワールド・セッティングにおける我々のアプローチのパフォーマンスを高めます。

Compositional Zero-Shot learning (CZSL) requires to recognize state-object compositions unseen during training. In this work, instead of assuming the presence of prior knowledge about the unseen compositions, we operate on the open world setting, where the search space includes a large number of unseen compositions some of which might be unfeasible. In this setting, we start from the cosine similarity between visual features and compositional embeddings. After estimating the feasibility score of each composition, we use these scores to either directly mask the output space or as a margin for the cosine similarity between visual features and compositional embeddings during training. Our experiments on two standard CZSL benchmarks show that all the methods suffer severe performance degradation when applied in the open world setting. While our simple CZSL model achieves state-of-the-art performances in the closed world scenario, our feasibility scores boost the performance of our approach in the open world setting, clearly outperforming the previous state of the art.
翻訳日:2021-02-01 12:46:33 公開日:2021-01-29
# 予習と一貫性を備えた驚くほど単純な半教師付きドメイン適応

Surprisingly Simple Semi-Supervised Domain Adaptation with Pretraining and Consistency ( http://arxiv.org/abs/2101.12727v1 )

ライセンス: Link先を確認
Samarth Mishra, Kate Saenko, Venkatesh Saligrama(参考訳) ビジュアルドメイン適応は、異なるソースドメインで利用可能なラベルを使用して、ターゲットのビジュアルドメインからイメージを分類する学習を含む。 一連の先行作業では、逆のドメインアライメントを使用して、適切なソース分類器がターゲットデータでうまく機能するドメイン不変機能空間を学習しようとする。 しかしこれは、ターゲットドメインのクラスA機能がソースのクラスB機能と一致しているエラーにつながる可能性がある。 ターゲットラベルが複数存在する場合, 自己監督(回転予測による)や整合性正規化といった単純な手法が, 逆アライメントなしに有効であり, 優れたターゲット分類器を学習できることを示した。 当社のPAC(Pretraining and Consistency)アプローチは、この半監視されたドメイン適応タスクの最先端の精度を達成し、複数のデータセットにわたる複数の逆のドメインアライメント方法を超えることができます。 特に、大きな挑戦的なdomainnetベンチマークでは、最近のアプローチを3~5%上回っており、敵のアライメントによるエラーの修正において、これらの単純なテクニックの強みを示している。

Visual domain adaptation involves learning to classify images from a target visual domain using labels available in a different source domain. A range of prior work uses adversarial domain alignment to try and learn a domain invariant feature space, where a good source classifier can perform well on target data. This however, can lead to errors where class A features in the target domain get aligned to class B features in source. We show that in the presence of a few target labels, simple techniques like self-supervision (via rotation prediction) and consistency regularization can be effective without any adversarial alignment to learn a good target classifier. Our Pretraining and Consistency (PAC) approach, can achieve state of the art accuracy on this semi-supervised domain adaptation task, surpassing multiple adversarial domain alignment methods, across multiple datasets. Notably, it outperforms all recent approaches by 3-5% on the large and challenging DomainNet benchmark, showing the strength of these simple techniques in fixing errors made by adversarial alignment.
翻訳日:2021-02-01 12:45:56 公開日:2021-01-29
# ReLU$^k$とコサインネットワークの最適近似速度と計量エントロピー

Optimal Approximation Rates and Metric Entropy of ReLU$^k$ and Cosine Networks ( http://arxiv.org/abs/2101.12365v1 )

ライセンス: Link先を確認
Jonathan W. Siegel, Jinchao Xu(参考訳) 本稿では、近似空間のキャラクタリゼーション、これらの空間の計量エントロピーの決定、ニューラルネットワークの近似率など、ニューラルネットワークの近似理論に関連するいくつかの基本的な問題に対処する。 任意の活性化関数 $\sigma$ に対して、対応する浅層ニューラルネットワークによって効率的に近似できる関数の最大のバナッハ空間は、集合 $\{\pm\sigma(\omega\cdo t x + b)\} の閉凸包のゲージによってノルムが与えられる空間であることを示す。 この空間を ReLU$^k$ およびコサイン活性化関数に特徴づけ、特に、結果のゲージ空間が $\sigma=\cos$ のスペクトルバロン空間と等価であり、$\sigma={\rm ReLU}$ のときバロン空間と等価であることを示した。 我々の主な結果は、これらのグエージ空間の単位球の l^2$-metric entropy の正確な漸近性を確立し、その結果、浅い relu$^k$ ネットワークに対する最適近似レートを確立することである。 最も鋭い結果は、k=0$ と $d=2$ の特別な場合のみであり、計量エントロピーは対数因子によって決定されている。 k > 0$ または $d > 2$ の場合、前回の最高値と下限値の間には大きなギャップがある。 これらのギャップを全て閉じて、前述の対数的因子の除去を含むすべての$k \geq 0$と$d\geq 2$に対する計量エントロピーの正確な漸近性を決定する。 最後に、これらの結果を用いて、$\sigma={\rm ReLU}^k$ のとき、$\{\pm\sigma(\omega\cdo t x + b)\}$ の凸船体に対してバロンのスペクトル条件がどれだけ失われるかを定量化する。

This article addresses several fundamental issues associated with the approximation theory of neural networks, including the characterization of approximation spaces, the determination of the metric entropy of these spaces, and approximation rates of neural networks. For any activation function $\sigma$, we show that the largest Banach space of functions which can be efficiently approximated by the corresponding shallow neural networks is the space whose norm is given by the gauge of the closed convex hull of the set $\{\pm\sigma(\omega\cdo t x + b)\}$. We characterize this space for the ReLU$^k$ and cosine activation functions and, in particular, show that the resulting gauge space is equivalent to the spectral Barron space if $\sigma=\cos$ and is equivalent to the Barron space when $\sigma={\rm ReLU}$. Our main result establishes the precise asymptotics of the $L^2$-metric entropy of the unit ball of these guage spaces and, as a consequence, the optimal approximation rates for shallow ReLU$^k$ networks. The sharpest previous results hold only in the special case that $k=0$ and $d=2$, where the metric entropy has been determined up to logarithmic factors. When $k > 0$ or $d > 2$, there is a significant gap between the previous best upper and lower bounds. We close all of these gaps and determine the precise asymptotics of the metric entropy for all $k \geq 0$ and $d\geq 2$, including removing the logarithmic factors previously mentioned. Finally, we use these results to quantify how much is lost by Barron's spectral condition relative to the convex hull of $\{\pm\sigma(\omega\cdo t x + b)\}$ when $\sigma={\rm ReLU}^k$.
翻訳日:2021-02-01 12:45:16 公開日:2021-01-29
# subgraph appointment: ネットワークにおけるsubgraph検索の例によるクエリ

Subgraph nomination: Query by Example Subgraph Retrieval in Networks ( http://arxiv.org/abs/2101.12430v1 )

ライセンス: Link先を確認
Al-Fahad M. Al-Qadhi, Carey E. Priebe, Hayden S. Helm, Vince Lyzinski(参考訳) 本稿では,興味あるサブグラフを用いてネットワークに類似した興味深いサブグラフを問い合わせるサブグラフ指名推論タスクについて紹介する。 このタイプの問題は、例えば、社会および生物学的/接続性ネットワークにおけるユーザー推奨システムおよび構造検索タスクに関連する現実世界の問題に何度も現れます。 我々は,subgraph指名パイプラインにおけるユーザ・イン・ザ・ループの概念に着目し,subgraph指名フレームワークを正式に定義する。 この設定では、ユーザーは検索タスクに組み込むことができる追加後光監督を提供することができます。 検索タスクの導入と形式化後、実データ例とシミュレーションデータ例の両方において、ユーザ・スーパービジョンがパフォーマンスに与える影響について検討する。

This paper introduces the subgraph nomination inference task, in which example subgraphs of interest are used to query a network for similarly interesting subgraphs. This type of problem appears time and again in real world problems connected to, for example, user recommendation systems and structural retrieval tasks in social and biological/connectom ic networks. We formally define the subgraph nomination framework with an emphasis on the notion of a user-in-the-loop in the subgraph nomination pipeline. In this setting, a user can provide additional post-nomination light supervision that can be incorporated into the retrieval task. After introducing and formalizing the retrieval task, we examine the nuanced effect that user-supervision can have on performance, both analytically and across real and simulated data examples.
翻訳日:2021-02-01 12:44:18 公開日:2021-01-29
# 歴史的都市地図のセマンティックセグメンテーションのためのニューラルネットワーク:文化横断性能と比喩的多様性の影響

Neural networks for semantic segmentation of historical city maps: Cross-cultural performance and the impact of figurative diversity ( http://arxiv.org/abs/2101.12478v1 )

ライセンス: Link先を確認
R\'emi Petitpierre (Ecole polytechnique f\'ed\'erale de Lausanne, EPFL, Switzerland)(参考訳) 本研究では, 柔軟性と性能の面で, 歴史都市地図の新しいセマンティックセグメンテーションモデルを提案する。 自動地図処理の研究は主に均質なコーパスや個々の地図に焦点が当てられ、柔軟性のないアルゴリズムに繋がる。 近年、畳み込みニューラルネットワークは、より汎用的なツールの開発に新たな視点を開いている。 パリを中心とする2つの新しい地図コーパスと、世界中の都市を集結する第2の地図コーパスに基づいて、大規模な定量的分析を可能にする従来のコンピュータビジョンアルゴリズムに基づくフィギュレーションの運用方法を提案する。 第二段階として,ニューラルネットワークに基づく意味セグメンテーションモデルを提案し,いくつかの改良を行った。 最後に,マップフィギュレーションがセグメンテーション性能に与える影響を分析し,ニューラルネットワークの表現柔軟性を改善するための今後の方法を評価する。 結論として、これらのネットワークは、非常に大きな比喩的多様性のマップデータを効率よく意味的にセグメント化できることを示す。

In this work, we present a new semantic segmentation model for historical city maps that surpasses the state of the art in terms of flexibility and performance. Research in automatic map processing is largely focused on homogeneous corpora or even individual maps, leading to inflexible algorithms. Recently, convolutional neural networks have opened new perspectives for the development of more generic tools. Based on two new maps corpora, the first one centered on Paris and the second one gathering cities from all over the world, we propose a method for operationalizing the figuration based on traditional computer vision algorithms that allows large-scale quantitative analysis. In a second step, we propose a semantic segmentation model based on neural networks and implement several improvements. Finally, we analyze the impact of map figuration on segmentation performance and evaluate future ways to improve the representational flexibility of neural networks. To conclude, we show that these networks are able to semantically segment map data of a very large figurative diversity with efficiency.
翻訳日:2021-02-01 12:43:45 公開日:2021-01-29
# 学習性能向上のための多項軌道予測

Polynomial Trajectory Predictions for Improved Learning Performance ( http://arxiv.org/abs/2101.12616v1 )

ライセンス: Link先を確認
Ido Freeman, Kun Zhao, Anton Kummert(参考訳) 自動車アプリケーションにおけるアクティブセーフティシステムの需要の高まりは、信頼性の高い短期から中期の軌道予測の必要性を強調しています。 道路利用者の展開経路を予測すれば、全体の安全性を高めることができる。 本研究では,時間関数として自然な形状の軌道を予測することにより,運動理解のための人工ニューラルネットワークの訓練を提案する。 多項式係数の予測により精度が向上し、一般化が向上する。

The rising demand for Active Safety systems in automotive applications stresses the need for a reliable short to mid-term trajectory prediction. Anticipating the unfolding path of road users, one can act to increase the overall safety. In this work, we propose to train artificial neural networks for movement understanding by predicting trajectories in their natural form, as a function of time. Predicting polynomial coefficients allows us to increased accuracy and improve generalisation.
翻訳日:2021-02-01 12:43:05 公開日:2021-01-29
# 風洞下でのMAVの学習型対モデルフリー適応制御

Learning-based vs Model-free Adaptive Control of a MAV under Wind Gust ( http://arxiv.org/abs/2101.12501v1 )

ライセンス: Link先を確認
Thomas Chaffre, Julien Moras, Adrien Chan-Hon-Tong, Julien Marzat, Karl Sammut, Gilles Le Chenadec, Benoit Clement(参考訳) 未知の様々な条件下でのナビゲーション問題は、制御分野で最も重要な、よく研究された問題の一つです。 古典的なモデルに基づく適応制御法は、植物や環境の便利なモデルが提供される場合にのみ適用できる。 最近のモデルフリー適応制御法は、センサフィードバックから直接プラントやプロセスの性質を学習することで、この依存性を取り除くことを目的としている。 これらの手法を改良する試みは以前からあったが、いずれのパラダイムにもとづく制御システムにおいて、現実的な不確実性に対処できるかどうかについては未解決のままである。 本研究では,ソフトアクタ-クリティックアルゴリズムに基づく深層強化学習フレームワークを用いて,完全な状態フィードバック制御系からなる,概念的に単純な学習ベースアプローチを提案する。 リアルなシミュレーションでは、同じ深層強化学習フレームワークを使用して、風力ガストの下でのマイクロ空中車両の制御を行うモデルフリーのコントローラと比較します。 この結果は,現代の力学系における学習に基づく適応制御手法の大きな可能性を示している。

Navigation problems under unknown varying conditions are among the most important and well-studied problems in the control field. Classic model-based adaptive control methods can be applied only when a convenient model of the plant or environment is provided. Recent model-free adaptive control methods aim at removing this dependency by learning the physical characteristics of the plant and/or process directly from sensor feedback. Although there have been prior attempts at improving these techniques, it remains an open question as to whether it is possible to cope with real-world uncertainties in a control system that is fully based on either paradigm. We propose a conceptually simple learning-based approach composed of a full state feedback controller, tuned robustly by a deep reinforcement learning framework based on the Soft Actor-Critic algorithm. We compare it, in realistic simulations, to a model-free controller that uses the same deep reinforcement learning framework for the control of a micro aerial vehicle under wind gust. The results indicate the great potential of learning-based adaptive control methods in modern dynamical systems.
翻訳日:2021-02-01 12:42:38 公開日:2021-01-29
# 分布近似のための深層生成ネットワークの容量について

On the capacity of deep generative networks for approximating distributions ( http://arxiv.org/abs/2101.12353v1 )

ライセンス: Link先を確認
Yunfei Yang, Zhen Li, Yang Wang(参考訳) 確率分布を近似する深層生成ネットワークの有効性と効率について検討した。 ニューラルネットワークは、Wasserstein距離における高次元ターゲット分布に任意に近い分布に一次元ソース分布を変換できることを証明している。 近似誤差の上限は、ニューラルネットワークの幅と深さの点で得られる。 近似誤差は、最も線形に周囲の次元に成長し、近似順序は、ターゲット分布の本質的な次元にのみ依存することを示した。 逆に、$f$-divergences が分布の指標として使われる場合、近似特性は異なる。 我々は,目標分布を$f$-divergencesで近似するために,ソース分布の次元が対象分布の内在次元よりも小さくならないことを証明した。 したがって、$f$-divergences はサンプルを生成するための分布の指標としてwaserstein距離よりも不十分である。

We study the efficacy and efficiency of deep generative networks for approximating probability distributions. We prove that neural networks can transform a one-dimensional source distribution to a distribution that is arbitrarily close to a high-dimensional target distribution in Wasserstein distances. Upper bounds of the approximation error are obtained in terms of neural networks' width and depth. It is shown that the approximation error grows at most linearly on the ambient dimension and that the approximation order only depends on the intrinsic dimension of the target distribution. On the contrary, when $f$-divergences are used as metrics of distributions, the approximation property is different. We prove that in order to approximate the target distribution in $f$-divergences, the dimension of the source distribution cannot be smaller than the intrinsic dimension of the target distribution. Therefore, $f$-divergences are less adequate than Waserstein distances as metrics of distributions for generating samples.
翻訳日:2021-02-01 12:42:02 公開日:2021-01-29
# (参考訳) Efficient-CapsNet:セルフアテンションルーティングを備えたカプセルネットワーク [全文訳有]

Efficient-CapsNet: Capsule Network with Self-Attention Routing ( http://arxiv.org/abs/2101.12491v1 )

ライセンス: CC BY-SA 4.0
Vittorio Mazzia, Francesco Salvetti, Marcello Chiaberge(参考訳) アーキテクチャ設計戦略に支援されたディープ畳み込みニューラルネットワークは、オブジェクト変換を埋め込むために、多数の機能マップを持つデータ拡張技術とレイヤを広範囲に活用する。 これは非常に非効率であり、大きなデータセットの場合、特徴検出器の大規模な冗長性を意味する。 カプセルネットワークはまだ初期段階にあるが、現在の畳み込みネットワークを拡張し、より効率的に機能アフィン変換をエンコードするプロセスで人工視覚を付与する、有望なソリューションとなっている。 実際、適切に動作するカプセルネットワークは、新しい視点に一般化する本質的な能力により、かなり少ないパラメータ数で理論的により高い結果を得るべきである。 しかし、この点にはほとんど注意が払われていない。 本論文では,カプセルネットワークの効率性を検討し,その容量を極端に160Kパラメータの極限アーキテクチャに押し上げることにより,提案されたアーキテクチャが,元のCapsNetパラメータのわずか2%で3つの異なるデータセットにおける最先端の結果を達成できることを証明した。 さらに, カプセル数の減少に容易に対処できる新しい非イテレーティブな並列化可能なルーティングアルゴリズムを動的ルーティングに置き換えた。 他のカプセル実装との広範な実験は、私たちの方法論の有効性とカプセルネットワークが、より一般化しやすい視覚表現を効率的に埋め込む能力を示しています。

Deep convolutional neural networks, assisted by architectural design strategies, make extensive use of data augmentation techniques and layers with a high number of feature maps to embed object transformations. That is highly inefficient and for large datasets implies a massive redundancy of features detectors. Even though capsules networks are still in their infancy, they constitute a promising solution to extend current convolutional networks and endow artificial visual perception with a process to encode more efficiently all feature affine transformations. Indeed, a properly working capsule network should theoretically achieve higher results with a considerably lower number of parameters count due to intrinsic capability to generalize to novel viewpoints. Nevertheless, little attention has been given to this relevant aspect. In this paper, we investigate the efficiency of capsule networks and, pushing their capacity to the limits with an extreme architecture with barely 160K parameters, we prove that the proposed architecture is still able to achieve state-of-the-art results on three different datasets with only 2% of the original CapsNet parameters. Moreover, we replace dynamic routing with a novel non-iterative, highly parallelizable routing algorithm that can easily cope with a reduced number of capsules. Extensive experimentation with other capsule implementations has proved the effectiveness of our methodology and the capability of capsule networks to efficiently embed visual representations more prone to generalization.
翻訳日:2021-02-01 12:41:17 公開日:2021-01-29