このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210107となっている論文です。

PDF登録状況(公開日: 20210107)

TitleAuthorsAbstract論文公表日・翻訳日
# ドメイン適応セグメンテーションにおける多様な特徴と逆アンビバレンスの利用

Exploiting Diverse Characteristics and Adversarial Ambivalence for Domain Adaptive Segmentation ( http://arxiv.org/abs/2012.05608v2 )

ライセンス: Link先を確認
Bowen Cai, Huan Fu, Rongfei Jia, Binqiang Zhao, Hua Li, Yinghui Xu(参考訳) セマンティックセグメンテーションモデルを新しいドメインに適応させることは重要だが、難しい問題である。 近年,新たなターゲットドメインが異質なサブドメイン(気象特性の多様性など)から構成される実際のデータセットでは,既存の手法の性能は不十分である。 対象領域における多重モダリティを慎重に推論することで、適応モデルのロバスト性を向上させることができることを指摘した。 そこで本研究では,apat(special attentive progressive adversarial training)機構と新しい自己学習方針により,条件付き適応フレームワークを提案する。 APAT戦略は、段階的に条件固有アライメントと注意深いグローバル特徴マッチングを実行する。 新たな自己学習方式は,容易かつハードな適応領域の逆アンバイバレンスと,対象サブドメイン間の相関を効果的に活用する。 気象条件の異なる様々な適応シナリオに対して,本手法(DCAA)を評価した。 ベースラインと最先端のアプローチの比較は、競合相手よりもDCAAの方が優れていることを示している。

Adapting semantic segmentation models to new domains is an important but challenging problem. Recently enlightening progress has been made, but the performance of existing methods are unsatisfactory on real datasets where the new target domain comprises of heterogeneous sub-domains (e.g., diverse weather characteristics). We point out that carefully reasoning about the multiple modalities in the target domain can improve the robustness of adaptation models. To this end, we propose a condition-guided adaptation framework that is empowered by a special attentive progressive adversarial training (APAT) mechanism and a novel self-training policy. The APAT strategy progressively performs condition-specific alignment and attentive global feature matching. The new self-training scheme exploits the adversarial ambivalences of easy and hard adaptation regions and the correlations among target sub-domains effectively. We evaluate our method (DCAA) on various adaptation scenarios where the target images vary in weather conditions. The comparisons against baselines and the state-of-the-art approaches demonstrate the superiority of DCAA over the competitors.
翻訳日:2021-05-15 06:22:40 公開日:2021-01-07
# 線形混合マルコフ決定過程に対する最短最適強化学習

Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes ( http://arxiv.org/abs/2012.08507v2 )

ライセンス: Link先を確認
Dongruo Zhou and Quanquan Gu and Csaba Szepesvari(参考訳) 我々は,マルコフ決定過程(mdp)の根底となる遷移確率核が線形混合モデル(jia et al., 2020; ayoub et al., 2020; zhou et al., 2020)である線形関数近似による強化学習(rl)について検討し,学習エージェントが個々の基底核の統合あるいはサンプリング神託にアクセス可能であることを検証した。 有界雑音を伴う線形バンディット問題に対する自己正規化マーティンゲールに対するベルンシュタイン型濃度不等式を提案する。 この新しい不等式に基づき、エピソディックな未説明設定の線形混合mdpに対して $\text{ucrl-vtr}^{+}$ という線形関数近似を用いた計算効率の高い新しいアルゴリズムを提案する。 $\text{UCRL-VTR}^{+}$ は $\tilde O(dH\sqrt{T})$ regret となるが、$d$ は特徴写像の次元、$H$ はエピソードの長さ、$T$ は MDP との相互作用の数である。 この設定に対して、一致する下限の$\Omega(dH\sqrt{T})$を証明し、$\text{UCRL-VTR}^{+}$が対数因子まで最小値であることを示す。 さらに,同じmdp群に対して,割引下で$\text{uclk}^{+}$アルゴリズムを提案し,$\gamma\in [0,1)$がディスカウント係数である場合,$\tilde o(d\sqrt{t}/(1-\gamma)^{1.5})$ regret が得られることを示す。 我々の上界は、Zhouらによって証明された下界$\Omega(d\sqrt{T}/(1-\gamma)^{1.5})$と一致する。 (2020) 対数因子からすると、$\text{uclk}^{+}$ はほぼミニマックス最適である。 我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。

We study reinforcement learning (RL) with linear function approximation where the underlying transition probability kernel of the Markov decision process (MDP) is a linear mixture model (Jia et al., 2020; Ayoub et al., 2020; Zhou et al., 2020) and the learning agent has access to either an integration or a sampling oracle of the individual basis kernels. We propose a new Bernstein-type concentration inequality for self-normalized martingales for linear bandit problems with bounded noise. Based on the new inequality, we propose a new, computationally efficient algorithm with linear function approximation named $\text{UCRL-VTR}^{+}$ for the aforementioned linear mixture MDPs in the episodic undiscounted setting. We show that $\text{UCRL-VTR}^{+}$ attains an $\tilde O(dH\sqrt{T})$ regret where $d$ is the dimension of feature mapping, $H$ is the length of the episode and $T$ is the number of interactions with the MDP. We also prove a matching lower bound $\Omega(dH\sqrt{T})$ for this setting, which shows that $\text{UCRL-VTR}^{+}$ is minimax optimal up to logarithmic factors. In addition, we propose the $\text{UCLK}^{+}$ algorithm for the same family of MDPs under discounting and show that it attains an $\tilde O(d\sqrt{T}/(1-\gamma)^{1.5})$ regret, where $\gamma\in [0,1)$ is the discount factor. Our upper bound matches the lower bound $\Omega(d\sqrt{T}/(1-\gamma)^{1.5})$ proved by Zhou et al. (2020) up to logarithmic factors, suggesting that $\text{UCLK}^{+}$ is nearly minimax optimal. To the best of our knowledge, these are the first computationally efficient, nearly minimax optimal algorithms for RL with linear function approximation.
翻訳日:2021-05-07 05:30:43 公開日:2021-01-07
# 言語に基づく説得ゲームにおける決定の予測

Predicting Decisions in Language Based Persuasion Games ( http://arxiv.org/abs/2012.09966v2 )

ライセンス: Link先を確認
Reut Apel, Ido Erev, Roi Reichart, and Moshe Tennenholtz(参考訳) センダー・レシーバー相互作用、特に説得ゲームは、経済モデリングや人工知能の分野で広く研究されており、強力な応用のための強固な基盤となっている。 しかし、古典的な説得ゲームでは、専門家から意思決定者へ送られたメッセージは、自然言語は現実世界の説得設定において非常に一般的な通信信号であるが、自然言語よりも抽象的あるいはよく構造化されたアプリケーション固有の信号である。 本稿では, 説得ゲームにおける自然言語の利用について論じ, プレイヤーの意思決定への影響を探究し, それらの予測のための効果的なモデルの構築を目指す。 この目的のために,オンライン繰り返しインタラクション実験を行う。 対話の各試行において、インフォームド・エキスパートは、ホテルを記述したレビューを送ることで、無形意思決定者に対してホテルでの休暇を売ることを目指している。 専門家はいくつかの評価を受けたレビューに晒されるが、意思決定者は専門家が送ったレビューのみを観察し、ホテルを取ることを選択した場合の支払いは、専門家のみが利用できるレビュースコアの分布からランダムに引き出される。 専門家の支払いは、意思決定者がホテルを選ぶ回数に依存する。 モデルタイプ(ディープニューラルネットワーク(DNN)と線形分類器)、モデルで使用される機能の種類(テキスト, 行動, 両方)、およびテキスト機能(DNNベースと手作り)のソース(DNNベースと手作り)で異なる多くのモデリング手法を検討する。 その結果、インタラクションシーケンスのプレフィックスが与えられた場合、特に逐次モデリングアプローチと手作りのテキスト特徴が適用された場合に、モデルが意思決定者の将来的な決定を予測できることが示される。

Sender-receiver interactions, and specifically persuasion games, are widely researched in economic modeling and artificial intelligence, and serve as a solid foundation for powerful applications. However, in the classic persuasion games setting, the messages sent from the expert to the decision-maker are abstract or well-structured application-specific signals rather than natural (human) language messages, although natural language is a very common communication signal in real-world persuasion setups. This paper addresses the use of natural language in persuasion games, exploring its impact on the decisions made by the players and aiming to construct effective models for the prediction of these decisions. For this purpose, we conduct an online repeated interaction experiment. At each trial of the interaction, an informed expert aims to sell an uninformed decision-maker a vacation in a hotel, by sending her a review that describes the hotel. While the expert is exposed to several scored reviews, the decision-maker observes only the single review sent by the expert, and her payoff in case she chooses to take the hotel is a random draw from the review score distribution available to the expert only. The expert's payoff, in turn, depends on the number of times the decision-maker chooses the hotel. We consider a number of modeling approaches for this setup, differing from each other in the model type (deep neural network (DNN) vs. linear classifier), the type of features used by the model (textual, behavioral or both) and the source of the textual features (DNN-based vs. hand-crafted). Our results demonstrate that given a prefix of the interaction sequence, our models can predict the future decisions of the decision-maker, particularly when a sequential modeling approach and hand-crafted textual features are applied.
翻訳日:2021-05-02 07:38:58 公開日:2021-01-07
# (参考訳) 条件付き期待作用素の非パラメトリック近似

Nonparametric approximation of conditional expectation operators ( http://arxiv.org/abs/2012.12917v2 )

ライセンス: CC BY 4.0
Mattes Mollenhauer and P\'eter Koltai(参考訳) 局所コンパクトハウスドルフ空間上の 2 つの確率変数 $X,Y$ の合同分布を考えると、最小の仮定の下で、$[Pf](x) := \mathbb{E}[f(Y) \mid X = x ]$ で定義される$L^2$-operator の統計的近似を研究する。 その領域を変更することで、Hilbert-Schmidt作用素が再生カーネルヒルベルト空間に作用する作用素ノルムにおいて、$P$を任意に適切に近似できることを示す。 この事実は、高密度部分空間上の有限ランク作用素によって、$P$がコンパクトでない場合でも、$P$を均一に推定することができる。 収束モードの観点からは、ガレルキン法のような古典的なパラメトリック射影法よりもカーネルベース技術の方が優れている。 これはまた、非パラメトリックな推定値である$p$が収束するオブジェクトを制限する新しい視点を提供する。 応用として,これらの結果はマルコフ遷移作用素のスペクトル解析技術群において特に重要であることを示す。 本研究は,カーネルベース非パラメトリック推論における多種多様な手法の理論的基礎であるいわゆるカーネル条件平均埋め込みに対する新たな漸近的視点を与える。

Given the joint distribution of two random variables $X,Y$ on some second countable locally compact Hausdorff space, we investigate the statistical approximation of the $L^2$-operator defined by $[Pf](x) := \mathbb{E}[ f(Y) \mid X = x ]$ under minimal assumptions. By modifying its domain, we prove that $P$ can be arbitrarily well approximated in operator norm by Hilbert--Schmidt operators acting on a reproducing kernel Hilbert space. This fact allows to estimate $P$ uniformly by finite-rank operators over a dense subspace even when $P$ is not compact. In terms of modes of convergence, we thereby obtain the superiority of kernel-based techniques over classically used parametric projection approaches such as Galerkin methods. This also provides a novel perspective on which limiting object the nonparametric estimate of $P$ converges to. As an application, we show that these results are particularly important for a large family of spectral analysis techniques for Markov transition operators. Our investigation also gives a new asymptotic perspective on the so-called kernel conditional mean embedding, which is the theoretical foundation of a wide variety of techniques in kernel-based nonparametric inference.
翻訳日:2021-04-25 20:32:20 公開日:2021-01-07
# sg-net: 言語表現のための構文案内トランスフォーマー

SG-Net: Syntax Guided Transformer for Language Representation ( http://arxiv.org/abs/2012.13915v2 )

ライセンス: Link先を確認
Zhuosheng Zhang, Yuwei Wu, Junru Zhou, Sufeng Duan, Hai Zhao, Rui Wang(参考訳) 人間の言語を理解することは人工知能の重要なテーマの一つだ。 言語表現においては,言語知識を詳細で長大なテキストから効果的にモデル化し,ノイズを取り除く能力は,その性能向上に不可欠である。 従来の注意モデルでは、明示的な制約なしにすべての単語に従わなければならない。 そこで本研究では,言語的動機づけのある単語表現のための明示的な構文制約をアテンション機構に組み込むことで,テキストモデリングを導くための構文の利用を提案する。 詳細は、自己注意ネットワーク(SAN)が支援するTransformerベースのエンコーダについて、SANにSDOI設計の構文依存性を導入し、構文誘導型自己注意型SDOI-SANを形成する。 次に、SG-Net(Syntax-Guided Network)は、元のTransformerエンコーダのSDOI-SANとSANで構成され、言語学にインスパイアされた表現を改善するための2つのコンテキストアーキテクチャである。 提案するsg-netは、典型的なトランスフォーマーエンコーダに適用される。 機械読解、自然言語推論、ニューラルネットワーク翻訳など、一般的なベンチマークタスクに関する広範な実験は、提案したSG-Net設計の有効性を示している。

Understanding human language is one of the key themes of artificial intelligence. For language representation, the capacity of effectively modeling the linguistic knowledge from the detail-riddled and lengthy texts and getting rid of the noises is essential to improve its performance. Traditional attentive models attend to all words without explicit constraint, which results in inaccurate concentration on some dispensable words. In this work, we propose using syntax to guide the text modeling by incorporating explicit syntactic constraints into attention mechanisms for better linguistically motivated word representations. In detail, for self-attention network (SAN) sponsored Transformer-based encoder, we introduce syntactic dependency of interest (SDOI) design into the SAN to form an SDOI-SAN with syntax-guided self-attention. Syntax-guided network (SG-Net) is then composed of this extra SDOI-SAN and the SAN from the original Transformer encoder through a dual contextual architecture for better linguistics inspired representation. The proposed SG-Net is applied to typical Transformer encoders. Extensive experiments on popular benchmark tasks, including machine reading comprehension, natural language inference, and neural machine translation show the effectiveness of the proposed SG-Net design.
翻訳日:2021-04-24 20:15:11 公開日:2021-01-07
# 敵攻撃に対するパッチワイズ++摂動

Patch-wise++ Perturbation for Adversarial Targeted Attacks ( http://arxiv.org/abs/2012.15503v2 )

ライセンス: Link先を確認
Lianli Gao, Qilong Zhang, Jingkuan Song and Heng Tao Shen(参考訳) ディープ・ニューラル・ネットワーク(dnn)の敵対的攻撃では大きな進歩を遂げているが、特に標的攻撃においては、その移動性は依然として不十分である。 1) ステップサイズが$\epsilon/t$であるt$イテレーションを$\epsilon$-constrain tに準拠させるように設定する。 この場合、ほとんどのピクセルは、非常に小さなノイズを付加することができ、$\epsilon$ 以下である。 しかし、DNNが抽出した画素の特徴はその周辺地域の影響を受けており、異なるDNNは認識において一般的に異なる識別領域に焦点を当てている。 これらの課題に対処するために,高い伝達性を有する逆例を作成することを目的としたパッチワイド反復法(PIM)を提案する。 具体的には、各イテレーションのステップサイズに増幅係数を導入し、$\epsilon$-constrain tをオーバーフローする1ピクセルの全体的な勾配が、プロジェクトカーネルによってその周辺領域に適切に割り当てられる。 しかし、攻撃対象は、敵の例を特定のクラスの領域に押し込むことであり、増幅要因が不適合につながる可能性がある。 そこで本研究では,White-boxアタックの性能を著しく損なうことなく,転送性を向上させるパッチワイズ++イテレーティブ手法(PIM++)を提案する。 我々の手法は一般に任意の勾配に基づく攻撃法に統合できる。 現在の攻撃方法と比較すると、防御モデルでは35.9\%、通常訓練されたモデルでは32.7\%が成功率を大幅に向上させた。

Although great progress has been made on adversarial attacks for deep neural networks (DNNs), their transferability is still unsatisfactory, especially for targeted attacks. There are two problems behind that have been long overlooked: 1) the conventional setting of $T$ iterations with the step size of $\epsilon/T$ to comply with the $\epsilon$-constrain t. In this case, most of the pixels are allowed to add very small noise, much less than $\epsilon$; and 2) usually manipulating pixel-wise noise. However, features of a pixel extracted by DNNs are influenced by its surrounding regions, and different DNNs generally focus on different discriminative regions in recognition. To tackle these issues, we propose a patch-wise iterative method (PIM) aimed at crafting adversarial examples with high transferability. Specifically, we introduce an amplification factor to the step size in each iteration, and one pixel's overall gradient overflowing the $\epsilon$-constrain t is properly assigned to its surrounding regions by a project kernel. But targeted attacks aim to push the adversarial examples into the territory of a specific class, and the amplification factor may lead to underfitting. Thus, we introduce the temperature and propose a patch-wise++ iterative method (PIM++) to further improve transferability without significantly sacrificing the performance of the white-box attack. Our method can be generally integrated to any gradient-based attack method. Compared with the current state-of-the-art attack methods, we significantly improve the success rate by 35.9\% for defense models and 32.7\% for normally trained models on average.
翻訳日:2021-04-17 17:07:50 公開日:2021-01-07
# (参考訳) 圧縮映像における自己認識型表情認識 [全文訳有]

Identity-aware Facial Expression Recognition in Compressed Video ( http://arxiv.org/abs/2101.00317v2 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Linghao Jin, Xu Han, Jun Lu, Jane You, Lingsheng Kong(参考訳) 本稿では,圧縮映像領域における表情表現を排除したオブジェクト間変化の探索を目的とする。 従来の方法のほとんどはrgb画像の配列を処理し、既成品や貴重な発現関連筋運動は圧縮フォーマットに埋め込まれている。 最大2桁の圧縮領域において、残留フレームから表現を明示的に推測し、事前訓練された顔認識ネットワークを用いてIフレームから識別因子を抽出することができる。 限界独立を強制することにより、表現特徴は表現に適しており、アイデンティティシフトに対して堅牢であることが期待される。 同一人物からの識別ラベルや複数の表現サンプルは不要である。 さらに、データセットに頂点フレームがアノテートされると、補足制約を追加して特徴レベルのゲームを正規化することができる。 実験では, 圧縮残枠のみを圧縮して表現予測を行う必要がある。 私たちのソリューションは、圧縮データで約3$\times$の推論を行う典型的なferベンチマークで、最近のデコードされたイメージベースメソッドと同等または優れたパフォーマンスを達成できます。

This paper targets to explore the inter-subject variations eliminated facial expression representation in the compressed video domain. Most of the previous methods process the RGB images of a sequence, while the off-the-shelf and valuable expression-related muscle movement already embedded in the compression format. In the up to two orders of magnitude compressed domain, we can explicitly infer the expression from the residual frames and possible to extract identity factors from the I frame with a pre-trained face recognition network. By enforcing the marginal independent of them, the expression feature is expected to be purer for the expression and be robust to identity shifts. We do not need the identity label or multiple expression samples from the same person for identity elimination. Moreover, when the apex frame is annotated in the dataset, the complementary constraint can be further added to regularize the feature-level game. In testing, only the compressed residual frames are required to achieve expression prediction. Our solution can achieve comparable or better performance than the recent decoded image based methods on the typical FER benchmarks with about 3$\times$ faster inference with compressed data.
翻訳日:2021-04-17 09:57:32 公開日:2021-01-07
# (参考訳) 雑多な背景下での群衆カウントのための地域的・意味的注意を伴うスケールアウェアネットワーク [全文訳有]

Scale-Aware Network with Regional and Semantic Attentions for Crowd Counting under Cluttered Background ( http://arxiv.org/abs/2101.01479v2 )

ライセンス: CC BY 4.0
Qiaosi Yi, Yunxing Liu, Aiwen Jiang, Juncheng Li, Kangfu Mei, and Mingwen Wang(参考訳) クラウドカウンティングは,近年注目度が高まっている公共安全関連分野において,大きな応用価値を示す重要な課題である。 本研究は, 人口数と人口密度推定の精度が主な関心事である。 深層学習の出現はこの分野の発展を大いに促進してきたが、乱雑な背景下での群集数えは依然として深刻な課題である。 この問題を解決するために,地域的・意味的な注意を喚起したSACCN(ScaleAware Crowd Counting Network)を提案する。 提案するsaccnは,浅層と深層にそれぞれ局所的および意味的自己付着機構を適用し,群集と背景を区別する。 さらに,非対称多スケールモジュール (AMM) はスケールの多様性の問題に対処するために提案され,また,群集スケールの変動を軽減するために,地域的注目度に基づく高密度接続とスキップ接続が設計されている。 複数の公開ベンチマークにおける広範囲な実験結果から,本提案手法は優れた性能を達成し,最先端手法を上回っています。 すべてのコードと事前訓練されたモデルがまもなくリリースされる。

Crowd counting is an important task that shown great application value in public safety-related fields, which has attracted increasing attention in recent years. In the current research, the accuracy of counting numbers and crowd density estimation are the main concerns. Although the emergence of deep learning has greatly promoted the development of this field, crowd counting under cluttered background is still a serious challenge. In order to solve this problem, we propose a ScaleAware Crowd Counting Network (SACCN) with regional and semantic attentions. The proposed SACCN distinguishes crowd and background by applying regional and semantic self-attention mechanisms on the shallow layers and deep layers, respectively. Moreover, the asymmetric multi-scale module (AMM) is proposed to deal with the problem of scale diversity, and regional attention based dense connections and skip connections are designed to alleviate the variations on crowd scales. Extensive experimental results on multiple public benchmarks demonstrate that our proposed SACCN achieves satisfied superior performances and outperform most state-of-the-art methods. All codes and pretrained models will be released soon.
翻訳日:2021-04-11 18:21:54 公開日:2021-01-07
# 差分比較による実践的ブラインドメンバーシップ推論攻撃

Practical Blind Membership Inference Attack via Differential Comparisons ( http://arxiv.org/abs/2101.01341v2 )

ライセンス: Link先を確認
Bo Hui, Yuchen Yang, Haolin Yuan, Philippe Burlina, Neil Zhenqiang Gong and Yinzhi Cao(参考訳) メンバーシップ推論(MI)攻撃は、対象とする学習モデル(ディープニューラルネットワークなど)のトレーニングに与えられたデータサンプルを使用したかどうかを推測することで、ユーザのプライバシに影響を与える。 文献には2種類のMI攻撃があり、すなわちこれらは影モデルと無影モデルである。 前者の成功は、シャドーモデルの品質、すなわち、シャドーモデルとターゲット間の転送可能性に大きく依存する。後者は、ターゲットモデルにアクセスできるブラックボックスのみを与えられた場合、地上の真理メンバーシップ情報にラベル付けされた適格なサンプルが不足しているため、シャドーモデルを用いたMI攻撃と比較して、未知を効果的に推測することはできない。 本稿では,ターゲットモデルを調査し,新たなアプローチである差分比較によってメンバーシップセマンティクスを抽出する,ブラインドミ(blindmi)と呼ばれるmi攻撃を提案する。 ハイレベルなアイデアは、ブラインドミがまず既存のサンプルを新しいサンプルに変換することで非メンバーのデータセットを生成し、その後、ターゲットのデータセットから生成された非メンバーのセットに反復的にサンプルを移動させるというものだ。 サンプルの微分移動が設定距離を増大させると、BlindMIはサンプルを非メンバーとみなし、その逆とみなす。 BlindMIを最先端のMI攻撃アルゴリズムと比較して評価した。 本評価では,ターゲットモデルのアーキテクチャや対象データセットの基底真理ラベルを知らないブラインド設定において,boeing-50やbirds-200といった一部のデータセットの最先端と比較して,blindmiがf1-scoreを20%近く改善することを示す。 また、BlindMIが最先端の防衛を倒すことも示している。

Membership inference (MI) attacks affect user privacy by inferring whether given data samples have been used to train a target learning model, e.g., a deep neural network. There are two types of MI attacks in the literature, i.e., these with and without shadow models. The success of the former heavily depends on the quality of the shadow model, i.e., the transferability between the shadow and the target; the latter, given only blackbox probing access to the target model, cannot make an effective inference of unknowns, compared with MI attacks using shadow models, due to the insufficient number of qualified samples labeled with ground truth membership information. In this paper, we propose an MI attack, called BlindMI, which probes the target model and extracts membership semantics via a novel approach, called differential comparison. The high-level idea is that BlindMI first generates a dataset with nonmembers via transforming existing samples into new samples, and then differentially moves samples from a target dataset to the generated, non-member set in an iterative manner. If the differential move of a sample increases the set distance, BlindMI considers the sample as non-member and vice versa. BlindMI was evaluated by comparing it with state-of-the-art MI attack algorithms. Our evaluation shows that BlindMI improves F1-score by nearly 20% when compared to state-of-the-art on some datasets, such as Purchase-50 and Birds-200, in the blind setting where the adversary does not know the target model's architecture and the target dataset's ground truth labels. We also show that BlindMI can defeat state-of-the-art defenses.
翻訳日:2021-04-11 11:28:15 公開日:2021-01-07
# (参考訳) ISETAuto:深度・放射量情報による車両検出 [全文訳有]

ISETAuto: Detecting vehicles with depth and radiance information ( http://arxiv.org/abs/2101.01843v2 )

ライセンス: CC BY 4.0
Zhenyi Liu, Joyce Farrell, Brian Wandell(参考訳) 自律運転アプリケーションは、深度センサーのLiDARと放射センサーカメラの2種類のセンサーシステムを使用して車両を識別する。 本研究では、複雑な日中における車両検出のためのResNetの性能(平均精度)を比較し、入力が深度マップ(D = d(x,y))、放射画像(L = r(x,y))、または両方[D,L]である場合のシーンを駆動する。 1)深度マップと放射率画像の空間サンプリング解像度が典型的なカメラ解像度と等しい場合、resnetは、放射率よりも深さから平均精度の高い車両を検出する。 2) 深度マップの空間的サンプリングが現在のlidarデバイスの範囲に減少するにつれて, 放射輝度に対するresnet平均精度は深さよりも高くなる。 (3) 深度マップと放射率画像を組み合わせたハイブリッドシステムの場合, 平均精度は深度や放射率のみを用いた場合よりも高い。 これらの観測をシミュレーションで確立し,実世界データを用いて確認した。 深度と放射率を組み合わせる利点は、2種類の情報に相補的な弱点があることに注意して説明できる。 放射データは、ダイナミックレンジと動きのぼかしによって制限される。 LiDARデータは空間分解能が比較的低い。 ResNetは2つのデータソースを効果的に組み合わせ、全体の車両検出を改善する。

Autonomous driving applications use two types of sensor systems to identify vehicles - depth sensing LiDAR and radiance sensing cameras. We compare the performance (average precision) of a ResNet for vehicle detection in complex, daytime, driving scenes when the input is a depth map (D = d(x,y)), a radiance image (L = r(x,y)), or both [D,L]. (1) When the spatial sampling resolution of the depth map and radiance image are equal to typical camera resolutions, a ResNet detects vehicles at higher average precision from depth than radiance. (2) As the spatial sampling of the depth map declines to the range of current LiDAR devices, the ResNet average precision is higher for radiance than depth. (3) For a hybrid system that combines a depth map and radiance image, the average precision is higher than using depth or radiance alone. We established these observations in simulation and then confirmed them using realworld data. The advantage of combining depth and radiance can be explained by noting that the two type of information have complementary weaknesses. The radiance data are limited by dynamic range and motion blur. The LiDAR data have relatively low spatial resolution. The ResNet combines the two data sources effectively to improve overall vehicle detection.
翻訳日:2021-04-11 08:37:32 公開日:2021-01-07
# (参考訳) ケプラーデータの分類モデルの比較 [全文訳有]

Comparing Classification Models on Kepler Data ( http://arxiv.org/abs/2101.01904v2 )

ライセンス: CC BY 4.0
Rohan Saha(参考訳) ケプラーの最初のミッションは機械的な故障で終了したが、ケプラー衛星はデータを収集し続けている。 分類モデルを用いて、外惑星が持つ特徴を理解し、それらの特徴を使用して、候補惑星に関するさらなる情報を調べることができる。 分類モデルに基づいて、観測中の惑星の確率を外惑星候補または偽陽性候補として求める。 モデルが観測が太陽系外惑星の候補であると予測した場合、さらなる調査を行うことができる。 モデルから、候補と偽陽性の違いを説明するような特徴を絞り込み、最終的にはモデルの効率を高め、モデルを微調整し、最終的には将来の太陽系外惑星を探索するプロセスに役立つ。 モデルの比較は、重要度をチェックするMcNemarのテストによってサポートされている。

Even though the original Kepler mission ended due to mechanical failures, the Kepler satellite continues to collect data. Using classification models, we can understand the features exoplanets possess and then use those features to investigate further for any more information on the candidate planet. Based on the classification model, the idea is to find out the probability of the planet under observation being a candidate for an exoplanet or a false positive. If the model predicts that the observation is a candidate for being an exoplanet, then the further investigation can be conducted. From the model, we can narrow down the features that might explain the difference between a candidate and a false-positive which ultimately helps us to increase the efficiency of any model and fine-tune the model and ultimately the process of searching for any future exoplanets. The model comparison is supported by McNemar's test for checking significance.
翻訳日:2021-04-11 06:07:35 公開日:2021-01-07
# (参考訳) 持続的農業における病の予測--乳牛の乳房炎発生の予測と説明 [全文訳有]

Predicting Illness for a Sustainable Dairy Agriculture: Predicting and Explaining the Onset of Mastitis in Dairy Cows ( http://arxiv.org/abs/2101.02188v2 )

ライセンス: CC BY 4.0
Cathal Ryan and Christophe Gu\'eret and Donagh Berry and Medb Corcoran and Mark T. Keane and Brian Mac Namee(参考訳) マスト炎は現代の乳製品産業にとって10億ドルの健康問題であり、抗生物質耐性に影響を及ぼす。 この病気の早期発症を特定するためにAI技術を使用することは、この農業セクターの持続可能性に大きな影響を及ぼす。 現在の乳房炎治療のアプローチには抗生物質が関与しており、この習慣はますます精査されている。 機械学習モデルを用いて、乳房炎を発症するリスクのある牛を識別し、標的とする治療体制をこれらの動物にのみ適用することで、より持続可能なアプローチが促進される。 しかし、そのようなモデルによる誤った予測は、金銭的損失、抗生物質の不要使用、さらには動物が早死にすることにつながる可能性があるため、ユーザとの信頼関係の構築や意思決定のより良い支援を予測するための説得力のある説明を生み出すことが重要である。 本稿では,牛の乳房炎感染を予測するシステムを構築し,これらの予測を偽物を用いて説明する。 我々は,このシステムを実演し,その構築に携わった農家との関わりを述べる。

Mastitis is a billion dollar health problem for the modern dairy industry, with implications for antibiotic resistance. The use of AI techniques to identify the early onset of this disease, thus has significant implications for the sustainability of this agricultural sector. Current approaches to treating mastitis involve antibiotics and this practice is coming under ever increasing scrutiny. Using machine learning models to identify cows at risk of developing mastitis and applying targeted treatment regimes to only those animals promotes a more sustainable approach. Incorrect predictions from such models, however, can lead to monetary losses, unnecessary use of antibiotics, and even the premature death of animals, so it is important to generate compelling explanations for predictions to build trust with users and to better support their decision making. In this paper we demonstrate a system developed to predict mastitis infections in cows and provide explanations of these predictions using counterfactuals. We demonstrate the system and describe the engagement with farmers undertaken to build it.
翻訳日:2021-04-11 03:04:50 公開日:2021-01-07
# TextBox: テキスト生成のための統一的でモジュール化された拡張可能なフレームワーク

TextBox: A Unified, Modularized, and Extensible Framework for Text Generation ( http://arxiv.org/abs/2101.02046v2 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Gaole He, Jinhao Jiang, Xiaoxuan Hu, Puzhao Xie, Wayne Xin Zhao, Ji-Rong Wen(参考訳) TextBoxと呼ばれるオープンライブラリをリリースし、統一され、モジュール化され、拡張可能なテキスト生成フレームワークを提供します。 TextBoxは、幅広いテキスト生成タスクとモデルをサポートすることを目指している。 TextBoxでは、ベンチマークデータセット上に複数のテキスト生成モデルを実装し、VAE、GAN、事前訓練された言語モデルなどのカテゴリをカバーする。 一方,本ライブラリは,モデルアーキテクチャ,推論,学習プロセスを高度に再利用可能なモジュールに適切に分解することにより,十分なモジュール化と拡張性を維持します。 研究者や実践者がベースラインモデルを効率的に再現し、新しいモデルを開発するのに特に適している。 TextBoxはPyTorchをベースに実装され、Apache License 2.0でhttps://github.com/R UCAIBox/TextBoxでリリースされた。

We release an open library, called TextBox, which provides a unified, modularized, and extensible text generation framework. TextBox aims to support a broad set of text generation tasks and models. In TextBox, we implements several text generation models on benchmark datasets, covering the categories of VAE, GAN, pre-trained language models, etc. Meanwhile, our library maintains sufficient modularity and extensibility by properly decomposing the model architecture, inference, learning process into highly reusable modules, which allows easily incorporating new models into our framework. It is specially suitable for researchers and practitioners to efficiently reproduce baseline models and develop new models. TextBox is implemented based on PyTorch, and released under Apache License 2.0 at https://github.com/R UCAIBox/TextBox.
翻訳日:2021-04-11 00:08:56 公開日:2021-01-07
# 幾何学的エントロピー探査

Geometric Entropic Exploration ( http://arxiv.org/abs/2101.02055v2 )

ライセンス: Link先を確認
Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Alaa Saade, Shantanu Thakoor, Bilal Piot, Bernardo Avila Pires, Michal Valko, Thomas Mesnard, Tor Lattimore, R\'emi Munos(参考訳) 複雑な強化学習(RL)タスクの解決には探索が不可欠である。 最大状態振動エントロピー (MSVE) は、全ての州をできるだけ均一に訪問することを目的とした、明確な政策最適化問題として探索問題を定式化する。 これは、探索が過渡的で最終的に消滅する標準的な不確実性ベースのアプローチとは対照的である。 しかし、MSVEに対する既存のアプローチは、連続領域の幾何学に従わないため、離散状態空間に対してのみ理論的に正当化される。 離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムであるGeometric Entropy Maximisation (GEM)を導入することでこの問題に対処する。 我々の理論上の重要な貢献は、単純で新しいノイズ共生目的関数を最適化するための扱いやすい問題として、幾何学を意識したmsve探索をキャスティングすることである。 実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。

Exploration is essential for solving complex Reinforcement Learning (RL) tasks. Maximum State-Visitation Entropy (MSVE) formulates the exploration problem as a well-defined policy optimization problem whose solution aims at visiting all states as uniformly as possible. This is in contrast to standard uncertainty-based approaches where exploration is transient and eventually vanishes. However, existing approaches to MSVE are theoretically justified only for discrete state-spaces as they are oblivious to the geometry of continuous domains. We address this challenge by introducing Geometric Entropy Maximisation (GEM), a new algorithm that maximises the geometry-aware Shannon entropy of state-visits in both discrete and continuous domains. Our key theoretical contribution is casting geometry-aware MSVE exploration as a tractable problem of optimising a simple and novel noise-contrastive objective function. In our experiments, we show the efficiency of GEM in solving several RL problems with sparse rewards, compared against other deep RL exploration approaches.
翻訳日:2021-04-11 00:06:03 公開日:2021-01-07
# (参考訳) 機械学習による非平面周囲惑星の安定性解析 [全文訳有]

Analyzing the Stability of Non-coplanar Circumbinary Planets using Machine Learning ( http://arxiv.org/abs/2101.02316v1 )

ライセンス: CC BY 4.0
Zhihui Kong, Jonathan H. Jiang, Zong-Hong Zhu, Kristen A. Fahy, Remo Burn(参考訳) 過去10年間、nasaのケプラーとtessのミッションによる太陽系外惑星の検出は、我々の太陽系の惑星とは大きく異なる多くの世界を発見してきた。 これは太陽系外惑星の多様性に対する我々の理解を広げるだけでなく、複雑な二星系や多星系における太陽系外惑星の研究を促進し、その居住可能性を調査する動機を与えます。 本研究では, 様々な軌道パラメータが軌道安定性に与える影響を定量化するために, 多数の周囲惑星試料を生成する数値シミュレーション法を用いて, 非平面系外惑星の軌道安定性を解析した。 また、周囲惑星系の安定性を迅速に決定できる機械学習モデルを訓練する。 以上の結果から、惑星の大きな傾斜は軌道の安定性を増加させる傾向があるが、地球と木星の間の質量範囲の変化は系の安定性にほとんど影響を与えないことが示唆された。 さらに,深層ニューラルネットワーク(dnn)は他の機械学習アルゴリズムよりも精度と精度が高いことが判明した。

Exoplanet detection in the past decade by efforts including NASA's Kepler and TESS missions has discovered many worlds that differ substantially from planets in our own Solar system, including more than 400 exoplanets orbiting binary or multi-star systems. This not only broadens our understanding of the diversity of exoplanets, but also promotes our study of exoplanets in the complex binary and multi-star systems and provides motivation to explore their habitability. In this study, we analyze orbital stability of exoplanets in non-coplanar circumbinary systems using a numerical simulation method, with which a large number of circumbinary planet samples are generated in order to quantify the effects of various orbital parameters on orbital stability. We also train a machine learning model that can quickly determine the stability of the circumbinary planetary systems. Our results indicate that larger inclinations of the planet tend to increase the stability of its orbit, but change in the planet's mass range between Earth and Jupiter has little effect on the stability of the system. In addition, we find that Deep Neural Networks (DNNs) have higher accuracy and precision than other machine learning algorithms.
翻訳日:2021-04-10 22:45:21 公開日:2021-01-07
# (参考訳) GraphHop: ノード分類のための拡張ラベル伝搬方法 [全文訳有]

GraphHop: An Enhanced Label Propagation Method for Node Classification ( http://arxiv.org/abs/2101.02326v1 )

ライセンス: CC BY 4.0
Tian Xie, Bin Wang, C.-C. Jay Kuo(参考訳) 本稿では,グラフ構造データに対するスケーラブルな半教師付きノード分類法であるgraphhopを提案する。 グラフにはすべてのノードの属性が含まれているが、いくつかのノードのラベルがある。 古典的ラベル伝搬(LP)法と新しいグラフ畳み込みネットワーク(GCN)は、この問題に対する2つの一般的な半教師付きソリューションである。 LP法は,大規模グラフ上でノード属性やラベルを協調的にモデル化したり,収束速度を遅くしたりするのに有効ではない。 GraphHopはその欠点に対して提案されている。 適切な初期ラベルベクター埋め込みでは、GraphHopの各イテレーションは、1)ラベルアグリゲーションと2)ラベル更新の2つのステップを含む。 ステップ1では、各ノードは前回のイテレーションで得られた隣人のラベルベクトルを集約する。 ステップ2では、ステップ1で得られたノード自体のラベル情報と集約されたラベル情報に基づいて、ノード毎に新しいラベルベクトルを予測する。 この反復的な手順は、近隣の情報を活用し、グラフホップが非常に小さなラベルレート設定でうまく機能し、非常に大きなグラフに対してうまくスケールすることができる。 実験結果から,グラフホップは様々な大きさのグラフにおいて,様々なタスク(引用ネットワーク,ソーシャルグラフ,消費グラフなど)において,最先端のグラフ学習手法よりも優れていた。 私たちのコードはgithubで公開されている(https://github.com/ tianxieusc/graphhop) 。

A scalable semi-supervised node classification method on graph-structured data, called GraphHop, is proposed in this work. The graph contains attributes of all nodes but labels of a few nodes. The classical label propagation (LP) method and the emerging graph convolutional network (GCN) are two popular semi-supervised solutions to this problem. The LP method is not effective in modeling node attributes and labels jointly or facing a slow convergence rate on large-scale graphs. GraphHop is proposed to its shortcoming. With proper initial label vector embeddings, each iteration of GraphHop contains two steps: 1) label aggregation and 2) label update. In Step 1, each node aggregates its neighbors' label vectors obtained in the previous iteration. In Step 2, a new label vector is predicted for each node based on the label of the node itself and the aggregated label information obtained in Step 1. This iterative procedure exploits the neighborhood information and enables GraphHop to perform well in an extremely small label rate setting and scale well for very large graphs. Experimental results show that GraphHop outperforms state-of-the-art graph learning methods on a wide range of tasks (e.g., multi-label and multi-class classification on citation networks, social graphs, and commodity consumption graphs) in graphs of various sizes. Our codes are publicly available on GitHub (https://github.com/ TianXieUSC/GraphHop) .
翻訳日:2021-04-10 22:36:33 公開日:2021-01-07
# (参考訳) グラフモデル残差からの潜在変数の同定 [全文訳有]

Identification of Latent Variables From Graphical Model Residuals ( http://arxiv.org/abs/2101.02332v1 )

ライセンス: CC BY 4.0
Boris Hayete, Fred Gruber, Anna Decker, Raymond Yan(参考訳) グラフに基づく因果発見法は、観測されたデータと一致する条件付き無依存を捉え、間接的または誘導的な因果関係を区別することを目的としている。 データのグラフィカルモデルの構築の成功は、因果的十分性(英語版)の仮定に依存する:すなわち、すべての共起変数が測定される。 この仮定が満たされない場合、学習されたグラフィカルな構造は任意に誤りとなり、そのようなモデルによって暗示される影響は誤った帰属、誤った大きさ、あるいは相関の誤った表現方向を持つ可能性がある。 グラフィカルモデルのより少ない「ビッグデータ」への広範な適用は、保存されていない共同設立問題に新たな注目を集める。 本稿では,推定モデルの残差から潜時空間のプロキシを反復的に導出することにより,DAGを推定する際の潜時空間の制御を目的とした新しい手法を提案する。 軽度の仮定の下では,ガウス図形モデルの構造的推論を改善し,因果効果の同定性を高める。 さらに、モデルが結果を予測するために使用される場合、結果の親の係数を解き、サンプル外のレジームがトレーニングデータと大きく異なる場合の予測性能を改善する。 結果の予測の改善は本質的にカプセル化されており,既成モデルと比較して一定の限界を超えないことを示す。 我々はこの方法論をggmを超えて順序変数や非線形ケースにまで拡張する。 我々のRパッケージはPCAとオートエンコーダの両方の実装を提供しており、GGMにはいくつかの保証があり、一般的には性能が向上するが、そのような保証はない。

Graph-based causal discovery methods aim to capture conditional independencies consistent with the observed data and differentiate causal relationships from indirect or induced ones. Successful construction of graphical models of data depends on the assumption of causal sufficiency: that is, that all confounding variables are measured. When this assumption is not met, learned graphical structures may become arbitrarily incorrect and effects implied by such models may be wrongly attributed, carry the wrong magnitude, or mis-represent direction of correlation. Wide application of graphical models to increasingly less curated "big data" draws renewed attention to the unobserved confounder problem. We present a novel method that aims to control for the latent space when estimating a DAG by iteratively deriving proxies for the latent space from the residuals of the inferred model. Under mild assumptions, our method improves structural inference of Gaussian graphical models and enhances identifiability of the causal effect. In addition, when the model is being used to predict outcomes, it un-confounds the coefficients on the parents of the outcomes and leads to improved predictive performance when out-of-sample regime is very different from the training data. We show that any improvement of prediction of an outcome is intrinsically capped and cannot rise beyond a certain limit as compared to the confounded model. We extend our methodology beyond GGMs to ordinal variables and nonlinear cases. Our R package provides both PCA and autoencoder implementations of the methodology, suitable for GGMs with some guarantees and for better performance in general cases but without such guarantees.
翻訳日:2021-04-10 22:13:57 公開日:2021-01-07
# (参考訳) 感情とパーソナリティ検出のためのマルチタスク学習 [全文訳有]

Multitask Learning for Emotion and Personality Detection ( http://arxiv.org/abs/2101.02346v1 )

ライセンス: CC BY-SA 4.0
Yang Li, Amirmohammad Kazameini, Yash Mehta, Erik Cambria(参考訳) 近年,深層学習に基づく人格特徴の自動検出が注目されている。 さらに、多くの研究者がパーソナリティ特性と感情の間に強い関連があることを実証している。 本稿では,人格特性と感情行動の相関関係を解明し,両者を同時に予測する新しいマルチタスク学習フレームワークSoGMTLを提案する。 また,2つのタスク間の異なる情報共有機構を実証的に評価し,議論する。 学習プロセスの質を高めるために,モデル最適化のためのMAMLライクなフレームワークを採用する。 より計算効率のよいCNNベースのマルチタスクモデルは、複数の有名人格や感情データセットをまたいだ最先端のパフォーマンスを実現します。

In recent years, deep learning-based automated personality trait detection has received a lot of attention, especially now, due to the massive digital footprints of an individual. Moreover, many researchers have demonstrated that there is a strong link between personality traits and emotions. In this paper, we build on the known correlation between personality traits and emotional behaviors, and propose a novel multitask learning framework, SoGMTL that simultaneously predicts both of them. We also empirically evaluate and discuss different information-sharing mechanisms between the two tasks. To ensure the high quality of the learning process, we adopt a MAML-like framework for model optimization. Our more computationally efficient CNN-based multitask model achieves the state-of-the-art performance across multiple famous personality and emotion datasets, even outperforming Language Model based models.
翻訳日:2021-04-10 21:35:21 公開日:2021-01-07
# (参考訳) aaai 2021におけるテキスト変換の課題 - 英語による偽ニュース検出 [全文訳有]

Exploring Text-transformers in AAAI 2021 Shared Task: COVID-19 Fake News Detection in English ( http://arxiv.org/abs/2101.02359v1 )

ライセンス: CC BY 4.0
Xiangyang Li, Yu Xia, Xiang Long, Zheng Li, Sujian Li(参考訳) 本稿では,aaai 2021における偽ニュース検出のタスクを英語で共有し,f1の重み付けスコア0.9859で3位に到達した。 具体的には、bert, roberta, ernie など、さまざまな事前学習された言語モデルのアンサンブル法を提案する。 ウォームアップ、ラーニングレートスケジュール、k-foldクロスバリデーションなど、さまざまなトレーニング戦略で。 また, 適切に分類されていない試料を広範囲に分析した。 コードは以下の通り。https://github.com/a rchersama/3rd-soluti on-COVID19-Fake-News -Detection-in- English。

In this paper, we describe our system for the AAAI 2021 shared task of COVID-19 Fake News Detection in English, where we achieved the 3rd position with the weighted F1 score of 0.9859 on the test set. Specifically, we proposed an ensemble method of different pre-trained language models such as BERT, Roberta, Ernie, etc. with various training strategies including warm-up,learning rate schedule and k-fold cross-validation. We also conduct an extensive analysis of the samples that are not correctly classified. The code is available at:https://github.co m/archersama/3rd-sol ution-COVID19-Fake-N ews-Detection-in-Eng lish.
翻訳日:2021-04-10 21:22:38 公開日:2021-01-07
# (参考訳) Dual-Teacher++: 心臓セグメンテーションのための信頼性トランスファーによるドメイン内知識とドメイン間知識のエクスプロイト [全文訳有]

Dual-Teacher++: Exploiting Intra-domain and Inter-domain Knowledge with Reliable Transfer for Cardiac Segmentation ( http://arxiv.org/abs/2101.02375v1 )

ライセンス: CC0 1.0
Kang Li, Shujun Wang, Lequan Yu, Pheng-Ann Heng(参考訳) 注釈不足は医用画像解析領域における長年の問題である。 制限されたアノテーションを効率的に活用するために、半教師付き学習では豊富なラベルなしデータも活用され、ドメイン適応では十分に確立されたクロスモダリティデータが研究される。 本稿では,非ラベル付きデータと相互モダリティデータの両方を併用して,アノテーション効率の良い心臓セグメンテーションの実現可能性を検討する。 そこで我々は,最先端の半教師付きドメイン適応フレームワークであるDual-Teacher++を提案する。 従来の文献で採用した学生モデルを用いて,ラベル付き対象領域データ(例えばct)から直接学習するだけでなく,ソースドメイン(例えばmr)からのクロスモダリティを探索するドメイン間教師モデルや,ラベル付き対象領域の知識を調査するドメイン内教師モデルなど,新たな2つの教師モデルを設計する。 このようにして、二重教師モデルは獲得したドメイン内およびドメイン内知識を学生モデルに転送し、さらなる統合と活用を行う。 さらに、信頼性の高い二重ドメイン知識転送を促進するため、外観アライメント後の対象ドメインとの類似度の高いサンプルのドメイン間知識転送を強化し、予測信頼度の高い未ラベル対象データのドメイン内知識転送を強化する。 このようにして、学生モデルは信頼できる二重ドメイン知識を得て、ターゲットドメインデータのパフォーマンスを向上させることができる。 MM-WHS 2017 チャレンジデータセットにおいて,提案手法の有効性を広く評価した。 実験は、他の半教師付き学習法やドメイン適応法よりも、我々のフレームワークの優位性を実証した。 さらに,MRIからCTへの適応,CTからMRへの適応,両方向の成績向上が期待できる。

Annotation scarcity is a long-standing problem in medical image analysis area. To efficiently leverage limited annotations, abundant unlabeled data are additionally exploited in semi-supervised learning, while well-established cross-modality data are investigated in domain adaptation. In this paper, we aim to explore the feasibility of concurrently leveraging both unlabeled data and cross-modality data for annotation-efficient cardiac segmentation. To this end, we propose a cutting-edge semi-supervised domain adaptation framework, namely Dual-Teacher++. Besides directly learning from limited labeled target domain data (e.g., CT) via a student model adopted by previous literature, we design novel dual teacher models, including an inter-domain teacher model to explore cross-modality priors from source domain (e.g., MR) and an intra-domain teacher model to investigate the knowledge beneath unlabeled target domain. In this way, the dual teacher models would transfer acquired inter- and intra-domain knowledge to the student model for further integration and exploitation. Moreover, to encourage reliable dual-domain knowledge transfer, we enhance the inter-domain knowledge transfer on the samples with higher similarity to target domain after appearance alignment, and also strengthen intra-domain knowledge transfer of unlabeled target data with higher prediction confidence. In this way, the student model can obtain reliable dual-domain knowledge and yield improved performance on target domain data. We extensively evaluated the feasibility of our method on the MM-WHS 2017 challenge dataset. The experiments have demonstrated the superiority of our framework over other semi-supervised learning and domain adaptation methods. Moreover, our performance gains could be yielded in bidirections,i.e., adapting from MR to CT, and from CT to MR.
翻訳日:2021-04-10 21:16:22 公開日:2021-01-07
# (参考訳) サンプリング速度向上のための反復生成モデルの知識蒸留 [全文訳有]

Knowledge Distillation in Iterative Generative Models for Improved Sampling Speed ( http://arxiv.org/abs/2101.02388v1 )

ライセンス: CC BY-SA 4.0
Eric Luhman, Troy Luhman(参考訳) 雑音条件スコアネットワークや拡散確率モデルなどの反復生成モデルは、初期雑音ベクトルを徐々にノイズ化し、高品質なサンプルを生成する。 しかし、それらの分解過程は多くのステップがあり、GANやVAEのような他の生成モデルよりも2~3桁遅い。 本稿では,複数段階の脱離過程を単一ステップに蒸留し,他の単一ステップ生成モデルと類似したサンプリング速度を実現する手法を用いて,知識蒸留と画像生成との新たな接続を確立する。 我々のDenoising Studentsは、CIFAR-10とCelebAデータセットに比較して高品質なサンプルを生成する。 本手法は256 x 256 lsun実験により高分解能にスケールできることを実証する。 コードとチェックポイントはhttps://github.com/t cl9876/Denoising_Stu dentで入手できる。

Iterative generative models, such as noise conditional score networks and denoising diffusion probabilistic models, produce high quality samples by gradually denoising an initial noise vector. However, their denoising process has many steps, making them 2-3 orders of magnitude slower than other generative models such as GANs and VAEs. In this paper, we establish a novel connection between knowledge distillation and image generation with a technique that distills a multi-step denoising process into a single step, resulting in a sampling speed similar to other single-step generative models. Our Denoising Student generates high quality samples comparable to GANs on the CIFAR-10 and CelebA datasets, without adversarial training. We demonstrate that our method scales to higher resolutions through experiments on 256 x 256 LSUN. Code and checkpoints are available at https://github.com/t cl9876/Denoising_Stu dent
翻訳日:2021-04-10 20:33:14 公開日:2021-01-07
# (参考訳) 深層学習における勾配降下の最適化戦略に関する包括的研究 [全文訳有]

A Comprehensive Study on Optimization Strategies for Gradient Descent In Deep Learning ( http://arxiv.org/abs/2101.02397v1 )

ライセンス: CC BY 4.0
Kaustubh Yadav(参考訳) ニューラルネットワークの最も重要な部分の1つは、モデルがどれほど良いか悪いかを示す損失関数を最小化することです。 これらの損失を最小限に抑えるには、重みとバイアスを調整する必要があります。 また、関数の最小値を計算するには勾配が必要である。 そして、重みを更新するには勾配降下が必要です。 しかし、正規勾配降下にはいくつかの問題がある。 かなり遅いし、それほど正確ではない。 この記事では,勾配降下の最適化戦略について紹介する。 さらに、これらのアルゴリズムのアーキテクチャや、ニューラルネットワーク全般のさらなる最適化についても論じる。

One of the most important parts of Artificial Neural Networks is minimizing the loss functions which tells us how good or bad our model is. To minimize these losses we need to tune the weights and biases. Also to calculate the minimum value of a function we need gradient. And to update our weights we need gradient descent. But there are some problems with regular gradient descent ie. it is quite slow and not that accurate. This article aims to give an introduction to optimization strategies to gradient descent. In addition, we shall also discuss the architecture of these algorithms and further optimization of Neural Networks in general
翻訳日:2021-04-10 20:18:37 公開日:2021-01-07
# (参考訳) クラスタリングアプローチを用いたbertを用いたホムニム識別 [全文訳有]

Homonym Identification using BERT -- Using a Clustering Approach ( http://arxiv.org/abs/2101.02398v1 )

ライセンス: CC BY 4.0
Rohan Saha(参考訳) 感覚の粗い分割を必要とするWSDにとって、ホモニムの識別は重要である。 このプロジェクトの目標は、文脈情報が偽語を識別するのに十分かどうかを判断することである。 コンテキストをキャプチャするために、BERTの埋め込みはWord2Vecとは対照的に使用される。 SemCorは埋め込みを取得するために利用される。 埋め込みに様々なクラスタリングアルゴリズムを適用する。 最後に、埋め込みを低次元空間に可視化し、クラスタリングプロセスの実現可能性を理解する。

Homonym identification is important for WSD that require coarse-grained partitions of senses. The goal of this project is to determine whether contextual information is sufficient for identifying a homonymous word. To capture the context, BERT embeddings are used as opposed to Word2Vec, which conflates senses into one vector. SemCor is leveraged to retrieve the embeddings. Various clustering algorithms are applied to the embeddings. Finally, the embeddings are visualized in a lower-dimensional space to understand the feasibility of the clustering process.
翻訳日:2021-04-10 19:54:51 公開日:2021-01-07
# (参考訳) 複合語変換器:動的指向型ハイパーグラフによる全曲音楽合成学習 [全文訳有]

Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs ( http://arxiv.org/abs/2101.02402v1 )

ライセンス: CC BY 4.0
Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh, Yi-Hsuan Yang(参考訳) 音楽生成タスクにトランスフォーマなどのニューラルシーケンスモデルを適用するには、予め定義された語彙の有限集合から引き出されたトークン列によって楽曲を表現しなければならない。 このような語彙は通常、様々な種類のトークンを含む。 例えば、音符を記述するには、音符のピッチ、持続時間、速度(力学)、および時間グリッドに沿った配置(セット時間)を示すために、別々のトークンが必要である。 異なる種類のトークンは異なる性質を持つ可能性があるが、既存のモデルは通常、自然言語で単語をモデル化するのと同じように、それらを扱う。 本稿では,メモ型やメトリック型といったトークンの型を明示的に考慮した,概念的に異なるアプローチを提案する。 また,異なるタイプのトークンをモデル化するために異なるフィードフォワードヘッドを使用するトランスフォーマーデコーダアーキテクチャを提案する。 拡張圧縮方式では,隣接するトークンをグループ化して楽曲を複合語列に変換し,トークン列の長さを大幅に削減する。 得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。 また,曲の長さ(曲ごとに最大10万個のトークンを含む)の表現力のあるポップピアノを条件付き・無条件で作曲することを学ぶ。 実験では、最先端モデルと比較して、トレーニング時の5~10倍の高速化(つまり11gbのメモリを持つシングルgpu上で1日以内)と、生成した音楽のクオリティが同等であることを示す。

To apply neural sequence models such as the Transformers to music generation tasks, one has to represent a piece of music by a sequence of tokens drawn from a finite set of pre-defined vocabulary. Such a vocabulary usually involves tokens of various types. For example, to describe a musical note, one needs separate tokens to indicate the note's pitch, duration, velocity (dynamics), and placement (onset time) along the time grid. While different types of tokens may possess different properties, existing models usually treat them equally, in the same way as modeling words in natural languages. In this paper, we present a conceptually different approach that explicitly takes into account the type of the tokens, such as note types and metric types. And, we propose a new Transformer decoder architecture that uses different feed-forward heads to model tokens of different types. With an expansion-compressio n trick, we convert a piece of music to a sequence of compound words by grouping neighboring tokens, greatly reducing the length of the token sequences. We show that the resulting model can be viewed as a learner over dynamic directed hypergraphs. And, we employ it to learn to compose expressive Pop piano music of full-song length (involving up to 10K individual tokens per song), both conditionally and unconditionally. Our experiment shows that, compared to state-of-the-art models, the proposed model converges 5--10 times faster at training (i.e., within a day on a single GPU with 11 GB memory), and with comparable quality in the generated music.
翻訳日:2021-04-10 19:49:02 公開日:2021-01-07
# (参考訳) グラフィカルラッソに基づく大規模多変量空間データのモデリング

Modeling massive multivariate spatial data with the basis graphical lasso ( http://arxiv.org/abs/2101.02404v1 )

ライセンス: CC BY 4.0
Mitchell Krock, William Kleiber, Dorit Hammerling, and Stephen Becker(参考訳) 本稿では,近年のマルチスケールおよびスペクトルアプローチのアイデアをグラフィカルモデルで合成する多変量空間プロセスのための新しいモデリングフレームワークを提案する。 基礎グラフィカルラッソは、$\ell_1$ペナル化確率を最適化してグラフを推定するガウスグラフィカルベクトルのエントリを重み付けた基底関数の線形結合として、不定ガウス過程を記述する。 本稿では,基礎関数をガウスベクトルで重み付けする多変量ガウス過程に設定を拡張する。 基本関数が解像度の異なるレベルを表し、各レベルに対するグラフィカルベクターが独立であると仮定したモデルにモチベーションを与える。 直交基底を使用すると、空間的位置の数、基底関数の数、実現数における線形複雑性とメモリ使用量が得られる。 追加の融合ペナルティは、多レベルグラフィカルモデルにおける相似条件独立構造を促進する。 我々は,国立大気研究センターの地域大気モデルから,40の空間過程を含む大規模な気候アンサンブルについて概説した。

We propose a new modeling framework for highly multivariate spatial processes that synthesizes ideas from recent multiscale and spectral approaches with graphical models. The basis graphical lasso writes a univariate Gaussian process as a linear combination of basis functions weighted with entries of a Gaussian graphical vector whose graph is estimated from optimizing an $\ell_1$ penalized likelihood. This paper extends the setting to a multivariate Gaussian process where the basis functions are weighted with Gaussian graphical vectors. We motivate a model where the basis functions represent different levels of resolution and the graphical vectors for each level are assumed to be independent. Using an orthogonal basis grants linear complexity and memory usage in the number of spatial locations, the number of basis functions, and the number of realizations. An additional fusion penalty encourages a parsimonious conditional independence structure in the multilevel graphical model. We illustrate our method on a large climate ensemble from the National Center for Atmospheric Research's Community Atmosphere Model that involves 40 spatial processes.
翻訳日:2021-04-10 19:31:46 公開日:2021-01-07
# (参考訳) 乳牛の反すうの検出: ディープラーニングによるアプローチ [全文訳有]

Dairy Cow rumination detection: A deep learning approach ( http://arxiv.org/abs/2101.10445v1 )

ライセンス: CC BY 4.0
Safa Ayadi, Ahmed ben said, Rateb Jabbar, Chafik Aloulou, Achraf Chabbouh, and Ahmed Ben Achballah(参考訳) 牛の活動は反響者の健康と福祉をモニタリングする上で不可欠な指標である。 したがって、家畜の行動の変化は、いくつかの疾患の早期発見と予防にとって重要な指標である。 ラミネート行動は、畜産業の発展と収量を追跡する重要な変数である。 そのため、牛の行動評価には様々なモニタリング方法や計測装置が用いられている。 しかし、現代のアタッチメント装置は牛にとって侵襲的でストレスが多く、不快であり、動物の福祉行動や昼行行動に悪影響を及ぼす可能性がある。 複数の研究が視覚的特徴に頼って新しい手法を採用することによりルミネーション検出の問題に対処した。 しかし、乳牛の姿勢は、反すう行動や摂食行動を認識するためにしか使われない。 本研究では,畳み込みニューラルネットワーク(CNN)に基づくディープラーニングモデルを用いた革新的なモニタリング手法を提案する。 分類プロセスは、監視カメラで撮影されたすべての牛の姿勢を用いて、ラミネートとその他の2つの主要なラベルで実行される。 提案システムは,ビデオのコンパクト化表現を1つの2次元画像に用いて,長期的ダイナミクスをキャプチャできる,シンプルで使いやすいシステムである。 この手法は, 95%, 98%, 98%の平均精度, 再現率, 精度のそれぞれで反すう行動の認識に有効であることを証明した。

Cattle activity is an essential index for monitoring health and welfare of the ruminants. Thus, changes in the livestock behavior are a critical indicator for early detection and prevention of several diseases. Rumination behavior is a significant variable for tracking the development and yield of animal husbandry. Therefore, various monitoring methods and measurement equipment have been used to assess cattle behavior. However, these modern attached devices are invasive, stressful and uncomfortable for the cattle and can influence negatively the welfare and diurnal behavior of the animal. Multiple research efforts addressed the problem of rumination detection by adopting new methods by relying on visual features. However, they only use few postures of the dairy cow to recognize the rumination or feeding behavior. In this study, we introduce an innovative monitoring method using Convolution Neural Network (CNN)-based deep learning models. The classification process is conducted under two main labels: ruminating and other, using all cow postures captured by the monitoring camera. Our proposed system is simple and easy-to-use which is able to capture long-term dynamics using a compacted representation of a video in a single 2D image. This method proved efficiency in recognizing the rumination behavior with 95%, 98% and 98% of average accuracy, recall and precision, respectively.
翻訳日:2021-04-10 19:30:22 公開日:2021-01-07
# (参考訳) 能動物体検出のためのプログレッシブ自己誘導損失 [全文訳有]

Progressive Self-Guided Loss for Salient Object Detection ( http://arxiv.org/abs/2101.02412v1 )

ライセンス: CC BY 4.0
Sheng Yang, Weisi Lin, Guosheng Lin, Qiuping Jiang, Zichuan Liu(参考訳) 本稿では,画像中のsod(deep learning-based salient object detection)を容易にするために,簡易かつ効果的な自己誘導損失関数を提案する。 最も関係のある作品によって生み出されるサリエンシーマップは、サルエント対象の内部複雑性のためにまだ不完全な予測に苦しめられている。 提案するプログレッシブ自己誘導損失は,学習過程を段階的に指導するプログレッシブおよび補助訓練監督を作成するためのモデル予測に関する形態的閉鎖操作をシミュレートする。 この新しい損失関数は、sodモデルがより完全なサルエントオブジェクトを段階的に強調すると同時に、サルエントオブジェクトピクセルの空間的依存性を、拡大する領域で解明するのに役立つことを実証する。 さらに,マルチスケールな特徴をキャプチャし,分岐的注意機構により適応的に集約する機能アグリゲーションモジュールを提案する。 このモジュールから恩恵を受けるため、当社のSODフレームワークは、適応的に集約されたマルチスケール機能を利用して、健全なオブジェクトの発見と検出を効果的に行う。 いくつかのベンチマークデータセットによる実験結果から、損失関数はアーキテクチャ変更なしに既存のSODモデルの性能を向上するだけでなく、提案したフレームワークが最先端のパフォーマンスを達成するのに役立ちます。

We present a simple yet effective progressive self-guided loss function to facilitate deep learning-based salient object detection (SOD) in images. The saliency maps produced by the most relevant works still suffer from incomplete predictions due to the internal complexity of salient objects. Our proposed progressive self-guided loss simulates a morphological closing operation on the model predictions for epoch-wisely creating progressive and auxiliary training supervisions to step-wisely guide the training process. We demonstrate that this new loss function can guide the SOD model to highlight more complete salient objects step-by-step and meanwhile help to uncover the spatial dependencies of the salient object pixels in a region growing manner. Moreover, a new feature aggregation module is proposed to capture multi-scale features and aggregate them adaptively by a branch-wise attention mechanism. Benefiting from this module, our SOD framework takes advantage of adaptively aggregated multi-scale features to locate and detect salient objects effectively. Experimental results on several benchmark datasets show that our loss function not only advances the performance of existing SOD models without architecture modification but also helps our proposed framework to achieve state-of-the-art performance.
翻訳日:2021-04-10 19:14:03 公開日:2021-01-07
# (参考訳) webから転送可能な属性抽出のための簡易domツリー [全文訳有]

Simplified DOM Trees for Transferable Attribute Extraction from the Web ( http://arxiv.org/abs/2101.02415v1 )

ライセンス: CC BY 4.0
Yichao Zhou, Ying Sheng, Nguyen Vo, Nick Edmonds, Sandeep Tata(参考訳) ウェブから構造化された知識(すなわち)を正確に抽出する必要がある。 HTMLドキュメント)。 ウェブページが与えられたら、興味のある属性(例えば、)とともに構造化されたオブジェクトを抽出する。 price, publisher, author, and genre for a book)は、大規模な知識ベース構築、eコマース製品検索、パーソナライズドレコメンデーションなど、下流のさまざまなアプリケーションを促進することができる。 各WebページがHTML DOMツリーからレンダリングされていることを考慮すれば、既存のアプローチはDOMツリーノードタグタスクとして問題を定式化する。 しかしながら、計算コストの高いビジュアル機能工学に依存するか、ツリーノード間の関係をモデル化できないかのどちらかである。 本稿では,木構造を利用して各ノードの有用なコンテキストを効率よく検索し,その問題に対処するために,トランスファー可能な新しい手法であるSimplified DOM Trees for Attribute extract (SimpDOM)を提案する。 実験では,2つの難解な設定について検討した: (i) 逆数点抽出, (ii) 領域外知識を用いた逆数点抽出, アプローチの評価。 SWDEの公開データセットに関する大規模な実験によると、SimpDOMはF1スコアに対して、最先端(SOTA)メソッドを1.44%上回っている。 また、異なる垂直(垂直方向抽出)からの知識を活用することは驚くほど有用であり、SOTAをさらに1.37%上回るのに役立ちます。

There has been a steady need to precisely extract structured knowledge from the web (i.e. HTML documents). Given a web page, extracting a structured object along with various attributes of interest (e.g. price, publisher, author, and genre for a book) can facilitate a variety of downstream applications such as large-scale knowledge base construction, e-commerce product search, and personalized recommendation. Considering each web page is rendered from an HTML DOM tree, existing approaches formulate the problem as a DOM tree node tagging task. However, they either rely on computationally expensive visual feature engineering or are incapable of modeling the relationship among the tree nodes. In this paper, we propose a novel transferable method, Simplified DOM Trees for Attribute Extraction (SimpDOM), to tackle the problem by efficiently retrieving useful context for each node by leveraging the tree structure. We study two challenging experimental settings: (i) intra-vertical few-shot extraction, and (ii) cross-vertical fewshot extraction with out-of-domain knowledge, to evaluate our approach. Extensive experiments on the SWDE public dataset show that SimpDOM outperforms the state-of-the-art (SOTA) method by 1.44% on the F1 score. We also find that utilizing knowledge from a different vertical (cross-vertical extraction) is surprisingly useful and helps beat the SOTA by a further 1.37%.
翻訳日:2021-04-10 18:54:04 公開日:2021-01-07
# (参考訳) 高速情報流における疑わしい事象の検出 [全文訳有]

Detecting Suspicious Events in Fast Information Flows ( http://arxiv.org/abs/2101.02424v1 )

ライセンス: CC BY 4.0
Kristiaan Pelckmans, Moustafa Aboushady, Andreas Brosemyr(参考訳) 本稿では,HALFADOという計算羽根光と直感的かつ効率の良いアルゴリズムについて述べる。 HALFADOは、人間の判断の比較的少数の例に基づいて、複雑なエントリの高周波ストリームにおける不審事象を検出するように設計されている。 十分に正確な検知システムを運用することは、現代のデジタル社会の様々な分野の人間専門家のチームにとって不可欠である。 これらのシステムは本質的には遠い規範的効果を持ち、そのような技術の作業に関する公共知識は人権であるべきである。 概念レベルでは、本手法はその理論的性質を継承し、分類のための最も古典的な学習アルゴリズムの1つを拡張する。 しかし、人間と計算知性を統合する半監督的な方法で機能する。 実用レベルでは、このアルゴリズムは既存のアプローチ(エキスパートシステム)を超越し、その性能を単一のグローバル検出器に管理し、強化する。 本稿では,(1)ソーシャルメディア・プラットフォームから収集したテキスト・メッセージの流れ中における"em hate speech"メッセージの検出,(2)フィンテックにおける取引監視システム(tms)による金融取引の流れにおける不正取引の検出,という2つの課題に対して,valadoの有効性を示す。 このアルゴリズムは、一般的な信念に反して、高度な機械学習手法は高度な計算能力や高価なアノテーションの努力を必要としないことを示している。

We describe a computational feather-light and intuitive, yet provably efficient algorithm, named HALFADO. HALFADO is designed for detecting suspicious events in a high-frequency stream of complex entries, based on a relatively small number of examples of human judgement. Operating a sufficiently accurate detection system is vital for {\em assisting} teams of human experts in many different areas of the modern digital society. These systems have intrinsically a far-reaching normative effect, and public knowledge of the workings of such technology should be a human right. On a conceptual level, the present approach extends one of the most classical learning algorithms for classification, inheriting its theoretical properties. It however works in a semi-supervised way integrating human and computational intelligence. On a practical level, this algorithm transcends existing approaches (expert systems) by managing and boosting their performance into a single global detector. We illustrate HALFADO's efficacy on two challenging applications: (1) for detecting {\em hate speech} messages in a flow of text messages gathered from a social media platform, and (2) for a Transaction Monitoring System (TMS) in FinTech detecting fraudulent transactions in a stream of financial transactions. This algorithm illustrates that - contrary to popular belief - advanced methods of machine learning need not require neither advanced levels of computation power nor expensive annotation efforts.
翻訳日:2021-04-10 18:11:34 公開日:2021-01-07
# (参考訳) 画像分類のための分布外検出法の実際的評価 [全文訳有]

Practical Evaluation of Out-of-Distribution Detection Methods for Image Classification ( http://arxiv.org/abs/2101.02447v1 )

ライセンス: CC BY 4.0
Engkarat Techapanurak, Takayuki Okatani(参考訳) 我々は画像認識のためのOOD検出手法の評価を再考する。 より優れたOOD検出法を構築するために多くの研究が行われてきたが、そのほとんどはヘンドリックスとギンペルの実験的な評価法に追随している。 公正な比較には統一評価法が必要であるが、タスクとデータセットの選択が現実世界のアプリケーションに反映するかどうか、評価結果が他のOOD検出アプリケーションシナリオに一般化できるかどうかが疑問である。 本稿では,様々なデータセットや分類タスクにおいて,非関連な入力検出,新しいクラス検出,ドメインシフト検出の3つのシナリオに対して,代表OOD検出手法の性能を実験的に評価する。 その結果,シナリオとデータセットの違いにより,手法間の相対的な性能が変化することがわかった。 また,OOD検出法を選択するための実践者のためのガイドとしても利用できる。

We reconsider the evaluation of OOD detection methods for image recognition. Although many studies have been conducted so far to build better OOD detection methods, most of them follow Hendrycks and Gimpel's work for the method of experimental evaluation. While the unified evaluation method is necessary for a fair comparison, there is a question of if its choice of tasks and datasets reflect real-world applications and if the evaluation results can generalize to other OOD detection application scenarios. In this paper, we experimentally evaluate the performance of representative OOD detection methods for three scenarios, i.e., irrelevant input detection, novel class detection, and domain shift detection, on various datasets and classification tasks. The results show that differences in scenarios and datasets alter the relative performance among the methods. Our results can also be used as a guide for practitioners for the selection of OOD detection methods.
翻訳日:2021-04-10 18:03:46 公開日:2021-01-07
# (参考訳) 識別性向上のための散布イン・アウト・オブ・ディストリビューションサンプル [全文訳有]

Bridging In- and Out-of-distribution Samples for Their Better Discriminability ( http://arxiv.org/abs/2101.02500v1 )

ライセンス: CC BY 4.0
Engkarat Techapanurak, Anh-Chuong Dang, Takayuki Okatani(参考訳) 本稿では,OOD検出手法を提案する。 IDとOODのサンプルは別々に分離されているというこれまでの研究の前提に疑問を呈し、2つの中間に位置するサンプルを検討し、それらをネットワークのトレーニングに利用した。 我々は複数の画像変換を用いて、様々な方法で入力を破損させ、重大度レベルが異なるようなサンプルを生成する。 クリーンなIDサンプルをトレーニングしたネットワークを用いて,単一の画像変換によって生成されたサンプルが,IDとOODの間にどこにあるかを推定する。 具体的には,ネットワークが生成したサンプルを分類し,その平均分類精度を算出し,ソフトターゲットラベルを作成する。 元のidサンプルと生成されたサンプルを使って、同じネットワークをスクラッチからトレーニングします。 我々は予測ソフトマックス確率のエントロピーをしきい値にすることでOODサンプルを検出する。 実験結果から,本手法は従来のベンチマークテストよりも優れた性能を示した。 また,画像劣化変換の回数と特定の組み合わせが性能に与える影響を解析した。

This paper proposes a method for OOD detection. Questioning the premise of previous studies that ID and OOD samples are separated distinctly, we consider samples lying in the intermediate of the two and use them for training a network. We generate such samples using multiple image transformations that corrupt inputs in various ways and with different severity levels. We estimate where the generated samples by a single image transformation lie between ID and OOD using a network trained on clean ID samples. To be specific, we make the network classify the generated samples and calculate their mean classification accuracy, using which we create a soft target label for them. We train the same network from scratch using the original ID samples and the generated samples with the soft labels created for them. We detect OOD samples by thresholding the entropy of the predicted softmax probability. The experimental results show that our method outperforms the previous state-of-the-art in the standard benchmark tests. We also analyze the effect of the number and particular combinations of image corrupting transformations on the performance.
翻訳日:2021-04-10 17:28:45 公開日:2021-01-07
# (参考訳) レンダーヒトからの人体計測の学習 [全文訳有]

Learning Anthropometry from Rendered Humans ( http://arxiv.org/abs/2101.02515v1 )

ライセンス: CC BY 4.0
Song Yan and Joni-Kristian K\"am\"ar\"ainen(参考訳) RGB画像からの人体計測の正確な推定は、産業デザイン、オンライン衣服、医療診断、エルゴノミクスに多くの可能性を持つ。 このトピックの研究は、商用CAESARデータセットの3Dボディスキャンに3Dボディメッシュを適合させることに基づいて生成されたデータセットのみが存在するという事実によって制限されている。 2dではシルエットのみが生成される。 データボトルネックを回避するために,2,675名の女性と1,474名の男性による新たな3dスキャンデータセットを導入する。 また,200枚のRGB画像とテープ計測地上真実の小さなデータセットも導入した。 2つの新しいデータセットの助けを借りて,2次元画像から人文計測を推定する部分型形状モデルと深層ニューラルネットワークを提案する。 すべてのデータは公開される予定だ。

Accurate estimation of anthropometric body measurements from RGB images has many potential applications in industrial design, online clothing, medical diagnosis and ergonomics. Research on this topic is limited by the fact that there exist only generated datasets which are based on fitting a 3D body mesh to 3D body scans in the commercial CAESAR dataset. For 2D only silhouettes are generated. To circumvent the data bottleneck, we introduce a new 3D scan dataset of 2,675 female and 1,474 male scans. We also introduce a small dataset of 200 RGB images and tape measured ground truth. With the help of the two new datasets we propose a part-based shape model and a deep neural network for estimating anthropometric measurements from 2D images. All data will be made publicly available.
翻訳日:2021-04-10 16:38:59 公開日:2021-01-07
# (参考訳) 信頼性の不明なマージ

Merging with unknown reliability ( http://arxiv.org/abs/2101.02516v1 )

ライセンス: CC BY 4.0
Paolo Liberatore(参考訳) 信念の融合は、ソースの相対的信頼性に依存する。 未知の場合、同等の信頼性を仮定することは不当である。 この記事では、すべての信頼性プロファイルが可能であり、すべてに応じて保持するもののみが受け入れられる、という解決策を提案します。 あるいは、あるソースは完全に信頼できるが、どれが不明である。 これらの2つのケースは、マキシコンベースのマージと仲裁という2つの既存のマージを動機付けている。

Merging beliefs depends on the relative reliability of their sources. When unknown, assuming equal reliability is unwarranted. The solution proposed in this article is that every reliability profile is possible, and only what holds according to all is accepted. Alternatively, one source is completely reliable, but which one is unknown. These two cases motivate two existing forms of merging: maxcons-based merging and arbitration.
翻訳日:2021-04-10 16:26:19 公開日:2021-01-07
# (参考訳) クラス不均衡による小数点学習

Few-Shot Learning with Class Imbalance ( http://arxiv.org/abs/2101.02523v1 )

ライセンス: CC BY 4.0
Mateusz Ochal, Massimiliano Patacchiola, Amos Storkey, Jose Vazquez, Sen Wang(参考訳) 少数ショット学習は、クエリセットから取得したサンプルを一般化するために、サポートセットに与えられた限られた数のラベル付きサンプルでモデルをトレーニングすることを目的としている。 標準設定では、サポートセットは各クラスに対して等しい量のデータポイントを含んでいる。 しかし、この仮定は、クラス不均衡のような実世界の動的な性質から生じる多くの実践的な考察を見落としている。 本稿では,メタデータセット対タスク不均衡,異なる不均衡分布の効果(線形,ステップ,ランダム),再バランス手法の効果の3つの軸に沿ったクラス不均衡について詳細に検討する。 非バランスなタスクとメタデータセットを用いた10以上の最先端のショットラーニングとメタラーニングを比較した。 Our analysis using Mini-ImageNet reveals that 1) compared to the balanced task, the performances on class-imbalance tasks counterparts always drop, by up to $18.0\%$ for optimization-based methods, and up to $8.4$ for metric-based methods, 2) contrary to popular belief, meta-learning algorithms, such as MAML, do not automatically learn to balance by being exposed to imbalanced tasks during (meta-)training time, 3) strategies used to mitigate imbalance in supervised learning, such as oversampling, can offer a stronger solution to the class imbalance problem, 4) the effect of imbalance at the meta-dataset level is less significant than the effect at the task level with similar imbalance magnitude. 実験を再現するコードはオープンソースライセンスでリリースされている。

Few-shot learning aims to train models on a limited number of labeled samples given in a support set in order to generalize to unseen samples from a query set. In the standard setup, the support set contains an equal amount of data points for each class. However, this assumption overlooks many practical considerations arising from the dynamic nature of the real world, such as class-imbalance. In this paper, we present a detailed study of few-shot class-imbalance along three axes: meta-dataset vs. task imbalance, effect of different imbalance distributions (linear, step, random), and effect of rebalancing techniques. We extensively compare over 10 state-of-the-art few-shot learning and meta-learning methods using unbalanced tasks and meta-datasets. Our analysis using Mini-ImageNet reveals that 1) compared to the balanced task, the performances on class-imbalance tasks counterparts always drop, by up to $18.0\%$ for optimization-based methods, and up to $8.4$ for metric-based methods, 2) contrary to popular belief, meta-learning algorithms, such as MAML, do not automatically learn to balance by being exposed to imbalanced tasks during (meta-)training time, 3) strategies used to mitigate imbalance in supervised learning, such as oversampling, can offer a stronger solution to the class imbalance problem, 4) the effect of imbalance at the meta-dataset level is less significant than the effect at the task level with similar imbalance magnitude. The code to reproduce the experiments is released under an open-source license.
翻訳日:2021-04-10 16:25:33 公開日:2021-01-07
# (参考訳) MRNet:脳波による睡眠安定のためのマルチスケール残留ネットワーク [全文訳有]

MRNet: a Multi-scale Residual Network for EEG-based Sleep Staging ( http://arxiv.org/abs/2101.02538v1 )

ライセンス: CC BY 4.0
Xue Jiang(参考訳) 脳電図(EEG)に基づく睡眠ステージングは、睡眠障害の臨床的診断と治療において重要な役割を担っている。 重ラベル作業から人間の専門家を推定するために、ディープニューラルネットワークが近年、自動睡眠ステージシステムの構築に使用されている。 しかし、脳波信号は、深い特徴の表現に影響を与えるネットワーク伝播の詳細な情報を失う。 そこで本研究では,マルチスケール特徴融合モデルとマルコフに基づく逐次補正アルゴリズムを統合し,データ駆動睡眠ステージングのための新しいフレームワークmrnetを提案する。 MRNetのバックボーンは、特徴抽出器として機能する残留ブロックベースネットワークであり、融合モデルでは、バックボーンの異なる深さから出力を結合することで特徴ピラミッドを構築し、ネットワークが異なるスケールで信号を理解するのに役立つ。 マルコフに基づく逐次補正アルゴリズムは、分類器が生成する出力ジッタを減らすように設計されている。 このアルゴリズムは、睡眠段階遷移規則とマルコフ連鎖に関連する前段階分布に依存する。 実験の結果,提案手法の精度とF1得点(例えば,Sleep-EDFxでは85.14% Acc,78.91% F1得点,Sleep-EDFでは87.59% Acc,79.62% F1得点)の競合性能を示した。

Sleep staging based on electroencephalogram (EEG) plays an important role in the clinical diagnosis and treatment of sleep disorders. In order to emancipate human experts from heavy labeling work, deep neural networks have been employed to formulate automated sleep staging systems recently. However, EEG signals lose considerable detailed information in network propagation, which affects the representation of deep features. To address this problem, we propose a new framework, called MRNet, for data-driven sleep staging by integrating a multi-scale feature fusion model and a Markov-based sequential correction algorithm. The backbone of MRNet is a residual block-based network, which performs as a feature extractor.Then the fusion model constructs a feature pyramid by concatenating the outputs from the different depths of the backbone, which can help the network better comprehend the signals in different scales. The Markov-based sequential correction algorithm is designed to reduce the output jitters generated by the classifier. The algorithm depends on a prior stage distribution associated with the sleep stage transition rule and the Markov chain. Experiment results demonstrate the competitive performance of our proposed approach on both accuracy and F1 score (e.g., 85.14% Acc and 78.91% F1 score on Sleep-EDFx, and 87.59% Acc and 79.62% F1 score on Sleep-EDF).
翻訳日:2021-04-10 16:22:43 公開日:2021-01-07
# (参考訳) 深部ニューラルネットワークのための自己監督補助モデルを用いた文脈分類 [全文訳有]

Contextual Classification Using Self-Supervised Auxiliary Models for Deep Neural Networks ( http://arxiv.org/abs/2101.03057v1 )

ライセンス: CC BY 4.0
Sebastian Palacio, Philipp Engler, J\"orn Hees, Andreas Dengel(参考訳) ディープニューラルネットワーク(DNN)で解決された分類問題は、通常、閉世界パラダイムに依存し、単一の目的(例えば、クロスエントロピー損失の最小化)を最適化する。 この設定は、特定のパターンの存在や欠如を強化するために使用できるあらゆる種類のサポートシグナルを排除します。 設計によって解釈可能なモデルの必要性が高まっているため、そのコンテキスト信号を含めることが不可欠である。 そこで本稿では,自己指導型自己学習モデル(SSAL)について紹介する。 SSALの目的は、マルチタスク学習で見られるアーキテクチャ原則に従って、元の教師付き分類タスクに由来する1つ以上の追加目標によって実現される。 SSALブランチは最適化プロセス(グループ化など)に低レベルの事前を課す。 推論中にSSALブランチを使用する能力により、モデルはより早く収束し、よりリッチなクラス関連機能セットに集中できる。 ssalモデルが,より解釈可能な構造的予測を提供しながら,常に最先端を上回っていることを示す。

Classification problems solved with deep neural networks (DNNs) typically rely on a closed world paradigm, and optimize over a single objective (e.g., minimization of the cross-entropy loss). This setup dismisses all kinds of supporting signals that can be used to reinforce the existence or absence of a particular pattern. The increasing need for models that are interpretable by design makes the inclusion of said contextual signals a crucial necessity. To this end, we introduce the notion of Self-Supervised Autogenous Learning (SSAL) models. A SSAL objective is realized through one or more additional targets that are derived from the original supervised classification task, following architectural principles found in multi-task learning. SSAL branches impose low-level priors into the optimization process (e.g., grouping). The ability of using SSAL branches during inference, allow models to converge faster, focusing on a richer set of class-relevant features. We show that SSAL models consistently outperform the state-of-the-art while also providing structured predictions that are more interpretable.
翻訳日:2021-04-10 15:38:40 公開日:2021-01-07
# (参考訳) TrackFormer: トランスフォーマーによるマルチオブジェクトトラッキング [全文訳有]

TrackFormer: Multi-Object Tracking with Transformers ( http://arxiv.org/abs/2101.02702v1 )

ライセンス: CC BY 4.0
Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, Christoph Feichtenhofer(参考訳) 本稿では,エンコーダ・デコーダトランスフォーマアーキテクチャに基づく,エンドツーエンドのマルチオブジェクト追跡およびセグメンテーションモデルであるtrackformerを提案する。 提案手法では,自動回帰方式でビデオシーケンスを通じてオブジェクトを追従するトラッククエリ埋め込みを導入する。 新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。 トランスデコーダは、フレームからフレームへのトラッククエリ埋め込みを調整し、変化したオブジェクト位置に従う。 TrackFormerは、ロケーション、オクルージョン、オブジェクトアイデンティティを同時に推論するセルフおよびエンコーダ・デコーダのアテンションメカニズムによって、新しいトラッキング・バイ・アテンション・パラダイムにおいて、フレーム間のシームレスなデータ結合を実現する。 TrackFormerは、マルチオブジェクトトラッキング(MOT17)とセグメンテーション(MOTS20)のタスクで最先端のパフォーマンスを得る。 検出と追跡の統一的な方法が、マルチオブジェクト追跡とビデオ理解の将来の研究を促進することを願っています。 コードは公開される予定だ。

We present TrackFormer, an end-to-end multi-object tracking and segmentation model based on an encoder-decoder Transformer architecture. Our approach introduces track query embeddings which follow objects through a video sequence in an autoregressive fashion. New track queries are spawned by the DETR object detector and embed the position of their corresponding object over time. The Transformer decoder adjusts track query embeddings from frame to frame, thereby following the changing object positions. TrackFormer achieves a seamless data association between frames in a new tracking-by-attentio n paradigm by self- and encoder-decoder attention mechanisms which simultaneously reason about location, occlusion, and object identity. TrackFormer yields state-of-the-art performance on the tasks of multi-object tracking (MOT17) and segmentation (MOTS20). We hope our unified way of performing detection and tracking will foster future research in multi-object tracking and video understanding. Code will be made publicly available.
翻訳日:2021-04-10 15:25:19 公開日:2021-01-07
# (参考訳) Distracting Control Suite -- Pixelからの強化学習のためのベンチマーク [全文訳有]

The Distracting Control Suite -- A Challenging Benchmark for Reinforcement Learning from Pixels ( http://arxiv.org/abs/2101.02722v1 )

ライセンス: CC BY 4.0
Austin Stone, Oscar Ramirez, Kurt Konolige, Rico Jonschkowski(参考訳) ロボットは視点、照明、背景の変化など、困難な知覚設定に直面しなければならない。 DM Controlのような現在のシミュレーション強化学習(RL)ベンチマークは、そのような複雑さを伴わずに視覚的な入力を提供する。 本稿では,3種類の視覚的障害(背景,色,カメラポーズの変動)を伴ってDM制御を拡張し,視覚に基づく制御のための新しい挑戦的ベンチマークを作成し,これらの設定におけるアートRLアルゴリズムの状態を解析する。 実世界の視覚的複雑度に対処するためには,現在のRL法では注意散らしが不十分であり,その性能は邪魔散らしの複雑さの増加とともに低下することを示した。 また、複数の障害タイプの組み合わせは、個々の効果の組み合わせよりも難しいこともわかりました。

Robots have to face challenging perceptual settings, including changes in viewpoint, lighting, and background. Current simulated reinforcement learning (RL) benchmarks such as DM Control provide visual input without such complexity, which limits the transfer of well-performing methods to the real world. In this paper, we extend DM Control with three kinds of visual distractions (variations in background, color, and camera pose) to produce a new challenging benchmark for vision-based control, and we analyze state of the art RL algorithms in these settings. Our experiments show that current RL methods for vision-based control perform poorly under distractions, and that their performance decreases with increasing distraction complexity, showing that new methods are needed to cope with the visual complexities of the real world. We also find that combinations of multiple distraction types are more difficult than a mere combination of their individual effects.
翻訳日:2021-04-10 15:07:53 公開日:2021-01-07
# (参考訳) BDNNSurv:疑似値を用いた生存分析のためのベイズディープニューラルネットワーク [全文訳有]

BDNNSurv: Bayesian deep neural networks for survival analysis using pseudo values ( http://arxiv.org/abs/2101.03170v1 )

ライセンス: CC BY-SA 4.0
Dai Feng and Lili Zhao(参考訳) 医学研究における深層学習を用いた生存データモデリングへの関心が高まっている。 本稿では,生存データのモデル化と予測のためのベイズ階層型深層ニューラルネットワークモデルを提案する。 従来研究されてきた手法と比較して,新たな提案では,生存確率の点推定だけでなく,予測モデルやその後の意思決定において重要な意味を持つ,対応する不確実性の定量化も可能である。 点推定と不確実性推定の統計的特性はシミュレーションと実データ解析によって実証された。 提案手法を実装したpythonコードが提供されている。

There has been increasing interest in modeling survival data using deep learning methods in medical research. In this paper, we proposed a Bayesian hierarchical deep neural networks model for modeling and prediction of survival data. Compared with previously studied methods, the new proposal can provide not only point estimate of survival probability but also quantification of the corresponding uncertainty, which can be of crucial importance in predictive modeling and subsequent decision making. The favorable statistical properties of point and uncertainty estimates were demonstrated by simulation studies and real data analysis. The Python code implementing the proposed approach was provided.
翻訳日:2021-04-10 14:54:10 公開日:2021-01-07
# (参考訳) 重み注入による異なるアーキテクチャ間のトランスファー学習 [全文訳有]

Transfer Learning Between Different Architectures Via Weights Injection ( http://arxiv.org/abs/2101.02757v1 )

ライセンス: CC BY 4.0
Maciej A. Czyzewski(参考訳) 本稿では,計算量的に安価なインジェクション手法(データを必要としない)を用いて,異なるアーキテクチャ間のパラメータ転送のためのナイーブなアルゴリズムを提案する。 第一の目的は、ニューラルネットワークのトレーニングをスクラッチからスピードアップすることだ。 この研究は、任意のアーキテクチャから知識を移すことが、初期化においてカイミングやザビエルよりも優れていることを発見した。 結論として,提案手法はより高速に収束し,古典的手法の代替となる。 1) マッチング: 事前訓練されたモデルの層と対象モデルとのマッチング; 2) 注入: テンソルは望ましい形に変換される。 この研究は、TLI(Transfer Learning by Injection)スコアを利用して、現在のSOTAアーキテクチャ(ImageNet)の類似性を比較する。

This work presents a naive algorithm for parameter transfer between different architectures with a computationally cheap injection technique (which does not require data). The primary objective is to speed up the training of neural networks from scratch. It was found in this study that transferring knowledge from any architecture was superior to Kaiming and Xavier for initialization. In conclusion, the method presented is found to converge faster, which makes it a drop-in replacement for classical methods. The method involves: 1) matching: the layers of the pre-trained model with the targeted model; 2) injection: the tensor is transformed into a desired shape. This work provides a comparison of similarity between the current SOTA architectures (ImageNet), by utilising TLI (Transfer Learning by Injection) score.
翻訳日:2021-04-10 14:41:21 公開日:2021-01-07
# (参考訳) 形態的演算子を用いたオフラインアラビア語手書き単語セグメンテーション [全文訳有]

Off-Line Arabic Handwritten Words Segmentation using Morphological Operators ( http://arxiv.org/abs/2101.02797v1 )

ライセンス: CC BY 4.0
Nisreen AbdAllah and Serestina Viriri(参考訳) 本研究の主な目的は,手書きアラビア語のセグメンテーションによるモデルの評価と議論である。 このフレームワークは、前処理、セグメンテーション、評価の3つのステップに基づいて提案されている。 前処理のステップでは、形態論的演算子を記述された単語で接続ギャップ(CG)に適用する。 ギャップは、書き込みやドキュメントのスキャン、あるいはイメージをバイナリタイプに変換するときに発生する。 セグメンテーションのステップでは、まず小さなダイアクリティカルを取り除き、接続されたコンポーネントに境界を付けてオフラインの単語をセグメンテーションする。 提案モデルでは, 様々な手書きスタイルを適用し, 実際のアプリケーションとの互換性を高めるために, 膨大なデータを利用した。 その結果,IESK-ArDBデータベースからランダムに1,131個の画像を選択し,サブワードに分割する。 小さなギャップが接続された後、モデルの性能評価はデータベースの標準的真実に対して88%に達した。 提案手法は, 関連作品と比較して高い精度を達成した。

The main aim of this study is the assessment and discussion of a model for hand-written Arabic through segmentation. The framework is proposed based on three steps: pre-processing, segmentation, and evaluation. In the pre-processing step, morphological operators are applied for Connecting Gaps (CGs) in written words. Gaps happen when pen lifting-off during writing, scanning documents, or while converting images to binary type. In the segmentation step, first removed the small diacritics then bounded a connected component to segment offline words. Huge data was utilized in the proposed model for applying a variety of handwriting styles so that to be more compatible with real-life applications. Consequently, on the automatic evaluation stage, selected randomly 1,131 images from the IESK-ArDB database, and then segmented into sub-words. After small gaps been connected, the model performance evaluation had been reached 88% against the standard ground truth of the database. The proposed model achieved the highest accuracy when compared with the related works.
翻訳日:2021-04-10 14:14:29 公開日:2021-01-07
# 生成逆ネットワークの損失面に対するスピングラスモデル

A spin-glass model for the loss surfaces of generative adversarial networks ( http://arxiv.org/abs/2101.02524v1 )

ライセンス: Link先を確認
Nicholas P Baskerville and Jonathan P Keating and Francesco Mezzadri and Joseph Najnudel(参考訳) 本稿では,GAN (Generative Adversarial Network) の重要な設計特徴を捉えるための新しい数学的モデルを提案する。 我々のモデルは相互作用する2つのスピングラスから成り、ランダム行列理論の手法を用いてモデルの臨界点の複雑性を広範囲に理論的に解析する。 その結果、より単純なネットワークに対する事前の洞察に基づいて構築される大きなGANの損失面に関する洞察が、この設定に特有の新しい構造を明らかにする。

We present a novel mathematical model that seeks to capture the key design feature of generative adversarial networks (GANs). Our model consists of two interacting spin glasses, and we conduct an extensive theoretical analysis of the complexity of the model's critical points using techniques from Random Matrix Theory. The result is insights into the loss surfaces of large GANs that build upon prior insights for simpler networks, but also reveal new structure unique to this setting.
翻訳日:2021-04-10 14:03:36 公開日:2021-01-07
# oaae(adversarial autoencoder for novelty detection in multi-modal normality case via orthogonalized latent space)

OAAE: Adversarial Autoencoders for Novelty Detection in Multi-modal Normality Case via Orthogonalized Latent Space ( http://arxiv.org/abs/2101.02358v1 )

ライセンス: Link先を確認
Sungkwon An, Jeonghoon Kim, Myungjoo Kang, Shahbaz Razaei and Xin Liu(参考訳) 自己エンコーダなどの深層生成モデルを用いた新規性検出では, 画像再構成誤差を新規性スコア関数とすることが多い。 しかし、高次元の画像データには、クラス情報以外の多くの異なる特徴が含まれており、モデルが新奇なデータを検出するのを困難にしている。 マルチモーダル正規性の場合、問題は難しくなる。 この課題に対処するために,直交潜在空間を用いた多モード正規化の場合の新規性スコア測定法を提案する。 具体的には、直交低ランク埋め込みを用いて、相互クラス情報を用いて潜在空間の特徴をアンタングル化する。 直交潜在空間では、新規性スコアは各潜在ベクトルの変化によって定義される。 提案アルゴリズムは,RaPPやOCGANなどのGANを用いた最先端のノベルティ検出アルゴリズムと比較し,実験結果から,これらのアルゴリズムよりも優れていることが示された。

Novelty detection using deep generative models such as autoencoder, generative adversarial networks mostly takes image reconstruction error as novelty score function. However, image data, high dimensional as it is, contains a lot of different features other than class information which makes models hard to detect novelty data. The problem gets harder in multi-modal normality case. To address this challenge, we propose a new way of measuring novelty score in multi-modal normality cases using orthogonalized latent space. Specifically, we employ orthogonal low-rank embedding in the latent space to disentangle the features in the latent space using mutual class information. With the orthogonalized latent space, novelty score is defined by the change of each latent vector. Proposed algorithm was compared to state-of-the-art novelty detection algorithms using GAN such as RaPP and OCGAN, and experimental results show that ours outperforms those algorithms.
翻訳日:2021-04-10 13:51:38 公開日:2021-01-07
# msed : 臨床睡眠分析のためのマルチモーダル睡眠イベント検出モデル

MSED: a multi-modal sleep event detection model for clinical sleep analysis ( http://arxiv.org/abs/2101.02530v1 )

ライセンス: Link先を確認
Alexander Neergaard Olesen, Poul Jennum, Emmanuel Mignot and Helge B. D. Sorensen(参考訳) 研究目的: 臨床睡眠分析は、睡眠障害の正確な診断のために、睡眠パターンの手動分析を必要とする。 いくつかの研究は、個別の睡眠イベントを評価する際に有意な変動を示す。 本研究は, 覚醒(Ar), 脚運動(LM), 睡眠障害呼吸(SDB)イベントの検出に自動検出が有効であるか, およびこれらの事象の同時検出が3つの異なるモデルより優れているかを検討した。 方法:ポリソムノグラムで睡眠イベントを共同検出するために,単一のディープニューラルネットワークアーキテクチャを設計した。 モデルを1653個の記録からトレーニングし,1000個の記録に最適化したモデルをテストした。 モデルの性能はF1,精度,リコールスコアで定量化し,Pearsonの相関係数を用いて指標値と臨床値とを相関させた。 結果: 最適化モデルのF1スコアは, Ar, LM, SDBそれぞれ0.70, 0.63, 0.62であった。 イベント検出性能は, 単独イベントモデルと比較して高い結果を得た。 検出されたイベントから算出されたインデックス値は、手動アノテーション(r^2$ = 0.73, $r^2$ = 0.77, $r^2$ = 0.78)とよく相関した。 結論: 覚醒, 脚運動, 睡眠障害を伴う呼吸イベントを共同で検出することは可能であり, 算出された指標値は, 人間の注記とよく相関する。

Study objective: Clinical sleep analysis require manual analysis of sleep patterns for correct diagnosis of sleep disorders. Several studies show significant variability in scoring discrete sleep events. We wished to investigate, whether an automatic method could be used for detection of arousals (Ar), leg movements (LM) and sleep disordered breathing (SDB) events, and if the joint detection of these events performed better than having three separate models. Methods: We designed a single deep neural network architecture to jointly detect sleep events in a polysomnogram. We trained the model on 1653 recordings of individuals, and tested the optimized model on 1000 separate recordings. The performance of the model was quantified by F1, precision, and recall scores, and by correlating index values to clinical values using Pearson's correlation coefficient. Results: F1 scores for the optimized model was 0.70, 0.63, and 0.62 for Ar, LM, and SDB, respectively. The performance was higher, when detecting events jointly compared to corresponding single-event models. Index values computed from detected events correlated well with manual annotations ($r^2$ = 0.73, $r^2$ = 0.77, $r^2$ = 0.78, respectively). Conclusion: Detecting arousals, leg movements and sleep disordered breathing events jointly is possible, and the computed index values correlates well with human annotations.
翻訳日:2021-04-10 13:51:23 公開日:2021-01-07
# M\"{o}biusE:M\"{o}bius Ring上での知識グラフ埋め込み

M\"{o}biusE: Knowledge Graph Embedding on M\"{o}bius Ring ( http://arxiv.org/abs/2101.02352v1 )

ライセンス: Link先を確認
Yao Chen, Jiangang Liu, Zhe Zhang, Shiping Wen, Wenjun Xiong(参考訳) 本研究では、m\"{o}biuse と呼ばれる、m\"{o}bius 環の表面にエンティティと関係が埋め込まれる新しい知識グラフ埋め込み(kge)戦略を提案する。 そのような戦略の提案は古典的なトーラスEに触発され、2つの任意の要素の追加はモジュラー演算の対象となる。 この意味で、トーラスE は KGE に埋め込みベクトルの臨界有界性を自然に保証する。 しかしながら、トーラス環上の加算演算の非線形性は、トーラスの表現性をある程度制限する弾性演算によって一意に導かれる。 トーラスのさらなる一般化として、m\"{o}biuse は加法演算の近接性を保つためにモジュラス演算を用いるが、m\"{o}bius 環上の座標は次の方法で相互作用する: {\em \color{red} m\"{o}bius 環の表面上の任意のベクトルは、そのパラメトリックなトレースに沿って移動し、サイクルの後に右反対方向に移動する。 したがって、M\"{o}biusE は TorusE よりもはるかに非線形な代表性を仮定し、結果としてより正確な埋め込み結果を生成する。 我々の実験では、M\ "{o}biusE" は TorusE や他の古典的な埋め込み戦略をいくつかの重要な指標で上回っている。

In this work, we propose a novel Knowledge Graph Embedding (KGE) strategy, called M\"{o}biusE, in which the entities and relations are embedded to the surface of a M\"{o}bius ring. The proposition of such a strategy is inspired by the classic TorusE, in which the addition of two arbitrary elements is subject to a modulus operation. In this sense, TorusE naturally guarantees the critical boundedness of embedding vectors in KGE. However, the nonlinear property of addition operation on Torus ring is uniquely derived by the modulus operation, which in some extent restricts the expressiveness of TorusE. As a further generalization of TorusE, M\"{o}biusE also uses modulus operation to preserve the closeness of addition operation on it, but the coordinates on M\"{o}bius ring interacts with each other in the following way: {\em \color{red} any vector on the surface of a M\"{o}bius ring moves along its parametric trace will goes to the right opposite direction after a cycle}. Hence, M\"{o}biusE assumes much more nonlinear representativeness than that of TorusE, and in turn it generates much more precise embedding results. In our experiments, M\"{o}biusE outperforms TorusE and other classic embedding strategies in several key indicators.
翻訳日:2021-04-10 13:50:58 公開日:2021-01-07
# 深層学習に基づく皮膚病変分類のための低コスト・高性能データ拡張

Low-cost and high-performance data augmentation for deep-learning-based skin lesion classification ( http://arxiv.org/abs/2101.02353v1 )

ライセンス: Link先を確認
Shuwei Shen, Mengjuan Xu, Fan Zhang, Pengfei Shao, Honghong Liu, Liang Xu, Chi Zhang, Peng Liu, Zhihong Zhang, Peng Yao, Ronald X. Xu(参考訳) deep convolutional neural networks (dcnns) は皮膚科医と同等あるいはそれ以上の皮膚病変分類において有意な精度を達成したが、低リソース環境下での皮膚がんスクリーニングモデルの実践的実装は、計算コストとトレーニングデータセットの制限によって妨げられている。 これらの制限を克服するために,2段階の強化探索とネットワーク探索を含む低コストで高性能なデータ拡張戦略を提案する。 拡張探索段階では,5倍のクロスバリデーションによるバランス精度(BACC)の基準の下で,低コスト拡張(LCA)の探索空間において拡張戦略を最適化する。 ネットワーク検索段階では、DCNNは、最高のBACCを持つモデルを選択するために、完全なトレーニングセットで微調整される。 提案したデータ拡張戦略の効率は,EfficientNetsをベースラインとして,HAM10000データセット上で検証する。 提案手法では,外部データベースを使わずに単一のdcnnモデルを用いることで,検索空間を60に縮小し0.853の高baccを実現することが可能であり,低リソース環境でのdnnベースの皮膚病変検出のためのモバイルデバイスに実装できる。

Although deep convolutional neural networks (DCNNs) have achieved significant accuracy in skin lesion classification comparable or even superior to those of dermatologists, practical implementation of these models for skin cancer screening in low resource settings is hindered by their limitations in computational cost and training dataset. To overcome these limitations, we propose a low-cost and high-performance data augmentation strategy that includes two consecutive stages of augmentation search and network search. At the augmentation search stage, the augmentation strategy is optimized in the search space of Low-Cost-Augment (LCA) under the criteria of balanced accuracy (BACC) with 5-fold cross validation. At the network search stage, the DCNNs are fine-tuned with the full training set in order to select the model with the highest BACC. The efficiency of the proposed data augmentation strategy is verified on the HAM10000 dataset using EfficientNets as a baseline. With the proposed strategy, we are able to reduce the search space to 60 and achieve a high BACC of 0.853 by using a single DCNN model without external database, suitable to be implemented in mobile devices for DCNN-based skin lesion detection in low resource settings.
翻訳日:2021-04-10 13:50:29 公開日:2021-01-07
# 歩行認識のための時空間カプセルネットワーク

Associated Spatio-Temporal Capsule Network for Gait Recognition ( http://arxiv.org/abs/2101.02458v1 )

ライセンス: Link先を確認
Aite Zhao, Junyu Dong, Jianbo Li, Lin Qi, Huiyu Zhou(参考訳) 彼女の歩行パターンに基づいた人物を特定することは難しい課題である。 最先端のアプローチは、歩行の時間的または空間的特性の分析に依存し、歩行認識は通常、単一のモダリティデータ(画像、骨格関節座標、力信号など)で実行される。 エビデンスによれば、マルチモーダリティデータを使うことは、歩行研究に適している。 そこで本稿では,マルチセンサデータセットを用いて学習した時空間カプセルネットワーク(ASTCapsNet)を用いた自動学習システムを構築し,歩行認識のためのマルチモーダル情報を分析する。 具体的には,まず,新しいリカレントメモリユニットと関係層を用いて,歩行の時空間的特徴抽出のための低レベル特徴抽出器と高レベル特徴抽出器を設計する。 その後、クラスラベルの決定にはベイズモデルが使用される。 いくつかのパブリックデータセット(通常の歩行と異常歩行)での広範囲な実験は、提案されたastcapsnetの有効性を検証する。

It is a challenging task to identify a person based on her/his gait patterns. State-of-the-art approaches rely on the analysis of temporal or spatial characteristics of gait, and gait recognition is usually performed on single modality data (such as images, skeleton joint coordinates, or force signals). Evidence has shown that using multi-modality data is more conducive to gait research. Therefore, we here establish an automated learning system, with an associated spatio-temporal capsule network (ASTCapsNet) trained on multi-sensor datasets, to analyze multimodal information for gait recognition. Specifically, we first design a low-level feature extractor and a high-level feature extractor for spatio-temporal feature extraction of gait with a novel recurrent memory unit and a relationship layer. Subsequently, a Bayesian model is employed for the decision-making of class labels. Extensive experiments on several public datasets (normal and abnormal gait) validate the effectiveness of the proposed ASTCapsNet, compared against several state-of-the-art methods.
翻訳日:2021-04-10 13:50:08 公開日:2021-01-07
# 神経変性疾患に対するマルチモーダル歩行認識

Multimodal Gait Recognition for Neurodegenerative Diseases ( http://arxiv.org/abs/2101.02469v1 )

ライセンス: Link先を確認
Aite Zhao, Jianbo Li, Junyu Dong, Lin Qi, Qianni Zhang, Ning Li, Xin Wang, Huiyu Zhou(参考訳) 近年,医用画像やその他の感覚データの解析において,単一のモダリティに基づく歩行認識が広く研究されており,確立されたアプローチはそれぞれ強みと弱みを持っていることが認識されている。 重要な運動症状として、歩行障害は疾患の診断と評価に一般的に用いられ、また、患者の歩行パターンの多様性分析の使用は、単一の計測次元における歩行変化のみを学習する単一モード歩行認識法の一側面を補う。 複数の測定資源の融合は、個々の疾患に関連する歩行パターンの同定において有望な性能を示した。 本稿では,パーキンソン病の重症度が異なる患者と健常者との3つの神経変性疾患の歩容差を,複数のセンサからのデータを融合・集約することにより学習するための新しいハイブリッドモデルを提案する。 空間特徴抽出器(SFE)は、画像や信号の代表的な特徴を生成する。 2つのモードデータから時間情報をキャプチャするために、新しい相関型メモリニューラルネットワーク(CorrMNN)アーキテクチャを設計し、時間的特徴を抽出する。 その後、観察と個々の状態推定を関連付けるためにマルチスイッチ判別器を組み込む。 いくつかの最先端技術と比較して,提案手法はより正確な分類結果を示す。

In recent years, single modality based gait recognition has been extensively explored in the analysis of medical images or other sensory data, and it is recognised that each of the established approaches has different strengths and weaknesses. As an important motor symptom, gait disturbance is usually used for diagnosis and evaluation of diseases; moreover, the use of multi-modality analysis of the patient's walking pattern compensates for the one-sidedness of single modality gait recognition methods that only learn gait changes in a single measurement dimension. The fusion of multiple measurement resources has demonstrated promising performance in the identification of gait patterns associated with individual diseases. In this paper, as a useful tool, we propose a novel hybrid model to learn the gait differences between three neurodegenerative diseases, between patients with different severity levels of Parkinson's disease and between healthy individuals and patients, by fusing and aggregating data from multiple sensors. A spatial feature extractor (SFE) is applied to generating representative features of images or signals. In order to capture temporal information from the two modality data, a new correlative memory neural network (CorrMNN) architecture is designed for extracting temporal features. Afterwards, we embed a multi-switch discriminator to associate the observations with individual state estimations. Compared with several state-of-the-art techniques, our proposed framework shows more accurate classification results.
翻訳日:2021-04-10 13:49:52 公開日:2021-01-07
# L2PF -- Pruneの高速化を学ぶ

L2PF -- Learning to Prune Faster ( http://arxiv.org/abs/2101.02663v1 )

ライセンス: Link先を確認
Manoj-Rohit Vemparala, Nael Fasfous, Alexander Frickenstein, Mhd Ali Moraly, Aquib Jamal, Lukas Frickenstein, Christian Unger, Naveen-Shankar Nagaraja, Walter Stechele(参考訳) 自律運転分野における様々な応用は、特にカメラデータを処理するための畳み込みニューラルネットワーク(CNN)に基づいている。 このようなCNNの最適化は継続的開発において大きな課題である。 新しい学習された機能は、できるだけ早く車両に導入する必要があるため、圧縮中に余分なGPU時間を費やすことは不可能である。 この文脈では,複数タスクのtry-and-learnメソッドの詳細,cnnの冗長フィルタの離散学習,レイヤの微調整が必要な継続動作など,pruneを高速に学習する方法を提案する。 これにより、組込み型フィルタワイドプルーニングCNNの探索方法を学ぶための収束過程を大幅に高速化できる。 ResNet20では、圧縮比が3.84 xで、精度は最小限である。 最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。

Various applications in the field of autonomous driving are based on convolutional neural networks (CNNs), especially for processing camera data. The optimization of such CNNs is a major challenge in continuous development. Newly learned features must be brought into vehicles as quickly as possible, and as such, it is not feasible to spend redundant GPU hours during compression. In this context, we present Learning to Prune Faster which details a multi-task, try-and-learn method, discretely learning redundant filters of the CNN and a continuous action of how long the layers have to be fine-tuned. This allows us to significantly speed up the convergence process of learning how to find an embedded-friendly filter-wise pruned CNN. For ResNet20, we have achieved a compression ratio of 3.84 x with minimal accuracy degradation. Compared to the state-of-the-art pruning method, we reduced the GPU hours by 1.71 x.
翻訳日:2021-04-10 13:49:32 公開日:2021-01-07
# ディープニューラルネットワークによる複雑な活動の文法学習

Learning Grammar of Complex Activities via Deep Neural Networks ( http://arxiv.org/abs/2101.02774v1 )

ライセンス: Link先を確認
Becky Mashaido(参考訳) オンラインストリーミングサービス上の公開ビデオデータの増加と、自動運転などの連続ビデオストリームを分析するアプリケーションへの関心の高まりに動機づけられたこのテクニカルレポートは、ラベル制約下で、ビデオ学習のためのディープニューラルネットワークに関する理論的洞察を提供する。 コンピュータビジョンのためのビデオ学習におけるこれまでの成果を生かし、モデル性能の観察を行い、我々の観察を改善するためのさらなるメカニズムを提案する。

Motivated by the growing amount of publicly available video data on online streaming services and an increased interest in applications that analyze continuous video streams such as autonomous driving, this technical report provides a theoretical insight into deep neural networks for video learning, under label constraints. I build upon previous work in video learning for computer vision, make observations on model performance and propose further mechanisms to help improve our observations.
翻訳日:2021-04-10 13:49:17 公開日:2021-01-07
# 物体識別における人間型ロバストaiマシンの設計

A design of human-like robust AI machines in object identification ( http://arxiv.org/abs/2101.02327v1 )

ライセンス: Link先を確認
Bao-Gang Hu and Wei-Ming Dong(参考訳) これは1950年に A.M. Turing (1912年6月23日 - 1954年6月7日) が提唱したチューリングテストの研究から着想を得た遠近法である。 ヒューマンライクな動作やパフォーマンスを持つマシンを実現するためのチューリングテストの重要な意味に続き、AIマシンに対するヒューマンライクな堅牢性(HLR)を定義する。 新しい定義の目的は、HLRの観点で評価することを含む、AIマシンをHLRで強制することである。 特定のタスクは、日常のすべての人にとって最も一般的なタスクであるため、オブジェクトの識別についてのみ議論される。 チューリングによる視点や設計と同様に、我々はhlr aiマシンを構築し、実際の実験を行うことなく達成する方法のソリューションを提供する。 ソリューションは3つの重要な機能から構成されるべきである。 HLRマシンの最初の特徴は、人間からの常識を利用して因果推論を実現することである。 2つ目の特徴は、決定に解釈を持つための意味空間から決定を行うことである。 第3の機能は、HLRマシンを前進させるための"Human-in-the-loop&qu ot;設定を含むことである。 提案するHLRマシンの設計を用いて「識別ゲーム」を示す。 本稿では、チューリングテストから人間のようなAIマシンの設計に向けて、さらに学び、探求する試みを示す。

This is a perspective paper inspired from the study of Turing Test proposed by A.M. Turing (23 June 1912 - 7 June 1954) in 1950. Following one important implication of Turing Test for enabling a machine with a human-like behavior or performance, we define human-like robustness (HLR) for AI machines. The objective of the new definition aims to enforce AI machines with HLR, including to evaluate them in terms of HLR. A specific task is discussed only on object identification, because it is the most common task for every person in daily life. Similar to the perspective, or design, position by Turing, we provide a solution of how to achieve HLR AI machines without constructing them and conducting real experiments. The solution should consists of three important features in the machines. The first feature of HLR machines is to utilize common sense from humans for realizing a causal inference. The second feature is to make a decision from a semantic space for having interpretations to the decision. The third feature is to include a "human-in-the-loop&qu ot; setting for advancing HLR machines. We show an "identification game" using proposed design of HLR machines. The present paper shows an attempt to learn and explore further from Turing Test towards the design of human-like AI machines.
翻訳日:2021-04-10 13:49:10 公開日:2021-01-07
# IoTデバイスとML技術を用いた1型糖尿病の治療について

On the Management of Type 1 Diabetes Mellitus with IoT Devices and ML Techniques ( http://arxiv.org/abs/2101.02409v1 )

ライセンス: Link先を確認
Ignacio Rodriguez(参考訳) この会議の目的は、すでに数年前に始まった研究に基づいて設立された基礎プロジェクトの基本ラインを提示することである。 In this sense, this manuscript will present the main lines of research in Diabetes Mellitus type 1 and Machine Learning techniques in an Internet of Things environment, so that we can summarize the future lines to be developed as follows: data collection through biosensors, massive data processing in the cloud, interconnection of biodevices, local computing vs. cloud computing, and possibilities of machine learning techniques to predict blood glucose values, including both variable selection algorithms and predictive techniques.

The purpose of this Conference is to present the main lines of base projects that are founded on research already begun in previous years. In this sense, this manuscript will present the main lines of research in Diabetes Mellitus type 1 and Machine Learning techniques in an Internet of Things environment, so that we can summarize the future lines to be developed as follows: data collection through biosensors, massive data processing in the cloud, interconnection of biodevices, local computing vs. cloud computing, and possibilities of machine learning techniques to predict blood glucose values, including both variable selection algorithms and predictive techniques.
翻訳日:2021-04-10 13:48:51 公開日:2021-01-07
# 異常スコアに対するCopula Quadrant類似性

Copula Quadrant Similarity for Anomaly Scores ( http://arxiv.org/abs/2101.02330v1 )

ライセンス: Link先を確認
Matthew Davidow, David Matteson(参考訳) 実用的な異常検出には、教師なし学習が本質的に難しいため、多くのアプローチを適用する必要がある。 複雑または不透明な異常検出アルゴリズムの直接比較は難解であり、代わりに複数の手法のスコアを関連付ける枠組みを提案する。 異なる方法によって生成された異常スコアの類似性を測定するには、どうすればよいのか? スコアリング・クルークスは極端であり、最も異常な観測を識別する。 一対のアルゴリズムは、最も高いスコアをほぼ同じ観測値に割り当てる場合に類似するように定義されている。 そこで本研究では,新しい上四分法モデルによる得点分布の極値類似性に基づく尺度を提案し,尾部や他の依存尺度と対比する。 本手法をシミュレーションおよび実実験で示し,複数の異常検出手法のクラスタにスペクトル法を適用し,類似度尺度を他の手法と対比する。 本手法は,異常検出アルゴリズムのクラスタを検出することで,高精度でロバストなアンサンブルアルゴリズムを実現することができることを示す。

Practical anomaly detection requires applying numerous approaches due to the inherent difficulty of unsupervised learning. Direct comparison between complex or opaque anomaly detection algorithms is intractable; we instead propose a framework for associating the scores of multiple methods. Our aim is to answer the question: how should one measure the similarity between anomaly scores generated by different methods? The scoring crux is the extremes, which identify the most anomalous observations. A pair of algorithms are defined here to be similar if they assign their highest scores to roughly the same small fraction of observations. To formalize this, we propose a measure based on extremal similarity in scoring distributions through a novel upper quadrant modeling approach, and contrast it with tail and other dependence measures. We illustrate our method with simulated and real experiments, applying spectral methods to cluster multiple anomaly detection methods and to contrast our similarity measure with others. We demonstrate that our method is able to detect the clusters of anomaly detection algorithms to achieve an accurate and robust ensemble algorithm.
翻訳日:2021-04-10 13:48:44 公開日:2021-01-07
# ガウワー係数を修正した混合型変数を持つ距離

Distances with mixed type variables some modified Gower's coefficients ( http://arxiv.org/abs/2101.02481v1 )

ライセンス: Link先を確認
Marcello D'Orazio(参考訳) 最も近い近隣の手法は、主に計算や統計的マッチング問題において公式統計学で人気となり、多くの変種が提案されている機械学習においても重要な役割を担っている。 距離関数の選択は、主に選択された変数の種類に依存する。 残念なことに、混合型変数を扱うオプションは比較的少なく、公式統計では頻繁に発生する状況である。 混合型変数の最も一般的な距離は、ゴーワーの類似度係数の補数として導出される。 残念なことに、単一の変数のゴーワー距離への寄与を設定する非重み付き標準は、変数自体の異なる性質のためにバランスがとれない。 本稿は,間隔とスケールした変数間の距離を計算する際のいくつかの修正を提案することにより,非重み付けゴワー距離全体に影響を及ぼす主な欠点を解決しようとするものである。 単純な修正は、スケールされたマンハッタン距離に対する異常値の影響を弱めようとするが、その他の修正は、異なる種類の変数の不均衡な寄与を減らすために、カーネル密度推定法に依存している。 提案手法の性能は,近接距離ホットデッキ法による欠落値の予測を模倣したシミュレーションにより評価した。

Nearest neighbor methods have become popular in official statistics, mainly in imputation or in statistical matching problems; they play a key role in machine learning too, where a high number of variants have been proposed. The choice of the distance function depends mainly on the type of the selected variables. Unfortunately, relatively few options permit to handle mixed type variables, a situation frequently encountered in official statistics. The most popular distance for mixed type variables is derived as the complement of the Gower's similarity coefficient; it is appealing because ranges between 0 and 1 and allows to handle missing values. Unfortunately, the unweighted standard setting the contribution of the single variables to the overall Gower's distance is unbalanced because of the different nature of the variables themselves. This article tries to address the main drawbacks that affect the overall unweighted Gower's distance by suggesting some modifications in calculating the distance on the interval and ratio scaled variables. Simple modifications try to attenuate the impact of outliers on the scaled Manhattan distance; other modifications, relying on the kernel density estimation methods attempt to reduce the unbalanced contribution of the different types of variables. The performance of the proposals is evaluated in simulations mimicking the imputation of missing values through nearest neighbor distance hotdeck method.
翻訳日:2021-04-10 13:48:27 公開日:2021-01-07
# リカレントニューラルネットワークによるバイナリ検索の学習。 順序回帰分析への新しいアプローチ

Learning a binary search with a recurrent neural network. A novel approach to ordinal regression analysis ( http://arxiv.org/abs/2101.02609v1 )

ライセンス: Link先を確認
Louis Falissard, Karim Bounebache, Gr\'egoire Rey(参考訳) ディープニューラルネットワーク(Deep Neural Network)は、リカレントニューラルネットワークを用いたシーケンシャルデータなどの階層データの解析に自然に適する計算モデルの一群である。 一方、順序回帰は、心理測定からディープニューラルネットワークに基づく音声モデリングまで様々な分野で使われているよく知られた予測モデル問題である。 それらの特異性は結果変数の性質に関係しており、典型的には自然順序性を持つカテゴリー変数と見なされ、異なる状態間の比較が可能である(「少し」は「幾分」よりも小さいが、推移性は許容される)。 本稿では, 逐次二分探索として順序回帰問題を定式化することにより, 深層学習フレームワークが提供するシーケンス・ツー・シーケンス学習手法の適用について検討する。 線形判別解析といくつかの類似性を有する順序的目標変数に従ってモデルの説明変数を可視化する手法を提案する。 この手法は、多くのベンチマークデータセット上の従来の順序回帰法と比較され、同等またははるかに優れた予測力を持つことが示された。

Deep neural networks are a family of computational models that are naturally suited to the analysis of hierarchical data such as, for instance, sequential data with the use of recurrent neural networks. In the other hand, ordinal regression is a well-known predictive modelling problem used in fields as diverse as psychometry to deep neural network based voice modelling. Their specificity lies in the properties of their outcome variable, typically considered as a categorical variable with natural ordering properties, typically allowing comparisons between different states ("a little" is less than "somewhat" which is itself less than "a lot", with transitivity allowed). This article investigates the application of sequence-to-sequence learning methods provided by the deep learning framework in ordinal regression, by formulating the ordinal regression problem as a sequential binary search. A method for visualizing the model's explanatory variables according to the ordinal target variable is proposed, that bears some similarities to linear discriminant analysis. The method is compared to traditional ordinal regression methods on a number of benchmark dataset, and is shown to have comparable or significantly better predictive power.
翻訳日:2021-04-10 13:48:08 公開日:2021-01-07
# ベイズ型ニューラルネットワークの逆ロバスト性に及ぼす事前リプシッツ連続性の影響

The Effect of Prior Lipschitz Continuity on the Adversarial Robustness of Bayesian Neural Networks ( http://arxiv.org/abs/2101.02689v1 )

ライセンス: Link先を確認
Arno Blaas, Stephen J. Roberts(参考訳) 機械学習モデルが敵の攻撃に対して堅牢であることは望ましいものであり、しばしば必要である。 これは特にベイズモデルに当てはまり、敵の攻撃が壊滅的な結果をもたらす安全クリティカルな応用に適している。 本研究では,ベイズニューラルネットワーク(BNN)の対角的堅牢性について,より深く考察する。 特に,BNNの対角的ロバスト性は,モデル選択,特に前者が引き起こすリプシッツ連続性によって増大するか否かを考察する。 平均場変動推論により近似したゼロ平均ガウス前値と後値の場合の詳細な解析を行い、対向的ロバスト性が実際に先行分散に敏感であることを示す。

It is desirable, and often a necessity, for machine learning models to be robust against adversarial attacks. This is particularly true for Bayesian models, as they are well-suited for safety-critical applications, in which adversarial attacks can have catastrophic outcomes. In this work, we take a deeper look at the adversarial robustness of Bayesian Neural Networks (BNNs). In particular, we consider whether the adversarial robustness of a BNN can be increased by model choices, particularly the Lipschitz continuity induced by the prior. Conducting in-depth analysis on the case of i.i.d., zero-mean Gaussian priors and posteriors approximated via mean-field variational inference, we find evidence that adversarial robustness is indeed sensitive to the prior variance.
翻訳日:2021-04-10 13:47:49 公開日:2021-01-07
# 非パラメトリック不確実性最適化のための新しい回帰損失

A Novel Regression Loss for Non-Parametric Uncertainty Optimization ( http://arxiv.org/abs/2101.02726v1 )

ライセンス: Link先を確認
Joachim Sicking, Maram Akila, Maximilian Pintz, Tim Wirtz, Asja Fischer, Stefan Wrobel(参考訳) 不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。 その重要性にもかかわらず、特にニューラルネットワークでは、一般的な解決には程遠い。 これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。 しかし、不確実性は過小評価できる。 本稿では,この問題に対処するため,第2モーメント損失(SML)と呼ばれる新たな目標を提案する。 完全なネットワークは平均をモデル化するよう奨励されるが、ドロップアウトネットワークはモデル分散を最適化するために明示的に使用される。 様々なUCI回帰データセットを用いて,新しい目標の性能を集中的に研究する。 ディープアンサンブルの最先端と比較すると、SMLは単一のモデルのみを必要とする一方で、同等の予測精度と不確実性の推定につながる。 流通シフトでは,適度な改善が観察される。 その結果,非飽和な直感的なwasserstein距離に基づく不確実性尺度を導入し,任意の不確実性推定値間の品質差を解消する。

Quantification of uncertainty is one of the most promising approaches to establish safe machine learning. Despite its importance, it is far from being generally solved, especially for neural networks. One of the most commonly used approaches so far is Monte Carlo dropout, which is computationally cheap and easy to apply in practice. However, it can underestimate the uncertainty. We propose a new objective, referred to as second-moment loss (SML), to address this issue. While the full network is encouraged to model the mean, the dropout networks are explicitly used to optimize the model variance. We intensively study the performance of the new objective on various UCI regression datasets. Comparing to the state-of-the-art of deep ensembles, SML leads to comparable prediction accuracies and uncertainty estimates while only requiring a single model. Under distribution shift, we observe moderate improvements. As a side result, we introduce an intuitive Wasserstein distance-based uncertainty measure that is non-saturating and thus allows to resolve quality differences between any two uncertainty estimates.
翻訳日:2021-04-10 13:47:34 公開日:2021-01-07
# ナレーションビデオにおけるサイクルからの時間ダイナミクスの学習

Learning Temporal Dynamics from Cycles in Narrated Video ( http://arxiv.org/abs/2101.02337v1 )

ライセンス: Link先を確認
Dave Epstein, Jiajun Wu, Cordelia Schmid, Chen Sun(参考訳) 時間経過とともに世界がどう変化するかをモデル化することを学ぶことは、コンピュータビジョンコミュニティにとって難しい問題となっている。 本稿では,視覚と言語を併用した時間周期一貫性を用いた自己教師型手法を提案する。 私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。 この制約は、モーダル間で容易に逆転し共有されるため、時間内のモーメント間のハイレベルな遷移の発見につながる。 我々は,サイクル整合性問題の異なる構成に関するアブレーション研究により,モデルの設計を正当化する。 そして、我々のアプローチが未来と過去の意味のある高レベルモデルをもたらすことを質的に定量的に示す。 将来の行動予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。

Learning to model how the world changes as time elapses has proven a challenging problem for the computer vision community. We propose a self-supervised solution to this problem using temporal cycle consistency jointly in vision and language, training on narrated video. Our model learns modality-agnostic functions to predict forward and backward in time, which must undo each other when composed. This constraint leads to the discovery of high-level transitions between moments in time, since such transitions are easily inverted and shared across modalities. We justify the design of our model with an ablation study on different configurations of the cycle consistency problem. We then show qualitatively and quantitatively that our approach yields a meaningful, high-level model of the future and past. We apply the learned dynamics model without further training to various tasks, such as predicting future action and temporally ordering sets of images.
翻訳日:2021-04-10 13:47:17 公開日:2021-01-07
# 逆例を用いたロバストテキストCAPTCHA

Robust Text CAPTCHAs Using Adversarial Examples ( http://arxiv.org/abs/2101.02483v1 )

ライセンス: Link先を確認
Rulin Shao, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh(参考訳) CAPTCHA(Completely Automated Public Truing Test to tell Computers and Humans Apart)は、実際のユーザーとボットのような自動化されたユーザーを区別する技術である。 しかし、AI技術の進歩は多くのCAPTCHAテストを弱め、セキュリティ上の懸念を引き起こす可能性がある。 本稿では,ロバストテキストCAPTCHA(RTC)というユーザフレンドリーなテキストベースのCAPTCHA生成手法を提案する。 最初の段階では、フォアグラウンドと背景はランダムにサンプリングされたフォントと背景画像で構築され、擬似逆境CAPTCHAに合成される。 第2段階では、CAPTCHAの解法をより妨害するために、テキストCAPTCHAに対して高度に転送可能な逆攻撃を設計し、適用する。 実験は,kn,svm,ランダムフォレストなどの浅層モデル,様々な深層ニューラルネットワーク,ocrモデルを含む包括的モデルをカバーする。 実験の結果,CAPTCHAは一般的に100万分の1以下であり,ユーザビリティが高いことがわかった。 また、敵の訓練、データ前処理、手動タグ付けなど、攻撃者が採用する様々な防御技術に対して堅牢である。

CAPTCHA (Completely Automated Public Truing test to tell Computers and Humans Apart) is a widely used technology to distinguish real users and automated users such as bots. However, the advance of AI technologies weakens many CAPTCHA tests and can induce security concerns. In this paper, we propose a user-friendly text-based CAPTCHA generation method named Robust Text CAPTCHA (RTC). At the first stage, the foregrounds and backgrounds are constructed with randomly sampled font and background images, which are then synthesized into identifiable pseudo adversarial CAPTCHAs. At the second stage, we design and apply a highly transferable adversarial attack for text CAPTCHAs to better obstruct CAPTCHA solvers. Our experiments cover comprehensive models including shallow models such as KNN, SVM and random forest, various deep neural networks and OCR models. Experiments show that our CAPTCHAs have a failure rate lower than one millionth in general and high usability. They are also robust against various defensive techniques that attackers may employ, including adversarial training, data pre-processing and manual tagging.
翻訳日:2021-04-10 13:47:01 公開日:2021-01-07
# 複雑な自然画像のクラスタリングを促進するcnn特徴抽出器の試作

Combining pretrained CNN feature extractors to enhance clustering of complex natural images ( http://arxiv.org/abs/2101.02767v1 )

ライセンス: Link先を確認
Joris Guerin, Stephane Thiery, Eric Nyiri, Olivier Gibaru, Byron Boots(参考訳) 近年、複雑な教師なし画像分類タスクを解決するための共通の出発点は、大規模で汎用的なデータセット(ImageNet)で事前訓練された深層畳み込みニューラルネットワーク(CNN)で抽出された一般的な特徴を使用することである。 しかし、ほとんどの研究において、特徴抽出のためのcnnアーキテクチャは正当化なしで任意に選択される。 本稿では,画像クラスタリング(IC)における事前学習CNN機能の利用に関する知見を提供する。 まず、広範な実験を行い、与えられたデータセットに対して、特徴抽出のためのCNNアーキテクチャの選択が最終的なクラスタリングに大きな影響を与えることを示す。 これらの実験は、与えられたICタスクに対する適切な抽出器の選択が困難であることを示す。 この問題を解決するために,異なるアーキテクチャから抽出された特徴を同一データの異なる「ビュー」とみなすマルチビュークラスタリング(MVC)問題として,IC問題を言い換えることを提案する。 このアプローチは、同じデータで事前トレーニングされた場合でも、異なるcnnに含まれる情報は相補的であるかもしれないという仮定に基づいている。 次に、MVC問題を効果的に解くためにエンドツーエンドに訓練されたマルチインプットニューラルネットワークアーキテクチャを提案する。 このアプローチは9つの自然画像データセットでテストされ、ICの最先端結果を生成する。

Recently, a common starting point for solving complex unsupervised image classification tasks is to use generic features, extracted with deep Convolutional Neural Networks (CNN) pretrained on a large and versatile dataset (ImageNet). However, in most research, the CNN architecture for feature extraction is chosen arbitrarily, without justification. This paper aims at providing insight on the use of pretrained CNN features for image clustering (IC). First, extensive experiments are conducted and show that, for a given dataset, the choice of the CNN architecture for feature extraction has a huge impact on the final clustering. These experiments also demonstrate that proper extractor selection for a given IC task is difficult. To solve this issue, we propose to rephrase the IC problem as a multi-view clustering (MVC) problem that considers features extracted from different architectures as different "views" of the same data. This approach is based on the assumption that information contained in the different CNN may be complementary, even when pretrained on the same data. We then propose a multi-input neural network architecture that is trained end-to-end to solve the MVC problem effectively. This approach is tested on nine natural image datasets, and produces state-of-the-art results for IC.
翻訳日:2021-04-10 13:46:43 公開日:2021-01-07
# DICE: アウトカム・アウェア・ストラテファイションのための深い意味クラスタリング

DICE: Deep Significance Clustering for Outcome-Aware Stratification ( http://arxiv.org/abs/2101.02344v1 )

ライセンス: Link先を確認
Yufang Huang, Kelly M. Axsom, John Lee, Lakshminarayanan Subramanian and Yiye Zhang(参考訳) 本稿では,「既知」階層化のための表現学習とクラスタリングを共同で行うフレームワークであるdeep significance clustering(dice)を提案する。 DICEは、対象とする結果の個人リスクレベルによって人口を分類するために使用されるクラスタメンバシップを生成することを意図している。 表現学習とクラスタリングのステップに従って,目的関数をdiceに組み込むことにより,結果と学習表現のクラスタメンバシップとの間に統計的に有意な関係を求める制約を与える。 さらにDICEは、表現学習の可能性を最大化するニューラルネットワーク探索ステップと、クラスタメンバシップを予測子として結果分類精度を最大化する。 患者リスク階層化医療におけるDICEの有用性を示すために,実世界の電子健康記録から抽出した結果比の異なる2つのデータセットを用いてDICEの性能を評価した。 結果は、covid-19患者のコホート間で急性腎障害(30.4\%)、心不全患者のコホート間では退院(36.8\%)と定義されている。 その結果, クラスタ間の結果分布の差, シルエットスコア, カリンスキー・ハラバス指数, ダヴィース・ボルディン指数, ROC曲線(AUC)による結果分類において, 複数のベースライン手法と比較して, DICEは優れた性能を示した。

We present deep significance clustering (DICE), a framework for jointly performing representation learning and clustering for "outcome-aware" stratification. DICE is intended to generate cluster membership that may be used to categorize a population by individual risk level for a targeted outcome. Following the representation learning and clustering steps, we embed the objective function in DICE with a constraint which requires a statistically significant association between the outcome and cluster membership of learned representations. DICE further includes a neural architecture search step to maximize both the likelihood of representation learning and outcome classification accuracy with cluster membership as the predictor. To demonstrate its utility in medicine for patient risk-stratification, the performance of DICE was evaluated using two datasets with different outcome ratios extracted from real-world electronic health records. Outcomes are defined as acute kidney injury (30.4\%) among a cohort of COVID-19 patients, and discharge disposition (36.8\%) among a cohort of heart failure patients, respectively. Extensive results demonstrate that DICE has superior performance as measured by the difference in outcome distribution across clusters, Silhouette score, Calinski-Harabasz index, and Davies-Bouldin index for clustering, and Area under the ROC Curve (AUC) for outcome classification compared to several baseline approaches.
翻訳日:2021-04-10 13:46:01 公開日:2021-01-07
# ファジィシステム改善のための忘れ込みによるドリフト予測

Drift anticipation with forgetting to improve evolving fuzzy system ( http://arxiv.org/abs/2101.02442v1 )

ライセンス: Link先を確認
Cl\'ement Leroy (INTUIDOC), Eric Anquetil (INTUIDOC), Nathalie Girard (INTUIDOC)(参考訳) 非定常的なデータストリームを扱うためには、分析システムが時間とともにモデル(パラメータと構造)を進化させる必要がある。 特に、概念ドリフトが発生する可能性があるため、時代遅れになった知識を忘れる必要がある。 しかし, システムのロバスト性が低下する一方で, 新たなデータへの適応性が向上する, 安定性・塑性ジレンマが増大する。 一連の推論ルールに基づいて、Evolving Fuzzy Systems-EFS-は、データストリーム学習問題を解決するのに有効であることが証明されている。 しかし、安定性と可塑性のジレンマに取り組むことは、まだ未解決の問題である。 本稿では,最近導入された概念ドリフト予測に基づくファジィシステムにおける忘れ方を統合するコヒーレントな手法を提案する。 両部間のコヒーレンスを維持するために、前提部の指数的忘れと、EFSの結論部の遅延方向の忘れとの2つの方法を適用する。 このアプローチの独創性は、期待モジュールでのみ忘れることと、EFS(プリンシパルシステムと呼ばれる)が忘れることなく学習し続けることにある。 そして,流路内でドリフトが検出されると,予測モジュールのより適切なパラメータで主システムの古いパラメータを置き換える選択機構が提案される。 提案手法の評価は,最先端のオンライン分類器 (Learn++.NSE, PENsemble, pclass) と, 異なる忘れ方策を用いたオリジナルのシステムとの比較により, ベンチマークオンラインデータセット上で行った。

Working with a non-stationary stream of data requires for the analysis system to evolve its model (the parameters as well as the structure) over time. In particular, concept drifts can occur, which makes it necessary to forget knowledge that has become obsolete. However, the forgetting is subjected to the stability-plasticity dilemma, that is, increasing forgetting improve reactivity of adapting to the new data while reducing the robustness of the system. Based on a set of inference rules, Evolving Fuzzy Systems-EFS-have proven to be effective in solving the data stream learning problem. However tackling the stability-plasticity dilemma is still an open question. This paper proposes a coherent method to integrate forgetting in Evolving Fuzzy System, based on the recently introduced notion of concept drift anticipation. The forgetting is applied with two methods: an exponential forgetting of the premise part and a deferred directional forgetting of the conclusion part of EFS to preserve the coherence between both parts. The originality of the approach consists in applying the forgetting only in the anticipation module and in keeping the EFS (called principal system) learned without any forgetting. Then, when a drift is detected in the stream, a selection mechanism is proposed to replace the obsolete parameters of the principal system with more suitable parameters of the anticipation module. An evaluation of the proposed methods is carried out on benchmark online datasets, with a comparison with state-of-the-art online classifiers (Learn++.NSE, PENsemble, pclass) as well as with the original system using different forgetting strategies.
翻訳日:2021-04-10 13:45:35 公開日:2021-01-07
# XOR演算子に対するTsetlinマシンの収束性について

On the Convergence of Tsetlin Machines for the XOR Operator ( http://arxiv.org/abs/2101.02547v1 )

ライセンス: Link先を確認
Lei Jiao, Xuan Zhang, Ole-Christoffer Granmo, K. Darshana Abeyrathna(参考訳) Tsetlin Machine(TM)は、ハードウェア近傍のビルディングブロックを用いた透過的な推論と学習を含む、いくつかの異なる特性を持つ新しい機械学習アルゴリズムである。 多くの論文がTMを実証的に探求しているが、その性質の多くはまだ数学的に解析されていない。 本稿では,入力がxor演算子の出力と非線形関係にある場合のtmの収束解析を行う。 解析の結果、TMは2つの節からなるだけで、ほぼ確実にXORの再生に収束し、無限時間水平線上のトレーニングデータから学習できることがわかった。 さらに、ハイパーパラメータTが節の構成をどのようにガイドし、節がデータ内の異なるサブパターンをキャプチャするかを示す。 XORの収束解析は、他のより複雑な論理式を解析するための基礎となる。 これらの解析は、数学的観点から、なぜTMがいくつかのパターン認識問題において最先端のパフォーマンスを得たのかの新しい知見を提供する。

The Tsetlin Machine (TM) is a novel machine learning algorithm with several distinct properties, including transparent inference and learning using hardware-near building blocks. Although numerous papers explore the TM empirically, many of its properties have not yet been analyzed mathematically. In this article, we analyze the convergence of the TM when input is non-linearly related to output by the XOR-operator. Our analysis reveals that the TM, with just two conjunctive clauses, can converge almost surely to reproducing XOR, learning from training data over an infinite time horizon. Furthermore, the analysis shows how the hyper-parameter T guides clause construction so that the clauses capture the distinct sub-patterns in the data. Our analysis of convergence for XOR thus lays the foundation for analyzing other more complex logical expressions. These analyses altogether, from a mathematical perspective, provide new insights on why TMs have obtained state-of-the-art performance on several pattern recognition problems
翻訳日:2021-04-10 13:45:08 公開日:2021-01-07
# SHARKS: 機械学習に基づくインターネットとサイバー物理システムにおけるRisKスキャンのためのスマートハックアプローチ

SHARKS: Smart Hacking Approaches for RisK Scanning in Internet-of-Things and Cyber-Physical Systems based on Machine Learning ( http://arxiv.org/abs/2101.02780v1 )

ライセンス: Link先を確認
Tanujay Saha, Najwa Aaraj, Neel Ajjarapu, Niraj K. Jha(参考訳) サイバー物理システム(CPS)やIoT(Internet-of-Thin gs)デバイスは、医療機器やウェアラブルから、原子力発電所、自動運転車、スマートシティ、スマートホームといった重要なインフラまで、さまざまな機能に展開されている。 これらのデバイスは、本質的にソフトウェア、ハードウェア、ネットワークスタック全体にわたって安全ではないため、ハッカーによって悪用される大きな攻撃面を示す。 本稿では,未知のシステム脆弱性を検出し,脆弱性を管理し,脆弱性を悪用した場合のインシデント応答を改善するための革新的手法を提案する。 このアプローチの斬新さは、既知の現実世界のCPS/IoT攻撃からインテリジェンスを抽出し、それらを正規表現の形式で表現し、この正規表現のアンサンブルに機械学習(ML)技術を使用して、新たな攻撃ベクトルとセキュリティ脆弱性を生成することである。 我々の結果は、CPSやIoTエコシステムを悪用する可能性がある10の新しい攻撃ベクタと122の新しい脆弱性エクスプロイトをうまく生成できることを示している。 ml手法は97.4%の精度を実現し,87.2%の検索空間削減により,これらの攻撃を効率的に予測できる。 本稿では,コネクテッドカーの車内ネットワークのハッキングに対する本手法の適用例を示す。 既知の攻撃や新たな攻撃に対する防御策として,様々な種類の攻撃に対する防御・防御機構と,そのような攻撃を対象とするデータの分類について論じる。 この防衛機構は、保護されたリソースの感度に基づいてセキュリティ対策のコストを最適化し、サイバーセキュリティ実践者による現実世界のCPS/IoTへの導入を促進する。

Cyber-physical systems (CPS) and Internet-of-Things (IoT) devices are increasingly being deployed across multiple functionalities, ranging from healthcare devices and wearables to critical infrastructures, e.g., nuclear power plants, autonomous vehicles, smart cities, and smart homes. These devices are inherently not secure across their comprehensive software, hardware, and network stacks, thus presenting a large attack surface that can be exploited by hackers. In this article, we present an innovative technique for detecting unknown system vulnerabilities, managing these vulnerabilities, and improving incident response when such vulnerabilities are exploited. The novelty of this approach lies in extracting intelligence from known real-world CPS/IoT attacks, representing them in the form of regular expressions, and employing machine learning (ML) techniques on this ensemble of regular expressions to generate new attack vectors and security vulnerabilities. Our results show that 10 new attack vectors and 122 new vulnerability exploits can be successfully generated that have the potential to exploit a CPS or an IoT ecosystem. The ML methodology achieves an accuracy of 97.4% and enables us to predict these attacks efficiently with an 87.2% reduction in the search space. We demonstrate the application of our method to the hacking of the in-vehicle network of a connected car. To defend against the known attacks and possible novel exploits, we discuss a defense-in-depth mechanism for various classes of attacks and the classification of data targeted by such attacks. This defense mechanism optimizes the cost of security measures based on the sensitivity of the protected resource, thus incentivizing its adoption in real-world CPS/IoT by cybersecurity practitioners.
翻訳日:2021-04-10 13:44:54 公開日:2021-01-07
# 両部混合確率ブロックモデル

Bipartite mixed membership stochastic blockmodel ( http://arxiv.org/abs/2101.02307v1 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) 近年,ネットワーク分析において,非向ネットワークの混合メンバシップ問題の研究が盛んに行われている。 しかし、より一般的な有向ネットワークの混合メンバシップのケースは依然として課題である。 本稿では,双方向混合会員確率ブロックモデル (BiMMSB, 略してbipartite mixed member stochastic blockmodel) を提案する。 BiMMSBにより、隣接行列の行ノードと列ノードが異なることができ、これらのノードは有向ネットワークにおいて異なるコミュニティ構造を持つことができる。 また、有向ネットワークにおける行ノードと列ノードの混合メンバシップを推定するために、BiMPCAと呼ばれる効率的なスペクトルアルゴリズムを開発した。 このアプローチはBiMMSBの下で漸近的に整合性を示す。 本研究では,bimmsbの利点を実証し,小規模シミュレーション研究,有向政治ブログネットワーク,論文引用ネットワークに適用する。

Mixed membership problem for undirected network has been well studied in network analysis recent years. However, the more general case of mixed membership for directed network remains a challenge. Here, we propose an interpretable model: bipartite mixed membership stochastic blockmodel (BiMMSB for short) for directed mixed membership networks. BiMMSB allows that row nodes and column nodes of the adjacency matrix can be different and these nodes may have distinct community structure in a directed network. We also develop an efficient spectral algorithm called BiMPCA to estimate the mixed memberships for both row nodes and column nodes in a directed network. We show that the approach is asymptotically consistent under BiMMSB. We demonstrate the advantages of BiMMSB with applications to a small-scale simulation study, the directed Political blogs network and the Papers Citations network.
翻訳日:2021-04-10 13:44:23 公開日:2021-01-07
# ガウス過程としての無限広テンソルネットワーク

Infinitely Wide Tensor Networks as Gaussian Process ( http://arxiv.org/abs/2101.02333v1 )

ライセンス: Link先を確認
Erdong Guo and David Draper(参考訳) ガウス過程(gaussian process)は、関数空間上の分布として直感的に理解できる非パラメトリックな前処理である。 ガウス過程は、ニューラルネットワークの重みの前に適切に導入することにより、ベイズ的ニューラルネットワークの無限幅限界をベイズ的視点から捉えることで得られることが知られている。 本稿では,無限大のテンソルネットワークを探索し,無限大のテンソルネットワークとガウス過程の同値性を示す。 我々は、純粋なテンソルネットワークと2つの拡張テンソルネットワーク構造、すなわちニューラルネットワークテンソルネットワークとテンソルネットワーク隠れ層ニューラルネットワークについて研究し、各モデルの幅が無限になるにつれて、それぞれがガウス過程に収束することを証明する。 (ここでは、ガウス過程は、テンソルノードの積における結合次元 $\alpha_{i}$ の少なくとも1つの無限極限を取ることによっても得ることができ、証明は無限幅の場合の証明において同じアイデアを用いて行うことができる)。 一般集合を持つ無限幅テンソルネットワークを用いて,誘導ガウス過程の有限次元分布の平均関数(平均ベクトル)と共分散関数(共分散行列)を計算する。 共分散関数の性質について検討し、期待演算子の積分が難解であるときに共分散関数の近似を導出する。 数値実験では、無限極限テンソルネットワークに対応するガウス過程を実装し、これらのモデルのサンプルパスをプロットする。 本研究では,従来の分布の標準偏差を変化させることにより,誘導ガウス過程の超パラメータを解析し,サンプル経路ファミリーをプロットする。 予想通り、事前分布のパラメータ、すなわち誘導ガウス過程のハイパーパラメータはガウス過程の特徴的な長さスケールを制御する。

Gaussian Process is a non-parametric prior which can be understood as a distribution on the function space intuitively. It is known that by introducing appropriate prior to the weights of the neural networks, Gaussian Process can be obtained by taking the infinite-width limit of the Bayesian neural networks from a Bayesian perspective. In this paper, we explore the infinitely wide Tensor Networks and show the equivalence of the infinitely wide Tensor Networks and the Gaussian Process. We study the pure Tensor Network and another two extended Tensor Network structures: Neural Kernel Tensor Network and Tensor Network hidden layer Neural Network and prove that each one will converge to the Gaussian Process as the width of each model goes to infinity. (We note here that Gaussian Process can also be obtained by taking the infinite limit of at least one of the bond dimensions $\alpha_{i}$ in the product of tensor nodes, and the proofs can be done with the same ideas in the proofs of the infinite-width cases.) We calculate the mean function (mean vector) and the covariance function (covariance matrix) of the finite dimensional distribution of the induced Gaussian Process by the infinite-width tensor network with a general set-up. We study the properties of the covariance function and derive the approximation of the covariance function when the integral in the expectation operator is intractable. In the numerical experiments, we implement the Gaussian Process corresponding to the infinite limit tensor networks and plot the sample paths of these models. We study the hyperparameters and plot the sample path families in the induced Gaussian Process by varying the standard deviations of the prior distributions. As expected, the parameters in the prior distribution namely the hyper-parameters in the induced Gaussian Process controls the characteristic lengthscales of the Gaussian Process.
翻訳日:2021-04-10 13:44:08 公開日:2021-01-07
# ニューラルスペクトルと半定自由度:完全ポリノミアル時間におけるポリノミアル活性化ニューラルネットワークのグローバル凸最適化

Neural Spectrahedra and Semidefinite Lifts: Global Convex Optimization of Polynomial Activation Neural Networks in Fully Polynomial-Time ( http://arxiv.org/abs/2101.02429v1 )

ライセンス: Link先を確認
Burak Bartan, Mert Pilanci(参考訳) 非線形アクティベーション関数を持つ2層ニューラルネットワークのトレーニングは多くのアプリケーションにおいて重要な非凸最適化問題であり、層幅深層学習において有望な性能を示す。 本稿では,半定値プログラミングに基づく2次多項式アクティベーションを持つ2層ニューラルネットワークの正確な凸最適化式を開発する。 顕著なことに、半定値リフトは常に正確であり、大域最適化の計算複雑性は入力次元の多項式であり、全ての入力データのサンプルサイズである。 開発された凸式は、非凸式と同じ大域的最適解集合を達成することが証明されている。 より具体的には、多項式活性化を伴う大域的最適2層ニューラルネットワークは、半定値プログラム(SDP)を解き、ニューラル分解と呼ばれる手順を用いて解を分解することで得られる。 さらに、正規化器の選択は、ニューラルネットワークトレーニングの計算的トラクタビリティにおいて重要な役割を果たす。 標準重み減衰正規化定式化はNP-hardであるのに対し、他の単純凸ペナルティは凸計画法により多項式時間で計算可能な問題を示す。 我々は、完全に接続されたアーキテクチャを超えて、ベクトル出力を持つネットワークやプールを伴う畳み込みアーキテクチャを含む、異なるニューラルネットワークアーキテクチャに結果を拡張します。 我々は, 標準バックプロパゲーション手法がトレーニング損失のグローバル最適化に失敗することがしばしばあることを示す, 広範な数値シミュレーションを提供する。 提案手法は, 標準バックプロパゲーション法に比べ, テスト精度が大幅に向上した。

The training of two-layer neural networks with nonlinear activation functions is an important non-convex optimization problem with numerous applications and promising performance in layerwise deep learning. In this paper, we develop exact convex optimization formulations for two-layer neural networks with second degree polynomial activations based on semidefinite programming. Remarkably, we show that semidefinite lifting is always exact and therefore computational complexity for global optimization is polynomial in the input dimension and sample size for all input data. The developed convex formulations are proven to achieve the same global optimal solution set as their non-convex counterparts. More specifically, the globally optimal two-layer neural network with polynomial activations can be found by solving a semidefinite program (SDP) and decomposing the solution using a procedure we call Neural Decomposition. Moreover, the choice of regularizers plays a crucial role in the computational tractability of neural network training. We show that the standard weight decay regularization formulation is NP-hard, whereas other simple convex penalties render the problem tractable in polynomial time via convex programming. We extend the results beyond the fully connected architecture to different neural network architectures including networks with vector outputs and convolutional architectures with pooling. We provide extensive numerical simulations showing that the standard backpropagation approach often fails to achieve the global optimum of the training loss. The proposed approach is significantly faster to obtain better test accuracy compared to the standard backpropagation procedure.
翻訳日:2021-04-10 13:43:42 公開日:2021-01-07
# RobustSleepNet: 大規模な自動睡眠ステージングのための移行学習

RobustSleepNet: Transfer learning for automated sleep staging at scale ( http://arxiv.org/abs/2101.02452v1 )

ライセンス: Link先を確認
Antoine Guillot and Valentin Thorey(参考訳) 睡眠障害の診断は、PSG(polysomnography) レコードの分析に依存する。 睡眠段階は、この検査の予備段階として体系的に決定される。 実際には、睡眠段階分類は、30秒間のポリソノグラフィー信号の視覚検査に依存している。 この面倒で高価なタスクを置き換えるために、多くの自動アプローチが開発されている。 これらの方法は、特定のデータセットでヒトの睡眠専門家よりも優れた性能を示したが、睡眠クリニックでは使用されていない。 主な理由は、各睡眠クリニックが特定のPSGモンタージュを使用しており、ほとんどの自動的なアプローチでは最初から対応できないからです。 さらに、PSGモンタージュが互換性があるとしても、出版物は、異なる人口層を持つ見えないデータに対して自動的なアプローチが不十分であることを示した。 これらの問題に対処するために、任意のPSGモンタージュを扱える自動睡眠ステージ分類のためのディープラーニングモデルであるRobustSleepNetを導入する。 8つのヘテロジニアスな睡眠ステージングデータセットからなる大規模なコーパス上で,このモデルをレシート・ワン・アウト・データセット形式でトレーニングし,評価した。 目に見えないデータセットで評価すると、RobustSleepNetはこのデータセットで特別にトレーニングされたモデルのF1の97%に達する。 そして、このデータセット用に特別にトレーニングされたモデルと比較して、未発見のデータセットの一部を用いて、f1を2%増加させる。 これにより、RobustSleepNetは、あらゆる臨床設定で高品質なアウトオブボックス自動睡眠ステージを実行することができる。 特定の人口で最先端のパフォーマンスに達するように微調整することもできる。

Sleep disorder diagnosis relies on the analysis of polysomnography (PSG) records. Sleep stages are systematically determined as a preliminary step of this examination. In practice, sleep stage classification relies on the visual inspection of 30-seconds epochs of polysomnography signals. Numerous automatic approaches have been developed to replace this tedious and expensive task. Although these methods demonstrated better performance than human sleep experts on specific datasets, they remain largely unused in sleep clinics. The main reason is that each sleep clinic uses a specific PSG montage that most automatic approaches are unable to handle out-of-the-box. Moreover, even when the PSG montage is compatible, publications have shown that automatic approaches perform poorly on unseen data with different demographics. To address these issues, we introduce RobustSleepNet, a deep learning model for automatic sleep stage classification able to handle arbitrary PSG montages. We trained and evaluated this model in a leave-one-out-datase t fashion on a large corpus of 8 heterogeneous sleep staging datasets to make it robust to demographic changes. When evaluated on an unseen dataset, RobustSleepNet reaches 97% of the F1 of a model trained specifically on this dataset. We then show that finetuning RobustSleepNet, using a part of the unseen dataset, increase the F1 by 2% when compared to a model trained specifically for this dataset. Hence, RobustSleepNet unlocks the possibility to perform high-quality out-of-the-box automatic sleep staging with any clinical setup. It can also be finetuned to reach a state-of-the-art level of performance on a specific population.
翻訳日:2021-04-10 13:43:18 公開日:2021-01-07
# 加速・最適・並列:モデルに基づく確率最適化に関するいくつかの結果

Accelerated, Optimal, and Parallel: Some Results on Model-Based Stochastic Optimization ( http://arxiv.org/abs/2101.02696v1 )

ライセンス: Link先を確認
Karan Chadha, Gary Cheng, John C. Duchi(参考訳) 確率的部分次数、近位点、バンドル法を含む確率的凸最適化問題を解くためのモデルベース手法の近似近位点(aprox)ファミリーをミニバッチおよび高速化設定に拡張する。 そこで本研究では,すべての問題依存定数の次数最適である非漸近収束保証と,望ましいロバスト性特性を維持しつつミニバッチサイズの線形高速化を提供するためのモデルベースアルゴリズムと加速度スキームを提案する。 aProxファミリーの(ステップ化)。 さらに,統計的機械学習の重要性が増大している「補間」問題に対する新しい基本定数を同定する収束率と下限の一致を示す。 実験によって得られた理論結果を相関させて, 精度の高いモデリング, 加速度, ミニバッチ化を実証する。

We extend the Approximate-Proximal Point (aProx) family of model-based methods for solving stochastic convex optimization problems, including stochastic subgradient, proximal point, and bundle methods, to the minibatch and accelerated setting. To do so, we propose specific model-based algorithms and an acceleration scheme for which we provide non-asymptotic convergence guarantees, which are order-optimal in all problem-dependent constants and provide linear speedup in minibatch size, while maintaining the desirable robustness traits (e.g. to stepsize) of the aProx family. Additionally, we show improved convergence rates and matching lower bounds identifying new fundamental constants for "interpolation" problems, whose importance in statistical machine learning is growing; this, for example, gives a parallelization strategy for alternating projections. We corroborate our theoretical results with empirical testing to demonstrate the gains accurate modeling, acceleration, and minibatching provide.
翻訳日:2021-04-10 13:42:54 公開日:2021-01-07
# 安全指向歩行者運動と現場占有予測

Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting ( http://arxiv.org/abs/2101.02385v1 )

ライセンス: Link先を確認
Katie Luo, Sergio Casas, Renjie Liao, Xinchen Yan, Yuwen Xiong, Wenyuan Zeng, Raquel Urtasun(参考訳) 本稿では,安全ナビゲーションに欠かせないマルチペデストリアン運動とその共有シーン占有マップの予測における重要な課題について述べる。 私たちの貢献は2倍です。 まず,ポストプロセッシングによる検出の欠如,例えば信頼しきい値と非最大抑圧を効果的に対処するために,個々の動きとシーン占有マップの両方を予測することを提案する。 第2に,2次元畳み込みによる歩行者の相対的空間情報を保存し,検出されていない歩行者を含む同一シーン内の歩行者間の相互作用をメッセージパッシングによりキャプチャするScene-Actor Graph Neural Network (SA-GNN)を提案する。 nuScenes と ATG4D という2つの大規模な実世界のデータセットでは、私たちのシーン占有率予測は、最先端のモーション予測手法よりも正確で精度の高いキャリブレーションがなされており、また歩行者の動き予測指標のパフォーマンスも一致している。

In this paper, we address the important problem in self-driving of forecasting multi-pedestrian motion and their shared scene occupancy map, critical for safe navigation. Our contributions are two-fold. First, we advocate for predicting both the individual motions as well as the scene occupancy map in order to effectively deal with missing detections caused by postprocessing, e.g., confidence thresholding and non-maximum suppression. Second, we propose a Scene-Actor Graph Neural Network (SA-GNN) which preserves the relative spatial information of pedestrians via 2D convolution, and captures the interactions among pedestrians within the same scene, including those that have not been detected, via message passing. On two large-scale real-world datasets, nuScenes and ATG4D, we showcase that our scene-occupancy predictions are more accurate and better calibrated than those from state-of-the-art motion forecasting methods, while also matching their performance in pedestrian motion forecasting metrics.
翻訳日:2021-04-10 13:42:37 公開日:2021-01-07
# 高解像度衛星画像における物体検出のための能動学習

Active learning for object detection in high-resolution satellite images ( http://arxiv.org/abs/2101.02480v1 )

ライセンス: Link先を確認
Alex Goupilleau, Tugdual Ceillier, Marie-Caroline Corbineau(参考訳) 機械学習において、アクティブラーニングという用語は、最も有用なデータを選択することを目的としたテクニックを再分類する。 監視されたディープラーニング技術は、多くのアプリケーションでますます効率的になっていることが示されているが、運用上のパフォーマンスを達成するには大量のラベル付き例が必要である。 そのため、必要なデータセットの作成に関連するラベル付け作業も増加している。 防衛関連のリモートセンシングアプリケーションを開発する際には、広範囲がカバーされ、稀で主に運用上のニーズに専心する軍事専門家を必要とするため、ラベル付けが困難な場合がある。 そのため、ラベル付けの労力を制限することが最も重要です。 本研究は,高分解能画像における物体検出に使用される最も重要なアクティブラーニング手法をレビューすることを目的としており,その手法が関連する運用事例である航空機検出に有用であることを示す。

In machine learning, the term active learning regroups techniques that aim at selecting the most useful data to label from a large pool of unlabelled examples. While supervised deep learning techniques have shown to be increasingly efficient on many applications, they require a huge number of labelled examples to reach operational performances. Therefore, the labelling effort linked to the creation of the datasets required is also increasing. When working on defense-related remote sensing applications, labelling can be challenging due to the large areas covered and often requires military experts who are rare and whose time is primarily dedicated to operational needs. Limiting the labelling effort is thus of utmost importance. This study aims at reviewing the most relevant active learning techniques to be used for object detection on very high resolution imagery and shows an example of the value of such techniques on a relevant operational use case: aircraft detection.
翻訳日:2021-04-10 13:42:19 公開日:2021-01-07
# 多数のランドマークを用いたヒートマップに基づく2次元ランドマーク検出

Heatmap-based 2D Landmark Detection with a Varying Number of Landmarks ( http://arxiv.org/abs/2101.02737v1 )

ライセンス: Link先を確認
Antonia Stern, Lalith Sharan, Gabriele Romano, Sven Koehler, Matthias Karck, Raffaele De Simone, Ivo Wolf, Sandy Engelhardt(参考訳) 僧帽弁修復は僧帽弁の機能回復のための手術である。 これを実現するために、人工環が僧帽弁に縫合される。 縫合糸の分析は, 環移植術における輪状縫合を経時的に観察し, 術技評価, 定量的手術, 仮想補綴リングモデルの位置決めに有用である。 本研究は,僧帽弁修復術の内視鏡画像中の縫合を検知するニューラルネットワークアプローチを提案し,既存の他のディープラーニングに基づくランドマーク検出手法とは対照的に,様々なランドマーク量によるランドマーク検出問題を解決した。 ニューラルネットワークは、同じアーキテクチャとハイパーパラメータ設定を持つ異なるドメインからの2つのデータ収集を別々にトレーニングする。 データセットはそれぞれ1300以上のステレオフレームで構成され、合計6万以上の注釈付きランドマークがある。 提案した熱マップベースのニューラルネットワークは、66.68$\pm$4.67%の平均正の予測値(PPV)、24.45$\pm$5.06%の平均正の確率(TPR)、81.50$\pm5.77\%の平均PPV、61.60$\pm$6.11%の平均TPRを達成する。 最も優れた検出結果は、カメラが良好な照明で僧帽弁の上に位置するときに達成される。 僧帽弁が十分に知覚可能であれば、側面からの検知も可能である。

Mitral valve repair is a surgery to restore the function of the mitral valve. To achieve this, a prosthetic ring is sewed onto the mitral annulus. Analyzing the sutures, which are punctured through the annulus for ring implantation, can be useful in surgical skill assessment, for quantitative surgery and for positioning a virtual prosthetic ring model in the scene via augmented reality. This work presents a neural network approach which detects the sutures in endoscopic images of mitral valve repair and therefore solves a landmark detection problem with varying amount of landmarks, as opposed to most other existing deep learning-based landmark detection approaches. The neural network is trained separately on two data collections from different domains with the same architecture and hyperparameter settings. The datasets consist of more than 1,300 stereo frame pairs each, with a total over 60,000 annotated landmarks. The proposed heatmap-based neural network achieves a mean positive predictive value (PPV) of 66.68$\pm$4.67% and a mean true positive rate (TPR) of 24.45$\pm$5.06% on the intraoperative test dataset and a mean PPV of 81.50\pm5.77\% and a mean TPR of 61.60$\pm$6.11% on a dataset recorded during surgical simulation. The best detection results are achieved when the camera is positioned above the mitral valve with good illumination. A detection from a sideward view is also possible if the mitral valve is well perceptible.
翻訳日:2021-04-10 13:41:41 公開日:2021-01-07
# 新しいハイブリッドアプローチによる腸管寄生虫の自動診断とその有用性

Automated Diagnosis of Intestinal Parasites: A new hybrid approach and its benefits ( http://arxiv.org/abs/2101.06310v1 )

ライセンス: Link先を確認
D. Osaku, C. F. Cuba, Celso T.N. Suzuki, J.F. Gomes, A.X. Falc\~ao(参考訳) 腸内寄生虫はヒトのいくつかの病気の原因となる。 光学顕微鏡スライドの誤差やすい視覚的解析をなくすため,ヒト腸管寄生虫の診断のための自動化,高速,低コストのシステムについて検討した。 本稿では,2つの意思決定システムの意見と相補的特性を組み合わせたハイブリッドアプローチを提案する。 (ds_1$) 非常に高速な手作り画像特徴抽出とサポートベクターマシン分類に基づく単純なシステムと,深層ニューラルネットワークに基づくより複雑なシステム (vgg-16) による画像特徴抽出と分類である。 $DS_1$は$DS_2$よりもはるかに高速だが、$DS_2$よりも正確ではない。 幸い、$DS_1$のエラーは$DS_2$と同じではない。 トレーニング中、信頼度値に基づいて各クラスでDS_1$で誤分類の確率を学習するために検証セットを使用します。 顕微鏡スライドから全ての画像に$ds_1$が素早く分類されると、この方法は、$ds_2$でキャラクタリゼーションと再分類のための誤分類の可能性の高い多数の画像を選択する。 当社のハイブリッドシステムは、効率を損なうことなく、臨床ルーチンに適合した全体的な効率を改善することができます。 大規模なデータセットで示されるように、提案システムは平均94.9%、87.8%、および92.5%のコーエンのカッパをヘルシンス卵、ヘルシンス幼生、およびプロトゾア嚢胞で得ることができる。

Intestinal parasites are responsible for several diseases in human beings. In order to eliminate the error-prone visual analysis of optical microscopy slides, we have investigated automated, fast, and low-cost systems for the diagnosis of human intestinal parasites. In this work, we present a hybrid approach that combines the opinion of two decision-making systems with complementary properties: ($DS_1$) a simpler system based on very fast handcrafted image feature extraction and support vector machine classification and ($DS_2$) a more complex system based on a deep neural network, Vgg-16, for image feature extraction and classification. $DS_1$ is much faster than $DS_2$, but it is less accurate than $DS_2$. Fortunately, the errors of $DS_1$ are not the same of $DS_2$. During training, we use a validation set to learn the probabilities of misclassification by $DS_1$ on each class based on its confidence values. When $DS_1$ quickly classifies all images from a microscopy slide, the method selects a number of images with higher chances of misclassification for characterization and reclassification by $DS_2$. Our hybrid system can improve the overall effectiveness without compromising efficiency, being suitable for the clinical routine -- a strategy that might be suitable for other real applications. As demonstrated on large datasets, the proposed system can achieve, on average, 94.9%, 87.8%, and 92.5% of Cohen's Kappa on helminth eggs, helminth larvae, and protozoa cysts, respectively.
翻訳日:2021-04-10 13:41:12 公開日:2021-01-07
# ニューラルストレージ: 弾力性メモリの新しいパラダイム

Neural Storage: A New Paradigm of Elastic Memory ( http://arxiv.org/abs/2101.02729v1 )

ライセンス: Link先を確認
Prabuddha Chakraborty and Swarup Bhunia(参考訳) コンピュータメモリ内のデータの保存と検索は、システム性能において大きな役割を果たす。 伝統的に、コンピュータメモリの組織は静的であり、システム操作中のメモリアクセス動作のアプリケーション固有の特性に基づいて変化しない。 具体的には、データブロックと検索パターン(またはキュー)の関連性、および記憶されたデータの粒度が進化しない。 このようなコンピュータメモリの静的な性質は、物理ストレージに格納できるデータの量を制限するだけでなく、様々なアプリケーションで劇的なパフォーマンス向上の機会を逃している。 それとは対照的に、人間の記憶はデータの保存と検索において無限に可塑性に見え、データと対応する手がかりの間の関連を動的に生成・更新する。 本稿では,脳にインスパイアされた学習記憶パラダイムであるNeural Storage(NS)を紹介し,メモリをフレキシブルなニューラルメモリネットワークとして構成する。 NSでは、ネットワーク構造、関連性の強さ、データの粒度がシステム操作中に連続的に調整され、前例のない塑性と性能上の利点を提供する。 本稿では,学習過程を形式化したNSの記憶/記憶/保持アルゴリズムについて述べる。 実運用モデルを用いて,従来のコンテントベースメモリと比較して,NSは2つの代表的なアプリケーションに対して,メモリアクセス性能を大幅に向上することを示す。

Storage and retrieval of data in a computer memory plays a major role in system performance. Traditionally, computer memory organization is static - i.e., they do not change based on the application-specific characteristics in memory access behaviour during system operation. Specifically, the association of a data block with a search pattern (or cues) as well as the granularity of a stored data do not evolve. Such a static nature of computer memory, we observe, not only limits the amount of data we can store in a given physical storage, but it also misses the opportunity for dramatic performance improvement in various applications. On the contrary, human memory is characterized by seemingly infinite plasticity in storing and retrieving data - as well as dynamically creating/updating the associations between data and corresponding cues. In this paper, we introduce Neural Storage (NS), a brain-inspired learning memory paradigm that organizes the memory as a flexible neural memory network. In NS, the network structure, strength of associations, and granularity of the data adjust continuously during system operation, providing unprecedented plasticity and performance benefits. We present the associated storage/retrieval/re tention algorithms in NS, which integrate a formalized learning process. Using a full-blown operational model, we demonstrate that NS achieves an order of magnitude improvement in memory access performance for two representative applications when compared to traditional content-based memory.
翻訳日:2021-04-10 13:40:43 公開日:2021-01-07
# read, retrospect, select: 短いテキストエンティティリンクのためのmrcフレームワーク

Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking ( http://arxiv.org/abs/2101.02394v1 )

ライセンス: Link先を確認
Yingjie Gu, Xiaoye Qu, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan and Xiaolin Gui(参考訳) 急速に成長する短いテキスト(例)に対するエンティティリンク(EL) 検索クエリとニュースタイトル)は産業アプリケーションにとって重要である。 長いテキスト EL の適切なコンテキストに依存する既存のアプローチは、簡潔でスパースな短文には有効ではない。 本稿では,その周辺環境を利用した曖昧な言及ごとにクエリを生成し,そのクエリを用いた候補から黄金の実体を識別するためにオプション選択モジュールを用いるという,短いテキストELを新しい視点から解くための,Multi-turn Multi-choice Machine read comprehension (M3}) という新しいフレームワークを提案する。 このようにして、M3フレームワークは符号化プロセス中に限定されたコンテキストと十分に相互作用し、選択段階における候補群内の相違を暗黙的に考慮する。 さらに,M3に組み込まれた2段階検証器を設計し,短文の非リンク性問題に対処する。 参照エンティティ間のトピックの一貫性と相互依存性をさらに考慮するために、M3は、複数ターンのスタイルを活用して、歴史的手がかりを振り返って参照をシーケンス的に扱う。 評価の結果、m3フレームワークは、現実世界の短文elの5つの中国語と英語のデータセットで最先端のパフォーマンスを実現しています。

Entity linking (EL) for the rapidly growing short text (e.g. search queries and news titles) is critical to industrial applications. Most existing approaches relying on adequate context for long text EL are not effective for the concise and sparse short text. In this paper, we propose a novel framework called Multi-turn Multiple-choice Machine reading comprehension (M3}) to solve the short text EL from a new perspective: a query is generated for each ambiguous mention exploiting its surrounding context, and an option selection module is employed to identify the golden entity from candidates using the query. In this way, M3 framework sufficiently interacts limited context with candidate entities during the encoding process, as well as implicitly considers the dissimilarities inside the candidate bunch in the selection stage. In addition, we design a two-stage verifier incorporated into M3 to address the commonly existed unlinkable problem in short text. To further consider the topical coherence and interdependence among referred entities, M3 leverages a multi-turn fashion to deal with mentions in a sequence manner by retrospecting historical cues. Evaluation shows that our M3 framework achieves the state-of-the-art performance on five Chinese and English datasets for the real-world short text EL.
翻訳日:2021-04-10 13:40:24 公開日:2021-01-07
# モバイル端末における多言語テキストの言語検出エンジン

Language Detection Engine for Multilingual Texting on Mobile Devices ( http://arxiv.org/abs/2101.03963v1 )

ライセンス: Link先を確認
Sourabh Vasant Gothe, Sourav Ghosh, Sharmila Mani, Guggilla Bhanodai, Ankur Agarwal, Chandramouli Sanchi(参考訳) 全世界で20億人以上のモバイルユーザーがソフトキーボードで複数の言語を入力している。 単言語キーボードでは、誤訂正された単語の38%が別の言語で有効である。 これは、型付き語の言語を検出して、それぞれの言語で検証することで容易に回避できる。 言語検出は自然言語処理においてよく知られた問題である。 本稿では,ユーザの意図する言語に動的に適応する多言語型付けのための高速・軽量・高精度言語検出エンジン(lde)を提案する。 本稿では,文字n-gramモデルとロジスティック回帰に基づくセレクタモデルを融合して言語を識別する新しい手法を提案する。 また,パラメータ削減手法により推定時間を大幅に短縮する独自の手法を提案する。 また,同一文字パターンの言語間の入力テキストのあいまいさを解決するため,ldeをまたいだ様々な最適化について検討する。 本手法は,ラテン文字のインド語では平均94.5%,コード変更データでは欧州語では98%の精度を示す。 このモデルはfasttextを60.39%、ml-kitを23.67%上回っている。 LDEは平均推定時間は25.91マイクロ秒のモバイルデバイスでは高速である。

More than 2 billion mobile users worldwide type in multiple languages in the soft keyboard. On a monolingual keyboard, 38% of falsely auto-corrected words are valid in another language. This can be easily avoided by detecting the language of typed words and then validating it in its respective language. Language detection is a well-known problem in natural language processing. In this paper, we present a fast, light-weight and accurate Language Detection Engine (LDE) for multilingual typing that dynamically adapts to user intended language in real-time. We propose a novel approach where the fusion of character N-gram model and logistic regression based selector model is used to identify the language. Additionally, we present a unique method of reducing the inference time significantly by parameter reduction technique. We also discuss various optimizations fabricated across LDE to resolve ambiguity in input text among the languages with the same character pattern. Our method demonstrates an average accuracy of 94.5% for Indian languages in Latin script and that of 98% for European languages on the code-switched data. This model outperforms fastText by 60.39% and ML-Kit by 23.67% in F1 score for European languages. LDE is faster on mobile device with an average inference time of 25.91 microseconds.
翻訳日:2021-04-10 13:40:05 公開日:2021-01-07
# モバイルデバイスのリアルタイム最適化N-gram

Real-Time Optimized N-gram For Mobile Devices ( http://arxiv.org/abs/2101.03967v1 )

ライセンス: Link先を確認
Sharmila Mani, Sourabh Vasant Gothe, Sourav Ghosh, Ajay Kumar Mishra, Prakhar Kulshreshtha, Bhargavi M, Muthu Kumaran(参考訳) モバイルデバイスの増加に伴い、ソフトキーボードに最適化された言語モデル(lms)を生成する研究が続いている。 この領域の進歩にもかかわらず、ローエンドのフィーチャーフォンとハイエンドのスマートフォン用に単一のLMを構築することは、いまだに厳しいニーズである。 そこで我々は,モバイルリソースを効率的に活用し,より高速なWord Completion (WC) とNext Word Prediction (NWP) を実現するための,新しい手法であるOptimized N-gram (Op-Ngram) を提案する。 Op-Ngramは、軽量モデルを生成するためにStupid Backoffとpruning戦略を適用します。 モバイルでのLMロード時間はモデルサイズに対して線形である。 その結果,Op-NgramはLanguage Model (LM)-ROMサイズが37%向上し,LM-RAMサイズが76%,ロード時間が88%,提案時間が89%向上した。 さらに,本手法は,KenLMよりも優れた性能を示す。

With the increasing number of mobile devices, there has been continuous research on generating optimized Language Models (LMs) for soft keyboard. In spite of advances in this domain, building a single LM for low-end feature phones as well as high-end smartphones is still a pressing need. Hence, we propose a novel technique, Optimized N-gram (Op-Ngram), an end-to-end N-gram pipeline that utilises mobile resources efficiently for faster Word Completion (WC) and Next Word Prediction (NWP). Op-Ngram applies Stupid Backoff and pruning strategies to generate a light-weight model. The LM loading time on mobile is linear with respect to model size. We observed that Op-Ngram gives 37% improvement in Language Model (LM)-ROM size, 76% in LM-RAM size, 88% in loading time and 89% in average suggestion time as compared to SORTED array variant of BerkeleyLM. Moreover, our method shows significant performance improvement over KenLM as well.
翻訳日:2021-04-10 13:39:48 公開日:2021-01-07
# リアルタイムリアクティブパワーマーケットにおけるニューラルネットワークQイテレーションに基づく最適バイディング戦略_1

Neural Fitted Q Iteration based Optimal Bidding Strategy in Real Time Reactive Power Market_1 ( http://arxiv.org/abs/2101.02456v1 )

ライセンス: Link先を確認
Jahnvi Patel, Devika Jay, Balaraman Ravindran, K.Shanti Swarup(参考訳) リアルタイム電気市場においては、入札中の世代企業の目標は利益を最大化することである。 最適入札を学習するための戦略は、ゲーム理論的アプローチと確率的最適化問題によって定式化されている。 リアクティブ電力市場における同様の研究は、ネットワーク電圧の運用条件がアクティブ電力市場よりもリアクティブ電力市場に与える影響が高いため、まだ報告されていない。 アクティブ電力市場とは対照的に、競争相手の入札は反応電力市場の燃料コストに直接関係しない。 したがって、適切な確率分布関数の仮定は非現実的であり、アクティブパワーマーケットで採用される戦略は、リアクティブパワーマーケットメカニズムにおける最適な入札の学習に適さない。 したがって、不完全なオリゴポラティクス市場における市場の観察と経験から入札戦略を学ぶ必要がある。 本稿では,3段階のリアクティブ電力市場における観測と経験から最適な入札戦略を学習するための先駆的な研究を報告する。

In real time electricity markets, the objective of generation companies while bidding is to maximize their profit. The strategies for learning optimal bidding have been formulated through game theoretical approaches and stochastic optimization problems. Similar studies in reactive power markets have not been reported so far because the network voltage operating conditions have an increased impact on reactive power markets than on active power markets. Contrary to active power markets, the bids of rivals are not directly related to fuel costs in reactive power markets. Hence, the assumption of a suitable probability distribution function is unrealistic, making the strategies adopted in active power markets unsuitable for learning optimal bids in reactive power market mechanisms. Therefore, a bidding strategy is to be learnt from market observations and experience in imperfect oligopolistic competition-based markets. In this paper, a pioneer work on learning optimal bidding strategies from observation and experience in a three-stage reactive power market is reported.
翻訳日:2021-04-10 13:39:31 公開日:2021-01-07
# 画像指向検索エンジンのクリックモデルに視覚バイアスを組み込む

Incorporating Vision Bias into Click Models for Image-oriented Search Engine ( http://arxiv.org/abs/2101.02459v1 )

ライセンス: Link先を確認
Ningxin Xu, Cheng Yang, Yixin Zhu, Xiaowei Hu, Changhu Wang(参考訳) 典型的なクリックモデルは、ユーザーが文書を調べる確率はpbmやubmのような位置のみに依存すると仮定している。 さまざまな検索エンジンでうまく機能する。 しかし、大量の候補文書がクエリに対する応答として画像を表示する検索エンジンでは、検査確率は位置に依存するものではない。 画像指向文書の視覚的外観もまた、その検討の機会において重要な役割を果たす。 本稿では,画像指向型検索エンジンに視覚バイアスが存在することを,位置以外の検査確率に影響を与える重要な要因と仮定する。 具体的には、この仮定を古典的なクリックモデルに適用し、文書の検査可能性をよりよく把握する拡張モデルを提案する。 候補文書から抽出した視覚特徴から視覚バイアスを予測するために回帰型emアルゴリズムを用いた。 本研究では,実世界のオンライン画像指向検索エンジンから開発したデータセット上でのモデル評価を行い,提案モデルがデータ適合性とスパース性処理におけるベースラインモデルよりも大幅に改善できることを実証する。

Most typical click models assume that the probability of a document to be examined by users only depends on position, such as PBM and UBM. It works well in various kinds of search engines. However, in a search engine where massive candidate documents display images as responses to the query, the examination probability should not only depend on position. The visual appearance of an image-oriented document also plays an important role in its opportunity to be examined. In this paper, we assume that vision bias exists in an image-oriented search engine as another crucial factor affecting the examination probability aside from position. Specifically, we apply this assumption to classical click models and propose an extended model, to better capture the examination probabilities of documents. We use regression-based EM algorithm to predict the vision bias given the visual features extracted from candidate documents. Empirically, we evaluate our model on a dataset developed from a real-world online image-oriented search engine, and demonstrate that our proposed model can achieve significant improvements over its baseline model in data fitness and sparsity handling.
翻訳日:2021-04-10 13:39:15 公開日:2021-01-07
# モバイルユーザプロファイリングのための強化された模倣グラフ表現学習--敵対的学習の視点から

Reinforced Imitative Graph Representation Learning for Mobile User Profiling: An Adversarial Training Perspective ( http://arxiv.org/abs/2101.02634v1 )

ライセンス: Link先を確認
Dongjie Wang, Pengyang Wang, Kunpeng Liu, Yuanchun Zhou, Charles Hughes, Yanjie Fu(参考訳) 本稿では,人間の移動性モデリングパイプラインにおけるユーザの特性を定量化するための重要な要素である,モバイルユーザプロファイリングの問題点について考察する。 ヒューマンモビリティ(human mobility)は、ユーザの動的関心に依存する、逐次的な意思決定プロセスである。 正確なユーザープロファイルにより、予測モデルはユーザーの移動軌跡を完璧に再現することができる。 逆方向では、予測モデルがユーザのモビリティパターンを模倣できると、学習したユーザプロファイルも最適になる。 このような直感は、エージェントが最適なユーザプロファイルのためにユーザのモビリティパターンを正確に模倣するように訓練された強化学習を活用することで、模倣に基づくモバイルユーザプロファイルフレームワークを提案する動機となっている。 具体的には,(1)ユーザプロファイルと時空間をリアルタイムに組み合わせた状態を生成する表現モジュール,(2)Deep Q-network(DQN)が表現モジュールによって生成される状態に基づいてユーザ動作(アクション)を模倣する模倣モジュール,の2つのモジュールを含む。 しかし、効果的にフレームワークを実行するには2つの課題がある。 第一に、DQNにおけるエプシロン・グリード戦略は、エプシロン確率をランダムに選択することで探索・探索トレードオフを利用する。 このようなランダム性は表現モジュールにフィードバックし、学習したユーザプロファイルが不安定になる。 そこで本研究では,表現モジュールの堅牢性を保証するための対角的トレーニング戦略を提案する。 第2に、representationモジュールはユーザのプロファイルをインクリメンタルに更新し、ユーザプロファイルの時間的効果を統合する必要がある。 LSTM(Long-Short Term Memory)にヒントを得て,新しいユーザ特性と古いユーザ特性をユーザプロファイルに組み込むゲート機構を導入する。

In this paper, we study the problem of mobile user profiling, which is a critical component for quantifying users' characteristics in the human mobility modeling pipeline. Human mobility is a sequential decision-making process dependent on the users' dynamic interests. With accurate user profiles, the predictive model can perfectly reproduce users' mobility trajectories. In the reverse direction, once the predictive model can imitate users' mobility patterns, the learned user profiles are also optimal. Such intuition motivates us to propose an imitation-based mobile user profiling framework by exploiting reinforcement learning, in which the agent is trained to precisely imitate users' mobility patterns for optimal user profiles. Specifically, the proposed framework includes two modules: (1) representation module, which produces state combining user profiles and spatio-temporal context in real-time; (2) imitation module, where Deep Q-network (DQN) imitates the user behavior (action) based on the state that is produced by the representation module. However, there are two challenges in running the framework effectively. First, epsilon-greedy strategy in DQN makes use of the exploration-exploita tion trade-off by randomly pick actions with the epsilon probability. Such randomness feeds back to the representation module, causing the learned user profiles unstable. To solve the problem, we propose an adversarial training strategy to guarantee the robustness of the representation module. Second, the representation module updates users' profiles in an incremental manner, requiring integrating the temporal effects of user profiles. Inspired by Long-short Term Memory (LSTM), we introduce a gated mechanism to incorporate new and old user characteristics into the user profile.
翻訳日:2021-04-10 13:39:01 公開日:2021-01-07
# トレーニングプール内の不確かさの低減--医学画像分割のためのアクティブラーニング

Diminishing Uncertainty within the Training Pool: Active Learning for Medical Image Segmentation ( http://arxiv.org/abs/2101.02323v1 )

ライセンス: Link先を確認
Vishwesh Nath, Dong Yang, Bennett A. Landman, Daguang Xu, Holger R. Roth(参考訳) アクティブな学習は、受動的機械学習とは異なり、モデル/アルゴリズムがモデルに有益な一連のデータポイントのアノテーションをユーザに案内する、機械学習テクニックのユニークな抽象化である。 第一の利点は、アクティブな学習フレームワークがモデルの学習プロセスを加速できるデータポイントを選択し、ランダムに取得されたデータセットでトレーニングされたモデルと比較して、完全な精度を達成するために必要なデータ量を削減できる点である。 アクティブラーニングとディープラーニングを組み合わせた複数のフレームワークが提案されており、その大半は分類タスクに特化している。 本稿では,医療画像データセットのセグメンテーション作業におけるアクティブラーニングについて検討する。 提案するフレームワークを2つのデータセットを用いて検討する。 MRIによる海馬の観察(第2報) 膵・腫瘍のCT検査。 本研究は,共同オプティマイザを委員会に使用するアクティブラーニングのためのクエリ・バイ・コミッテ・アプローチを提案する。 同時に,アクティブラーニングのための3つの新しい戦略を提案する。 不確実データの頻度を増加させてトレーニングデータセットを偏らせること。 学習データセットの多様性を確保するために,入力画像間の相互情報をレギュレータとして利用すること。 Dice log-likelihood のStin variational gradient descent (SVGD) への適応 その結果、データセット毎に利用可能なデータの22.69 %と48.85 %をそれぞれ使用しながら、完全な精度を達成することで、データ削減の観点での改善が示された。

Active learning is a unique abstraction of machine learning techniques where the model/algorithm could guide users for annotation of a set of data points that would be beneficial to the model, unlike passive machine learning. The primary advantage being that active learning frameworks select data points that can accelerate the learning process of a model and can reduce the amount of data needed to achieve full accuracy as compared to a model trained on a randomly acquired data set. Multiple frameworks for active learning combined with deep learning have been proposed, and the majority of them are dedicated to classification tasks. Herein, we explore active learning for the task of segmentation of medical imaging data sets. We investigate our proposed framework using two datasets: 1.) MRI scans of the hippocampus, 2.) CT scans of pancreas and tumors. This work presents a query-by-committee approach for active learning where a joint optimizer is used for the committee. At the same time, we propose three new strategies for active learning: 1.) increasing frequency of uncertain data to bias the training data set; 2.) Using mutual information among the input images as a regularizer for acquisition to ensure diversity in the training dataset; 3.) adaptation of Dice log-likelihood for Stein variational gradient descent (SVGD). The results indicate an improvement in terms of data reduction by achieving full accuracy while only using 22.69 % and 48.85 % of the available data for each dataset, respectively.
翻訳日:2021-04-10 13:38:24 公開日:2021-01-07
# 大規模位置認識のための効率的な3Dポイントクラウド特徴学習

Efficient 3D Point Cloud Feature Learning for Large-Scale Place Recognition ( http://arxiv.org/abs/2101.02374v1 )

ライセンス: Link先を確認
Le Hui, Mingmei Cheng, Jin Xie, Jian Yang(参考訳) 場所認識のためのポイントクラウドベースの検索は、環境変化におけるシーンの劇的な外観や照明の変化により、依然として困難な問題である。 検索タスクのための既存のディープラーニングベースのグローバル記述子は通常、限られたハードウェアリソースの場合に適さない大量の計算リソース(メモリなど)を消費する。 本稿では,効率的なポイントクラウド学習ネットワーク(EPC-Net)を開発し,視覚的位置認識のためのグローバルディスクリプタを構築する。 まず,ポイントクラウドの局所的な幾何学的特徴を集約する,軽量かつ効果的なニューラルネットワークモジュールであるproxyconvを提案する。 空間隣接行列とプロキシポイントを利用して、メモリ消費の低減のために元のエッジ畳み込みを単純化する。 そこで我々は,検索用グローバルディスクリプタを構築するために,軽量グループVLADネットワーク(G-VLAD)を設計する。 従来のVLADネットワークと比較して,高次元ベクトルを低次元ベクトル群に分解するグループ完全連結(GFC)層を提案し,ネットワークのパラメータ数を削減し,特徴ベクトルの識別を維持する。 最後に,2つのProxyConvモジュールと1つの最大プール層から構成され,グローバルな記述子を集約するEPC-Net-Lというシンプルなバージョンを開発する。 EPC-Netから知識を蒸留することにより、EPC-Net-Lは検索のための識別的グローバル記述子を得ることができる。 オックスフォードデータセットと3つの社内データセットの大規模な実験により、提案手法は、より低いパラメータ、FLOP、実行時間で最先端のパフォーマンスを実現することができることを示した。

Point cloud based retrieval for place recognition is still a challenging problem due to drastic appearance and illumination changes of scenes in changing environments. Existing deep learning based global descriptors for the retrieval task usually consume a large amount of computation resources (e.g., memory), which may not be suitable for the cases of limited hardware resources. In this paper, we develop an efficient point cloud learning network (EPC-Net) to form a global descriptor for visual place recognition, which can obtain good performance and reduce computation memory and inference time. First, we propose a lightweight but effective neural network module, called ProxyConv, to aggregate the local geometric features of point clouds. We leverage the spatial adjacent matrix and proxy points to simplify the original edge convolution for lower memory consumption. Then, we design a lightweight grouped VLAD network (G-VLAD) to form global descriptors for retrieval. Compared with the original VLAD network, we propose a grouped fully connected (GFC) layer to decompose the high-dimensional vectors into a group of low-dimensional vectors, which can reduce the number of parameters of the network and maintain the discrimination of the feature vector. Finally, to further reduce the inference time, we develop a simple version of EPC-Net, called EPC-Net-L, which consists of two ProxyConv modules and one max pooling layer to aggregate global descriptors. By distilling the knowledge from EPC-Net, EPC-Net-L can obtain discriminative global descriptors for retrieval. Extensive experiments on the Oxford dataset and three in-house datasets demonstrate that our proposed method can achieve state-of-the-art performance with lower parameters, FLOPs, and runtime per frame.
翻訳日:2021-04-10 13:38:03 公開日:2021-01-07
# 点雲のセマンティクスセグメンテーションのための境界認識幾何符号化

Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds ( http://arxiv.org/abs/2101.02381v1 )

ライセンス: Link先を確認
Jingyu Gong, Jiachen Xu, Xin Tan, Jie Zhou, Yanyun Qu, Yuan Xie, Lizhuang Ma(参考訳) 境界情報は2d画像のセグメンテーションにおいて重要な役割を果たすが、通常は3dポイントのクラウドセグメンテーションでは無視される。 本稿では,まず境界点予測のための境界予測モジュール(BPM)を提案する。 予測境界に基づいて、境界対応幾何符号化モジュール (GEM) は、幾何学的情報を符号化し、周辺地域の識別に伴う特徴を集約することにより、異なるカテゴリに属する局所的特徴が互いに汚染されないよう設計されている。 また,境界認識ジェムのための余分な幾何学情報を提供するため,抽出された特徴をより識別する軽量幾何畳み込み演算(gco)を提案する。 境界対応のGEMに基づいて構築され、ネットワークを構築し、ScanNet v2、S3DISなどのベンチマークでテストします。 その結果,本手法はベースラインを著しく改善し,最先端の性能を実現することができることがわかった。 コードはhttps://github.com/J chenXu/BoundaryAware GEMで入手できる。

Boundary information plays a significant role in 2D image segmentation, while usually being ignored in 3D point cloud segmentation where ambiguous features might be generated in feature extraction, leading to misclassification in the transition area between two objects. In this paper, firstly, we propose a Boundary Prediction Module (BPM) to predict boundary points. Based on the predicted boundary, a boundary-aware Geometric Encoding Module (GEM) is designed to encode geometric information and aggregate features with discrimination in a neighborhood, so that the local features belonging to different categories will not be polluted by each other. To provide extra geometric information for boundary-aware GEM, we also propose a light-weight Geometric Convolution Operation (GCO), making the extracted features more distinguishing. Built upon the boundary-aware GEM, we build our network and test it on benchmarks like ScanNet v2, S3DIS. Results show our methods can significantly improve the baseline and achieve state-of-the-art performance. Code is available at https://github.com/J chenXu/BoundaryAware GEM.
翻訳日:2021-04-10 13:37:19 公開日:2021-01-07
# pandanet : アンカーベース単発多人数3次元ポーズ推定

PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation ( http://arxiv.org/abs/2101.02471v1 )

ライセンス: Link先を確認
Abdallah Benzine, Florian Chabot, Bertrand Luvison, Quoc Cong Pham, Cahterine Achrd(参考訳) 近年,3次元ポーズ推定のための深層学習モデルが提案されている。 それにもかかわらず、これらのアプローチのほとんどは、高解像度の少数の人の一人のケースや見積の3Dポーズにのみ焦点を当てています。 さらに、自律運転や群集分析のような多くのアプリケーションは、おそらく低解像度で多数の人のポーズ推定を必要とする。 本研究では,提案手法であるpandanet(pose estimation and dectection anchor-based network)を提案する。 提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。 ネットワークが各バウンディングボックスの完全な3Dポーズを予測し、低解像度で潜在的に多くの人のポーズ推定を可能にするため、関節を再グループ化するための後処理は不要である。 重なり合う人を管理するために,ポーズ認識アンカー選択戦略を導入する。 また,画像中の人物サイズ間の不均衡や,その大きさに応じて関節座標が不確実性が異なるため,効率的な訓練のために,人物スケールや関節に関連する重みを自動的に最適化する手法を提案する。 マルチパーソン・アーバン・バーチャルだが非常に現実的なデータセット(jtaデータセット)と2つの現実世界の3dマルチパーソンデータセット(cmu panopticとmupots-3d)である。

Recently, several deep learning models have been proposed for 3D human pose estimation. Nevertheless, most of these approaches only focus on the single-person case or estimate 3D pose of a few people at high resolution. Furthermore, many applications such as autonomous driving or crowd analysis require pose estimation of a large number of people possibly at low-resolution. In this work, we present PandaNet (Pose estimAtioN and Dectection Anchor-based Network), a new single-shot, anchor-based and multi-person 3D pose estimation approach. The proposed model performs bounding box detection and, for each detected person, 2D and 3D pose regression into a single forward pass. It does not need any post-processing to regroup joints since the network predicts a full 3D pose for each bounding box and allows the pose estimation of a possibly large number of people at low resolution. To manage people overlapping, we introduce a Pose-Aware Anchor Selection strategy. Moreover, as imbalance exists between different people sizes in the image, and joints coordinates have different uncertainties depending on these sizes, we propose a method to automatically optimize weights associated to different people scales and joints for efficient training. PandaNet surpasses previous single-shot methods on several challenging datasets: a multi-person urban virtual but very realistic dataset (JTA Dataset), and two real world 3D multi-person datasets (CMU Panoptic and MuPoTS-3D).
翻訳日:2021-04-10 13:36:46 公開日:2021-01-07
# GAN-Control: 明示的な制御可能なGAN

GAN-Control: Explicitly Controllable GANs ( http://arxiv.org/abs/2101.02477v1 )

ライセンス: Link先を確認
Alon Shoshan, Nadav Bhonker, Igor Kviatkovsky, Gerard Medioni(参考訳) 本稿では,生成画像の明示的な制御によるgan学習の枠組みを提案する。 生成した画像は、年齢、ポーズ、表情などの正確な属性を設定することで制御できます。 GAN生成画像を編集するためのほとんどのアプローチは、標準GAN訓練後に暗黙的に得られた潜伏空間のゆがみ特性を利用して部分的な制御を実現する。 そのようなメソッドは特定の属性の相対的な強度を変更できるが、明示的に値を設定することはできない。 近年,人間の顔の鮮明な制御を目的とした3次元顔モデルが提案され,GANのきめ細かい制御が可能となった。 これらの方法とは異なり、我々の制御は変形可能な3次元顔モデルパラメータに制約されず、人間の顔の領域を超えて拡張可能である。 対照的な学習を用いて, 明らかに不連続な潜在空間を持つganを得る。 この歪みを利用して、人間の解釈可能な入力を適切な潜在ベクトルにマッピングする制御エンコーダを訓練し、明示的な制御を可能にする。 人間の顔の領域では、アイデンティティ、年齢、ポーズ、表情、髪の色、照明の制御が示されます。 また,絵画や犬の画像生成の領域において,我々のフレームワークの制御能力を示す。 提案手法は,定性的かつ定量的に,最先端の性能を実現する。

We present a framework for training GANs with explicit control over generated images. We are able to control the generated image by settings exact attributes such as age, pose, expression, etc. Most approaches for editing GAN-generated images achieve partial control by leveraging the latent space disentanglement properties, obtained implicitly after standard GAN training. Such methods are able to change the relative intensity of certain attributes, but not explicitly set their values. Recently proposed methods, designed for explicit control over human faces, harness morphable 3D face models to allow fine-grained control capabilities in GANs. Unlike these methods, our control is not constrained to morphable 3D face model parameters and is extendable beyond the domain of human faces. Using contrastive learning, we obtain GANs with an explicitly disentangled latent space. This disentanglement is utilized to train control-encoders mapping human-interpretable inputs to suitable latent vectors, thus allowing explicit control. In the domain of human faces we demonstrate control over identity, age, pose, expression, hair color and illumination. We also demonstrate control capabilities of our framework in the domains of painted portraits and dog image generation. We demonstrate that our approach achieves state-of-the-art performance both qualitatively and quantitatively.
翻訳日:2021-04-10 13:36:21 公開日:2021-01-07
# リカレントニューラルネットワークに基づく容器軌道予測のための深層学習手法

Deep Learning Methods for Vessel Trajectory Prediction based on Recurrent Neural Networks ( http://arxiv.org/abs/2101.02486v1 )

ライセンス: Link先を確認
Samuele Capobianco, Leonardo M. Millefiori, Nicola Forti, Paolo Braca, and Peter Willett(参考訳) データ駆動方式は、自動識別システム(ais)データを用いた海上監視の先例のない可能性を開く。 本研究では, 過去のAIS観測による深層学習戦略を探求し, 将来的な船舶軌道予測の課題を数時間の予測地平線で解決する。 本稿では,過去の軌道データに基づいて訓練されたエンコーダ・デコーダ・リカレントニューラルネットワーク(rnn)に基づく,新たなシーケンス・トゥ・シークエンス・コンテナ軌道予測モデルを提案する。 提案アーキテクチャは,シーケンスモデリングのためのLong Short-Term Memory (LSTM) RNNを組み合わせて観測データをエンコードし,異なる中間アグリゲーション層で将来の予測を生成し,シーケンシャルデータの時空間依存性をキャプチャする。 デンマーク海事当局が自由に利用可能なaisデータセットからの船舶軌道実験の結果、シーケンス間ニューラルネットワークに基づく軌道予測におけるディープラーニング手法の有効性が示され、線形回帰やフィードフォワードネットワークに基づくベースラインアプローチよりも優れた性能が得られる。 評価の結果は, 静的プールよりも注意プーリングの方が優れていること, ラベル付きトラジェクトリで得られる顕著な性能向上, すなわち, などを示す。 過去の観測のシーケンスから符号化された低レベルの文脈表現や、AISから利用できるかもしれない船の高レベルの意図に関する追加の入力(例えば出発または到着のポート)に予測が条件付けられるとき。

Data-driven methods open up unprecedented possibilities for maritime surveillance using Automatic Identification System (AIS) data. In this work, we explore deep learning strategies using historical AIS observations to address the problem of predicting future vessel trajectories with a prediction horizon of several hours. We propose novel sequence-to-sequence vessel trajectory prediction models based on encoder-decoder recurrent neural networks (RNNs) that are trained on historical trajectory data to predict future trajectory samples given previous observations. The proposed architecture combines Long Short-Term Memory (LSTM) RNNs for sequence modeling to encode the observed data and generate future predictions with different intermediate aggregation layers to capture space-time dependencies in sequential data. Experimental results on vessel trajectories from an AIS dataset made freely available by the Danish Maritime Authority show the effectiveness of deep-learning methods for trajectory prediction based on sequence-to-sequence neural networks, which achieve better performance than baseline approaches based on linear regression or feed-forward networks. The comparative evaluation of results shows: i) the superiority of attention pooling over static pooling for the specific application, and ii) the remarkable performance improvement that can be obtained with labeled trajectories, i.e. when predictions are conditioned on a low-level context representation encoded from the sequence of past observations, as well as on additional inputs (e.g., the port of departure or arrival) about the vessel's high-level intention which may be available from AIS.
翻訳日:2021-04-10 13:36:03 公開日:2021-01-07
# 大規模・時間同期可視・熱顔データセット

A Large-Scale, Time-Synchronized Visible and Thermal Face Dataset ( http://arxiv.org/abs/2101.02637v1 )

ライセンス: Link先を確認
Domenick Poster, Matthew Thielke, Robert Nguyen, Srinivasan Rajaraman, Xing Di, Cedric Nimpa Fondje, Vishal M. Patel, Nathaniel J. Short, Benjamin S. Riggan, Nasser M. Nasrabadi, Shuowen Hu(参考訳) 顔から自然に放出される熱を撮像するサーマルフェイス画像は、可視光スペクトルの顔画像と比較して可用性に制限がある。 研究とアルゴリズム開発のための熱顔画像の不足に対処するために,我々はdevcom army research laboratory visible-thermal face dataset (arl-vtf) を提案する。 ARL-VTFデータセットは、395人の被験者の50万枚以上の画像で、私たちの知る限り、これまでで最大の可視画像とサーマルフェイス画像のコレクションである。 データは3つの可視光カメラのステレオ装置と並んで、現代の長波赤外線カメラ(LWIR)で捉えられた。 表情、ポーズ、眼鏡の変動は体系的に記録されている。 データセットは、評価のための広範なアノテーション、メタデータ、標準化されたプロトコルでキュレートされている。 さらに,ARL-VTFデータセット上での最先端モデルの評価により,サーマルフェイスのランドマーク検出とサーマル・ツー・ヴィジュアブル・フェース・検証に関する広範なベンチマーク結果と分析を行った。

Thermal face imagery, which captures the naturally emitted heat from the face, is limited in availability compared to face imagery in the visible spectrum. To help address this scarcity of thermal face imagery for research and algorithm development, we present the DEVCOM Army Research Laboratory Visible-Thermal Face Dataset (ARL-VTF). With over 500,000 images from 395 subjects, the ARL-VTF dataset represents, to the best of our knowledge, the largest collection of paired visible and thermal face images to date. The data was captured using a modern long wave infrared (LWIR) camera mounted alongside a stereo setup of three visible spectrum cameras. Variability in expressions, pose, and eyewear has been systematically recorded. The dataset has been curated with extensive annotations, metadata, and standardized protocols for evaluation. Furthermore, this paper presents extensive benchmark results and analysis on thermal face landmark detection and thermal-to-visible face verification by evaluating state-of-the-art models on the ARL-VTF dataset.
翻訳日:2021-04-10 13:35:34 公開日:2021-01-07
# より信頼性の高いAIソリューション:マルチAI組み合わせを用いた乳房超音波診断

More Reliable AI Solution: Breast Ultrasound Diagnosis Using Multi-AI Combination ( http://arxiv.org/abs/2101.02639v1 )

ライセンス: Link先を確認
Jian Dai, Shuge Lei, Licong Dong, Xiaona Lin, Huabin Zhang, Desheng Sun, Kehong Yuan(参考訳) 目的: 乳癌検診は現代女性の健康予防において非常に重要である。 AIシステムに埋め込まれた既存のマシンは、臨床医が期待する精度に達しない。 インテリジェントなシステムをより信頼性を高めるには、一般的な問題です。 方法:1)超音波画像超解像:SRGAN超解像ネットワークは,装置自体による超音波画像の不明瞭さを低減し,検出モデルの精度と一般化を改善する。 2) 医用画像の必要性に応じて, YOLOv4とCenterNetモデルの改良を行った。 3) マルチAIモデル: 異なるAIモデルのそれぞれの利点に基づき, 2つのAIモデルを用いて臨床結果の相互検証を行う。 同じ結果を受け入れ 他人を拒絶します 結果: 1)超解像モデルの助けを借りて,yolov4モデルとcenternetモデルはともにマップスコアを9.6%,13.8%向上させた。 2) 対象モデルを分類モデルに変換する2つの方法を提案する。 そして、統一出力はmolti-aiモデルの呼び出しを容易にするために指定されたフォーマットである。 3) YOLOv4モデル(感度57.73%,特異度90.08%)とCentralNetモデル(感度62.64%,特異度92.54%)を併用した分類評価実験では,マルチAIモデルは入力データの23.55%の判定を拒否する。 それに伴い、感度は95.91%、特異性は96.02%に大幅に向上した。 結論:我々の研究は、医療画像診断においてAIモデルを信頼性を高める。 意義: 1) 乳房超音波画像の診断にターゲット検出モデルがより適していることを示す。 2) 医学診断における人工知能の新しい考え方として, 他分野からの標的検出モデルを導入し, 医学的病変のスクリーニングを行う。

Objective: Breast cancer screening is of great significance in contemporary women's health prevention. The existing machines embedded in the AI system do not reach the accuracy that clinicians hope. How to make intelligent systems more reliable is a common problem. Methods: 1) Ultrasound image super-resolution: the SRGAN super-resolution network reduces the unclearness of ultrasound images caused by the device itself and improves the accuracy and generalization of the detection model. 2) In response to the needs of medical images, we have improved the YOLOv4 and the CenterNet models. 3) Multi-AI model: based on the respective advantages of different AI models, we employ two AI models to determine clinical resuls cross validation. And we accept the same results and refuses others. Results: 1) With the help of the super-resolution model, the YOLOv4 model and the CenterNet model both increased the mAP score by 9.6% and 13.8%. 2) Two methods for transforming the target model into a classification model are proposed. And the unified output is in a specified format to facilitate the call of the molti-AI model. 3) In the classification evaluation experiment, concatenated by the YOLOv4 model (sensitivity 57.73%, specificity 90.08%) and the CenterNet model (sensitivity 62.64%, specificity 92.54%), the multi-AI model will refuse to make judgments on 23.55% of the input data. Correspondingly, the performance has been greatly improved to 95.91% for the sensitivity and 96.02% for the specificity. Conclusion: Our work makes the AI model more reliable in medical image diagnosis. Significance: 1) The proposed method makes the target detection model more suitable for diagnosing breast ultrasound images. 2) It provides a new idea for artificial intelligence in medical diagnosis, which can more conveniently introduce target detection models from other fields to serve medical lesion screening.
翻訳日:2021-04-10 13:35:18 公開日:2021-01-07
# 任意のポイントクラウド上の3d機能の自己教師付き事前学習

Self-Supervised Pretraining of 3D Features on any Point-Cloud ( http://arxiv.org/abs/2101.02691v1 )

ライセンス: Link先を確認
Zaiwei Zhang, Rohit Girdhar, Armand Joulin, Ishan Misra(参考訳) 大規模ラベル付きデータセットの事前トレーニングは、2dオブジェクト認識やビデオ分類など、多くのコンピュータビジョンタスクで優れたパフォーマンスを達成するための前提条件である。 しかし、最先端の手法がスクラッチからモデルを訓練する3D認識タスクには、事前学習は広く使われていない。 主な理由は、3Dデータは取得が難しく、ラベルに時間を要するため、大きな注釈付きデータセットがないことである。 本研究では, 単一・複数ビュー, 屋内・屋外, 各種センサで取得した3Dデータを, 3D登録なしで操作できる簡易な自己監督関連手法を提案する。 標準ポイントクラウドとvoxelベースのモデルアーキテクチャをプリトレーニングし、ジョイントプリトレーニングによりパフォーマンスがさらに向上することを示す。 我々は,オブジェクト検出,セマンティクスセグメンテーション,オブジェクト分類の9つのベンチマークでモデルを評価する。 ScanNet (69.0% mAP) とSUNRGBD (63.5% mAP) にオブジェクト検出のための新しい最先端技術を設定した。 トレーニング済みのモデルはラベルの効率が良く、わずかな例でクラスのパフォーマンスが向上します。

Pretraining on large labeled datasets is a prerequisite to achieve good performance in many computer vision tasks like 2D object recognition, video classification etc. However, pretraining is not widely used for 3D recognition tasks where state-of-the-art methods train models from scratch. A primary reason is the lack of large annotated datasets because 3D data is both difficult to acquire and time consuming to label. We present a simple self-supervised pertaining method that can work with any 3D data - single or multiview, indoor or outdoor, acquired by varied sensors, without 3D registration. We pretrain standard point cloud and voxel based model architectures, and show that joint pretraining further improves performance. We evaluate our models on 9 benchmarks for object detection, semantic segmentation, and object classification, where they achieve state-of-the-art results and can outperform supervised pretraining. We set a new state-of-the-art for object detection on ScanNet (69.0% mAP) and SUNRGBD (63.5% mAP). Our pretrained models are label efficient and improve performance for classes with few examples.
翻訳日:2021-04-10 13:34:47 公開日:2021-01-07
# PVA: ピクセル対応ボリュームアバター

PVA: Pixel-aligned Volumetric Avatars ( http://arxiv.org/abs/2101.02697v1 )

ライセンス: Link先を確認
Amit Raj, Michael Zollhoefer, Tomas Simon, Jason Saragih, Shunsuke Saito, James Hays and Stephen Lombardi(参考訳) フォトリアリスティックな人間の頭部の獲得とレンダリングは、仮想テレプレゼンスにおいて特に重要な研究課題である。 現在、最高の品質は、複数のビューデータに基づいて特定の方法で訓練されたボリュームアプローチによって達成されている。 これらのモデルは、単純なメッシュベースのモデルと比較して、毛髪のような微細構造をより良く表現する。 ボリュームモデルは一般的に、顔の表情を表現するためにグローバルコードを使用し、小さなアニメーションパラメータセットで駆動することができる。 このようなアーキテクチャは印象的なレンダリング品質を実現するが、マルチアイデンティティ設定に容易に拡張することはできない。 本稿では,人間の頭部の容積アバターを少量の入力で予測する新しい手法を考案する。 入力から直接抽出される局所的画素アライメント特徴とニューラルラディアンスフィールドを結合した新しいパラメータ化により、アイデンティティ間の一般化が可能となり、非常に深いネットワークや複雑なネットワークの必要性をサイドステッピングする。 本手法は,3次元監督を必要とせず,測光再レンダリングの損失のみに基づいてエンドツーエンドで訓練し,品質面での既存技術を上回っており,多元的設定で忠実な表情を生成できることを実証する。

Acquisition and rendering of photo-realistic human heads is a highly challenging research problem of particular importance for virtual telepresence. Currently, the highest quality is achieved by volumetric approaches trained in a person specific manner on multi-view data. These models better represent fine structure, such as hair, compared to simpler mesh-based models. Volumetric models typically employ a global code to represent facial expressions, such that they can be driven by a small set of animation parameters. While such architectures achieve impressive rendering quality, they can not easily be extended to the multi-identity setting. In this paper, we devise a novel approach for predicting volumetric avatars of the human head given just a small number of inputs. We enable generalization across identities by a novel parameterization that combines neural radiance fields with local, pixel-aligned features extracted directly from the inputs, thus sidestepping the need for very deep or complex networks. Our approach is trained in an end-to-end manner solely based on a photometric re-rendering loss without requiring explicit 3D supervision.We demonstrate that our approach outperforms the existing state of the art in terms of quality and is able to generate faithful facial expressions in a multi-identity setting.
翻訳日:2021-04-10 13:34:25 公開日:2021-01-07
# 類似性問合せクエリを用いたドメイン特化検索体験改善のための伝達学習の適用

Applying Transfer Learning for Improving Domain-Specific Search Experience Using Query to Question Similarity ( http://arxiv.org/abs/2101.02351v1 )

ライセンス: Link先を確認
Ankush Chopra, Shruti Agrawal and Sohom Ghosh(参考訳) 検索は情報を探すのによく使われるプラットフォームの一つだ。 しかし、このようなプラットフォームを使ってクエリを解決すると、ユーザは結果に過負荷を受ける。 今日では、検索体験の一部として、クエリに対する直接的な回答が提供されている。 質問応答(QA)検索プロセスは,検索体験の充実に重要な役割を果たす。 既成のSemantic Textual similarityモデルは、よく整った検索クエリではうまく機能するが、不完全または文法的に不整形な検索クエリを頻度よく適用した場合、そのパフォーマンスは低下する。 本稿では、与えられた入力クエリと事前定義された質問の集合との類似性を計算し、最もよく一致する質問を検索するフレームワークについて論じる。 ファイナンシャルドメインで使用していますが、このフレームワークはドメイン固有の検索エンジンで一般化されており、他のドメインでも使用できます。 本研究では,Long Short-Term Memory (LSTM) [3] モデル上で Siamese Network [6] を用いて,与えられた質問に対して非正規化および正規化類似度スコアを生成する分類器を訓練する。 さらに,各質問対について,平均単語2vec埋め込み[15]間のコサイン類似度,RoBERTa[17]を用いた文埋め込み[7]とカスタマイズされたファジィマッチスコアとのコサイン類似度,という3つの類似度スコアを算出する。 最後に,Support Vector Machines [19] を用いたメタ分類器を開発し,これらの5つのスコアを組み合わせて,与えられた質問が類似しているかどうかを検出する。 当社のモデルのパフォーマンスをquora question pairs(qqp)データセット上の既存のstate of the art(sota)モデルや、金融ドメイン固有のデータセットに対してベンチマークします。

Search is one of the most common platforms used to seek information. However, users mostly get overloaded with results whenever they use such a platform to resolve their queries. Nowadays, direct answers to queries are being provided as a part of the search experience. The question-answer (QA) retrieval process plays a significant role in enriching the search experience. Most off-the-shelf Semantic Textual Similarity models work fine for well-formed search queries, but their performances degrade when applied to a domain-specific setting having incomplete or grammatically ill-formed search queries in prevalence. In this paper, we discuss a framework for calculating similarities between a given input query and a set of predefined questions to retrieve the question which matches to it the most. We have used it for the financial domain, but the framework is generalized for any domain-specific search engine and can be used in other domains as well. We use Siamese network [6] over Long Short-Term Memory (LSTM) [3] models to train a classifier which generates unnormalized and normalized similarity scores for a given pair of questions. Moreover, for each of these question pairs, we calculate three other similarity scores: cosine similarity between their average word2vec embeddings [15], cosine similarity between their sentence embeddings [7] generated using RoBERTa [17] and their customized fuzzy-match score. Finally, we develop a metaclassifier using Support Vector Machines [19] for combining these five scores to detect if a given pair of questions is similar. We benchmark our model's performance against existing State Of The Art (SOTA) models on Quora Question Pairs (QQP) dataset as well as a dataset specific to the financial domain.
翻訳日:2021-04-10 13:34:07 公開日:2021-01-07
# 分散マルチエージェント強化学習のための符号化

Coding for Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2101.02308v1 )

ライセンス: Link先を確認
Baoqian Wang, Junfei Xie, Nikolay Atanasov(参考訳) 本稿では,マルチエージェント強化学習(MARL)問題に対する同期分散学習におけるストラグラー効果の軽減を目的とする。 ストラグラーは分散学習システムにおいて、遅延ダウンや計算ノードの障害、通信ボトルネックなど、さまざまなシステム障害が存在するため、頻繁に発生する。 この問題を解決するために,集中型アプローチと同じ精度を維持しつつ,ストラグラーの存在下でのMARLアルゴリズムのトレーニングを高速化する,符号化分散学習フレームワークを提案する。 実例として,マルチエージェント型Deep Deterministic Policy gradient(MADDPG)アルゴリズムの符号化分散バージョンを開発し,評価した。 最大距離分離性(mds)コード、ランダムスパースコード、レプリケーションベースコード、正規低密度パリティチェック(ldpc)コードなど、異なる符号化方式も検討されている。 いくつかのマルチロボット問題におけるシミュレーションは,提案フレームワークの有望な性能を示す。

This paper aims to mitigate straggler effects in synchronous distributed learning for multi-agent reinforcement learning (MARL) problems. Stragglers arise frequently in a distributed learning system, due to the existence of various system disturbances such as slow-downs or failures of compute nodes and communication bottlenecks. To resolve this issue, we propose a coded distributed learning framework, which speeds up the training of MARL algorithms in the presence of stragglers, while maintaining the same accuracy as the centralized approach. As an illustration, a coded distributed version of the multi-agent deep deterministic policy gradient(MADDPG) algorithm is developed and evaluated. Different coding schemes, including maximum distance separable (MDS)code, random sparse code, replication-based code, and regular low density parity check (LDPC) code are also investigated. Simulations in several multi-robot problems demonstrate the promising performance of the proposed framework.
翻訳日:2021-04-10 13:33:37 公開日:2021-01-07
# 線形教師によるニューラルネットワーク学習の理解に向けて

Towards Understanding Learning in Neural Networks with Linear Teachers ( http://arxiv.org/abs/2101.02533v1 )

ライセンス: Link先を確認
Roei Sarussi, Alon Brutzkus, Amir Globerson(参考訳) 交叉エントロピーを最小化するニューラルネットワークは線形分離可能なデータを学習できるのか? 深層学習理論の進歩にもかかわらず、この問題は未解決のままである。 ここでは,リークしたreluアクティベーションを持つ2層ネットワークの学習問題をsgdがグローバルに最適化することを証明する。 学習したネットワークは原則として非常に複雑である。 しかし、実証的な証拠から、概線形であることがしばしば示されている。 ネットワーク重みが2つの重みクラスターに収束すると、これは概線形決定境界となることを証明し、この現象を理論的に支持する。 最後に,重みクラスタリングにつながる最適化条件を示す。 理論的解析を実証する実験結果を提供する。

Can a neural network minimizing cross-entropy learn linearly separable data? Despite progress in the theory of deep learning, this question remains unsolved. Here we prove that SGD globally optimizes this learning problem for a two-layer network with Leaky ReLU activations. The learned network can in principle be very complex. However, empirical evidence suggests that it often turns out to be approximately linear. We provide theoretical support for this phenomenon by proving that if network weights converge to two weight clusters, this will imply an approximately linear decision boundary. Finally, we show a condition on the optimization that leads to weight clustering. We provide empirical results that validate our theoretical analysis.
翻訳日:2021-04-10 13:33:23 公開日:2021-01-07
# 安価ひずみゲージ呼吸ベルトの臨床評価と睡眠時無呼吸検出のための機械学習

A Clinical Evaluation of a Low-Cost Strain Gauge Respiration Belt and Machine Learning to Detect Sleep Apnea ( http://arxiv.org/abs/2101.02595v1 )

ライセンス: Link先を確認
Stein Kristiansen, Konstantinos Nikolaidis, Thomas Plagemann, Vera Goebel, Gunn Marit Traaen, Britt {\O}verland, Lars Aaker{\o}y, Tove-Elizabeth Hunt, Jan P{\aa}l Loennechen, Sigurd Loe Steinshamn, Christina Holt Bendz, Ole-Gunnar Anfinsen, Lars Gullestad, Harriet Akre(参考訳) 睡眠時無呼吸 (sleep apnea) は重度で重度に診断された睡眠関連呼吸障害であり、睡眠中の呼吸障害が繰り返し発生するのが特徴である。 睡眠検査室で実施される高価な検査で、睡眠の専門家が手動で記録したデータを採点する必要がある。 睡眠時無呼吸の症状はしばしば曖昧であり、医師がポリソムノグラフィを処方するかどうかを判断することは困難である。 本研究では,スマートフォンと安価なひずみゲージ呼吸ベルトを用いて,睡眠データを収集し,自動分析することで有用な情報が得られるかを検討する。 睡眠時無呼吸を多種多様な機械学習技術を用いて正確に検出できるかどうかを,49回の睡眠記録による臨床研究から評価した。 1時間未満のトレーニングでは、それぞれ0.7609、0.7833、0.7217の精度、感度、特異性で通常の分と無響分を区別することができる。 これらの結果は、完全に分離された臨床認定センサーから高品質なデータのみをトレーニングしても達成でき、データ収集のコストを大幅に削減できる可能性がある。 完全な夜のデータはスマートフォンで約1秒で分析できる。

Sleep apnea is a serious and severely under-diagnosed sleep-related respiration disorder characterized by repeated disrupted breathing events during sleep. It is diagnosed via polysomnography which is an expensive test conducted in a sleep lab requiring sleep experts to manually score the recorded data. Since the symptoms of sleep apnea are often ambiguous, it is difficult for a physician to decide whether to prescribe polysomnography. In this study, we investigate whether helpful information can be obtained by collecting and automatically analysing sleep data using a smartphone and an inexpensive strain gauge respiration belt. We evaluate how accurately we can detect sleep apnea with wide variety of machine learning techniques with data from a clinical study with 49 overnight sleep recordings. With less than one hour of training, we can distinguish between normal and apneic minutes with an accuracy, sensitivity, and specificity of 0.7609, 0.7833, and 0.7217, respectively. These results can be achieved even if we train only on high-quality data from an entirely separate, clinically certified sensor, which has the potential to substantially reduce the cost of data collection. Data from a complete night can be analyzed in about one second on a smartphone.
翻訳日:2021-04-10 13:33:14 公開日:2021-01-07
# 深い制約付きクラスタリングのためのフレームワーク

A Framework for Deep Constrained Clustering ( http://arxiv.org/abs/2101.02792v1 )

ライセンス: Link先を確認
Hongjing Zhang, Tianyang Zhan, Sugato Basu, Ian Davidson(参考訳) 制約クラスタリングの領域は研究者によって広く調査され、実践者によって使用されている。 制約付きクラスタリングは、k平均、混合モデル、スペクトルクラスタリングなどの一般的なアルゴリズムには存在するが、いくつかの制限がある。 ディープラーニングの基本的な強みはその柔軟性であり、ここでは制約付きクラスタリングのためのディープラーニングフレームワークを探求し、特に制約付きクラスタリングの分野を拡張する方法について検討する。 当社のフレームワークは、ラベル付きサイド情報から生成される標準の結合/部分制約(先に報告した十分に文書化されたネガティブな影響を除く)だけでなく、継続的値やハイレベルなドメイン知識といった新しいタイプのサイド情報から生成されるより複雑な制約を扱えます。 さらに,これら4種類の制約に適用可能な,効率的なトレーニングパラダイムを提案する。 画像とテキストの両方のデータセットに対する実験結果によるアプローチの有効性を検証する。 また、ノイズの多い制約で学習する際のフレームワークの堅牢性を調べ、フレームワークの異なるコンポーネントが最終的なパフォーマンスにどのように貢献するかを示します。 ソースコードは$\href{https://github.com/b lueocean92/deep_cons trained_clustering}{\text{url}}$で利用可能です。

The area of constrained clustering has been extensively explored by researchers and used by practitioners. Constrained clustering formulations exist for popular algorithms such as k-means, mixture models, and spectral clustering but have several limitations. A fundamental strength of deep learning is its flexibility, and here we explore a deep learning framework for constrained clustering and in particular explore how it can extend the field of constrained clustering. We show that our framework can not only handle standard together/apart constraints (without the well documented negative effects reported earlier) generated from labeled side information but more complex constraints generated from new types of side information such as continuous values and high-level domain knowledge. Furthermore, we propose an efficient training paradigm that is generally applicable to these four types of constraints. We validate the effectiveness of our approach by empirical results on both image and text datasets. We also study the robustness of our framework when learning with noisy constraints and show how different components of our framework contribute to the final performance. Our source code is available at $\href{https://github.com/b lueocean92/deep_cons trained_clustering}{\text{URL}}$.
翻訳日:2021-04-10 13:32:33 公開日:2021-01-07
# マルチエージェント制約付き協調強化学習のためのアテンションアクタ・クリティカルアルゴリズム

Attention Actor-Critic algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning ( http://arxiv.org/abs/2101.02349v1 )

ライセンス: Link先を確認
P.Parnika, Raghuram Bharadwaj Diddigi, Sai Koti Reddy Danda and Shalabh Bhatnagar(参考訳) 本研究では,共通目標の最適化を目的とした協調学習環境において,強化学習 (rl) エージェントの最適動作を計算することの問題点について考察する。 しかし、多くの現実のアプリケーションでは、目標の最適化に加えて、エージェントはアクションに指定された特定の制約を満たす必要がある。 この設定の下で、エージェントの目的は、共通の目的を最適化するアクションを学ぶだけでなく、指定された制約を満たすことである。 近年,マルチエージェント環境下でのRLエージェントの最適動作を得るために,アテンション機構を持つアクター・クライブアルゴリズムが成功している。 本研究では,このアルゴリズムを制約付きマルチエージェントRL設定に拡張する。 ここでの考え方は、共通の目標を最適化し、制約を満たすには、異なる注意のモードが必要になるかもしれないということです。 異なるアテンションモードを組み込むことにより、エージェントは目標を最適化し、制約を個別に満たすのに必要な有用な情報を選択でき、より良いアクションが得られる。 ベンチマークマルチエージェント環境における実験を通じて,提案手法の有効性を示す。

In this work, we consider the problem of computing optimal actions for Reinforcement Learning (RL) agents in a co-operative setting, where the objective is to optimize a common goal. However, in many real-life applications, in addition to optimizing the goal, the agents are required to satisfy certain constraints specified on their actions. Under this setting, the objective of the agents is to not only learn the actions that optimize the common objective but also meet the specified constraints. In recent times, the Actor-Critic algorithm with an attention mechanism has been successfully applied to obtain optimal actions for RL agents in multi-agent environments. In this work, we extend this algorithm to the constrained multi-agent RL setting. The idea here is that optimizing the common goal and satisfying the constraints may require different modes of attention. By incorporating different attention modes, the agents can select useful information required for optimizing the objective and satisfying the constraints separately, thereby yielding better actions. Through experiments on benchmark multi-agent environments, we show the effectiveness of our proposed algorithm.
翻訳日:2021-04-10 13:32:11 公開日:2021-01-07
# qRRT:非ホロノミックシステムにおける最適運動計画のための品質バイアスインクリメンタルRT

qRRT: Quality-Biased Incremental RRT for Optimal Motion Planning in Non-Holonomic Systems ( http://arxiv.org/abs/2101.02635v1 )

ライセンス: Link先を確認
Nahas Pareekutty, Francis James, Balaraman Ravindran, Suril V. Shah(参考訳) 本稿では,コスト関数のない非ホロノミックシステムにおける最適動作計画のためのサンプリングに基づく手法を提案する。 経験を通じて学習する原則を使用して、ワークスペース内の領域のコスト対ゴーを推論する。 このコスト情報は、解軌跡を生成するインクリメンタルグラフベースの探索アルゴリズムのバイアスに使用される。 コスト情報と検索バイアスの反復的な改善は漸近的に最適な解を生み出す。 提案フレームワークは、ランダムサンプリングに基づく探索と強化学習のためのRRT(Rapidly-Explorin g Random Tree)に基づいて、ワークスペースコストを学習する。 提案手法の性能評価と実証のために, 一連の実験を行った。

This paper presents a sampling-based method for optimal motion planning in non-holonomic systems in the absence of known cost functions. It uses the principle of learning through experience to deduce the cost-to-go of regions within the workspace. This cost information is used to bias an incremental graph-based search algorithm that produces solution trajectories. Iterative improvement of cost information and search biasing produces solutions that are proven to be asymptotically optimal. The proposed framework builds on incremental Rapidly-exploring Random Trees (RRT) for random sampling-based search and Reinforcement Learning (RL) to learn workspace costs. A series of experiments were performed to evaluate and demonstrate the performance of the proposed method.
翻訳日:2021-04-10 13:31:37 公開日:2021-01-07
# スマートデータ処理とストレージモデルに向けて

Towards a Smart Data Processing and Storage Model ( http://arxiv.org/abs/2101.02522v1 )

ライセンス: Link先を確認
Ronie Salgado, Marcus Denker (RMOD), St\'ephane Ducasse (RMOD), Anne Etien (RMOD), Vincent Aranega (RMOD)(参考訳) いくつかの領域では、倫理的、法的理由からデータ自体の一貫性、信頼性、信頼性を保証するために、起源が完全にトレース可能なデータを保存し、操作することが重要である。 また、そのようなデータが作成され、新しいデータに処理されると、そのような特性がさらに運ばれることを保証することも重要である。 本稿では,このような能力を持つデータをサポートするシステムの設計によって生じる,主な要件と理論的問題について述べる。 本稿では,システム実装のためのアーキテクチャとpharoで開発されたプロトタイプを提案する。

In several domains it is crucial to store and manipulate data whose origin needs to be completely traceable to guarantee the consistency, trustworthiness and reliability on the data itself typically for ethical and legal reasons. It is also important to guarantee that such properties are also carried further when such data is composed and processed into new data. In this article we present the main requirements and theorethical problems that arise by the design of a system supporting data with such capabilities. We present an architecture for implementing a system as well as a prototype developed in Pharo.
翻訳日:2021-04-10 13:30:59 公開日:2021-01-07
# マルチタスク逆学習を用いたVHSからHDTVビデオへの変換

VHS to HDTV Video Translation using Multi-task Adversarial Learning ( http://arxiv.org/abs/2101.02384v1 )

ライセンス: Link先を確認
Hongming Luo, Guangsen Liao, Xianxu Hou, Bozhi Liu, Fei Zhou and Guoping Qiu(参考訳) ビデオホームシステム(VHS)フォーマットには貴重なビデオアーカイブが多数存在する。 しかし、アナログな性質から、その品質はしばしば貧弱である。 高精細テレビ(HDTV)と比較すると、VHSビデオは色が鈍く、解像度も低く、しばしばぼやけている。 本稿では,VHS動画をHDTVビデオに変換する問題に着目し,教師なしマルチタスク対角学習モデルに基づくソリューションを開発した。 生成的対位ネットワーク(GAN)とCycleGAN(CycleGAN)の成功に触発されて、サイクル整合損失、対位損失、知覚的損失を併用して翻訳モデルを学ぶ。 我々の研究の重要なイノベーションは、スーパーレゾリューションモデルと、教師なしのマルチタスク問題を解決するカラートランスファーモデルの導入です。 我々の知る限り、VHSとHDTVの関係を研究するための最初の研究であり、VHSをHDTVに変換する最初の計算ソリューションである。 本研究では, 定性的かつ定量的に解の有効性を示す実験結果を示す。

There are large amount of valuable video archives in Video Home System (VHS) format. However, due to the analog nature, their quality is often poor. Compared to High-definition television (HDTV), VHS video not only has a dull color appearance but also has a lower resolution and often appears blurry. In this paper, we focus on the problem of translating VHS video to HDTV video and have developed a solution based on a novel unsupervised multi-task adversarial learning model. Inspired by the success of generative adversarial network (GAN) and CycleGAN, we employ cycle consistency loss, adversarial loss and perceptual loss together to learn a translation model. An important innovation of our work is the incorporation of super-resolution model and color transfer model that can solve unsupervised multi-task problem. To our knowledge, this is the first work that dedicated to the study of the relation between VHS and HDTV and the first computational solution to translate VHS to HDTV. We present experimental results to demonstrate the effectiveness of our solution qualitatively and quantitatively.
翻訳日:2021-04-10 13:30:33 公開日:2021-01-07
# Where2Act: 3Dオブジェクトの画素からアクションへ

Where2Act: From Pixels to Actions for Articulated 3D Objects ( http://arxiv.org/abs/2101.02692v1 )

ライセンス: Link先を確認
Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani(参考訳) 視覚知覚の基本的な目標の1つは、エージェントが環境と有意義に相互作用できるようにすることである。 本稿では,その長期的目標に向けて一歩を踏み出し,可動部を有する関節物体の押下げや引抜きなど,基本動作に関連する高度に局所化された動作可能な情報を抽出する。 例えば、引き出しが与えられた場合、われわれのネットワークは、ハンドルに引力を加えると引き出しが開くと予測する。 画像と奥行きデータから得られる新たなネットワークアーキテクチャを提案し,議論し,評価し,各画素で可能な動作のセットと,その下を移動する可能性のある節点上の領域を予測した。 シミュレーション(SAPIEN)でネットワークをトレーニングし,カテゴリをまたいだ一般化を可能にする,オンラインデータサンプリング戦略を備えた対話型学習フレームワークを提案する。 しかしもっと重要なのは、学習したモデルが現実世界のデータに転送されることだ。 コードとデータのリリースについてはプロジェクトのWebサイトを参照してください。

One of the fundamental goals of visual perception is to allow agents to meaningfully interact with their environment. In this paper, we take a step towards that long-term goal -- we extract highly localized actionable information related to elementary actions such as pushing or pulling for articulated objects with movable parts. For example, given a drawer, our network predicts that applying a pulling force on the handle opens the drawer. We propose, discuss, and evaluate novel network architectures that given image and depth data, predict the set of actions possible at each pixel, and the regions over articulated parts that are likely to move under the force. We propose a learning-from-intera ction framework with an online data sampling strategy that allows us to train the network in simulation (SAPIEN) and generalizes across categories. But more importantly, our learned models even transfer to real-world data. Check the project website for the code and data release.
翻訳日:2021-04-10 13:30:03 公開日:2021-01-07
# 能動的取得による学習誘導電子顕微鏡

Learning Guided Electron Microscopy with Active Acquisition ( http://arxiv.org/abs/2101.02746v1 )

ライセンス: Link先を確認
Lu Mi, Hao Wang, Yaron Meirovitch, Richard Schalek, Srinivas C. Turaga, Jeff W. Lichtman, Aravinthan D.T. Samuel, Nir Shavit(参考訳) 単ビーム走査電子顕微鏡(SEM)は、バイオメディカル研究、材料分析、製造検査のための膨大なデータセットを取得するために広く用いられている。 データセットは通常、均一な取得によって取得される:全ての画像ピクセルに同じパワーと持続時間を持つ電子ビームを適用する。 多くのsemは、ビームを遅延することなく視野内の任意のピクセルに移動することができ、原則として、非一様撮像でより効果的に時間予算を投資できる。 本稿では,ディープラーニングを用いて画像の単一ビームSEM取得を高速化し,最適化する方法を示す。 我々のアルゴリズムは情報量の多い画像(例)を迅速に収集する。 そして、サリエンシーと空間の多様性のトレードオフに基づいて、より高解像度で収集すべきピクセルの小さなサブセットを識別するために、新しい学習方法を適用する。 本稿では,神経生物学におけるコネクトロミックデータセットの収集作業を最大で1桁高速化することで,本手法の有効性を実証する。

Single-beam scanning electron microscopes (SEM) are widely used to acquire massive data sets for biomedical study, material analysis, and fabrication inspection. Datasets are typically acquired with uniform acquisition: applying the electron beam with the same power and duration to all image pixels, even if there is great variety in the pixels' importance for eventual use. Many SEMs are now able to move the beam to any pixel in the field of view without delay, enabling them, in principle, to invest their time budget more effectively with non-uniform imaging. In this paper, we show how to use deep learning to accelerate and optimize single-beam SEM acquisition of images. Our algorithm rapidly collects an information-lossy image (e.g. low resolution) and then applies a novel learning method to identify a small subset of pixels to be collected at higher resolution based on a trade-off between the saliency and spatial diversity. We demonstrate the efficacy of this novel technique for active acquisition by speeding up the task of collecting connectomic datasets for neurobiology by up to an order of magnitude.
翻訳日:2021-04-10 13:29:47 公開日:2021-01-07
# SDPは位相同期における極小最適性を実現する

SDP Achieves Exact Minimax Optimality in Phase Synchronization ( http://arxiv.org/abs/2101.02347v1 )

ライセンス: Link先を確認
Chao Gao and Anderson Y. Zhang(参考訳) ノイズ測定による位相同期問題を$Y=z^*z^{*H}+\sigma W\in\mathbb{C}^{n\times n}$, ここで、$z^*$は$n$次元複素単位モジュラーベクトルであり、$W$は複素数値ガウス確率行列である。 各エントリ$Y_{jk}$は確率$p$で観測されると仮定される。 MLE の SDP 緩和が 1+o(1))\frac{\sigma^2}{2np}$ の誤差を正規化された正方形 $\ell_2$ の損失の下で達成することを証明する。 この結果は問題のミニマックス下限に一致し、リード定数さえシャープである。 SDPの解析は、高次元空間に持ち上げられた一般化された電力反復の固定点として特徴づけられるような等価な非凸プログラミングに基づいている。 この観点は、3つの異なる手法(MLE、SDP、一般化パワー法)の統計的最適性の証明を統一する。 この手法は、$\mathbb{Z}_2$同期のSDPの解析にも適用され、指数に鋭い定数を持つミニマックス最適誤差 $\exp\left(-(1-o(1)) \frac{np}{2\sigma^2}\right)$ を達成する。

We study the phase synchronization problem with noisy measurements $Y=z^*z^{*H}+\sigma W\in\mathbb{C}^{n\times n}$, where $z^*$ is an $n$-dimensional complex unit-modulus vector and $W$ is a complex-valued Gaussian random matrix. It is assumed that each entry $Y_{jk}$ is observed with probability $p$. We prove that an SDP relaxation of the MLE achieves the error bound $(1+o(1))\frac{\sigma^2}{2np}$ under a normalized squared $\ell_2$ loss. This result matches the minimax lower bound of the problem, and even the leading constant is sharp. The analysis of the SDP is based on an equivalent non-convex programming whose solution can be characterized as a fixed point of the generalized power iteration lifted to a higher dimensional space. This viewpoint unifies the proofs of the statistical optimality of three different methods: MLE, SDP, and generalized power method. The technique is also applied to the analysis of the SDP for $\mathbb{Z}_2$ synchronization, and we achieve the minimax optimal error $\exp\left(-(1-o(1)) \frac{np}{2\sigma^2}\right)$ with a sharp constant in the exponent.
翻訳日:2021-04-10 13:29:30 公開日:2021-01-07
# マルチヘッドアテンション(LAMA)によるログ異常の検出

Detecting Log Anomalies with Multi-Head Attention (LAMA) ( http://arxiv.org/abs/2101.02392v1 )

ライセンス: Link先を確認
Yicheng Guo, Yujin Wen, Congwei Jiang, Yixin Lian, Yi Wan(参考訳) 異常検出は、様々な研究領域で研究されている重要かつ困難な課題である。 本研究では,ログの逐次情報を解析することにより,ログ異常検出(特にコンピュータシステムログとユーザの行動ログ)の課題を検討する。 テンプレートアクティビティ(イベント)シーケンスとしてログストリームを処理するマルチヘッドアテンションに基づくシーケンシャルモデルであるlamaを提案する。 次にイベント予測タスクを適用し、異常検出のためのモデルをトレーニングする。 大規模実験により,提案手法がログデータのシーケンスパターンを学習する際の有効性を検証するため,統計的および深層学習手法を含む既存のログ異常検出手法よりも優れた結果が得られた。

Anomaly detection is a crucial and challenging subject that has been studied within diverse research areas. In this work, we explore the task of log anomaly detection (especially computer system logs and user behavior logs) by analyzing logs' sequential information. We propose LAMA, a multi-head attention based sequential model to process log streams as template activity (event) sequences. A next event prediction task is applied to train the model for anomaly detection. Extensive empirical studies demonstrate that our new model outperforms existing log anomaly detection methods including statistical and deep learning methodologies, which validate the effectiveness of our proposed method in learning sequence patterns of log data.
翻訳日:2021-04-10 13:27:58 公開日:2021-01-07
# 複雑系における崩壊の機械学習分解と早期警戒信号

Machine learning dismantling and early-warning signals of disintegration in complex systems ( http://arxiv.org/abs/2101.02453v1 )

ライセンス: Link先を確認
Marco Grassia, Manlio De Domenico, Giuseppe Mangioni(参考訳) 物理学から工学、生物学、社会科学まで、自然と人工のシステムは相互に結合したトポロジー(例えば、異種接続、メソスケール組織、階層構造)によって特徴づけられる。 複雑なネットワークを崩壊させるために攻撃する最小限のユニットを識別する。 ネットワーク分解(network dismantling)は、一般にヒューリスティックスで攻撃される計算的に難しい問題である。 ここでは、比較的小さなシステムを分解する訓練された機械が高次トポロジカルなパターンを識別でき、大規模社会・インフラ・技術ネットワークを人為的ヒューリスティックスよりも効率的に分解できることを示す。 注目すべきは、マシンが次の攻撃でシステムが崩壊する確率を評価し、システムのリスクを定量化し、システムの崩壊の早期警戒信号を検出する定量的な方法を提供することである。 これは、複雑なシステムの脆弱さとショックに対する反応をより定量化するために、機械支援分析がポリシーや意思決定に効果的に使用できることを示している。

From physics to engineering, biology and social science, natural and artificial systems are characterized by interconnected topologies whose features - e.g., heterogeneous connectivity, mesoscale organization, hierarchy - affect their robustness to external perturbations, such as targeted attacks to their units. Identifying the minimal set of units to attack to disintegrate a complex network, i.e. network dismantling, is a computationally challenging (NP-hard) problem which is usually attacked with heuristics. Here, we show that a machine trained to dismantle relatively small systems is able to identify higher-order topological patterns, allowing to disintegrate large-scale social, infrastructural and technological networks more efficiently than human-based heuristics. Remarkably, the machine assesses the probability that next attacks will disintegrate the system, providing a quantitative method to quantify systemic risk and detect early-warning signals of system's collapse. This demonstrates that machine-assisted analysis can be effectively used for policy and decision making to better quantify the fragility of complex systems and their response to shocks.
翻訳日:2021-04-10 13:27:49 公開日:2021-01-07
# 機械学習による着色溶存有機物の検索

Retrieval of Coloured Dissolved Organic Matter with Machine Learning Methods ( http://arxiv.org/abs/2101.02505v1 )

ライセンス: Link先を確認
Ana B. Ruescas, Martin Hieronymi, Sampsa Koponen, Kari Kallio and Gustau Camps-Valls(参考訳) 着色溶存有機物(cdom)濃度は、天然水中の湿潤物質の標準測定値である。 特定の波長(例えば)における吸収係数(a)を用いて、リモートセンシングによるcdom測定を算出する。 440nm)。 本稿では,リモートセンシング信号からCDOMを抽出するための機械学習手法として,正規化線形回帰(RLR),ランダムフォレスト(RF),カーネルリッジ回帰(KRR),ガウスプロセス回帰(GPR)の4つを比較した。 結果は確立した多項式回帰アルゴリズムと比較される。 RLRは最も単純で効率的な方法として明らかにされ、続いて非線形のKRRが続く。

The coloured dissolved organic matter (CDOM) concentration is the standard measure of humic substance in natural waters. CDOM measurements by remote sensing is calculated using the absorption coefficient (a) at a certain wavelength (e.g. 440nm). This paper presents a comparison of four machine learning methods for the retrieval of CDOM from remote sensing signals: regularized linear regression (RLR), random forest (RF), kernel ridge regression (KRR) and Gaussian process regression (GPR). Results are compared with the established polynomial regression algorithms. RLR is revealed as the simplest and most efficient method, followed closely by its nonlinear counterpart KRR.
翻訳日:2021-04-10 13:27:31 公開日:2021-01-07
# CoachNet: 強化学習のための逆サンプリングアプローチ

CoachNet: An Adversarial Sampling Approach for Reinforcement Learning ( http://arxiv.org/abs/2101.02649v1 )

ライセンス: Link先を確認
Elmira Amirloo Abolfathi, Jun Luo, Peyman Yadmellat, Kasra Rezaee(参考訳) 近年のゲームやロボティクスにおける強化学習の成功にもかかわらず、まだ広く実用化されていない。 サンプル効率と信頼性に乏しいシナリオでは,大きな障害が2つある。 専門家レベルの人的パフォーマンスを達成するための故意の実践の効果からインスピレーションを得て,我々は"CoachNet"と呼ばれる障害予測器によって導かれる新たな逆サンプリング手法を提案する。 CoachNetは、エージェントとともにオンラインでトレーニングされ、失敗の確率を予測する。 この確率は、確率的サンプリングプロセスでエージェントをより困難なエピソードに導くために使用される。 このように、エージェントが既にマスターしたシナリオに時間を費やす代わりに、トレーニングはエージェントの"弱所"に焦点を当てる。 我々はCoachNetの設計、基礎となる原理を説明し、共通の継続的制御タスクにおけるサンプル効率とテスト時間ロバスト性を改善する効果を実証的に実証する。

Despite the recent successes of reinforcement learning in games and robotics, it is yet to become broadly practical. Sample efficiency and unreliable performance in rare but challenging scenarios are two of the major obstacles. Drawing inspiration from the effectiveness of deliberate practice for achieving expert-level human performance, we propose a new adversarial sampling approach guided by a failure predictor named "CoachNet". CoachNet is trained online along with the agent to predict the probability of failure. This probability is then used in a stochastic sampling process to guide the agent to more challenging episodes. This way, instead of wasting time on scenarios that the agent has already mastered, training is focused on the agent's "weak spots". We present the design of CoachNet, explain its underlying principles, and empirically demonstrate its effectiveness in improving sample efficiency and test-time robustness in common continuous control tasks.
翻訳日:2021-04-10 13:27:21 公開日:2021-01-07
# セッションベースレコメンデーションのためのメトリック学習

Metric Learning for Session-based Recommendations ( http://arxiv.org/abs/2101.02655v1 )

ライセンス: Link先を確認
Bart{\l}omiej Twardowski, Pawe{\l} Zawistowski, Szymon Zaborowski(参考訳) セッションベースのレコメンデータは、ユーザの未中断なアクションシーケンスから予測するために使用され、多くのアプリケーションにとって魅力的なものです。 そこで,本課題では,セッションやアイテムの共通埋め込み空間を創出するメトリックラーニングと,提供されたユーザのイベントシーケンスと次のアクションとの相違度を測定することを提案する。 本稿では,いくつかのシナジーが存在する一般的な学習-ランク法と比較し,計量学習手法について考察する。 本稿では,問題解析のためのシンプルなアーキテクチャを提案し,既存の手法を上回るためには,大規模かつ深いアーキテクチャは必要ないことを示した。 4つのデータセットに対する強いベースラインに対する実験結果は、アブレーション研究である。

Session-based recommenders, used for making predictions out of users' uninterrupted sequences of actions, are attractive for many applications. Here, for this task we propose using metric learning, where a common embedding space for sessions and items is created, and distance measures dissimilarity between the provided sequence of users' events and the next action. We discuss and compare metric learning approaches to commonly used learning-to-rank methods, where some synergies exist. We propose a simple architecture for problem analysis and demonstrate that neither extensively big nor deep architectures are necessary in order to outperform existing methods. The experimental results against strong baselines on four datasets are provided with an ablation study.
翻訳日:2021-04-10 13:27:06 公開日:2021-01-07
# 5g通信セキュリティのためのadversarial machine learning

Adversarial Machine Learning for 5G Communications Security ( http://arxiv.org/abs/2101.02656v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek, Yi Shi(参考訳) 機械学習は、無線スペクトルの複雑なダイナミクスを捕捉し、スペクトルリソースのより良い理解と効率的な利用を支援する自動化手段を提供する。 コミュニケーションシステムが、スペクトル認識やスペクトル共有といった重要なタスクを実行するために、機械学習によって強化された認知無線機能により賢くなると、機械学習アプリケーションをターゲットにした攻撃によって、新たな脆弱性にも影響を受けるようになる。 本稿では,5Gシステムにおける対向機械学習の出現する攻撃面と,それに対応する無線通信に対する攻撃について述べる。 i)市民ブロードバンドラジオサービス(CBRS)バンドや(ii)ネットワークスライシングをサポートする5Gユーザ機器(UE)の物理層認証など、既存のユーザとの5G通信のスペクトル共有に対する攻撃に焦点を当てている。 最初の攻撃では、5Gシステムをサポートするために環境センシング能力(ESC)に配備されたディープラーニング分類器に信号レベルの入力を操作するために、データ送信またはスペクトルセンシング期間の間を送信する。 第2の攻撃では、敵は5G基地局に配備されたディープラーニング分類器に基づいて、生成敵ネットワーク(GAN)で無線信号をスプーフし、物理層認証機構に侵入する。 結果から,5Gシステムの主な脆弱性が示唆された。 敵の存在下での5Gシステムの動作を維持するため,攻撃開始時のサロゲートモデルの訓練において,敵の不確実性を高めるための防御機構が提示された。

Machine learning provides automated means to capture complex dynamics of wireless spectrum and support better understanding of spectrum resources and their efficient utilization. As communication systems become smarter with cognitive radio capabilities empowered by machine learning to perform critical tasks such as spectrum awareness and spectrum sharing, they also become susceptible to new vulnerabilities due to the attacks that target the machine learning applications. This paper identifies the emerging attack surface of adversarial machine learning and corresponding attacks launched against wireless communications in the context of 5G systems. The focus is on attacks against (i) spectrum sharing of 5G communications with incumbent users such as in the Citizens Broadband Radio Service (CBRS) band and (ii) physical layer authentication of 5G User Equipment (UE) to support network slicing. For the first attack, the adversary transmits during data transmission or spectrum sensing periods to manipulate the signal-level inputs to the deep learning classifier that is deployed at the Environmental Sensing Capability (ESC) to support the 5G system. For the second attack, the adversary spoofs wireless signals with the generative adversarial network (GAN) to infiltrate the physical layer authentication mechanism based on a deep learning classifier that is deployed at the 5G base station. Results indicate major vulnerabilities of 5G systems to adversarial machine learning. To sustain the 5G system operations in the presence of adversaries, a defense mechanism is presented to increase the uncertainty of the adversary in training the surrogate model used for launching its subsequent attacks.
翻訳日:2021-04-10 13:26:55 公開日:2021-01-07
# BRDS:Row-Balanced Dual-Ratio Sparsificationを用いたFPGAベースのLSTM加速器

BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio Sparsification ( http://arxiv.org/abs/2101.02667v1 )

ライセンス: Link先を確認
Seyed Abolfazl Ghasemzadeh, Erfan Bank Tavakoli, Mehdi Kamal, Ali Afzali-Kusha, Massoud Pedram(参考訳) 本稿では,まず,エネルギー消費を低減し,長期短期記憶(lstm)ニューラルネットワーク加速器の高速化を図るハードウェアフレンドリーな刈り取りアルゴリズムを提案する。 次に,提案アルゴリズムに基づくプルーンドネットワークの効率的な実行のためのFPGAベースのプラットフォームを提案する。 刈り込みにおけるLSTMモデルの2つの重み行列の感度を考慮し、これらの重み行列に異なる疎度比(二重比疎度)を適用する。 メモリアクセスを減らすために、行毎のスパーシティパターンを採用する。 提案するハードウェアアーキテクチャは計算オーバーラップとパイプライニングを利用して低消費電力と高速を実現する。 提案手法の有効性を,自然言語処理,二項感情分類,音声認識のベンチマークで評価した。 その結果、例えばこの分野で最近発表された研究と比較すると、提案された加速器は最大272%の効果的なGOPS/Wを提供し、PSBデータセットのパープレキシティエラーを最大1.4%削減できることがわかった。

In this paper, first, a hardware-friendly pruning algorithm for reducing energy consumption and improving the speed of Long Short-Term Memory (LSTM) neural network accelerators is presented. Next, an FPGA-based platform for efficient execution of the pruned networks based on the proposed algorithm is introduced. By considering the sensitivity of two weight matrices of the LSTM models in pruning, different sparsity ratios (i.e., dual-ratio sparsity) are applied to these weight matrices. To reduce memory accesses, a row-wise sparsity pattern is adopted. The proposed hardware architecture makes use of computation overlapping and pipelining to achieve low-power and high-speed. The effectiveness of the proposed pruning algorithm and accelerator is assessed under some benchmarks for natural language processing, binary sentiment classification, and speech recognition. Results show that, e.g., compared to a recently published work in this field, the proposed accelerator could provide up to 272% higher effective GOPS/W and the perplexity error is reduced by up to 1.4% for the PTB dataset.
翻訳日:2021-04-10 13:26:30 公開日:2021-01-07
# Dataset Definition Standard (DDS)

Dataset Definition Standard (DDS) ( http://arxiv.org/abs/2101.03020v1 )

ライセンス: Link先を確認
Cyril Cappi, Camille Chapdelaine, Laurent Gardes, Eric Jenn, Baptiste Lefevre, Sylvaine Picard, Thomas Soumarmon(参考訳) このドキュメントは、ディープニューラルネットワークなどの機械学習モデルの開発と検証に使用されるデータセットの構築と操作を推奨する一連のセットを提供する。 この文書は[1]で定義された3つの文書のうちの1つで、データセットの品質を保証する。 優れたプラクティスがマシンラーニングの理解とともに進化するにつれ、これは進行中の作業です。 文書は3つの主要な部分に分けられる。 セクション2は、データ収集アクティビティに対処する。 第3節ではアノテーションプロセスについて推奨している。 最後に、セクション4は、列車、バリデーション、テストデータセットの分解に関する推奨事項を提供する。 それぞれの部分において、まず所望のプロパティを定義し、次にプロパティを満たそうとする目的を説明し、最後にこれらの目的を達成するための推奨事項を述べます。

This document gives a set of recommendations to build and manipulate the datasets used to develop and/or validate machine learning models such as deep neural networks. This document is one of the 3 documents defined in [1] to ensure the quality of datasets. This is a work in progress as good practices evolve along with our understanding of machine learning. The document is divided into three main parts. Section 2 addresses the data collection activity. Section 3 gives recommendations about the annotation process. Finally, Section 4 gives recommendations concerning the breakdown between train, validation, and test datasets. In each part, we first define the desired properties at stake, then we explain the objectives targeted to meet the properties, finally we state the recommendations to reach these objectives.
翻訳日:2021-04-10 13:26:11 公開日:2021-01-07
# 推薦精度向上のためのサイド情報提供への知識グラフの適用

Application of Knowledge Graphs to Provide Side Information for Improved Recommendation Accuracy ( http://arxiv.org/abs/2101.03054v1 )

ライセンス: Link先を確認
Yuhao Mao, Serguei A. Mokhov, Sudhir P. Mudur(参考訳) パーソナライズされたレコメンデーションは、インターネットによる活動、特にショッピングで人気がある。 推奨方法は、コンテンツベースのフィルタリング、協調フィルタリング、機械学習強化の3つの主要なカテゴリに分類される。 異なるユーザの好みや製品に関する情報は、主に特定のユーザの好みを推測するために使用される。 不十分な情報は明らかにこれらの手法の失敗や性能の低下を引き起こす可能性がある。 これらのメソッドにより多くの情報を提供するほど、メソッドがより良く機能する可能性が高くなる。 知識グラフは、エンティティ間の関係の形で情報を記録する現在の傾向を表し、製品とユーザに関する追加の情報(側)を提供することができる。 このような情報は、近接探索の改善、ユーザとプロダクトのクラスタリング、あるいはニューラルネットワークの使用時のトレーニングに使用することができる。 本稿では,知識グラフをレコメンデーションパイプラインに統合する新しい汎用レコメンデーションシステムフレームワークを提案する。 本稿では,そのソフトウェア設計と実装について述べるとともに,実験を通じて,そのようなフレームワークがドメインに対してどのように特殊化できるか,映画レコメンデーション,知識グラフから得られた情報による推薦結果の改善について述べる。 本フレームワークは,異なる知識グラフ表現形式をサポートし,推薦手法の学習に必要なフォーマット変換,マージ,情報抽出を容易にする。

Personalized recommendations are popular in these days of Internet driven activities, specifically shopping. Recommendation methods can be grouped into three major categories, content based filtering, collaborative filtering and machine learning enhanced. Information about products and preferences of different users are primarily used to infer preferences for a specific user. Inadequate information can obviously cause these methods to fail or perform poorly. The more information we provide to these methods, the more likely it is that the methods perform better. Knowledge graphs represent the current trend in recording information in the form of relations between entities, and can provide additional (side) information about products and users. Such information can be used to improve nearest neighbour search, clustering users and products, or train the neural network, when one is used. In this work, we present a new generic recommendation systems framework, that integrates knowledge graphs into the recommendation pipeline. We describe its software design and implementation, and then show through experiments, how such a framework can be specialized for a domain, say movie recommendations, and the improvements in recommendation results possible due to side information obtained from knowledge graphs representation of such information. Our framework supports different knowledge graph representation formats, and facilitates format conversion, merging and information extraction needed for training recommendation methods.
翻訳日:2021-04-10 13:26:00 公開日:2021-01-07
# データサイエンティストはどれくらい自動化したいのか?

How Much Automation Does a Data Scientist Want? ( http://arxiv.org/abs/2101.03970v1 )

ライセンス: Link先を確認
Dakuo Wang and Q. Vera Liao and Yunfeng Zhang and Udayan Khurana and Horst Samulowitz and Soya Park and Michael Muller and Lisa Amini(参考訳) データサイエンスと機械学習(DS/ML)は多くの人工知能(AI)アプリケーションの最近の進歩の中心にある。 AIには、DS/MLライフサイクルをエンドツーエンドで自動化するシステムを開発することを目的とした研究スレッドである‘autoai’がある。 しかし、DSとMLワーカーは本当にDS/MLワークフローを自動化したいのか? この質問に答えるために、まず6つのユーザロール/パーソナラ、10のステージと43のサブタスク、5レベルの自動化、5種類の説明を備えた人間中心のautomlフレームワークを、研究文献とマーケティングレポートのレビューを通じて合成する。 第2に、経験の度合いの異なる217人のDS/MLワーカーによるオンラインサーベイスタディの設計の指針として、このフレームワークを使用し、6つのロール/ペルソナに対して異なるユーザロールを"マッチング"します。 異なるユーザペルソナがライフサイクルの異なる段階に参加していることが分かりました。 彼らの望む自動化レベルとAutoMLのタイプもDS/MLステージとユーザペルソナによって大きく異なる。 調査の結果から、エンド・ツー・エンドds/mlライフサイクルの完全な自動化に対するユーザニーズからの根拠はない、と論じた。 ユーザ制御DS/ML自動化のための新しいステップを提案する。

Data science and machine learning (DS/ML) are at the heart of the recent advancements of many Artificial Intelligence (AI) applications. There is an active research thread in AI, \autoai, that aims to develop systems for automating end-to-end the DS/ML Lifecycle. However, do DS and ML workers really want to automate their DS/ML workflow? To answer this question, we first synthesize a human-centered AutoML framework with 6 User Role/Personas, 10 Stages and 43 Sub-Tasks, 5 Levels of Automation, and 5 Types of Explanation, through reviewing research literature and marketing reports. Secondly, we use the framework to guide the design of an online survey study with 217 DS/ML workers who had varying degrees of experience, and different user roles "matching" to our 6 roles/personas. We found that different user personas participated in distinct stages of the lifecycle -- but not all stages. Their desired levels of automation and types of explanation for AutoML also varied significantly depending on the DS/ML stage and the user persona. Based on the survey results, we argue there is no rationale from user needs for complete automation of the end-to-end DS/ML lifecycle. We propose new next steps for user-controlled DS/ML automation.
翻訳日:2021-04-10 13:25:39 公開日:2021-01-07
# 音声と映像の相関に基づく未分類映像列の視覚的相性予測

Audiovisual Saliency Prediction in Uncategorized Video Sequences based on Audio-Video Correlation ( http://arxiv.org/abs/2101.03966v1 )

ライセンス: Link先を確認
Maryam Qamar Butt and Anis Ur Rahman(参考訳) サリエンシー・モデリングでは、周囲の環境を知覚し、解釈できるインテリジェントな機械を開発するためにかなりの研究がなされている。 しかし既存のモデルでは、ビデオは音声情報を除く単なる画像シーケンスとして扱い、本質的に異なるコンテンツに対応できない。 本研究は,自然無分類ビデオの従来のサリエンシーモデルよりも,視聴覚サリエンシーモデルが改良されるという仮説に基づいて,低レベル音声と視覚特徴を同期させて計算した視聴覚サリエンシーマップと視覚サリエンシーマップを補完する汎用オーディオ/ビデオサリエンシーモデルを提供することを目標とする。 提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。 その結果、このモデルは最先端の2つのビジュアル・サリエンシ・モデルより優れていた。

Substantial research has been done in saliency modeling to develop intelligent machines that can perceive and interpret their surroundings. But existing models treat videos as merely image sequences excluding any audio information, unable to cope with inherently varying content. Based on the hypothesis that an audiovisual saliency model will be an improvement over traditional saliency models for natural uncategorized videos, this work aims to provide a generic audio/video saliency model augmenting a visual saliency map with an audio saliency map computed by synchronizing low-level audio and visual features. The proposed model was evaluated using different criteria against eye fixations data for a publicly available DIEM video dataset. The results show that the model outperformed two state-of-the-art visual saliency models.
翻訳日:2021-04-10 13:25:21 公開日:2021-01-07
# フェデレーション学習システム設計のためのアーキテクチャパターン

Architectural Patterns for the Design of Federated Learning Systems ( http://arxiv.org/abs/2101.02373v1 )

ライセンス: Link先を確認
Sin Kit Lo, Qinghua Lu, Liming Zhu, Hye-young Paik, Xiwei Xu, Chen Wang(参考訳) 機械学習におけるデータの空腹とプライバシの課題に取り組むため、フェデレーション学習は学界や業界から急速に関心を集めている。 フェデレーション学習システムは、多数のクライアントデバイスがフェデレーション学習に参加しているため、さまざまなコンポーネントとステークホルダを持つ大規模分散システムと見なすことができる。 連合学習システムの設計には、機械学習知識とは別に考えるソフトウェアシステム設計が必要である。 機械学習技術の側面からフェデレーション学習に多くの努力がなされているが、フェデレーション学習システムを構築する際のソフトウェアアーキテクチャ設計の問題はほとんど無視されている。 そこで本稿では,連合型学習システムの設計課題に対処するアーキテクチャパターンの集合について述べる。 アーキテクチャパターンは、ソフトウェアアーキテクチャ設計中に与えられたコンテキスト内で一般的に発生する問題に対する再利用可能なソリューションを示す。 提示されたパターンは、体系的な文献レビューの結果に基づき、3つのクライアント管理パターン、4つのモデル管理パターン、3つのモデルトレーニングパターン、4つのモデル集約パターンを含む。 これらのパターンは、フェデレーション学習モデルライフサイクルにおける特定の状態遷移に関連付けられ、フェデレーション学習システムの設計においてパターンを効果的に利用するためのガイダンスとなる。

Federated learning has received fast-growing interests from academia and industry to tackle the challenges of data hungriness and privacy in machine learning. A federated learning system can be viewed as a large-scale distributed system with different components and stakeholders as numerous client devices participate in federated learning. Designing a federated learning system requires software system design thinking apart from machine learning knowledge. Although much effort has been put into federated learning from the machine learning technique aspects, the software architecture design concerns in building federated learning systems have been largely ignored. Therefore, in this paper, we present a collection of architectural patterns to deal with the design challenges of federated learning systems. Architectural patterns present reusable solutions to a commonly occurring problem within a given context during software architecture design. The presented patterns are based on the results of a systematic literature review and include three client management patterns, four model management patterns, three model training patterns, and four model aggregation patterns. The patterns are associated to particular state transitions in a federated learning model lifecycle, serving as a guidance for effective use of the patterns in the design of federated learning systems.
翻訳日:2021-04-10 13:25:05 公開日:2021-01-07
# ハッブル宇宙望遠鏡銀河画像における外れ値の自動同定

Automatic identification of outliers in Hubble Space Telescope galaxy images ( http://arxiv.org/abs/2101.02623v1 )

ライセンス: Link先を確認
Lior Shamir(参考訳) 希少な銀河外天体は過去、現在、将来の宇宙に関する重要な情報を運ぶことができる。 情報時代の天文学データベースのサイズを考えると、現在および将来の天文学データベースに非常に多くの外縁銀河が含まれていると仮定できる。 しかし、これらの物体の手動探索は、必要な労力のために実用的ではないため、そのような物体を検知する能力は、主にコンピュータアルゴリズムに依存する。 本稿では、外方銀河画像の自動検出のための教師なし機械学習アルゴリズムとそのハッブル宇宙望遠鏡分野への応用について述べる。 このアルゴリズムはトレーニングを必要としないため、クリーンなトレーニングセットの作成に依存しない。 このアルゴリズムの銀河群への応用により、様々な外縁銀河の画像が検出された。 このアルゴリズムは、アルゴリズムによって検出されたすべてのオブジェクトが実際には外れ値と見なされるわけではないが、実用的な手動識別を可能にするためにデータセットを2桁減らすという意味では完全ではない。 カタログには、自動化を使わずに識別するのが非常に難しい147のオブジェクトが含まれている。

Rare extragalactic objects can carry substantial information about the past, present, and future universe. Given the size of astronomical databases in the information era it can be assumed that very many outlier galaxies are included in existing and future astronomical databases. However, manual search for these objects is impractical due to the required labor, and therefore the ability to detect such objects largely depends on computer algorithms. This paper describes an unsupervised machine learning algorithm for automatic detection of outlier galaxy images, and its application to several Hubble Space Telescope fields. The algorithm does not require training, and therefore is not dependent on the preparation of clean training sets. The application of the algorithm to a large collection of galaxies detected a variety of outlier galaxy images. The algorithm is not perfect in the sense that not all objects detected by the algorithm are indeed considered outliers, but it reduces the dataset by two orders of magnitude to allow practical manual identification. The catalogue contains 147 objects that would be very difficult to identify without using automation.
翻訳日:2021-04-10 13:24:34 公開日:2021-01-07
# 効率的な3次元翼パラメータ化・生成のための深部生成モデル

Deep Generative Model for Efficient 3D Airfoil Parameterization and Generation ( http://arxiv.org/abs/2101.02744v1 )

ライセンス: Link先を確認
Wei Chen and Arun Ramamurthy(参考訳) 空力形状最適化では、コンバージェンスと計算コストは設計空間の表現能力とコンパクト性に大きく影響される。 従来の研究では、二次元(2次元)翼のパラメータ化に深い生成モデルを用いることで高い表現能力/性能を達成し、形状最適化に大いに役立つことが示されている。 本稿では,航空機翼,タービンブレード,車体,船体などの3次元空力・流体力学的形状の効率的なパラメータ化を行うための,深部生成モデルであるffd-gan(free-form deformation generative adversarial networks)を提案する。 学習したモデルは、設計変数のコンパクトな集合を形状を表す3次元表面点にマッピングする。 我々は、生成モデルにFFD層を組み込むことにより、生成したジオメトリの表面の滑らかさと連続性を確保する。 主翼形状設計例を用いてFFD-GANの性能を示す。 その結果,FFD-GANは現実的な設計を生成でき,合理的なパラメータ化を実現できることがわかった。 さらに、FFD-GANの設計空間カバレッジ、設計空間の実現率、設計最適化における性能を検証し、高表現のコンパクト性とキャパシティを実証する。 FFD-GANでランダムに発生する翼間では94%以上の実現率が達成され, FFDとB-スプラインは31%以下であった。 また,ffd-ganは,ffdおよびb-splineパラメータ化と比較して翼形状最適化問題の収束が桁違いに速くなることを示した。

In aerodynamic shape optimization, the convergence and computational cost are greatly affected by the representation capacity and compactness of the design space. Previous research has demonstrated that using a deep generative model to parameterize two-dimensional (2D) airfoils achieves high representation capacity/compactness , which significantly benefits shape optimization. In this paper, we propose a deep generative model, Free-Form Deformation Generative Adversarial Networks (FFD-GAN), that provides an efficient parameterization for three-dimensional (3D) aerodynamic/hydrodyn amic shapes like aircraft wings, turbine blades, car bodies, and hulls. The learned model maps a compact set of design variables to 3D surface points representing the shape. We ensure the surface smoothness and continuity of generated geometries by incorporating an FFD layer into the generative model. We demonstrate FFD-GAN's performance using a wing shape design example. The results show that FFD-GAN can generate realistic designs and form a reasonable parameterization. We further demonstrate FFD-GAN's high representation compactness and capacity by testing its design space coverage, the feasibility ratio of the design space, and its performance in design optimization. We demonstrate that over 94% feasibility ratio is achieved among wings randomly generated by the FFD-GAN, while FFD and B-spline only achieve less than 31%. We also show that the FFD-GAN leads to an order of magnitude faster convergence in a wing shape optimization problem, compared to the FFD and the B-spline parameterizations.
翻訳日:2021-04-10 13:24:18 公開日:2021-01-07
# 線形逆問題の非凸幾何学

The Nonconvex Geometry of Linear Inverse Problems ( http://arxiv.org/abs/2101.02776v1 )

ライセンス: Link先を確認
Armin Eftekhari and Peyman Mohajerin Esfahani(参考訳) ゲージ関数は原子のノルムと密接に関連しており、統計モデルの複雑性を測定し、機械学習や統計信号処理に広く応用されている。 高次元学習問題において、ゲージ関数は学習アルファベット内のスパース(簡潔)表現を促進することによって、過剰フィッティングから保護しようとする。 本研究では、線形逆問題の文脈において、その成功の源を指摘するが、ゲージ関数の適用性は本質的に凸性によって制限され、古典的なゲージ関数理論が失敗するいくつかの学習問題を示す。 次に、ゲージ関数の制限を克服する統計複雑性の新しい概念であるゲージ$_p$関数を導入する。 gauge$_p$関数は、ゲージ関数の単純な一般化であり、学習アルファベット内の統計モデルのスパーシティを厳しく制御することができ、おそらく驚くべきことに、計算数学におけるburer-monteiro因子分解からさらにインスピレーションを得ている。 また、ゲージ$_p$関数の構成要素を持つ新しい学習機械を提案し、このマシンを多くの統計保証付きでアームする。 提案されたゲージ$_p$関数理論のポテンシャルは、2つのスタイライズされた応用について研究される。 最後に,計算の側面を考察し,特に新しい学習機械の実装のための扱いやすい数値アルゴリズムを提案する。

The gauge function, closely related to the atomic norm, measures the complexity of a statistical model, and has found broad applications in machine learning and statistical signal processing. In a high-dimensional learning problem, the gauge function attempts to safeguard against overfitting by promoting a sparse (concise) representation within the learning alphabet. In this work, within the context of linear inverse problems, we pinpoint the source of its success, but also argue that the applicability of the gauge function is inherently limited by its convexity, and showcase several learning problems where the classical gauge function theory fails. We then introduce a new notion of statistical complexity, gauge$_p$ function, which overcomes the limitations of the gauge function. The gauge$_p$ function is a simple generalization of the gauge function that can tightly control the sparsity of a statistical model within the learning alphabet and, perhaps surprisingly, draws further inspiration from the Burer-Monteiro factorization in computational mathematics. We also propose a new learning machine, with the building block of gauge$_p$ function, and arm this machine with a number of statistical guarantees. The potential of the proposed gauge$_p$ function theory is then studied for two stylized applications. Finally, we discuss the computational aspects and, in particular, suggest a tractable numerical algorithm for implementing the new learning machine.
翻訳日:2021-04-10 13:23:54 公開日:2021-01-07
# 音声によるエンド-2-End COVID-19検出

End-2-End COVID-19 Detection from Breath & Cough Audio ( http://arxiv.org/abs/2102.08359v1 )

ライセンス: Link先を確認
Harry Coppock and Alexander Gaskell and Panagiotis Tzirakis and Alice Baird and Lyn Jones and Bj\"orn W. Schuller(参考訳) 主なコントリビューションは次のとおりである: (I) クラウドソースされたオーディオサンプルのデータセットからエンド・ツー・エンドのディープラーニングを用いてCOVID-19を診断し、0.846のROC-AUCを達成するための最初の試みを示す; (II) 私たちのモデルであるCOVID-19 Identification ResNet(CIdeR)は、迅速なスケーラビリティ、最小コスト、より多くのデータが利用可能になるにつれてパフォーマンスを向上させる可能性を秘めている。 これにより、集団規模での定期的なCOVID-19検査が可能になる; (III) 人工の深層ニューラルネットワークを用いて、関節呼吸とうっ血表現からCOVID-19を診断するための新しいモデリング戦略を導入する; (IV) クロスパラメータ最適化のための4つの階層化されたフォールドを標準の公共コーパス上でリリースし、再現性および将来の参照モデルの詳細を公表する。

Our main contributions are as follows: (I) We demonstrate the first attempt to diagnose COVID-19 using end-to-end deep learning from a crowd-sourced dataset of audio samples, achieving ROC-AUC of 0.846; (II) Our model, the COVID-19 Identification ResNet, (CIdeR), has potential for rapid scalability, minimal cost and improving performance as more data becomes available. This could enable regular COVID-19 testing at apopulation scale; (III) We introduce a novel modelling strategy using a custom deep neural network to diagnose COVID-19 from a joint breath and cough representation; (IV) We release our four stratified folds for cross parameter optimisation and validation on a standard public corpus and details on the models for reproducibility and future reference.
翻訳日:2021-04-10 13:23:31 公開日:2021-01-07
# サドル点周辺における線形指数時間勾配軌道の境界条件:解析とアルゴリズム

Boundary Conditions for Linear Exit Time Gradient Trajectories Around Saddle Points: Analysis and Algorithm ( http://arxiv.org/abs/2101.02625v1 )

ライセンス: Link先を確認
Rishabh Dixit and Waheed U. Bajwa(参考訳) 勾配関連一階法は大規模数値最適化問題の解法となっている。 これらの問題の多くは、複数のサドル点を持つ非凸目的関数を含み、これらの関数の幾何学的景観における一階法の離散軌跡の挙動を理解する必要がある。 本稿では,幾何学的景観における厳密な鞍点を構成する非凸最適化問題の局所最小値に対する一階離散法の収束について述べる。 To this end, it focuses on analysis of discrete gradient trajectories around saddle neighborhoods, derives sufficient conditions under which these trajectories can escape strict-saddle neighborhoods in linear time, explores the contractive and expansive dynamics of these trajectories in neighborhoods of strict-saddle points that are characterized by gradients of moderate magnitude, characterizes the non-curving nature of these trajectories, and highlights the inability of these trajectories to re-enter the neighborhoods around strict-saddle points after exiting them. これらの知見と分析に基づき,本論文では,曲線条件付き正規化グラディエントDescent (CCRGD) アルゴリズムと呼ばれるバニラ勾配降下アルゴリズムの単純な変種を提案する。 また,CCRGDアルゴリズムの収束解析を行い,厳密なサドル点数の最大値を持つ幾何学的景観内の局所最小値への収束率について述べる。 次に,提案アルゴリズムの有効性を評価するために,テスト関数と低ランク行列因子化問題について数値実験を行った。

Gradient-related first-order methods have become the workhorse of large-scale numerical optimization problems. Many of these problems involve nonconvex objective functions with multiple saddle points, which necessitates an understanding of the behavior of discrete trajectories of first-order methods within the geometrical landscape of these functions. This paper concerns convergence of first-order discrete methods to a local minimum of nonconvex optimization problems that comprise strict saddle points within the geometrical landscape. To this end, it focuses on analysis of discrete gradient trajectories around saddle neighborhoods, derives sufficient conditions under which these trajectories can escape strict-saddle neighborhoods in linear time, explores the contractive and expansive dynamics of these trajectories in neighborhoods of strict-saddle points that are characterized by gradients of moderate magnitude, characterizes the non-curving nature of these trajectories, and highlights the inability of these trajectories to re-enter the neighborhoods around strict-saddle points after exiting them. Based on these insights and analyses, the paper then proposes a simple variant of the vanilla gradient descent algorithm, termed Curvature Conditioned Regularized Gradient Descent (CCRGD) algorithm, which utilizes a check for an initial boundary condition to ensure its trajectories can escape strict-saddle neighborhoods in linear time. Convergence analysis of the CCRGD algorithm, which includes its rate of convergence to a local minimum within a geometrical landscape that has a maximum number of strict-saddle points, is also presented in the paper. Numerical experiments are then provided on a test function as well as a low-rank matrix factorization problem to evaluate the efficacy of the proposed algorithm.
翻訳日:2021-04-10 13:23:12 公開日:2021-01-07