このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200802となっている論文です。

PDF登録状況(公開日: 20200802)

TitleAuthorsAbstract論文公表日・翻訳日
# 不確実性定量化による音声認識の逆例検出

Detecting Adversarial Examples for Speech Recognition via Uncertainty Quantification ( http://arxiv.org/abs/2005.14611v2 )

ライセンス: Link先を確認
Sina D\"aubener, Lea Sch\"onherr, Asja Fischer, Dorothea Kolossa(参考訳) 機械学習システム、特に自動音声認識(ASR)システムは、攻撃者が入力を悪意を持って変更する敵攻撃に対して脆弱である。 asrシステムの場合、最も興味深いケースはターゲット攻撃であり、攻撃者は任意のオーディオサンプルで特定のターゲットの転写を認識するようシステムを強制することを目的としている。 高度な準受容不能な攻撃の増加は、対策の問題を引き起こす。 本稿では,ハイブリッドASRシステムに注目し,攻撃中の不確実性を示す能力に関する4つの音響モデルを比較する。フィードフォワードニューラルネットワークと,不確実性定量化に特化した3つのニューラルネットワーク,すなわちベイズニューラルネットワーク,モンテカルロドロップアウト,深層アンサンブル。 入力が良性であるか逆性であるかを評価するための単純な一級分類モデルを構築するために、音響モデルの不確実性尺度を用いる。 このアプローチにより、受信演算子曲線スコア0.99以上の領域の逆例を検出することができる。 不確実性定量化のためのニューラルネットワークは、標準的なハイブリッドASRシステムと比較して悪意のあるターゲットテキストの認識精度が低い攻撃に対する脆弱性を同時に減少させる。

Machine learning systems and also, specifically, automatic speech recognition (ASR) systems are vulnerable against adversarial attacks, where an attacker maliciously changes the input. In the case of ASR systems, the most interesting cases are targeted attacks, in which an attacker aims to force the system into recognizing given target transcriptions in an arbitrary audio sample. The increasing number of sophisticated, quasi imperceptible attacks raises the question of countermeasures. In this paper, we focus on hybrid ASR systems and compare four acoustic models regarding their ability to indicate uncertainty under attack: a feed-forward neural network and three neural networks specifically designed for uncertainty quantification, namely a Bayesian neural network, Monte Carlo dropout, and a deep ensemble. We employ uncertainty measures of the acoustic model to construct a simple one-class classification model for assessing whether inputs are benign or adversarial. Based on this approach, we are able to detect adversarial examples with an area under the receiving operator curve score of more than 0.99. The neural networks for uncertainty quantification simultaneously diminish the vulnerability to the attack, which is reflected in a lower recognition accuracy of the malicious target text in comparison to a standard hybrid ASR system.
翻訳日:2022-11-29 13:42:45 公開日:2020-08-02
# 多変量タイムリーのための説明可能な時間ネットワーク

Instance Explainable Temporal Network For Multivariate Timeseries ( http://arxiv.org/abs/2005.13037v2 )

ライセンス: Link先を確認
Naveen Madiraju, Homa Karimabadi(参考訳) ディープネットワークは広く採用されているが、その欠点の1つはブラックボックスの性質である。 機械学習における特に難しい問題は、多変量時系列(mvts)分類である。 MVTSデータは、多くのアプリケーションで発生し、センサやIoTデバイスの爆発的な成長により、ますます広まりつつある。 本稿では,推論の各インスタンスの分類決定において重要なチャネルを識別する新しいネットワーク(IETNet)を提案する。 この機能はまた、非予測変数の識別と削除を可能にし、そうでなければオーバーフィットや不正確なモデルにつながる。 IETNetは、時間的特徴抽出、変数選択、共同変数の相互作用を単一の学習フレームワークに組み合わせたエンドツーエンドネットワークである。 IETNetは、時間的特徴のための1D畳み込み、注目層を用いた可変クラス割り当てのための新しいチャネルゲート層を使用して、クロスチャネル推論を行い、分類目的を実行する。 学習した時間的特徴とチャネルの洞察を得るため,時間とチャネルの双方に沿って注目領域を抽出する。 n体シミュレーションと宇宙船センサデータから,多変量時系列データを用いて,このネットワークの実現性を示す。

Although deep networks have been widely adopted, one of their shortcomings has been their blackbox nature. One particularly difficult problem in machine learning is multivariate time series (MVTS) classification. MVTS data arise in many applications and are becoming ever more pervasive due to explosive growth of sensors and IoT devices. Here, we propose a novel network (IETNet) that identifies the important channels in the classification decision for each instance of inference. This feature also enables identification and removal of non-predictive variables which would otherwise lead to overfit and/or inaccurate model. IETNet is an end-to-end network that combines temporal feature extraction, variable selection, and joint variable interaction into a single learning framework. IETNet utilizes an 1D convolutions for temporal features, a novel channel gate layer for variable-class assignment using an attention layer to perform cross channel reasoning and perform classification objective. To gain insight into the learned temporal features and channels, we extract region of interest attention map along both time and channels. The viability of this network is demonstrated through a multivariate time series data from N body simulations and spacecraft sensor data.
翻訳日:2022-11-28 23:21:10 公開日:2020-08-02
# ロボットの動作を解釈する環境設計

Designing Environments Conducive to Interpretable Robot Behavior ( http://arxiv.org/abs/2007.00820v2 )

ライセンス: Link先を確認
Anagha Kulkarni, Sarath Sreedharan, Sarah Keren, Tathagata Chakraborti, David Smith and Subbarao Kambhampati(参考訳) 解釈可能な行動を生成するロボットの設計は、効果的な人間とロボットの協調を実現するための前提条件である。 つまり、ロボットは人間の期待に合致した行動を生成できなければならず、必要に応じてループ内の人間に説明を提供する必要がある。 しかし、任意の環境でそのような行動を示すことはロボットにとって非常に高価であり、場合によってはロボットが期待する行動を示すことさえできないこともある。 構造された環境(倉庫やレストランなど)を考えると、ロボットの振る舞いの解釈可能性を高めるために環境を設計したり、ロボットの振る舞いに対する人間の期待を形作ることもできる。 本稿では,説明可能な行動として文献で知られている解釈可能な行動のタイプを促進するツールとして,環境設計の機会と限界について考察する。 我々は,複数のタスクにまたがる設計を時間軸に考慮した新しい環境設計フレームワークを定式化する。 さらに,説明可能な行動の時間的側面と,設計コストと説明可能な行動を生成するコストとの間に生じるトレードオフについて検討する。

Designing robots capable of generating interpretable behavior is a prerequisite for achieving effective human-robot collaboration. This means that the robots need to be capable of generating behavior that aligns with human expectations and, when required, provide explanations to the humans in the loop. However, exhibiting such behavior in arbitrary environments could be quite expensive for robots, and in some cases, the robot may not even be able to exhibit the expected behavior. Given structured environments (like warehouses and restaurants), it may be possible to design the environment so as to boost the interpretability of the robot's behavior or to shape the human's expectations of the robot's behavior. In this paper, we investigate the opportunities and limitations of environment design as a tool to promote a type of interpretable behavior -- known in the literature as explicable behavior. We formulate a novel environment design framework that considers design over multiple tasks and over a time horizon. In addition, we explore the longitudinal aspect of explicable behavior and the trade-off that arises between the cost of design and the cost of generating explicable behavior over a time horizon.
翻訳日:2022-11-14 14:18:53 公開日:2020-08-02
# 活性化としての注意

Attention as Activation ( http://arxiv.org/abs/2007.07729v2 )

ライセンス: Link先を確認
Yimian Dai and Stefan Oehmcke and Fabian Gieseke and Yiquan Wu and Kobus Barnard(参考訳) アクティベーション機能とアテンション機構は通常、異なる目的を持ち、異なる進化を遂げたものとして扱われる。 しかし、どちらの概念も非線形ゲーティング関数として定式化することができる。 その類似性に触発されて,アクティベーション機能とアテンション機構の統合として,アテンションアクティベーションアクティベーションユニット(atac)と呼ばれる新しいタイプのアクティベーションユニットを提案する。 特に,ポイントワイズなクロスチャネル特徴コンテキストを局所的に集約する,非線形活性化と要素ワイズ特徴の洗練を同時に行うローカルチャネルアテンションモジュールを提案する。 畳み込みネットワークにおいて、よく知られた整列線形単位をそのようなatac単位に置き換えることで、より少ないパラメータでかなり優れた性能を発揮する完全注意ネットワークを構築することができる。 ネットワーク深さの異なる複数のホストネットワークを用いて,ATACユニットの詳細なアブレーション実験を行い,その有効性と効率を実証した。 さらに,既存のアクティベーション機能と,CIFAR-10,CIFAR-100,ImageNetデータセットの注意機構を比較した。 実験の結果,提案するatacユニットで構築したネットワークは,同等のパラメータが与えられた場合,競合相手よりも性能が向上することがわかった。

Activation functions and attention mechanisms are typically treated as having different purposes and have evolved differently. However, both concepts can be formulated as a non-linear gating function. Inspired by their similarity, we propose a novel type of activation units called attentional activation (ATAC) units as a unification of activation functions and attention mechanisms. In particular, we propose a local channel attention module for the simultaneous non-linear activation and element-wise feature refinement, which locally aggregates point-wise cross-channel feature contexts. By replacing the well-known rectified linear units by such ATAC units in convolutional networks, we can construct fully attentional networks that perform significantly better with a modest number of additional parameters. We conducted detailed ablation studies on the ATAC units using several host networks with varying network depths to empirically verify the effectiveness and efficiency of the units. Furthermore, we compared the performance of the ATAC units against existing activation functions as well as other attention mechanisms on the CIFAR-10, CIFAR-100, and ImageNet datasets. Our experimental results show that networks constructed with the proposed ATAC units generally yield performance gains over their competitors given a comparable number of parameters.
翻訳日:2022-11-10 06:02:27 公開日:2020-08-02
# 深層学習のバックドア攻撃と対策 : 総合的なレビュー

Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive Review ( http://arxiv.org/abs/2007.10760v3 )

ライセンス: Link先を確認
Yansong Gao, Bao Gia Doan, Zhi Zhang, Siqi Ma, Jiliang Zhang, Anmin Fu, Surya Nepal, and Hyoungshick Kim(参考訳) この研究は、コミュニティにバックドア攻撃のタイムリーなレビューとディープラーニング対策を提供する。 攻撃者の能力と機械学習パイプラインの影響を受けたステージにより、攻撃面は広く認識され、コード中毒、アウトソーシング、事前訓練されたデータ収集、協調学習、デプロイ後の6つのカテゴリに分類される。 これにより、各カテゴリの攻撃が組み合わされる。 対策は、ブラインドバックドア除去、オフラインバックドア検査、オンラインバックドア検査、ポストバックドア除去の4つの一般的なクラスに分類される。 そこで我々は,対策を見直し,その利点と欠点を比較し分析する。 我々はまた、調査中のバックドアアタックの反面についてもレビューした。 一 深層学習モデルの知的財産権の保護 二 敵の例攻撃を捕えるために新婚夫婦として振る舞うこと。 三 データ提供者が要求するデータ削除の検証 総じて、防衛に関する調査は攻撃の背後には遠く、あらゆる種類のバックドア攻撃を防止することができる防衛は一つもない。 場合によっては、攻撃者は適応攻撃で既存の防御を知的にバイパスすることができる。 システムレビューから得られた知見を踏まえて,物理的トリガ攻撃による実証的セキュリティ評価,特により効率的かつ実用的な対策が提案されているバックドアに関する今後の研究の鍵となる分野について述べる。

This work provides the community with a timely comprehensive review of backdoor attacks and countermeasures on deep learning. According to the attacker's capability and affected stage of the machine learning pipeline, the attack surfaces are recognized to be wide and then formalized into six categorizations: code poisoning, outsourcing, pretrained, data collection, collaborative learning and post-deployment. Accordingly, attacks under each categorization are combed. The countermeasures are categorized into four general classes: blind backdoor removal, offline backdoor inspection, online backdoor inspection, and post backdoor removal. Accordingly, we review countermeasures, and compare and analyze their advantages and disadvantages. We have also reviewed the flip side of backdoor attacks, which are explored for i) protecting intellectual property of deep learning models, ii) acting as a honeypot to catch adversarial example attacks, and iii) verifying data deletion requested by the data contributor.Overall, the research on defense is far behind the attack, and there is no single defense that can prevent all types of backdoor attacks. In some cases, an attacker can intelligently bypass existing defenses with an adaptive attack. Drawing the insights from the systematic review, we also present key areas for future research on the backdoor, such as empirical security evaluations from physical trigger attacks, and in particular, more efficient and practical countermeasures are solicited.
翻訳日:2022-11-08 04:38:56 公開日:2020-08-02
# CNNを用いた悪意のあるPDFの検出

Detecting malicious PDF using CNN ( http://arxiv.org/abs/2007.12729v2 )

ライセンス: Link先を確認
Raphael Fettaya and Yishay Mansour(参考訳) 悪意のあるPDFファイルは、コンピュータセキュリティに対する最大の脅威の1つだ。 それらを検出するために、手書きのシグネチャや手動の特徴抽出に基づく機械学習を用いて重要な研究が行われた。 これらのアプローチはどちらも時間を要するため、事前知識が必要であり、新たに発見された脆弱性ごとに機能のリストを更新する必要がある。 本研究では,ファイルのバイトレベルでの畳み込みニューラルネットワーク(CNN)のアンサンブルを利用する新しいアルゴリズムを提案する。 オンラインダウンロード可能な90000ファイルのデータセットを用いて、我々のアプローチはPDFマルウェアの高検出率(94%)を維持し、新しい悪意のあるファイルも検出している。 CNNネットワークから自動生成した特徴とクラスタリングアルゴリズムを適用することにより、抗ウイルスラベルと結果のクラスタとの間に高い類似性が得られる。

Malicious PDF files represent one of the biggest threats to computer security. To detect them, significant research has been done using handwritten signatures or machine learning based on manual feature extraction. Those approaches are both time-consuming, require significant prior knowledge and the list of features has to be updated with each newly discovered vulnerability. In this work, we propose a novel algorithm that uses an ensemble of Convolutional Neural Network (CNN) on the byte level of the file, without any handcrafted features. We show, using a data set of 90000 files downloadable online, that our approach maintains a high detection rate (94%) of PDF malware and even detects new malicious files, still undetected by most antiviruses. Using automatically generated features from our CNN network, and applying a clustering algorithm, we also obtain high similarity between the antiviruses' labels and the resulting clusters.
翻訳日:2022-11-07 07:16:55 公開日:2020-08-02
# ランダム森林による米国の政策成果の予測

Predicting United States policy outcomes with Random Forests ( http://arxiv.org/abs/2008.07338v1 )

ライセンス: Link先を確認
Shawn McGuire, Charles Delahunt(参考訳) 20年間のアメリカ合衆国政府の立法成果と富裕層、一般人口、多様な利害団体の政策選好は、Gilens, Page et al. (2014)によってキュレーションされ分析された詳細なデータセットで収集された。 その結果,富裕層の嗜好は政策の結果と強く相関することがわかったが,一般住民の嗜好は富裕層の嗜好と結びついてはいないことがわかった。 彼らの分析は古典的統計推論、特にロジスティック回帰のツールを適用した。 本稿では,機械学習からランダムフォレスト分類器(rfs)の補完ツールを用いて,girensデータセットの解析を行う。 予測と推測の2つの主要な知見を提示する。 (i)ホールドアウトテストセットは、富裕層と少数の利害関係グループ、および政策領域ラベルの選好のみを相談するモデルによって、約70%のバランスのとれた精度で予測することができる。 これらの結果は、1997年以前のケースでトレーニングされたモデルが"future"(1997年以降)を予測したレトロディクションを含む。 この詳細なデータセットでは、ベースライン(チャンス)よりも精度が20%向上していることは、米国の政策成果において、少数の富裕層が高い重要性を持っていることを示している。 2)RFモデルの特徴選択手法は,特に利害グループ(経済学者)の健全なサブセットを特定する。 これらは、政府の政策決定のダイナミクスをさらに調査するために使用することができ、また、このようなデータセットに対する推論のためのRF特徴選択手法の潜在的な価値の例を提供する。

Two decades of U.S. government legislative outcomes, as well as the policy preferences of rich people, the general population, and diverse interest groups, were captured in a detailed dataset curated and analyzed by Gilens, Page et al. (2014). They found that the preferences of the rich correlated strongly with policy outcomes, while the preferences of the general population did not, except via a linkage with rich people's preferences. Their analysis applied the tools of classical statistical inference, in particular logistic regression. In this paper we analyze the Gilens dataset using the complementary tools of Random Forest classifiers (RFs), from Machine Learning. We present two primary findings, concerning respectively prediction and inference: (i) Holdout test sets can be predicted with approximately 70% balanced accuracy by models that consult only the preferences of rich people and a small number of powerful interest groups, as well as policy area labels. These results include retrodiction, where models trained on pre-1997 cases predicted "future" (post-1997) cases. The 20% gain in accuracy over baseline (chance), in this detailed but noisy dataset, indicates the high importance of a few wealthy players in U.S. policy outcomes, and aligns with a body of research indicating that the U.S. government has significant plutocratic tendencies. (ii) The feature selection methods of RF models identify especially salient subsets of interest groups (economic players). These can be used to further investigate the dynamics of governmental policy making, and also offer an example of the potential value of RF feature selection methods for inference on datasets such as this.
翻訳日:2022-11-03 20:03:11 公開日:2020-08-02
# 極低ビットレート映像の多モードソフトデコーディング

Deep Multi-modality Soft-decoding of Very Low Bit-rate Face Videos ( http://arxiv.org/abs/2008.01652v1 )

ライセンス: Link先を確認
Yanhui Guo, Xi Zhang, Xiaolin Wu(参考訳) 本稿では,音声頭部の低ビットレート映像を復元するディープ多モードニューラルネットワークを提案する。 このようなビデオコンテンツは、ソーシャルメディア、遠隔会議、遠隔教育、遠隔医療などで非常に一般的であり、帯域幅が限られている場合が多い。 提案手法は,話者の3つのモード,映像,音声,感情状態の相関を利用して,空間的なダウンサンプリングと量子化による映像圧縮アーチファクトを除去する。 複雑な非線形の相互モダリティ相関は解析的かつ明示的にモデル化することが非常に困難であるため、ディープラーニングアプローチはビデオ復元作業に最適であることが判明した。 この新しい方法はビデオポストプロセッサで、攻撃的に圧縮された音声ヘッドビデオの知覚的品質を大幅に向上させると同時に、既存のビデオ圧縮標準と完全に互換性がある。

We propose a novel deep multi-modality neural network for restoring very low bit rate videos of talking heads. Such video contents are very common in social media, teleconferencing, distance education, tele-medicine, etc., and often need to be transmitted with limited bandwidth. The proposed CNN method exploits the correlations among three modalities, video, audio and emotion state of the speaker, to remove the video compression artifacts caused by spatial down sampling and quantization. The deep learning approach turns out to be ideally suited for the video restoration task, as the complex non-linear cross-modality correlations are very difficult to model analytically and explicitly. The new method is a video post processor that can significantly boost the perceptual quality of aggressively compressed talking head videos, while being fully compatible with all existing video compression standards.
翻訳日:2022-11-03 20:02:20 公開日:2020-08-02
# 重み付きグラフのフリク型メトリゼーションについて

On Frink's type metrization of weighted graphs ( http://arxiv.org/abs/2008.00569v1 )

ライセンス: Link先を確認
Mar\'ia Florencia Acosta and Hugo Aimar and Ivana G\'omez(参考訳) ここでは、可算基底を持つ一様性のメートル法定理の技法を用いて、有界重み付き無向グラフの頂点 $x$ と $y$ の間の計量 $d(x,y)$ を生成するための明示的なアルゴリズムを提供し、テストし、比較する。

Using the technique of the metrization theorem of uniformities with countable bases, in this note we provide, test and compare an explicit algorithm to produce a metric $d(x,y)$ between the vertices $x$ and $y$ of an affinity weighted undirected graph.
翻訳日:2022-11-03 20:02:05 公開日:2020-08-02
# copulaモデルを用いたslamの変分フィルタリング

Variational Filtering with Copula Models for SLAM ( http://arxiv.org/abs/2008.00504v1 )

ライセンス: Link先を確認
John D. Martin, Kevin Doherty, Caralyn Cyr, Brendan Englot, John Leonard(参考訳) 自律移動ロボットの動作には,変数を推定し,ポーズを推定する能力が不可欠である。 ほとんどの場合、これらの変数間の共有依存は多変量ガウス分布を通してモデル化されるが、その仮定が非現実的である多くの状況がある。 本稿では,この仮定を緩和し,多変量依存をコプラモデルで表わす分布のより広いクラスと同時局所化とマッピング(SLAM)を実現する方法について述べる。 分布モデルとコプラを逐次モンテカルロ推定器に統合し、勾配に基づく最適化によって未知のモデルパラメータがいかに学習できるかを示す。 提案手法は,不確実なデータアソシエーションや非線形遷移モデルなど,ガウス的仮定が明確に違反する環境において有効であることを示す。

The ability to infer map variables and estimate pose is crucial to the operation of autonomous mobile robots. In most cases the shared dependency between these variables is modeled through a multivariate Gaussian distribution, but there are many situations where that assumption is unrealistic. Our paper shows how it is possible to relax this assumption and perform simultaneous localization and mapping (SLAM) with a larger class of distributions, whose multivariate dependency is represented with a copula model. We integrate the distribution model with copulas into a Sequential Monte Carlo estimator and show how unknown model parameters can be learned through gradient-based optimization. We demonstrate our approach is effective in settings where Gaussian assumptions are clearly violated, such as environments with uncertain data association and nonlinear transition models.
翻訳日:2022-11-03 19:57:26 公開日:2020-08-02
# 圧縮映像の知覚的品質向上のための多レベルウェーブレットベース生成逆ネットワーク

Multi-level Wavelet-based Generative Adversarial Network for Perceptual Quality Enhancement of Compressed Video ( http://arxiv.org/abs/2008.00499v1 )

ライセンス: Link先を確認
Jianyi Wang, Xin Deng, Mai Xu, Congyong Chen, Yuhang Song(参考訳) 過去数年間、ディープラーニングによるビデオの品質向上が急速に進展している。 既存の手法は主に、その知覚的品質を無視しながら、圧縮映像の客観的品質を高めることに焦点を当てている。 本稿では,圧縮映像の知覚的品質の向上に着目する。 我々の観察では、知覚品質の向上は主にウェーブレット領域の高周波サブバンドの回復に依存している。 そこで本研究では,マルチレベルウェーブレットパケット変換 (wpt) に基づく新しい生成型逆ネットワーク (gan) を提案し,マルチレベルウェーブレットベースgan (mw-gan) と呼ばれる圧縮ビデオの知覚品質を向上させる。 MW-GANではまず,時間的情報を得るためにピラミッド構造を用いて動き補償を行う。 そこで本研究では,wavelet-dense residual blocks (wdrb) を用いたウェーブレット再構成ネットワークを提案する。 さらに、ビデオフレームの高頻度詳細回復を促進するため、WPTを介してMW-GANの対向損失を追加する。 実験の結果,本手法の優位性が示された。

The past few years have witnessed fast development in video quality enhancement via deep learning. Existing methods mainly focus on enhancing the objective quality of compressed video while ignoring its perceptual quality. In this paper, we focus on enhancing the perceptual quality of compressed video. Our main observation is that enhancing the perceptual quality mostly relies on recovering high-frequency sub-bands in wavelet domain. Accordingly, we propose a novel generative adversarial network (GAN) based on multi-level wavelet packet transform (WPT) to enhance the perceptual quality of compressed video, which is called multi-level wavelet-based GAN (MW-GAN). In MW-GAN, we first apply motion compensation with a pyramid architecture to obtain temporal information. Then, we propose a wavelet reconstruction network with wavelet-dense residual blocks (WDRB) to recover the high-frequency details. In addition, the adversarial loss of MW-GAN is added via WPT to further encourage high-frequency details recovery for video frames. Experimental results demonstrate the superiority of our method.
翻訳日:2022-11-03 19:56:51 公開日:2020-08-02
# ハイパースペクトル画像分類のための非局所特徴の効率的な深層学習

Efficient Deep Learning of Non-local Features for Hyperspectral Image Classification ( http://arxiv.org/abs/2008.00542v1 )

ライセンス: Link先を確認
Yu Shen, Sijie Zhu, Chen Chen, Qian Du, Liang Xiao, Jianyu Chen, Delu Pan(参考訳) 畳み込みニューラルネットワーク(CNN)のようなディープラーニングに基づく手法は、ハイパースペクトル画像(HSI)分類においてその効率を実証している。 これらの手法は局所パッチ内のスペクトル空間識別特徴を自動的に学習することができる。 しかし、hsi内の各画素は、その近傍の画素と関係しているだけでなく、自分自身から遠く離れたピクセルとも接続している。 そこで, ENL-FCN という名前の効率的な非局所モジュールを持つ深層完全畳み込みネットワーク (FCN) をHSI分類に組み込む手法を提案する。 提案フレームワークでは,深部FCNが全HSIを入力とみなし,局所受容領域におけるスペクトル空間情報を抽出する。 効率的な非ローカルモジュールは、長い範囲のコンテキスト情報をキャプチャする学習ユニットとしてネットワークに埋め込まれる。 従来の非局所ニューラルネットワークとは異なり、長距離文脈情報は計算効率のために特別に設計されたcriss-crossパスから抽出される。 さらに、繰り返し操作を用いることで、各画素の応答をHSIの全画素から集約する。 提案するENL-FCNの利点は3つある。 1) 長距離コンテキスト情報を効果的に組み込む。 2) 効率的なモジュールは、プラグアンドプレイ方式でディープニューラルネットワークに自由に組み込むことができ、 3) 学習パラメータがはるかに少なく、計算リソースも少なくなります。 3つのhsiデータセットで行った実験により,提案手法は,hsiの先駆的深層ニューラルネットワークと比較して,計算コストの低減とともに最先端の分類性能を実現することが示された。

Deep learning based methods, such as Convolution Neural Network (CNN), have demonstrated their efficiency in hyperspectral image (HSI) classification. These methods can automatically learn spectral-spatial discriminative features within local patches. However, for each pixel in an HSI, it is not only related to its nearby pixels but also has connections to pixels far away from itself. Therefore, to incorporate the long-range contextual information, a deep fully convolutional network (FCN) with an efficient non-local module, named ENL-FCN, is proposed for HSI classification. In the proposed framework, a deep FCN considers an entire HSI as input and extracts spectral-spatial information in a local receptive field. The efficient non-local module is embedded in the network as a learning unit to capture the long-range contextual information. Different from the traditional non-local neural networks, the long-range contextual information is extracted in a specially designed criss-cross path for computation efficiency. Furthermore, by using a recurrent operation, each pixel's response is aggregated from all pixels of HSI. The benefits of our proposed ENL-FCN are threefold: 1) the long-range contextual information is incorporated effectively, 2) the efficient module can be freely embedded in a deep neural network in a plug-and-play fashion, and 3) it has much fewer learning parameters and requires less computational resources. The experiments conducted on three popular HSI datasets demonstrate that the proposed method achieves state-of-the-art classification performance with lower computational cost in comparison with several leading deep neural networks for HSI.
翻訳日:2022-11-03 19:56:14 公開日:2020-08-02
# SCNet: サイドチャネル攻撃を自動化するニューラルネットワーク

SCNet: A Neural Network for Automated Side-Channel Attack ( http://arxiv.org/abs/2008.00476v1 )

ライセンス: Link先を確認
Guanlin Li, Chang Liu, Han Yu, Yanhong Fan, Libang Zhang, Zongyue Wang, Meiqin Wang(参考訳) サイドチャネル攻撃は、アルゴリズムの弱点ではなく、コンピュータシステムの実装に関する情報に基づく攻撃方法である。 電力消費、電磁漏れ、音などのシステム特性に関する情報は、サイドチャネル攻撃によってシステムに侵入することができる。 多くの研究がこの分野に向けられている。 しかし、そのような攻撃は依然として強力な技術を必要とするため、専門家が効果的に行うことができる。 本稿では,サイドチャネル攻撃を自動実行するSCNetを提案する。 また、このネットワークをサイドチャネルのドメイン知識と異なるディープラーニングモデルを組み合わせて設計し、パフォーマンスを改善し、結果を説明する。 その結果,本モデルではパラメータが少なく,優れた性能が得られた。 提案モデルは,コンピュータシステムの堅牢性を自動テストするための有用なツールである。

The side-channel attack is an attack method based on the information gained about implementations of computer systems, rather than weaknesses in algorithms. Information about system characteristics such as power consumption, electromagnetic leaks and sound can be exploited by the side-channel attack to compromise the system. Much research effort has been directed towards this field. However, such an attack still requires strong skills, thus can only be performed effectively by experts. Here, we propose SCNet, which automatically performs side-channel attacks. And we also design this network combining with side-channel domain knowledge and different deep learning model to improve the performance and better to explain the result. The results show that our model achieves good performance with fewer parameters. The proposed model is a useful tool for automatically testing the robustness of computer systems.
翻訳日:2022-11-03 19:55:16 公開日:2020-08-02
# ウズベク映画レビューコメントの意見分類における絵文字の影響の検討

Investigating the Effect of Emoji in Opinion Classification of Uzbek Movie Review Comments ( http://arxiv.org/abs/2008.00482v1 )

ライセンス: Link先を確認
Ilyos Rabbimov, Iosif Mporas, Vasiliki Simaki, Sami Kobilov(参考訳) ソーシャルメディア投稿に対する意見のマイニングはますます人気が高まっている。 ユーザーは、単語だけでなく、エモティコンや絵文字のような画像記号も使う。 本稿では、ウズベク語テキストの意見分類における絵文字に基づく機能の影響、特にyoutubeからの映画レビューコメントについて検討する。 いくつかの分類アルゴリズムがテストされ、絵文字に基づく特徴の識別能力を評価するために特徴ランキングが行われる。

Opinion mining on social media posts has become more and more popular. Users often express their opinion on a topic not only with words but they also use image symbols such as emoticons and emoji. In this paper, we investigate the effect of emoji-based features in opinion classification of Uzbek texts, and more specifically movie review comments from YouTube. Several classification algorithms are tested, and feature ranking is performed to evaluate the discriminative ability of the emoji-based features.
翻訳日:2022-11-03 19:49:04 公開日:2020-08-02
# SemEval-2020 Task 5: Counterfactual Recognition

SemEval-2020 Task 5: Counterfactual Recognition ( http://arxiv.org/abs/2008.00563v1 )

ライセンス: Link先を確認
Xiaoyu Yang, Stephen Obadinma, Huasha Zhao, Qiong Zhang, Stan Matwin, Xiaodan Zhu(参考訳) 本稿では,SemEval-2020の共有タスク5(CR)タスクを提案する。 カウンターファクトリーは、起こらなかったり起こらなかったり、事実(関与者)に逆らうような行動や状況によって生じる潜在的な結果(結果)を記述している。 カウンターファクチュアルシンキングは人間の認知システムの重要な特徴であり、先駆者と結果と因果関係を結びつける。 我々のタスクは2つのサブタスクを持つ自然言語における反ファクト認識のベンチマークを提供する。 Subtask-1は、ある文が偽造文であるか否かを決定することを目的としている。 Subtask-2は、該当するシステムに対して、所定の偽造声明を抽出することを要求する。 SemEval-2020の公式評価期間中に27件のSubtask-1と11件のSubtask-2を提出した。 データ、ベースラインコード、リーダーボードはhttps://competitions.codalab.org/competitions/21691にある。 データとベースラインコードはhttps://zenodo.org/record/3932442.com/で入手できる。

We present a counterfactual recognition (CR) task, the shared Task 5 of SemEval-2020. Counterfactuals describe potential outcomes (consequents) produced by actions or circumstances that did not happen or cannot happen and are counter to the facts (antecedent). Counterfactual thinking is an important characteristic of the human cognitive system; it connects antecedents and consequents with causal relations. Our task provides a benchmark for counterfactual recognition in natural language with two subtasks. Subtask-1 aims to determine whether a given sentence is a counterfactual statement or not. Subtask-2 requires the participating systems to extract the antecedent and consequent in a given counterfactual statement. During the SemEval-2020 official evaluation period, we received 27 submissions to Subtask-1 and 11 to Subtask-2. The data, baseline code, and leaderboard can be found at https://competitions.codalab.org/competitions/21691. The data and baseline code are also available at https://zenodo.org/record/3932442.
翻訳日:2022-11-03 19:48:55 公開日:2020-08-02
# 構造因果モデルは(解決可能な)クレダルネットワークである

Structural Causal Models Are (Solvable by) Credal Networks ( http://arxiv.org/abs/2008.00463v1 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci and Rafael Caba\~nas(参考訳) 構造因果モデルは内因性(マニュフェスト)と外因性(ラテント)の変数から成り立っている。 内因性観察は外因性変数の確率に線形制約をもたらすことを示す。 これにより、因果モデルをクレダルネットワークに正確にマッピングすることができる。 その結果、干渉や反事実などの因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。 これらの値は同定可能なケースでネイティブにシャープ値を返すが、正確な境界に対応する間隔は特定できないクエリに対して生成される。 上記の写像をコンパクトに導出できる因果モデルのキャラクタリゼーションと一般モデルのスケーラビリティに関する議論が与えられる。 この貢献は、構造因果モデルをクレダルネットワークによって表現し、因果推論を体系的に計算するための体系的アプローチと見なされるべきである。 方法論を明確にするために,実証的な例をいくつか紹介する。 広範な実験により、クレーダルネットワークの近似アルゴリズムは、実規模問題において直ちに因果推論を行うことができることが示された。

A structural causal model is made of endogenous (manifest) and exogenous (latent) variables. We show that endogenous observations induce linear constraints on the probabilities of the exogenous variables. This allows to exactly map a causal model into a credal network. Causal inferences, such as interventions and counterfactuals, can consequently be obtained by standard algorithms for the updating of credal nets. These natively return sharp values in the identifiable case, while intervals corresponding to the exact bounds are produced for unidentifiable queries. A characterization of the causal models that allow the map above to be compactly derived is given, along with a discussion about the scalability for general models. This contribution should be regarded as a systematic approach to represent structural causal models by credal networks and hence to systematically compute causal inferences. A number of demonstrative examples is presented to clarify our methodology. Extensive experiments show that approximate algorithms for credal networks can immediately be used to do causal inference in real-size problems.
翻訳日:2022-11-03 19:48:40 公開日:2020-08-02
# 深層多スケール成分辞書によるブラインド顔復元

Blind Face Restoration via Deep Multi-scale Component Dictionaries ( http://arxiv.org/abs/2008.00418v1 )

ライセンス: Link先を確認
Xiaoming Li, Chaofeng Chen, Shangchen Zhou, Xianhui Lin, Wangmeng Zuo, Lei Zhang(参考訳) 近年の参照型顔復元法は, 実際の低品質画像の高頻度細部を復元する能力に優れており, 注目されている。 しかし、これらの手法のほとんどは同一のアイデンティティの高品質な参照画像を必要とするため、限られた場面でのみ適用できる。 本稿では,劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。 まず、K-meansを用いて、高品質な画像から知覚的に重要な顔成分(白、左目、鼻、口)の深い辞書を生成する。 次に、劣化した入力を用いて、対応する辞書から最も類似した特徴をマッチングして選択し、提案した辞書特徴伝達(DFT)ブロックを介して、高品質な詳細を入力に転送する。 特に、入力と辞書の特徴(例えば、照明)のスタイル多様性をなくすためにコンポーネント・アデインを活用し、その辞書特徴を入力に適応的に融合させるための信頼度スコアを提案する。 最後に,複数規模の辞書を漸進的に採用し,粗大から細かな復元を実現する。 実験により,提案手法は定量評価と定性評価の両方において有意な性能を達成でき,さらに重要なことは,実劣化画像に対する現実的かつ有望な結果が得られることである。 ソースコードとモデルは \url{https://github.com/csxmli2016/dfdnet} で入手できる。

Recent reference-based face restoration methods have received considerable attention due to their great capability in recovering high-frequency details on real low-quality images. However, most of these methods require a high-quality reference image of the same identity, making them only applicable in limited scenes. To address this issue, this paper suggests a deep face dictionary network (termed as DFDNet) to guide the restoration process of degraded observations. To begin with, we use K-means to generate deep dictionaries for perceptually significant face components (\ie, left/right eyes, nose and mouth) from high-quality images. Next, with the degraded input, we match and select the most similar component features from their corresponding dictionaries and transfer the high-quality details to the input via the proposed dictionary feature transfer (DFT) block. In particular, component AdaIN is leveraged to eliminate the style diversity between the input and dictionary features (\eg, illumination), and a confidence score is proposed to adaptively fuse the dictionary feature to the input. Finally, multi-scale dictionaries are adopted in a progressive manner to enable the coarse-to-fine restoration. Experiments show that our proposed method can achieve plausible performance in both quantitative and qualitative evaluation, and more importantly, can generate realistic and promising results on real degraded images without requiring an identity-belonging reference. The source code and models are available at \url{https://github.com/csxmli2016/DFDNet}.
翻訳日:2022-11-03 19:47:55 公開日:2020-08-02
# 効率的な3次元再構成のための確率的バンドル調整法

Stochastic Bundle Adjustment for Efficient and Scalable 3D Reconstruction ( http://arxiv.org/abs/2008.00446v1 )

ライセンス: Link先を確認
Lei Zhou, Zixin Luo, Mingmin Zhen, Tianwei Shen, Shiwei Li, Zhuofei Huang, Tian Fang, Long Quan(参考訳) カメラ数に比例するReduced Camera System(RCS)を解く際のボトルネックによって、Levenberg-Marquardt (LM)アルゴリズムのような現在のバンドル調整ソルバが制限される。 問題がスケールアップされた場合、このステップは単一の計算ノードに対して効率的でも管理可能でもない。 本研究では,LM イテレーションのほぼ内において RCS を分解して効率と拡張性を向上する確率的バンドル調整アルゴリズムを提案する。 まず、可視性グラフのクラスタリングに基づいて、クラスタ間の等式制約を導入することにより、LMイテレーションの二次プログラミング問題を再構成する。 次に, 確率制約問題に緩和し, サンプル化凸プログラムを用いて解くことを提案する。 この緩和は、制約によって具現化されたクラスタ間の相互依存を取り除くことを目的としており、大きなRCSを独立した線形サブプロブレムに分解することができる。 非順序のインターネット画像セットと逐次SLAM画像セットの数値実験と大規模データセットの分散実験は,提案手法の高効率性とスケーラビリティを実証した。 コードはhttps://github.com/zlthinker/stbaでリリースされる。

Current bundle adjustment solvers such as the Levenberg-Marquardt (LM) algorithm are limited by the bottleneck in solving the Reduced Camera System (RCS) whose dimension is proportional to the camera number. When the problem is scaled up, this step is neither efficient in computation nor manageable for a single compute node. In this work, we propose a stochastic bundle adjustment algorithm which seeks to decompose the RCS approximately inside the LM iterations to improve the efficiency and scalability. It first reformulates the quadratic programming problem of an LM iteration based on the clustering of the visibility graph by introducing the equality constraints across clusters. Then, we propose to relax it into a chance constrained problem and solve it through sampled convex program. The relaxation is intended to eliminate the interdependence between clusters embodied by the constraints, so that a large RCS can be decomposed into independent linear sub-problems. Numerical experiments on unordered Internet image sets and sequential SLAM image sets, as well as distributed experiments on large-scale datasets, have demonstrated the high efficiency and scalability of the proposed approach. Codes are released at https://github.com/zlthinker/STBA.
翻訳日:2022-11-03 19:47:30 公開日:2020-08-02
# Recurrent Structure-Detail Network を用いたビデオ超解像

Video Super-Resolution with Recurrent Structure-Detail Network ( http://arxiv.org/abs/2008.00455v1 )

ライセンス: Link先を確認
Takashi Isobe, Xu Jia, Shuhang Gu, Songjiang Li, Shengjin Wang, Qi Tian(参考訳) ほとんどのビデオ超解像法は、時間的スライディングウィンドウ内の隣接するフレームの助けを借りて単一の参照フレームを超解する。 リカレントベースのメソッドに比べて効率が低くなります。 そこで本研究では,従来のフレームを有効かつ効率的に利用し,現在のフレームを超解するビデオ超解法を提案する。 入力を、複数の提案された2ストリーム構造-詳細ブロックからなる繰り返しユニットに供給される構造と詳細コンポーネントに分割する。 また、現在のフレームが隠蔽状態からの情報を選択的に使用できるようにする隠蔽状態適応モジュールを導入し、外観変化やエラー蓄積に対する堅牢性を高める。 広範なアブレーション実験により,提案モジュールの有効性が検証された。 いくつかのベンチマークデータセットの実験は、ビデオ超解像における最先端手法と比較して提案手法の優れた性能を示す。

Most video super-resolution methods super-resolve a single reference frame with the help of neighboring frames in a temporal sliding window. They are less efficient compared to the recurrent-based methods. In this work, we propose a novel recurrent video super-resolution method which is both effective and efficient in exploiting previous frames to super-resolve the current frame. It divides the input into structure and detail components which are fed to a recurrent unit composed of several proposed two-stream structure-detail blocks. In addition, a hidden state adaptation module that allows the current frame to selectively use information from hidden state is introduced to enhance its robustness to appearance change and error accumulation. Extensive ablation study validate the effectiveness of the proposed modules. Experiments on several benchmark datasets demonstrate the superior performance of the proposed method compared to state-of-the-art methods on video super-resolution.
翻訳日:2022-11-03 19:47:11 公開日:2020-08-02
# セマンティックセグメンテーションに対するテンソル低ランク再建術

Tensor Low-Rank Reconstruction for Semantic Segmentation ( http://arxiv.org/abs/2008.00490v1 )

ライセンス: Link先を確認
Wanli Chen, Xinge Zhu, Ruoqi Sun, Junjun He, Ruiyu Li, Xiaoyong Shen, and Bei Yu(参考訳) 文脈情報は意味セグメンテーションの成功に欠かせない役割を果たす。 近年,非局所的自己照準に基づく手法が文脈情報収集に有効であることが判明した。 所望のコンテキストは空間的およびチャネル的注意で構成されているため、3D表現は適切な定式化である。 しかし、これらの非局所的な手法は、2次元の類似性行列に基づいて3次元の文脈情報を記述する。 もう一つの方法は、文脈情報を圧縮なしで直接モデル化することである。 しかし、この取り組みは基本的な難しさ、すなわち文脈情報の高位な性質に直面する。 本稿では,空間圧縮を回避するだけでなく,高階化の難しさに対処する3次元コンテキスト表現をモデル化する新しい手法を提案する。 ここではテンソル標準-ポリド分解理論(高階テンソルをランク1テンソルの組み合わせとして表現できる)に着想を得て、低階から高階の文脈再構成フレームワーク(RecoNet)を設計する。 具体的には、まずテンソル生成モジュール(TGM)を導入し、複数のランク-1テンソルを生成し、コンテキスト特徴の断片をキャプチャする。 次に、これらのランク1テンソルを用いて、提案したテンソル再構成モジュール(TRM)を介して高階のコンテキスト特徴を復元する。 大規模な実験により,本手法は様々な公開データセットの最先端性を実現する。 また,提案手法は従来の非局所的手法に比べて100倍以上の計算コストがかかる。

Context information plays an indispensable role in the success of semantic segmentation. Recently, non-local self-attention based methods are proved to be effective for context information collection. Since the desired context consists of spatial-wise and channel-wise attentions, 3D representation is an appropriate formulation. However, these non-local methods describe 3D context information based on a 2D similarity matrix, where space compression may lead to channel-wise attention missing. An alternative is to model the contextual information directly without compression. However, this effort confronts a fundamental difficulty, namely the high-rank property of context information. In this paper, we propose a new approach to model the 3D context representations, which not only avoids the space compression but also tackles the high-rank difficulty. Here, inspired by tensor canonical-polyadic decomposition theory (i.e, a high-rank tensor can be expressed as a combination of rank-1 tensors.), we design a low-rank-to-high-rank context reconstruction framework (i.e, RecoNet). Specifically, we first introduce the tensor generation module (TGM), which generates a number of rank-1 tensors to capture fragments of context feature. Then we use these rank-1 tensors to recover the high-rank context features through our proposed tensor reconstruction module (TRM). Extensive experiments show that our method achieves state-of-the-art on various public datasets. Additionally, our proposed method has more than 100 times less computational cost compared with conventional non-local-based methods.
翻訳日:2022-11-03 19:46:41 公開日:2020-08-02
# スイスの選抜湖沼における氷の総合的モニタリング 最終プロジェクト報告

Integrated monitoring of ice in selected Swiss lakes. Final project report ( http://arxiv.org/abs/2008.00512v1 )

ライセンス: Link先を確認
Manu Tom, Melanie Suetterlin, Damien Bouffard, Mathias Rothermel, Stefan Wunderle, Emmanuel Baltsavias(参考訳) 湖氷を含む様々な湖の観測物は気候や気候変動に関係しており、長期監視の好機となっている。 そのため、湖は(湖氷の一部として)地球気候観測システム(GCOS)の基本気候変動(ECV)と見なされている。 スイスの湖氷を統合的に監視する必要性に続き、GCOSスイスのフレームワークのMeteoSwissはこの2年間のプロジェクトを支援し、衛星画像の使用だけでなく、ウェブカメラやその場測定の可能性を探求した。 本プロジェクトの目的は、様々な入力データと処理方法の統合に焦点をあて、対象とする湖の監視と氷の量、特に氷点/降期日の検出である。 セントモリッツ湖、シルヴァプラナ湖、シルス湖、シルル湖、グリフェン湖、エーゲリ湖で、観測期間中は最初の4つの湖のみが凍結して処理された。 観測期間は主に2016-17年の冬であった。 プロジェクト期間中、様々なアプローチを開発し、実装し、テストし、比較した。 まず,光センサmodisとviirからの低空間解像度 (250~1000 m) と高時間解像度 (1日) の衛星画像を用いた。 次に, パイロットプロジェクトとして, 既存のウェブカメラの利用について検討した。 (a)衛星データによる結果の検証及び (b)衛星画像では観測できない、特にセントモリッツ湖のような小さな湖では、湖氷の独立した推定が可能であった。 第3に, 融解前の氷床下および凍結前の温度分布および部分圧力の発達を特徴付けるため, その場測定を行った。 本報告ではプロジェクト成果について述べる。

Various lake observables, including lake ice, are related to climate and climate change and provide a good opportunity for long-term monitoring. Lakes (and as part of them lake ice) is therefore considered an Essential Climate Variable (ECV) of the Global Climate Observing System (GCOS). Following the need for an integrated multi-temporal monitoring of lake ice in Switzerland, MeteoSwiss in the framework of GCOS Switzerland supported this 2-year project to explore not only the use of satellite images but also the possibilities of Webcams and in-situ measurements. The aim of this project is to monitor some target lakes and detect the extent of ice and especially the ice-on/off dates, with focus on the integration of various input data and processing methods. The target lakes are: St. Moritz, Silvaplana, Sils, Sihl, Greifen and Aegeri, whereby only the first four were mainly frozen during the observation period and thus processed. The observation period was mainly the winter 2016-17. During the project, various approaches were developed, implemented, tested and compared. Firstly, low spatial resolution (250 - 1000 m) but high temporal resolution (1 day) satellite images from the optical sensors MODIS and VIIRS were used. Secondly, and as a pilot project, the use of existing public Webcams was investigated for (a) validation of results from satellite data, and (b) independent estimation of lake ice, especially for small lakes like St. Moritz, that could not be possibly monitored in the satellite images. Thirdly, in-situ measurements were made in order to characterize the development of the temperature profiles and partly pressure before freezing and under the ice-cover until melting. This report presents the results of the project work.
翻訳日:2022-11-03 19:46:18 公開日:2020-08-02
# 人間の行動認識のためのビジョンと慣性センシングフュージョン : レビュー

Vision and Inertial Sensing Fusion for Human Action Recognition : A Review ( http://arxiv.org/abs/2008.00380v1 )

ライセンス: Link先を確認
Sharmin Majumder, Nasser Kehtarnavaz(参考訳) 人間の行動認識は、ビデオ監視、人間のコンピュータインタラクション、補助生活、ゲームなど、多くのアプリケーションで使われている。 視覚と慣性センシングの融合は、各センシングモダリティが個別に使用される状況と比較して認識能力を向上させることを示す多くの論文が文献に載っている。 本稿では,人間の行動認識を行うために,視覚と慣性センシングが融合フレームワーク内で同時に使用される論文の調査を行う。 調査した論文は、融合アプローチ、特徴、分類器、および考慮されたマルチモダリティデータセットの観点で分類される。 現実的な条件下でこれらの2つのセンシングモダリティの融合を展開するための課題と将来の方向性も述べられている。

Human action recognition is used in many applications such as video surveillance, human computer interaction, assistive living, and gaming. Many papers have appeared in the literature showing that the fusion of vision and inertial sensing improves recognition accuracies compared to the situations when each sensing modality is used individually. This paper provides a survey of the papers in which vision and inertial sensing are used simultaneously within a fusion framework in order to perform human action recognition. The surveyed papers are categorized in terms of fusion approaches, features, classifiers, as well as multimodality datasets considered. Challenges as well as possible future directions are also stated for deploying the fusion of these two sensing modalities under realistic conditions.
翻訳日:2022-11-03 19:39:26 公開日:2020-08-02
# 今後の展望:物理相互作用による教師なし構造力学モデル

Hindsight for Foresight: Unsupervised Structured Dynamics Models from Physical Interaction ( http://arxiv.org/abs/2008.00456v1 )

ライセンス: Link先を確認
Iman Nematollahi and Oier Mees and Lukas Hermann and Wolfram Burgard(参考訳) エージェントが世界と相互作用することを学ぶ上で重要な課題は、物体の物理的性質を推論し、応用力の影響下でそのダイナミクスを予見することである。 多くのオブジェクトやシーンとのインタラクションを通じて学習をスケールするためには、ロボットは人間の監督を必要とせず、現実の体験から自身のパフォーマンスを向上させる必要がある。 そこで本研究では,ラベルのない3次元点雲や画像からロボットのインタラクションのダイナミクスをモデル化する新しい手法を提案する。 従来のアプローチとは異なり,本手法ではトラッカや事前学習された知覚ネットワークによって提供される地上データアソシエーションは不要である。 ラベルのない実世界のインタラクションデータから学ぶために,推定3dクラウド,アクション,および2dイメージの一貫性を観測データで強制する。 共同フォワードおよび逆ネットワークは,シーンをサルエント対象に分割し,適用された動作の影響下での3次元動作を予測する。 さらに,動作条件付き3次元シーンフロー,オブジェクトマスク,2次元光フローを創発特性として出力する。 シミュレーションと実世界のデータの両方において、我々の定式化がビジュモータ制御と計画に使用できる効果的な解釈可能なモデルをもたらすことを示す。 ビデオ、コード、データセットはhttp://hind4sight.cs.uni-freiburg.deで利用可能である。

A key challenge for an agent learning to interact with the world is to reason about physical properties of objects and to foresee their dynamics under the effect of applied forces. In order to scale learning through interaction to many objects and scenes, robots should be able to improve their own performance from real-world experience without requiring human supervision. To this end, we propose a novel approach for modeling the dynamics of a robot's interactions directly from unlabeled 3D point clouds and images. Unlike previous approaches, our method does not require ground-truth data associations provided by a tracker or any pre-trained perception network. To learn from unlabeled real-world interaction data, we enforce consistency of estimated 3D clouds, actions and 2D images with observed ones. Our joint forward and inverse network learns to segment a scene into salient object parts and predicts their 3D motion under the effect of applied actions. Moreover, our object-centric model outputs action-conditioned 3D scene flow, object masks and 2D optical flow as emergent properties. Our extensive evaluation both in simulation and with real-world data demonstrates that our formulation leads to effective, interpretable models that can be used for visuomotor control and planning. Videos, code and dataset are available at http://hind4sight.cs.uni-freiburg.de
翻訳日:2022-11-03 19:38:56 公開日:2020-08-02
# 映像データに対する画像サリエンシー深層モデル適応のためのプラグ・アンド・プレイ方式

A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data ( http://arxiv.org/abs/2008.09103v1 )

ライセンス: Link先を確認
Yunxiao Li, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin(参考訳) 深層学習技術の急速な発展により、空間情報のみによって訓練された画像塩分深層モデルは時折、空間情報と時間情報の両方で訓練されたモデルに匹敵する映像データの検出性能を達成している。 しかし、時間情報の考慮が少なくなるため、時間情報に支配される映像系列において、画像の鮮度深度モデルが脆弱になる可能性がある。 このように、最新のビデオサリエンシー検出手法では、空間的深層モデルから始まり、精巧に設計された時間的深層モデルからネットワークアーキテクチャを採用する。 しかし,そのような手法は単一ストリーム学習手法から生じる性能ボトルネックに容易に遭遇するので,全体の検出性能は空間的深層モデルによって決定される。 本稿では,現在の主流手法とは対照的に,新たに検出・符号化された時間情報を用いて映像データに対する事前訓練された画像サリエンシー深層モデルを弱く再訓練する新しいプラグ・アンド・プレイ方式を提案する。 したがって、再訓練された画像サリエンシー深層モデルは、時間的サリエンシー認識を維持でき、検出性能が大幅に向上する。 さらに,本手法は,既訓練画像の深度モデルに適応して,高品質な映像の鮮度検出を実現するのに有効である。 さらに,本手法のデータとソースコードも公開されている。

With the rapid development of deep learning techniques, image saliency deep models trained solely by spatial information have occasionally achieved detection performance for video data comparable to that of the models trained by both spatial and temporal information. However, due to the lesser consideration of temporal information, the image saliency deep models may become fragile in the video sequences dominated by temporal information. Thus, the most recent video saliency detection approaches have adopted the network architecture starting with a spatial deep model that is followed by an elaborately designed temporal deep model. However, such methods easily encounter the performance bottleneck arising from the single stream learning methodology, so the overall detection performance is largely determined by the spatial deep model. In sharp contrast to the current mainstream methods, this paper proposes a novel plug-and-play scheme to weakly retrain a pretrained image saliency deep model for video data by using the newly sensed and coded temporal information. Thus, the retrained image saliency deep model will be able to maintain temporal saliency awareness, achieving much improved detection performance. Moreover, our method is simple yet effective for adapting any off-the-shelf pre-trained image saliency deep model to obtain high-quality video saliency detection. Additionally, both the data and source code of our method are publicly available.
翻訳日:2022-11-03 19:38:13 公開日:2020-08-02
# 拡張可能な多言語事前学習と微調整による多言語翻訳

Multilingual Translation with Extensible Multilingual Pretraining and Finetuning ( http://arxiv.org/abs/2008.00401v1 )

ライセンス: Link先を確認
Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan(参考訳) 最近の研究は、異なる言語で様々なタスクに使用できる1つのモデルを作成するための多言語事前訓練の可能性を示している。 先行研究である多言語事前学習では、バイテキストの微調整によって機械翻訳システムが作成できることが実証されている。 本研究では,多言語翻訳モデルを多言語微調整により作成できることを示す。 1つの方向を微調整する代わりに、事前訓練されたモデルは複数の方向を同時に微調整する。 スクラッチからトレーニングされた多言語モデルと比較して、事前訓練されたモデルから始めると、ラベルなしの大量の単言語データの利点が取り入れられ、バイテキストが利用できない低リソース言語では特に重要である。 事前訓練されたモデルは、性能を損なうことなく追加の言語を組み込むことができることを示す。 我々はmBARTの言語数を2倍にし、50言語の多言語機械翻訳モデルをサポートする。 最後に、低、中、高リソース言語をカバーするML50ベンチマークを作成し、トレーニングデータと評価データの標準化により再現可能な研究を容易にする。 ml50では,2言語ベースラインよりも平均9.3 bleuをスクラッチから改善しながら,最強ベースライン(スクラッチから多言語かバイリンガルの微調整か)よりも平均1 bleuが向上することを示す。

Recent work demonstrates the potential of multilingual pretraining of creating one model that can be used for various tasks in different languages. Previous work in multilingual pretraining has demonstrated that machine translation systems can be created by finetuning on bitext. In this work, we show that multilingual translation models can be created through multilingual finetuning. Instead of finetuning on one direction, a pretrained model is finetuned on many directions at the same time. Compared to multilingual models trained from scratch, starting from pretrained models incorporates the benefits of large quantities of unlabeled monolingual data, which is particularly important for low resource languages where bitext is not available. We demonstrate that pretrained models can be extended to incorporate additional languages without loss of performance. We double the number of languages in mBART to support multilingual machine translation models of 50 languages. Finally, we create the ML50 benchmark, covering low, mid, and high resource languages, to facilitate reproducible research by standardizing training and evaluation data. On ML50, we demonstrate that multilingual finetuning improves on average 1 BLEU over the strongest baselines (being either multilingual from scratch or bilingual finetuning) while improving 9.3 BLEU on average over bilingual baselines from scratch.
翻訳日:2022-11-03 19:37:36 公開日:2020-08-02
# 伝達学習の分離的視点

A Foliated View of Transfer Learning ( http://arxiv.org/abs/2008.00546v1 )

ライセンス: Link先を確認
Janith Petangoda, Nick A. M. Monk and Marc Peter Deisenroth(参考訳) 転送学習は、既知のソリューションから関連するタスクへ関連する知識を転送することにより、新しいタスクが解決される学習プロセスを考える。 これは実験的に研究されているが、関連するタスクが何であるか、どのように悪用されるかを明らかにする、転送学習問題の基本的な説明が欠けている。 本研究では,タスク間の関連性の定義を提示し,このような関係を表現する数学的枠組みとして葉を同定する。

Transfer learning considers a learning process where a new task is solved by transferring relevant knowledge from known solutions to related tasks. While this has been studied experimentally, there lacks a foundational description of the transfer learning problem that exposes what related tasks are, and how they can be exploited. In this work, we present a definition for relatedness between tasks and identify foliations as a mathematical framework to represent such relationships.
翻訳日:2022-11-03 19:30:50 公開日:2020-08-02
# 幾何学的に富んだ潜在空間

Geometrically Enriched Latent Spaces ( http://arxiv.org/abs/2008.00565v1 )

ライセンス: Link先を確認
Georgios Arvanitidis, S{\o}ren Hauberg, Bernhard Sch\"olkopf(参考訳) 生成モデルにおける一般的な仮定は、生成器が潜在空間をユークリッド環境空間に浸すというものである。 代わりに、周囲空間をリーマン多様体とみなし、関連するリーマン計量を通じて領域知識を符号化することができる。 最短経路は、学習された多様体に従い、周囲の幾何学を尊重するために、潜在空間でそれに従って定義される。 環境メトリックを注意深く設計することで、最短経路は決定論的生成元であっても、誤解を招くようなバイアスを生じさせることを保証できる。 提案手法は,確率的および決定論的生成器を用いて学習した表現の解釈可能性を向上させる。

A common assumption in generative models is that the generator immerses the latent space into a Euclidean ambient space. Instead, we consider the ambient space to be a Riemannian manifold, which allows for encoding domain knowledge through the associated Riemannian metric. Shortest paths can then be defined accordingly in the latent space to both follow the learned manifold and respect the ambient geometry. Through careful design of the ambient metric we can ensure that shortest paths are well-behaved even for deterministic generators that otherwise would exhibit a misleading bias. Experimentally we show that our approach improves interpretability of learned representations both using stochastic and deterministic generators.
翻訳日:2022-11-03 19:30:43 公開日:2020-08-02
# 知識蒸留のための識別可能な特徴集約探索

Differentiable Feature Aggregation Search for Knowledge Distillation ( http://arxiv.org/abs/2008.00506v1 )

ライセンス: Link先を確認
Yushuo Guan, Pengyu Zhao, Bingxuan Wang, Yuanxing Zhang, Cong Yao, Kaigui Bian, Jian Tang(参考訳) 知識蒸留はモデル圧縮においてますます重要になっている。 これは、洗練された教師ネットワークからの出力分布と特徴マップを監督することで、小型の学生ネットワークのパフォーマンスを高める。 いくつかの最近の研究は、学生ネットワークをより監督するために、マルチティーラー蒸留を導入している。 しかし, マルチティーチンガー蒸留法の有効性には, コストのかかる計算資源が伴う。 知識蒸留の効率性と有効性の両方に取り組むため,多元的特徴地図から情報的監督を抽出し,単元蒸留フレームワークにおける多元的蒸留を模倣する特徴集約法を提案する。 具体的には,ニューラルアーキテクチャ探索においてdartに動機づけられた2段階微分可能な特徴集約探索法であるdfaを導入し,その集約を効率的に探索する。 第一段階において、dfaは探索問題を二段階最適化として定式化し、生徒から教師への経路と教師から生徒への経路からなる新しい橋梁損失を利用して適切な特徴集約を求める。 2つのパスは2つのプレイヤーとして機能し、統一されたアーキテクチャパラメータを反対方向に最適化し、同時に特徴集約の表現性と学習性を保証する。 第2段階では、DFAは、導出された特徴集約を伴う知識蒸留を行う。 実験の結果,DFAはCIFAR-100およびCINIC-10データセットの各種教師学習環境下での既存手法よりも優れており,設計の有効性とロバスト性を検証している。

Knowledge distillation has become increasingly important in model compression. It boosts the performance of a miniaturized student network with the supervision of the output distribution and feature maps from a sophisticated teacher network. Some recent works introduce multi-teacher distillation to provide more supervision to the student network. However, the effectiveness of multi-teacher distillation methods are accompanied by costly computation resources. To tackle with both the efficiency and the effectiveness of knowledge distillation, we introduce the feature aggregation to imitate the multi-teacher distillation in the single-teacher distillation framework by extracting informative supervision from multiple teacher feature maps. Specifically, we introduce DFA, a two-stage Differentiable Feature Aggregation search method that motivated by DARTS in neural architecture search, to efficiently find the aggregations. In the first stage, DFA formulates the searching problem as a bi-level optimization and leverages a novel bridge loss, which consists of a student-to-teacher path and a teacher-to-student path, to find appropriate feature aggregations. The two paths act as two players against each other, trying to optimize the unified architecture parameters to the opposite directions while guaranteeing both expressivity and learnability of the feature aggregation simultaneously. In the second stage, DFA performs knowledge distillation with the derived feature aggregation. Experimental results show that DFA outperforms existing methods on CIFAR-100 and CINIC-10 datasets under various teacher-student settings, verifying the effectiveness and robustness of the design.
翻訳日:2022-11-03 19:30:13 公開日:2020-08-02
# 新型コロナウイルス治療における共通治療とエピデミックコントロールのバランス:トランスフォーメーション・アンド・ディバイドの進化最適化

Balancing Common Treatment and Epidemic Control in Medical Procurement during COVID-19: Transform-and-Divide Evolutionary Optimization ( http://arxiv.org/abs/2008.00395v1 )

ライセンス: Link先を確認
Yu-Jun Zheng, Xin Chen, Tie-Er Gan, Min-Xia Zhang, Wei-Guo Sheng and Ling Wang(参考訳) 新型コロナウイルス(covid-19)などのパンデミックに伴う病院の医療物資調達において、共通疾患の治療と流行対策のバランスをとることが重要な目的である。 この問題は、共通の疾患治療と流行抑制の効果を同時に最適化するための双方向最適化問題として定式化することができる。 しかし,大量の供給量,効果評価の難しさ,厳密な予算制約などにより,既存の進化的多目的アルゴリズムが問題のパレート面を効率的に近似することは困難である。 本稿では,まず,従来の高次元制約多目的最適化問題を低次元制約非制約多目的最適化問題に変換し,既存の進化多目的アルゴリズムによって効率よく解けるような単純な単目的最適化サブプロブレムの集合を解くことにより,変換問題に対する各解を評価する。 中国江江省の6つの病院に、新型コロナウイルスのピーク時にトランスフォーメーション・アンド・ディバイドの進化最適化アプローチを適用した。 その結果,提案手法は,元の問題を直接解いた方法よりもはるかに優れた性能を示した。 また,問題固有の知識に基づく変換・分割進化最適化は,他の多くの複雑な問題に対する効率的な解法であり,それゆえ,進化的アルゴリズムの応用分野を拡大することができることを示した。

Balancing common disease treatment and epidemic control is a key objective of medical supplies procurement in hospitals during a pandemic such as COVID-19. This problem can be formulated as a bi-objective optimization problem for simultaneously optimizing the effects of common disease treatment and epidemic control. However, due to the large number of supplies, difficulties in evaluating the effects, and the strict budget constraint, it is difficult for existing evolutionary multiobjective algorithms to efficiently approximate the Pareto front of the problem. In this paper, we present an approach that first transforms the original high-dimensional, constrained multiobjective optimization problem to a low-dimensional, unconstrained multiobjective optimization problem, and then evaluates each solution to the transformed problem by solving a set of simple single-objective optimization subproblems, such that the problem can be efficiently solved by existing evolutionary multiobjective algorithms. We applied the transform-and-divide evolutionary optimization approach to six hospitals in Zhejiang Province, China, during the peak of COVID-19. Results showed that the proposed approach exhibits significantly better performance than that of directly solving the original problem. Our study has also shown that transform-and-divide evolutionary optimization based on problem-specific knowledge can be an efficient solution approach to many other complex problems and, therefore, enlarge the application field of evolutionary algorithms.
翻訳日:2022-11-03 19:29:23 公開日:2020-08-02
# ディープラーニングモデルのブラックボックストロイニング : 非インタラクティブネットワーク構造とバイナリチェンジを用いて

Blackbox Trojanising of Deep Learning Models : Using non-intrusive network structure and binary alterations ( http://arxiv.org/abs/2008.00408v1 )

ライセンス: Link先を確認
Jonathan Pan(参考訳) 近年の人工知能の進歩、すなわちDeep Learningは、多くのアプリケーションで採用を高めている。 生活に大きく依存している程度に重要な役割を担っている人もいます。 しかし、あらゆる技術と同様に、悪意のあるアクターが悪用できる脆弱性がある。 悪質なソフトウェアトロイの木馬のような悪質な行為をサポートするために、善意を意図したこれらのテクノロジーを二重目的の道具に変えようとする。 積極的な防御の一環として、研究者はそのような脆弱性を積極的に特定し、その後に保護策を開発することができる。 本研究は,深層学習画像分類モデルに対する単純なネットワーク構造修正を用いた,新しいブラックボックスのトロイの木馬アプローチを探求する。 本研究は,このような簡単なエクスプロイトの発生を保護するための提案について論じる。 この研究は、aiのイノベーションと導入の意図した利益を保護できるように、これらのモデルに十分なセーフガードを提供することの重要性を強調している。

Recent advancements in Artificial Intelligence namely in Deep Learning has heightened its adoption in many applications. Some are playing important roles to the extent that we are heavily dependent on them for our livelihood. However, as with all technologies, there are vulnerabilities that malicious actors could exploit. A form of exploitation is to turn these technologies, intended for good, to become dual-purposed instruments to support deviant acts like malicious software trojans. As part of proactive defense, researchers are proactively identifying such vulnerabilities so that protective measures could be developed subsequently. This research explores a novel blackbox trojanising approach using a simple network structure modification to any deep learning image classification model that would transform a benign model into a deviant one with a simple manipulation of the weights to induce specific types of errors. Propositions to protect the occurrence of such simple exploits are discussed in this research. This research highlights the importance of providing sufficient safeguards to these models so that the intended good of AI innovation and adoption may be protected.
翻訳日:2022-11-03 19:28:57 公開日:2020-08-02
# 効率的な機械学習モデル選択のためのベイズ最適化

Bayesian Optimization for Selecting Efficient Machine Learning Models ( http://arxiv.org/abs/2008.00386v1 )

ライセンス: Link先を確認
Lidan Wang, Franck Dernoncourt, Trung Bui(参考訳) 多くの機械学習モデルのパフォーマンスは、ハイパーパラメータ設定に依存する。 Bayesian Optimizationは、反復的シーケンシャルプロセス中に最適なハイパーパラメータを特定することを目的とした機械学習アルゴリズムのハイパーパラメータ最適化ツールとして成功している。 しかし、ベイズ最適化アルゴリズムの多くは、有効性のみのモデルを選択し、モデルの訓練効率の重要な問題を無視するように設計されている。 実世界のアプリケーションでは、モデルの有効性とトレーニング時間の両方が重要であることを考えると、実運用環境でのデプロイに必要な厳密なトレーニング時間要件を満たすことができないかもしれない。 本稿では,予測効率とトレーニング効率の両立のためのモデル協調最適化のための統一ベイズ最適化フレームワークを提案する。 本稿では,この2つの指標間のトレードオフを捉え,ベイズ最適化の原理を用いて協調的に最適化する方法を示す。 レコメンデーションタスクのモデル選択実験は、この方法で選択されたモデルが、最先端のベイズ最適化アルゴリズムと比較して強い効率を維持しながら、モデルのトレーニング効率を著しく改善することを示している。

The performance of many machine learning models depends on their hyper-parameter settings. Bayesian Optimization has become a successful tool for hyper-parameter optimization of machine learning algorithms, which aims to identify optimal hyper-parameters during an iterative sequential process. However, most of the Bayesian Optimization algorithms are designed to select models for effectiveness only and ignore the important issue of model training efficiency. Given that both model effectiveness and training time are important for real-world applications, models selected for effectiveness may not meet the strict training time requirements necessary to deploy in a production environment. In this work, we present a unified Bayesian Optimization framework for jointly optimizing models for both prediction effectiveness and training efficiency. We propose an objective that captures the tradeoff between these two metrics and demonstrate how we can jointly optimize them in a principled Bayesian Optimization framework. Experiments on model selection for recommendation tasks indicate models selected this way significantly improves model training efficiency while maintaining strong effectiveness as compared to state-of-the-art Bayesian Optimization algorithms.
翻訳日:2022-11-03 19:22:37 公開日:2020-08-02
# スクリーンキャストチュートリアルによるビデオ質問応答

Video Question Answering on Screencast Tutorials ( http://arxiv.org/abs/2008.00544v1 )

ライセンス: Link先を確認
Wentian Zhao, Seokhwan Kim, Ning Xu, Hailin Jin(参考訳) 本稿では,スクリーンキャストチュートリアルに新たな質問応答タスクを提案する。 ソフトウェアのためのチュートリアルビデオから,質問,回答,コンテキストトリプルを含むデータセットを紹介する。 他のビデオ質問応答作業とは異なり、データセットのすべての回答はドメイン知識ベースに基づいています。 ワンショット認識アルゴリズムは,映像質問応答の性能向上に役立つ視覚的手がかりを抽出するように設計されている。 また,データセットからビデオコンテキストの様々な側面に基づいて,複数のベースラインニューラルネットワークアーキテクチャを提案する。 実験の結果,提案モデルでは,マルチモーダルコンテキストとドメイン知識を組み込むことで,質問応答性能を著しく向上することが示された。

This paper presents a new video question answering task on screencast tutorials. We introduce a dataset including question, answer and context triples from the tutorial videos for a software. Unlike other video question answering works, all the answers in our dataset are grounded to the domain knowledge base. An one-shot recognition algorithm is designed to extract the visual cues, which helps enhance the performance of video question answering. We also propose several baseline neural network architectures based on various aspects of video contexts from the dataset. The experimental results demonstrate that our proposed models significantly improve the question answering performances by incorporating multi-modal contexts and domain knowledge.
翻訳日:2022-11-03 19:22:18 公開日:2020-08-02
# 非線形決定木の2レベル最適化による分類問題に対する解釈可能なルール発見

Interpretable Rule Discovery Through Bilevel Optimization of Split-Rules of Nonlinear Decision Trees for Classification Problems ( http://arxiv.org/abs/2008.00410v1 )

ライセンス: Link先を確認
Yashesh Dhebar and Kalyanmoy Deb(参考訳) 設計,制御,その他の実用目的を含む教師付き分類問題に対して,ユーザは高度に正確な分類器を見つけることに関心があるだけでなく,取得した分類器の解釈も容易であることを要求している。 分類器の解釈可能性の定義は、ケースによって異なるが、人間の解釈可能な分類器では、単純化された数学的用語で表現できるように制限する。 新たなアプローチとして、非線形決定木(NLDT)を用いた単純な数学的規則の集合として分類器を表現する。 ツリーの各条件(非終端)ノードは、与えられた条件ノード内のデータセットを2つの非重複部分集合に分割するために特徴を含む非線形数学的規則(スプリットルール)を表す。 この分割は、子ノードの不純物を最小化することを目的としている。 各条件ノードにおける分割ルールの構造と決定木の深さを制限することにより、分類器の解釈可能性を保証する。 与えられた条件付きノードにおける非線形スプリットルールは、上位レベルがスプリットルールの解釈可能な構造に到達することに集中する一方、下位レベルはルールの個々の構成要素の最も適切な重み(共効率)を達成し、2つの子ノードの純不純物を最小化する進化的二値最適化アルゴリズムを用いて得られる。 提案アルゴリズムの性能は, 制御されたテスト問題, 既存のベンチマーク問題, 産業問題で実証される。 2~500種類の問題の結果は、より困難で複雑な分類タスクに提案手法を適用するためのさらなる範囲を奨励し、開放している。

For supervised classification problems involving design, control, other practical purposes, users are not only interested in finding a highly accurate classifier, but they also demand that the obtained classifier be easily interpretable. While the definition of interpretability of a classifier can vary from case to case, here, by a humanly interpretable classifier we restrict it to be expressed in simplistic mathematical terms. As a novel approach, we represent a classifier as an assembly of simple mathematical rules using a non-linear decision tree (NLDT). Each conditional (non-terminal) node of the tree represents a non-linear mathematical rule (split-rule) involving features in order to partition the dataset in the given conditional node into two non-overlapping subsets. This partitioning is intended to minimize the impurity of the resulting child nodes. By restricting the structure of split-rule at each conditional node and depth of the decision tree, the interpretability of the classifier is assured. The non-linear split-rule at a given conditional node is obtained using an evolutionary bilevel optimization algorithm, in which while the upper-level focuses on arriving at an interpretable structure of the split-rule, the lower-level achieves the most appropriate weights (coefficients) of individual constituents of the rule to minimize the net impurity of two resulting child nodes. The performance of the proposed algorithm is demonstrated on a number of controlled test problems, existing benchmark problems, and industrial problems. Results on two to 500-feature problems are encouraging and open up further scopes of applying the proposed approach to more challenging and complex classification tasks.
翻訳日:2022-11-03 19:22:09 公開日:2020-08-02
# 異常の正しい場所を探す: 自動位置学習による説明可能なAI

Looking in the Right place for Anomalies: Explainable AI through Automatic Location Learning ( http://arxiv.org/abs/2008.00363v1 )

ライセンス: Link先を確認
Satyananda Kashyap, Alexandros Karargyris, Joy Wu, Yaniv Gur, Arjun Sharma, Ken C. L. Wong, Mehdi Moradi, Tanveer Syeda-Mahmood(参考訳) 深層学習は、医療画像における異常認識に対する事実上のアプローチとなっている。 医療画像を異常ラベルに分類する「ブラックボックス」の手法は、特に臨床医の受け入れに問題を引き起こす。 現在の説明可能なai手法は、ヒートマップのような可視化による正当化を提供するが、ネットワークが異常を完全に含む関連画像領域に焦点を当てていることを保証することはできない。 本稿では,予測された位置を重なり合うように異常が保証される,説明可能なAIへのアプローチを開発する。 これは、テキストレポートから位置特定ラベルを自動的に抽出し、Bi-Directional Long Short-Term Memory Recurrent Neural Networks (Bi-LSTM)とDenseNet-121のハイブリッド組み合わせを用いて、期待する位置とラベルとの関係を学習することで実現される。 ResNet101に基づく後続の注意誘導推論ネットワークにバイアスを与えるためにこの期待位置を使用することで、期待位置における異常の分離が実現される。 この方法は大きな胸部x線データセットで評価される。

Deep learning has now become the de facto approach to the recognition of anomalies in medical imaging. Their 'black box' way of classifying medical images into anomaly labels poses problems for their acceptance, particularly with clinicians. Current explainable AI methods offer justifications through visualizations such as heat maps but cannot guarantee that the network is focusing on the relevant image region fully containing the anomaly. In this paper, we develop an approach to explainable AI in which the anomaly is assured to be overlapping the expected location when present. This is made possible by automatically extracting location-specific labels from textual reports and learning the association of expected locations to labels using a hybrid combination of Bi-Directional Long Short-Term Memory Recurrent Neural Networks (Bi-LSTM) and DenseNet-121. Use of this expected location to bias the subsequent attention-guided inference network based on ResNet101 results in the isolation of the anomaly at the expected location when present. The method is evaluated on a large chest X-ray dataset.
翻訳日:2022-11-03 19:21:22 公開日:2020-08-02
# ニューラルネットワークによる構造予測のためのタンパク質一次配列の最適符号化の検討

An Investigation in Optimal Encoding of Protein Primary Sequence for Structure Prediction by Artificial Neural Networks ( http://arxiv.org/abs/2008.00539v1 )

ライセンス: Link先を確認
Aaron Hein, Casey Cole, Homayoun Valafar(参考訳) 機械学習とニューラルネットワークの利用は、主にデータへのアクセシビリティの増大と計算能力の増大により、ここ数年で急激に増加している。 予測タスクに機械学習の力を利用するのはますます簡単になっています。 タンパク質構造予測は、ニューラルネットワークがますます普及し、成功している分野のひとつだ。 ANNは非常に強力だが、最適な結果を得るためには、最も適切な入出力符号化、アーキテクチャ、クラスを選択する必要がある。 本研究では,従来型および新たに提案してきた入力エンコーディングの効果を検証・評価し,最適なアーキテクチャを選定した。 11種類の入力エンコーディング,11種類の代替ウィンドウサイズ,7種類のアーキテクチャを検討した。 3ヶ月で1万以上のタンパク質構造を訓練し, 試験するために, 合計で2,541種類の置換を行った。 調査の結果,1ホット符号化,LSTMの使用,ウィンドウサイズ9,11,15が最適であることがわかった。 この最適化により, 14{\deg} - 16{\deg} および {\psi} dihedral を 23{\deg}-25{\deg} に予測することにより, タンパク質構造予測の質を向上させることができた。 これは以前と類似した調査に比べて顕著な改善である。

Machine learning and the use of neural networks has increased precipitously over the past few years primarily due to the ever-increasing accessibility to data and the growth of computation power. It has become increasingly easy to harness the power of machine learning for predictive tasks. Protein structure prediction is one area where neural networks are becoming increasingly popular and successful. Although very powerful, the use of ANN require selection of most appropriate input/output encoding, architecture, and class to produce the optimal results. In this investigation we have explored and evaluated the effect of several conventional and newly proposed input encodings and selected an optimal architecture. We considered 11 variations of input encoding, 11 alternative window sizes, and 7 different architectures. In total, we evaluated 2,541 permutations in application to the training and testing of more than 10,000 protein structures over the course of 3 months. Our investigations concluded that one-hot encoding, the use of LSTMs, and window sizes of 9, 11, and 15 produce the optimal outcome. Through this optimization, we were able to improve the quality of protein structure prediction by predicting the {\phi} dihedrals to within 14{\deg} - 16{\deg} and {\psi} dihedrals to within 23{\deg}- 25{\deg}. This is a notable improvement compared to previously similar investigations.
翻訳日:2022-11-03 19:20:26 公開日:2020-08-02