このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200220となっている論文です。

PDF登録状況(公開日: 20200220)

TitleAuthorsAbstract論文公表日・翻訳日
# 落下K平均を用いた船体検出のためのロバスト海洋ブイ配置

Robust Marine Buoy Placement for Ship Detection Using Dropout K-Means ( http://arxiv.org/abs/2001.00564v2 )

ライセンス: Link先を確認
Yuting Ng (1), Jo\~ao M. Pereira (1), Denis Garagic (2), Vahid Tarokh (1) ((1) Duke University, (2) BAE Systems FAST Labs)(参考訳) 海産ブイは、近隣の漁船を検出することで、イルガル、非報告、非規制漁業(IUU)との戦いを支援する。 しかし、海洋ブイは自然災害やブイ破壊によって破壊される可能性がある。 本稿では,海洋ブイ配置をクラスタリング問題として定式化し,ブイ破壊に対する配置堅牢性を改善するために,落差k平均および落差k中間値を提案する。 歴史的な自動識別システム(ais)データを用いて西アフリカのガボン海での船舶の通過をシミュレートし,k-meansの船舶検出確率をk-means,k-medianの船舶検出確率をk-medianと比較した。 5ブイでは, 古典的k平均, ドロップアウトk平均, 古典的k中間, ドロップアウトk中間で計算したブイ配置が38%, 45%, 48%, 52%であった。

Marine buoys aid in the battle against Illegal, Unreported and Unregulated (IUU) fishing by detecting fishing vessels in their vicinity. Marine buoys, however, may be disrupted by natural causes and buoy vandalism. In this paper, we formulate marine buoy placement as a clustering problem, and propose dropout k-means and dropout k-median to improve placement robustness to buoy disruption. We simulated the passage of ships in the Gabonese waters near West Africa using historical Automatic Identification System (AIS) data, then compared the ship detection probability of dropout k-means to classic k-means and dropout k-median to classic k-median. With 5 buoys, the buoy arrangement computed by classic k-means, dropout k-means, classic k-median and dropout k-median have ship detection probabilities of 38%, 45%, 48% and 52%.
翻訳日:2023-01-16 03:54:43 公開日:2020-02-20
# 結合調和振動子系における固有値からの固有ベクトルの復元

Recovery of eigenvectors from eigenvalues in systems of coupled harmonic oscillators ( http://arxiv.org/abs/2001.02073v2 )

ライセンス: Link先を確認
Henning U. Voss and Douglas J. Ballon(参考訳) 固有ベクトル-固有値恒等式は、エルミート行列の固有ベクトルとその固有値と、j番目の行と列が削除された主部分行列の固有値とを関連付ける。 実固有値を持つ正方行列によって記述される結合共振器の1次元配列は、この公式を実際に適用できる単純な物理系を提供する。 サブシステムはjth共振器を除去した配列で構成されており、物理的に実現可能である。 スペクトルのみから、フルシステムの発振モードを得ることができる。 連続した単一共振器削除の原理は、スペクトルをネットワークアナライザで測定するアレー共振器アレイと、アレーレスト近傍結合の2つの実験で実証される。 エルミートと非エルミートの場合の両方が実験でカバーされている。 どちらの場合も、実験固有ベクトル推定は、系対称性によって課される一定の一貫性条件を考慮すると、数値シミュレーションとよく一致する。 エルミートの場合、これらの推定値は共鳴スペクトルのみからシステムパラメータの知識なしで得られる。 完全な非エルミート固有ベクトル集合がスペクトルのみから得られるような条件を見つけることは、物理的関連性の興味深い問題である。

The eigenvector-eigenvalue identity relates the eigenvectors of a Hermitian matrix to its eigenvalues and the eigenvalues of its principal submatrices in which the jth row and column have been removed. We show that one-dimensional arrays of coupled resonators, described by square matrices with real eigenvalues, provide simple physical systems where this formula can be applied in practice. The subsystems consist of arrays with the jth resonator removed, and thus can be realized physically. From their spectra alone, the oscillation modes of the full system can be obtained. This principle of successive single resonator deletions is demonstrated in two experiments of coupled radiofrequency resonator arrays with greater-than-nearest neighbor couplings, in which the spectra are measured with a network analyzer. Both the Hermitian as well as a non-Hermitian case are covered in the experiments. In both cases the experimental eigenvector estimates agree well with numerical simulations if certain consistency conditions imposed by system symmetries are taken into account. In the Hermitian case, these estimates are obtained from resonance spectra alone without knowledge of the system parameters. It remains an interesting problem of physical relevance to find conditions under which the full non-Hermitian eigenvector set can be obtained from the spectra alone.
翻訳日:2023-01-14 02:45:09 公開日:2020-02-20
# MREC:単一細胞分子データへの応用と点雲の整合と整合のための高速で汎用的なフレームワーク

MREC: a fast and versatile framework for aligning and matching point clouds with applications to single cell molecular data ( http://arxiv.org/abs/2001.01666v3 )

ライセンス: Link先を確認
Andrew J. Blumberg and Mathieu Carriere and Michael A. Mandell and Raul Rabadan and Soledad Villar(参考訳) 大規模なデータセットの比較と調整は、多くの異なる知識領域で発生する広範な問題である。 本稿では,データセット間のマッチングを計算するための再帰的分解アルゴリズムMRECを紹介する。 基本的な考え方は、データを分割し、パーティションにマッチさせ、識別されたパーティションのペア内のポイントを再帰的にマッチさせることである。 マッチング自体は、データセット全体を実行するには高価すぎるブラックボックスマッチングプロシージャを使用して行われる。 このフレームワークはマッチングの品質の絶対値を用いて、分割手順やマッチングアルゴリズムを含むパラメータの最適化をサポートする。 設計上、MRECは極めて大きなデータセットに適用できる。 単細胞分子データの解析において生じる多数のアライメント問題に適用することにより、いつうまく機能するかを記述し、その柔軟性とパワーを実証する手順を解析する。

Comparing and aligning large datasets is a pervasive problem occurring across many different knowledge domains. We introduce and study MREC, a recursive decomposition algorithm for computing matchings between data sets. The basic idea is to partition the data, match the partitions, and then recursively match the points within each pair of identified partitions. The matching itself is done using black box matching procedures that are too expensive to run on the entire data set. Using an absolute measure of the quality of a matching, the framework supports optimization over parameters including partitioning procedures and matching algorithms. By design, MREC can be applied to extremely large data sets. We analyze the procedure to describe when we can expect it to work well and demonstrate its flexibility and power by applying it to a number of alignment problems arising in the analysis of single cell molecular data.
翻訳日:2023-01-14 02:20:21 公開日:2020-02-20
# 一般化Cram\'er-Rao境界による量子センサの欠陥診断

Diagnosing Imperfections in Quantum Sensors via Generalized Cram\'er-Rao Bounds ( http://arxiv.org/abs/2001.01926v3 )

ライセンス: Link先を確認
Valeria Cimini, Marco G. Genoni, Ilaria Gianani, Nicol\`o Spagnolo, Fabio Sciarrino, and Marco Barbieri(参考訳) 量子計量学は、測定を行うために量子資源を慎重に利用することに由来する。 しかし、この利点は、推定パラメータの分散に基づいて評価される洗練されたデータ後処理に依存する。 ベイズ的手法を採用すると、見積もりの品質を評価するためにより多くの要素が利用できるようになる。 ここでは、量子光を用いた位相推定実験を詳細に調べるために、一般化された古典的クラムエ-ラオ境界を用いる。 特に, 3次絶対モーメントは, 標準手法と比較して, 推定のバイアスを明らかにする上で優れていることを示す。 本研究は,高精度センサの正確な動作をモニタリングする上で,代替戦略の同定が有効であることを示す。

Quantum metrology derives its capabilities from the careful employ of quantum resources for carrying out measurements. This advantage, however, relies on refined data postprocessing, assessed based on the variance of the estimated parameter. When Bayesian techniques are adopted, more elements become available for assessing the quality of the estimation. Here we adopt generalized classical Cram\'er-Rao bounds for looking in detail into a phase-estimation experiment performed with quantum light. In particular, we show that the third-order absolute moment can give a superior capability in revealing biases in the estimation, compared to standard approaches. Our studies point to the identification of an alternative strategy that brings a possible advantage in monitoring the correct operation of high-precision sensors.
翻訳日:2023-01-13 21:02:07 公開日:2020-02-20
# 視覚誘導型自己教師型音声表現学習

Visually Guided Self Supervised Learning of Speech Representations ( http://arxiv.org/abs/2001.04316v2 )

ライセンス: Link先を確認
Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic(参考訳) 自己教師付き表現学習は近年,音声と視覚の両方に多くの研究関心を集めている。 しかし、ほとんどの作品は特定のモダリティや特徴だけに焦点を当てており、自己教師付き表現を学ぶための2つのモダリティ間の相互作用を研究する非常に限られた研究がある。 音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。 我々は,与えられた音声クリップに対応する静止画像をアニメーション化し,生成された映像を音声セグメントの実際の映像に可能な限り近いように最適化する,生成音声から映像への訓練方式を採用する。 このプロセスを通じて、音声エンコーダネットワークは、感情認識と音声認識に基づいて評価する有用な音声表現を学習する。 我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。 これは、これまで研究されていない自己教師あり学習の新しい方法として、音声表現を学ぶための視覚的な監督の可能性を示している。 提案した教師なし音声機能は、ほとんど無限の量のオーディオヴィジュアル音声の訓練データを活用することができ、潜在的に有望なアプリケーションが多数存在する。

Self supervised representation learning has recently attracted a lot of research interest for both the audio and visual modalities. However, most works typically focus on a particular modality or feature alone and there has been very limited work that studies the interaction between the two modalities for learning self supervised representations. We propose a framework for learning audio representations guided by the visual modality in the context of audiovisual speech. We employ a generative audio-to-video training scheme in which we animate a still image corresponding to a given audio clip and optimize the generated video to be as close as possible to the real video of the speech segment. Through this process, the audio encoder network learns useful speech representations that we evaluate on emotion recognition and speech recognition. We achieve state of the art results for emotion recognition and competitive results for speech recognition. This demonstrates the potential of visual supervision for learning audio representations as a novel way for self-supervised learning which has not been explored in the past. The proposed unsupervised audio features can leverage a virtually unlimited amount of training data of unlabelled audiovisual speech and have a large number of potentially promising applications.
翻訳日:2023-01-12 00:09:03 公開日:2020-02-20
# 敵対的オートエンコーダによる学習スタイルアウェアなシンボリック音楽表現

Learning Style-Aware Symbolic Music Representations by Adversarial Autoencoders ( http://arxiv.org/abs/2001.05494v2 )

ライセンス: Link先を確認
Andrea Valenti, Antonio Carta, Davide Bacciu(参考訳) 生成的音楽モデリングにおける記号的音楽データに対する効果的な潜在空間の学習という課題に対処する。 本研究では,音楽ジャンルやスタイルに関する文脈情報を持つ変分オートエンコーダを,フレキシブルで自然な手段として活用することに注力する。 本稿では,音楽メタデータ情報を考慮したガウス混合を,自動エンコーダの潜在空間に有効な前処理として用いる方法を示し,第1回music adversarial autoencoder (musae) を導入する。 大規模ベンチマーク実験の結果,本モデルは標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を示した。 また、2つの音楽系列間の現実的な補間を作成でき、異なるトラックのダイナミクスをスムーズに変えることができる。 実験により,楽譜の低レベル特性に応じて潜時空間を整理し,先行分布から注入された高レベルジャンル情報を潜時変数に組み込んで全体の性能を高めることができることがわかった。 これにより、生成した部分の変更を原則的に実行できます。

We address the challenging open problem of learning an effective latent space for symbolic music data in generative music modeling. We focus on leveraging adversarial regularization as a flexible and natural mean to imbue variational autoencoders with context information concerning music genre and style. Through the paper, we show how Gaussian mixtures taking into account music metadata information can be used as an effective prior for the autoencoder latent space, introducing the first Music Adversarial Autoencoder (MusAE). The empirical analysis on a large scale benchmark shows that our model has a higher reconstruction accuracy than state-of-the-art models based on standard variational autoencoders. It is also able to create realistic interpolations between two musical sequences, smoothly changing the dynamics of the different tracks. Experiments show that the model can organise its latent space accordingly to low-level properties of the musical pieces, as well as to embed into the latent variables the high-level genre information injected from the prior distribution to increase its overall performance. This allows us to perform changes to the generated pieces in a principled way.
翻訳日:2023-01-11 06:15:02 公開日:2020-02-20
# 変形性膝関節症患者に対する最適運動療法と減量療法の確立・内部的検証のための精密医学的アプローチ」の技術的背景

Technical Background for "A Precision Medicine Approach to Develop and Internally Validate Optimal Exercise and Weight Loss Treatments for Overweight and Obese Adults with Knee Osteoarthritis" ( http://arxiv.org/abs/2001.09930v3 )

ライセンス: Link先を確認
Xiaotong Jiang, Amanda E. Nelson, Rebecca J. Cleveland, Daniel P. Beavers, Todd A. Schwartz, Liubov Arbeeva, Carolina Alvarez, Leigh F. Callahan, Stephen Messier, Richard Loeser, Michael R. Kosorok(参考訳) 変形性膝関節症に対する運動負荷および体重減少療法の開発と内科的検証のための精密医学的アプローチ (Jiang et al. 2020) において, 膝関節症の臨床解析に開発された方法論について, さらなる統計学的背景を提供する。 Jiang氏らは、精密医療モデルで最適な治療規則を学習し、Zテストでゼロオーダーモデルと比較するパイプラインを提案した。 モデル性能は、各決定ルールの今後の報酬を予測するスカラーである値関数に基づいていた。 jackknife法 (ref-one-out cross validation) を用いて値関数とその結果の分散を推定した。 ideaは、膝変形性膝関節症患者および肥満者に対する3つの介入(exercise (e), 食餌量減少 (d), d+e)を検討したランダムな臨床試験である。 本報告では,議論と正当化を統計学的背景から拡張する。 精度医学の背景、価値関数のjackknife推定値の導出とその推定分散、jackknife推定値の一貫性特性、およびjackknife推定値の性能をより反映する追加のシミュレーション結果について詳しく述べる。 我々はjiang et al. 2020を臨床応用し, 最適な膝関節症 itr の解釈, パイプラインの総合的理解のために推奨し, 基礎となる統計的導出と方法論を理解するために本論文の利用を推奨する。

We provide additional statistical background for the methodology developed in the clinical analysis of knee osteoarthritis in "A Precision Medicine Approach to Develop and Internally Validate Optimal Exercise and Weight Loss Treatments for Overweight and Obese Adults with Knee Osteoarthritis" (Jiang et al. 2020). Jiang et al. 2020 proposed a pipeline to learn optimal treatment rules with precision medicine models and compared them with zero-order models with a Z-test. The model performance was based on value functions, a scalar that predicts the future reward of each decision rule. The jackknife (i.e., leave-one-out cross validation) method was applied to estimate the value function and its variance of several outcomes in IDEA. IDEA is a randomized clinical trial studying three interventions (exercise (E), dietary weight loss (D), and D+E) on overweight and obese participants with knee osteoarthritis. In this report, we expand the discussion and justification with additional statistical background. We elaborate more on the background of precision medicine, the derivation of the jackknife estimator of value function and its estimated variance, the consistency property of jackknife estimator, as well as additional simulation results that reflect more of the performance of jackknife estimators. We recommend reading Jiang et al. 2020 for clinical application and interpretation of the optimal ITR of knee osteoarthritis as well as the overall understanding of the pipeline and recommend using this article to understand the underlying statistical derivation and methodology.
翻訳日:2023-01-06 07:58:58 公開日:2020-02-20
# 統計的に効率的なオフ・ポリティポリシグラディエント

Statistically Efficient Off-Policy Policy Gradients ( http://arxiv.org/abs/2002.04014v2 )

ライセンス: Link先を確認
Nathan Kallus, Masatoshi Uehara(参考訳) 強化学習における政策勾配法は、政策値の推定勾配の方向を踏襲して政策パラメータを更新する。 本稿では,特に非自明であるオフ・ポリシー・データからの政策勾配の統計的に効率的な推定について考察する。 マルコフ決定過程および非マルコフ決定過程における有意な平均二乗誤差の漸近的下界を導出し、既存の推定器が一般には達成できないことを示す。 パラメトリックな仮定なしに下界を達成するメタアルゴリズムを提案し、ユニークな3方向二重強靭性を示す。 アルゴリズムが依存するニュアンスを推定する方法について議論する。 最後に、我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。

Policy gradient methods in reinforcement learning update policy parameters by taking steps in the direction of an estimated gradient of policy value. In this paper, we consider the statistically efficient estimation of policy gradients from off-policy data, where the estimation is particularly non-trivial. We derive the asymptotic lower bound on the feasible mean-squared error in both Markov and non-Markov decision processes and show that existing estimators fail to achieve it in general settings. We propose a meta-algorithm that achieves the lower bound without any parametric assumptions and exhibits a unique 3-way double robustness property. We discuss how to estimate nuisances that the algorithm relies on. Finally, we establish guarantees on the rate at which we approach a stationary point when we take steps in the direction of our new estimated policy gradient.
翻訳日:2023-01-02 08:40:44 公開日:2020-02-20
# Deep Graph Mapper: ニューラルレンズでグラフを見る

Deep Graph Mapper: Seeing Graphs through the Neural Lens ( http://arxiv.org/abs/2002.03864v2 )

ライセンス: Link先を確認
Cristian Bodnar, C\u{a}t\u{a}lina Cangea, Pietro Li\`o(参考訳) グラフ表現学習の最近の進歩は、グラフの主要な特性をキャプチャする凝縮符号化の出現につながっている。 しかし、これらの抽象表現は下流タスクには強力であるが、可視化目的には等しく適していない。 本研究では,トポロジカルデータ解析(tda)分野のアルゴリズムであるmapperと,グラフニューラルネットワーク(gnns)の表現力とを融合して,階層的かつトポロジカルに接地したグラフの可視化を実現する。 これらの視覚化は、複雑なグラフの構造を識別するだけでなく、様々なタスクを解決するためにそれらに適用されるモデルを理解する手段を提供する。 さらに,Min-Cut と Diff Pool との等価性を数学的に証明することにより,グラフプールのトポロジ的フレームワークとしての Mapper の適合性を示す。 このフレームワークを基盤として,グラフ分類ベンチマークにおける技術手法の現状と競合する結果を得るpagerankに基づく新しいプーリングアルゴリズムを提案する。

Recent advancements in graph representation learning have led to the emergence of condensed encodings that capture the main properties of a graph. However, even though these abstract representations are powerful for downstream tasks, they are not equally suitable for visualisation purposes. In this work, we merge Mapper, an algorithm from the field of Topological Data Analysis (TDA), with the expressive power of Graph Neural Networks (GNNs) to produce hierarchical, topologically-grounded visualisations of graphs. These visualisations do not only help discern the structure of complex graphs but also provide a means of understanding the models applied to them for solving various tasks. We further demonstrate the suitability of Mapper as a topological framework for graph pooling by mathematically proving an equivalence with Min-Cut and Diff Pool. Building upon this framework, we introduce a novel pooling algorithm based on PageRank, which obtains competitive results with state of the art methods on graph classification benchmarks.
翻訳日:2023-01-02 08:29:09 公開日:2020-02-20
# 単純ヒューリスティックスによる両眼画像のバイナリ分類のための最適移動学習モデル

Optimal Transfer Learning Model for Binary Classification of Funduscopic Images through Simple Heuristics ( http://arxiv.org/abs/2002.04189v3 )

ライセンス: Link先を確認
Rohit Jammula, Vishnu Rajan Tejus, Shreya Shankar(参考訳) 深層学習モデルは、医用画像解析を根本的に革新させる能力があり、特にコンピュータ支援診断における興味深い応用がある。 深層学習ニューラルネットワークを用いて眼の内部の視覚表現である眼底画像の診断を試みる。 近年,緑内障や糖尿病網膜症などの特定の眼疾患の存在を推定するために,いくつかの堅牢なディープラーニングアプローチが二分分類を行った。 コンピュータ支援眼科診断の応用を拡充するために, 眼底画像の低コストな推定法として, 疾患分類の統一モデルを提案する。 これを実現するために、私たちは、事前訓練されたベースアーキテクチャのより包括的な機能を維持するが、他のデータセットに適応できるトランスファー学習技術を使用します。 比較のために、最適なベースアーキテクチャとハイパーパラメータを決定するために、独自のヒューリスティック方程式と評価指標ランキングシステムを開発する。 Xceptionベースアーキテクチャ、Adam Optimizationr、平均2乗誤差損失関数は、90%の精度、94%の感度、86%の特異性を実現している。 さらなる使いやすさのために、我々は、ファイル選択者がローカルファイルシステムにアクセスでき、モバイル、PC、その他あらゆるインターネットに接続されたデバイスで使用することができるWebインターフェースにモデルを含める。

Deep learning models have the capacity to fundamentally revolutionize medical imaging analysis, and they have particularly interesting applications in computer-aided diagnosis. We attempt to use deep learning neural networks to diagnose funduscopic images, visual representations of the interior of the eye. Recently, a few robust deep learning approaches have performed binary classification to infer the presence of a specific ocular disease, such as glaucoma or diabetic retinopathy. In an effort to broaden the applications of computer-aided ocular disease diagnosis, we propose a unifying model for disease classification: low-cost inference of a fundus image to determine whether it is healthy or diseased. To achieve this, we use transfer learning techniques, which retain the more overarching capabilities of a pre-trained base architecture but can adapt to another dataset. For comparisons, we then develop a custom heuristic equation and evaluation metric ranking system to determine the optimal base architecture and hyperparameters. The Xception base architecture, Adam optimizer, and mean squared error loss function perform best, achieving 90% accuracy, 94% sensitivity, and 86% specificity. For additional ease of use, we contain the model in a web interface whose file chooser can access the local filesystem, allowing for use on any internet-connected device: mobile, PC, or otherwise.
翻訳日:2023-01-02 01:10:57 公開日:2020-02-20
# 包括的手法による2019-nCoV伝送終了予測

Predictions of 2019-nCoV Transmission Ending via Comprehensive Methods ( http://arxiv.org/abs/2002.04945v2 )

ライセンス: Link先を確認
Tianyu Zeng, Yunong Zhang, Zhenyu Li, Xiao Liu, and Binbin Qiu(参考訳) 2003年のSARSの流行以降、多くの予測疫学モデルが提案されている。 2019年末、2019-nCoV(2019-nCoV)と呼ばれる新型コロナウイルスが流行し、中国と世界に伝播している。 本稿では,中国本土,特に湖北省において,多モデル常微分方程式集合ニューラルネットワーク(MMODEs-NN)とモデルフリーで国間伝送を予測する手法を提案する。 前述した疫学モデルと比較すると,提案手法はオデウス活性化法を用いて輸送をシミュレートできるが,シグモイド関数,ガウス関数,ポアソン分布に基づくモデルフリー手法は線形かつ高速であり,合理的な予測を生成することができる。 数値実験や現実によると、一部の地域では感染対策の特別策が成功しており、中国春節旅行ラッシュの開始に近づいた流行の流行は2月18日までに減速し、2020年4月までに終わる可能性が高い。 提案された数学的および人工知能の手法は、2019-nCoV終了の一貫性と合理的な予測を与えることができる。 2019-ncovの包括的予測研究の出発点になることを期待しています。

Since the SARS outbreak in 2003, a lot of predictive epidemiological models have been proposed. At the end of 2019, a novel coronavirus, termed as 2019-nCoV, has broken out and is propagating in China and the world. Here we propose a multi-model ordinary differential equation set neural network (MMODEs-NN) and model-free methods to predict the interprovincial transmissions in mainland China, especially those from Hubei Province. Compared with the previously proposed epidemiological models, the proposed network can simulate the transportations with the ODEs activation method, while the model-free methods based on the sigmoid function, Gaussian function, and Poisson distribution are linear and fast to generate reasonable predictions. According to the numerical experiments and the realities, the special policies for controlling the disease are successful in some provinces, and the transmission of the epidemic, whose outbreak time is close to the beginning of China Spring Festival travel rush, is more likely to decelerate before February 18 and to end before April 2020. The proposed mathematical and artificial intelligence methods can give consistent and reasonable predictions of the 2019-nCoV ending. We anticipate our work to be a starting point for comprehensive prediction researches of the 2019-nCoV.
翻訳日:2023-01-01 20:40:16 公開日:2020-02-20
# BatchEnsemble: 効率的なアンサンブルと生涯学習のための代替アプローチ

BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning ( http://arxiv.org/abs/2002.06715v2 )

ライセンス: Link先を確認
Yeming Wen, Dustin Tran, Jimmy Ba(参考訳) 複数のニューラルネットワークを個別に訓練し、その予測を平均化するアンサンブルは、単一ニューラルネットワークの精度と予測の不確実性の両方を改善するために広く成功している。 しかし、トレーニングとテストの両面でのアンサンブルのコストは、ネットワークの数とともに直線的に増加し、急速に減少する。 本稿では,一般的なアンサンブルよりも計算コストとメモリコストが大幅に低いアンサンブル手法であるBatchEnsembleを提案する。 BatchEnsemble は、各重み行列をすべてのアンサンブル部材とランク1の行列の間の共有重みのアダマール積と定義することでこれを達成している。 アンサンブルとは異なり、BatchEnsembleはデバイス間で並列化可能であり、1つのデバイスが1つのメンバを訓練するだけでなく、デバイス内で並列化可能である。 CIFAR-10、CIFAR-100、WMT14 EN-DE/EN-FR翻訳、およびアウト・オブ・ディストリビューションタスクを含むBatchEnsembleは、典型的なアンサンブルとして競合精度と不確実性を出力する。 また、BatchEnsembleを生涯学習に適用し、Split-CIFAR-100では、BatchEnsembleは、計算とメモリのコストをはるかに低くしながら、プログレッシブニューラルネットワークに匹敵するパフォーマンスを得る。 さらに,BatchEnsembleは,100の逐次学習タスクを含むSplit-ImageNet上で,生涯学習まで容易にスケールアップ可能であることを示す。

Ensembles, where multiple neural networks are trained individually and their predictions are averaged, have been shown to be widely successful for improving both the accuracy and predictive uncertainty of single neural networks. However, an ensemble's cost for both training and testing increases linearly with the number of networks, which quickly becomes untenable. In this paper, we propose BatchEnsemble, an ensemble method whose computational and memory costs are significantly lower than typical ensembles. BatchEnsemble achieves this by defining each weight matrix to be the Hadamard product of a shared weight among all ensemble members and a rank-one matrix per member. Unlike ensembles, BatchEnsemble is not only parallelizable across devices, where one device trains one member, but also parallelizable within a device, where multiple ensemble members are updated simultaneously for a given mini-batch. Across CIFAR-10, CIFAR-100, WMT14 EN-DE/EN-FR translation, and out-of-distribution tasks, BatchEnsemble yields competitive accuracy and uncertainties as typical ensembles; the speedup at test time is 3X and memory reduction is 3X at an ensemble of size 4. We also apply BatchEnsemble to lifelong learning, where on Split-CIFAR-100, BatchEnsemble yields comparable performance to progressive neural networks while having a much lower computational and memory costs. We further show that BatchEnsemble can easily scale up to lifelong learning on Split-ImageNet which involves 100 sequential learning tasks.
翻訳日:2022-12-31 12:00:44 公開日:2020-02-20
# 情報凝縮型アクティブラーニング

Information Condensing Active Learning ( http://arxiv.org/abs/2002.07916v2 )

ライセンス: Link先を確認
Siddhartha Jain, Ge Liu, David Gifford(参考訳) 本稿では,未取得の点について可能な限り多くの情報を有する点についてラベルを取得することに焦点を当てた,深いベイズ型アクティブラーニングを対象としたバッチモードモデル非依存アクティブラーニング(al)手法であるinformation condensing active learning (ical)を提案する。 ICALはヒルベルト・シュミット独立基準(HSIC)を用いて、候補となる点とラベルなし集合の間の依存性の強さを測定する。 提案手法を大規模非ラベル集合に拡張可能な重要な最適化手法を開発した。 深層学習のためのアートバッチモードAL手法の状態と比較して,複数の画像データセット上でのモデル精度と負のログ可能性 (NLL) の面で大きな改善が見られた。

We introduce Information Condensing Active Learning (ICAL), a batch mode model agnostic Active Learning (AL) method targeted at Deep Bayesian Active Learning that focuses on acquiring labels for points which have as much information as possible about the still unacquired points. ICAL uses the Hilbert Schmidt Independence Criterion (HSIC) to measure the strength of the dependency between a candidate batch of points and the unlabeled set. We develop key optimizations that allow us to scale our method to large unlabeled sets. We show significant improvements in terms of model accuracy and negative log likelihood (NLL) on several image datasets compared to state of the art batch mode AL methods for deep learning.
翻訳日:2022-12-30 19:32:50 公開日:2020-02-20
# 音環境モデルに基づく西洋・中国古典音楽の比較研究

A Comparative Study of Western and Chinese Classical Music based on Soundscape Models ( http://arxiv.org/abs/2002.09021v1 )

ライセンス: Link先を確認
Jianyu Fan, Yi-Hsuan Yang, Kui Dong, and Philippe Pasquier(参考訳) 文字通り、あるいは暗示的にも、サウンドスケープの概念は現代音楽と古代音楽の両方で認められている。 本研究では,音環境モデルに基づく洋楽と漢楽を分析・比較できるかどうかを検討する。 私たちはこの質問を比較研究を通じて取り上げました。 具体的には、クラウドソーシング実験により、西洋古典音楽の抜粋(WCMED)と中国古典音楽の抜粋(CCMED)のコーパスを校正し、感情的価値と覚醒を付加した。 音声イベント検出 (sed) と音環境感情認識 (ser) モデルを用いて, wcmed と ccmed の感情知覚を予測した。 その結果、SERモデルとSEDモデルの両方が、中国と西洋のクラシック音楽の分析に使用できることがわかった。 SERとSEDが中国古典音楽の感情認識に優れているという事実は、中国古典音楽とサウンドスケープ録音の間にある種の類似性が存在することを示す証拠となり、機械学習モデル間での伝達可能性を実現する。

Whether literally or suggestively, the concept of soundscape is alluded in both modern and ancient music. In this study, we examine whether we can analyze and compare Western and Chinese classical music based on soundscape models. We addressed this question through a comparative study. Specifically, corpora of Western classical music excerpts (WCMED) and Chinese classical music excerpts (CCMED) were curated and annotated with emotional valence and arousal through a crowdsourcing experiment. We used a sound event detection (SED) and soundscape emotion recognition (SER) models with transfer learning to predict the perceived emotion of WCMED and CCMED. The results show that both SER and SED models could be used to analyze Chinese and Western classical music. The fact that SER and SED work better on Chinese classical music emotion recognition provides evidence that certain similarities exist between Chinese classical music and soundscape recordings, which permits transferability between machine learning models.
翻訳日:2022-12-30 08:25:53 公開日:2020-02-20
# Pairwise Presence Matrix を用いた深層学習型シームズ構造を用いたマルチラベル音声イベント検索

Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese Structure with a Pairwise Presence Matrix ( http://arxiv.org/abs/2002.09026v1 )

ライセンス: Link先を確認
Jianyu Fan, Eric Nichols, Daniel Tompkins, Ana Elisa Mendez Mendez, Benjamin Elizalde, and Philippe Pasquier(参考訳) サウンドスケープのリアルな録音は、カーホーン、エンジン、人間の声など、複数のサウンドイベントが同時に発生することが多い。 音声イベント検索(英: Sound Event Search)は、音声のサンプルを見つけることを目的とした、コンテンツに基づく検索の一種である。 最先端の音声イベント検索モデルは、シングルラベルの音声録音に焦点を合わせており、複数ラベルの音声録音(つまり、複数の音声イベントが1つの録音で発生する)ではなく、1つのサウンドイベントのみ発生している。 後者の問題に対処するため,シームズ構造とPairwise Presence Matrixを用いた異なるディープラーニングアーキテクチャを提案する。 ネットワークは、シングルラベルとマルチラベルの両方のサウンドスケープ記録を含むsonyc-ustデータセットを使用してトレーニングおよび評価される。 その結果,提案モデルの有効性が示された。

Realistic recordings of soundscapes often have multiple sound events co-occurring, such as car horns, engine and human voices. Sound event retrieval is a type of content-based search aiming at finding audio samples, similar to an audio query based on their acoustic or semantic content. State of the art sound event retrieval models have focused on single-label audio recordings, with only one sound event occurring, rather than on multi-label audio recordings (i.e., multiple sound events occur in one recording). To address this latter problem, we propose different Deep Learning architectures with a Siamese-structure and a Pairwise Presence Matrix. The networks are trained and evaluated using the SONYC-UST dataset containing both single- and multi-label soundscape recordings. The performance results show the effectiveness of our proposed model.
翻訳日:2022-12-30 08:25:33 公開日:2020-02-20
# マルチエージェントシステムにおける分散no-regret学習

Distributed No-Regret Learning in Multi-Agent Systems ( http://arxiv.org/abs/2002.09047v1 )

ライセンス: Link先を確認
Xiao Xu, Qing Zhao(参考訳) 本稿では,未知ゲームを繰り返したマルチエージェントシステムにおける分散非回帰学習に関する新しい課題と代表的結果について概説する。 動的,不完全,不完全なフィードバック,有界的合理性,不均一性という4つの新たなゲーム特性を考察した。 これら4つの特徴のそれぞれについて,ゲームモデリング,後悔の概念,実現可能なゲーム結果,分散学習アルゴリズムの設計と解析を照らし出す。

In this tutorial article, we give an overview of new challenges and representative results on distributed no-regret learning in multi-agent systems modeled as repeated unknown games. Four emerging game characteristics---dynamicity, incomplete and imperfect feedback, bounded rationality, and heterogeneity---that challenge canonical game models are explored. For each of the four characteristics, we illuminate its implications and ramifications in game modeling, notions of regret, feasible game outcomes, and the design and analysis of distributed learning algorithms.
翻訳日:2022-12-30 08:25:16 公開日:2020-02-20
# 冗長データ割り当てによる信頼性の高い分散クラスタリング

Reliable Distributed Clustering with Redundant Data Assignment ( http://arxiv.org/abs/2002.08892v1 )

ライセンス: Link先を確認
Venkata Gandikota, Arya Mazumdar, Ankit Singh Rawat(参考訳) 本稿では,複数のマシンにまたがる大規模データを扱う分散一般化クラスタリングアルゴリズムを提案する。 本研究では,与えられた局所計算の結果に応答しないマシンがある場合でも,データ全体のグローバル情報を得ることができる新しいデータ割当方式を提案する。 割当てスキームは分散アルゴリズムにつながり、様々なクラスタリングや次元縮小問題に対する近似保証が良好である。

In this paper, we present distributed generalized clustering algorithms that can handle large scale data across multiple machines in spite of straggling or unreliable machines. We propose a novel data assignment scheme that enables us to obtain global information about the entire data even when some machines fail to respond with the results of the assigned local computations. The assignment scheme leads to distributed algorithms with good approximation guarantees for a variety of clustering and dimensionality reduction problems.
翻訳日:2022-12-30 08:24:41 公開日:2020-02-20
# マルチグラフ畳み込みネットワークを用いたシンドロームアウェアハーブレコメンデーション

Syndrome-aware Herb Recommendation with Multi-Graph Convolution Network ( http://arxiv.org/abs/2002.08575v1 )

ライセンス: Link先を確認
Yuanyuan Jin, Wei Zhang, Xiangnan He, Xinyu Wang and Xiaoling Wang(参考訳) ハーブ・リコメンデーション(ハーブ・リコメンデーション)は、患者の症状を治療するためのハーブのセットを推奨する伝統的な中国医学(TCM)の治療プロセスにおいて重要な役割を果たす。 ハーブレコメンデーションのためにいくつかの機械学習手法が開発されているが、ハーブと症状の相互作用のみをモデル化し、シンドローム誘導の中間過程を無視している。 TCM診断を行う際、経験豊富な医師は患者の症状から症候群を誘導し、誘導された症候群に基づいてハーブを提案する。 このようなことから,症状の全体的記述であるシンドロームの誘導はハーブ推奨に重要であると考え,適切に治療すべきである。 しかしながら、シンドローム誘発の曖昧さと複雑さのため、ほとんどの処方はシンドロームの明確な根本的真実を欠いている。 本稿では,暗黙的シンドロームの誘発過程を考慮した新しい方法を提案する。 治療対象の症状が一組ある場合, 医師がどのように症状を誘発するかを模擬して, 全症状の埋め込みを効果的に融合させることにより, 総合的な症候群表現を創出することを目的とする。 さらに,症状の埋め込み学習に向けて,症状間の関係を捉えるための入力処方薬から症状シンボリックグラフを構築し,症状シンボリックグラフと症状ヘルブグラフの両方にグラフコンボリューションネットワーク(gcns)を構築し,症状の埋め込みを学ぶ。 同様に、ハーブ-ハーブグラフを構築し、ハーブ-ハーブグラフと症状-ハーブグラフの両方にGCNを構築し、ハーブの埋め込みを学習し、最終的に症候群表現と相互作用してハーブのスコアを予測する。 このように、より包括的な表現が得られる。 パブリックなtcmデータセットで広範な実験を行い,最先端のハーブレコメンデーション法に対する大幅な改善を示した。

Herb recommendation plays a crucial role in the therapeutic process of Traditional Chinese Medicine(TCM), which aims to recommend a set of herbs to treat the symptoms of a patient. While several machine learning methods have been developed for herb recommendation, they are limited in modeling only the interactions between herbs and symptoms, and ignoring the intermediate process of syndrome induction. When performing TCM diagnostics, an experienced doctor typically induces syndromes from the patient's symptoms and then suggests herbs based on the induced syndromes. As such, we believe the induction of syndromes, an overall description of the symptoms, is important for herb recommendation and should be properly handled. However, due to the ambiguity and complexity of syndrome induction, most prescriptions lack the explicit ground truth of syndromes. In this paper, we propose a new method that takes the implicit syndrome induction process into account for herb recommendation. Given a set of symptoms to treat, we aim to generate an overall syndrome representation by effectively fusing the embeddings of all the symptoms in the set, to mimic how a doctor induces the syndromes. Towards symptom embedding learning, we additionally construct a symptom-symptom graph from the input prescriptions for capturing the relations between symptoms; we then build graph convolution networks(GCNs) on both symptom-symptom and symptom-herb graphs to learn symptom embedding. Similarly, we construct a herb-herb graph and build GCNs on both herb-herb and symptom-herb graphs to learn herb embedding, which is finally interacted with the syndrome representation to predict the scores of herbs. In this way, more comprehensive representations can be obtained. We conduct extensive experiments on a public TCM dataset, showing significant improvements over state-of-the-art herb recommendation methods.
翻訳日:2022-12-30 08:21:22 公開日:2020-02-20
# APTER:指数重み付けによる集団予後

APTER: Aggregated Prognosis Through Exponential Reweighting ( http://arxiv.org/abs/2002.08731v1 )

ライセンス: Link先を確認
Kristiaan Pelckmans and Liu Yang(参考訳) 本稿では,マイクロアレイの表現レベルに基づいて患者の予後を学習する作業について考察する。 本手法は, 理論機械学習の文献に最近提案されている凝集法の適用例であり, 計算の利便性と高次元データを扱う能力に優れている。 手法の形式的解析が与えられ、従来の手法と同様の収束率が得られる一方で、指数関数的に大きな特徴の集合にうまく対応していることが示される。 これらの結果は、公開可能なサバイバル・マイクロアレイデータセットの数値シミュレーションによって支援されている。 提案手法と最近提案した前処理技術を組み合わせることで,優れた性能が得られた。

This paper considers the task of learning how to make a prognosis of a patient based on his/her micro-array expression levels. The method is an application of the aggregation method as recently proposed in the literature on theoretical machine learning, and excels in its computational convenience and capability to deal with high-dimensional data. A formal analysis of the method is given, yielding rates of convergence similar to what traditional techniques obtain, while it is shown to cope well with an exponentially large set of features. Those results are supported by numerical simulations on a range of publicly available survival-micro-array datasets. It is empirically found that the proposed technique combined with a recently proposed preprocessing technique gives excellent performances.
翻訳日:2022-12-30 08:20:47 公開日:2020-02-20
# クリックストリームデータを用いた顧客行動分析のためのグラフベースプラットフォーム

A Graph-Based Platform for Customer Behavior Analysis using Applications' Clickstream Data ( http://arxiv.org/abs/2002.10269v1 )

ライセンス: Link先を確認
Mojgan Mohajer(参考訳) クリックストリーム分析は、eコマースやアプリケーションの利用が増えるにつれて注目を集めている。 顧客の購買行動分析の他に、webやアプリケーション設計の品質に関連して顧客の行動を分析する試みもある。 一般に、クリックストリームデータは、web/アプリ利用の異なるレベルで収集されたログイベントのシーケンスと見なすことができる。 クリックストリームデータの分析は、シーケンス分析またはシーケンスから特徴を抽出することで直接行うことができる。 本稿では,基本となるグラフ構造を用いてシーケンスを表現・保存することで,顧客行動分析のプラットフォームを誘導できることを示す。 我々の考えでは、アプリケーションのアクションのシーケンスを含むクリックストリームデータは、そのアプリケーションの対応する有限状態オートマトン(FSA)のウォークである。 我々の仮説では、アプリケーションの顧客は、通常、可能なウォークを全て使用せず、実際のウォークの数は、可能なウォークの総数よりもはるかに少ない。 そのようなウォークの列は通常、FSAグラフ上の有限個のサイクルからなる。 古典列解析におけるこれらのサイクルの同定とマッチングは、直進ではない。 基礎となるグラフ構造を通してシーケンスを表現することは、自動的にシーケンスをグループ化するだけでなく、元のシーケンスの圧縮データ表現を提供する。

Clickstream analysis is getting more attention since the increase of usage in e-commerce and applications. Beside customers' purchase behavior analysis, there is also attempt to analyze the customer behavior in relation to the quality of web or application design. In general, clickstream data can be considered as a sequence of log events collected at different levels of web/app usage. The analysis of clickstream data can be performed directly as sequence analysis or by extracting features from sequences. In this work, we show how representing and saving the sequences with their underlying graph structures can induce a platform for customer behavior analysis. Our main idea is that clickstream data containing sequences of actions of an application, are walks of the corresponding finite state automaton (FSA) of that application. Our hypothesis is that the customers of an application normally do not use all possible walks through that FSA and the number of actual walks is much smaller than total number of possible walks through the FSA. Sequences of such a walk normally consist of a finite number of cycles on FSA graphs. Identifying and matching these cycles in the classical sequence analysis is not straight forward. We show that representing the sequences through their underlying graph structures not only groups the sequences automatically but also provides a compressed data representation of the original sequences.
翻訳日:2022-12-30 08:19:44 公開日:2020-02-20
# 単層DW-MRIを用いた多段拘束球面デコンボリューションの深層学習推定

Deep Learning Estimation of Multi-Tissue Constrained Spherical Deconvolution with Limited Single Shell DW-MRI ( http://arxiv.org/abs/2002.08820v1 )

ライセンス: Link先を確認
Vishwesh Nath, Sudhir K. Pathak, Kurt G. Schilling, Walt Schneider, Bennett A. Landman(参考訳) diffusion-weighted magnetic resonance imaging (dw-mri)は、脳内微小組織の推定と生体内神経経路の再構築のための唯一の非侵襲的アプローチである。 高速化されたMRI取得技術の改善により、複数のレベルの拡散感作を利用するDW-MRIプロトコルが人気を博している。 マルチシェルデータを用いた白色物質の微細構造再構築手法として,多段拘束球面デコンボリューション(MT-CSD)がある。 MT-CSDは、従来の単一殻型、制約付き球状デコンボリューション(CSD)よりもボクセル内構造の分解能を大幅に向上させる。 そこで本研究では,Human Connectome Project (HCP) のb=1000 s/mm2を用いて,全3殻データ(b=1000, 2000, 3000 s/mm2)を用いて8次MT-CSDで取得した情報量を推定する。 簡単に言えば、2つのネットワークアーキテクチャを調べます。 1 中央に残留ブロックを有する完全連結密集層(resdnn)の逐次ネットワーク 2)残差ブロック(ResCNN)を用いたパッチベースの畳み込みニューラルネットワーク。 どちらのネットワークに対しても、ボクセル分率を推定するための追加の出力ブロックが改良された損失関数で使用された。 各アプローチは, MT-CSDを5つのトレーニング, 2つのバリデーション, 8つの被験者に分け, 合計670万ボクセルの被験者15名を対象に, MT-CSDのベースラインと比較した。 繊維配向分布関数 (fODF) は, 多殻DW-MRIから得られたMT-CSTの基底真実と比較して高い相関(0.77 vs 0.74 and 0.65)で回収できる。 ソースコードとモデルは公開されている。

Diffusion-weighted magnetic resonance imaging (DW-MRI) is the only non-invasive approach for estimation of intra-voxel tissue microarchitecture and reconstruction of in vivo neural pathways for the human brain. With improvement in accelerated MRI acquisition technologies, DW-MRI protocols that make use of multiple levels of diffusion sensitization have gained popularity. A well-known advanced method for reconstruction of white matter microstructure that uses multi-shell data is multi-tissue constrained spherical deconvolution (MT-CSD). MT-CSD substantially improves the resolution of intra-voxel structure over the traditional single shell version, constrained spherical deconvolution (CSD). Herein, we explore the possibility of using deep learning on single shell data (using the b=1000 s/mm2 from the Human Connectome Project (HCP)) to estimate the information content captured by 8th order MT-CSD using the full three shell data (b=1000, 2000, and 3000 s/mm2 from HCP). Briefly, we examine two network architectures: 1.) Sequential network of fully connected dense layers with a residual block in the middle (ResDNN), 2.) Patch based convolutional neural network with a residual block (ResCNN). For both networks an additional output block for estimation of voxel fraction was used with a modified loss function. Each approach was compared against the baseline of using MT-CSD on all data on 15 subjects from the HCP divided into 5 training, 2 validation, and 8 testing subjects with a total of 6.7 million voxels. The fiber orientation distribution function (fODF) can be recovered with high correlation (0.77 vs 0.74 and 0.65) as compared to the ground truth of MT-CST, which was derived from the multi-shell DW-MRI acquisitions. Source code and models have been made publicly available.
翻訳日:2022-12-30 08:19:09 公開日:2020-02-20
# 群衆による計算設計

Computational Design with Crowds ( http://arxiv.org/abs/2002.08657v1 )

ライセンス: Link先を確認
Yuki Koyama and Takeo Igarashi(参考訳) 計算設計は、計算技術を用いて設計プロセスを支援または自動化することを目的としている。 しかし、設計タスクのいくつかのクラスは、コンピュータでのみ扱うのが難しい基準を含んでいる。 例えば、美的目標を達成するためのビジュアルデザインタスクは、コンピュータで純粋に扱うのは難しい。 有望なアプローチの1つは、人間の計算、すなわち人間の入力を計算プロセスに組み込むことである。 クラウドソーシングプラットフォームは、このような人間の計算を作業システムに統合する便利な方法を提供する。 本章では,視覚設計におけるパラメータ調整タスクの領域における群集との計算設計について論じる。 パラメータ調整は、しばしば設計対象の美的品質を最大化するために行われる。 群衆による計算設計は、人間の計算を利用してこの最大化問題を解決することができる。 本稿では,(1)設計者によるインタラクティブなデザイン探索を容易にするために,目的関数(特に対数比較による選好学習)を推定すること,(2)目的関数を最大化する最適パラメータ設定を直接探索すること(特に,ループ内ベイズ最適化)の2つの例を用いて,計算設計の機会と課題について議論する。

Computational design is aimed at supporting or automating design processes using computational techniques. However, some classes of design tasks involve criteria that are difficult to handle only with computers. For example, visual design tasks seeking to fulfill aesthetic goals are difficult to handle purely with computers. One promising approach is to leverage human computation; that is, to incorporate human input into the computation process. Crowdsourcing platforms provide a convenient way to integrate such human computation into a working system. In this chapter, we discuss such computational design with crowds in the domain of parameter tweaking tasks in visual design. Parameter tweaking is often performed to maximize the aesthetic quality of designed objects. Computational design powered by crowds can solve this maximization problem by leveraging human computation. We discuss the opportunities and challenges of computational design with crowds with two illustrative examples: (1) estimating the objective function (specifically, preference learning from crowds' pairwise comparisons) to facilitate interactive design exploration by a designer and (2) directly searching for the optimal parameter setting that maximizes the objective function (specifically, crowds-in-the-loop Bayesian optimization).
翻訳日:2022-12-30 08:18:10 公開日:2020-02-20
# 高精度地すべり認識のための局所・非局所特徴の深部融合

Deep Fusion of Local and Non-Local Features for Precision Landslide Recognition ( http://arxiv.org/abs/2002.08547v1 )

ライセンス: Link先を確認
Qing Zhu, Lin Chen, Han Hu, Binzhi Xu, Yeting Zhang, Haifeng Li(参考訳) 地すべり在庫の精密マッピングは, リスク軽減に不可欠である。 ほとんどの地すべりは、概して他の紛らわしい地質学的特徴と共存しており、そのような地域の存在は、大規模で曖昧に推測できるだけである。 加えて、局所的な情報もオブジェクト境界の保存に重要である。 本稿では,この問題を解決するために,局所的特徴と非局所的特徴を融合して文脈的問題を克服する効果的な手法を提案する。 リモートセンシングコミュニティで広く採用されているU-Netアーキテクチャを基盤として,さらに2つのモジュールを利用する。 最初のものは拡張畳み込みとそれに対応するアラス空間ピラミッドプールを使用し、空間分解能を犠牲にしたりメモリ使用量を増やしたりすることなく、受容領域を拡大した。 2つめは、スケールアテンション機構を使用して、学習した重みマップによって、粗いレベルから特徴のアップサンプリングを導く。 実装上、オリジナルのu-netに対する計算オーバーヘッドは、ほんの数層の畳み込み層であった。 実験により,提案手法は最先端の汎用セマンティックセグメンテーション手法よりも優れていた。 さらに, アブレーション実験の結果, この2モデルにより地すべり認識性能が大幅に向上することが判明した。

Precision mapping of landslide inventory is crucial for hazard mitigation. Most landslides generally co-exist with other confusing geological features, and the presence of such areas can only be inferred unambiguously at a large scale. In addition, local information is also important for the preservation of object boundaries. Aiming to solve this problem, this paper proposes an effective approach to fuse both local and non-local features to surmount the contextual problem. Built upon the U-Net architecture that is widely adopted in the remote sensing community, we utilize two additional modules. The first one uses dilated convolution and the corresponding atrous spatial pyramid pooling, which enlarged the receptive field without sacrificing spatial resolution or increasing memory usage. The second uses a scale attention mechanism to guide the up-sampling of features from the coarse level by a learned weight map. In implementation, the computational overhead against the original U-Net was only a few convolutional layers. Experimental evaluations revealed that the proposed method outperformed state-of-the-art general-purpose semantic segmentation approaches. Furthermore, ablation studies have shown that the two models afforded extensive enhancements in landslide-recognition performance.
翻訳日:2022-12-30 08:12:36 公開日:2020-02-20
# multi-level adversarial learning を用いた腎生検画像からのクロスステンドセグメンテーション

Cross-stained Segmentation from Renal Biopsy Images Using Multi-level Adversarial Learning ( http://arxiv.org/abs/2002.08587v1 )

ライセンス: Link先を確認
Ke Mei, Chuang Zhu, Lei Jiang, Jun Liu, Yuanyuan Qiao(参考訳) 腎病理像からの分離は腎組織学的特徴を自動解析する重要なステップである。 しかし,モデルの性能は外観変化により,ステンドデータセットの種類によって大きく異なる。 本稿では,クロスステンドセグメンテーションのための頑健で柔軟なモデルを設計する。 これは3つのサブネットワークからなる、新しい多層深層対向ネットワークアーキテクチャである。 (i)セグメンテーションネットワーク 二 分割網にドメイン不変の特徴を抽出するための一対の多重レベルミラー化判別器 (iii)セグメンテーションネットワークの出力と基底真理をさらに識別するために利用される形状判別器。 腎生検画像からの糸球体セグメンテーション実験の結果,対象のステンド画像に対するセグメンテーション性能が向上し,ラベルなしデータを用いてラベル付きデータと同様の精度が得られることがわかった。 また、この方法は他のタスクにも容易に適用できる。

Segmentation from renal pathological images is a key step in automatic analyzing the renal histological characteristics. However, the performance of models varies significantly in different types of stained datasets due to the appearance variations. In this paper, we design a robust and flexible model for cross-stained segmentation. It is a novel multi-level deep adversarial network architecture that consists of three sub-networks: (i) a segmentation network; (ii) a pair of multi-level mirrored discriminators for guiding the segmentation network to extract domain-invariant features; (iii) a shape discriminator that is utilized to further identify the output of the segmentation network and the ground truth. Experimental results on glomeruli segmentation from renal biopsy images indicate that our network is able to improve segmentation performance on target type of stained images and use unlabeled data to achieve similar accuracy to labeled data. In addition, this method can be easily applied to other tasks.
翻訳日:2022-12-30 08:12:16 公開日:2020-02-20
# 畳み込みニューラルネットワークを用いた物体余裕の中間的特徴の学習

Learning Intermediate Features of Object Affordances with a Convolutional Neural Network ( http://arxiv.org/abs/2002.08975v1 )

ライセンス: Link先を確認
Aria Yuan Wang and Michael J. Tarr(参考訳) 私たちの周りの世界と対話する能力は、オブジェクトがどのアクションに余裕があるかを推測できることに依存しています。 視覚特性と行動に関する情報を共通表現に統合する視覚運動経路において、物体-行動関連の神経機構が実現される。 しかし,視覚的特徴と推論された行動との間には1対1のマッピングがほとんどないため,これらのメカニズムを解明するのは難しい。 価格の性質をよりよく理解するために、画像から価格を認識するために深層畳み込みニューラルネットワーク(cnn)を訓練し、その基礎となる特徴や価格の次元を学習した。 このような特徴は、人間の神経データに対してテストできる余裕の一般的な表現の基盤となる構成構造を形成する。 我々は、この表現分析を、人間がどのように環境を知覚し相互作用するかという、より形式的な説明への第一歩と考える。

Our ability to interact with the world around us relies on being able to infer what actions objects afford -- often referred to as affordances. The neural mechanisms of object-action associations are realized in the visuomotor pathway where information about both visual properties and actions is integrated into common representations. However, explicating these mechanisms is particularly challenging in the case of affordances because there is hardly any one-to-one mapping between visual features and inferred actions. To better understand the nature of affordances, we trained a deep convolutional neural network (CNN) to recognize affordances from images and to learn the underlying features or the dimensionality of affordances. Such features form an underlying compositional structure for the general representation of affordances which can then be tested against human neural data. We view this representational analysis as the first step towards a more formal account of how humans perceive and interact with the environment.
翻訳日:2022-12-30 08:11:30 公開日:2020-02-20
# コンピュータビジョンにおける完全自己準同型

Complete Endomorphisms in Computer Vision ( http://arxiv.org/abs/2002.09003v1 )

ライセンス: Link先を確認
Javier Finat, Francisco Delgado-del-Hoyo(参考訳) 点のk-タプル間の対応は、多視点幾何学と運動解析において鍵となる。 正規変換は、画像の構造モデルとして機能する2つの射影平面の間のホモグラフによって引き起こされる。 このような変換には退化した状況は含まれない。 基本あるいは本質行列は退化双線型写像を用いて構造情報と相同性を拡大する。 三次元ベクトル空間の自己準同型の射影化はそれらすべてを含む。 したがって、彼らは任意の対のビュー間の最終的な退化変換のより広い範囲を説明できる。 これらの退化状況を含めるために、正規変換の同変コンパクト化により与えられる空間間の双線型写像の完備化を導入する。 この完備性は基本行列と本質行列の多様体に拡張可能であり、そこでは正則変換に基づくほとんどの方法が失敗する。 完全自己準同型の構成は、ソース空間とターゲット空間の同時作用を用いて退化射影写像を管理する。 このようにして、この数学的構成は、複数のビュー幾何学における対応するビューを関連付ける堅牢なフレームワークを提供する。

Correspondences between k-tuples of points are key in multiple view geometry and motion analysis. Regular transformations are posed by homographies between two projective planes that serves as structural models for images. Such transformations can not include degenerate situations. Fundamental or essential matrices expand homographies with structural information by using degenerate bilinear maps. The projectivization of the endomorphisms of a three-dimensional vector space includes all of them. Hence, they are able to explain a wider range of eventually degenerate transformations between arbitrary pairs of views. To include these degenerate situations, this paper introduces a completion of bilinear maps between spaces given by an equivariant compactification of regular transformations. This completion is extensible to the varieties of fundamental and essential matrices, where most methods based on regular transformations fail. The construction of complete endomorphisms manages degenerate projection maps using a simultaneous action on source and target spaces. In such way, this mathematical construction provides a robust framework to relate corresponding views in multiple view geometry.
翻訳日:2022-12-30 08:11:15 公開日:2020-02-20
# マルチエージェントシステムのためのセマンティックWeb環境:セマンティックWebを介してモノのWebを利用するエージェント

Semantic Web Environments for Multi-Agent Systems: Enabling agents to use Web of Things via semantic web ( http://arxiv.org/abs/2003.02054v1 )

ライセンス: Link先を確認
Alaa Daoud(参考訳) Webはユビキタスで、相互接続されたデータ、サービス、人、オブジェクトで人口が増えています。 セマンティックウェブ技術(swt)は、データフォーマットの統一性を促進し、他のオントロジーが提供する情報を含め、参照できるようにすることで、仕様のモジュール化と再利用(オントロジーなど)を促進する。 このような状況下では、マルチエージェントシステム(MAS)技術は、エージェントがWebリソースを発見し、推論し、行動し、相互に協力する、分散的でオープンなWebアプリケーションを開発するための適切な抽象化である。 プロジェクトの目的は、"エージェントとアーティファクト(A&A)メタモデル"を、セマンティックWebフォーマットと一致したオントロジーを備えたWeb可読フォーマットに変換するアプローチを提案し、エージェントに対する統一アクセスを提供するために既存のオントロジーを再利用することである。

The Web is ubiquitous, increasingly populated with interconnected data, services, people, and objects. Semantic web technologies (SWT) promote uniformity of data formats, as well as modularization and reuse of specifications (e.g., ontologies), by allowing them to include and refer to information provided by other ontologies. In such a context, multi-agent system (MAS) technologies are the right abstraction for developing decentralized and open Web applications in which agents discover, reason and act on Web resources and cooperate with each other and with people. The aim of the project is to propose an approach to transform "Agent and artifact (A&A) meta-model" into a Web-readable format with ontologies in line with semantic web formats and to reuse already existing ontologies in order to provide uniform access for agents to things.
翻訳日:2022-12-30 08:11:01 公開日:2020-02-20
# 極めて少ない特徴を有する機械学習によるパルサー検出

Pulsars Detection by Machine Learning with Very Few Features ( http://arxiv.org/abs/2002.08519v1 )

ライセンス: Link先を確認
Haitao Lin, Xiangru Li, Ziying Luo(参考訳) 現代の調査では,データボリュームが指数関数的に増大するにつれて,パルサーを検出する機械学習(ML)手法に基づくスキームの調査が盛んである。 検出性能を向上させるためには,MLモデルへの入力特徴を具体的に検討する必要がある。 ML法に基づく既存のパルサー検出研究には、主に経験的特徴と統計的特徴の2種類の特徴設計がある。 しかし、複数の特徴の組合せ効果により、利用可能な特徴にいくつかの冗長性や無関係な要素が存在するため、パルサー検出モデルの精度が低下する可能性がある。 したがって、利用可能な特徴のセットから関連する特徴のサブセットを選択することが不可欠であり、"itshape feature selection"として知られている。 本稿では,2つの特徴選択アルゴリズム ----\textit{grid search} (gs) と \textit{recursive feature removal} (rfe)-- を提案し,冗長かつ無関係な特徴を除去して検出性能を向上させる。 これらのアルゴリズムは,5つのパルサー検出モデルを用いて,南高時間分解大学 (HTRU-S) の調査で評価された。 提案する特徴選択アルゴリズムの有効性と効率を実験的に検証した。 gsでは、2つの特徴しか持たないモデルはリコールレートが99\%、偽陽性率(fpr)が0.65\%、rfeでは3つの特徴しか持たない別のモデルがリコールレート99\%、パルサー候補分類では0.16\%となる。 さらに,本研究は,本モデルで要求される特徴数と誤分類パルサーについて検討した。

It is an active topic to investigate the schemes based on machine learning (ML) methods for detecting pulsars as the data volume growing exponentially in modern surveys. To improve the detection performance, input features into an ML model should be investigated specifically. In the existing pulsar detection researches based on ML methods, there are mainly two kinds of feature designs: the empirical features and statistical features. Due to the combinational effects from multiple features, however, there exist some redundancies and even irrelevant components in the available features, which can reduce the accuracy of a pulsar detection model. Therefore, it is essential to select a subset of relevant features from a set of available candidate features and known as {\itshape feature selection.} In this work, two feature selection algorithms ----\textit{Grid Search} (GS) and \textit{Recursive Feature Elimination} (RFE)---- are proposed to improve the detection performance by removing the redundant and irrelevant features. The algorithms were evaluated on the Southern High Time Resolution University survey (HTRU-S) with five pulsar detection models. The experimental results verify the effectiveness and efficiency of our proposed feature selection algorithms. By the GS, a model with only two features reach a recall rate as high as 99\% and a false positive rate (FPR) as low as 0.65\%; By the RFE, another model with only three features achieves a recall rate 99\% and an FPR of 0.16\% in pulsar candidates classification. Furthermore, this work investigated the number of features required as well as the misclassified pulsars by our models.
翻訳日:2022-12-30 08:10:42 公開日:2020-02-20
# ナタック! ネットワーク侵入検知のためのGANに基づく分類器をバイパスする逆攻撃

NAttack! Adversarial Attacks to bypass a GAN based classifier trained to detect Network intrusion ( http://arxiv.org/abs/2002.08527v1 )

ライセンス: Link先を確認
Aritran Piplai, Sai Sree Laya Chukkapalli, Anupam Joshi(参考訳) 最近の人工知能と機械学習の発展により、ネットワークトラフィックの異常は機械学習アプローチによって検出される。 機械学習の台頭以前、攻撃を示唆するネットワーク異常は、巧妙なルールを用いて検出された。 サイバー防御の分野で知識を持つ攻撃者は、サイバー防御メカニズムが見ているネットワークトラフィックデータの特定の特徴を正確に予測するために、教育的な推測をすることができる。 この情報により、攻撃者はルールベースのサイバー防御システムを回避できる。 しかし、ネットワーク異常のための機械学習の進歩の後、人間がサイバー防御システムをバイパスする方法を理解することは容易ではない。 近年,機械学習アルゴリズムを打破する敵の攻撃が増えている。 本稿では, 分類器を構築し, ネットワークデータの逆例で訓練しても, 敵攻撃を利用でき, システムを破壊することができることを示す。 本稿では,効率的なニューラルネットワークに基づく分類器を訓練するために,データを生成するための生成型adversarial network(gan)ベースのアルゴリズムを提案する。

With the recent developments in artificial intelligence and machine learning, anomalies in network traffic can be detected using machine learning approaches. Before the rise of machine learning, network anomalies which could imply an attack, were detected using well-crafted rules. An attacker who has knowledge in the field of cyber-defence could make educated guesses to sometimes accurately predict which particular features of network traffic data the cyber-defence mechanism is looking at. With this information, the attacker can circumvent a rule-based cyber-defense system. However, after the advancements of machine learning for network anomaly, it is not easy for a human to understand how to bypass a cyber-defence system. Recently, adversarial attacks have become increasingly common to defeat machine learning algorithms. In this paper, we show that even if we build a classifier and train it with adversarial examples for network data, we can use adversarial attacks and successfully break the system. We propose a Generative Adversarial Network(GAN)based algorithm to generate data to train an efficient neural network based classifier, and we subsequently break the system using adversarial attacks.
翻訳日:2022-12-30 08:10:15 公開日:2020-02-20
# ディープハイブリッドネットワークを用いた野生における音声映像の感情認識

Audio-video Emotion Recognition in the Wild using Deep Hybrid Networks ( http://arxiv.org/abs/2002.09023v1 )

ライセンス: Link先を確認
Xin Guo and Luisa F. Polan\'ia and Kenneth E. Barner(参考訳) 本稿では,音声視覚に基づく感情認識ハイブリッドネットワークを提案する。 これまでの研究のほとんどは、深層モデルや画像から抽出された手作業による機能に焦点が当てられていたが、私たちは、画像とオーディオ信号の両方で構築された複数の深層モデルを調査した。 具体的には、畳み込みニューラルネットワーク(CNN)と、顔画像に基づいて訓練されたリカレントニュートラルネットワーク(RNN)に加えて、このハイブリッドネットワークは、全体音響特徴ベクトルに基づいて訓練された1つのSVM分類器、セグメント付きオーディオクリップから抽出された短期特徴系列に基づいて訓練された1つの長期記憶ネットワーク(LSTM)、短期音響特徴系列に基づいて構築された画像のようなマップに基づいて訓練された1つのインセプション(v2)-LSTMネットワークを含む。 実験の結果,提案したハイブリッドネットワークはベースライン法よりも大きなマージンで優れていた。

This paper presents an audiovisual-based emotion recognition hybrid network. While most of the previous work focuses either on using deep models or hand-engineered features extracted from images, we explore multiple deep models built on both images and audio signals. Specifically, in addition to convolutional neural networks (CNN) and recurrent neutral networks (RNN) trained on facial images, the hybrid network also contains one SVM classifier trained on holistic acoustic feature vectors, one long short-term memory network (LSTM) trained on short-term feature sequences extracted from segmented audio clips, and one Inception(v2)-LSTM network trained on image-like maps, which are built based on short-term acoustic feature sequences. Experimental results show that the proposed hybrid network outperforms the baseline method by a large margin.
翻訳日:2022-12-30 08:03:38 公開日:2020-02-20
# 小児脳MRIにおけるLSTMを用いた脳年齢推定

Brain Age Estimation Using LSTM on Children's Brain MRI ( http://arxiv.org/abs/2002.09045v1 )

ライセンス: Link先を確認
Sheng He, Randy L. Gollub, Shawn N. Murphy, Juan David Perez, Sanjay Prabhu, Rudolph Pienaar, Richard L. Robertson, P. Ellen Grant, Yangming Ou(参考訳) 小児の脳MRIに基づく脳年齢予測は、脳の健康と脳発生解析にとって重要なバイオマーカーである。 本稿では,3次元脳mriボリュームを2次元画像のシーケンスとして捉え,脳年齢推定のためのrecurrent neural networkを用いた新しい枠組みを提案する。 提案手法は2D-ResNet18+Long短期メモリ(LSTM)と命名され,2次元画像の特徴抽出用2D ResNet18,シーケンス上の特徴低減用プール層,LSTM層,最終回帰層からなる。 提案手法を公開マルチサイトNIH-PDデータセットに適用し, 2D-ResNet18+LSTM法により, 脳年齢推定のための従来の3次元ニューラルネットワークよりも優れた結果が得られることを示す。

Brain age prediction based on children's brain MRI is an important biomarker for brain health and brain development analysis. In this paper, we consider the 3D brain MRI volume as a sequence of 2D images and propose a new framework using the recurrent neural network for brain age estimation. The proposed method is named as 2D-ResNet18+Long short-term memory (LSTM), which consists of four parts: 2D ResNet18 for feature extraction on 2D images, a pooling layer for feature reduction over the sequences, an LSTM layer, and a final regression layer. We apply the proposed method on a public multisite NIH-PD dataset and evaluate generalization on a second multisite dataset, which shows that the proposed 2D-ResNet18+LSTM method provides better results than traditional 3D based neural network for brain age estimation.
翻訳日:2022-12-30 08:03:17 公開日:2020-02-20
# 注釈付きデータに基づく深層学習アイリス認識のための教師なし事前学習・テクスチャ認識・軽量化モデル

Unsupervised Pre-trained, Texture Aware And Lightweight Model for Deep Learning-Based Iris Recognition Under Limited Annotated Data ( http://arxiv.org/abs/2002.09048v1 )

ライセンス: Link先を確認
Manashi Chakraborty, Mayukh Roy, Prabir Kumar Biswas, Pabitra Mitra(参考訳) 本稿では,虹彩認識のためのテクスチャを考慮した軽量ディープラーニングフレームワークを提案する。 私たちの貢献は主に3つです。 まず,ラベル付き虹彩データの変形に対処するため,教師なし事前訓練段階の再建損失を誘導し,教師付き改良を行った。 これはネットワークの重み付けを識別的な虹彩テクスチャパターンに集中させる。 次に,畳み込みニューラルネットワーク内のテクスチャ認識即興化について提案する。 最後に、我々の体系的なトレーニングとアーキテクチャの選択により、現在のディープラーニングベースラインよりも100倍少ないパラメータを持つ効率的なフレームワークを設計できるが、データセット内および横断的な評価において、より良い認識性能を実現することができることを示す。

In this paper, we present a texture aware lightweight deep learning framework for iris recognition. Our contributions are primarily three fold. Firstly, to address the dearth of labelled iris data, we propose a reconstruction loss guided unsupervised pre-training stage followed by supervised refinement. This drives the network weights to focus on discriminative iris texture patterns. Next, we propose several texture aware improvisations inside a Convolution Neural Net to better leverage iris textures. Finally, we show that our systematic training and architectural choices enable us to design an efficient framework with upto 100X fewer parameters than contemporary deep learning baselines yet achieve better recognition performance for within and cross dataset evaluations.
翻訳日:2022-12-30 08:02:59 公開日:2020-02-20
# 水中画像強調のための物理モデルフィードバックに基づくドメイン適応逆学習

Domain Adaptive Adversarial Learning Based on Physics Model Feedback for Underwater Image Enhancement ( http://arxiv.org/abs/2002.09315v1 )

ライセンス: Link先を確認
Yuan Zhou and Kangming Yan(参考訳) 水中の懸濁粒子による光の屈折、吸収、散乱により、生の水中画像は低コントラスト、ぼやけた詳細、色歪みに悩まされる。 これらの特徴は、水中画像の視認性と、セグメンテーションやトラッキングなどの視覚課題の結果に著しく干渉する可能性がある。 そこで本研究では,水中画像の再現性を高めるために,物理モデルに基づくフィードバック制御とドメイン適応機構を用いた新しい頑健な学習フレームワークを提案する。 水中画像形成モデルによるRGB-Dデータからの水中訓練データセットのシミュレーション手法を提案する。 合成データセットでは、ドメイン適応機構と物理モデル制約フィードバック制御を導入する新しい拡張フレームワークが、水中シーンを強化するために訓練される。 合成および実水中画像の最終的な改良結果は,質的および定量的評価において非深層学習法および深層学習法を上回った。 さらに,提案した各コンポーネントのコントリビューションを示すためのアブレーション研究を行った。

Owing to refraction, absorption, and scattering of light by suspended particles in water, raw underwater images suffer from low contrast, blurred details, and color distortion. These characteristics can significantly interfere with the visibility of underwater images and the result of visual tasks, such as segmentation and tracking. To address this problem, we propose a new robust adversarial learning framework via physics model based feedback control and domain adaptation mechanism for enhancing underwater images to get realistic results. A new method for simulating underwater-like training dataset from RGB-D data by underwater image formation model is proposed. Upon the synthetic dataset, a novel enhancement framework, which introduces a domain adaptive mechanism as well as a physics model constraint feedback control, is trained to enhance the underwater scenes. Final enhanced results on synthetic and real underwater images demonstrate the superiority of the proposed method, which outperforms nondeep and deep learning methods in both qualitative and quantitative evaluations. Furthermore, we perform an ablation study to show the contributions of each component we proposed.
翻訳日:2022-12-30 08:02:26 公開日:2020-02-20
# メトリクスの問題はaiの基本的な問題である

The Problem with Metrics is a Fundamental Problem for AI ( http://arxiv.org/abs/2002.08512v1 )

ライセンス: Link先を確認
Rachel Thomas and David Uminsky(参考訳) メトリクスの最適化は、現在のほとんどのAIアプローチの中心的な側面であるが、メトリクスの過剰な強調は、操作、ゲーム、短期的な目標に対するミオニックな焦点、その他の予期せぬネガティブな結果につながる。 これはAI開発に根本的な矛盾をもたらす。 一連の実世界のケーススタディを通じて、メトリクスの実践における悪さのさまざまな側面と、オンライン環境と現在のビジネスプラクティスがこれらの失敗を悪化させる方法のさまざまな側面に注目します。 最後に、AIにおけるメトリクスの過度の強調による害を軽減するためのフレームワークを提案する。(1) メトリクスのスレートを使用して、より精細な画像を得る、(2) メトリクスを質的なアカウントと組み合わせる、(3) 利害関係者を含む様々な利害関係者を含む。

Optimizing a given metric is a central aspect of most current AI approaches, yet overemphasizing metrics leads to manipulation, gaming, a myopic focus on short-term goals, and other unexpected negative consequences. This poses a fundamental contradiction for AI development. Through a series of real-world case studies, we look at various aspects of where metrics go wrong in practice and aspects of how our online environment and current business practices are exacerbating these failures. Finally, we propose a framework towards mitigating the harms caused by overemphasis of metrics within AI by: (1) using a slate of metrics to get a fuller and more nuanced picture, (2) combining metrics with qualitative accounts, and (3) involving a range of stakeholders, including those who will be most impacted.
翻訳日:2022-12-30 08:01:42 公開日:2020-02-20
# グラフニューラルネットワークとフロー強化抽象構文木を用いたコードクローンの検出

Detecting Code Clones with Graph Neural Networkand Flow-Augmented Abstract Syntax Tree ( http://arxiv.org/abs/2002.08653v1 )

ライセンス: Link先を確認
Wenhan Wang, Ge Li, Bo Ma, Xin Xia, Zhi Jin(参考訳) コードクローンは意味的に類似したコードフラグメントペアであり、構文的に類似または異なる。 コードクローンの検出は、ソフトウェアのメンテナンスコストの削減とバグの防止に役立つ。 コードクローンを検出するための多くのアプローチが提案されているが、その多くは構文的クローンの検出に焦点を合わせており、異なる構文的特徴を持つ意味的クローンではうまく機能しない。 セマンティッククローンを検出するために、研究者はコードクローン検出にディープラーニングを導入し、データから潜伏するセマンティック機能を自動的に学習した。 特に文法情報を活用するために、いくつかのアプローチでは抽象構文木(AST)を入力として使用し、様々なプログラミング言語のコードクローンベンチマークにおいて大きな進歩を遂げた。 しかし、これらのASTベースのアプローチは、コードフラグメントの構造情報、特に制御フローやデータフローのようなセマンティック情報を完全に活用することはできない。 本稿では,制御とデータフロー情報を活用するため,flow-augmented abstract syntax tree (fa-ast) と呼ばれるプログラムのグラフ表現を構築する。 FA-ASTを明示的な制御とデータフローエッジで拡張することで構築する。 次に、FA-ASTに2種類のグラフニューラルネットワーク(GNN)を適用し、コードペアの類似性を測定する。 私たちが関心を持つ限り、コードクローン検出の領域にグラフニューラルネットワークを適用するのは初めてです。 FA-ASTとグラフニューラルネットワークを2つのJavaデータセット(Google Code JamとBigCloneBench)に適用します。 当社のアプローチは,Google Code JamとBigCloneBenchタスクの両面で,最先端のアプローチよりも優れています。

Code clones are semantically similar code fragments pairs that are syntactically similar or different. Detection of code clones can help to reduce the cost of software maintenance and prevent bugs. Numerous approaches of detecting code clones have been proposed previously, but most of them focus on detecting syntactic clones and do not work well on semantic clones with different syntactic features. To detect semantic clones, researchers have tried to adopt deep learning for code clone detection to automatically learn latent semantic features from data. Especially, to leverage grammar information, several approaches used abstract syntax trees (AST) as input and achieved significant progress on code clone benchmarks in various programming languages. However, these AST-based approaches still can not fully leverage the structural information of code fragments, especially semantic information such as control flow and data flow. To leverage control and data flow information, in this paper, we build a graph representation of programs called flow-augmented abstract syntax tree (FA-AST). We construct FA-AST by augmenting original ASTs with explicit control and data flow edges. Then we apply two different types of graph neural networks (GNN) on FA-AST to measure the similarity of code pairs. As far as we have concerned, we are the first to apply graph neural networks on the domain of code clone detection. We apply our FA-AST and graph neural networks on two Java datasets: Google Code Jam and BigCloneBench. Our approach outperforms the state-of-the-art approaches on both Google Code Jam and BigCloneBench tasks.
翻訳日:2022-12-30 08:00:58 公開日:2020-02-20
# クロスドメイン理解のための意味的一貫性に注目して

Focus on Semantic Consistency for Cross-domain Crowd Understanding ( http://arxiv.org/abs/2002.08623v1 )

ライセンス: Link先を確認
Tao Han, Junyu Gao, Yuan Yuan, Qi Wang(参考訳) ピクセルレベルの理解では、データ収集とアノテーションに時間と労力がかかります。 一部のドメイン適応アルゴリズムは、合成データを用いてモデルをトレーニングすることでそれを解放しようとするが、最近の研究の結果は実現可能性を示している。 しかし,背景領域における推定誤差が既存手法の性能を阻害していることが判明した。 本稿では,それを除去するための領域適応法を提案する。 本研究は,合成および実世界の群集領域における深層の特徴の類似した分布であるセマンティック一貫性に基づき,まず,高レベルのセマンティック情報において,群集と背景を効果的に識別するセマンティック抽出器を導入する。 さらに,適応モデルをさらに強化するために,意味空間の機能を調整するために,逆学習を採用する。 3つの代表的な実データを用いた実験により,提案した領域適応方式がクロスドメインカウント問題に対する最先端の課題を実現することを示す。

For pixel-level crowd understanding, it is time-consuming and laborious in data collection and annotation. Some domain adaptation algorithms try to liberate it by training models with synthetic data, and the results in some recent works have proved the feasibility. However, we found that a mass of estimation errors in the background areas impede the performance of the existing methods. In this paper, we propose a domain adaptation method to eliminate it. According to the semantic consistency, a similar distribution in deep layer's features of the synthetic and real-world crowd area, we first introduce a semantic extractor to effectively distinguish crowd and background in high-level semantic information. Besides, to further enhance the adapted model, we adopt adversarial learning to align features in the semantic space. Experiments on three representative real datasets show that the proposed domain adaptation scheme achieves the state-of-the-art for cross-domain counting problems.
翻訳日:2022-12-30 07:55:12 公開日:2020-02-20
# オンライン手書き数式認識のための脳卒中拘束注意ネットワーク

Stroke Constrained Attention Network for Online Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2002.08670v1 )

ライセンス: Link先を確認
Jiaming Wang and Jun Du and Jianshu Zhang(参考訳) 本稿では,エンコーダ・デコーダを用いたオンライン手書き数式認識(HMER)の基本単位としてストロークを取り扱う新しいストローク制約注意ネットワーク(SCAN)を提案する。 トレースポイントや画像ピクセルを基本単位として使用する従来の方法とは異なり、SCANはアライメントと表現を改善するためにストロークレベルの情報をフル活用している。 提案したSCANは、シングルモーダル(オンラインまたはオフライン)とマルチモーダルHMERの両方に適用できる。 単一モードのHMERでは、まずCNN-GRUエンコーダを使用してオンラインモードの入力トレースからポイントレベルの特徴を抽出し、CNNエンコーダを使用してオフラインモードの入力画像からピクセルレベルの特徴を抽出し、ストローク制約情報を使用してオンラインおよびオフラインのストロークレベルの特徴に変換する。 ストロークレベル機能を使用することで、同じストロークに属するポイントやピクセルを明示的にグループ化することができるため、マークのセグメンテーションやアテンション機構を備えたデコーダによる認識の困難さが軽減される。 マルチモーダルHMERでは、デコーダ内のマルチモーダル情報を融合する以外に、オンラインとオフラインのモダリティ間のストロークベースのアライメントを利用して、エンコーダ内のマルチモーダル情報を融合することもできる。 エンコーダ融合は、デコーダ融合の1ステップ前に情報インタラクションを実装するので、エンコーダ-デコーダモデルのトレーニングにおいて、複数のモダリティの利点を早くより適切に活用できるため、マルチモーダル情報を結合するより良い方法である。 CROHMEコンペティションによって発表されたベンチマークに基づいて、提案したSCANは最先端のパフォーマンスを達成する。

In this paper, we propose a novel stroke constrained attention network (SCAN) which treats stroke as the basic unit for encoder-decoder based online handwritten mathematical expression recognition (HMER). Unlike previous methods which use trace points or image pixels as basic units, SCAN makes full use of stroke-level information for better alignment and representation. The proposed SCAN can be adopted in both single-modal (online or offline) and multi-modal HMER. For single-modal HMER, SCAN first employs a CNN-GRU encoder to extract point-level features from input traces in online mode and employs a CNN encoder to extract pixel-level features from input images in offline mode, then use stroke constrained information to convert them into online and offline stroke-level features. Using stroke-level features can explicitly group points or pixels belonging to the same stroke, therefore reduces the difficulty of symbol segmentation and recognition via the decoder with attention mechanism. For multi-modal HMER, other than fusing multi-modal information in decoder, SCAN can also fuse multi-modal information in encoder by utilizing the stroke based alignments between online and offline modalities. The encoder fusion is a better way for combining multi-modal information as it implements the information interaction one step before the decoder fusion so that the advantages of multiple modalities can be exploited earlier and more adequately when training the encoder-decoder model. Evaluated on a benchmark published by CROHME competition, the proposed SCAN achieves the state-of-the-art performance.
翻訳日:2022-12-30 07:54:57 公開日:2020-02-20
# 皮膚病変分類のための双方向皮膚内視鏡的特徴学習とマルチスケール一貫性決定融合

Bi-directional Dermoscopic Feature Learning and Multi-scale Consistent Decision Fusion for Skin Lesion Segmentation ( http://arxiv.org/abs/2002.08694v1 )

ライセンス: Link先を確認
Xiaohong Wang, Xudong Jiang, Henghui Ding, and Jun Liu(参考訳) 皮膚鏡像からの皮膚病変の正確な分画は,悪性黒色腫のコンピュータ診断の重要な部分である。 異なる患者からの皮膚内視鏡画像は、解剖学的構造学習の困難と一貫した皮膚病変の脱線を引き起こすため、困難である。 本稿では,皮膚病変と情報的文脈との複雑な相関関係をモデル化する,双方向な特徴学習(biDFL)フレームワークを提案する。 2つの相補的な方向を通る特徴情報を制御することにより、実質的に豊かで判別的な特徴表現を実現する。 具体的には、高レベル解析性能を向上させるために、CNNネットワークの上部にbiDFLモジュールを配置する。 さらに,複数の分類層から発生する情報的決定に選択的に集中できるマルチスケール一貫した決定融合(mCDF)を提案する。 それぞれの位置における決定の整合性を分析することにより、mCDFは自動的に決定の信頼性を調整し、より洞察に富んだ皮膚病変のデライン化を可能にする。 包括的実験により,提案手法が皮膚病変の分節化に有効であることを示し,2つの公開画像データベース上で一貫して最先端のパフォーマンスを実現することを実証した。

Accurate segmentation of skin lesion from dermoscopic images is a crucial part of computer-aided diagnosis of melanoma. It is challenging due to the fact that dermoscopic images from different patients have non-negligible lesion variation, which causes difficulties in anatomical structure learning and consistent skin lesion delineation. In this paper, we propose a novel bi-directional dermoscopic feature learning (biDFL) framework to model the complex correlation between skin lesions and their informative context. By controlling feature information passing through two complementary directions, a substantially rich and discriminative feature representation is achieved. Specifically, we place biDFL module on the top of a CNN network to enhance high-level parsing performance. Furthermore, we propose a multi-scale consistent decision fusion (mCDF) that is capable of selectively focusing on the informative decisions generated from multiple classification layers. By analysis of the consistency of the decision at each position, mCDF automatically adjusts the reliability of decisions and thus allows a more insightful skin lesion delineation. The comprehensive experimental results show the effectiveness of the proposed method on skin lesion segmentation, achieving state-of-the-art performance consistently on two publicly available dermoscopic image databases.
翻訳日:2022-12-30 07:54:20 公開日:2020-02-20
# roto-translation equivariant convolutional networks : 病理組織学的画像解析への応用

Roto-Translation Equivariant Convolutional Networks: Application to Histopathology Image Analysis ( http://arxiv.org/abs/2002.08725v1 )

ライセンス: Link先を確認
Maxime W. Lafarge, Erik J. Bekkers, Josien P.W. Pluim, Remco Duits, Mitko Veta(参考訳) 回転不変性は、医学画像解析、特に計算病理学への応用において機械学習モデルの望ましい性質である。 畳み込みネットワークにおける特殊ユークリッド運動群 se(2) の幾何学的構造をエンコードする枠組みを提案し,se(2)-群畳み込み層の導入による変換と回転同分散を実現する。 この構造により、モデルは離散化された向きの次元で特徴表現を学習することができ、その出力が離散的な回転集合の下で不変であることを保証できる。 回転不変性に対する従来のアプローチは、主にデータ拡張に依存するが、入力が回転したときの出力のロバスト性を保証するものではない。 その際、訓練された従来のCNNは、全能力に到達するためにテストタイムのローテーションを必要とする可能性がある。 本研究は, 画像組織の任意の大域的方位情報を機械学習モデルで捉えないことが望ましい病理組織画像解析への応用に焦点をあてた。 提案手法は, 3種類の病理組織像解析タスク (ミトコンドリアの検出, 核分割, 腫瘍分類) で評価される。 本稿では,各問題の比較分析を行い,提案フレームワークを用いることで,一貫した性能向上が達成可能であることを示す。

Rotation-invariance is a desired property of machine-learning models for medical image analysis and in particular for computational pathology applications. We propose a framework to encode the geometric structure of the special Euclidean motion group SE(2) in convolutional networks to yield translation and rotation equivariance via the introduction of SE(2)-group convolution layers. This structure enables models to learn feature representations with a discretized orientation dimension that guarantees that their outputs are invariant under a discrete set of rotations. Conventional approaches for rotation invariance rely mostly on data augmentation, but this does not guarantee the robustness of the output when the input is rotated. At that, trained conventional CNNs may require test-time rotation augmentation to reach their full capability. This study is focused on histopathology image analysis applications for which it is desirable that the arbitrary global orientation information of the imaged tissues is not captured by the machine learning models. The proposed framework is evaluated on three different histopathology image analysis tasks (mitosis detection, nuclei segmentation and tumor classification). We present a comparative analysis for each problem and show that consistent increase of performances can be achieved when using the proposed framework.
翻訳日:2022-12-30 07:53:57 公開日:2020-02-20
# アイリス認識における深層学習に基づく特徴抽出:既存のモデル、ファインチューン、トレインをスクラッチから利用するか?

Deep Learning-Based Feature Extraction in Iris Recognition: Use Existing Models, Fine-tune or Train From Scratch? ( http://arxiv.org/abs/2002.08916v1 )

ライセンス: Link先を確認
Aidan Boyd, Adam Czajka, Kevin Bowyer(参考訳) 現代のディープラーニング技術は、虹彩認識のタスクに有効な特徴抽出器を生成するために用いられる。 このような構造を比較的大きな虹彩画像データセットでスクラッチからトレーニングするか、あるいは既存のモデルを微調整して新しいドメインに適合させるほうがよいのか? 本研究では,一般的なResNet-50アーキテクチャに対して,アイリス固有の特徴抽出器が非アイリスタスクでトレーニングされたモデルよりも優れているかどうかを5つの異なる重み付けで調べる。 各畳み込み層から特徴を抽出し、resnet-50モデルのトレーニングに使用したサンプルから外れたデータセット上でサポートベクターマシンによって達成された分類精度を測定する。 最適なトレーニング戦略は、既成の重みのセットを虹彩認識領域に微調整することである。 このアプローチは、既製重量とスクラッチからトレーニングされたモデルの両方よりも高い精度をもたらす。 勝利した微調整のアプローチは、アイリスの特徴抽出にオフ・ザ・棚(微調整されていない)モデルのみを使用した以前の作業と比較して、パフォーマンスの向上も示している。 我々は,36万枚以上の虹彩画像を微調整したResNet-50モデルを,本論文とともに公開している。

Modern deep learning techniques can be employed to generate effective feature extractors for the task of iris recognition. The question arises: should we train such structures from scratch on a relatively large iris image dataset, or it is better to fine-tune the existing models to adapt them to a new domain? In this work we explore five different sets of weights for the popular ResNet-50 architecture to find out whether iris-specific feature extractors perform better than models trained for non-iris tasks. Features are extracted from each convolutional layer and the classification accuracy achieved by a Support Vector Machine is measured on a dataset that is disjoint from the samples used in training of the ResNet-50 model. We show that the optimal training strategy is to fine-tune an off-the-shelf set of weights to the iris recognition domain. This approach results in greater accuracy than both off-the-shelf weights and a model trained from scratch. The winning, fine-tuned approach also shows an increase in performance when compared to previous work, in which only off-the-shelf (not fine-tuned) models were used in iris feature extraction. We make the best-performing ResNet-50 model, fine-tuned with more than 360,000 iris images, publicly available along with this paper.
翻訳日:2022-12-30 07:53:16 公開日:2020-02-20
# DNNに基づくHADシステムに対する認識の安全性向上戦略

Strategy to Increase the Safety of a DNN-based Perception for HAD Systems ( http://arxiv.org/abs/2002.08935v1 )

ライセンス: Link先を確認
Timo S\"amann, Peter Schlicht, Fabian H\"uger(参考訳) 安全は、高度自動化運転(HAD)システムにとって最も重要な開発目標の1つである。 これはディープニューラルネットワーク(DNN)によって駆動される知覚機能に特に当てはまる。 そのため、従来の安全プロセスや要件の大部分は、完全には適用できない。 本研究の目的は、DNNの安全性を高めるために、DNNの障害の説明と緩和、および関連する安全メカニズムの導出に関する枠組みを提示することである。 これらの安全メカニズムの有効性を評価するため,評価指標の分類手法を提案する。

Safety is one of the most important development goals for highly automated driving (HAD) systems. This applies in particular to the perception function driven by Deep Neural Networks (DNNs). For these, large parts of the traditional safety processes and requirements are not fully applicable or sufficient. The aim of this paper is to present a framework for the description and mitigation of DNN insufficiencies and the derivation of relevant safety mechanisms to increase the safety of DNNs. To assess the effectiveness of these safety mechanisms, we present a categorization scheme for evaluation metrics.
翻訳日:2022-12-30 07:52:50 公開日:2020-02-20
# 歩行者インテント予測のための時空間関係推論

Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction ( http://arxiv.org/abs/2002.08945v1 )

ライセンス: Link先を確認
Bingbin Liu, Ehsan Adeli, Zhangjie Cao, Kuan-Hui Lee, Abhijeet Shenoi, Adrien Gaidon, Juan Carlos Niebles(参考訳) 視覚データに対する推論は、ロボット工学と視覚ベースのアプリケーションにとって望ましい能力である。 このような推論は、ビデオ内の次のイベントやアクションの予測を可能にする。 近年、予測や予測のための畳み込み操作に基づく様々なモデルが開発されているが、時空間データを解析し、シーン内の異なる物体の関係を推測する能力は欠如している。 本稿では,歩行者の意図を推論する場面における時空間関係を明らかにするために,グラフ畳み込みに基づく枠組みを提案する。 シーングラフはビデオフレーム内のセグメント化されたオブジェクトインスタンスの上に構築される。 歩行者の意図は、道路を横断する、または横断しない将来の行動として定義されており、自動運転車が安全によりスムーズに移動するための重要な情報である。 2つの異なる視点から意図予測の問題にアプローチし,歩行者中心と位置中心の両方のシナリオにおける意図と交差を予測した。 さらに、人口密度の高い地域での自動運転シナリオに特化した新しいデータセットとして、Stanford-TRI Intent Prediction(STIP)データセットを導入する。 我々のSTIPおよび他のベンチマークデータセットを用いた実験により、我々のグラフモデリングフレームワークは、SSTIP上で79.10%の精度で歩行者を横断する意図を予測でき、また、実際の横断よりも1秒早く、自動運転(JAAD)のデータセット上で79.28%の精度を予測できることがわかった。 これらの結果は、ベースラインと以前の作業よりも優れています。 データセットとコードについてはhttp://stip.stanford.edu/を参照してください。

Reasoning over visual data is a desirable capability for robotics and vision-based applications. Such reasoning enables forecasting of the next events or actions in videos. In recent years, various models have been developed based on convolution operations for prediction or forecasting, but they lack the ability to reason over spatiotemporal data and infer the relationships of different objects in the scene. In this paper, we present a framework based on graph convolution to uncover the spatiotemporal relationships in the scene for reasoning about pedestrian intent. A scene graph is built on top of segmented object instances within and across video frames. Pedestrian intent, defined as the future action of crossing or not-crossing the street, is a very crucial piece of information for autonomous vehicles to navigate safely and more smoothly. We approach the problem of intent prediction from two different perspectives and anticipate the intention-to-cross within both pedestrian-centric and location-centric scenarios. In addition, we introduce a new dataset designed specifically for autonomous-driving scenarios in areas with dense pedestrian populations: the Stanford-TRI Intent Prediction (STIP) dataset. Our experiments on STIP and another benchmark dataset show that our graph modeling framework is able to predict the intention-to-cross of the pedestrians with an accuracy of 79.10% on STIP and 79.28% on \rev{Joint Attention for Autonomous Driving (JAAD) dataset up to one second earlier than when the actual crossing happens. These results outperform the baseline and previous work. Please refer to http://stip.stanford.edu/ for the dataset and code.
翻訳日:2022-12-30 07:52:42 公開日:2020-02-20
# Gaborカーネルは虹彩認識に最適か?

Are Gabor Kernels Optimal for Iris Recognition? ( http://arxiv.org/abs/2002.08959v1 )

ライセンス: Link先を確認
Aidan Boyd, Adam Czajka, Kevin Bowyer(参考訳) Gaborカーネルは虹彩認識のための支配的なフィルタとして広く受け入れられている。 本研究では,現在のニューラルネットワークへの関心を踏まえて,gaborカーネルが虹彩認識に最も適する関数群である場合や,より優れたフィルタを虹彩データから直接学習できる場合について検討する。 アイリスコードに基づくアルゴリズムを模倣した単一層畳み込みニューラルネットワークを(目的として)使用しています。 1つはランダムに初期化された重みから始まり、もう1つはGaborカーネルのオープンソースセットから学習する。 実験により、gaborカーネル上ではネットワークが収束せず、エッジ検出器、ブロブ検出器、単純な波の混合で収束することを示した。 実験の結果,これらの学習されたカーネルの性能は,オープンソースのGaborカーネルに匹敵することがわかった。 これらから2つの結論が得られます (a)虹彩認識における最適性能を提供する関数群はGaborカーネルよりも広く、 (b)単一畳み込み層を用いたアイリス符号化アルゴリズムの最大性能を達成できたが,フィルタは複数であった。 この作業でリリースされたフレームワークは、オープンソースのアイリス認識ソフトウェア(OSIRIS -- Open Source IRIS)に簡単に移植可能な、データ駆動カーネルを学習するフレームワークである。

Gabor kernels are widely accepted as dominant filters for iris recognition. In this work we investigate, given the current interest in neural networks, if Gabor kernels are the only family of functions performing best in iris recognition, or if better filters can be learned directly from iris data. We use (on purpose) a single-layer convolutional neural network as it mimics an iris code-based algorithm. We learn two sets of data-driven kernels; one starting from randomly initialized weights and the other from open-source set of Gabor kernels. Through experimentation, we show that the network does not converge on Gabor kernels, instead converging on a mix of edge detectors, blob detectors and simple waves. In our experiments carried out with three subject-disjoint datasets we found that the performance of these learned kernels is comparable to the open-source Gabor kernels. These lead us to two conclusions: (a) a family of functions offering optimal performance in iris recognition is wider than Gabor kernels, and (b) we probably hit the maximum performance for an iris coding algorithm that uses a single convolutional layer, yet with multiple filters. Released with this work is a framework to learn data-driven kernels that can be easily transplanted into open-source iris recognition software (for instance, OSIRIS -- Open Source IRIS).
翻訳日:2022-12-30 07:52:14 公開日:2020-02-20
# ヒト脳信号における概念表現の流動性

The Fluidity of Concept Representations in Human Brain Signals ( http://arxiv.org/abs/2002.08880v1 )

ライセンス: Link先を確認
Eva Hendrikx (1) and Lisa Beinborn (1) ((1) University of Amsterdam)(参考訳) 人間の言語処理の認知理論は、しばしば具体的概念と抽象的概念を区別する。 本研究では,fMRIデータにおける具体的および抽象的概念の識別可能性について,分析手法を用いて分析する。 信号の識別は,確率をはるかに上回る精度で復号できるが,クラスタリングや関係解析において関連する構造化因子とは見なされない。 詳細な比較から,人間の概念表現はdichotomousカテゴリよりも流動的であるという印象を得た。 我々は、流動的な概念表現は、自然言語使用におけるあいまいさと過度な特化を捉えやすいので、人間の言語処理のより現実的なモデルをもたらすと主張する。

Cognitive theories of human language processing often distinguish between concrete and abstract concepts. In this work, we analyze the discriminability of concrete and abstract concepts in fMRI data using a range of analysis methods. We find that the distinction can be decoded from the signal with an accuracy significantly above chance, but it is not found to be a relevant structuring factor in clustering and relational analyses. From our detailed comparison, we obtain the impression that human concept representations are more fluid than dichotomous categories can capture. We argue that fluid concept representations lead to more realistic models of human language processing because they better capture the ambiguity and underspecification present in natural language use.
翻訳日:2022-12-30 07:44:52 公開日:2020-02-20
# 自動サイバー応答に関するモデルに基づく意思決定論的視点

A Model-Based, Decision-Theoretic Perspective on Automated Cyber Response ( http://arxiv.org/abs/2002.08957v1 )

ライセンス: Link先を確認
Lashon B. Booker and Scott A. Musman(参考訳) サイバー攻撃は、人間がループ内(またはループ上)で決定を下すにはあまりにも高速であるマシンスピードで起こりうる。 人間の入力は依然として重要であるが、防衛人工知能(AI)システムはこれらの状況においてかなりの自律性を持つ必要がある。 AIシステムがモデルベースである場合、その行動応答は、システムや敵、ミッションを理解する上で重要な側面を捉えた、ユーザが提供する好みによって定義されるリスク対応コスト/利益トレードオフに一致させることができる。 本稿では,これらに沿って設計された自動サイバー応答手法について述べる。 我々は,防衛対象のシステムをオンラインプランナーと組み合わせて,部分的に観測可能なマルコフ決定問題(POMDP)を特徴とするサイバー防御問題を解く。

Cyber-attacks can occur at machine speeds that are far too fast for human-in-the-loop (or sometimes on-the-loop) decision making to be a viable option. Although human inputs are still important, a defensive Artificial Intelligence (AI) system must have considerable autonomy in these circumstances. When the AI system is model-based, its behavior responses can be aligned with risk-aware cost/benefit tradeoffs that are defined by user-supplied preferences that capture the key aspects of how human operators understand the system, the adversary and the mission. This paper describes an approach to automated cyber response that is designed along these lines. We combine a simulation of the system to be defended with an anytime online planner to solve cyber defense problems characterized as partially observable Markov decision problems (POMDPs).
翻訳日:2022-12-30 07:44:15 公開日:2020-02-20
# ディープネットワークを用いた惑星間移動のリアルタイム最適誘導と制御

Real-Time Optimal Guidance and Control for Interplanetary Transfers Using Deep Networks ( http://arxiv.org/abs/2002.09063v1 )

ライセンス: Link先を確認
Dario Izzo and Ekin \"Ozt\"urk(参考訳) 我々は、低推力宇宙船の地球-金星質量-最適惑星間移動を考察し、状態空間の大部分と高い精度で、どのように最適な誘導を深層ネットワークで表現できるかを示す。 最適例の模倣(教師付き)学習は、ネットワークトレーニングパラダイムとして使用される。 得られたモデルは、宇宙船の最適誘導制御システムの実装をオンボードでリアルタイムに行うのに適したもので、G&CNETと呼ばれる。 Backward Generation of Optimal Examplesと呼ばれる新しい一般的な手法を導入し、最適制御問題を解くことなく、G&CNETのトレーニングに必要な全ての最適な状態アクションペアを効率的に作成できることを示した。 これまでの研究では、数桁の最適な軌道を含むデータセットを作成でき、実際のミッション要求に適合するネットワーク性能を得ることができる。 最適ポリシー(スラストプロファイル)または値関数(最適質量)の表現を訓練できるいくつかのスキームを提案しテストした。 方針学習と価値関数学習の両方が最適推力の学習を成功かつ正確に行い、学習された推力を用いた宇宙船は、対応する数学的な最適推力よりも2パーミルの推進剤しか消費しない目標条件に到達できることを見出した。 さらに、最適な推進剤質量は1%以内の誤差で予測できる(値関数学習の場合)。 全てのG&CNETは、惑星間移動のシミュレーション中に、名目上および外部の条件から最適に目標条件に到達する能力について試験される。

We consider the Earth-Venus mass-optimal interplanetary transfer of a low-thrust spacecraft and show how the optimal guidance can be represented by deep networks in a large portion of the state space and to a high degree of accuracy. Imitation (supervised) learning of optimal examples is used as a network training paradigm. The resulting models are suitable for an on-board, real-time, implementation of the optimal guidance and control system of the spacecraft and are called G&CNETs. A new general methodology called Backward Generation of Optimal Examples is introduced and shown to be able to efficiently create all the optimal state action pairs necessary to train G&CNETs without solving optimal control problems. With respect to previous works, we are able to produce datasets containing a few orders of magnitude more optimal trajectories and obtain network performances compatible with real missions requirements. Several schemes able to train representations of either the optimal policy (thrust profile) or the value function (optimal mass) are proposed and tested. We find that both policy learning and value function learning successfully and accurately learn the optimal thrust and that a spacecraft employing the learned thrust is able to reach the target conditions orbit spending only 2 permil more propellant than in the corresponding mathematically optimal transfer. Moreover, the optimal propellant mass can be predicted (in case of value function learning) within an error well within 1%. All G&CNETs produced are tested during simulations of interplanetary transfers with respect to their ability to reach the target conditions optimally starting from nominal and off-nominal conditions.
翻訳日:2022-12-30 07:44:01 公開日:2020-02-20
# 言葉のようにオブジェクトを表現する: 画像テキストマッチングのための繰り返しビジュアル埋め込み

Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching ( http://arxiv.org/abs/2002.08510v1 )

ライセンス: Link先を確認
Tianlang Chen, Jiebo Luo(参考訳) 既存の画像テキストマッチングアプローチは、通常、画像のテキストと独立したオブジェクト間の親和性をキャプチャして集約することで、画像テキストペアの類似性を推測する。 しかし、意味的に関連しているオブジェクト間の接続を無視する。 これらのオブジェクトは、画像がテキストに対応するかどうかをまとめて判断することができる。 この問題に対処するために, 画像と文をRNN(Recurrent Neural Network)により対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。 特に,入力された画像とテキストのペアが与えられた場合,最も関連性の高い単語の位置に基づいて画像オブジェクトを並べ替える。 単語埋め込みから隠れた特徴を抽出するのと同じように、モデルはrnnを利用して再順序付けされたオブジェクト入力から高レベルなオブジェクト特徴を抽出する。 我々は,高レベルオブジェクトの特徴が意味的関連オブジェクトの有用な結合情報を含んでいることを検証する。 画像とテキストの類似性を計算するために,マルチアテンション・クロスマッチング・モデルをDP-RNNに組み込む。 オブジェクトと単語間の親和性を、モダリティに導かれた注意と自己注意で集約する。 我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。 大規模な実験は、我々のモデルの有効性を実証する。

Existing image-text matching approaches typically infer the similarity of an image-text pair by capturing and aggregating the affinities between the text and each independent object of the image. However, they ignore the connections between the objects that are semantically related. These objects may collectively determine whether the image corresponds to a text or not. To address this problem, we propose a Dual Path Recurrent Neural Network (DP-RNN) which processes images and sentences symmetrically by recurrent neural networks (RNN). In particular, given an input image-text pair, our model reorders the image objects based on the positions of their most related words in the text. In the same way as extracting the hidden features from word embeddings, the model leverages RNN to extract high-level object features from the reordered object inputs. We validate that the high-level object features contain useful joint information of semantically related objects, which benefit the retrieval task. To compute the image-text similarity, we incorporate a Multi-attention Cross Matching Model into DP-RNN. It aggregates the affinity between objects and words with cross-modality guided attention and self-attention. Our model achieves the state-of-the-art performance on Flickr30K dataset and competitive performance on MS-COCO dataset. Extensive experiments demonstrate the effectiveness of our model.
翻訳日:2022-12-30 07:43:33 公開日:2020-02-20
# オブジェクト検出のためのClick Supervisionによるオブジェクトスケール学習

Learning Object Scale With Click Supervision for Object Detection ( http://arxiv.org/abs/2002.08555v1 )

ライセンス: Link先を確認
Liao Zhang, Yan Yan, Lin Cheng, and Hanzi Wang(参考訳) 画像レベルのアノテーションのみを必要とするため、弱められたオブジェクト検出が近年注目を集めている。 しかし,既存の手法で得られる性能は,完全に教師された物体検出法と比較しても十分ではない。 アノテーションコストとオブジェクト検出性能の良好なトレードオフを実現するため,CNN視覚化をクリック管理に組み込んで擬似地下構造(つまり境界ボックス)を生成する手法を提案する。 これらの擬似地下構造は、完全に監視された検出器の訓練に使用できる。 オブジェクトスケールを推定するために,まず,高品質な提案を保存するための提案選択アルゴリズムを採用し,その後に空間的注意カメラと呼ばれるcnn可視化アルゴリズムによって保存された提案に対してクラスアクティベーションマップ(cams)を生成する。 最後に、これらのCAMを融合させて擬似地中構造を生成し、それらの地中構造を持つ全監督対象検出器を訓練する。 pascal voc2007 と voc 2012 のデータセットにおける実験結果から,提案手法は,最先端画像レベル法と中心クリック法と比較して,より高精度な物体スケール推定が可能であった。

Weakly-supervised object detection has recently attracted increasing attention since it only requires image-levelannotations. However, the performance obtained by existingmethods is still far from being satisfactory compared with fully-supervised object detection methods. To achieve a good trade-off between annotation cost and object detection performance,we propose a simple yet effective method which incorporatesCNN visualization with click supervision to generate the pseudoground-truths (i.e., bounding boxes). These pseudo ground-truthscan be used to train a fully-supervised detector. To estimatethe object scale, we firstly adopt a proposal selection algorithmto preserve high-quality proposals, and then generate ClassActivation Maps (CAMs) for these preserved proposals by theproposed CNN visualization algorithm called Spatial AttentionCAM. Finally, we fuse these CAMs together to generate pseudoground-truths and train a fully-supervised object detector withthese ground-truths. Experimental results on the PASCAL VOC2007 and VOC 2012 datasets show that the proposed methodcan obtain much higher accuracy for estimating the object scale,compared with the state-of-the-art image-level based methodsand the center-click based method
翻訳日:2022-12-30 07:42:50 公開日:2020-02-20
# 確率ルンゲ・クッタ法と適応SGD-G2確率勾配勾配

Stochastic Runge-Kutta methods and adaptive SGD-G2 stochastic gradient descent ( http://arxiv.org/abs/2002.09304v1 )

ライセンス: Link先を確認
Imen Ayadi (CEREMADE), Gabriel Turinici (CEREMADE)(参考訳) 損失関数の最小化はディープニューラルネットワークにおいて極めて重要である。 一方、多くの一般的な最適化アルゴリズムは勾配流型の進化方程式に対応することが示されている。 一般進化方程式で用いられる数値スキームに着想を得て、二階確率ルンゲ・クッタ法を導入し、損失関数の最小化のための一貫した手順を導出することを示す。 さらに、適応的なフレームワークでSGD(Stochastic Gradient Descent)と結合することで、損失関数のHessianに関する追加情報を必要とせずに、SGDの学習速度を自動的に調整することができる。 適応型SGDはSGD-G2と呼ばれ、標準データセット上でうまくテストされている。

The minimization of the loss function is of paramount importance in deep neural networks. On the other hand, many popular optimization algorithms have been shown to correspond to some evolution equation of gradient flow type. Inspired by the numerical schemes used for general evolution equations we introduce a second order stochastic Runge Kutta method and show that it yields a consistent procedure for the minimization of the loss function. In addition it can be coupled, in an adaptive framework, with a Stochastic Gradient Descent (SGD) to adjust automatically the learning rate of the SGD, without the need of any additional information on the Hessian of the loss functional. The adaptive SGD, called SGD-G2, is successfully tested on standard datasets.
翻訳日:2022-12-30 07:35:35 公開日:2020-02-20
# 機械学習によるH\'enonマップの極端な事象の予測

Using Machine Learning to predict extreme events in the H\'enon map ( http://arxiv.org/abs/2002.10268v1 )

ライセンス: Link先を確認
Martin Lellep, Jonathan Prexl, Moritz Linkmann, and Bruno Eckhardt(参考訳) 機械学習(ML)にインスパイアされたアルゴリズムは、カオス力学系を分析し予測するための柔軟なツールセットを提供する。 本稿では,古典パラメータの2次元H'enonマップにおける極端な事象の予測のための1つのアルゴリズムの性能を解析する。 そのタスクは、軌道が一定の時間ステップの後にしきい値を超えるかどうかを判断することである。 このタスクは、H\'enonマップのダイナミックス内の幾何学的解釈を持ち、この作業で使用されるニューラルネットワークの性能を測定するために使用します。 予測時間$T$,トレーニングサンプル数$N_T$,ネットワークサイズ$N_p$に基づいて,MLモデルの成功率の依存性を分析する。 一定の精度を維持するために、$N_T \propto exp(2 h T)$ と $N_p \propto exp(hT)$ とすると、$h$ は位相エントロピーである。 力学の内在的なカオス特性とMLパラメータの類似関係は他の系でも観測可能である。

Machine Learning (ML) inspired algorithms provide a flexible set of tools for analyzing and forecasting chaotic dynamical systems. We here analyze the performance of one algorithm for the prediction of extreme events in the two-dimensional H\'enon map at the classical parameters. The task is to determine whether a trajectory will exceed a threshold after a set number of time steps into the future. This task has a geometric interpretation within the dynamics of the H\'enon map, which we use to gauge the performance of the neural networks that are used in this work. We analyze the dependence of the success rate of the ML models on the prediction time $T$ , the number of training samples $N_T$ and the size of the network $N_p$. We observe that in order to maintain a certain accuracy, $N_T \propto exp(2 h T)$ and $N_p \propto exp(hT)$, where $h$ is the topological entropy. Similar relations between the intrinsic chaotic properties of the dynamics and ML parameters might be observable in other systems as well.
翻訳日:2022-12-30 07:35:20 公開日:2020-02-20
# 電力価格の日内分布密度予測

Forecasting the Intra-Day Spread Densities of Electricity Prices ( http://arxiv.org/abs/2002.10566v1 )

ライセンス: Link先を確認
Ekaterina Abramova, Derek Bunn(参考訳) 日内物価の上昇は、電気トレーダー、貯蔵業者、電気自動車オペレーターにとって興味深い。 本稿では,スキュードtおよび類似表現に基づく動的密度関数を定式化し,その日の異なる時間間におけるドイツの電力価格の分布をモデル化し,予測する。 密度関数の4つの仕様は外因性ドライバに対して動的かつ条件付きであるため、密度の位置、スケール、形状パラメータは天気や需要予測といった要因に時間的に応答することができる。 累積分布関数の閉形式解析解に従って,各スプレッドに対する最適なフィッティングおよび予測仕様をピンボールロス関数に基づいて選択する。

Intra-day price spreads are of interest to electricity traders, storage and electric vehicle operators. This paper formulates dynamic density functions, based upon skewed-t and similar representations, to model and forecast the German electricity price spreads between different hours of the day, as revealed in the day-ahead auctions. The four specifications of the density functions are dynamic and conditional upon exogenous drivers, thereby permitting the location, scale and shape parameters of the densities to respond hourly to such factors as weather and demand forecasts. The best fitting and forecasting specifications for each spread are selected based on the Pinball Loss function, following the closed-form analytical solutions of the cumulative distribution functions.
翻訳日:2022-12-30 07:35:04 公開日:2020-02-20
# 非局所的注意による物体6次元姿勢推定

Object 6D Pose Estimation with Non-local Attention ( http://arxiv.org/abs/2002.08749v1 )

ライセンス: Link先を確認
Jianhan Mei, Henghui Ding, Xudong Jiang(参考訳) 本稿では、1枚のRGB画像から6Dオブジェクトのポーズを推定する難しい課題に対処する。 深層学習に基づくオブジェクト検出手法により,6次元オブジェクトのポーズパラメータ推定をオブジェクト検出フレームワークに組み込む,簡潔で効率的なネットワークを提案する。 さらに、咬合に対するより堅牢な推定のために、非局所的自己照応モジュールを導入する。 実験の結果,提案手法はycb-videoとlinemodデータセットの最先端性能に到達した。

In this paper, we address the challenging task of estimating 6D object pose from a single RGB image. Motivated by the deep learning based object detection methods, we propose a concise and efficient network that integrate 6D object pose parameter estimation into the object detection framework. Furthermore, for more robust estimation to occlusion, a non-local self-attention module is introduced. The experimental results show that the proposed method reaches the state-of-the-art performance on the YCB-video and the Linemod datasets.
翻訳日:2022-12-30 07:34:33 公開日:2020-02-20
# 胸部x線画像分類のための異なるディープラーニングアーキテクチャの比較

Comparing Different Deep Learning Architectures for Classification of Chest Radiographs ( http://arxiv.org/abs/2002.08991v1 )

ライセンス: Link先を確認
Keno K. Bressem, Lisa Adams, Christoph Erxleben, Bernd Hamm, Stefan Niehues, Janis Vahldiek(参考訳) 胸部x線撮影は放射線学で最も頻繁に取得された画像の一つであり、しばしばコンピュータビジョン研究の対象となっている。 しかし、胸部X線画像の分類に用いられるモデルのほとんどは、大きな画像データセットに基づいてトレーニングされた、公開可能なディープニューラルネットワークに由来する。 これらのデータセットは、主にカラー画像であり、いくつかの画像クラスを含むという点で胸部X線写真と通常異なるが、X線写真はグレースケールの画像であり、しばしば少ない画像クラスしか含まない。 したがって、画像特徴におけるより複雑な関係を表現できる非常に深いニューラルネットワークは、グレースケール胸部X線撮影の比較的単純なタスクには必要ではないかもしれない。 我々は、CheXpertデータセットのトレーニング時間とパフォーマンスに関する15の異なるニューラルネットワークアーキテクチャを比較し、胸部X線写真におけるディープラーニングタスクに最適なモデルを特定した。 我々は、ResNet-34、AlexNet、VGG-16のような小さなネットワークが、胸部ラジオグラフをDenseNet-201やResNet-151のようなより深いニューラルネットワークと正確に分類する可能性を持っていることを示した。

Chest radiographs are among the most frequently acquired images in radiology and are often the subject of computer vision research. However, most of the models used to classify chest radiographs are derived from openly available deep neural networks, trained on large image-datasets. These datasets routinely differ from chest radiographs in that they are mostly color images and contain several possible image classes, while radiographs are greyscale images and often only contain fewer image classes. Therefore, very deep neural networks, which can represent more complex relationships in image-features, might not be required for the comparatively simpler task of classifying grayscale chest radiographs. We compared fifteen different architectures of artificial neural networks regarding training-time and performance on the openly available CheXpert dataset to identify the most suitable models for deep learning tasks on chest radiographs. We could show, that smaller networks such as ResNet-34, AlexNet or VGG-16 have the potential to classify chest radiographs as precisely as deeper neural networks such as DenseNet-201 or ResNet-151, while being less computationally demanding.
翻訳日:2022-12-30 07:34:23 公開日:2020-02-20
# 正規化ワッサースタイン推定器の確率最適化

Stochastic Optimization for Regularized Wasserstein Estimators ( http://arxiv.org/abs/2002.08695v1 )

ライセンス: Link先を確認
Marin Ballu, Quentin Berthet, Francis Bach(参考訳) 最適輸送は最適化の基本的な問題であり、幾何学的側面を考慮して確率分布を比較することができる。 その最適目的値であるワッサーシュタイン距離は、機械学習と統計学を通じて多くのアプリケーションで使われている分布間で重要な損失をもたらす。 この問題のアルゴリズム的進歩とその正規化バージョンは、これらのツールをますます人気を高めている。 しかし、既存の手法では損失の1つの勾配を求めるために最適化問題を解く必要があり、これにより損失の和を最小化するために一階法を遅くする。 本研究では,問題の自然次元において部分線型であるステップ毎の時間とともに,この問題の正規化バージョンを解くアルゴリズムを提案する。 二重定式化を導入し、各ステップで追加の最適化問題を解くことなく、サンプルから直接計算できる確率勾配ステップで最適化する。 これにより、推定処理と計算処理を共同で行う。 このアルゴリズムがwasserstein barycentersの推定を含む他のタスクにも拡張可能であることを示す。 理論的な保証を提供し、合成データの実験によりアルゴリズムの性能を実証する。

Optimal transport is a foundational problem in optimization, that allows to compare probability distributions while taking into account geometric aspects. Its optimal objective value, the Wasserstein distance, provides an important loss between distributions that has been used in many applications throughout machine learning and statistics. Recent algorithmic progress on this problem and its regularized versions have made these tools increasingly popular. However, existing techniques require solving an optimization problem to obtain a single gradient of the loss, thus slowing down first-order methods to minimize the sum of losses, that require many such gradient computations. In this work, we introduce an algorithm to solve a regularized version of this problem of Wasserstein estimators, with a time per step which is sublinear in the natural dimensions of the problem. We introduce a dual formulation, and optimize it with stochastic gradient steps that can be computed directly from samples, without solving additional optimization problems at each step. Doing so, the estimation and computation tasks are performed jointly. We show that this algorithm can be extended to other tasks, including estimation of Wasserstein barycenters. We provide theoretical guarantees and illustrate the performance of our algorithm with experiments on synthetic data.
翻訳日:2022-12-30 07:26:55 公開日:2020-02-20
# 逆数サンプル検出の認定に向けて

Towards Certifiable Adversarial Sample Detection ( http://arxiv.org/abs/2002.08740v1 )

ライセンス: Link先を確認
Ilia Shumailov, Yiren Zhao, Robert Mullins, Ross Anderson(参考訳) 畳み込みニューラルネットワーク(CNN)は、ますます多くの分類システムに展開されているが、敵のサンプルを悪用してそれらを騙し、真の脅威になりつつある。 CNNの敵対的堅牢性を改善するための様々な提案があるが、これらはすべてパフォーマンス上のペナルティやその他の制限を被っている。 本稿では,認証可能な逆検出方式である認証可能なタブートラップ(ctt)という新しい手法を提案する。 このシステムは、合理的な仮定で、特定の$l_{\infty}$サイズ、すなわち、トレーニングデータがテストデータと同一の分布を有することを保証できる。 本研究は,様々な防衛能力,訓練オーバーヘッド,対側サンプルに対する正当性を備えたCTTの複数バージョンを開発し,評価する。 様々な$l_p$ノルムを持つ敵に対して、CTTはネットワークの堅牢性の改善に純粋にフォーカスする既存の防御手法より優れている。 CTTはクリーンなテストデータに対する偽陽性率が少なく、デプロイ時の計算オーバーヘッドが最小であり、複雑なセキュリティポリシーをサポートすることができる。

Convolutional Neural Networks (CNNs) are deployed in more and more classification systems, but adversarial samples can be maliciously crafted to trick them, and are becoming a real threat. There have been various proposals to improve CNNs' adversarial robustness but these all suffer performance penalties or other limitations. In this paper, we provide a new approach in the form of a certifiable adversarial detection scheme, the Certifiable Taboo Trap (CTT). The system can provide certifiable guarantees of detection of adversarial inputs for certain $l_{\infty}$ sizes on a reasonable assumption, namely that the training data have the same distribution as the test data. We develop and evaluate several versions of CTT with a range of defense capabilities, training overheads and certifiability on adversarial samples. Against adversaries with various $l_p$ norms, CTT outperforms existing defense methods that focus purely on improving network robustness. We show that CTT has small false positive rates on clean test data, minimal compute overheads when deployed, and can support complex security policies.
翻訳日:2022-12-30 07:26:37 公開日:2020-02-20
# 深層強化学習に対する戦略的時間的攻撃の強化

Enhanced Adversarial Strategically-Timed Attacks against Deep Reinforcement Learning ( http://arxiv.org/abs/2002.09027v1 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Jun Qi, Pin-Yu Chen, Yi Ouyang, I-Te Danny Hung, Chin-Hui Lee, Xiaoli Ma(参考訳) Recent deep neural networks based techniques, especially those equipped with the ability of self-adaptation in the system level such as deep reinforcement learning (DRL), are shown to possess many advantages of optimizing robot learning systems (e.g., autonomous navigation and continuous robot arm control.) However, the learning-based systems and the associated models may be threatened by the risks of intentionally adaptive (e.g., noisy sensor confusion) and adversarial perturbations from real-world scenarios. 本稿では,選択した時間枠上の物理ノイズパターンを妨害することにより,drlに基づくナビゲーションシステムに対するタイミングに基づく敵戦略を提案する。 学習に基づくナビゲーションシステムの脆弱性を研究するために,オンライン学習,進化学習に基づく2つの対戦エージェントモデルを提案する。 さらに、3つのオープンソースのロボット学習とナビゲーション制御環境を使用して、敵のタイミング攻撃による脆弱性を研究する。 実験結果から,ロボット学習システムの堅牢性向上の必要性が示唆された。

Recent deep neural networks based techniques, especially those equipped with the ability of self-adaptation in the system level such as deep reinforcement learning (DRL), are shown to possess many advantages of optimizing robot learning systems (e.g., autonomous navigation and continuous robot arm control.) However, the learning-based systems and the associated models may be threatened by the risks of intentionally adaptive (e.g., noisy sensor confusion) and adversarial perturbations from real-world scenarios. In this paper, we introduce timing-based adversarial strategies against a DRL-based navigation system by jamming in physical noise patterns on the selected time frames. To study the vulnerability of learning-based navigation systems, we propose two adversarial agent models: one refers to online learning; another one is based on evolutionary learning. Besides, three open-source robot learning and navigation control environments are employed to study the vulnerability under adversarial timing attacks. Our experimental results show that the adversarial timing attacks can lead to a significant performance drop, and also suggest the necessity of enhancing the robustness of robot learning systems.
翻訳日:2022-12-30 07:24:30 公開日:2020-02-20
# sKPNSGA-II: ミッションプランニング問題に対する自己適応角度を有するニーポイントベースMOEA

sKPNSGA-II: Knee point based MOEA with self-adaptive angle for Mission Planning Problems ( http://arxiv.org/abs/2002.08867v1 )

ライセンス: Link先を確認
Cristian Ramirez-Atencia and Sanaz Mostaghim and David Camacho(参考訳) 現実世界や複雑な問題は通常、一度に最適化しなければならない多くの客観的関数を持つ。 過去数十年にわたり、MOEA(Multi-Objective Evolutionary Algorithms)はこの種の問題を解決するように設計されている。 しかしながら、いくつかの問題には最適化アルゴリズムによって得られる多くの非支配的解をもたらす多くの目的がある。 非支配的なソリューションの大きなセットは、意思決定者による最も適切なソリューションの選択を妨げる。 本稿では,pareto optimal frontier (pof) から最も重要な解を得るための新しいアルゴリズムを提案する。 このアプローチは、膝点解を見つけることができるmoeaに適用されるコーンドーミネーションに基づいている。 最適な円錐角を得るために,進化過程における角度の自己適応に使用される超体積分布計量を提案する。 このアルゴリズムは無人航空機(UAV)ミッション計画問題における実世界の応用に応用されている。 実験の結果,ハイパーボリューム,解数,収束に必要な世代数といった点でアルゴリズムの性能が大幅に向上した。

Real-world and complex problems have usually many objective functions that have to be optimized all at once. Over the last decades, Multi-Objective Evolutionary Algorithms (MOEAs) are designed to solve this kind of problems. Nevertheless, some problems have many objectives which lead to a large number of non-dominated solutions obtained by the optimization algorithms. The large set of non-dominated solutions hinders the selection of the most appropriate solution by the decision maker. This paper presents a new algorithm that has been designed to obtain the most significant solutions from the Pareto Optimal Frontier (POF). This approach is based on the cone-domination applied to MOEA, which can find the knee point solutions. In order to obtain the best cone angle, we propose a hypervolume-distribution metric, which is used to self-adapt the angle during the evolving process. This new algorithm has been applied to the real world application in Unmanned Air Vehicle (UAV) Mission Planning Problem. The experimental results show a significant improvement of the algorithm performance in terms of hypervolume, number of solutions, and also the required number of generations to converge.
翻訳日:2022-12-30 07:18:35 公開日:2020-02-20
# 強化学習と木探索を用いたロボット支援手術における自動ジェスチャー認識

Automatic Gesture Recognition in Robot-assisted Surgery with Reinforcement Learning and Tree Search ( http://arxiv.org/abs/2002.08718v1 )

ライセンス: Link先を確認
Xiaojie Gao, Yueming Jin, Qi Dou, and Pheng-Ann Heng(参考訳) 自動ジェスチャー認識は、手術監視や技能評価の複雑なタスクを行うなど、ロボット支援手術における知性向上に不可欠である。 しかし、現在の手法では、各フレームを個別に扱い、将来の情報を効果的に考慮せずに結果を生成する。 本稿では,強化学習と木探索に基づく,関節外科的ジェスチャーセグメンテーションと分類のための枠組みを提案する。 エージェントは、ツリーサーチによって直接決定が適切に再考される人のような方法で、手術ビデオの分類と分類を訓練される。 提案する木探索アルゴリズムは,2つのニューラルネットワーク,すなわちポリシとバリューネットワークの出力を結合する。 異なるモデルから補完的な情報を統合することにより、ニューラルネットワークのどちらかを使用したベースライン手法よりも優れたパフォーマンスを実現することができる。 総合評価では,JIGSAWSデータセットの縫合タスクにおいて,精度,編集スコア,F1スコアの点で,既存の手法を一貫して上回っている。 本研究は,手術ロボット用強化学習フレームワークの動作改善のための木探索の活用を強調する。

Automatic surgical gesture recognition is fundamental for improving intelligence in robot-assisted surgery, such as conducting complicated tasks of surgery surveillance and skill evaluation. However, current methods treat each frame individually and produce the outcomes without effective consideration on future information. In this paper, we propose a framework based on reinforcement learning and tree search for joint surgical gesture segmentation and classification. An agent is trained to segment and classify the surgical video in a human-like manner whose direct decisions are re-considered by tree search appropriately. Our proposed tree search algorithm unites the outputs from two designed neural networks, i.e., policy and value network. With the integration of complementary information from distinct models, our framework is able to achieve the better performance than baseline methods using either of the neural networks. For an overall evaluation, our developed approach consistently outperforms the existing methods on the suturing task of JIGSAWS dataset in terms of accuracy, edit score and F1 score. Our study highlights the utilization of tree search to refine actions in reinforcement learning framework for surgical robotic applications.
翻訳日:2022-12-30 07:18:07 公開日:2020-02-20
# あなたはAIに準拠していますか? --学習アルゴリズムのパーソナライズされた説明と従業員のコンプライアンス行動への影響

Do you comply with AI? -- Personalized explanations of learning algorithms and their impact on employees' compliance behavior ( http://arxiv.org/abs/2002.08777v1 )

ライセンス: Link先を確認
NIklas Kuhl, Jodie Lobana, and Christian Meske(参考訳) 機械学習アルゴリズムは、人工知能(AI)の技術的キーイネーブルである。 固有の複雑さのため、これらの学習アルゴリズムはブラックボックスを表現し、理解しにくいため、コンプライアンス行動に影響を与える。 したがって、従業員のタスクパフォーマンスに大きな影響を与えるような、そのようなアーティファクトのレコメンデーションの遵守は研究の対象であり、この点においてAI説明のパーソナライズが有望な概念であると考えられる。 私たちの研究では、トレーニング、ドメイン知識、人口統計学的特徴といった様々な背景に基づいて、個人は学習アルゴリズムについて異なる理解を持ち、それゆえメンタルモデルを持っていると仮定しています。 個人のメンタルモデルに関連するAI説明のパーソナライズは、コンプライアンスや従業員のタスクパフォーマンスに影響を与えるための手段となるかもしれない。 予備的な結果は,産業環境におけるパーソナライズされた説明の重要性を示し,本研究の重要性を強調している。

Machine Learning algorithms are technological key enablers for artificial intelligence (AI). Due to the inherent complexity, these learning algorithms represent black boxes and are difficult to comprehend, therefore influencing compliance behavior. Hence, compliance with the recommendations of such artifacts, which can impact employees' task performance significantly, is still subject to research - and personalization of AI explanations seems to be a promising concept in this regard. In our work, we hypothesize that, based on varying backgrounds like training, domain knowledge and demographic characteristics, individuals have different understandings and hence mental models about the learning algorithm. Personalization of AI explanations, related to the individuals' mental models, may thus be an instrument to affect compliance and therefore employee task performance. Our preliminary results already indicate the importance of personalized explanations in industry settings and emphasize the importance of this research endeavor.
翻訳日:2022-12-30 07:17:50 公開日:2020-02-20
# 強力な知性への道のり

A Road Map to Strong Intelligence ( http://arxiv.org/abs/2002.09044v1 )

ライセンス: Link先を確認
Philip Paquette(参考訳) 私はこの論文を書いた。テクノロジーは人々の生活を本当に改善できるからだ。 それによって、私たちは健康な体の中で長生きし、効率と自動化を増すことによって時間を節約し、より良い決定を下すことができます。 次のレベルに達するには、より広い視点からインテリジェンスに注目し始め、国際学際的なコラボレーションを促進する必要があります。 この論文の第1節では、社会学と社会心理学を掘り下げ、知性に根ざしたメカニズムが本質的に社会的であることを説明する。 第2節ではインテリジェンスを分類する方法を提案し、弱いインテリジェンスと強いインテリジェンスの違いを説明する。 第3節では、中国室論争を異なる観点から検討する。 チューリング完全機械は強力な知性を持つことができないことを示し、コンピュータが知性を持ち理解するために必要な修正を考える。 第4節では、単一のエージェントの技術的爆発によって引き起こされる存在リスクは深刻な問題ではないと主張している。 第5節はAI制御の問題に注目し、創造者が望むことをする超知能マシンを構築することは不可能であると主張している。 生物学からの洞察を用いて、制御問題に対する解決策を提案する。 第6節では、強い知性の意味について論じている。 第7節では、ディープラーニングの主な課題をリストアップし、強力な知性に到達するためには急進的な変化が必要であると主張している。 第8節では、皮質柱の動作を説明するのに役立つ神経科学の枠組みについて検討している。 第9節は、強力な知性に向けた道路地図の広いストロークをレイアウトする。 最後に、セクション10は、より大きなインテリジェンスの影響と課題を分析する。

I wrote this paper because technology can really improve people's lives. With it, we can live longer in a healthy body, save time through increased efficiency and automation, and make better decisions. To get to the next level, we need to start looking at intelligence from a much broader perspective, and promote international interdisciplinary collaborations. Section 1 of this paper delves into sociology and social psychology to explain that the mechanisms underlying intelligence are inherently social. Section 2 proposes a method to classify intelligence, and describes the differences between weak and strong intelligence. Section 3 examines the Chinese Room argument from a different perspective. It demonstrates that a Turing-complete machine cannot have strong intelligence, and considers the modifications necessary for a computer to be intelligent and have understanding. Section 4 argues that the existential risk caused by the technological explosion of a single agent should not be of serious concern. Section 5 looks at the AI control problem and argues that it is impossible to build a super-intelligent machine that will do what it creators want. By using insights from biology, it also proposes a solution to the control problem. Section 6 discusses some of the implications of strong intelligence. Section 7 lists the main challenges with deep learning, and asserts that radical changes will be required to reach strong intelligence. Section 8 examines a neuroscience framework that could help explain how a cortical column works. Section 9 lays out the broad strokes of a road map towards strong intelligence. Finally, section 10 analyzes the impacts and the challenges of greater intelligence.
翻訳日:2022-12-30 07:17:33 公開日:2020-02-20
# 組織における従業員管理のための公正なAIの設計: レビュー、批評、設計のアジェンダ

Designing Fair AI for Managing Employees in Organizations: A Review, Critique, and Design Agenda ( http://arxiv.org/abs/2002.09054v1 )

ライセンス: Link先を確認
Lionel P. Robert, Casey Pierce, Liz Morris, Sangmi Kim, Rasha Alahmad(参考訳) 組織は、労働者を管理するために人工知能(AI)システムを迅速に展開している。 しかし、AIは労働者に不公平であることが時々見出されている。 労働者に対する不公平さは、労働者の努力の減少と労働者の転職の増加と関連している。 このような問題を避けるために、aiシステムは公平性をサポートし、不公平な事例に対処できるように設計されなければならない。 aiの不公平に関する注意にもかかわらず、デザインアジェンダを開発するための理論的かつ体系的なアプローチは存在していない。 本稿ではその問題を3つの方法で解決する。 まず, 組織正義論, 3つの異なる公正タイプ(分配的, 手続き的, 相互作用的), そして不公平な事例(帰属的正義, 再帰的正義)の枠組みを紹介する。 第2に、組織におけるAIフェアネスの問題に焦点を当てたデザイン文献についてレビューする。 第3に,組織におけるAIフェアネスに関するデザインアジェンダを提案し,それぞれのフェアネスタイプを組織シナリオに適用する。 そして、論文は将来の研究への示唆で締めくくられる。

Organizations are rapidly deploying artificial intelligence (AI) systems to manage their workers. However, AI has been found at times to be unfair to workers. Unfairness toward workers has been associated with decreased worker effort and increased worker turnover. To avoid such problems, AI systems must be designed to support fairness and redress instances of unfairness. Despite the attention related to AI unfairness, there has not been a theoretical and systematic approach to developing a design agenda. This paper addresses the issue in three ways. First, we introduce the organizational justice theory, three different fairness types (distributive, procedural, interactional), and the frameworks for redressing instances of unfairness (retributive justice, restorative justice). Second, we review the design literature that specifically focuses on issues of AI fairness in organizations. Third, we propose a design agenda for AI fairness in organizations that applies each of the fairness types to organizational scenarios. Then, the paper concludes with implications for future research.
翻訳日:2022-12-30 07:17:11 公開日:2020-02-20
# MaxUp: ニューラルネットワークトレーニングの一般化を改善するための簡単な方法

MaxUp: A Simple Way to Improve Generalization of Neural Network Training ( http://arxiv.org/abs/2002.09024v1 )

ライセンス: Link先を確認
Chengyue Gong, Tongzheng Ren, Mao Ye, Qiang Liu(参考訳) 本稿では,機械学習モデル,特にディープニューラルネットワークの一般化性能を向上させるための,恥ずかしいほど単純で効果的な手法である \emph{maxup}を提案する。 このアイデアは、ランダムな摂動や変換を伴う一連の拡張データを生成し、拡張データに対する最大または最悪のケース損失を最小限にする。 これにより、ランダムな摂動に対する滑らかさやロバスト性が暗黙的に導入され、生成性能が向上する。 例えば、ガウス摂動の場合、\emph{maxup} は、損失の勾配ノルムを滑らかさを促進するためのペナルティとして用いることに漸近的に同値である。 我々は,画像分類や言語モデリング,対数証明など,さまざまなタスクにおいて \emph{MaxUp} をテストする。 特に、ImageNetの分類を最先端のトップ-1の精度8.5\%$から8.8\%$に改善する。 コードはまもなくリリースされる。

We propose \emph{MaxUp}, an embarrassingly simple, highly effective technique for improving the generalization performance of machine learning models, especially deep neural networks. The idea is to generate a set of augmented data with some random perturbations or transforms and minimize the maximum, or worst case loss over the augmented data. By doing so, we implicitly introduce a smoothness or robustness regularization against the random perturbations, and hence improve the generation performance. For example, in the case of Gaussian perturbation, \emph{MaxUp} is asymptotically equivalent to using the gradient norm of the loss as a penalty to encourage smoothness. We test \emph{MaxUp} on a range of tasks, including image classification, language modeling, and adversarial certification, on which \emph{MaxUp} consistently outperforms the existing best baseline methods, without introducing substantial computational overhead. In particular, we improve ImageNet classification from the state-of-the-art top-1 accuracy $85.5\%$ without extra data to $85.8\%$. Code will be released soon.
翻訳日:2022-12-30 07:09:23 公開日:2020-02-20
# oIRL: 時間拡張行動を用いたロバスト逆逆強化学習

oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally Extended Actions ( http://arxiv.org/abs/2002.09043v1 )

ライセンス: Link先を確認
David Venuto, Jhelum Chakravorty, Leonard Boussioux, Junhao Wang, Gavin McCracken, Doina Precup(参考訳) 与えられた環境に対する報酬関数の明示的工学は、強化学習方法の大きな障害となっている。 インバース強化学習(irl)は、デモンストレーションのみから報酬関数を回復する解決策であるが、これらの学習された報酬は、一般に環境のダイナミクスと重く \textit{entangled} であり、それゆえ環境の変化に対してポータブルあるいは \emph{robust} ではない。 現代の敵法は、IRL設定における報酬の絡み合いを減らすことに成功している。 そこで本研究では,適応逆強化学習(AIRL)という手法を用いて,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。 この手法は, 複雑な伝達学習タスクにおいて, \emph{generalizable} ポリシーや報酬関数を学習できると同時に, 最先端の手法に匹敵する連続的な制御ベンチマークが得られることを示す。

Explicit engineering of reward functions for given environments has been a major hindrance to reinforcement learning methods. While Inverse Reinforcement Learning (IRL) is a solution to recover reward functions from demonstrations only, these learned rewards are generally heavily \textit{entangled} with the dynamics of the environment and therefore not portable or \emph{robust} to changing environments. Modern adversarial methods have yielded some success in reducing reward entanglement in the IRL setting. In this work, we leverage one such method, Adversarial Inverse Reinforcement Learning (AIRL), to propose an algorithm that learns hierarchical disentangled rewards with a policy over options. We show that this method has the ability to learn \emph{generalizable} policies and reward functions in complex transfer learning tasks, while yielding results in continuous control benchmarks that are comparable to those of the state-of-the-art methods.
翻訳日:2022-12-30 07:08:49 公開日:2020-02-20
# neural bayes: 教師なし表現学習のための汎用パラメータ化法

Neural Bayes: A Generic Parameterization Method for Unsupervised Representation Learning ( http://arxiv.org/abs/2002.09046v1 )

ライセンス: Link先を確認
Devansh Arpit, Huan Wang, Caiming Xiong, Richard Socher, Yoshua Bengio(参考訳) 一般に計算が難しい統計量の計算が可能であり,教師なし表現学習のための新しい目的を定式化するための道筋を開くためのパラメータ化手法であるneural bayesを提案する。 具体的には、観測される確率変数 $\mathbf{x}$ と潜在離散変数 $z$ が与えられたとき、これらの分布のクラスを制限することなく、十分に表現力のある関数(ニューラルネットワークなど)を用いて、閉じた形で $p(\mathbf{x}|z)$, $p(z|\mathbf{x})$, $p(z)$ を表現できる。 1) 相互情報最大化(mim: mutual information maximization) mimは自己教師付き表現学習の一般的な手段となっている。 ニューラルベイズは観測された確率変数 $\mathbf{x}$ と潜在離散確率変数 $z$ の相互情報を閉じた形式で計算できる。 これを画像表現の学習に利用し,下流分類タスクにおける有用性を示す。 2. 共役多様体のラベル付け: ニューラルベイは、連続分布の支持に存在する共役多様体のサンプルを最適にラベル付けできる目的を定式化することができる。 これは、サポート内の各非連結多様体が別個のクラスタであるようなクラスタリングの特定の形式と見なすことができる。 この定式化に従うクラスタリングタスクを設計し、モデルが不随伴多様体を最適にラベル付けすることを経験的に示す。 私たちのコードは \url{https://github.com/salesforce/NeuralBayes} で利用可能です。

We introduce a parameterization method called Neural Bayes which allows computing statistical quantities that are in general difficult to compute and opens avenues for formulating new objectives for unsupervised representation learning. Specifically, given an observed random variable $\mathbf{x}$ and a latent discrete variable $z$, we can express $p(\mathbf{x}|z)$, $p(z|\mathbf{x})$ and $p(z)$ in closed form in terms of a sufficiently expressive function (Eg. neural network) using our parameterization without restricting the class of these distributions. To demonstrate its usefulness, we develop two independent use cases for this parameterization: 1. Mutual Information Maximization (MIM): MIM has become a popular means for self-supervised representation learning. Neural Bayes allows us to compute mutual information between observed random variables $\mathbf{x}$ and latent discrete random variables $z$ in closed form. We use this for learning image representations and show its usefulness on downstream classification tasks. 2. Disjoint Manifold Labeling: Neural Bayes allows us to formulate an objective which can optimally label samples from disjoint manifolds present in the support of a continuous distribution. This can be seen as a specific form of clustering where each disjoint manifold in the support is a separate cluster. We design clustering tasks that obey this formulation and empirically show that the model optimally labels the disjoint manifolds. Our code is available at \url{https://github.com/salesforce/NeuralBayes}
翻訳日:2022-12-30 07:08:30 公開日:2020-02-20
# Relaxed Injective Probability Flowによる正規化オートエンコーダ

Regularized Autoencoders via Relaxed Injective Probability Flow ( http://arxiv.org/abs/2002.08927v1 )

ライセンス: Link先を確認
Abhishek Kumar, Ben Poole, Kevin Murphy(参考訳) 逆流型生成モデル(invertible flow-based generative models)はサンプル生成を学習する上で有効な手法である。 しかし、可逆性要件は、モデルが入力と同じ潜在次元を持つように制限する。 これは重要なアーキテクチャ、メモリ、計算コストを課し、変分オートエンコーダ(vaes)のような他の生成モデルのクラスよりもスケールが困難になる。 本稿では,モデル上の単射性要件を取り除き,単射性のみを仮定する確率フローに基づく生成モデルを提案する。 これはまた、正規化オートエンコーダ(RAE)に関する別の視点を提供し、最終的な目的は、確率フローの目的の低い境界から導出される特定の正規化子を持つRAEに似ている。 我々は,提案モデルの期待を実証し,サンプル品質の観点からvaesおよびaesよりも改善した。

Invertible flow-based generative models are an effective method for learning to generate samples, while allowing for tractable likelihood computation and inference. However, the invertibility requirement restricts models to have the same latent dimensionality as the inputs. This imposes significant architectural, memory, and computational costs, making them more challenging to scale than other classes of generative models such as Variational Autoencoders (VAEs). We propose a generative model based on probability flows that does away with the bijectivity requirement on the model and only assumes injectivity. This also provides another perspective on regularized autoencoders (RAEs), with our final objectives resembling RAEs with specific regularizers that are derived by lower bounding the probability flow objective. We empirically demonstrate the promise of the proposed model, improving over VAEs and AEs in terms of sample quality.
翻訳日:2022-12-30 07:00:36 公開日:2020-02-20
# マルチステップオンライン非教師なしドメイン適応

Multi-step Online Unsupervised Domain Adaptation ( http://arxiv.org/abs/2002.08930v1 )

ライセンス: Link先を確認
J. H. Moon, Debasmit Das and C. S. George Lee(参考訳) 本稿では,OUDA(Online Unsupervised Domain Adaptation)問題に対処する。 ouda問題に関する従来の手法では,各到達対象データからソースドメインへの変換に重点を置いており,到着対象データ間の時間的一貫性や累積統計を十分に考慮していない。 ユークリッド空間上の幾何学的解釈から着想を得た平均目標部分空間を計算するための新しい手法を考案した,OUDA問題のための多段階フレームワークを提案する。 この平均目標部分空間は、到着した目標データ間の累積時間情報を含む。 さらに、平均目標部分空間から算出された変換行列を、次の目標データに対して前処理ステップとして適用し、対象データをソースドメインに近づける。 4つのデータセットに関する実験は、提案する多段階oudaフレームワークにおける各ステップの貢献と、これまでのアプローチに対するパフォーマンスを実証した。

In this paper, we address the Online Unsupervised Domain Adaptation (OUDA) problem, where the target data are unlabelled and arriving sequentially. The traditional methods on the OUDA problem mainly focus on transforming each arriving target data to the source domain, and they do not sufficiently consider the temporal coherency and accumulative statistics among the arriving target data. We propose a multi-step framework for the OUDA problem, which institutes a novel method to compute the mean-target subspace inspired by the geometrical interpretation on the Euclidean space. This mean-target subspace contains accumulative temporal information among the arrived target data. Moreover, the transformation matrix computed from the mean-target subspace is applied to the next target data as a preprocessing step, aligning the target data closer to the source domain. Experiments on four datasets demonstrated the contribution of each step in our proposed multi-step OUDA framework and its performance over previous approaches.
翻訳日:2022-12-30 07:00:18 公開日:2020-02-20
# オンライン高階行列完備化

Online high rank matrix completion ( http://arxiv.org/abs/2002.08934v1 )

ライセンス: Link先を確認
Jicong Fan and Madeleine Udell(参考訳) 行列補完の最近の進歩は、低次元(非線形)潜在構造を利用して、フルランク行列におけるデータインプテーションを可能にする。 本稿では,高階行列補完(HRMC)のための新しいモデルと,そのモデルに適合するバッチおよびオンライン手法を開発し,新しいデータを完成させる。 この方法は、カーネルトリックを用いて、データを高次元の多項式特徴空間に(単純に)マッピングすることで機能し、さらに、元のデータ行列がフルランクであっても、この特徴空間の低次元部分空間を占有する。 本稿では,この低次元部分空間の明示的なパラメトリゼーションとオンラインフィッティング手順を導入し,計算の複雑さをアートの状況と比較して低減する。 オンラインメソッドはストリーミングやシーケンシャルなデータを扱うこともでき、非定常的潜在構造にも適応できる。 これらの手法が成功するために必要なサンプリング率に関するガイダンスを提供する。 合成データとモーションキャプチャデータによる実験結果から,提案手法の有効性が検証された。

Recent advances in matrix completion enable data imputation in full-rank matrices by exploiting low dimensional (nonlinear) latent structure. In this paper, we develop a new model for high rank matrix completion (HRMC), together with batch and online methods to fit the model and out-of-sample extension to complete new data. The method works by (implicitly) mapping the data into a high dimensional polynomial feature space using the kernel trick; importantly, the data occupies a low dimensional subspace in this feature space, even when the original data matrix is of full-rank. We introduce an explicit parametrization of this low dimensional subspace, and an online fitting procedure, to reduce computational complexity compared to the state of the art. The online method can also handle streaming or sequential data and adapt to non-stationary latent structure. We provide guidance on the sampling rate required these methods to succeed. Experimental results on synthetic data and motion capture data validate the performance of the proposed methods.
翻訳日:2022-12-30 07:00:02 公開日:2020-02-20
# 混合線形回帰のためのメタラーニング

Meta-learning for mixed linear regression ( http://arxiv.org/abs/2002.08936v1 )

ライセンス: Link先を確認
Weihao Kong, Raghav Somani, Zhao Song, Sham Kakade, Sewoong Oh(参考訳) 現代の教師付き学習では、多くのタスクがありますが、その多くはごく少量のラベル付きデータに関連付けられています。 これには医療画像処理とロボットのインタラクションのデータが含まれる。 個々のタスクは独立して有意義に訓練することはできないが、いくつかの類似点を利用して過去の経験からタスクをメタ学習しようとする。 ビッグデータを用いたタスクの欠如に対して,少人数のタスクがいつ補うことができるのか? 私たちは、各タスクが$k$線形回帰の混合物から引き出される標準的なシナリオに注目し、このような優雅な交換のために十分な条件を特定します。 そこで,本研究では,$\tilde\Omega(k^{3/2})$メディアデータタスクと$\tilde\Omega(k^{1/2})$例を併用して,小型データタスクを効率的に活用できることを示す。

In modern supervised learning, there are a large number of tasks, but many of them are associated with only a small amount of labeled data. These include data from medical image processing and robotic interaction. Even though each individual task cannot be meaningfully trained in isolation, one seeks to meta-learn across the tasks from past experiences by exploiting some similarities. We study a fundamental question of interest: When can abundant tasks with small data compensate for lack of tasks with big data? We focus on a canonical scenario where each task is drawn from a mixture of $k$ linear regressions, and identify sufficient conditions for such a graceful exchange to hold; The total number of examples necessary with only small data tasks scales similarly as when big data tasks are available. To this end, we introduce a novel spectral approach and show that we can efficiently utilize small data tasks with the help of $\tilde\Omega(k^{3/2})$ medium data tasks each with $\tilde\Omega(k^{1/2})$ examples.
翻訳日:2022-12-30 06:59:47 公開日:2020-02-20
# サマータイム:可変長時系列合成と物理活性解析への応用

SummerTime: Variable-length Time SeriesSummarization with Applications to PhysicalActivity Analysis ( http://arxiv.org/abs/2002.09000v1 )

ライセンス: Link先を確認
Kevin M. Amaral, Zihan Li, Wei Ding, Scott Crouter, Ping Chen(参考訳) \textit{SummerTime} はグローバルな時系列信号を要約し、可変長時系列の固定長で堅牢な要約を提供する。 分類と回帰のための多くの古典的な機械学習手法は、一定の数の特徴を持つデータインスタンスに依存する。 その結果、これらの手法は可変長時系列データに直接適用できない。 1つの一般的なアプローチは、データのスライディングウィンドウ上で分類を行い、何らかの方法で時系列のローカルセクションでなされた決定を集約することである。 このアプローチの欠点は、マイノリティなローカル情報が投票プロセスで失われることであり、平均化は各時系列測定が重要であると仮定する。 また、時系列の長さも異なるため、投票率や平均値の質は、親密な投票関係や回帰領域のバイモーダル分布がある場合に大きく異なる可能性がある。 \textit{SummerTime} メソッドによる要約は固定長の特徴ベクトルであり、古典的な機械学習手法で使用する時系列データセットの in-place で使用できる。 時系列内の小さな同じ長さのウィンドウ上にガウス混合モデル(GMM)を用いて局所データをクラスタにグループ化する。 各クラスタに対する時系列のメンバシップ率は、要約における特徴である。 このモデルは自然に適切なクラスタ数に収束することができる。 本研究は,身体活動分類の最先端研究と比較し,要約のみによる分類による高品質な改善を示す。 最後に,要約による回帰はエネルギー支出の推定を増大させ,より堅牢で正確な結果が得られることを示す。

\textit{SummerTime} seeks to summarize globally time series signals and provides a fixed-length, robust summarization of the variable-length time series. Many classical machine learning methods for classification and regression depend on data instances with a fixed number of features. As a result, those methods cannot be directly applied to variable-length time series data. One common approach is to perform classification over a sliding window on the data and aggregate the decisions made at local sections of the time series in some way, through majority voting for classification or averaging for regression. The downside to this approach is that minority local information is lost in the voting process and averaging assumes that each time series measurement is equal in significance. Also, since time series can be of varying length, the quality of votes and averages could vary greatly in cases where there is a close voting tie or bimodal distribution of regression domain. Summarization conducted by the \textit{SummerTime} method will be a fixed-length feature vector which can be used in-place of the time series dataset for use with classical machine learning methods. We use Gaussian Mixture models (GMM) over small same-length disjoint windows in the time series to group local data into clusters. The time series' rate of membership for each cluster will be a feature in the summarization. The model is naturally capable of converging to an appropriate cluster count. We compare our results to state-of-the-art studies in physical activity classification and show high-quality improvement by classifying with only the summarization. Finally, we show that regression using the summarization can augment energy expenditure estimation, producing more robust and precise results.
翻訳日:2022-12-30 06:58:15 公開日:2020-02-20
# 組込みGPUのための畳み込みニューラルネットワークチャネルプルーニングの性能評価

Performance Aware Convolutional Neural Network Channel Pruning for Embedded GPUs ( http://arxiv.org/abs/2002.08697v1 )

ライセンス: Link先を確認
Valentin Radu, Kuba Kaszyk, Yuan Wen, Jack Turner, Jose Cano, Elliot J. Crowley, Bjorn Franke, Amos Storkey, Michael O'Boyle(参考訳) 畳み込みニューラルネットワーク(CNN)は、認識精度が優れているため、多くのアプリケーションやサービスで一般的な存在になりつつある。 多数のモデル圧縮技術が検討されているが、サーバ空間用に設計された大規模モデルを移植することで、モバイルデバイスでの利用がますます増えている。 計算量を減らすためのモデル圧縮技術の一つがチャネルプルーニングである。 モバイルおよび組み込みシステムは、ニューラルネットワークの並列計算と、演算毎のエネルギーコストの低減に理想的なGPUを持つようになった。 特殊ライブラリは、高度に最適化されたルーチンを通してこれらのニューラルネットワーク計算を実行する。 実験でわかったように、これらのライブラリは最も一般的なネットワーク形状に最適化されており、無指示のチャネルプラニングは非効率です。 本研究では,畳み込み層の入力特性を解析し,最適化したopencl (arm compute library and tvm) とcuda (cudnn) コードを生成する高レベルライブラリを評価する。 しかし、実際には、これらの特性とその後の最適化を意図した選択は反対の効果を持つ。 コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ると,性能が低下し,結果として2倍の低下が生じた。 一方,cuDNNでは3倍,Arm Compute LibraryやTVMでは10倍以上の性能向上を実現している。 この結果から,ハードウェアによるニューラルネットワークプルーニングの必要性が明らかになった。

Convolutional Neural Networks (CNN) are becoming a common presence in many applications and services, due to their superior recognition accuracy. They are increasingly being used on mobile devices, many times just by porting large models designed for server space, although several model compression techniques have been considered. One model compression technique intended to reduce computations is channel pruning. Mobile and embedded systems now have GPUs which are ideal for the parallel computations of neural networks and for their lower energy cost per operation. Specialized libraries perform these neural network computations through highly optimized routines. As we find in our experiments, these libraries are optimized for the most common network shapes, making uninstructed channel pruning inefficient. We evaluate higher level libraries, which analyze the input characteristics of a convolutional layer, based on which they produce optimized OpenCL (Arm Compute Library and TVM) and CUDA (cuDNN) code. However, in reality, these characteristics and subsequent choices intended for optimization can have the opposite effect. We show that a reduction in the number of convolutional channels, pruning 12% of the initial size, is in some cases detrimental to performance, leading to 2x slowdown. On the other hand, we also find examples where performance-aware pruning achieves the intended results, with performance speedups of 3x with cuDNN and above 10x with Arm Compute Library and TVM. Our findings expose the need for hardware-instructed neural network pruning.
翻訳日:2022-12-30 06:50:35 公開日:2020-02-20
# 支援重み付き対人模倣学習

Support-weighted Adversarial Imitation Learning ( http://arxiv.org/abs/2002.08803v1 )

ライセンス: Link先を確認
Ruohan Wang, Carlo Ciliberto, Pierluigi Amadori, Yiannis Demiris(参考訳) Adversarial Imitation Learning (AIL) は、実証から専門家の行動を模倣する模擬学習手法である。 AILは、少数のデモンストレーションで模倣学習に最先端のパフォーマンスを示してきたが、潜在的なトレーニング不安定性や暗黙の報酬バイアスなど、いくつかの実践的な課題に直面している。 この課題に対処するために、専門家のポリシーを推定する支援から得られる情報を用いて、与えられたAILアルゴリズムを拡張した一般的なフレームワークであるSAIL(Support-weighted Adversarial Imitation Learning)を提案する。 SAILは、専門家ポリシーの支持評価から、敵の報酬を信頼スコアで評価することにより、強化信号の品質を向上させる。 また、SAILは、敵の報酬を学習するためにSAILが使用する基礎となるAILアルゴリズムと同程度に効率的であることを示す。 実験により,提案手法は,幅広いベンチマーク制御タスクにおいて,ベースライン法よりも優れた性能と訓練安定性を実現することを示す。

Adversarial Imitation Learning (AIL) is a broad family of imitation learning methods designed to mimic expert behaviors from demonstrations. While AIL has shown state-of-the-art performance on imitation learning with only small number of demonstrations, it faces several practical challenges such as potential training instability and implicit reward bias. To address the challenges, we propose Support-weighted Adversarial Imitation Learning (SAIL), a general framework that extends a given AIL algorithm with information derived from support estimation of the expert policies. SAIL improves the quality of the reinforcement signals by weighing the adversarial reward with a confidence score from support estimation of the expert policy. We also show that SAIL is always at least as efficient as the underlying AIL algorithm that SAIL uses for learning the adversarial reward. Empirically, we show that the proposed method achieves better performance and training stability than baseline methods on a wide range of benchmark control tasks.
翻訳日:2022-12-30 06:48:39 公開日:2020-02-20
# 入力の摂動: 中央と局所の微分プライバシーの新しいパラダイム

Input Perturbation: A New Paradigm between Central and Local Differential Privacy ( http://arxiv.org/abs/2002.08570v1 )

ライセンス: Link先を確認
Yilin Kang, Yong Liu, Ben Niu, Xinyi Tong, Likun Zhang and Weiping Wang(参考訳) 伝統的に、差分プライバシーには中央モデルと局所モデルという2つのモデルがある。 中央モデルは機械学習モデルに焦点を合わせ、ローカルモデルはトレーニングデータに焦点を合わせます。 本稿では,中央モデルのプライバシ保護を目的としたDP-ERMにおけるtextit{input perturbation}法について検討する。 オリジナルのトレーニングデータにノイズを加えて、‘perturbed data’でトレーニングすることで、最終的なモデル上での($\epsilon$,$\delta$)-差分プライバシーと、オリジナルのデータに対するある種のプライバシを達成できます。 我々は、局所モデルと中心モデルの間に興味深い関係があることを観察する: 元のデータに対する摂動が勾配の摂動を引き起こし、最終的にモデルパラメータが引き起こされる。 この観察により,本手法は局所モデルと中央モデルの間に橋を架け,データと勾配とモデルを同時に保護し,従来の中央モデルよりも優れていることを示す。 詳細な理論解析と実験により,提案手法は,プライバシ保護が強化された先行手法とほぼ同じ(あるいはさらに優れた)性能を達成していることが示された。 さらに,本手法をより一般的な場合に拡張する: 損失関数は, 強い凸性よりも一般なpolyak-lojasiewicz条件を満たす。

Traditionally, there are two models on differential privacy: the central model and the local model. The central model focuses on the machine learning model and the local model focuses on the training data. In this paper, we study the \textit{input perturbation} method in differentially private empirical risk minimization (DP-ERM), preserving privacy of the central model. By adding noise to the original training data and training with the `perturbed data', we achieve ($\epsilon$,$\delta$)-differential privacy on the final model, along with some kind of privacy on the original data. We observe that there is an interesting connection between the local model and the central model: the perturbation on the original data causes the perturbation on the gradient, and finally the model parameters. This observation means that our method builds a bridge between local and central model, protecting the data, the gradient and the model simultaneously, which is more superior than previous central methods. Detailed theoretical analysis and experiments show that our method achieves almost the same (or even better) performance as some of the best previous central methods with more protections on privacy, which is an attractive result. Moreover, we extend our method to a more general case: the loss function satisfies the Polyak-Lojasiewicz condition, which is more general than strong convexity, the constraint on the loss function in most previous work.
翻訳日:2022-12-30 06:42:11 公開日:2020-02-20
# データ摂動に基づく微分プライベートEMM

Differentially Private ERM Based on Data Perturbation ( http://arxiv.org/abs/2002.08578v1 )

ライセンス: Link先を確認
Yilin Kang, Yong Liu, Lizhong Ding, Xinwang Liu, Xinyi Tong and Weiping Wang(参考訳) 本稿では、異なるトレーニングデータインスタンスが機械学習モデルに異なる範囲で影響を及ぼすことを観察した後、新たな視点から、微分プライベートな経験的リスク最小化(DP-ERM)の性能改善を試みる。 具体的には、最終機械学習モデルにおける各種トレーニングデータインスタンスのコントリビューションを測定し、そのいくつかを選択してランダムノイズを加える。 本手法の鍵は各データインスタンスを別々に計測することであり,dp-ermの新たな「データ摂動(data perturbation)」に基づく(db)パラダイムを提案する。 影響関数(if)を導入することで,最終モデルに対するトレーニングデータの影響を定量的に測定する。 理論および実験により,提案するdbdp-ermパラダイムにより,モデル性能が大幅に向上することを示した。

In this paper, after observing that different training data instances affect the machine learning model to different extents, we attempt to improve the performance of differentially private empirical risk minimization (DP-ERM) from a new perspective. Specifically, we measure the contributions of various training data instances on the final machine learning model, and select some of them to add random noise. Considering that the key of our method is to measure each data instance separately, we propose a new `Data perturbation' based (DB) paradigm for DP-ERM: adding random noise to the original training data and achieving ($\epsilon,\delta$)-differential privacy on the final machine learning model, along with the preservation on the original data. By introducing the Influence Function (IF), we quantitatively measure the impact of the training data on the final model. Theoretical and experimental results show that our proposed DBDP-ERM paradigm enhances the model performance significantly.
翻訳日:2022-12-30 06:41:43 公開日:2020-02-20
# 多様性サンプリングはカーネルメソッドの暗黙の正規化である

Diversity sampling is an implicit regularization for kernel methods ( http://arxiv.org/abs/2002.08616v1 )

ライセンス: Link先を確認
Micha\"el Fanuel and Joachim Schreurs and Johan A.K. Suykens(参考訳) カーネル法は、Nystr\om法とプレコンディショニング技術を用いて、大規模回帰と分類問題において非常に優れた性能を達成している。 Nystr\"om approximation -- ランドマークのサブセットに基づく - は、カーネル行列の低階近似を与え、暗黙の正則化の形式を提供することが知られている。 我々はさらに, nystr\"om近似を教師なしおよび教師なしカーネル法で構築するための多様なランドマークのサンプリングの影響について詳述した。 サンプリングにDeterminantal Point Processsを用い,多様性と正規化の相互作用に関する理論的結果を得た。 経験的に、多様な点からなるサブセットに基づいたカーネルメソッドのトレーニングの利点を実証する。 特に、データセットが密集したバルクとスパーザーテールを持つ場合、様々なランドマークを持つnystr\"omカーネルレグレッションは、一様ランドマークサンプリングに関してデータセットのスパーサー領域のレグレッションの精度を増加させる。 厳密なヒューリスティックは、正確なDPPサンプリングが現実的に実現不可能な場合、大きなデータセット内で大きなサイズのサンプルを選択するためにも提案されている。

Kernel methods have achieved very good performance on large scale regression and classification problems, by using the Nystr\"om method and preconditioning techniques. The Nystr\"om approximation -- based on a subset of landmarks -- gives a low rank approximation of the kernel matrix, and is known to provide a form of implicit regularization. We further elaborate on the impact of sampling diverse landmarks for constructing the Nystr\"om approximation in supervised as well as unsupervised kernel methods. By using Determinantal Point Processes for sampling, we obtain additional theoretical results concerning the interplay between diversity and regularization. Empirically, we demonstrate the advantages of training kernel methods based on subsets made of diverse points. In particular, if the dataset has a dense bulk and a sparser tail, we show that Nystr\"om kernel regression with diverse landmarks increases the accuracy of the regression in sparser regions of the dataset, with respect to a uniform landmark sampling. A greedy heuristic is also proposed to select diverse samples of significant size within large datasets when exact DPP sampling is not practically feasible.
翻訳日:2022-12-30 06:40:16 公開日:2020-02-20
# 対人訓練におけるPairwise Discriminatorのメリット

The Benefits of Pairwise Discriminators for Adversarial Training ( http://arxiv.org/abs/2002.08621v1 )

ライセンス: Link先を確認
Shangyuan Tong, Timur Garipov, Tommi Jaakkola(参考訳) 敵の訓練方法は通常、2人のプレイヤーのゲームを解くことで分布を整列する。 しかし、ほとんどの現行の定式化では、ジェネレータがデータと完全に一致していても、準最適判別器は2つを分離することができる。 さらなる正規化がなければ、不安定性は終わらないゲームとして現れうる。 本稿では,ペアワイズ判別器を利用する目的のファミリーを紹介し,ジェネレータのみを収束させる必要があることを示す。 アライメントが達成されれば、いかなる差別者でも保存される。 局所収束には十分条件を提供し、判別器と生成器の選択を導くキャパシティバランスを特徴付け、最小に十分な判別器の例を構成する。 実験では, 合成例に対するアプローチの理論と有効性について述べる。 さらに,本手法による実用的な手法は,より高解像度な画像を生成することができることを示す。

Adversarial training methods typically align distributions by solving two-player games. However, in most current formulations, even if the generator aligns perfectly with data, a sub-optimal discriminator can still drive the two apart. Absent additional regularization, the instability can manifest itself as a never-ending game. In this paper, we introduce a family of objectives by leveraging pairwise discriminators, and show that only the generator needs to converge. The alignment, if achieved, would be preserved with any discriminator. We provide sufficient conditions for local convergence; characterize the capacity balance that should guide the discriminator and generator choices; and construct examples of minimally sufficient discriminators. Empirically, we illustrate the theory and the effectiveness of our approach on synthetic examples. Moreover, we show that practical methods derived from our approach can better generate higher-resolution images.
翻訳日:2022-12-30 06:39:51 公開日:2020-02-20
# 視覚と言語記述を用いた人物再認識のための畳み込みベースライン

A Convolutional Baseline for Person Re-Identification Using Vision and Language Descriptions ( http://arxiv.org/abs/2003.00808v1 )

ライセンス: Link先を確認
Ammarah Farooq, Muhammad Awais, Fei Yan, Josef Kittler, Ali Akbari, and Syed Safwan Khalid(参考訳) 古典的な人物再同定アプローチは、興味ある人物が異なるカメラにまたがって現れ、既存の画像の1つで検索できると仮定する。 しかし、現実世界の監視シナリオでは、クエリされた人物に関する視覚的な情報は頻繁に提供されない。 このようなシナリオでは、証人による人物の自然言語記述は、検索のための唯一の情報源を提供する。 本研究では,視覚情報と言語情報の両方を用いた人物の再識別を,可能なすべてのギャラリーおよびクエリシナリオの下で処理する。 クロスエントロピー損失によって制御される2つのストリーム深い畳み込みニューラルネットワークフレームワークを示す。 2番目の層と最後の層をクラス確率でつなぐ重み、すなわちsoftmax層のロジットを両ネットワークで共有する。 連接埋め込み空間における2つのモードの相関性を高めるために正準相関解析を行う。 提案手法の利点を検討するため,CUHK-PEDESとCUHK-SYSUベンチマークの試験分割に対して,マルチモーダルReID設定に基づく新しいテストプロトコルを提案する。 実験結果は,提案方式のメリットを検証した。 学習された視覚的表現は、単一のモダリティシステムと比較して、検索時に22\%向上する。 マルチモーダルクエリによる検索は,定量的かつ質的にシステムの再同定能力を大幅に向上させる。

Classical person re-identification approaches assume that a person of interest has appeared across different cameras and can be queried by one of the existing images. However, in real-world surveillance scenarios, frequently no visual information will be available about the queried person. In such scenarios, a natural language description of the person by a witness will provide the only source of information for retrieval. In this work, person re-identification using both vision and language information is addressed under all possible gallery and query scenarios. A two stream deep convolutional neural network framework supervised by cross entropy loss is presented. The weights connecting the second last layer to the last layer with class probabilities, i.e., logits of softmax layer are shared in both networks. Canonical Correlation Analysis is performed to enhance the correlation between the two modalities in a joint latent embedding space. To investigate the benefits of the proposed approach, a new testing protocol under a multi modal ReID setting is proposed for the test split of the CUHK-PEDES and CUHK-SYSU benchmarks. The experimental results verify the merits of the proposed system. The learnt visual representations are more robust and perform 22\% better during retrieval as compared to a single modality system. The retrieval with a multi modal query greatly enhances the re-identification capability of the system quantitatively as well as qualitatively.
翻訳日:2022-12-30 06:33:19 公開日:2020-02-20
# 自動車ルーティング問題に対するヒューリスティックスの設計を学ぶ

Learn to Design the Heuristics for Vehicle Routing Problem ( http://arxiv.org/abs/2002.08539v1 )

ライセンス: Link先を確認
Lei Gao, Mingxiang Chen, Qichang Chen, Ganzhong Luo, Nuoyi Zhu, Zhixin Liu(参考訳) 本稿では,車両ルーティング問題(VRP)の解法を反復的に改善する局所探索ヒューリスティックスを学習するためのアプローチを提案する。 局所探索ヒューリスティックスは、候補解を分解する破壊演算子と、破壊したものを新しいものに再構築する後続の修理演算子とから構成される。 提案するニューラルネットワークはアクタ-クリティック・フレームワークによってトレーニングされ、ノード埋め込みとエッジ埋め込みを統合したグラフアテンションネットワークの修正バージョンのエンコーダと、一対の破壊と修復演算子をレンダリングする gru ベースのデコーダで構成されている。 実験の結果、これは従来のヒューリスティックスアルゴリズムと既存のVRPのニューラルネットワーク最適化の両方を中規模データセットで上回り、この分野で重要な課題である大規模なデータセット(例えば400ノード以上)に取り組むことができることを示した。 さらに,提案したネットワークがより優れた性能でヒューリスティックを設計することを学ぶため,専門知識と手作りヒューリスティック設計の必要性は排除される。 私たちの実装はオンラインで利用可能です。

This paper presents an approach to learn the local-search heuristics that iteratively improves the solution of Vehicle Routing Problem (VRP). A local-search heuristics is composed of a destroy operator that destructs a candidate solution, and a following repair operator that rebuilds the destructed one into a new one. The proposed neural network, as trained through actor-critic framework, consists of an encoder in form of a modified version of Graph Attention Network where node embeddings and edge embeddings are integrated, and a GRU-based decoder rendering a pair of destroy and repair operators. Experiment results show that it outperforms both the traditional heuristics algorithms and the existing neural combinatorial optimization for VRP on medium-scale data set, and is able to tackle the large-scale data set (e.g., over 400 nodes) which is a considerable challenge in this area. Moreover, the need for expertise and handcrafted heuristics design is eliminated due to the fact that the proposed network learns to design the heuristics with a better performance. Our implementation is available online.
翻訳日:2022-12-30 06:32:15 公開日:2020-02-20
# 接地視覚と言語埋め込みにおける社会的バイアスの測定

Measuring Social Biases in Grounded Vision and Language Embeddings ( http://arxiv.org/abs/2002.08911v1 )

ライセンス: Link先を確認
Candace Ross, Boris Katz, Andrei Barbu(参考訳) 社会バイアスの概念を言語埋め込みから基底ビジョンや言語埋め込みへと一般化する。 バイアスは接地埋め込みに存在するが、実際は接地埋め込みと同等かそれ以上に重要であるようである。 これは、視覚と言語が異なるバイアスに悩まされるという事実にもかかわらず、両者のバイアスを弱めることを期待しているかもしれない。 単語埋め込みにおけるバイアスを測定するメトリクスをこの新しい設定に一般化する複数の方法が存在する。 一般化の空間(Grounded-WEAT と Grounded-SEAT )を導入し、3つの一般化がバイアス、言語、視覚の相互作用について異なるが重要な疑問に答えることを示した。 これらのメトリクスは、COCO、Conceptual Captions、Google Imagesの10,228のイメージで、標準言語バイアスベンチマークを拡張して作成した、グラウンドドバイアスの最初のデータセットである、新しいデータセットで使用される。 ビジョンデータセット自体が偏っているため、データセットの構築は難しい。 システムにおけるこれらのバイアスの存在は、実際の結果をもたらし始め、バイアスを慎重に測定し、公正な社会を構築する上で重要なものとなる。

We generalize the notion of social biases from language embeddings to grounded vision and language embeddings. Biases are present in grounded embeddings, and indeed seem to be equally or more significant than for ungrounded embeddings. This is despite the fact that vision and language can suffer from different biases, which one might hope could attenuate the biases in both. Multiple ways exist to generalize metrics measuring bias in word embeddings to this new setting. We introduce the space of generalizations (Grounded-WEAT and Grounded-SEAT) and demonstrate that three generalizations answer different yet important questions about how biases, language, and vision interact. These metrics are used on a new dataset, the first for grounded bias, created by augmenting extending standard linguistic bias benchmarks with 10,228 images from COCO, Conceptual Captions, and Google Images. Dataset construction is challenging because vision datasets are themselves very biased. The presence of these biases in systems will begin to have real-world consequences as they are deployed, making carefully measuring bias and then mitigating it critical to building a fair society.
翻訳日:2022-12-30 06:31:54 公開日:2020-02-20
# 複数サイロの臨床ノートを用いたbertのフェデレート前訓練と微調整

Federated pretraining and fine tuning of BERT using clinical notes from multiple silos ( http://arxiv.org/abs/2002.08562v1 )

ライセンス: Link先を確認
Dianbo Liu, Tim Miller(参考訳) BERTのような大規模文脈表現モデルは近年、自然言語処理(NLP)が著しく進歩している。 しかし、医療などの特定の分野では、プライバシーや規制上の理由から、複数の機関から多様な大規模テキストデータにアクセスすることは極めて困難である。 本稿では,データを移動させることなく,異なるサイロからの臨床テキストを用いて,BERTモデルの事前訓練と微調整が可能であることを示す。

Large scale contextual representation models, such as BERT, have significantly advanced natural language processing (NLP) in recently years. However, in certain area like healthcare, accessing diverse large scale text data from multiple institutions is extremely challenging due to privacy and regulatory reasons. In this article, we show that it is possible to both pretrain and fine tune BERT models in a federated manner using clinical texts from different silos without moving the data.
翻訳日:2022-12-30 06:31:16 公開日:2020-02-20
# Tied-Multi変換器によるバランシングコストとベネフィット

Balancing Cost and Benefit with Tied-Multi Transformers ( http://arxiv.org/abs/2002.08614v1 )

ライセンス: Link先を確認
Raj Dabre, Raphael Rubino, Atsushi Fujita(参考訳) そこで本研究では,複数のモデルを1つに圧縮する結合パラメータを持つ複数のトランスを,復号時にエンコーダ層とデコーダ層を動的に選択する手法を提案する。 シーケンスツーシーケンスモデリングにおいて、典型的には、n層エンコーダの最後の層の出力はm層デコーダに供給され、最後のデコーダ層の出力は損失を計算するために使用される。 その代わりに、NxM損失からなる単一損失を計算し、各損失はNエンコーダ層の1つに接続されたMデコーダ層の1つの出力から計算する。 このようなモデルでは、エンコーダ層とデコーダ層の数が異なるnxmモデルを使用し、エンコーダ層とデコーダ層の最大数よりも少ないデコードに使用できる。 次に、より高速な復号化のためにエンコーダ層とデコーダ層を優先的に選択する機構を提案し、モデル圧縮のためのレイヤの繰り返し積み重ねと知識蒸留について検討する。 本稿では,提案手法をニューラルネットワーク翻訳に適用するコスト便益分析を行い,翻訳品質を維持しつつ復号コストを低減できることを示す。

We propose and evaluate a novel procedure for training multiple Transformers with tied parameters which compresses multiple models into one enabling the dynamic choice of the number of encoder and decoder layers during decoding. In sequence-to-sequence modeling, typically, the output of the last layer of the N-layer encoder is fed to the M-layer decoder, and the output of the last decoder layer is used to compute loss. Instead, our method computes a single loss consisting of NxM losses, where each loss is computed from the output of one of the M decoder layers connected to one of the N encoder layers. Such a model subsumes NxM models with different number of encoder and decoder layers, and can be used for decoding with fewer than the maximum number of encoder and decoder layers. We then propose a mechanism to choose a priori the number of encoder and decoder layers for faster decoding, and also explore recurrent stacking of layers and knowledge distillation for model compression. We present a cost-benefit analysis of applying the proposed approaches for neural machine translation and show that they reduce decoding costs while preserving translation quality.
翻訳日:2022-12-30 06:31:08 公開日:2020-02-20
# 普遍文表現の文脈レンズ化

Contextual Lensing of Universal Sentence Representations ( http://arxiv.org/abs/2002.08866v1 )

ライセンス: Link先を確認
Jamie Kiros(参考訳) 普遍的な文エンコーダとは何か? テキストの一般的なエンコーダの概念は、動的世界における言語使用の固有の文脈化と非永続性に反するように見える。 しかし、下流の類似性と検索タスクのための一般的な固定長ベクトルへの文のマッピングは、特に多言語アプリケーションにおいて実りある。 このジレンマをどのように管理しますか。 本研究ではコンテキスト指向の普遍文ベクトルを誘導する手法であるContextual Lensingを提案する。 固定長ベクトルをレンズコンテキストの関数として誘導できる適応可能な 'lens' を備えた,普遍文ベクトルの構成を,コア,可変長,文行列表現に分解する。 言語類似性の概念を、コアとなる普遍行列表現を与えられた少数のレンズパラメータに焦点を合わせることが可能であることを示す。 例えば、コアエンコーダが並列データを見ていない場合でも、複数の言語にわたる文の翻訳類似性を単一の重み行列にエンコードする能力を示す。

What makes a universal sentence encoder universal? The notion of a generic encoder of text appears to be at odds with the inherent contextualization and non-permanence of language use in a dynamic world. However, mapping sentences into generic fixed-length vectors for downstream similarity and retrieval tasks has been fruitful, particularly for multilingual applications. How do we manage this dilemma? In this work we propose Contextual Lensing, a methodology for inducing context-oriented universal sentence vectors. We break the construction of universal sentence vectors into a core, variable length, sentence matrix representation equipped with an adaptable `lens' from which fixed-length vectors can be induced as a function of the lens context. We show that it is possible to focus notions of language similarity into a small number of lens parameters given a core universal matrix representation. For example, we demonstrate the ability to encode translation similarity of sentences across several languages into a single weight matrix, even when the core encoder has not seen parallel data.
翻訳日:2022-12-30 06:30:27 公開日:2020-02-20
# 表情認識のための深層多面パッチアグリゲーションネットワーク

Deep Multi-Facial Patches Aggregation Network For Facial Expression Recognition ( http://arxiv.org/abs/2002.09298v1 )

ライセンス: Link先を確認
Ahmed Rachid Hazourli and Amine Djeghri and Hanan Salam and Alice Othmani(参考訳) 本稿では,深層多面的パッチアグリゲーションネットワークに基づく顔表情認識(FER)のアプローチを提案する。 ディープ機能はディープサブネットワークを使用して顔パッチから学び、表現分類のための1つのディープアーキテクチャに集約される。 特に、大規模なディープラーニングネットワークをトレーニングするのに不十分な既存のFERデータセットの小さなサイズは、ディープラーニングベースのFERアプローチのパフォーマンスに影響する可能性がある。 さらに、多数の顔画像を収集し、注釈をつけるのに非常に時間がかかる。 そこで本研究では,FERラベル付きトレーニングデータセットを拡張するために,表情生成のための2つのデータ拡張手法を提案する。 提案フレームワークを3つのferデータセット上で評価する。 その結果,提案手法は,モデルが同じデータセットのイメージ上でトレーニングされ,テストされた場合に,最先端のFER深層学習を実現する。 さらに,提案手法により表現認識率が向上し,より小さなデータセットを用いた深層学習FERモデルの学習が可能である。 データセットバイアスのテストでは、精度が大幅に低下する。

In this paper, we propose an approach for Facial Expressions Recognition (FER) based on a deep multi-facial patches aggregation network. Deep features are learned from facial patches using deep sub-networks and aggregated within one deep architecture for expression classification . Several problems may affect the performance of deep-learning based FER approaches, in particular, the small size of existing FER datasets which might not be sufficient to train large deep learning networks. Moreover, it is extremely time-consuming to collect and annotate a large number of facial images. To account for this, we propose two data augmentation techniques for facial expression generation to expand FER labeled training datasets. We evaluate the proposed framework on three FER datasets. Results show that the proposed approach achieves state-of-art FER deep learning approaches performance when the model is trained and tested on images from the same dataset. Moreover, the proposed data augmentation techniques improve the expression recognition rate, and thus can be a solution for training deep learning FER models using small datasets. The accuracy degrades significantly when testing for dataset bias.
翻訳日:2022-12-30 06:23:58 公開日:2020-02-20
# KaoKore: 近世日本美術の表情データセット

KaoKore: A Pre-modern Japanese Art Facial Expression Dataset ( http://arxiv.org/abs/2002.08595v1 )

ライセンス: Link先を確認
Yingtao Tian, Chikahiko Suzuki, Tarin Clanuwat, Mikel Bober-Irizar, Alex Lamb, Asanobu Kitamoto(参考訳) 手書きの数字の分類からテキスト文字列の生成まで、機械学習コミュニティから長年焦点を当ててきたデータセットは、その主題によって大きく異なる。 これにより、社会的および文化的に関連のあるデータセットを構築することへの新たな関心が生まれ、アルゴリズム研究がより直接的かつ即時に社会に影響を及ぼす可能性がある。 そのような分野の1つが歴史と人文科学であり、より良く関連する機械学習モデルが様々な分野の研究を加速することができる。 この目的のために、日本史書写のためのベンチマークやモデルが新たに提案されているが、日本史の美術作品に機械学習を応用した分野は、いまだにほとんど残っていない。 このギャップを埋めるため,本稿では,前近代日本美術品から抽出された顔からなる新しいデータセットカオコレを提案する。 画像分類のためのデータセットとしての価値と、生成モデルを用いた創造的で芸術的なデータセットとしての価値を実証する。 データセットはhttps://github.com/rois-codh/kaokoreで利用可能

From classifying handwritten digits to generating strings of text, the datasets which have received long-time focus from the machine learning community vary greatly in their subject matter. This has motivated a renewed interest in building datasets which are socially and culturally relevant, so that algorithmic research may have a more direct and immediate impact on society. One such area is in history and the humanities, where better and relevant machine learning models can accelerate research across various fields. To this end, newly released benchmarks and models have been proposed for transcribing historical Japanese cursive writing, yet for the field as a whole using machine learning for historical Japanese artworks still remains largely uncharted. To bridge this gap, in this work we propose a new dataset KaoKore which consists of faces extracted from pre-modern Japanese artwork. We demonstrate its value as both a dataset for image classification as well as a creative and artistic dataset, which we explore using generative models. Dataset available at https://github.com/rois-codh/kaokore
翻訳日:2022-12-30 06:23:40 公開日:2020-02-20
# 多目的進化アルゴリズムを用いたコアセットの分類

Uncovering Coresets for Classification With Multi-Objective Evolutionary Algorithms ( http://arxiv.org/abs/2002.08645v1 )

ライセンス: Link先を確認
Pietro Barbiero, Giovanni Squillero, Alberto Tonda(参考訳) coresetはトレーニングセットのサブセットであり、機械学習アルゴリズムが元のデータ全体にわたってトレーニングされた場合の成果と同じようなパフォーマンスを取得する。 coreset discoveryは、アルゴリズムのトレーニング速度を向上し、結果を理解するのに役立つため、アクティブでオープンな研究のラインである。 候補コーセットは反復的に最適化され、サンプルの追加と削除が行われる。 トレーニングサイズと結果の品質の制限の間に明らかなトレードオフがあるため、集合内の点数と分類誤差を同時に最小化するために多目的進化アルゴリズムが使用される。 非自明なベンチマークによる実験結果から,提案手法は,最先端のコアセット発見技術よりも,分類器が低いエラーと,未検出のデータを一般化する能力を得ることができることを示した。

A coreset is a subset of the training set, using which a machine learning algorithm obtains performances similar to what it would deliver if trained over the whole original data. Coreset discovery is an active and open line of research as it allows improving training speed for the algorithms and may help human understanding the results. Building on previous works, a novel approach is presented: candidate corsets are iteratively optimized, adding and removing samples. As there is an obvious trade-off between limiting training size and quality of the results, a multi-objective evolutionary algorithm is used to minimize simultaneously the number of points in the set and the classification error. Experimental results on non-trivial benchmarks show that the proposed approach is able to deliver results that allow a classifier to obtain lower error and better ability of generalizing on unseen data than state-of-the-art coreset discovery techniques.
翻訳日:2022-12-30 06:14:25 公開日:2020-02-20
# 乳癌診断のためのニューラルネットワークにおけるバイモーダル分布除去と遺伝的アルゴリズム

Bimodal Distribution Removal and Genetic Algorithm in Neural Network for Breast Cancer Diagnosis ( http://arxiv.org/abs/2002.08729v1 )

ライセンス: Link先を確認
Ke Quan(参考訳) 乳癌の診断は過去によく研究されてきた。 細胞の特徴と腫瘍悪性度の関係を近似するために複数の線形計画モデルが考案されている。 しかし、これらのモデルは非線形相関を扱う能力が低い。 ニューラルネットワークは複雑な非線形相関を処理するのに強力である。 したがって、ニューラルネットワークに基づくモデルを用いて、このがん診断問題にアプローチすることは確かに有益である。 特に、ニューラルネットワークトレーニングプロセスにバイアスを導入することは、トレーニング効率を高める重要な手段だと考えられている。 人工バイアスを導入するための多くの一般的な手法のうち、バイモーダル分布除去(BDR)は理想的な効率改善結果と実装の公正な簡易性を示す。 しかし,本論文では,BDRが対象癌診断の分類問題に対する効果を検証し,BDRプロセスが実際に分類性能に悪影響を及ぼすことを示す。 さらに, 遺伝的アルゴリズムを特徴選択の効率的なツールとして検討し, 特徴選択が不要なベースラインモデルと比較し, 結果の精度も向上した。

Diagnosis of breast cancer has been well studied in the past. Multiple linear programming models have been devised to approximate the relationship between cell features and tumour malignancy. However, these models are less capable in handling non-linear correlations. Neural networks instead are powerful in processing complex non-linear correlations. It is thus certainly beneficial to approach this cancer diagnosis problem with a model based on neural network. Particularly, introducing bias to neural network training process is deemed as an important means to increase training efficiency. Out of a number of popular proposed methods for introducing artificial bias, Bimodal Distribution Removal (BDR) presents ideal efficiency improvement results and fair simplicity in implementation. However, this paper examines the effectiveness of BDR against the target cancer diagnosis classification problem and shows that BDR process in fact negatively impacts classification performance. In addition, this paper also explores genetic algorithm as an efficient tool for feature selection and produced significantly better results comparing to baseline model that without any feature selection in place
翻訳日:2022-12-30 06:13:55 公開日:2020-02-20
# ニューラル音声強調のための訓練用フロントエンド

Efficient Trainable Front-Ends for Neural Speech Enhancement ( http://arxiv.org/abs/2002.09286v1 )

ライセンス: Link先を確認
Jonah Casebeer, Umut Isik, Shrikant Venkataramani, Arvindh Krishnaswamy(参考訳) 多くのニューラル音声強調および音源分離システムは時間周波数領域で動作する。 このようなモデルは、しばしばショートタイムフーリエ変換(STFT)のフロントエンドをトレーニングできるという利点がある。 現在の文献では、これらは大きな離散フーリエ変換行列として実装されており、低計算系では非効率である。 高速フーリエ変換を計算するためのバタフライ機構に基づく効率的で訓練可能なフロントエンドを提案し,その精度と効率性を示す。 また、STFTウィンドウをトレーニング可能にする効果についても検討する。

Many neural speech enhancement and source separation systems operate in the time-frequency domain. Such models often benefit from making their Short-Time Fourier Transform (STFT) front-ends trainable. In current literature, these are implemented as large Discrete Fourier Transform matrices; which are prohibitively inefficient for low-compute systems. We present an efficient, trainable front-end based on the butterfly mechanism to compute the Fast Fourier Transform, and show its accuracy and efficiency benefits for low-compute neural speech enhancement models. We also explore the effects of making the STFT window trainable.
翻訳日:2022-12-30 06:13:25 公開日:2020-02-20
# グラフに基づく半教師付き学習を用いたアスペクト項抽出

Aspect Term Extraction using Graph-based Semi-Supervised Learning ( http://arxiv.org/abs/2003.04968v1 )

ライセンス: Link先を確認
Gunjan Ansari, Chandni Saxena, Tanvir Ahmad and M.N.Doja(参考訳) Aspect based Sentiment Analysisは感情分析の主要なサブ領域である。 アスペクト項の感情を検知し分析するために、これまで多くの教師なしアプローチが提案されてきた。 本稿では,アスペクト項抽出のためのグラフに基づく半教師付き学習手法を提案する。 本手法では,ラベル拡散アルゴリズムを用いてラベル付きトークンの小さな集合から,レビュー文書中の識別トークンをアスペクトあるいは非アスペクトとして分類する。 グラフスパーシフィケーションのためのk-nearest neighbor (knn)は、より時間とメモリ効率を高めるために提案手法で採用されている。 提案手法をさらに拡張して,識別されたアスペクト項に関連付けられた意見語の極性を決定することで,レビュー文書の視覚的アスペクトベース要約を生成する。 この実験は、ラベル付きインスタンスの値が異なるレストランとラップトップドメインのベンチマークとクロールデータセットを用いて行われた。 その結果,提案手法はラベル付きデータの可利用性に乏しい精度,リコール,精度の面で良好な結果が得られることがわかった。

Aspect based Sentiment Analysis is a major subarea of sentiment analysis. Many supervised and unsupervised approaches have been proposed in the past for detecting and analyzing the sentiment of aspect terms. In this paper, a graph-based semi-supervised learning approach for aspect term extraction is proposed. In this approach, every identified token in the review document is classified as aspect or non-aspect term from a small set of labeled tokens using label spreading algorithm. The k-Nearest Neighbor (kNN) for graph sparsification is employed in the proposed approach to make it more time and memory efficient. The proposed work is further extended to determine the polarity of the opinion words associated with the identified aspect terms in review sentence to generate visual aspect-based summary of review documents. The experimental study is conducted on benchmark and crawled datasets of restaurant and laptop domains with varying value of labeled instances. The results depict that the proposed approach could achieve good result in terms of Precision, Recall and Accuracy with limited availability of labeled data.
翻訳日:2022-12-30 06:13:17 公開日:2020-02-20
# アダプティブサロゲートを用いたブラックボックスメトリックの最適化

Optimizing Black-box Metrics with Adaptive Surrogates ( http://arxiv.org/abs/2002.08605v1 )

ライセンス: Link先を確認
Qijia Jiang, Olaoluwa Adigun, Harikrishna Narasimhan, Mahdi Milani Fard, Maya Gupta(参考訳) 我々は,ブラックボックスとハード・トゥ・オプティマイズ・メトリックを用いたトレーニングモデルの問題を,少量の簡単なサロゲートの単調関数として表現することで解決する。 緩和されたサーロゲート空間上での最適化として学習問題を仮定し, 計量の局所勾配を推定し, 不正確な凸射影を行うことで解く。 有限差分と局所線形補間に基づいて勾配推定を解析し、代用体に対する滑らかな仮定の下で、我々のアプローチの収束を示す。 分類とランク付けの問題に関する実験の結果は、数学的定式化を知っている方法と同等のパフォーマンスを検証し、計量の形式が不明な場合に注目すべき値を追加する。

We address the problem of training models with black-box and hard-to-optimize metrics by expressing the metric as a monotonic function of a small number of easy-to-optimize surrogates. We pose the training problem as an optimization over a relaxed surrogate space, which we solve by estimating local gradients for the metric and performing inexact convex projections. We analyze gradient estimates based on finite differences and local linear interpolations, and show convergence of our approach under smoothness assumptions with respect to the surrogates. Experimental results on classification and ranking problems verify the proposal performs on par with methods that know the mathematical formulation, and adds notable value when the form of the metric is unknown.
翻訳日:2022-12-30 06:12:46 公開日:2020-02-20
# I-SPEC:トランスポートブル・シフト安定モデル学習のためのエンドツーエンドフレームワーク

I-SPEC: An End-to-End Framework for Learning Transportable, Shift-Stable Models ( http://arxiv.org/abs/2002.08948v1 )

ライセンス: Link先を確認
Adarsh Subbaswamy, Suchi Saria(参考訳) 開発とデプロイメントの間の環境の変化により、古典的な教師付き学習は、新しいターゲットディストリビューションにうまく一般化できないモデルを生み出す。 近年,変分予測分布を求める解が開発されている。 これらのうち、グラフベースのアプローチはターゲット環境からのデータを必要とせず、安定した特徴セットを見つける代替手法よりも安定した情報をキャプチャすることができる。 しかし、これらのアプローチはデータ生成プロセスが完全な因果グラフの形で知られていると仮定しており、一般的にはそうではない。 本稿では、データを用いて部分祖先グラフ(PAG)を学習することにより、この欠点に対処するエンドツーエンドフレームワークであるI-SPECを提案する。 PAGを用いて、宣言されたシフトに対して安定な介入分布を決定するアルゴリズムを開発し、これはより正確でない安定な特徴セットを見つける既存のアプローチを仮定する。 死亡予測問題にi-specを適用することで,原因dagの完全な事前知識を必要とせずに,シフトにロバストなモデルを学習できることを示す。

Shifts in environment between development and deployment cause classical supervised learning to produce models that fail to generalize well to new target distributions. Recently, many solutions which find invariant predictive distributions have been developed. Among these, graph-based approaches do not require data from the target environment and can capture more stable information than alternative methods which find stable feature sets. However, these approaches assume that the data generating process is known in the form of a full causal graph, which is generally not the case. In this paper, we propose I-SPEC, an end-to-end framework that addresses this shortcoming by using data to learn a partial ancestral graph (PAG). Using the PAG we develop an algorithm that determines an interventional distribution that is stable to the declared shifts; this subsumes existing approaches which find stable feature sets that are less accurate. We apply I-SPEC to a mortality prediction problem to show it can learn a model that is robust to shifts without needing upfront knowledge of the full causal DAG.
翻訳日:2022-12-30 06:12:33 公開日:2020-02-20