このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220208となっている論文です。

PDF登録状況(公開日: 20220208)

TitleAuthorsAbstract論文公表日・翻訳日
# Sparse-RS:クエリ効率の良いスパースブラックボックス攻撃のための汎用フレームワーク

Sparse-RS: a versatile framework for query-efficient sparse black-box adversarial attacks ( http://arxiv.org/abs/2006.12834v3 )

ライセンス: Link先を確認
Francesco Croce, Maksym Andriushchenko, Naman D. Singh, Nicolas Flammarion, Matthias Hein(参考訳) ブラックボックス設定におけるスコアベーススパース攻撃に対するランダム検索に基づく多目的フレームワークであるSparse-RSを提案する。 Sparse-RSは代替モデルに頼らず、複数のスパース攻撃モデル($l_0$-bounded perturbation, 対向パッチ, 対向フレーム)に対して、最先端の成功率とクエリ効率を達成する。 ターゲット外のsparse-rsの$l_0$-versionは、mnist、cifar-10、imagenetの異なるモデルに対するすべてのブラックボックスおよびホワイトボックス攻撃よりも優れている。 さらに、ターゲット外のsparse-rsは、224\times224$の画像に対する20\times20$広告パッチと2ドルのピクセル幅広告フレームという困難な設定でも非常に高い成功率を達成しています。 最後に,Sparse-RSを適用すれば,既存のアプローチよりも大幅に優れる汎用的なパッチを生成することができることを示す。 私たちのフレームワークのコードはhttps://github.com/fra31/sparse-rsで利用可能です。

We propose a versatile framework based on random search, Sparse-RS, for score-based sparse targeted and untargeted attacks in the black-box setting. Sparse-RS does not rely on substitute models and achieves state-of-the-art success rate and query efficiency for multiple sparse attack models: $l_0$-bounded perturbations, adversarial patches, and adversarial frames. The $l_0$-version of untargeted Sparse-RS outperforms all black-box and even all white-box attacks for different models on MNIST, CIFAR-10, and ImageNet. Moreover, our untargeted Sparse-RS achieves very high success rates even for the challenging settings of $20\times20$ adversarial patches and $2$-pixel wide adversarial frames for $224\times224$ images. Finally, we show that Sparse-RS can be applied to generate targeted universal adversarial patches where it significantly outperforms the existing approaches. The code of our framework is available at https://github.com/fra31/sparse-rs.
翻訳日:2022-11-17 21:31:15 公開日:2022-02-08
# 画像デハージングのための相互依存型ネットワークのプログレッシブアップデート

Progressive Update Guided Interdependent Networks for Single Image Dehazing ( http://arxiv.org/abs/2008.01701v2 )

ライセンス: Link先を確認
Aupendu Kar, Sobhan Kanti Dhara, Debashis Sen, Prabir Kumar Biswas(参考訳) さまざまな種類の迷路を持つ画像は、デハジングに重大な挑戦をすることが多い。 したがって、その多様性に関連するヘイズパラメータの推定によるガイダンスは有益であり、最適なデヘイズを可能にするために反復ヘイズ削減と共に段階的に更新されるべきである。 そこで本研究では,一意な反復機構で動作する,新たな相互依存型デハジングおよびヘイズパラメータ更新ネットワークを含むマルチネットワークデハジングフレームワークを提案する。 ハウズパラメータ、透過マップ、大気光は、カラーキャスト処理が可能な特定の畳み込みネットワークを用いて最初に推定される。 推定パラメータをデハジングモジュールの先行値として使用し、反復機構を用いて新たな畳み込みネットワークによって推定値を段階的に更新する。 更新は、イテレーション間の依存関係を起動する畳み込みネットワークによるプログレッシブデハジングと共同で行われる。 反復機構内のジョイント更新とデハジングは、徐々にヘイズパラメータの推定値を変更して最適なデハジングを達成する。 アブレーション研究により,従来のlstmベース再帰法,画像対画像マッピング法,hazeモデルに基づく推定法よりも,反復的脱離フレームワークの方が有効であることが示された。 当社のデヘイジングフレームワークは、さまざまなヘイジング条件を持つ複数のデータセットの合成および実世界のヘイジングイメージの最先端を、質的かつ定量的に上回っていることが分かっています。

Images with haze of different varieties often pose a significant challenge to dehazing. Therefore, guidance by estimates of haze parameters related to its variety would be beneficial and they should be progressively updated along with iterative haze reduction to allow optimal dehazing. To this end, we propose a multi-network dehazing framework containing novel interdependent dehazing and haze parameter updater networks that operate within a unique iterative mechanism. The haze parameters, transmission map and atmospheric light, are first estimated using specific convolutional networks allowing color cast handling. The estimated parameters are then used as priors in our dehazing module, where the estimates are progressively updated by novel convolutional networks using the iterative mechanism. The updating takes place jointly with progressive dehazing by a convolutional network that invokes inter-iteration dependencies. The joint updating and dehazing within the iterative mechanism gradually modify the haze parameter estimates toward achieving optimal dehazing. Through ablation studies, our iterative dehazing framework is shown to be more effective than the use of conventional LSTM based recurrence, image-to-image mapping and haze model based estimation. Our dehazing framework is qualitatively and quantitatively found to outperform the state-of-the-art on synthetic and real-world hazy images of several datasets with varied hazy conditions.
翻訳日:2022-11-03 00:40:01 公開日:2022-02-08
# keypoint optimization と sim-to-real transfer によるロボットマニピュレータのポーズ推定

Pose Estimation for Robot Manipulators via Keypoint Optimization and Sim-to-Real Transfer ( http://arxiv.org/abs/2010.08054v3 )

ライセンス: Link先を確認
Jingpei Lu, Florian Richter, Michael Yip(参考訳) キーポイント検出は、モーションキャプチャやポーズ推定など、多くのロボットアプリケーションにとって必須のビルディングブロックである。 歴史的には、キーポイントはチェッカーボードやfiducialsのような独自に設計されたマーカーを使って検出される。 近年,ユーザ定義キーポイントをマーカーのない方法で検出する手段として,ディープラーニング手法が研究されている。 しかし、手動で選択したキーポイントは、検出とローカライゼーションに関して不均一なパフォーマンスを持つ。 この例は、dnn検出器が対応問題を正しく解くことができない対称ロボットツールで見ることができる。 本研究では,これらの課題を克服するキーポイント位置を定義するための,新しい自律的な手法を提案する。 このアプローチでは、ロボットマニピュレータ上のキーポイントの最適なセットを見つけ、堅牢な視覚検出とローカライズを行う。 ロボットシミュレータを媒体として,本アルゴリズムはDNNトレーニングのための合成データを使用し,提案アルゴリズムは反復的アプローチによりキーポイントの選択を最適化するために用いられる。 その結果,最適化キーポイントを用いた場合,DNNの検出性能は大幅に向上した。 さらに,シミュレーションと物理世界との間の現実のギャップを埋めるために,ドメインランダム化を用いて,実際のロボットアプリケーションのために最適化されたキーポイントを使用する。 物理世界実験では,提案手法が,カメラからロボットへのキャリブレーション,ロボットツール追跡,エンドエフェクタポーズ推定などの視覚フィードバックを必要とするロボットアプリケーションに適用可能であることを示す。

Keypoint detection is an essential building block for many robotic applications like motion capture and pose estimation. Historically, keypoints are detected using uniquely engineered markers such as checkerboards or fiducials. More recently, deep learning methods have been explored as they have the ability to detect user-defined keypoints in a marker-less manner. However, different manually selected keypoints can have uneven performance when it comes to detection and localization. An example of this can be found on symmetric robotic tools where DNN detectors cannot solve the correspondence problem correctly. In this work, we propose a new and autonomous way to define the keypoint locations that overcomes these challenges. The approach involves finding the optimal set of keypoints on robotic manipulators for robust visual detection and localization. Using a robotic simulator as a medium, our algorithm utilizes synthetic data for DNN training, and the proposed algorithm is used to optimize the selection of keypoints through an iterative approach. The results show that when using the optimized keypoints, the detection performance of the DNNs improved significantly. We further use the optimized keypoints for real robotic applications by using domain randomization to bridge the reality gap between the simulator and the physical world. The physical world experiments show how the proposed method can be applied to the wide-breadth of robotic applications that require visual feedback, such as camera-to-robot calibration, robotic tool tracking, and end-effector pose estimation.
翻訳日:2022-10-07 05:13:26 公開日:2022-02-08
# 現実世界の顔の超解像

Super-Resolution of Real-World Faces ( http://arxiv.org/abs/2011.02427v2 )

ライセンス: Link先を確認
Saurabh Goswami, Aakanksha, Rajagopalan A. N(参考訳) 実際の低解像度 (LR) の顔画像には、既知のダウンサンプリングカーネルや信号非依存ノイズによって捉えられるほど多様で複雑な劣化が含まれている。 したがって、実際の顔の超解法を成功させるためには、幅広いノイズ、ぼかし、圧縮アーティファクトなどに対して堅牢な方法が必要である。 最近の研究は、GAN(Generative Adversarial Network)を使用して、実際の画像のデータセットからこれらの劣化をモデル化しようとしている。 合成劣化LR画像を生成し、対応する実高分解能(HR)画像を用いて、画素ワイドロスと対角損失の組み合わせを用いて超高分解能(SR)ネットワークを訓練する。 本稿では,特徴抽出モジュールがLR画像からロバスト特徴を抽出する2つのモジュール超解像ネットワークを提案し,SRモジュールはこれらのロバスト特徴のみを用いてHR推定を生成する。 我々は、劣化GANを訓練し、双対的に縮小されたクリーン画像を実際の劣化画像に変換し、得られた劣化LR画像とクリーンLR画像との補間を行う。 この補間LR画像は、対応するHRと合わせて、超解像ネットワークを終端から終端までトレーニングする。 Entropy Regularized Wasserstein Divergenceは、クリーンで劣化した画像から学習したエンコードされた特徴を補間された画像から抽出した特徴と密接に類似させ、堅牢性を確保するために使用される。

Real low-resolution (LR) face images contain degradations which are too varied and complex to be captured by known downsampling kernels and signal-independent noises. So, in order to successfully super-resolve real faces, a method needs to be robust to a wide range of noise, blur, compression artifacts etc. Some of the recent works attempt to model these degradations from a dataset of real images using a Generative Adversarial Network (GAN). They generate synthetically degraded LR images and use them with corresponding real high-resolution(HR) image to train a super-resolution (SR) network using a combination of a pixel-wise loss and an adversarial loss. In this paper, we propose a two module super-resolution network where the feature extractor module extracts robust features from the LR image, and the SR module generates an HR estimate using only these robust features. We train a degradation GAN to convert bicubically downsampled clean images to real degraded images, and interpolate between the obtained degraded LR image and its clean LR counterpart. This interpolated LR image is then used along with it's corresponding HR counterpart to train the super-resolution network from end to end. Entropy Regularized Wasserstein Divergence is used to force the encoded features learnt from the clean and degraded images to closely resemble those extracted from the interpolated image to ensure robustness.
翻訳日:2022-09-29 22:58:47 公開日:2022-02-08
# ハイパーサーフェス上の特異性を持つ関数推定におけるディープニューラルネットワークの利点

Advantage of Deep Neural Networks for Estimating Functions with Singularity on Hypersurfaces ( http://arxiv.org/abs/2011.02256v2 )

ライセンス: Link先を確認
Masaaki Imaizumi, Kenji Fukumizu(参考訳) ディープニューラルネットワーク(dnn)が他の標準手法よりも優れた性能を発揮する理由を説明するために,ミニマックスレート解析を開発した。 非パラメトリック回帰問題に対しては、多くの標準手法が滑らかな関数に対する推定誤差の最小値まで到達できることがよく知られており、DNNの理論的優位性を特定することは容易ではない。 本研究では、超曲面上の特異点を持つ非スムース関数のクラスの推定を考慮し、このギャップを埋めようとする。 私たちの発見は以下の通りである。 i) DNN推定器の一般化誤差を導出し, 収束率がほぼ最適であることを証明した。 (ii) 推定問題の位相図を解明し,dnnがカーネル法,ガウス過程法など,一般的な推定器のクラスを上回る状況を記述する。 さらに、DNNは高調波解析に基づく推定器よりも優れていることを示す。 このDNNの利点は、特異点の形状が多層構造によってうまく処理できるという事実にある。

We develop a minimax rate analysis to describe the reason that deep neural networks (DNNs) perform better than other standard methods. For nonparametric regression problems, it is well known that many standard methods attain the minimax optimal rate of estimation errors for smooth functions, and thus, it is not straightforward to identify the theoretical advantages of DNNs. This study tries to fill this gap by considering the estimation for a class of non-smooth functions that have singularities on hypersurfaces. Our findings are as follows: (i) We derive the generalization error of a DNN estimator and prove that its convergence rate is almost optimal. (ii) We elucidate a phase diagram of estimation problems, which describes the situations where the DNNs outperform a general class of estimators, including kernel methods, Gaussian process methods, and others. We additionally show that DNNs outperform harmonic analysis based estimators. This advantage of DNNs comes from the fact that a shape of singularity can be successfully handled by their multi-layered structure.
翻訳日:2022-09-29 21:29:01 公開日:2022-02-08
# SSVEPを用いた脳-コンピュータインタフェースのためのディープニューラルネットワーク

A Deep Neural Network for SSVEP-based Brain-Computer Interfaces ( http://arxiv.org/abs/2011.08562v3 )

ライセンス: Link先を確認
Osman Berke Guney, Muhtasham Oblokulov and Huseyin Ozkan(参考訳) 目的:脳-コンピュータインタフェース(BCI)スペルにおけるターゲット識別(英: Target Identification)とは、被験者がスペルを意図したターゲット特性を予測する脳波分類(EEG)を指す。 各文字の視覚刺激が異なる周波数でタグ付けされると、脳波は、目標周波数の高調波に支配される定常的な視覚誘発電位(SSVEP)を記録する。 そこで本研究では,ターゲット同定に取り組み,新しいディープニューラルネットワーク(dnn)アーキテクチャを提案する。 方法:提案したDNNは,マルチチャネルSSVEPをハーモニクス,チャネル,時間,および完全連結層で分類したサブバンド間の畳み込みで処理する。 我々は、40文字の計105人の被験者からなる2つの公開大規模データセット(ベンチマークとBETA)をテストした。 第1段階の訓練では,各被験者の統計的共通性を活用し,第2段階のファインチューンを個別に活用することで,グローバルモデルを学ぶ。 結果: dnnは,2つのデータセット,265.23ビット/分,196.59ビット/分において,それぞれ0.4秒の刺激で印象的な情報転送率(itrs)を達成している。 コードはhttps://github.com/osmanberke/Deep-SSVEP-BCIで再現可能である。 結論: 提示されたDNNは、我々の精度とITRレートがこれらのデータセット上で報告された最高のパフォーマンス結果であるので、最先端技術よりも強く優れています。 意義: 一般的なSSVEPシステムに適用可能なスペルITRは前例のないほど高いため, コミュニケーション, リハビリテーション, コントロールといったBCIの様々なバイオメディカル工学的設定において, 本手法は大きな可能性を秘めている。

Objective: Target identification in brain-computer interface (BCI) spellers refers to the electroencephalogram (EEG) classification for predicting the target character that the subject intends to spell. When the visual stimulus of each character is tagged with a distinct frequency, the EEG records steady-state visually evoked potentials (SSVEP) whose spectrum is dominated by the harmonics of the target frequency. In this setting, we address the target identification and propose a novel deep neural network (DNN) architecture. Method: The proposed DNN processes the multi-channel SSVEP with convolutions across the sub-bands of harmonics, channels, time, and classifies at the fully connected layer. We test with two publicly available large scale (the benchmark and BETA) datasets consisting of in total 105 subjects with 40 characters. Our first stage training learns a global model by exploiting the statistical commonalities among all subjects, and the second stage fine tunes to each subject separately by exploiting the individualities. Results: Our DNN achieves impressive information transfer rates (ITRs) on both datasets, 265.23 bits/min and 196.59 bits/min, respectively, with only 0.4 seconds of stimulation. The code is available for reproducibility at https://github.com/osmanberke/Deep-SSVEP-BCI. Conclusion: The presented DNN strongly outperforms the state-of-the-art techniques as our accuracy and ITR rates are the highest ever reported performance results on these datasets. Significance: Due to its unprecedentedly high speller ITRs and flawless applicability to general SSVEP systems, our technique has great potential in various biomedical engineering settings of BCIs such as communication, rehabilitation and control.
翻訳日:2022-09-24 17:51:42 公開日:2022-02-08
# 長いシーケンスのアライメントに制約のあるNested Named Entity RecognitionのためのRNNトランスデューサ

RNN Transducers for Nested Named Entity Recognition with constraints on alignment for long sequences ( http://arxiv.org/abs/2203.03543v1 )

ライセンス: Link先を確認
Hagen Soltau, Izhak Shafran, Mingqiu Wang and Laurent El Shafey(参考訳) Named Entity Recognition (NER) の一般的なソリューションには、条件付きランダムフィールド、シーケンス対シーケンスモデル、質問応答フレームワークの利用などがある。 しかし、それらは大きなオントロジーを持つネストと重なり合うスパンや、実体の位置を予測するには適していない。 このギャップを埋めるために、NERタスク(RNNトランスデューサ(RNN-T))の新しいモデルを導入する。 これらのモデルは、他のSeq-to-seqモデルと同様、ペア化された入力シーケンスと出力シーケンスを使用してトレーニングされる。 RNN-Tモデルは、すべてのアライメントを合計するロス関数を用いてアライメントを学習する。 しかし、NERタスクでは、人間のアノテーションから単語とターゲットラベルのアライメントが利用可能である。 出力依存性のモデル化などのRNN-Tの利点を保ちつつ,所定のアライメントを利用する固定アライメントRNN-Tモデルを提案する。 より一般的な例として、ユーザが与えられた入力アライメントの緩和を指定でき、モデルが与えられた制約内でアライメントを学習する制約付きアライメントモデルを提案する。 言い換えれば、入力シーケンスとターゲットシーケンスのアライメントを利用できるSeq-to-seqモデルのファミリーを提案する。 複数のネストオントロジーを持つ実世界の医療NERタスクの実証実験を通じて、我々の固定アライメントモデルが標準RNN-Tモデルより優れ、F1スコアが0.70から0.74に向上したことを示す。

Popular solutions to Named Entity Recognition (NER) include conditional random fields, sequence-to-sequence models, or utilizing the question-answering framework. However, they are not suitable for nested and overlapping spans with large ontologies and for predicting the position of the entities. To fill this gap, we introduce a new model for NER task -- an RNN transducer (RNN-T). These models are trained using paired input and output sequences without explicitly specifying the alignment between them, similar to other seq-to-seq models. RNN-T models learn the alignment using a loss function that sums over all alignments. In NER tasks, however, the alignment between words and target labels are available from the human annotations. We propose a fixed alignment RNN-T model that utilizes the given alignment, while preserving the benefits of RNN-Ts such as modeling output dependencies. As a more general case, we also propose a constrained alignment model where users can specify a relaxation of the given input alignment and the model will learn an alignment within the given constraints. In other words, we propose a family of seq-to-seq models which can leverage alignments between input and target sequences when available. Through empirical experiments on a challenging real-world medical NER task with multiple nested ontologies, we demonstrate that our fixed alignment model outperforms the standard RNN-T model, improving F1-score from 0.70 to 0.74.
翻訳日:2022-03-13 14:00:40 公開日:2022-02-08
# (参考訳) 新しい学習アルゴリズムの収束性

Convergence of a New Learning Algorithm ( http://arxiv.org/abs/2202.12829v1 )

ライセンス: CC BY 4.0
Feng Lin(参考訳) BrandtとLinによって提案されたニューラルネットワーク[1],[2]は、従来のバックプロパゲーション学習アルゴリズムと数学的に等価であることが示されているが、バックプロパゲーションアルゴリズムに対していくつかの利点がある。 本稿では,新しいアルゴリズムの収束について検討する。 アルゴリズムが収束するのに必要かつ十分な条件が導出される。 新しいアルゴリズムの収束率を測定するために収束測度が提案されている。 シミュレーション研究により, ニューロン数, 接続距離, 接続密度, 興奮性/抑制性シナプス比, 膜電位, シナプス強度に関するアルゴリズムの収束性について検討した。

A new learning algorithm proposed by Brandt and Lin for neural network [1], [2] has been shown to be mathematically equivalent to the conventional back-propagation learning algorithm, but has several advantages over the backpropagation algorithm, including feedback-network-free implementation and biological plausibility. In this paper, we investigate the convergence of the new algorithm. A necessary and sufficient condition for the algorithm to converge is derived. A convergence measure is proposed to measure the convergence rate of the new algorithm. Simulation studies are conducted to investigate the convergence of the algorithm with respect to the number of neurons, the connection distance, the connection density, the ratio of excitatory/inhibitory synapses, the membrane potentials, and the synapse strengths.
翻訳日:2022-03-06 15:50:51 公開日:2022-02-08
# HNNとHNN-SAアルゴリズムを用いた旅行セールスマン問題の解法

Solving The Travelling Salesmen Problem using HNN and HNN-SA algorithms ( http://arxiv.org/abs/2202.13746v1 )

ライセンス: Link先を確認
Gyanateet Dutta(参考訳) このケーススタディでは、有名な旅行セールスマンの問題が研究されている。 トラベリングセールスマン問題はコンピュータ科学において最も要求の多い計算問題である。 トラベルセールスマン問題はホップフィールドネットワークを用いて2つの異なる方法で解決された。 問題の主な理論は、ノード間のエッジを持つグラフ内のノード間の距離と接続性を見つけることである。 この問題の基本的なアルゴリズムはジクストラのアルゴリズムである。 しかし、これまで多くのアルゴリズムが進化してきた。 それらのうち(他のいくつかのアルゴリズム)は区別され、グラフ理論によって進行セールスマン問題を解決することが証明されている。

In this case study, the renowned Travelling Salesmen problem has been studied. Travelling Salesman problem is a most demanding computational problem in Computer Science. The Travelling Salesmen problem has been solved by two different ways using Hopfield Network. The main theory of the problem is to find distance and connectedness between nodes in a graph having edges between the nodes. The basic algorithm used for this problem is Djikstra's Algorithm. But till now , a number of such algorithms have evolved. Among them(some other algorithms) , are distinct and have been proved to solve the travelling salesmen problem by graph theory.
翻訳日:2022-03-06 13:10:04 公開日:2022-02-08
# 産業用IoDアーキテクチャの多目的最適化に基づくマルチドメインVNEアルゴリズム

A multi-domain VNE algorithm based on multi-objective optimization for IoD architecture in Industry 4.0 ( http://arxiv.org/abs/2202.12830v1 )

ライセンス: Link先を確認
Peiying Zhang, Chao Wang, Zeyu Qin, Haotong Cao(参考訳) 無人航空機(UAV)は将来、特に産業用4.0で広く応用される可能性がある。 Internet of Drones (IoD) の開発により、UAVの運用はより自律的になる。 ネットワーク仮想化技術はIoDをサポートするための有望な技術であるため、IoDでは仮想リソースの割り当てが重要な問題となっている。 潜在的資源を合理的に割り当てる方法は、解決すべき緊急の問題となっている。 本稿では,(1)最適化性能を向上し,計算時間を短縮するために,集中型階層型マルチドメインアーキテクチャを採用したマルチドメイン仮想ネットワーク埋め込みアルゴリズム(MP-VNE)を提案する。 提案手法は従来の粒子群最適化プロセスに遺伝的変異係数を組み込むことにより局所的最適化を回避できる。 2)多目的最適化問題を単純化するために,重み付け和法を用いて多目的問題を単目的問題に変換する。 その結果,提案アルゴリズムは最適解に迅速に収束できることがわかった。 3) マッピングコストを低減するために, 推定されたマッピングコストに基づいて候補ノードを選択するアルゴリズムを提案する。 各物理領域は、推定マッピングコストの式に従って全てのノードの推定マッピングコストを算出し、最も低い推定マッピングコストのノードを候補ノードとして選択する。 シミュレーションの結果,提案アルゴリズムはMC-VNM, LID-VNE, その他のアルゴリズムよりも遅延, コスト, 包括的指標の点で優れた性能を示した。

Unmanned aerial vehicle (UAV) has a broad application prospect in the future, especially in the Industry 4.0. The development of Internet of Drones (IoD) makes UAV operation more autonomous. Network virtualization technology is a promising technology to support IoD, so the allocation of virtual resources becomes a crucial issue in IoD. How to rationally allocate potential material resources has become an urgent problem to be solved. The main work of this paper is presented as follows: (1) In order to improve the optimization performance and reduce the computation time, we propose a multi-domain virtual network embedding algorithm (MP-VNE) adopting the centralized hierarchical multi-domain architecture. The proposed algorithm can avoid the local optimum through incorporating the genetic variation factor into the traditional particle swarm optimization process. (2) In order to simplify the multi-objective optimization problem, we transform the multi-objective problem into a single-objective problem through weighted summation method. The results prove that the proposed algorithm can rapidly converge to the optimal solution. (3) In order to reduce the mapping cost, we propose an algorithm for selecting candidate nodes based on the estimated mapping cost. Each physical domain calculates the estimated mapping cost of all nodes according to the formula of the estimated mapping cost, and chooses the node with the lowest estimated mapping cost as the candidate node. The simulation results show that the proposed MP-VNE algorithm has better performance than MC-VNM, LID-VNE and other algorithms in terms of delay, cost and comprehensive indicators.
翻訳日:2022-03-06 13:08:41 公開日:2022-02-08
# (参考訳) 事前制約のある計画タスクのための最適マルチエージェント経路探索

Optimal Multi-Agent Path Finding for Precedence Constrained Planning Tasks ( http://arxiv.org/abs/2202.10449v1 )

ライセンス: CC BY 4.0
Kushal Kedia, Rajat Kumar Jenamani, Aritra Hazra, Partha Pratim Chakrabarti(参考訳) MAPF(Multi-Agent Path Finding)は、開始地点から終了地点まで複数のエージェントの衝突のない経路を見つける問題である。 本稿では,PC-MAPF(Precedence Constrained Multi-Agent Path Finding)という,先行制約を含む計画タスクの順序をエージェントに割り当てる手法を提案する。 pc-mapfには様々な用途があり、例えばマルチエージェントピックアップや配送問題では、複数のエージェントが協調してそれらをピックアップして移動させる必要がある。 また、製造作業が開始される前に、その入力資源を製造・納入しなければならない倉庫組立問題にも先行制約が生じる。 そこで本研究では,本問題の最適解を求める新しいアルゴリズム,precedence restricteded conflict based search (pc-cbs)を提案する。 PC-CBSはPrecedence-Constrained Task-Graphを使用して、各計画タスクの有効間隔を定義し、優先順位の衝突が発生したときに更新する。 我々は,このアルゴリズムの性能を様々な倉庫アセンブリ,マルチエージェントピックアップおよび配送タスク上でベンチマークし,最近提案する効率的なベースラインのサブ最適化性を評価する。

Multi-Agent Path Finding (MAPF) is the problem of finding collision-free paths for multiple agents from their start locations to end locations. We consider an extension to this problem, Precedence Constrained Multi-Agent Path Finding (PC-MAPF), wherein agents are assigned a sequence of planning tasks that contain precedence constraints between them. PC-MAPF has various applications, for example in multi-agent pickup and delivery problems where some objects might require multiple agents to collaboratively pickup and move them in unison. Precedence constraints also arise in warehouse assembly problems where before a manufacturing task can begin, its input resources must be manufactured and delivered. We propose a novel algorithm, Precedence Constrained Conflict Based Search (PC-CBS), which finds makespan-optimal solutions for this class of problems. PC-CBS utilizes a Precedence-Constrained Task-Graph to define valid intervals for each planning task and updates them when precedence conflicts are encountered. We benchmark the performance of this algorithm over various warehouse assembly, and multi-agent pickup and delivery tasks, and use it to evaluate the sub-optimality of a recently proposed efficient baseline.
翻訳日:2022-02-27 21:38:57 公開日:2022-02-08
# (参考訳) 証明入門における自然言語の証明 -ディプロッシュによる最初の経験-

Natural Language Proof Checking in Introduction to Proof Classes -- First Experiences with Diproche ( http://arxiv.org/abs/2202.08131v1 )

ライセンス: CC BY 4.0
Merlin Carl (Europa-Universit\"at Flensburg), Hinrich Lorenzen (Europa-Universit\"at Flensburg), Michael Schmitz (Europa-Universit\"at Flensburg)(参考訳) 自然言語証明チェッカーであるdiprocheシステムについて,1学期数学の初心者による228名の参加者による講義で紹介し,分析した。 このシステムは、ブール集合論と初等数論の演習を証明しようとする生徒の解法を確認し、即座にフィードバックを与えるために使用される。 システムの採用のメリットは、学期末のアンケートと、学生のサブグループの解決の試みを分析して評価する。 結果に基づいて、今後の改善に向けたアプローチを開発します。

We present and analyze the employment of the Diproche system, a natural language proof checker, within a one-semester mathematics beginners lecture with 228 participants. The system is used to check the students' solution attempts to proving exercises in Boolean set theory and elementary number theory and to give them immediate feedback. The benefits of the employment of the system are assessed via a questionnaire at the end of the semester and via analyzing the solution attempts of a subgroup of the students. Based on our results we develop approaches for future improvements.
翻訳日:2022-02-20 17:09:26 公開日:2022-02-08
# (参考訳) 知識グラフ補完におけるグラフ畳み込みネットワークの再考

Rethinking Graph Convolutional Networks in Knowledge Graph Completion ( http://arxiv.org/abs/2202.05679v1 )

ライセンス: CC BY 4.0
Zhanqiu Zhang, Jie Wang, Jieping Ye, Feng Wu(参考訳) グラフ構造モデリングに有効なグラフ畳み込みネットワーク(GCN)は、知識グラフ補完(KGC)においてますます人気が高まっている。 GCNベースのKGCモデルはまずGCNを使用して表現的なエンティティ表現を生成し、次に知識グラフ埋め込み(KGE)モデルを使用してエンティティとリレーション間の相互作用をキャプチャする。 しかし、多くのGCNベースのKGCモデルは、計算の複雑さを増すが、最先端のKGEモデルより優れている。 この現象は、KGCにおけるGCNの本当の効果を探る動機となる。 そこで本研究では,GCNをベースとした代表的なKGCモデルを構築し,GCNのどの因子がKGCに重要なのかを明らかにする。 驚くべきことに、我々は実験からgcnsにおけるグラフ構造モデリングがkgcモデルの性能に大きな影響を与えないことを観察し、これは一般的な信念とは対照的である。 その代わり、エンティティ表現の変換はパフォーマンス改善の責任を負う。 そこで本研究では,既存のKGEモデルに線形変換されたエンティティ埋め込みを組み込んだ,LTE-KGEというシンプルなフレームワークを提案する。 実験により、LTE-KGEモデルはGCNベースのKGC法で同様の性能向上をもたらすが、計算効率は向上した。 これらの結果から,既存のGCNはKGCには不要であることが示唆された。 すべての実験のコードはGitHubでhttps://github.com/MIRALab-USTC/GCN4KGCで公開されている。

Graph convolutional networks (GCNs) -- which are effective in modeling graph structures -- have been increasingly popular in knowledge graph completion (KGC). GCN-based KGC models first use GCNs to generate expressive entity representations and then use knowledge graph embedding (KGE) models to capture the interactions among entities and relations. However, many GCN-based KGC models fail to outperform state-of-the-art KGE models though introducing additional computational complexity. This phenomenon motivates us to explore the real effect of GCNs in KGC. Therefore, in this paper, we build upon representative GCN-based KGC models and introduce variants to find which factor of GCNs is critical in KGC. Surprisingly, we observe from experiments that the graph structure modeling in GCNs does not have a significant impact on the performance of KGC models, which is in contrast to the common belief. Instead, the transformations for entity representations are responsible for the performance improvements. Based on the observation, we propose a simple yet effective framework named LTE-KGE, which equips existing KGE models with linearly transformed entity embeddings. Experiments demonstrate that LTE-KGE models lead to similar performance improvements with GCN-based KGC methods, while being more computationally efficient. These results suggest that existing GCNs are unnecessary for KGC, and novel GCN-based KGC models should count on more ablation studies to validate their effectiveness. The code of all the experiments is available on GitHub at https://github.com/MIRALab-USTC/GCN4KGC.
翻訳日:2022-02-20 16:57:22 公開日:2022-02-08
# 検出とパスを用いた限定データによる発声音声のASR強調

Enhancing ASR for Stuttered Speech with Limited Data Using Detect and Pass ( http://arxiv.org/abs/2202.05396v1 )

ライセンス: Link先を確認
Olabanji Shonibare, Xiaosu Tong, Venkatesh Ravichandran(参考訳) 全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。 近年の音声認識(ASR)の進歩により,音声アシスタントは日常生活においてますます有用である。 教育、小売、通信、医療の多くの技術が音声で操作できるようになった。 残念ながら、これらの利点はPWS(People Who Stutter)にはアクセスできない。 本稿では, 限られたデータ環境において, 最新のASRシステムにアクセスしやすくするための, 簡易かつ効果的な手法"Detect and Pass"を提案する。 このアルゴリズムは、限られた量のデータに基づいて訓練された文脈認識分類器を使用して、スタッターを含む音響フレームを検出する。 発声音声のロバスト性を改善するため、この余分な情報は推論時に利用するASRモデルに渡される。 本実験では,様々な状態のart asrシステムにおいて,単語誤り率 (wer) が12.18%から71.24%削減されたことを示す。 低フレームレート (LFR) 音響特性の決定に使用する重み付きフレーム毎のスタッター後部確率の閾値を変動させると, WER を23.93% から71.67% に減少させる最適設定が決定できた。

It is estimated that around 70 million people worldwide are affected by a speech disorder called stuttering. With recent advances in Automatic Speech Recognition (ASR), voice assistants are increasingly useful in our everyday lives. Many technologies in education, retail, telecommunication and healthcare can now be operated through voice. Unfortunately, these benefits are not accessible for People Who Stutter (PWS). We propose a simple but effective method called 'Detect and Pass' to make modern ASR systems accessible for People Who Stutter in a limited data setting. The algorithm uses a context aware classifier trained on a limited amount of data, to detect acoustic frames that contain stutter. To improve robustness on stuttered speech, this extra information is passed on to the ASR model to be utilized during inference. Our experiments show a reduction of 12.18% to 71.24% in Word Error Rate (WER) across various state of the art ASR systems. Upon varying the threshold of the associated posterior probability of stutter for each stacked frame used in determining low frame rate (LFR) acoustic features, we were able to determine an optimal setting that reduced the WER by 23.93% to 71.67% across different ASR systems.
翻訳日:2022-02-20 16:22:50 公開日:2022-02-08
# 通信・電力ネットワーク管理のためのロバスト・深層・強化学習

Robust, Deep, and Reinforcement Learning for Management of Communication and Power Networks ( http://arxiv.org/abs/2202.05395v1 )

ライセンス: Link先を確認
Alireza Sadeghi(参考訳) この論文は、データ駆動機械学習アルゴリズムを開発し、堅牢性、スケーラビリティ、状況認識を保証するための、画期的な制御、監視、意思決定スキームを必要とする次世代の高度に複雑なサイバー物理システムを管理し、最適化する。 本論文はまず,分散不確実性や逆データに対して汎用機械学習モデルを堅牢にするための原理的手法を開発する。 特に、パラメトリックモデルを学ぶためにトレーニングデータが使用されているパラメトリックモデルに焦点を当てる。 開発フレームワークは、特にトレーニングとテストデータが"軽く"異なる分布から引き出される場合、特に関心がある。 次に,wasserstein距離で定量化されたトレーニング分布の曖昧性セットに対して,予想される最悪の損失を最小限に抑えるために,分布にロバストな学習フレームワークを導入する。 その後、我々はこの頑健なフレームワークを構築し、グラフメソッドによる堅牢な半教師付き学習を設計する。 この論文の第2部は、次世代有線および無線ネットワークの可能性を完全に解き放つことを目的としており、我々は(深層)強化学習アプローチを用いて「スマート」ネットワークエンティティを設計する。 最後に、この論文は電力系統の動作と制御を強化する。 我々は,再生可能資源と需要対応プログラムの浸透率が高い持続可能な流通グリッドへの貢献である。 再生可能エネルギーと負荷消費の予測外かつ急速に変化するシナリオを説明するため、我々は、特に、サイバー能力を有する分散型電源ユニットのスマートインバータだけでなく、ユーティリティ所有の制御デバイス(キャパシタバンクなど)に、リアクティブ電力補償を委譲する。

This thesis develops data-driven machine learning algorithms to managing and optimizing the next-generation highly complex cyberphysical systems, which desperately need ground-breaking control, monitoring, and decision making schemes that can guarantee robustness, scalability, and situational awareness. The present thesis first develops principled methods to make generic machine learning models robust against distributional uncertainties and adversarial data. Particular focus will be on parametric models where some training data are being used to learn a parametric model. The developed framework is of high interest especially when training and testing data are drawn from "slightly" different distribution. We then introduce distributionally robust learning frameworks to minimize the worst-case expected loss over a prescribed ambiguity set of training distributions quantified via Wasserstein distance. Later, we build on this robust framework to design robust semi-supervised learning over graph methods. The second part of this thesis aspires to fully unleash the potential of next-generation wired and wireless networks, where we design "smart" network entities using (deep) reinforcement learning approaches. Finally, this thesis enhances the power system operation and control. Our contribution is on sustainable distribution grids with high penetration of renewable sources and demand response programs. To account for unanticipated and rapidly changing renewable generation and load consumption scenarios, we specifically delegate reactive power compensation to both utility-owned control devices (e.g., capacitor banks), as well as smart inverters of distributed generation units with cyber-capabilities.
翻訳日:2022-02-20 16:21:56 公開日:2022-02-08
# (参考訳) 点クラウドマッチングのためのエッジ選択機能ウィービング

Edge-Selective Feature Weaving for Point Cloud Matching ( http://arxiv.org/abs/2202.02149v2 )

ライセンス: CC BY 4.0
Rintaro Yanagi, Atsushi Hashimoto, Shusaku Sone, Naoya Chiba, Jiaxin Ma, and Yoshitaka Ushiku(参考訳) 本稿では、2つの3次元点雲の点を正確にマッチングする問題に取り組む。 従来の手法では,各点から深層学習に基づくアルゴリズムを用いて代表的特徴を抽出することで性能を向上させる。 一方,抽出した特徴量間の対応計算は深く検討されておらず,学習不可能なアルゴリズム(シンクホーンアルゴリズムなど)が頻繁に適用されている。 その結果、抽出した特徴を非学習可能なアルゴリズムに強制的に適合させることができる。 さらに,抽出した特徴は確率的に避けられない誤りを頻繁に含み,マッチング精度を劣化させる。 本稿では, 学習不能なアルゴリズムを用いる代わりに, 特徴抽出法と協調して最適化できる微分可能マッチングネットワークを提案する。 ネットワークはまず,各点雲の点を接続するエッジを持つグラフを構築し,共有セットエンコーダとエッジ選択相互接続という2つの主要コンポーネントを用いて識別エッジの特徴を抽出する。 これらの成分により、2つの点雲を対称的に考慮し、それぞれ識別的エッジ特徴を抽出することができる。 抽出した識別エッジ特徴を用いて、ネットワークはポイント間の対応を正確に計算できる。 実験の結果,提案ネットワークはポイントクラウドマッチングの性能を大幅に向上できることがわかった。 私たちのコードはhttps://github.com/yanarin/ESFWで利用可能です。

This paper tackles the problem of accurately matching the points of two 3D point clouds. Most conventional methods improve their performance by extracting representative features from each point via deep-learning-based algorithms. On the other hand, the correspondence calculation between the extracted features has not been examined in depth, and non-trainable algorithms (e.g. the Sinkhorn algorithm) are frequently applied. As a result, the extracted features may be forcibly fitted to a non-trainable algorithm. Furthermore, the extracted features frequently contain stochastically unavoidable errors, which degrades the matching accuracy. In this paper, instead of using a non-trainable algorithm, we propose a differentiable matching network that can be jointly optimized with the feature extraction procedure. Our network first constructs graphs with edges connecting the points of each point cloud and then extracts discriminative edge features by using two main components: a shared set-encoder and an edge-selective cross-concatenation. These components enable us to symmetrically consider two point clouds and to extract discriminative edge features, respectively. By using the extracted discriminative edge features, our network can accurately calculate the correspondence between points. Our experimental results show that the proposed network can significantly improve the performance of point cloud matching. Our code is available at https://github.com/yanarin/ESFW
翻訳日:2022-02-13 21:15:50 公開日:2022-02-08
# (参考訳) BAM: アダプティブメモリを備えたベイズ

BAM: Bayes with Adaptive Memory ( http://arxiv.org/abs/2202.02405v2 )

ライセンス: CC BY 4.0
Josue Nassar and Jennifer Brennan and Ben Evans and Kendall Lowrey(参考訳) ベイズの定理によるオンライン学習は、新しいデータをエージェントの現在の信念に継続的に組み込むことを可能にする。 しかし、ベイズ法を非定常環境に適用すると適応が遅くなり、誤ったパラメータ値に自信を持って収束する状態推定が得られる。 しかし、この「偽造」の単純なメカニズムは、多くの現実世界の環境が同様の状態を再考するという事実を説明できない。 我々は,エージェントが記憶すべき過去と記憶すべき過去を選択できるようにすることで,過去の経験を生かした新しいフレームワーク bayes with adaptive memory (bam) を提案する。 我々は,BAMが非定常環境におけるベイズ更新規則を一般化することを実証した。 さまざまな実験を通じて、常に変化する世界でBAMが継続的に適応できることを示します。

Online learning via Bayes' theorem allows new data to be continuously integrated into an agent's current beliefs. However, a naive application of Bayesian methods in non stationary environments leads to slow adaptation and results in state estimates that may converge confidently to the wrong parameter value. A common solution when learning in changing environments is to discard/downweight past data; however, this simple mechanism of "forgetting" fails to account for the fact that many real-world environments involve revisiting similar states. We propose a new framework, Bayes with Adaptive Memory (BAM), that takes advantage of past experience by allowing the agent to choose which past observations to remember and which to forget. We demonstrate that BAM generalizes many popular Bayesian update rules for non-stationary environments. Through a variety of experiments, we demonstrate the ability of BAM to continuously adapt in an ever-changing world.
翻訳日:2022-02-13 18:51:03 公開日:2022-02-08
# (参考訳) DeepCENT: 深層学習による知覚イベント時間の予測

DeepCENT: Prediction of Censored Event Time via Deep Learning ( http://arxiv.org/abs/2202.05155v1 )

ライセンス: CC BY 4.0
Jong-Hyeon Jeong and Yichen Jia(参考訳) ディープラーニングの急速な進歩により、非線形および複雑な右検閲データをディープラーニングアプローチで解析する多くの計算手法が開発されている。 しかし、ほとんどの方法は、事象に対する単一の価値ある時間を予測するのではなく、生存機能やハザード機能の予測に焦点を当てている。 本稿では,イベントへの個々の時間を直接予測する新しい手法であるDeepCENTを提案する。 ディープラーニングフレームワークと、平均二乗誤差と一致指数を組み合わせた革新的な損失関数を利用する。 最も重要なのは、deepcentが競合リスクに対処することで、ひとつのタイプのイベントが他のタイプのイベントを監視できないようにすることだ。 DeepCENTの有効性と利点をシミュレーションを用いて評価し,3つの公開癌データセットを用いて検討した。

With the rapid advances of deep learning, many computational methods have been developed to analyze nonlinear and complex right censored data via deep learning approaches. However, the majority of the methods focus on predicting survival function or hazard function rather than predicting a single valued time to an event. In this paper, we propose a novel method, DeepCENT, to directly predict the individual time to an event. It utilizes the deep learning framework with an innovative loss function that combines the mean square error and the concordance index. Most importantly, DeepCENT can handle competing risks, where one type of event precludes the other types of events from being observed. The validity and advantage of DeepCENT were evaluated using simulation studies and illustrated with three publicly available cancer data sets.
翻訳日:2022-02-13 13:57:19 公開日:2022-02-08
# (参考訳) iotにおける畳み込みニューラルネットワークを用いたecgシグナルの効果的な分類

Effective classification of ecg signals using enhanced convolutional neural network in iot ( http://arxiv.org/abs/2202.05154v1 )

ライセンス: CC BY 4.0
Ahmad M. Karim(参考訳) 本稿では,IoT技術に基づく新しいECGモニタリング手法を提案する。 本稿では、動的ソースルーティング(DSR)とエネルギーリンク品質(REL)に基づくIoTヘルスケアプラットフォームのためのルーティングシステムを提案する。 さらに, ニューラルネットワーク(ANN), サポートベクトルマシン(SVM), コンボリューションニューラルネットワーク(CNN)を用いたECG信号分類手法の検証を行った。 deep-ecgは心疾患を効率的に分類するために、重要な特徴を抽出するためにディープcnnを使用し、単純かつ高速な距離関数を用いて比較する。 この研究は、異常データを特定するために、モバイルウォッチユーザーから取得したECGデータの分類のためのアルゴリズムを提案する。 マサチューセッツ工科大学(MIT)とベス・イスラエル病院(MIT/BIH)の不整脈データベースは提案手法の実験的検証に利用されている。 その結果,提案手法は他の手法よりも分類精度が優れていることがわかった。

In this paper, a novel ECG monitoring approach based on IoT technology is suggested. This paper proposes a routing system for IoT healthcare platforms based on Dynamic Source Routing (DSR) and Routing by Energy and Link Quality (REL). In addition, the Artificial Neural Network (ANN), Support Vector Machine (SVM), and Convolution Neural Networks (CNNs)-based approaches for ECG signal categorization were tested in this study. Deep-ECG will employ a deep CNN to extract important characteristics, which will then be compared using simple and fast distance functions in order to classify cardiac problems efficiently. This work has suggested algorithms for the categorization of ECG data acquired from mobile watch users in order to identify aberrant data. The Massachusetts Institute of Technology (MIT) and Beth Israel Hospital (MIT/BIH) Arrhythmia Database have been used for experimental verification of the suggested approaches. The results show that the proposed strategy outperforms others in terms of classification accuracy.
翻訳日:2022-02-13 13:44:19 公開日:2022-02-08
# (参考訳) 多レベルセマンティック情報を利用した画像の無線伝送

Wireless Transmission of Images With The Assistance of Multi-level Semantic Information ( http://arxiv.org/abs/2202.04754v1 )

ライセンス: CC BY 4.0
Zhenguo Zhang, Qianqian Yang, Shibo He, Mingyang Sun, Jiming Chen(参考訳) セマンティクス指向通信は、データのセマンティクスのみを送信することで帯域幅効率を高めることが期待されている。 本稿では、ディープラーニング技術に基づき、エンドツーエンドに訓練された無線画像伝送用マルチレベル意味認識通信システムmlsc-imageを提案する。 特に,提案モデルでは,テキスト意味論やセグメンテーション意味論などのハイレベル意味情報と,画像の局所的空間的詳細などの低レベル意味情報の両方を抽出する多レベル意味特徴抽出器を含む。 テキストセマンティクスをキャプチャするために事前訓練された画像キャプションと、そのセマンティクスを得るために事前訓練された画像セマンティクスモデルを用いる。 これらのハイレベルと低レベルのセマンティクス機能は、ジョイントセマンティクスとチャネルエンコーダによって結合され、物理チャネル経由で送信されるシンボルにエンコードされる。 提案手法の有効性と効率を,特に画像圧縮における高レベルな意味論の利点を示す帯域幅制限条件下で検証した。

Semantic-oriented communication has been considered as a promising to boost the bandwidth efficiency by only transmitting the semantics of the data. In this paper, we propose a multi-level semantic aware communication system for wireless image transmission, named MLSC-image, which is based on the deep learning techniques and trained in an end to end manner. In particular, the proposed model includes a multilevel semantic feature extractor, that extracts both the highlevel semantic information, such as the text semantics and the segmentation semantics, and the low-level semantic information, such as local spatial details of the images. We employ a pretrained image caption to capture the text semantics and a pretrained image segmentation model to obtain the segmentation semantics. These high-level and low-level semantic features are then combined and encoded by a joint semantic and channel encoder into symbols to transmit over the physical channel. The numerical results validate the effectiveness and efficiency of the proposed semantic communication system, especially under the limited bandwidth condition, which indicates the advantages of the high-level semantics in the compression of images.
翻訳日:2022-02-13 13:30:51 公開日:2022-02-08
# (参考訳) 原生脳波データの分類におけるトランスフォーマーネットワークの有効性

Efficacy of Transformer Networks for Classification of Raw EEG Data ( http://arxiv.org/abs/2202.05170v1 )

ライセンス: CC BY 4.0
Gourav Siddhad, Anmol Gupta, Debi Prosad Dogra, Partha Pratim Roy(参考訳) 近年、自然言語処理(nlp)におけるトランスフォーマーネットワークの先例のない成功により、コンピュータビジョンやgan(generative adversarial networks)、強化学習といった分野にうまく適用されている。 脳波(EEG)データの分類は困難であり、研究者は前処理や手作りの特徴抽出に過度に依存している。 他のいくつかのドメインで自動機能抽出を達成したにもかかわらず、ディープラーニングはまだEEGでは達成されていない。 本稿では,原脳波データ(クリーニングおよび前処理)の分類におけるトランスフォーマネットワークの有効性について検討する。 変圧器ネットワークの性能は,地域(年齢・性別データ)と公共データセット(stew)を用いて評価した。 まず、トランスネットワークを用いた分類器を構築し、生の安静時脳波データを持つ人の年齢と性別を分類する。 第2に、オープンアクセス生のマルチタスク脳波データ(STEW)を用いたメンタルワークロード分類のために、分類器をチューニングする。 ネットワークは、ローカルデータセット(AgeとGender)、94.53%(性別)、87.79%(年齢)、パブリックデータセット(STEW)、95.28%(ワークロードレベル2つ)、88.72%(ワークロードレベル3つ)の両方で最先端の精度に匹敵する精度を達成する。 特徴抽出を伴わない生脳波データを用いて精度値が得られた。 その結果,トランスフォーマーに基づくディープラーニングモデルにより,脳波データの高機能抽出の必要性を解消し,分類を成功させる可能性が示唆された。

With the unprecedented success of transformer networks in natural language processing (NLP), recently, they have been successfully adapted to areas like computer vision, generative adversarial networks (GAN), and reinforcement learning. Classifying electroencephalogram (EEG) data has been challenging and researchers have been overly dependent on pre-processing and hand-crafted feature extraction. Despite having achieved automated feature extraction in several other domains, deep learning has not yet been accomplished for EEG. In this paper, the efficacy of the transformer network for the classification of raw EEG data (cleaned and pre-processed) is explored. The performance of transformer networks was evaluated on a local (age and gender data) and a public dataset (STEW). First, a classifier using a transformer network is built to classify the age and gender of a person with raw resting-state EEG data. Second, the classifier is tuned for mental workload classification with open access raw multi-tasking mental workload EEG data (STEW). The network achieves an accuracy comparable to state-of-the-art accuracy on both the local (Age and Gender dataset; 94.53% (gender) and 87.79% (age)) and the public (STEW dataset; 95.28% (two workload levels) and 88.72% (three workload levels)) dataset. The accuracy values have been achieved using raw EEG data without feature extraction. Results indicate that the transformer-based deep learning models can successfully abate the need for heavy feature-extraction of EEG data for successful classification.
翻訳日:2022-02-13 13:20:41 公開日:2022-02-08
# (参考訳) MBATベクトルシンボルアーキテクチャのための直交行列とJSONのための"ソフト"VSA表現

Orthogonal Matrices for MBAT Vector Symbolic Architectures, and a "Soft" VSA Representation for JSON ( http://arxiv.org/abs/2202.04771v1 )

ライセンス: CC BY 4.0
Stephen I. Gallant(参考訳) ベクトル記号アーキテクチャ(vsas)は、複素オブジェクトを単一の固定長ベクトルとして表現する方法を与え、類似したオブジェクトが類似したベクトル表現を持つようにする。 これらのベクトル表現は、機械学習や近距離探索に使いやすくなります。 本稿では,前述したvsa法であるmbat (matrix binding of additive terms) について検討する。 しかし、そのような行列による乗算は、性能を損なう不安定性をもたらす。 ランダム行列を直交行列にすることは、この問題を確実に解決する。 大規模アプリケーションに関しては,JSONで表現された任意のデータに対してMBATベクトル表現を適用する方法について検討する。 JSONは多くのプログラミング言語で複雑なデータ表現に使われていますが、そのネイティブフォーマットは機械学習には適していません。 JSONを固定長ベクタとして表現することで、機械学習や最寄りの検索に容易に利用できる。 このようなJSONベクタを作成することは、VSAが非可換なバインディング操作を採用する必要があることを示している。 VSAは現在、医療、医薬品、ゲノム学など、本格的な実用的アプリケーションを試す準備ができている。 キーワード:mbat (matrix binding of additive terms)、vsa (vector symbolic architecture)、hdc (hyperdimensional computing)、分散表現、バインディング、直交行列、リカレント接続、機械学習、検索、json、vsaアプリケーション

Vector Symbolic Architectures (VSAs) give a way to represent a complex object as a single fixed-length vector, so that similar objects have similar vector representations. These vector representations then become easy to use for machine learning or nearest-neighbor search. We review a previously proposed VSA method, MBAT (Matrix Binding of Additive Terms), which uses multiplication by random matrices for binding related terms. However, multiplying by such matrices introduces instabilities which can harm performance. Making the random matrices be orthogonal matrices provably fixes this problem. With respect to larger scale applications, we see how to apply MBAT vector representations for any data expressed in JSON. JSON is used in numerous programming languages to express complex data, but its native format appears highly unsuited for machine learning. Expressing JSON as a fixed-length vector makes it readily usable for machine learning and nearest-neighbor search. Creating such JSON vectors also shows that a VSA needs to employ binding operations that are non-commutative. VSAs are now ready to try with full-scale practical applications, including healthcare, pharmaceuticals, and genomics. Keywords: MBAT (Matrix Binding of Additive Terms), VSA (Vector Symbolic Architecture), HDC (Hyperdimensional Computing), Distributed Representations, Binding, Orthogonal Matrices, Recurrent Connections, Machine Learning, Search, JSON, VSA Applications
翻訳日:2022-02-13 13:08:17 公開日:2022-02-08
# (参考訳) 無線医療施設ネットワークのためのフレキシブルメアンダーラインアンテナの設計

Design of Flexible Meander Line Antenna for Healthcare for Wireless Medical Body Area Networks ( http://arxiv.org/abs/2202.05166v1 )

ライセンス: CC BY 4.0
Shahid M Ali, Cheab Sovuthy, Sima Noghanian, Qammer H. Abbasi, Tatjana Asenova, Peter Derleth, Alex Casson, Tughrul Arslan, and Amir Hussain(参考訳) 本論文では、フレキシブルメアンダ線単極アンテナ(MMA)について述べる。 アンテナは、オン・オフの用途に使用できる。 MMAの全体寸法は37 mm x 50 mm x2.37 mm3である。 mmaは製造・測定され、結果はシミュレーション結果と一致した。 MMAの設計は、最大1282.4 (450.5)MHzの帯域幅を示し、それぞれ下方と上方で3.03 (4.85) dBiの利得を提供し、自由空間における全方位放射パターンを示している。 胸部や腕に装着中、688.9(500.9)MHzと1261.7(524.2)MHzの帯域幅が観察され、3.80(4.67)dBiと3.00(4.55)dBiが得られた。 可読範囲の実験的測定により,11mまでのカバー範囲の結果が確認された。

A flexible meander line monopole antenna (MMA) is presented in this paper. The antenna can be worn for on-and off-body applications. The overall dimension of the MMA is 37 mm x 50 mm x2.37 mm3. The MMA was manufactured and measured, and the results matched with simulation results. The MMA design shows a bandwidth of up to 1282.4 (450.5) MHz and provides gains of 3.03 (4.85) dBi in the lower and upper operating bands, respectively, showing omnidirectional radiation patterns in free space. While worn on the chest or arm, bandwidths as high as 688.9 (500.9) MHz and 1261.7 (524.2) MHz, and the gains of 3.80 (4.67) dBi and 3.00 (4.55) dBi were observed. The experimental measurements of the read range confirmed the results of the coverage range of up to 11 meters.
翻訳日:2022-02-13 13:01:42 公開日:2022-02-08
# 薬物再資源化のための深層学習 : 方法・データベース・応用

Deep learning for drug repurposing: methods, databases, and applications ( http://arxiv.org/abs/2202.05145v1 )

ライセンス: Link先を確認
Xiaoqin Pan, Xuan Lin, Dongsheng Cao, Xiangxiang Zeng, Philip S. Yu, Lifang He, Ruth Nussinov, Feixiong Cheng(参考訳) 薬物開発は時間と費用がかかる。 重症急性呼吸器症候群(sars-cov-2)による感染症であるcovid-19(covid-19)は、実験コストを低減し、医薬品開発を加速させる魅力的なソリューションである。 しかし、深層学習モデルを効果的に進めるために、利用可能な知識と大きなバイオメディカルデータを包括的に取得し、生産的に統合することは、他の複雑な疾患における薬物の再利用には依然として困難である。 本稿では,薬物再資源化のための深層学習手法とツールの活用に関するガイドラインを紹介する。 まず, 一般的に使用されるバイオインフォマティクスおよび薬理ゲノミクスデータベースを概説した。 次に,最近開発されたシーケンスベースおよびグラフベースの表現手法と,最先端のディープラーニングに基づく手法について述べる。 最後に、新型コロナウイルス(COVID-19)のパンデミックと闘うための薬物再精製の応用について述べ、今後の課題を概説する。

Drug development is time-consuming and expensive. Repurposing existing drugs for new therapies is an attractive solution that accelerates drug development at reduced experimental costs, specifically for Coronavirus Disease 2019 (COVID-19), an infectious disease caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). However, comprehensively obtaining and productively integrating available knowledge and big biomedical data to effectively advance deep learning models is still challenging for drug repurposing in other complex diseases. In this review, we introduce guidelines on how to utilize deep learning methodologies and tools for drug repurposing. We first summarized the commonly used bioinformatics and pharmacogenomics databases for drug repurposing. Next, we discuss recently developed sequence-based and graph-based representation approaches as well as state-of-the-art deep learning-based methods. Finally, we present applications of drug repurposing to fight the COVID-19 pandemic, and outline its future challenges.
翻訳日:2022-02-11 17:00:56 公開日:2022-02-08
# 深ウェーブレット散乱変換を用いたレーダー材料分類:センチメートル波単位とミリ波単位の比較

Radar-based Materials Classification Using Deep Wavelet Scattering Transform: A Comparison of Centimeter vs. Millimeter Wave Units ( http://arxiv.org/abs/2202.05169v1 )

ライセンス: Link先を確認
Rami N. Khushaba (The University of Sydney), Andrew J. Hill (The University of Sydney)(参考訳) レーダを用いた材料検出は、近年、消費者や産業の用途、例えば、物認識による把握と製造品質の保証と制御への潜在的な包括性において、大きな注目を集めている。 いくつかのレーダー出版物は、特定の材料の特性と形状を制御した条件下で物質分類のために開発された。 最近の文献では、レーダーに基づく材料分類の初期の発見に異議を唱えており、様々な現実世界の問題により、初期のソリューションは工業用途に容易にスケールできないと主張している。 これらの要因がレーダに基づく従来の特徴のロバスト性に与える影響に関する実験が公開されたことで、ディープニューラルネットワークの適用が、ある程度、有効なソリューションを生み出すための影響を緩和できることがすでに証明されている。 しかし、以前の研究では、低周波レーダーユニット、特に60GHz以上の高域ユニットに対する<10GHz>の有用性についての研究が欠如していた。 本研究では,vayyarイメージングによるワラボット3d (6.3-8ghz) cm波とimagevk-74 (62-69ghz)mm波の2つのレーダーユニットについて検討した。 材料分類における各単位の適用性について比較を行った。 この研究は、反射信号に基づく異なる材料の同定にディープウェーブレット散乱変換を適用することで、以前の取り組みにも及んでいる。 ウェーブレット散乱特徴抽出器において、データは一連のウェーブレット変換、非線形性、平均化によって伝播され、反射レーダ信号の低分散表現を生成する。 この研究は、物質分類におけるレーダーユニットとアルゴリズムの比較に特有であり、両方のユニットによる強い性能を示すリアルタイムのデモンストレーションと、cm波レーダーユニットによるロバスト性の向上を含んでいる。

Radar-based materials detection received significant attention in recent years for its potential inclusion in consumer and industrial applications like object recognition for grasping and manufacturing quality assurance and control. Several radar publications were developed for material classification under controlled settings with specific materials' properties and shapes. Recent literature has challenged the earlier findings on radars-based materials classification claiming that earlier solutions are not easily scaled to industrial applications due to a variety of real-world issues. Published experiments on the impact of these factors on the robustness of the extracted radar-based traditional features have already demonstrated that the application of deep neural networks can mitigate, to some extent, the impact to produce a viable solution. However, previous studies lacked an investigation of the usefulness of lower frequency radar units, specifically <10GHz, against the higher range units around and above 60GHz. This research considers two radar units with different frequency ranges: Walabot-3D (6.3-8 GHz) cm-wave and IMAGEVK-74 (62-69 GHz) mm-wave imaging units by Vayyar Imaging. A comparison is presented on the applicability of each unit for material classification. This work extends upon previous efforts, by applying deep wavelet scattering transform for the identification of different materials based on the reflected signals. In the wavelet scattering feature extractor, data is propagated through a series of wavelet transforms, nonlinearities, and averaging to produce low-variance representations of the reflected radar signals. This work is unique in comparison of the radar units and algorithms in material classification and includes real-time demonstrations that show strong performance by both units, with increased robustness offered by the cm-wave radar unit.
翻訳日:2022-02-11 16:54:52 公開日:2022-02-08
# 単一画像デハジングのための誘導伝送マップを用いた新しいエンコーダデコーダネットワーク

A Novel Encoder-Decoder Network with Guided Transmission Map for Single Image Dehazing ( http://arxiv.org/abs/2202.04757v1 )

ライセンス: Link先を確認
Le-Anh Tran, Seokyong Moon, Dong-Chul Park(参考訳) 本稿では,単一画像復調方式のためのEDN-GTMを用いた新しいエンコーダデコーダネットワークを提案する。 提案するEDN-GTMは,ネットワークの入力に先立って暗黒チャネルを用いて推定した,従来のRGBハジー画像と併用する。 提案するedn-gtmは,画像分割をコアネットワークとしてu-netを使用し,空間ピラミッドプーリングモジュールやswishアクティベーションなどの様々な修正を施し,最先端のデハジング性能を実現する。 ベンチマークデータセットの実験により、提案されたEDN-GTMは、PSNRとSSIMの指標から、従来のディープラーニングベースの画像デハージングスキームよりも優れていた。 提案したEDN-GTMは、さらにオブジェクト検出問題に適用可能であることを証明している。 具体的には,被写体検出のための画像前処理ツールに適用した場合,提案するedn-gtmはhazeを効率的に除去し,地図測定で検出精度を4.73%向上させることができる。 コードはhttps://github.com/tranleanh/edn-gtm。

A novel Encoder-Decoder Network with Guided Transmission Map (EDN-GTM) for single image dehazing scheme is proposed in this paper. The proposed EDN-GTM takes conventional RGB hazy image in conjunction with its transmission map estimated by adopting dark channel prior as the inputs of the network. The proposed EDN-GTM utilizes U-Net for image segmentation as the core network and utilizes various modifications including spatial pyramid pooling module and Swish activation to achieve state-of-the-art dehazing performance. Experiments on benchmark datasets show that the proposed EDN-GTM outperforms most of traditional and deep learning-based image dehazing schemes in terms of PSNR and SSIM metrics. The proposed EDN-GTM furthermore proves its applicability to object detection problems. Specifically, when applied to an image preprocessing tool for driving object detection, the proposed EDN-GTM can efficiently remove haze and significantly improve detection accuracy by 4.73% in terms of mAP measure. The code is available at: https://github.com/tranleanh/edn-gtm.
翻訳日:2022-02-11 15:58:26 公開日:2022-02-08
# メッセージパッシングにおけるポーリング注入によるグラフニューラルネットワークの強化

Boosting Graph Neural Networks by Injecting Pooling in Message Passing ( http://arxiv.org/abs/2202.04768v1 )

ライセンス: Link先を確認
Hyeokjin Kwon, Jong-Min Lee(参考訳) グラフニューラルネットワーク(gnns)の分野では、mp層(message-passing (mp) layer)の開発によって大きな成功を収めている。 MP GNNは実りある進歩にもかかわらず、ノード表現が似過ぎ、互いに区別がつかなくなると、その性能は過度に滑らかになる。 さらに,GNN層の増加に伴い,固有グラフ構造がスムーズ化されることが報告されている。 画像処理に使用されるエッジ保存二元フィルタにインスパイアされた我々は,過度なスムーシングを防止するために,新しい適応性と強力なMPフレームワークを提案する。 提案手法は,ノードのクラス情報を利用して一対のモジュラー勾配を推定し,集約関数を適用した場合の勾配を用いて大域グラフ構造を保存できる。 提案手法を一般のMP GNNに一般化することができる。 4つの最先端MP GNNを用いた5つの中規模ベンチマークデータセットの実験により、両MPは過度なスムーシングを緩和することで性能を向上させることが示された。 定量的な測定を行ない, オーバースムース化防止のためのメカニズムの有効性を検証した。

There has been tremendous success in the field of graph neural networks (GNNs) as a result of the development of the message-passing (MP) layer, which updates the representation of a node by combining it with its neighbors to address variable-size and unordered graphs. Despite the fruitful progress of MP GNNs, their performance can suffer from over-smoothing, when node representations become too similar and even indistinguishable from one another. Furthermore, it has been reported that intrinsic graph structures are smoothed out as the GNN layer increases. Inspired by the edge-preserving bilateral filters used in image processing, we propose a new, adaptable, and powerful MP framework to prevent over-smoothing. Our bilateral-MP estimates a pairwise modular gradient by utilizing the class information of nodes, and further preserves the global graph structure by using the gradient when the aggregating function is applied. Our proposed scheme can be generalized to all ordinary MP GNNs. Experiments on five medium-size benchmark datasets using four state-of-the-art MP GNNs indicate that the bilateral-MP improves performance by alleviating over-smoothing. By inspecting quantitative measurements, we additionally validate the effectiveness of the proposed mechanism in preventing the over-smoothing issue.
翻訳日:2022-02-11 14:42:16 公開日:2022-02-08
# スペクトル伝搬グラフネットワークによる数発時系列分類

Spectral Propagation Graph Network for Few-shot Time Series Classification ( http://arxiv.org/abs/2202.04769v1 )

ライセンス: Link先を確認
Ling Yang, Shenda Hong, Luxia Zhang(参考訳) 時系列分析において, 時系列分類 (Few-shot Time Series Classification, TSC) は難しい問題である。 同じクラスの時系列がスペクトル領域で完全整合でない場合や、異なるクラスの時系列がスペクトル領域で部分的に整合である場合、分類することはより困難である。 そこで本研究では,SPGN(Spectral Propagation Graph Network)と呼ばれる新しい手法を提案する。 我々の知る限り、SPGNは、異なる間隔でスペクトル比較を初めて利用し、グラフネットワークによる全時系列のスペクトル伝播を数ショットのTSCで行う。 SPGNはまず帯域通過フィルタを用いて、時系列間のスペクトルワイド関係を計算する。 グラフネットワークを備えたSPGNは、ラベル情報とスペクトル関係を統合してスペクトル伝搬を行う。 さらに,スペクトル関係獲得とスペクトル伝播の双方向効果について述べる。 数ショットのTSCベンチマークで広範な実験を行った。 SPGNは、最先端の結果を4\% \sim 13\%$の大きなマージンで上回る。 さらに、SPGNは、それぞれクロスドメインとクロスウェイ設定の下で、約12\%$と9\%$を上回ります。

Few-shot Time Series Classification (few-shot TSC) is a challenging problem in time series analysis. It is more difficult to classify when time series of the same class are not completely consistent in spectral domain or time series of different classes are partly consistent in spectral domain. To address this problem, we propose a novel method named Spectral Propagation Graph Network (SPGN) to explicitly model and propagate the spectrum-wise relations between different time series with graph network. To the best of our knowledge, SPGN is the first to utilize spectral comparisons in different intervals and involve spectral propagation across all time series with graph networks for few-shot TSC. SPGN first uses bandpass filter to expand time series in spectral domain for calculating spectrum-wise relations between time series. Equipped with graph networks, SPGN then integrates spectral relations with label information to make spectral propagation. The further study conveys the bi-directional effect between spectral relations acquisition and spectral propagation. We conduct extensive experiments on few-shot TSC benchmarks. SPGN outperforms state-of-the-art results by a large margin in $4\% \sim 13\%$. Moreover, SPGN surpasses them by around $12\%$ and $9\%$ under cross-domain and cross-way settings respectively.
翻訳日:2022-02-11 14:41:28 公開日:2022-02-08
# 繰り返し双線形時間スペクトル融合による教師なし時系列表現学習

Unsupervised Time-Series Representation Learning with Iterative Bilinear Temporal-Spectral Fusion ( http://arxiv.org/abs/2202.04770v1 )

ライセンス: Link先を確認
Ling Yang, Shenda Hong, Luxia Zhang(参考訳) 教師なし/自己教師なしの時系列表現学習は複雑なダイナミクスとスパースアノテーションのため、難しい問題である。 既存の研究は主にコントラスト学習の枠組みと時間に基づく増補技術を採用しており、対照的なトレーニングのために正と負のサンプルをサンプリングしている。 それにもかかわらず、彼らは主に時間スライシングから派生したセグメントレベルの拡張を使用しており、グローバルコンテキストの損失によるサンプリングバイアスと誤った最適化をもたらす可能性がある。 さらに、スペクトル情報を特徴表現に組み込むことには注意を払っていません。 本稿では,Bilinear Temporal-Spectral Fusion (BTSF) という統合フレームワークを提案する。 具体的には、まずインスタンスレベルの拡張を時系列全体への単純なドロップアウトで利用し、長期的依存関係を最大限に捉えます。 時間-周波数対の親和性を明示的に符号化し,スペクトル-時間 (S2T) と時間-スペクトル (T2S) のアグリゲーションモジュールとの融合により表現を反復的に洗練する。 まず,時系列の分類,予測,異常検出を含む3つの主要なタスクについて下流評価を行う。 実験の結果,BTSFは最先端の手法よりも優れていた。

Unsupervised/self-supervised time series representation learning is a challenging problem because of its complex dynamics and sparse annotations. Existing works mainly adopt the framework of contrastive learning with the time-based augmentation techniques to sample positives and negatives for contrastive training. Nevertheless, they mostly use segment-level augmentation derived from time slicing, which may bring about sampling bias and incorrect optimization with false negatives due to the loss of global context. Besides, they all pay no attention to incorporate the spectral information in feature representation. In this paper, we propose a unified framework, namely Bilinear Temporal-Spectral Fusion (BTSF). Specifically, we firstly utilize the instance-level augmentation with a simple dropout on the entire time series for maximally capturing long-term dependencies. We devise a novel iterative bilinear temporal-spectral fusion to explicitly encode the affinities of abundant time-frequency pairs, and iteratively refines representations in a fusion-and-squeeze manner with Spectrum-to-Time (S2T) and Time-to-Spectrum (T2S) Aggregation modules. We firstly conducts downstream evaluations on three major tasks for time series including classification, forecasting and anomaly detection. Experimental results shows that our BTSF consistently significantly outperforms the state-of-the-art methods.
翻訳日:2022-02-11 14:41:10 公開日:2022-02-08
# GrASP: 計画のためのグラディエントベースのアフォーマンス選択

GrASP: Gradient-Based Affordance Selection for Planning ( http://arxiv.org/abs/2202.04772v1 )

ライセンス: Link先を確認
Vivek Veeriah, Zeyu Zheng, Richard Lewis, Satinder Singh(参考訳) 学習モデルによるプランニングは、間違いなくインテリジェンスの重要なコンポーネントです。 大規模強化学習(RL)問題において,そのようなコンポーネントを実現する上での課題がいくつかある。 そのような課題の1つは、木探索計画(例えば、木の根ノードだけでも全ての作用を考えることは不可能)を使用するとき、効果的に連続的な作用空間を扱うことである。 本稿では,計画中の木膨張過程において考慮すべきアクション/オプションの連続空間から,少ない数のアクション/オプションを学習するために,計画に有用なアプライアンスを選択する手法を提案する。 我々は、行動/オプションに対する目標条件と状態条件のマッピングと、すべての州で利用可能な行動/オプションを選択できる無条件の価格について検討する。 私たちの選択方法は勾配ベースで、計画手順を通じて勾配を計算し、代価を表す関数のパラメータを更新する。 我々の経験的研究は、プリミティブアクションとオプションアプライアンスの両方を選択することが学べることを示し、同時にアプライアンスを選択し、学習価値等価モデルで計画することが、モデルフリーのRLより優れていることを示している。

Planning with a learned model is arguably a key component of intelligence. There are several challenges in realizing such a component in large-scale reinforcement learning (RL) problems. One such challenge is dealing effectively with continuous action spaces when using tree-search planning (e.g., it is not feasible to consider every action even at just the root node of the tree). In this paper we present a method for selecting affordances useful for planning -- for learning which small number of actions/options from a continuous space of actions/options to consider in the tree-expansion process during planning. We consider affordances that are goal-and-state-conditional mappings to actions/options as well as unconditional affordances that simply select actions/options available in all states. Our selection method is gradient based: we compute gradients through the planning procedure to update the parameters of the function that represents affordances. Our empirical work shows that it is feasible to learn to select both primitive-action and option affordances, and that simultaneously learning to select affordances and planning with a learned value-equivalent model can outperform model-free RL.
翻訳日:2022-02-11 14:40:49 公開日:2022-02-08
# (参考訳) 教師付き機械学習に対する中毒攻撃に関する調査研究

A Survey on Poisoning Attacks Against Supervised Machine Learning ( http://arxiv.org/abs/2202.02510v2 )

ライセンス: CC BY 4.0
Wenjun Qiu(参考訳) 現代のコンピューティングにおける人工知能と機械学習の台頭により、そのような技術に関する大きな懸念の1つは、敵に対するプライバシーとセキュリティを提供することである。 本稿では,教師付き機械学習モデルに対する中毒攻撃に関する最も代表的な論文を紹介する。 まず,既存の研究を分類し,選択した論文の詳細な要約を示す。 既存の文献の方法論と限界を要約し比較する。 本論文は,監視されたモデルに対する毒殺攻撃のさらなる利用と防止のために,改善の可能性と今後の方向性について述べる。 今後の研究を奨励し、刺激するために、未回答の研究課題をいくつか提案する。

With the rise of artificial intelligence and machine learning in modern computing, one of the major concerns regarding such techniques is to provide privacy and security against adversaries. We present this survey paper to cover the most representative papers in poisoning attacks against supervised machine learning models. We first provide a taxonomy to categorize existing studies and then present detailed summaries for selected papers. We summarize and compare the methodology and limitations of existing literature. We conclude this paper with potential improvements and future directions to further exploit and prevent poisoning attacks on supervised models. We propose several unanswered research questions to encourage and inspire researchers for future work.
翻訳日:2022-02-11 11:50:15 公開日:2022-02-08
# (参考訳) GNNを用いた差分グラフ分類

Differentially Private Graph Classification with GNNs ( http://arxiv.org/abs/2202.02575v2 )

ライセンス: CC BY 4.0
Tamara T. Mueller, Johannes C. Paetzold, Chinmay Prabhakar, Dmitrii Usynin, Daniel Rueckert, and Georgios Kaissis(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク、タンパク質相互作用、分子の解析など、多くの機械学習アプリケーションのための最先端のモデルとして確立されている。 これらのデータセットのいくつかは、プライバシーに敏感なデータを含んでいる。 差分プライバシーを持つ機械学習は、プライバシー保護の正式な保証を提供しながら、機密データから洞察を導き出すための有望なテクニックである。 しかし、グラフの固有の構造接続がもたらす課題のため、GNNの差分プライベートトレーニングはいまだに未探索のままである。 本稿では,グラフ上の機械学習の重要な応用の一つであるグラフレベルの分類に微分プライバシーを導入する。 本手法は,多グラフデータセットの深層学習に適用可能であり,dp-sgd ( differentially private stochasticgradient descent) に依存する。 各種合成および公開データセットの結果を示し、異なるGNNアーキテクチャの影響を評価し、微分プライベートグラフ分類のためのモデル性能に対するハイパーパラメータの訓練を行う。 最後に,類似表現がプライベートおよび非プライベートな設定で学習されているかを評価するために説明可能性手法を適用し,この分野における今後の作業のための堅牢なベースラインを確立する。

Graph Neural Networks (GNNs) have established themselves as the state-of-the-art models for many machine learning applications such as the analysis of social networks, protein interactions and molecules. Several among these datasets contain privacy-sensitive data. Machine learning with differential privacy is a promising technique to allow deriving insight from sensitive data while offering formal guarantees of privacy protection. However, the differentially private training of GNNs has so far remained under-explored due to the challenges presented by the intrinsic structural connectivity of graphs. In this work, we introduce differential privacy for graph-level classification, one of the key applications of machine learning on graphs. Our method is applicable to deep learning on multi-graph datasets and relies on differentially private stochastic gradient descent (DP-SGD). We show results on a variety of synthetic and public datasets and evaluate the impact of different GNN architectures and training hyperparameters on model performance for differentially private graph classification. Finally, we apply explainability techniques to assess whether similar representations are learned in the private and non-private settings and establish robust baselines for future work in this area.
翻訳日:2022-02-11 10:00:33 公開日:2022-02-08
# (参考訳) コピーモブの検出とローカライズ及び画像スプライシング偽造

Detecting and Localizing Copy-Move and Image-Splicing Forgery ( http://arxiv.org/abs/2202.04069v1 )

ライセンス: CC BY 4.0
Aditya Pandey and Anshuman Mitra(参考訳) 偽ニュースやディープフェイクの世界では、大量の画像が改ざんされ、新聞に掲載され、法廷で使われ、不名誉な目的でソーシャルメディアに投稿された。 これらの改ざんされた画像の検出は、私たちが取り組もうとしている重要なタスクです。 本稿では,Deep Learning法とImage Transformation法の両方を用いて,画像が改ざんされているかどうかを検知し,各手法の性能とロバスト性を比較した。 次に、画像の改ざんされた領域を特定し、対応するマスクを予測する。 結果に基づいて、偽造を検知し識別するより堅牢なフレームワークを実現するための提案とアプローチが提供される。

In the world of fake news and deepfakes, there have been an alarmingly large number of cases of images being tampered with and published in newspapers, used in court, and posted on social media for defamation purposes. Detecting these tampered images is an important task and one we try to tackle. In this paper, we focus on the methods to detect if an image has been tampered with using both Deep Learning and Image transformation methods and comparing the performances and robustness of each method. We then attempt to identify the tampered area of the image and predict the corresponding mask. Based on the results, suggestions and approaches are provided to achieve a more robust framework to detect and identify the forgeries.
翻訳日:2022-02-11 07:25:47 公開日:2022-02-08
# (参考訳) emory breast imaging dataset (embed):3.5mスクリーニングおよび診断マンモグラムの人種的多様性と粒度データセット

The EMory BrEast imaging Dataset (EMBED): A Racially Diverse, Granular Dataset of 3.5M Screening and Diagnostic Mammograms ( http://arxiv.org/abs/2202.04073v1 )

ライセンス: CC BY 4.0
Jiwoong J. Jeong, Brianna L. Vey, Ananth Reddy, Thomas Kim, Thiago Santos, Ramon Correa, Raman Dutt, Marina Mosunjac, Gabriela Oprea-Ilies, Geoffrey Smith, Minjae Woo, Christopher R. McAdams, Mary S. Newell, Imon Banerjee, Judy Gichoya, Hari Trivedi(参考訳) 医療画像における人工知能モデルの開発と検証には、大きくて粒状で多様なデータセットが必要である。 現在までに、公開されている乳房画像データセットの大部分は、これらの領域の1つ以上の欠如を欠いている。 したがって、これらのデータに基づいて訓練されたモデルは、これまで遭遇したことのない患者集団や病理に不適合である可能性がある。 EMory BrEast Imaging Dataset (EMBED)は、白人とアフリカ系アメリカ人の患者に均等に分けた116,000人の女性に対して3650,000の2DおよびDBTスクリーニングと診断用マンモグラムを提供することで、これらのギャップに対処している。 データセットには、構造化画像記述子と関連づけられた4万の注釈付き病変と、6つの重度クラスに分類された61の基底真理の病理結果が含まれている。 私たちの目標は、このデータセットを研究パートナーと共有し、すべての患者に公平に提供し、医療AIのバイアスを減らすための乳房AIモデルの開発と検証を支援することです。

Developing and validating artificial intelligence models in medical imaging requires datasets that are large, granular, and diverse. To date, the majority of publicly available breast imaging datasets lack in one or more of these areas. Models trained on these data may therefore underperform on patient populations or pathologies that have not previously been encountered. The EMory BrEast imaging Dataset (EMBED) addresses these gaps by providing 3650,000 2D and DBT screening and diagnostic mammograms for 116,000 women divided equally between White and African American patients. The dataset also contains 40,000 annotated lesions linked to structured imaging descriptors and 61 ground truth pathologic outcomes grouped into six severity classes. Our goal is to share this dataset with research partners to aid in development and validation of breast AI models that will serve all patients fairly and help decrease bias in medical AI.
翻訳日:2022-02-11 07:19:26 公開日:2022-02-08
# (参考訳) 半教師付き医用画像分割におけるクロスレベルコントラスト学習と一貫性制約

Cross-level Contrastive Learning and Consistency Constraint for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2202.04074v1 )

ライセンス: CC BY 4.0
Xinkai Zhao, Chaowei Fang, De-Jun Fan, Xutao Lin, Feng Gao, Guanbin Li(参考訳) いくつかのラベル付き画像と多数のラベルなし画像をネットワークトレーニングに活用することを目的とした半教師付き学習(SSL)は、医療画像セグメンテーションにおけるデータアノテーションの負担を軽減するために有用である。 医用画像専門家の経験によると、テクスチャ、光沢、滑らかさなどの局所特性は、医用画像の病変やポリープなどの対象物を特定する上で非常に重要な要素である。 そこで本研究では,半教師型医用画像分割における局所特徴の表現能力を高めるための,クロスレベルコンストラクティブ学習手法を提案する。 既存の画像・パッチ・パッチ・パッチ・パッチ・パッチ・ポイント・コンストラシティブ・ラーニング・アルゴリズムと比較して,提案手法はより複雑な類似性,すなわちグローバルな点・局所的なパッチ・ワイド表現間の関係特性を探索することができる。 さらに,クロスレベル意味関係を十分に活用するために,パッチの予測とフルイメージの予測を比較する新しい一貫性制約を考案する。 クロスレベルのコントラスト学習と一貫性制約の助けを借りて,ポリプと皮膚病変のセグメンテーションのための2つの医用画像データセットのセグメンテーション性能を向上させるために,アンラベリングデータを効果的に探索することができる。 このアプローチのコードは利用可能です。

Semi-supervised learning (SSL), which aims at leveraging a few labeled images and a large number of unlabeled images for network training, is beneficial for relieving the burden of data annotation in medical image segmentation. According to the experience of medical imaging experts, local attributes such as texture, luster and smoothness are very important factors for identifying target objects like lesions and polyps in medical images. Motivated by this, we propose a cross-level constrastive learning scheme to enhance representation capacity for local features in semi-supervised medical image segmentation. Compared to existing image-wise, patch-wise and point-wise constrastive learning algorithms, our devised method is capable of exploring more complex similarity cues, namely the relational characteristics between global point-wise and local patch-wise representations. Additionally, for fully making use of cross-level semantic relations, we devise a novel consistency constraint that compares the predictions of patches against those of the full image. With the help of the cross-level contrastive learning and consistency constraint, the unlabelled data can be effectively explored to improve segmentation performance on two medical image datasets for polyp and skin lesion segmentation respectively. Code of our approach is available.
翻訳日:2022-02-11 07:09:15 公開日:2022-02-08
# (参考訳) 機械の説明と人間の理解

Machine Explanations and Human Understanding ( http://arxiv.org/abs/2202.04092v1 )

ライセンス: CC BY 4.0
Chacha Chen, Shi Feng, Amit Sharma, Chenhao Tan(参考訳) 説明は、機械学習モデルの人間の理解を改善し、モデルデバッギングから人間の意思決定の強化まで、様々な望ましい結果を達成すると仮定される。 しかし、経験的な研究は混ざり合った結果、さらには否定的な結果が得られた。 したがって、オープンな質問は、説明が人間の理解を改善する条件と、どのようにして行うかである。 適応因果図を用いて,機械の説明と人間の理解との相互作用を形式的に特徴付けし,人間の直観が人間の理解を実現する上で中心的な役割を果たすことを示す。 具体的には、タスク決定境界、モデル決定境界、モデルエラーという、人間-ai意思決定のコンテキストにおける理解のすべての既存の定量的尺度をカバーする3つの関心概念を識別する。 我々の重要な結果は、タスク固有の直観に関する仮定がなければ、説明はモデル決定境界に対する人間の理解を改善する可能性があるが、タスク決定境界やモデルエラーに対する人間の理解を改善することはできないということである。 補完的な人間-AIのパフォーマンスを達成するために、人間の直感で説明がどう機能するかを明確にする。 例えば、特徴の関連性に関する人間の直感(例えば、収入を予測するのに年齢よりも教育の方が重要である)は、モデルエラーを検出する上で重要である。 実験的な人間-主観研究により,機械説明の結果を形作る上で,人間の直観の重要性を検証する。 全体として、我々の研究は、将来のアルゴリズム開発と機械説明の実証実験のための実用的な意味を持つ一般的なフレームワークを提供する。

Explanations are hypothesized to improve human understanding of machine learning models and achieve a variety of desirable outcomes, ranging from model debugging to enhancing human decision making. However, empirical studies have found mixed and even negative results. An open question, therefore, is under what conditions explanations can improve human understanding and in what way. Using adapted causal diagrams, we provide a formal characterization of the interplay between machine explanations and human understanding, and show how human intuitions play a central role in enabling human understanding. Specifically, we identify three core concepts of interest that cover all existing quantitative measures of understanding in the context of human-AI decision making: task decision boundary, model decision boundary, and model error. Our key result is that without assumptions about task-specific intuitions, explanations may potentially improve human understanding of model decision boundary, but they cannot improve human understanding of task decision boundary or model error. To achieve complementary human-AI performance, we articulate possible ways on how explanations need to work with human intuitions. For instance, human intuitions about the relevance of features (e.g., education is more important than age in predicting a person's income) can be critical in detecting model error. We validate the importance of human intuitions in shaping the outcome of machine explanations with empirical human-subject studies. Overall, our work provides a general framework along with actionable implications for future algorithmic development and empirical experiments of machine explanations.
翻訳日:2022-02-11 07:00:31 公開日:2022-02-08
# (参考訳) 最適化問題の解法をネットワークに教える

Teaching Networks to Solve Optimization Problems ( http://arxiv.org/abs/2202.04104v1 )

ライセンス: CC BY 4.0
Xinran Liu, Yuzhe Lu, Ali Abbasi, Meiyi Li, Javad Mohammadi, Soheil Kolouri(参考訳) 機械学習を活用して最適化プロセスを最適化することは、ほぼリアルタイムの最適化を必要とするクリティカルなアプリケーションにおいて、従来の反復解法によって引き起こされる基本的な計算ボトルネックを回避できるという、新たな分野である。 既存のアプローチの大半は、最適化の解決におけるイテレーションの削減につながる、データ駆動最適化の学習に重点を置いています。 本稿では、異なるアプローチを採り、一つのフィードフォワードにおいて最適化問題の最適引数/パラメータを出力するトレーニング可能なパラメトリック集合関数に置き換えることを提案する。 最適化プロセス(ループ)を最適化する方法を学習する。 本稿では, 線形/非線形回帰, 主成分分析, トランスポートベースコアセット, 供給管理アプリケーションにおける二次プログラミングなど, 古典的最適化問題に対するパラメトリック(集合)関数の学習の可能性を示す。 さらに,そのようなパラメトリック関数をLOOPの解法なしで学習するための2つの代替手法を提案する。 最後に,様々な数値実験を通して提案手法の有効性を示す。

Leveraging machine learning to optimize the optimization process is an emerging field which holds the promise to bypass the fundamental computational bottleneck caused by traditional iterative solvers in critical applications requiring near-real-time optimization. The majority of existing approaches focus on learning data-driven optimizers that lead to fewer iterations in solving an optimization. In this paper, we take a different approach and propose to replace the iterative solvers altogether with a trainable parametric set function that outputs the optimal arguments/parameters of an optimization problem in a single feed-forward. We denote our method as, Learning to Optimize the Optimization Process (LOOP). We show the feasibility of learning such parametric (set) functions to solve various classic optimization problems, including linear/nonlinear regression, principal component analysis, transport-based core-set, and quadratic programming in supply management applications. In addition, we propose two alternative approaches for learning such parametric functions, with and without a solver in the-LOOP. Finally, we demonstrate the effectiveness of our proposed approach through various numerical experiments.
翻訳日:2022-02-11 06:29:50 公開日:2022-02-08
# (参考訳) 多スケールcnnを用いたボリュームシミュレーションのための学習類似度メトリクス

Learning Similarity Metrics for Volumetric Simulations with Multiscale CNNs ( http://arxiv.org/abs/2202.04109v1 )

ライセンス: CC BY 4.0
Georg Kohl, Li-Wei Chen, Nils Thuerey(参考訳) 三次元データを生成するシミュレーションは、流体からプラズマ物理学まで、科学においてユビキタスである。 トランスポートと動きに基づくシミュレーションから得られたスカラーデータとベクトルデータの類似度評価のために,物理的に有意義な基底真理距離の作成を可能にするエントロピーに基づく類似度モデルを提案する。 このモデルから得られた2つのデータ取得手法を用いて、数値PDEソルバと既存のシミュレーションデータレポジトリからフィールドのコレクションを作成し、効果的なトレーニングプロセスにおける適切なデータ配信の重要性を強調する。 さらに,ボリューム類似度メトリック(VolSiM)を演算するマルチスケールCNNアーキテクチャを提案する。 我々の知る限り、これは本質的には高次元シミュレーションデータの類似性評価に起因する課題に対処するために設計された最初の学習方法である。 さらに, 相関に基づく損失関数に対する大規模バッチサイズと正確な相関計算のトレードオフについて検討し, 回転・スケール演算に関する計量の不変性を解析した。 最後に、VolSiMのロバスト性および一般化は、実世界の潜在的な応用に近い、特に困難な乱流ケーススタディと同様に、幅広い試験データに基づいて評価される。

Simulations that produce three-dimensional data are ubiquitous in science, ranging from fluid flows to plasma physics. We propose a similarity model based on entropy, which allows for the creation of physically meaningful ground truth distances for the similarity assessment of scalar and vectorial data, produced from transport and motion-based simulations. Utilizing two data acquisition methods derived from this model, we create collections of fields from numerical PDE solvers and existing simulation data repositories, and highlight the importance of an appropriate data distribution for an effective training process. Furthermore, a multiscale CNN architecture that computes a volumetric similarity metric (VolSiM) is proposed. To the best of our knowledge this is the first learning method inherently designed to address the challenges arising for the similarity assessment of high-dimensional simulation data. Additionally, the tradeoff between a large batch size and an accurate correlation computation for correlation-based loss functions is investigated, and the metric's invariance with respect to rotation and scale operations is analyzed. Finally, the robustness and generalization of VolSiM is evaluated on a large range of test data, as well as a particularly challenging turbulence case study, that is close to potential real-world applications.
翻訳日:2022-02-11 06:16:24 公開日:2022-02-08
# (参考訳) pgmax:離散確率グラフィカルモデルのための因子グラフとjaxにおけるループ的信念伝播

PGMax: Factor Graphs for Discrete Probabilistic Graphical Models and Loopy Belief Propagation in JAX ( http://arxiv.org/abs/2202.04110v1 )

ライセンス: CC BY 4.0
Guangyao Zhou, Nishanth Kumar, Miguel L\'azaro-Gredilla, Shrinu Kushagra, Dileep George(参考訳) PGMaxはオープンソースのPythonパッケージで、PGM(Probabilistic Graphical Models)を因子グラフとして簡単に定義し、JAXにおける効率よくスケーラブルなループ的信念伝達(LBP)の実装を自動で導出する。 一般的な因子グラフをサポートし、GPUのような現代的なアクセラレータを効果的に活用することができる。 PGMaxは既存の代替手法と比較して、高次精度の推論結果を得る。 pgmaxは急速に成長するjaxエコシステムとシームレスに相互作用し、エキサイティングな新しい可能性を開く。 ソースコード、サンプル、ドキュメンテーションはhttps://github.com/vicariousinc/pgmaxで閲覧できます。

PGMax is an open-source Python package for easy specification of discrete Probabilistic Graphical Models (PGMs) as factor graphs, and automatic derivation of efficient and scalable loopy belief propagation (LBP) implementation in JAX. It supports general factor graphs, and can effectively leverage modern accelerators like GPUs for inference. Compared with existing alternatives, PGMax obtains higher-quality inference results with orders-of-magnitude inference speedups. PGMax additionally interacts seamlessly with the rapidly growing JAX ecosystem, opening up exciting new possibilities. Our source code, examples and documentation are available at https://github.com/vicariousinc/PGMax.
翻訳日:2022-02-11 05:48:54 公開日:2022-02-08
# (参考訳) 深層ニューラルネットワークのためのミニブロック自然勾配法

A Mini-Block Natural Gradient Method for Deep Neural Networks ( http://arxiv.org/abs/2202.04124v1 )

ライセンス: CC BY 4.0
Achraf Bahamou, Donald Goldfarb, Yi Ren(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは現在、主に1次手法で行われている。 これらの方法のいくつか(例えばAdam, AdaGrad, RMSprop など)は、確率勾配を前提に対角行列を用いて少量の曲率情報を組み込む。 近年, kfac, k-bfgs, shampoo, tntなどの有効な二階法が, 層状ブロック対角行列による確率勾配を前提条件として開発されている。 本稿では,これら2つの手法の中間に位置する近似自然勾配法であるmini-block fisher (mbf) の提案と解析を行う。 具体的には,DNNの各層が畳み込みでもフィードフォワードでも完全連結であっても,関連する対角線ブロックはブロック対角線であり,多数のミニブロックからなるフィッシャー行列に対するブロック対角線近似を用いる。 提案手法はGPUの並列性を利用して,各層における多数の行列の計算を効率的に行う。 したがって、mbf毎の計算コストは一階法に比べてわずかに高くない。 最後に,提案手法の性能を,オートエンコーダとCNNの両問題に基づくいくつかのベースライン法と比較し,時間効率と一般化パワーの両面での有効性を検証した。

The training of deep neural networks (DNNs) is currently predominantly done using first-order methods. Some of these methods (e.g., Adam, AdaGrad, and RMSprop, and their variants) incorporate a small amount of curvature information by using a diagonal matrix to precondition the stochastic gradient. Recently, effective second-order methods, such as KFAC, K-BFGS, Shampoo, and TNT, have been developed for training DNNs, by preconditioning the stochastic gradient by layer-wise block-diagonal matrices. Here we propose and analyze the convergence of an approximate natural gradient method, mini-block Fisher (MBF), that lies in between these two classes of methods. Specifically, our method uses a block-diagonal approximation to the Fisher matrix, where for each layer in the DNN, whether it is convolutional or feed-forward and fully connected, the associated diagonal block is also block-diagonal and is composed of a large number of mini-blocks of modest size. Our novel approach utilizes the parallelism of GPUs to efficiently perform computations on the large number of matrices in each layer. Consequently, MBF's per-iteration computational cost is only slightly higher than it is for first-order methods. Finally, the performance of our proposed method is compared to that of several baseline methods, on both Auto-encoder and CNN problems, to validate its effectiveness both in terms of time efficiency and generalization power.
翻訳日:2022-02-11 05:42:09 公開日:2022-02-08
# (参考訳) 大規模マルコフポテンシャルゲームのための独立政策グラディエント:シャーパレート、関数近似、ゲーム非依存の収束

Independent Policy Gradient for Large-Scale Markov Potential Games: Sharper Rates, Function Approximation, and Game-Agnostic Convergence ( http://arxiv.org/abs/2202.04129v1 )

ライセンス: CC BY 4.0
Dongsheng Ding and Chen-Yu Wei and Kaiqing Zhang and Mihailo R. Jovanovi\'c(参考訳) マルコフポテンシャルゲーム(MPG)における多エージェント強化学習(RL)問題に対するポリシー勾配法の非漸近収束特性について検討した。 状態空間の大きさやプレーヤ数が非常に大きいmpgのnash平衡を学習するために,すべてのプレーヤがタンデムで実行する,新たな独立ポリシー勾配アルゴリズムを提案する。 勾配評価に不確実性がない場合、我々のアルゴリズムは、状態空間サイズに明示的に依存しない、$O(1/\epsilon^2)$反復複雑性を持つ$\epsilon$-Nash平衡を求める。 正確な勾配が得られない場合、関数近似を利用するサンプルベースアルゴリズムに対して、潜在的に無限大な状態空間に束縛された$O(1/\epsilon^5)$サンプル複雑性を確立する。 さらに,ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束を楽しむ独立ポリシー勾配アルゴリズムのクラスを,ゲームの種類にこだわるプレイヤーと同定した。 最後に,理論的発展のメリットと有効性を裏付ける計算実験を行う。

We examine global non-asymptotic convergence properties of policy gradient methods for multi-agent reinforcement learning (RL) problems in Markov potential games (MPG). To learn a Nash equilibrium of an MPG in which the size of state space and/or the number of players can be very large, we propose new independent policy gradient algorithms that are run by all players in tandem. When there is no uncertainty in the gradient evaluation, we show that our algorithm finds an $\epsilon$-Nash equilibrium with $O(1/\epsilon^2)$ iteration complexity which does not explicitly depend on the state space size. When the exact gradient is not available, we establish $O(1/\epsilon^5)$ sample complexity bound in a potentially infinitely large state space for a sample-based algorithm that utilizes function approximation. Moreover, we identify a class of independent policy gradient algorithms that enjoys convergence for both zero-sum Markov games and Markov cooperative games with the players that are oblivious to the types of games being played. Finally, we provide computational experiments to corroborate the merits and the effectiveness of our theoretical developments.
翻訳日:2022-02-11 05:14:42 公開日:2022-02-08
# (参考訳) Heterophilyを用いた簡易グラフ畳み込み

Simplified Graph Convolution with Heterophily ( http://arxiv.org/abs/2202.04139v1 )

ライセンス: CC BY 4.0
Sudhanshu Chanpuriya and Cameron Musco(参考訳) グラフ畳み込みネットワーク(GCN) (Kipf & Welling, 2017) は、画像とテキストデータをグラフにモデル化する深層学習の成功を拡大しようと試みている。 しかし、他の深層モデルと同様に、gcnsは入力の非線形変換を繰り返すので、トレーニングに時間とメモリが集中する。 最近の研究は、よりシンプルで高速なモデルであるSimple Graph Convolution (SGC) (Wu et al., 2019)が、一般的なグラフ機械学習ベンチマークでGCNと競合していることを示している。 sgcにおけるグラフデータの使用は、ノードが類似するノードにリンクするホモフィリーの共通だが普遍的なグラフ特性を暗黙的に仮定している。 ここでは,合成および実世界のデータセットを用いた実験により,sgcはヘテロフィラスグラフ(すなわち非ホモフィラスグラフ)には効果がないことを示す。 本稿では、同好性グラフと異好性グラフの両方に適応できる適応的単純グラフ畳み込み(ASGC)を提案する。 SGCと同様に、ASGCは深いモデルではなく、高速でスケーラブルで解釈可能である。 実世界のデータセットのベンチマークでは,ノード分類では,非ディープメソッドが最先端のディープモデルを上回ることが多いことが分かりました。 SGC論文は、グラフニューラルネットワークの複雑さが、ホモフィルネットワークを含む一般的なグラフ問題に対して保証されているかどうかを問うものである。

Graph convolutional networks (GCNs) (Kipf & Welling, 2017) attempt to extend the success of deep learning in modeling image and text data to graphs. However, like other deep models, GCNs comprise repeated nonlinear transformations of inputs and are therefore time and memory intensive to train. Recent work has shown that a much simpler and faster model, Simple Graph Convolution (SGC) (Wu et al., 2019), is competitive with GCNs in common graph machine learning benchmarks. The use of graph data in SGC implicitly assumes the common but not universal graph characteristic of homophily, wherein nodes link to nodes which are similar. Here we show that SGC is indeed ineffective for heterophilous (i.e., non-homophilous) graphs via experiments on synthetic and real-world datasets. We propose Adaptive Simple Graph Convolution (ASGC), which we show can adapt to both homophilous and heterophilous graph structure. Like SGC, ASGC is not a deep model, and hence is fast, scalable, and interpretable. We find that our non-deep method often outperforms state-of-the-art deep models at node classification on a benchmark of real-world datasets. The SGC paper questioned whether the complexity of graph neural networks is warranted for common graph problems involving homophilous networks; our results suggest that this question is still open even for more complicated problems involving heterophilous networks.
翻訳日:2022-02-11 05:12:38 公開日:2022-02-08
# (参考訳) ニューラルネットワークガウス過程を用いたマルチモデルアンサンブル解析

Multi-model Ensemble Analysis with Neural Network Gaussian Processes ( http://arxiv.org/abs/2202.04152v1 )

ライセンス: CC BY 4.0
Trevor Harris, Bo Li, Ryan Sriver(参考訳) マルチモデルアンサンブル解析は、複数の気候モデルからの情報を統合投影に統合する。 しかし、モデル平均化に基づく既存の統合アプローチは、微細な空間情報を希釈し、低分解能気候モデルの再スケーリングからバイアスを負う。 我々は,広義の深層ニューラルネットワークに基づく共分散関数を持つガウス過程回帰(GPR)を用いて,NN-GPRと呼ばれる統計的アプローチを提案する。 NN-GPRはモデル間の関係に関する仮定を必要とせず、共通のグリッドへの補間も、定常性の仮定も必要とせず、予測アルゴリズムの一部として自動的にダウンスケールする。 モデル実験により, NN-GPRは複数スケールで地理空間信号を保存し, 年々の変動を捉えることにより, 表面温度と降水予測に極めて熟練していることが示された。 特に高変動領域における精度と不確実性定量化技術の向上が示され, 地域気候モデル(RCM)を使わずに, 0.44$^\circ$/50 km空間分解能を安価に評価することが可能となった。 再解析データとSSP245強制気候モデルによる評価から、NN-GPRはモデルアンサンブルに類似した全体気候を発生させながら、より微細な空間パターンを捉えることができる。 最後に、NN-GPRの地域予測を2つのRCMと比較し、グローバルモデルデータのみを入力として、NN-GPRがRCMのパフォーマンスに匹敵することを示す。

Multi-model ensemble analysis integrates information from multiple climate models into a unified projection. However, existing integration approaches based on model averaging can dilute fine-scale spatial information and incur bias from rescaling low-resolution climate models. We propose a statistical approach, called NN-GPR, using Gaussian process regression (GPR) with an infinitely wide deep neural network based covariance function. NN-GPR requires no assumptions about the relationships between models, no interpolation to a common grid, no stationarity assumptions, and automatically downscales as part of its prediction algorithm. Model experiments show that NN-GPR can be highly skillful at surface temperature and precipitation forecasting by preserving geospatial signals at multiple scales and capturing inter-annual variability. Our projections particularly show improved accuracy and uncertainty quantification skill in regions of high variability, which allows us to cheaply assess tail behavior at a 0.44$^\circ$/50 km spatial resolution without a regional climate model (RCM). Evaluations on reanalysis data and SSP245 forced climate models show that NN-GPR produces similar, overall climatologies to the model ensemble while better capturing fine scale spatial patterns. Finally, we compare NN-GPR's regional predictions against two RCMs and show that NN-GPR can rival the performance of RCMs using only global model data as input.
翻訳日:2022-02-11 04:57:03 公開日:2022-02-08
# (参考訳) タスク指向対話システムのための論理推論

Logical Reasoning for Task Oriented Dialogue Systems ( http://arxiv.org/abs/2202.04161v1 )

ライセンス: CC BY 4.0
Sajjad Beygi, Maryam Fazel-Zarandi, Alessandra Cervone, Prakash Krishnan, Siddhartha Reddy Jonnalagadda(参考訳) 近年,タスク完了率の向上のために,対話システムにおいて大規模な事前訓練モデルが用いられている。 しかし、対話プラットフォームにおける推論能力の欠如は、対話体験のデザイナーが外部ルールベースのモジュールでこれらの機能を実装するのにかなりの時間を費やしない限り、関連性があり流動的な応答を提供するのを難しくする。 本研究では,ロバータやT5といった事前学習型トランスモデルを微調整する新しい手法を提案する。 所定の対話コンテキストにおいて、一連の事実を推論する。 本手法は、数値のリスト、逆関係(および否定)、カテゴリー属性の包含と排除、数値値とカテゴリ値の両方に対する属性の組み合わせの適用、さらに、追加のトレーニングデータセットを必要とせず、数値値のための音声形式など、モデルが論理関係を学習するのに役立つ合成データ生成機構を含む。 変換器に基づくモデルでは,対話コンテキストがすべての必要な情報を含む場合,論理的推論を行い,その場合,部分的な情報が利用可能であれば,下流のコンポーネント(例えば知識ベース)に渡すための適切な制約を抽出できることを示す。 我々は、UnifiedQA-T5のようなトランスフォーマーベースのモデルが、トレーニング時間で見られた属性(例えば、$k_{\max}$=5の値と比較した場合、90\%+の精度)に対して論理的推論(数値的および分類的属性の比較など)を行うように微調整可能であることを観察する。

In recent years, large pretrained models have been used in dialogue systems to improve successful task completion rates. However, lack of reasoning capabilities of dialogue platforms make it difficult to provide relevant and fluent responses, unless the designers of a conversational experience spend a considerable amount of time implementing these capabilities in external rule based modules. In this work, we propose a novel method to fine-tune pretrained transformer models such as Roberta and T5. to reason over a set of facts in a given dialogue context. Our method includes a synthetic data generation mechanism which helps the model learn logical relations, such as comparison between list of numerical values, inverse relations (and negation), inclusion and exclusion for categorical attributes, and application of a combination of attributes over both numerical and categorical values, and spoken form for numerical values, without need for additional training dataset. We show that the transformer based model can perform logical reasoning to answer questions when the dialogue context contains all the required information, otherwise it is able to extract appropriate constraints to pass to downstream components (e.g. a knowledge base) when partial information is available. We observe that transformer based models such as UnifiedQA-T5 can be fine-tuned to perform logical reasoning (such as numerical and categorical attributes' comparison) over attributes that been seen in training time (e.g., accuracy of 90\%+ for comparison of smaller than $k_{\max}$=5 values over heldout test dataset).
翻訳日:2022-02-11 04:55:53 公開日:2022-02-08
# (参考訳) bregman divergencesのバイアス分散トレードオフを理解する

Understanding the bias-variance tradeoff of Bregman divergences ( http://arxiv.org/abs/2202.04167v1 )

ライセンス: CC BY 4.0
Ben Adlam, Neha Gupta, Zelda Mariet, Jamie Smith(参考訳) 本稿では,任意のブレグマン発散損失関数に対するバイアス分散トレードオフを一般化したPfau (2013) の業績に基づく。 Pfau (2013) は、ブレグマンの発散について、バイアスと分散はラベルの期待平均として定義される中央ラベルとより複雑な形の中央予測に関して定義されることを示した。 ラベルと同様に、中央予測は確率変数の平均として解釈され、平均は損失関数自身によって定義される双対空間で作用する。 双対空間で取られた操作を通してバイアス分散のトレードオフを観察すると、いくつかの利害関係の結果が導かれる。 特に a) 分散項は,全分散の一般化された法則を満たす。 b) ランダム性の源が制御できない場合,バイアス及び分散への寄与は,閉じた形式を有する。 (c)ラベル空間と予測空間には、ばらつきを低減しバイアスに影響を与えない自然なセンスリング演算が存在する。

This paper builds upon the work of Pfau (2013), which generalized the bias variance tradeoff to any Bregman divergence loss function. Pfau (2013) showed that for Bregman divergences, the bias and variances are defined with respect to a central label, defined as the expected mean of the label, and a central prediction, of a more complex form. We show that, similarly to the label, the central prediction can be interpreted as the mean of a random variable, where the mean operates in a dual space defined by the loss function itself. Viewing the bias-variance tradeoff through operations taken in dual space, we subsequently derive several results of interest. In particular, (a) the variance terms satisfy a generalized law of total variance; (b) if a source of randomness cannot be controlled, its contribution to the bias and variance has a closed form; (c) there exist natural ensembling operations in the label and prediction spaces which reduce the variance and do not affect the bias.
翻訳日:2022-02-11 04:40:28 公開日:2022-02-08
# (参考訳) swiftagg: 最悪のセキュリティ保証を備えた連合学習のためのコミュニケーション効率とドロップアウト耐性のセキュアアグリゲーション

SwiftAgg: Communication-Efficient and Dropout-Resistant Secure Aggregation for Federated Learning with Worst-Case Security Guarantees ( http://arxiv.org/abs/2202.04169v1 )

ライセンス: CC0 1.0
Tayyebeh Jahani-Nezhad, Mohammad Ali Maddah-Ali, Songze Li, Giuseppe Caire(参考訳) 我々は、フェデレーション学習システムのための新しいセキュアアグリゲーションプロトコルであるSwiftAggを提案し、中央サーバは、ローカルデータに基づいてトレーニングされた$N$の分散ユーザのローカルモデルをプライバシ保存形式で集約する。 最先端のセキュアアグリゲーションプロトコルと比較すると、SwiftAggはセキュリティ上の妥協なしに通信オーバーヘッドを大幅に削減する。 具体的には、少なくとも$D$のドロップアウトユーザが存在する場合、SwiftAggは、ユーザ対サーバ通信負荷$(T+1)L$とユーザ対ユーザ通信負荷$(N-1)(T+D+1)L$を達成します。 swiftaggの重要なアイデアは、ユーザをサイズ$d+t+1$のグループに分割することである。第1フェーズでは、個々のモデルの秘密共有と集約が各グループ内で行われ、第2フェーズでは、グループ全体のユーザの$d+t+1$のシーケンスでモデル集約が行われる。 シーケンスのユーザが第2フェーズでドロップアウトした場合、残りのシーケンスは無音のままである。 この設計により、少数のユーザだけが互いに通信することができ、単一のグループ内のユーザだけがサーバと直接通信し、要求をなくすことができる。 1) ユーザ間のオール・ツー・オール通信ネットワーク 2)他のセキュアアグリゲーションプロトコルのために,サーバと通信するすべてのユーザ。 これにより、システムの通信コストが大幅に削減される。

We propose SwiftAgg, a novel secure aggregation protocol for federated learning systems, where a central server aggregates local models of $N$ distributed users, each of size $L$, trained on their local data, in a privacy-preserving manner. Compared with state-of-the-art secure aggregation protocols, SwiftAgg significantly reduces the communication overheads without any compromise on security. Specifically, in presence of at most $D$ dropout users, SwiftAgg achieves a users-to-server communication load of $(T+1)L$ and a users-to-users communication load of up to $(N-1)(T+D+1)L$, with a worst-case information-theoretic security guarantee, against any subset of up to $T$ semi-honest users who may also collude with the curious server. The key idea of SwiftAgg is to partition the users into groups of size $D+T+1$, then in the first phase, secret sharing and aggregation of the individual models are performed within each group, and then in the second phase, model aggregation is performed on $D+T+1$ sequences of users across the groups. If a user in a sequence drops out in the second phase, the rest of the sequence remain silent. This design allows only a subset of users to communicate with each other, and only the users in a single group to directly communicate with the server, eliminating the requirements of 1) all-to-all communication network across users; and 2) all users communicating with the server, for other secure aggregation protocols. This helps to substantially slash the communication costs of the system.
翻訳日:2022-02-11 04:20:45 公開日:2022-02-08
# (参考訳) 警察のテキスト分析:トピックモデリングと空間相対密度推定

Police Text Analysis: Topic Modeling and Spatial Relative Density Estimation ( http://arxiv.org/abs/2202.04176v1 )

ライセンス: CC BY 4.0
Sarah Huestis-Mitchell, Xiuyuan Cheng, Yao Xie(参考訳) 事例の空間分布を理解するために,警察事件事例文書の大規模なコーパスを分析した。 これを行う動機は、各事件報告における警察の物語が、警察が手動で割り当てたカテゴリよりも、非常にきめ細かい情報を含んでいることである。 我々のアプローチは、コーパスを2つの異なる教師なし機械学習アルゴリズムを使ってトピックに分割することである。 モデルコヒーレンスを用いて各学習トピックモデルの性能を検証する。 そこで,本稿では,k-nearest neighbors density ratio Estimation (kNN-DRE) を用いてトピックごとの空間密度比を推定し,これを各トピックのデータ発見と解析に利用し,大規模インシデントについて考察する。 我々は,各トピックの質的評価を行い,空間的傾向を推定するためにkNN-DREモデルを使用する際の重要な利点を強調した。

We analyze a large corpus of police incident narrative documents in understanding the spatial distribution of the topics. The motivation for doing this is that police narratives in each incident report contains very fine-grained information that is richer than the category that is manually assigned by the police. Our approach is to split the corpus into topics using two different unsupervised machine learning algorithms - Latent Dirichlet Allocation and Non-negative Matrix Factorization. We validate the performance of each learned topic model using model coherence. Then, using a k-nearest neighbors density ratio estimation (kNN-DRE) approach that we propose, we estimate the spatial density ratio per topic and use this for data discovery and analysis of each topic, allowing for insights into the described incidents at scale. We provide a qualitative assessment of each topic and highlight some key benefits for using our kNN-DRE model for estimating spatial trends.
翻訳日:2022-02-11 04:02:00 公開日:2022-02-08
# (参考訳) TransformNet:幾何学変換予測による自己教師付き表現学習

TransformNet: Self-supervised representation learning through predicting geometric transformations ( http://arxiv.org/abs/2202.04181v1 )

ライセンス: CC BY 4.0
Sayed Hashim, Muhammad Ali(参考訳) 深層ニューラルネットワークは大量のトレーニングデータを必要とするが、現実世界ではトレーニング目的で利用可能なデータが少ない。 この問題を解決するために、教師なしのメソッドは限られたデータでトレーニングに使用される。 本稿では,入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。 我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。 この自己教師付きスキームは、プリテキストタスクとダウンストリームタスクに基づいている。 幾何変換を定量化するプリテキスト分類タスクは、cnnに画像分類に有用なオブジェクトの高レベルなサルエント特徴を学ぶよう強制する。 ベースラインモデルでは、画像回転を90度の倍数で定義する。 このプリテキストタスクでトレーニングされたcnnは、ダウンストリームタスクとしてcifar-10データセット内のイメージの分類に使用される。 我々は,ResNet,DenseNet,VGG-16,NINなどさまざまなモデルを用いて,特徴抽出と微調整設定で様々な回転数でベースラインメソッドを実行する。 このベースラインモデルを拡張して、プリテキストタスクにおける回転以外の変換を実験する。 選択したモデルの性能を、画像に異なる変換を適用し、様々なデータ拡張技術と異なるオプティマイザを用いて比較する。 この一連の異なる実験は,分類の下流課題に適用した場合の自己教師付きモデルの認識精度を実証する上で有用である。

Deep neural networks need a big amount of training data, while in the real world there is a scarcity of data available for training purposes. To resolve this issue unsupervised methods are used for training with limited data. In this report, we describe the unsupervised semantic feature learning approach for recognition of the geometric transformation applied to the input data. The basic concept of our approach is that if someone is unaware of the objects in the images, he/she would not be able to quantitatively predict the geometric transformation that was applied to them. This self supervised scheme is based on pretext task and the downstream task. The pretext classification task to quantify the geometric transformations should force the CNN to learn high-level salient features of objects useful for image classification. In our baseline model, we define image rotations by multiples of 90 degrees. The CNN trained on this pretext task will be used for the classification of images in the CIFAR-10 dataset as a downstream task. we run the baseline method using various models, including ResNet, DenseNet, VGG-16, and NIN with a varied number of rotations in feature extracting and fine-tuning settings. In extension of this baseline model we experiment with transformations other than rotation in pretext task. We compare performance of selected models in various settings with different transformations applied to images,various data augmentation techniques as well as using different optimizers. This series of different type of experiments will help us demonstrate the recognition accuracy of our self-supervised model when applied to a downstream task of classification.
翻訳日:2022-02-11 03:45:36 公開日:2022-02-08
# (参考訳) FMP: トポロジーバイアスに対する公正なグラフメッセージパッシングを目指して

FMP: Toward Fair Graph Message Passing against Topology Bias ( http://arxiv.org/abs/2202.04187v1 )

ライセンス: CC0 1.0
Zhimeng Jiang, Xiaotian Han, Chao Fan, Zirui Liu, Na Zou, Ali Mostafavi, and Xia Hu(参考訳) グラフニューラルネットワーク(GNN)における正規化、敵対的デバイアス、コントラスト学習による公正表現と予測の達成は近年進歩しているが、GNNの背後にある作業機構(すなわち、メッセージパッシング)はいまだに不明である。 本研究では,グラフトポロジによって引き起こされるトポロジバイアスにより,メッセージパス方式における代表アグリゲーションがノード表現のバイアスを蓄積することを示す。 したがって、グラフの滑らかさと公平さを考慮に入れた統一フレームワークにおける位相バイアスの影響を最小限に抑えるために、近傍の有用な情報を集約するために、f{F}air \textsf{M}essage \textsf{P}assing (FMP) スキームを提案する。 提案したFMPは、効果的で透明で、バックプロパゲーショントレーニングと互換性がある。 また,アルゴリズムの高速化のために勾配計算の高速化手法を採用した。 ノード分類タスクの実験により,提案手法は実世界の3つのデータセットのバイアスを効果的かつ効率的に軽減する上で,最先端のベースラインよりも優れていることが示された。

Despite recent advances in achieving fair representations and predictions through regularization, adversarial debiasing, and contrastive learning in graph neural networks (GNNs), the working mechanism (i.e., message passing) behind GNNs inducing unfairness issue remains unknown. In this work, we theoretically and experimentally demonstrate that representative aggregation in message-passing schemes accumulates bias in node representation due to topology bias induced by graph topology. Thus, a \textsf{F}air \textsf{M}essage \textsf{P}assing (FMP) scheme is proposed to aggregate useful information from neighbors but minimize the effect of topology bias in a unified framework considering graph smoothness and fairness objectives. The proposed FMP is effective, transparent, and compatible with back-propagation training. An acceleration approach on gradient calculation is also adopted to improve algorithm efficiency. Experiments on node classification tasks demonstrate that the proposed FMP outperforms the state-of-the-art baselines in effectively and efficiently mitigating bias on three real-world datasets.
翻訳日:2022-02-11 03:36:09 公開日:2022-02-08
# (参考訳) Isabelle/HOLにおけるVHDLの実行可能な形式モデル

An Executable Formal Model of the VHDL in Isabelle/HOL ( http://arxiv.org/abs/2202.04192v1 )

ライセンス: CC BY 4.0
Wilayat Khan, Zhe Hou, David Sanan, Jamel Nebhen, Yang Liu, Alwen Tiu(参考訳) ハードウェア設計プロセスでは、ハードウェアコンポーネントは通常、ハードウェア記述言語で記述される。 verilogやvhdlといったハードウェア記述言語の多くは数学的基礎を持っておらず、そのため設計に関する形式的な推論には適していない。 最も一般的な記述言語であるVHDLにおける形式的推論を可能にするため、Isabelle/HOLでVHDL言語の形式的モデルを定義する。 我々のモデルは、産業で使用されるvhdl設計の機能、特にleon3プロセッサの整数ユニットの設計をターゲットとしている。 VHDL言語では、典型的には文献でモデル化されていない幅広い特徴をカバーし、それのための新しい操作意味論を定義する。 さらに、我々のモデルはOCamlコードにエクスポートして実行し、形式モデルをVHDLシミュレータに変換する。 文献で使われている単純な設計とLEON3設計のdiv32モジュールに対してシミュレータを試験した。 isabelle/holコード: https://zhehou.github.io/apps/vhdlmodel.zip

In the hardware design process, hardware components are usually described in a hardware description language. Most of the hardware description languages, such as Verilog and VHDL, do not have mathematical foundation and hence are not fit for formal reasoning about the design. To enable formal reasoning in one of the most commonly used description language VHDL, we define a formal model of the VHDL language in Isabelle/HOL. Our model targets the functional part of VHDL designs used in industry, specifically the design of the LEON3 processor's integer unit. We cover a wide range of features in the VHDL language that are usually not modelled in the literature and define a novel operational semantics for it. Furthermore, our model can be exported to OCaml code for execution, turning the formal model into a VHDL simulator. We have tested our simulator against simple designs used in the literature, as well as the div32 module in the LEON3 design. The Isabelle/HOL code is publicly available: https://zhehou.github.io/apps/VHDLModel.zip
翻訳日:2022-02-11 03:06:05 公開日:2022-02-08
# rate-distortion-perception tradeoff:共通ランダム性の役割

The Rate-Distortion-Perception Tradeoff: The Role of Common Randomness ( http://arxiv.org/abs/2202.04147v1 )

ライセンス: Link先を確認
Aaron B. Wagner(参考訳) 近年,Blau と Michaeli と Matsumoto の両氏による RDP のトレードオフが提案されている。 Li らによって研究された分散保存損失圧縮の問題と一致する完全現実主義の場合には、エンコーダとデコーダの間の共通ランダム性の特定量を許容する RDP トレードオフの符号化定理が提供される。 既存のRDPトレードオフは、共通ランダム性の量を無限にすることで回復される。 二次ガウスの場合を詳細に検討する。

A rate-distortion-perception (RDP) tradeoff has recently been proposed by Blau and Michaeli and also Matsumoto. Focusing on the case of perfect realism, which coincides with the problem of distribution-preserving lossy compression studied by Li et al., a coding theorem for the RDP tradeoff that allows for a specified amount of common randomness between the encoder and decoder is provided. The existing RDP tradeoff is recovered by allowing for the amount of common randomness to be infinite. The quadratic Gaussian case is examined in detail.
翻訳日:2022-02-10 16:06:48 公開日:2022-02-08
# PDE、ResNet等の最適制御におけるターンパイク

Turnpike in optimal control of PDEs, ResNets, and beyond ( http://arxiv.org/abs/2202.04097v1 )

ライセンス: Link先を確認
Borjan Geshkovski and Enrique Zuazua(参考訳) 現代のマクロ経済学における \emph{turnpike property} は、経済プランナーが経済をある資本のレベルから別のレベルへ移動しようとすると、プランナーが十分な時間を持っている限り、最も効率的な経路は、最適な定常経路や一定経路に近いレベルに急速に在庫を移動させ、望ましい期間が近づくまでその経路に沿って資本が発展し、その時点で在庫を最終目標に移動させるべきであると主張する。 資源配分戦略としての性質に動機づけられ、過去10年間にわたって、ターンパイクの性質は力学で生じる偏微分方程式のいくつかのクラスにも保持されていることが示されている。 ターンパイク理論は、数学的に定式化されたとき、経済学からの洞察を裏付ける: 有限時間地平線に設定された最適制御問題に対して、最適制御と対応する状態は、ほとんどの時間において、初期時と最終時の間、関連する定常最適制御問題の最適制御と対応する状態とに近接する(しばしば指数関数的に)。 特に、前者は時間とともにほぼ一定である。 この事実は、いくつかの最適制御問題が長い間隔で楽しむように見えるという漸近的な単純化に厳密な意味を与え、計算とアプリケーションに対する対応する定常問題を考慮できる。 我々は,過去10年間に開発された理論のスライスを概観する。基盤となるシステムの制御性は重要な要素であり,ほぼ最適に近い単純なターンパイクのような戦略を考案するためにも利用できる。また,ハミルトン・ヤコビ・ベルマン漸近性の特徴付けや,残留ニューラルネットワークによるディープラーニングにおける安定性推定など,いくつかの新しい応用例も紹介する。

The \emph{turnpike property} in contemporary macroeconomics asserts that if an economic planner seeks to move an economy from one level of capital to another, then the most efficient path, as long as the planner has enough time, is to rapidly move stock to a level close to the optimal stationary or constant path, then allow for capital to develop along that path until the desired term is nearly reached, at which point the stock ought to be moved to the final target. Motivated in part by its nature as a resource allocation strategy, over the past decade, the turnpike property has also been shown to hold for several classes of partial differential equations arising in mechanics. When formalized mathematically, the turnpike theory corroborates the insights from economics: for an optimal control problem set in a finite-time horizon, optimal controls and corresponding states, are close (often exponentially), during most of the time, except near the initial and final time, to the optimal control and corresponding state for the associated stationary optimal control problem. In particular, the former are mostly constant over time. This fact provides a rigorous meaning to the asymptotic simplification that some optimal control problems appear to enjoy over long time intervals, allowing the consideration of the corresponding stationary problem for computing and applications. We review a slice of the theory developed over the past decade --the controllability of the underlying system is an important ingredient, and can even be used to devise simple turnpike-like strategies which are nearly optimal--, and present several novel applications, including, among many others, the characterization of Hamilton-Jacobi-Bellman asymptotics, and stability estimates in deep learning via residual neural networks.
翻訳日:2022-02-10 15:48:06 公開日:2022-02-08
# 神経フィリップス曲線と深い出力ギャップ

A Neural Phillips Curve and a Deep Output Gap ( http://arxiv.org/abs/2202.04146v1 )

ライセンス: Link先を確認
Philippe Goulet Coulombe(参考訳) 多くの問題はフィリップス曲線の推定を悩ませている。 そのうちの1つは、インフレ期待とアウトプットギャップという2つの重要な要素が共に観察できないというハードルである。 伝統的な治療には、著名な欠席者のための合理的なプロキシを作成したり、仮定重みのフィルタリング手順を通じてそれらを抽出することが含まれる。 特異なアーキテクチャを持つ半球型ニューラルネットワーク(hnn)は,コンポーネントをニューラルネットワークのフィリップス曲線内の潜在状態として解釈可能な最終層を生成する。 利点があります。 まず、HNNは高次元の回帰器を潜伏状態に変換する際に生じる非線形性の教師付き推定を行う。 第二に、計算は高速である。 第三に、予測は経済的に解釈可能である。 第4に、インフレーションのボラティリティはモデルに半球を追加するだけで予測できる。 インフレーションに対する実際の活動の寄与は、伝統的な計量的仕様では著しく過小評価されている。 また、HNNは2021年のインフレ上昇を先取りし、予想コンポーネントの急激かつ規模が縮小し、さらに2020年後半から大幅にプラスの差が続くと評価している。 HNNの独自の道のりは、失業率とGDPを排除し、非線形に処理された代替のタイツネス指標のアマルガムを優先することにある。

Many problems plague the estimation of Phillips curves. Among them is the hurdle that the two key components, inflation expectations and the output gap, are both unobserved. Traditional remedies include creating reasonable proxies for the notable absentees or extracting them via some form of assumptions-heavy filtering procedure. I propose an alternative route: a Hemisphere Neural Network (HNN) whose peculiar architecture yields a final layer where components can be interpreted as latent states within a Neural Phillips Curve. There are benefits. First, HNN conducts the supervised estimation of nonlinearities that arise when translating a high-dimensional set of observed regressors into latent states. Second, computations are fast. Third, forecasts are economically interpretable. Fourth, inflation volatility can also be predicted by merely adding a hemisphere to the model. Among other findings, the contribution of real activity to inflation appears severely underestimated in traditional econometric specifications. Also, HNN captures out-of-sample the 2021 upswing in inflation and attributes it first to an abrupt and sizable disanchoring of the expectations component, followed by a wildly positive gap starting from late 2020. HNN's gap unique path comes from dispensing with unemployment and GDP in favor of an amalgam of nonlinearly processed alternative tightness indicators -- some of which are skyrocketing as of early 2022.
翻訳日:2022-02-10 15:47:33 公開日:2022-02-08
# ラグランジアン双対アプローチによるアクティブラーニング

A Lagrangian Duality Approach to Active Learning ( http://arxiv.org/abs/2202.04108v1 )

ライセンス: Link先を確認
Juan Elenter, Navid NaderiAlizadeh, Alejandro Ribeiro(参考訳) 我々は,トレーニングデータのサブセットのみをラベル付けしたバッチアクティブラーニング問題を検討し,ラベル付けされていないサンプルのバッチをクエリし,モデル性能を最大に向上させる。 制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。 原始双対的アプローチを考えると、モデルパラメータに対応する主変数と、制約に対応する双対変数を最適化する。 各双対変数は、各制約の摂動が目的関数の最適値にどの程度影響するかを示すので、対応するトレーニングサンプルのインフォメーションネスの代理として使用する。 ラグランジアン双対Y(ALLY)を介してアクティブラーニング(Active Learning)と呼ぶアプローチでは、この事実を利用して、クエリーセットとして最も推定された2値変数を持つラベルなしサンプルの多様なセットを選択する。 数値実験により,提案手法は,様々な分類や回帰タスクにおいて,最先端のアクティブラーニング手法と同等かそれ以上に機能することを示した。 また,アリーを生成モードで使用して,新規で最大にインフォーマティブなサンプルを作成する方法を示す。 ALLYの実装コードはhttps://github.com/juanelenter/ALLYにある。

We consider the batch active learning problem, where only a subset of the training data is labeled, and the goal is to query a batch of unlabeled samples to be labeled so as to maximally improve model performance. We formulate the learning problem using constrained optimization, where each constraint bounds the performance of the model on labeled samples. Considering a primal-dual approach, we optimize the primal variables, corresponding to the model parameters, as well as the dual variables, corresponding to the constraints. As each dual variable indicates how significantly the perturbation of the respective constraint affects the optimal value of the objective function, we use it as a proxy of the informativeness of the corresponding training sample. Our approach, which we refer to as Active Learning via Lagrangian dualitY, or ALLY, leverages this fact to select a diverse set of unlabeled samples with the highest estimated dual variables as our query set. We show, via numerical experiments, that our proposed approach performs similarly to or better than state-of-the-art active learning methods in a variety of classification and regression tasks. We also demonstrate how ALLY can be used in a generative mode to create novel, maximally-informative samples. The implementation code for ALLY can be found at https://github.com/juanelenter/ALLY.
翻訳日:2022-02-10 15:47:14 公開日:2022-02-08
# 幼児期における定量的構造MRIを用いた認知障害早期予測のためのオントロジー誘導属性分割学習モデル

A Novel Ontology-guided Attribute Partitioning Ensemble Learning Model for Early Prediction of Cognitive Deficits using Quantitative Structural MRI in Very Preterm Infants ( http://arxiv.org/abs/2202.04134v1 )

ライセンス: Link先を確認
Zhiyuan Li, Hailong Li, Adebayo Braimah, Jonathan R. Dillman, Nehal A.Parikh, Lili He(参考訳) 構造磁気共鳴画像による研究により、脳の解剖学的異常は早産児の認知障害と関連していることが示された。 脳の成熟と幾何学的特徴は、後の神経発達障害を予測する機械学習モデルで利用することができる。 しかし、従来の機械学習モデルは、大きな機能対インスタンス比(つまり、多数の機能を持つが、少数のインスタンス/サンプル)に悩まされる。 アンサンブル学習は、機械学習分類器のライブラリを戦略的に生成し統合するパラダイムであり、モデル性能を向上させるために様々な予測モデリング問題でうまく使われている。 属性(すなわち、機能)バッキングメソッドは、機能セット全体から機能サブセットをランダムに繰り返し引き出す、最も一般的に使用される機能分割スキームである。 属性バッジ法は,大きな特徴量比を扱うために,特徴次元を効果的に削減できるが,ドメイン知識や特徴間の潜伏関係は考慮されていない。 本研究では,機能間のドメイン固有の関係を考慮し,特徴部分集合を描画する新しいオントロジー誘導属性分割(oap)法を提案する。 より分割された機能サブセットを用いて,OAPアンサンブル学習(OAP-EL)と呼ばれるアンサンブル学習フレームワークを開発した。 本研究は,超早産児の定量的脳成熟度と短期同年齢時の幾何学的特徴を用いて,2歳児の認知障害の予測にoap-elを適用した。 我々は,提案手法がピアアンサンブル学習や従来の機械学習手法を大きく上回ることを示した。

Structural magnetic resonance imaging studies have shown that brain anatomical abnormalities are associated with cognitive deficits in preterm infants. Brain maturation and geometric features can be used with machine learning models for predicting later neurodevelopmental deficits. However, traditional machine learning models would suffer from a large feature-to-instance ratio (i.e., a large number of features but a small number of instances/samples). Ensemble learning is a paradigm that strategically generates and integrates a library of machine learning classifiers and has been successfully used on a wide variety of predictive modeling problems to boost model performance. Attribute (i.e., feature) bagging method is the most commonly used feature partitioning scheme, which randomly and repeatedly draws feature subsets from the entire feature set. Although attribute bagging method can effectively reduce feature dimensionality to handle the large feature-to-instance ratio, it lacks consideration of domain knowledge and latent relationship among features. In this study, we proposed a novel Ontology-guided Attribute Partitioning (OAP) method to better draw feature subsets by considering domain-specific relationship among features. With the better partitioned feature subsets, we developed an ensemble learning framework, which is referred to as OAP Ensemble Learning (OAP-EL). We applied the OAP-EL to predict cognitive deficits at 2 year of age using quantitative brain maturation and geometric features obtained at term equivalent age in very preterm infants. We demonstrated that the proposed OAP-EL approach significantly outperformed the peer ensemble learning and traditional machine learning approaches.
翻訳日:2022-02-10 15:42:45 公開日:2022-02-08
# 新しいチャネルブーストおよびスリーズドCNNを用いたIoTマルウェア検出アーキテクチャ

IoT Malware Detection Architecture using a Novel Channel Boosted and Squeezed CNN ( http://arxiv.org/abs/2202.04121v1 )

ライセンス: Link先を確認
Muhammad Asam, Saddam Hussain Khan, Tauseef Jamal, Asifullah Khan(参考訳) デバイス、人々、インターネット間のインタラクションは、新しいデジタル通信モデルであるIoT(Internet of Things)を生み出した。 これらのスマートデバイスのシームレスなネットワークがこのIoTモデルの中核である。 一方で,ネットワークを構成するスマートデバイスの統合には,セキュリティ上の課題が数多く発生している。 これらのコネクテッドデバイスは、マルウェアの増殖技術を使って、サイバー犯罪者が簡単にデバイスに攻撃を仕掛けることのできる、セキュリティの盲点を作り出した。 したがって、マルウェア検出は、サイバー攻撃に対するIoTデバイスの生存のライフラインと見なされている。 本研究では,拡張畳み込みニューラルネットワーク(CNN)を用いた新しいIoTマルウェア検出アーキテクチャ(iMDA)を提案する。 提案アーキテクチャは,エッジおよびスムース化,マルチパス拡張畳み込み操作,チャネルスキューズ,CNNの高速化といった概念を活用する。 エッジおよび平滑化操作は、slit-transform-merge (stm)ブロックを用いて、マルウェア画像の局所構造および小さなコントラスト変動を抽出する。 STMブロックはマルチパス拡張畳み込み操作を行い、マルウェアパターンのグローバルな構造を認識するのに役立った。 さらに、チャンネルのスクイーズとマージは、それぞれ特徴マップの縮小と多彩化に役立った。 初期, 中, 最終レベルでのSTMブロックの助けを借りてチャネルスキューズとブースティングを適用し, テクスチャの変動を捉え, マルウェアパターンハンティングの深さを計測する。 提案したアーキテクチャは、カスタマイズされたCNNモデルと比較してかなりの性能を示している。 提案されたiMDAは精度97.93%、F1スコア0.9394、精度0.9864、MCC0。 8796,リコール: 0.8873, auc-pr: 0.9689, auc-roc: 0.9938。

Interaction between devices, people, and the Internet has given birth to a new digital communication model, the Internet of Things (IoT). The seamless network of these smart devices is the core of this IoT model. However, on the other hand, integrating smart devices to constitute a network introduces many security challenges. These connected devices have created a security blind spot, where cybercriminals can easily launch an attack to compromise the devices using malware proliferation techniques. Therefore, malware detection is considered a lifeline for the survival of IoT devices against cyberattacks. This study proposes a novel IoT Malware Detection Architecture (iMDA) using squeezing and boosting dilated convolutional neural network (CNN). The proposed architecture exploits the concepts of edge and smoothing, multi-path dilated convolutional operations, channel squeezing, and boosting in CNN. Edge and smoothing operations are employed with split-transform-merge (STM) blocks to extract local structure and minor contrast variation in the malware images. STM blocks performed multi-path dilated convolutional operations, which helped recognize the global structure of malware patterns. Additionally, channel squeezing and merging helped to get the prominent reduced and diverse feature maps, respectively. Channel squeezing and boosting are applied with the help of STM block at the initial, middle and final levels to capture the texture variation along with the depth for the sake of malware pattern hunting. The proposed architecture has shown substantial performance compared with the customized CNN models. The proposed iMDA has achieved Accuracy: 97.93%, F1-Score: 0.9394, Precision: 0.9864, MCC: 0. 8796, Recall: 0.8873, AUC-PR: 0.9689 and AUC-ROC: 0.9938.
翻訳日:2022-02-10 15:36:54 公開日:2022-02-08
# ファーストフードレストランにおけるKiosk Recommenderシステムにおける言語モデルの利用

Using a Language Model in a Kiosk Recommender System at Fast-Food Restaurants ( http://arxiv.org/abs/2202.04145v1 )

ライセンス: Link先を確認
Eduard Zubchuk, Dmitry Menshikov, and Nikolay Mikhaylovskiy(参考訳) キオスクは多くのファーストフードレストランで人気のあるセルフサービスオプションであり、訪問者の時間を節約し、ファーストフードチェーンの労力を節約する。 本稿では,ベクタライザとしての言語モデルとニューラルネットワークに基づく分類器を組み合わせた,キオスクショッピングカート推薦システムを提案する。 モデルはオフラインテストで他のモデルよりも優れたパフォーマンスを示し、A/B/Cテストで最高のモデルに匹敵するパフォーマンスを示す。

Kiosks are a popular self-service option in many fast-food restaurants, they save time for the visitors and save labor for the fast-food chains. In this paper, we propose an effective design of a kiosk shopping cart recommender system that combines a language model as a vectorizer and a neural network-based classifier. The model performs better than other models in offline tests and exhibits performance comparable to the best models in A/B/C tests.
翻訳日:2022-02-10 15:36:24 公開日:2022-02-08
# 統計的モデルのライフサイクル:モデル障害の検出、同定、再フィッティング

The Lifecycle of a Statistical Model: Model Failure Detection, Identification, and Refitting ( http://arxiv.org/abs/2202.04166v1 )

ライセンス: Link先を確認
Alnur Ali, Maxime Cauchois, John C. Duchi(参考訳) 統計的機械学習コミュニティは、予測、予測、推測のための非常に表現力のあるツールの開発において、長年にわたってかなりの資源を誇示してきた。 これらの発展の根底にある岩盤の仮定は、データは固定された個体群から来ており、不均一性がほとんどないということである。 しかし、現実ははるかに複雑で、統計モデルが現実のシステムや科学アプリケーションに放たれると、日常的に失敗する。 そこで本論文では,推定と予測のための新しい手法の開発について,異なる経路を追究する。 本稿では,モデル性能が低下し始めている共変量空間(サブポピュレーション)の領域を検出し,同定するためのツールと理論を開発し,これらの障害を修復する手法について検討する。 本稿では,3つの実世界のデータセット(新型コロナウイルスの発生を予測する時系列を含む)を用いた実証実験の結果から,本手法が解釈可能な結果を生成すること,モデル性能の追跡に有用であること,リフィットによるモデル性能の向上が期待できることを示す。 これらの実験結果を補足し,本手法が異常な部分人口の回復に最適であることを示す理論と,構造的正規性設定における精度向上のための再フィッティングによって補完する。

The statistical machine learning community has demonstrated considerable resourcefulness over the years in developing highly expressive tools for estimation, prediction, and inference. The bedrock assumptions underlying these developments are that the data comes from a fixed population and displays little heterogeneity. But reality is significantly more complex: statistical models now routinely fail when released into real-world systems and scientific applications, where such assumptions rarely hold. Consequently, we pursue a different path in this paper vis-a-vis the well-worn trail of developing new methodology for estimation and prediction. In this paper, we develop tools and theory for detecting and identifying regions of the covariate space (subpopulations) where model performance has begun to degrade, and study intervening to fix these failures through refitting. We present empirical results with three real-world data sets -- including a time series involving forecasting the incidence of COVID-19 -- showing that our methodology generates interpretable results, is useful for tracking model performance, and can boost model performance through refitting. We complement these empirical results with theory proving that our methodology is minimax optimal for recovering anomalous subpopulations as well as refitting to improve accuracy in a structured normal means setting.
翻訳日:2022-02-10 15:36:17 公開日:2022-02-08
# 半教師付き骨格行動認識のための結合骨融合グラフ畳み込みネットワーク

Joint-bone Fusion Graph Convolutional Network for Semi-supervised Skeleton Action Recognition ( http://arxiv.org/abs/2202.04075v1 )

ライセンス: Link先を確認
Zhigang Tu, Jiaxu Zhang, Hongyan Li, Yujin Chen, and Junsong Yuan(参考訳) 近年、グラフ畳み込みネットワーク(GCN)は骨格に基づく人間の行動認識においてますます重要な役割を担っている。 しかし、ほとんどのGCNベースのメソッドには2つの大きな制限がある。 1) 関節の運動情報や関節と骨を別々に処理することのみを考慮し, 動作認識のための関節と骨の潜在的機能相関を完全に探究することはできない。 2)これらの研究の多くは、大量のラベル付きトレーニングデータに大きく依存する教師あり学習方法で行われている。 この問題に対処するために,これまでほとんど利用されていない半教師付きスケルトンに基づく行動認識法を提案する。 相関駆動型結合骨融合グラフ畳み込みネットワーク(cd-jbf-gcn)をエンコーダとして設計し,半教師付き学習を実現するためにポーズ予測ヘッドをデコーダとして用いる。 具体的には、CD-JBF-GCは関節ストリームと骨ストリームの間の運動伝達を探索し、両方のストリームがより識別的な特徴表現を学習できるようにする。 自己教師付きトレーニングステージにおけるポーズ予測に基づく自動エンコーダにより、ネットワークは、動作認識に不可欠なラベルなしデータから動き表現を学習することができる。 NTU-RGB+D と Kinetics-Skeleton という2つの一般的なデータセットに対する大規模な実験により、このモデルが半教師付き骨格に基づく行動認識の最先端性能を実現し、完全教師付き手法にも有用であることを示す。

In recent years, graph convolutional networks (GCNs) play an increasingly critical role in skeleton-based human action recognition. However, most GCN-based methods still have two main limitations: 1) They only consider the motion information of the joints or process the joints and bones separately, which are unable to fully explore the latent functional correlation between joints and bones for action recognition. 2) Most of these works are performed in the supervised learning way, which heavily relies on massive labeled training data. To address these issues, we propose a semi-supervised skeleton-based action recognition method which has been rarely exploited before. We design a novel correlation-driven joint-bone fusion graph convolutional network (CD-JBF-GCN) as an encoder and use a pose prediction head as a decoder to achieve semi-supervised learning. Specifically, the CD-JBF-GC can explore the motion transmission between the joint stream and the bone stream, so that promoting both streams to learn more discriminative feature representations. The pose prediction based auto-encoder in the self-supervised training stage allows the network to learn motion representation from unlabeled data, which is essential for action recognition. Extensive experiments on two popular datasets, i.e. NTU-RGB+D and Kinetics-Skeleton, demonstrate that our model achieves the state-of-the-art performance for semi-supervised skeleton-based action recognition and is also useful for fully-supervised methods.
翻訳日:2022-02-10 15:13:48 公開日:2022-02-08
# Face2PPG:顔からの血流パルス抽出のための教師なしパイプライン

Face2PPG: An unsupervised pipeline for blood volume pulse extraction from faces ( http://arxiv.org/abs/2202.04101v1 )

ライセンス: Link先を確認
Constantino \'Alvarez Casado and Miguel Bordallo L\'opez(参考訳) フォトプレチスモグラフィ(ppg)信号は、医学、健康、スポーツなど多くの分野で重要な技術となっている。 本研究は, 顔から遠隔PSG信号(rPPG)を, 安定かつ確実に, 構成可能な方法で抽出するパイプラインセットを提案する。 我々は,教師なしrppg方法論のクリティカルステップにおける選択可能性を特定し,評価する。 我々は、6つの異なるデータセットで最先端の処理パイプラインを評価し、再現性と公正な比較を保証する方法論に重要な修正を取り入れた。 さらに、我々は3つの新しいアイデアを提案してパイプラインを拡張します。 1) 剛性メッシュの正規化に基づく検出面の安定化方法 2)最適な生信号を提供する顔の異なる領域を動的に選択する新しい方法。 3)新しいRGBからRPPG変換手法であるOrthogonal Matrix Image Transformation (OMIT) はQR分解をベースとして圧縮アーチファクトに対する堅牢性を向上する。 これら3つの変化は, 教師なしの非学習手法と比較して, 顔からのrPPG信号の検索, 最先端結果の取得, および, 教師なしの学習手法に非常に近いデータベースにおいて, 顕著な改善をもたらすことを示す。 提案した各アイデアの貢献を定量化する比較研究を行う。 さらに、将来の実装に役立つ一連の観察を描いている。

Photoplethysmography (PPG) signals have become a key technology in many fields such as medicine, well-being, or sports. Our work proposes a set of pipelines to extract remote PPG signals (rPPG) from the face, robustly, reliably, and in a configurable manner. We identify and evaluate the possible choices in the critical steps of unsupervised rPPG methodologies. We evaluate a state-of-the-art processing pipeline in six different datasets, incorporating important corrections in the methodology that ensure reproducible and fair comparisons. In addition, we extend the pipeline by proposing three novel ideas; 1) a new method to stabilize the detected face based on a rigid mesh normalization; 2) a new method to dynamically select the different regions in the face that provide the best raw signals, and 3) a new RGB to rPPG transformation method called Orthogonal Matrix Image Transformation (OMIT) based on QR decomposition, that increases robustness against compression artifacts. We show that all three changes introduce noticeable improvements in retrieving rPPG signals from faces, obtaining state-of-the-art results compared with unsupervised, non-learning-based methodologies, and in some databases, very close to supervised, learning-based methods. We perform a comparative study to quantify the contribution of each proposed idea. In addition, we depict a series of observations that could help in future implementations.
翻訳日:2022-02-10 15:13:19 公開日:2022-02-08
# カスケードディテールモデリングと体充填における不連続塩分検出

Disentangle Saliency Detection into Cascaded Detail Modeling and Body Filling ( http://arxiv.org/abs/2202.04112v1 )

ライセンス: Link先を確認
Yue Song, Hao Tang, Nicu Sebe, Wei Wang(参考訳) サルエント物体検出は、画像やビデオの中で最も視覚的に魅力的な物体を特定するために長い間研究されてきた。 近年,検出性能を向上させるために輪郭・エッジ情報に依存する手法が多数提案されている。 エッジラベルは損失に直接置かれるか、追加の監視として使用される。 エッジとボディは別々に学習し、その後に融合することもできる。 どちらの手法もエッジ付近で高い予測エラーを発生させるか、エンドツーエンドでトレーニングすることはできない。 もう一つの問題は、既存の手法が効率的な機能融合機構が欠如しているため、様々な大きさの物体を検出できないことである。 本研究では,サリエンシ検出タスクを2つのカスケードされたサブタスク, \emph{i.e.}, 詳細モデリングとボディフィリングに分解することを提案する。 特に、ディテールモデリングは、エッジとエッジの近傍にネストされたピクセルからなる明示的に分解されたディテールラベルの監督によって、オブジェクトエッジをキャプチャすることに焦点を当てている。 そして、体充填は、細部マップに充填される体部を学習し、より正確な塩分マップを生成する。 特徴を効果的に融合させ,物体を異なるスケールで扱えるようにするために,複数スケールの細部注意ブロックと細部細部モデリングのためのボディアテンションブロックも提案した。 実験結果から,提案手法は6つの公開データセット上で最先端の性能を実現する。

Salient object detection has been long studied to identify the most visually attractive objects in images/videos. Recently, a growing amount of approaches have been proposed all of which rely on the contour/edge information to improve detection performance. The edge labels are either put into the loss directly or used as extra supervision. The edge and body can also be learned separately and then fused afterward. Both methods either lead to high prediction errors near the edge or cannot be trained in an end-to-end manner. Another problem is that existing methods may fail to detect objects of various sizes due to the lack of efficient and effective feature fusion mechanisms. In this work, we propose to decompose the saliency detection task into two cascaded sub-tasks, \emph{i.e.}, detail modeling and body filling. Specifically, the detail modeling focuses on capturing the object edges by supervision of explicitly decomposed detail label that consists of the pixels that are nested on the edge and near the edge. Then the body filling learns the body part which will be filled into the detail map to generate more accurate saliency map. To effectively fuse the features and handle objects at different scales, we have also proposed two novel multi-scale detail attention and body attention blocks for precise detail and body modeling. Experimental results show that our method achieves state-of-the-art performances on six public datasets.
翻訳日:2022-02-10 15:12:56 公開日:2022-02-08
# 未解決の行動予測

Untrimmed Action Anticipation ( http://arxiv.org/abs/2202.04132v1 )

ライセンス: Link先を確認
Ivan Rodin, Antonino Furnari, Dimitrios Mavroeidis and Giovanni Maria Farinella(参考訳) エゴセントリックアクション予測は、カメラ装着者がエゴセントリックビデオから行う将来のアクションを予測することを含む。 このタスクは、最近研究コミュニティの注目を集めているが、現在のアプローチでは、入力ビデオは「トリミング」であり、短いビデオシーケンスは、アクションの開始前に一定時間サンプリングされていると仮定している。 この分野の最近の進歩にもかかわらず、トリミングされたアクション予測は、"未熟"なビデオ入力を扱うことが重要であり、そのアクションが開始する正確な瞬間がテスト時にわかっていると仮定できない実世界のシナリオにおいて、限定的な適用性を持つ。 このような制約を克服するために, 時間的動作検出と同様に, 入力映像がテスト時に未トリミングであると仮定し, 動作が実際に行われる前に予測を行うよう要求する非トリミング動作予測タスクを提案する。 本稿では,この課題に対処する手法の評価手順を設計し,EPIC-KITCHENS-100データセットのベースラインを比較した。 実験により、トリミングされた動作予測のために設計された現在のモデルの性能は非常に限定的であり、このタスクに関するさらなる研究が必要であることが示されている。

Egocentric action anticipation consists in predicting a future action the camera wearer will perform from egocentric video. While the task has recently attracted the attention of the research community, current approaches assume that the input videos are "trimmed", meaning that a short video sequence is sampled a fixed time before the beginning of the action. We argue that, despite the recent advances in the field, trimmed action anticipation has a limited applicability in real-world scenarios where it is important to deal with "untrimmed" video inputs and it cannot be assumed that the exact moment in which the action will begin is known at test time. To overcome such limitations, we propose an untrimmed action anticipation task, which, similarly to temporal action detection, assumes that the input video is untrimmed at test time, while still requiring predictions to be made before the actions actually take place. We design an evaluation procedure for methods designed to address this novel task, and compare several baselines on the EPIC-KITCHENS-100 dataset. Experiments show that the performance of current models designed for trimmed action anticipation is very limited and more research on this task is required.
翻訳日:2022-02-10 15:12:33 公開日:2022-02-08
# maskgit: マスク付き生成画像トランスフォーマー

MaskGIT: Masked Generative Image Transformer ( http://arxiv.org/abs/2202.04200v1 )

ライセンス: Link先を確認
Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, William T. Freeman(参考訳) 生成トランスフォーマーは、高精細で高解像度な画像を合成するコンピュータビジョンコミュニティで急速に普及した。 しかし、最も優れた生成トランスフォーマーモデルは、依然として画像をトークンのシーケンスとしてナイーブに扱い、ラスタースキャン順序(すなわちラインバイライン)に従って順次デコードする。 この戦略は最適でも効率的でもない。 本稿では,MskGITと呼ばれる双方向トランスフォーマーデコーダを用いた新しい画像合成パラダイムを提案する。 トレーニング中、MaskGITはあらゆる方向のトークンに出席することでランダムにマスクされたトークンを予測することを学ぶ。 推論時に、モデルは画像の全トークンを同時に生成し、その後、前世代に反復的に条件付けされた画像を洗練する。 実験の結果,MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルよりも優れており,自己回帰デコーディングを最大64倍高速化することがわかった。 また,MaskGITはインペイント,外挿,画像操作など,様々な画像編集タスクに容易に拡張できることを示す。

Generative transformers have experienced rapid popularity growth in the computer vision community in synthesizing high-fidelity and high-resolution images. The best generative transformer models so far, however, still treat an image naively as a sequence of tokens, and decode an image sequentially following the raster scan ordering (i.e. line-by-line). We find this strategy neither optimal nor efficient. This paper proposes a novel image synthesis paradigm using a bidirectional transformer decoder, which we term MaskGIT. During training, MaskGIT learns to predict randomly masked tokens by attending to tokens in all directions. At inference time, the model begins with generating all tokens of an image simultaneously, and then refines the image iteratively conditioned on the previous generation. Our experiments demonstrate that MaskGIT significantly outperforms the state-of-the-art transformer model on the ImageNet dataset, and accelerates autoregressive decoding by up to 64x. Besides, we illustrate that MaskGIT can be easily extended to various image editing tasks, such as inpainting, extrapolation, and image manipulation.
翻訳日:2022-02-10 15:12:14 公開日:2022-02-08
# 階層的特徴空間に対する階層的依存制約木強化ネーブベイズ分類器

Hierarchical Dependency Constrained Tree Augmented Naive Bayes Classifiers for Hierarchical Feature Spaces ( http://arxiv.org/abs/2202.04105v1 )

ライセンス: Link先を確認
Cen Wan and Alex A. Freitas(参考訳) Tree Augmented Naive Bayes (TAN) 分類器は、データの分布を推定するために単一親密な依存ツリーを構築する確率的グラフィカルモデルの一種である。 本研究では,階層型依存木拡張ベイズアルゴリズムであるhie-tanとhie-tan-liteを提案する。 どちらの手法も、特徴間の依存性のツリー表現を学習するための制約の一種として、特徴間の事前定義された親子関係(一般化-特殊化)を利用する。 実験の結果,hie-tanは階層的依存制約付き分類アルゴリズムに比べて予測性能が向上し,hie-tan-liteにより得られた精度の高い階層的冗長性を排除することで予測性能がさらに向上した。

The Tree Augmented Naive Bayes (TAN) classifier is a type of probabilistic graphical model that constructs a single-parent dependency tree to estimate the distribution of the data. In this work, we propose two novel Hierarchical dependency-based Tree Augmented Naive Bayes algorithms, i.e. Hie-TAN and Hie-TAN-Lite. Both methods exploit the pre-defined parent-child (generalisation-specialisation) relationships between features as a type of constraint to learn the tree representation of dependencies among features, whilst the latter further eliminates the hierarchical redundancy during the classifier learning stage. The experimental results showed that Hie-TAN successfully obtained better predictive performance than several other hierarchical dependency constrained classification algorithms, and its predictive performance was further improved by eliminating the hierarchical redundancy, as suggested by the higher accuracy obtained by Hie-TAN-Lite.
翻訳日:2022-02-10 15:08:16 公開日:2022-02-08
# 動的決定タスクにおける潜時視線情報

Latent gaze information in highly dynamic decision-tasks ( http://arxiv.org/abs/2202.04072v1 )

ライセンス: Link先を確認
Benedikt Hosp(参考訳) デジタル化はますます生命の領域に浸透している。 タスクはデジタル的に完成することが多くなり、より速く、より効率的に、より意図的に、そして成功しています。 近年の人工知能分野の急速な発展は、構築に有用な多くのアプローチを生み出したことにより、この分野で大きな役割を担っている。 同時に、目、彼らの動き、そしてこれらの動きの意味が徐々に研究されている。 これらの開発の組み合わせは、エキサイティングなアプローチにつながりました。 この論文では、私がPh.D.で研究したアプローチをいくつか紹介します。 まず、人工知能を使って視線の動きと視覚的専門知識を結びつけるモデルの開発について考察する。 これは、意思決定行動のアスリートと鏡視下手術の外科医の2つの領域またはむしろ人々のグループで示される。 得られたモデルは、自動専門知識認識のためのデジタル診断モデルとみなすことができる。 さらに,眼球運動パターンの異なる専門領域への伝達可能性について検討し,その後,一般化技術の重要な側面を示す。 最後に,眼球運動データに基づく混乱の時間的検出について述べる。 以上の結果から,若手プロのトレーニングにおけるデジタル支援オプションとして,結果のモデルをクロック信号として用いることが示唆された。 私の研究の興味深い側面は、dfbの若手エリートアスリートや長年の関節鏡の専門家から非常に貴重なデータを引き出すことができたことです。 特に、dfbデータを用いた研究は、ラジオと印刷メディア、すなわちdeutschlandfunk novaとswr dasdingの関心を惹いた。 全ての論文は国際的に有名な雑誌や会議で発表されている。

Digitization is penetrating more and more areas of life. Tasks are increasingly being completed digitally, and are therefore not only fulfilled faster, more efficiently but also more purposefully and successfully. The rapid developments in the field of artificial intelligence in recent years have played a major role in this, as they brought up many helpful approaches to build on. At the same time, the eyes, their movements, and the meaning of these movements are being progressively researched. The combination of these developments has led to exciting approaches. In this dissertation, I present some of these approaches which I worked on during my Ph.D. First, I provide insight into the development of models that use artificial intelligence to connect eye movements with visual expertise. This is demonstrated for two domains or rather groups of people: athletes in decision-making actions and surgeons in arthroscopic procedures. The resulting models can be considered as digital diagnostic models for automatic expertise recognition. Furthermore, I show approaches that investigate the transferability of eye movement patterns to different expertise domains and subsequently, important aspects of techniques for generalization. Finally, I address the temporal detection of confusion based on eye movement data. The results suggest the use of the resulting model as a clock signal for possible digital assistance options in the training of young professionals. An interesting aspect of my research is that I was able to draw on very valuable data from DFB youth elite athletes as well as on long-standing experts in arthroscopy. In particular, the work with the DFB data attracted the interest of radio and print media, namely DeutschlandFunk Nova and SWR DasDing. All resulting articles presented here have been published in internationally renowned journals or at conferences.
翻訳日:2022-02-10 15:04:58 公開日:2022-02-08
# MRI再構成のための生成画像先行のフェデレーション学習

Federated Learning of Generative Image Priors for MRI Reconstruction ( http://arxiv.org/abs/2202.04175v1 )

ライセンス: Link先を確認
Gokberk Elmas, Salman UH Dar, Yilmaz Korkmaz, Emir Ceyani, Burak Susam, Muzaffer \"Ozbey, Salman Avestimehr, Tolga \c{C}ukur(参考訳) 多制度的な取り組みは、画像データのクロスサイト共有中にプライバシーリスクが発生するにもかかわらず、ディープMRI再構成モデルのトレーニングを容易にする。 federated learning(fl)は、画像データの転送なしに分散トレーニングを可能にすることで、プライバシの懸念に対処するために最近導入された。 既存のMRI再構成のためのFL法では、画像演算子の明示的な知識を通じて、アンダーサンプルからフルサンプル取得へのマッピングに条件モデルを採用している。 条件付きモデルは、異なる加速速度やサンプリング密度であまり一般化しないため、画像演算子はトレーニングとテストの間に固定されなければならない。 本稿では,多施設連携における一般化と柔軟性の向上を目的として,FedGIMP(FedGIMP)に基づくMRI再構成手法を提案する。 FedGIMPは、2段階のアプローチを利用する: 生成MRIのクロスサイト学習と、イメージングオペレーターの主題固有の注入である。 グローバルMRIは、非条件の逆数モデルを用いて学習され、潜伏変数に基づいて高品質なMR画像を合成する。 前者の特異性は、サイト固有の潜在子を生成するマッパーサブネットワークを介して保存される。 推測中、前者は対象固有の撮像演算子と組み合わせて再構成を可能にし、データ一貫性損失を最小限に抑えて個別のテストサンプルに適用する。 多施設データセットに関する総合的な実験は、FedGIMPの、条件付きモデルに基づくサイト固有およびフェデレーション手法および従来の再構築手法に対する拡張一般化性能を明らかに示している。

Multi-institutional efforts can facilitate training of deep MRI reconstruction models, albeit privacy risks arise during cross-site sharing of imaging data. Federated learning (FL) has recently been introduced to address privacy concerns by enabling distributed training without transfer of imaging data. Existing FL methods for MRI reconstruction employ conditional models to map from undersampled to fully-sampled acquisitions via explicit knowledge of the imaging operator. Since conditional models generalize poorly across different acceleration rates or sampling densities, imaging operators must be fixed between training and testing, and they are typically matched across sites. To improve generalization and flexibility in multi-institutional collaborations, here we introduce a novel method for MRI reconstruction based on Federated learning of Generative IMage Priors (FedGIMP). FedGIMP leverages a two-stage approach: cross-site learning of a generative MRI prior, and subject-specific injection of the imaging operator. The global MRI prior is learned via an unconditional adversarial model that synthesizes high-quality MR images based on latent variables. Specificity in the prior is preserved via a mapper subnetwork that produces site-specific latents. During inference, the prior is combined with subject-specific imaging operators to enable reconstruction, and further adapted to individual test samples by minimizing data-consistency loss. Comprehensive experiments on multi-institutional datasets clearly demonstrate enhanced generalization performance of FedGIMP against site-specific and federated methods based on conditional models, as well as traditional reconstruction methods.
翻訳日:2022-02-10 15:01:11 公開日:2022-02-08
# 大規模言語モデルのデトックス化のためのドメイン適応トレーニングの限界を探る

Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models ( http://arxiv.org/abs/2202.04173v1 )

ライセンス: Link先を確認
Boxin Wang, Wei Ping, Chaowei Xiao, Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Bo Li, Anima Anandkumar, Bryan Catanzaro(参考訳) 事前訓練された言語モデル(LM)は、有害な言語を容易に生成できることが示されている。 本研究では,言語モデルの毒性を軽減するためのドメイン適応トレーニングを体系的に検討する。 本研究は,トレーニングコーパス,モデルサイズ,パラメータ効率の3次元について行った。 トレーニングコーパスでは, LMの生成能力を活用し, 非有害なデータセットを生成し, 被曝バイアスを軽減し, キュレートされた事前学習コーパスよりもデータ効率が高いことを示す。 自己生成法は,3分の1のトレーニングコーパスを用いた場合であっても,自動評価と人的評価の両方において,既存のベースラインを一貫して上回ることを示す。 次に, 従来研究されてきたスケールである, 126Mから530B(GPT-3より3倍大きい)までのパラメータサイズで, 除毒膜を包括的に研究した。 私たちはそれを見つけ 一 大型のLMは、同じ訓練前のコーパスを与えられた小さいものと同様の毒性レベルを有する 二 大きなLMは、解毒により多くの努力を必要とする。 また,デトキシ化のためのパラメータ効率のトレーニング手法についても検討する。 LMにおけるアダプタのみのレイヤーの追加とトレーニングは、多くのパラメータを節約するだけでなく、大規模モデルに対するモデル全体の適応よりも毒性とパープレキシティのトレードオフが優れていることを示す。

Pre-trained language models (LMs) are shown to easily generate toxic language. In this work, we systematically explore domain-adaptive training to reduce the toxicity of language models. We conduct this study on three dimensions: training corpus, model size, and parameter efficiency. For the training corpus, we propose to leverage the generative power of LMs and generate nontoxic datasets for domain-adaptive training, which mitigates the exposure bias and is shown to be more data-efficient than using a curated pre-training corpus. We demonstrate that the self-generation method consistently outperforms the existing baselines across various model sizes on both automatic and human evaluations, even when it uses a 1/3 smaller training corpus. We then comprehensively study detoxifying LMs with parameter sizes ranging from 126M up to 530B (3x larger than GPT-3), a scale that has never been studied before. We find that i) large LMs have similar toxicity levels as smaller ones given the same pre-training corpus, and ii) large LMs require more endeavor to detoxify. We also explore parameter-efficient training methods for detoxification. We demonstrate that adding and training adapter-only layers in LMs not only saves a lot of parameters but also achieves a better trade-off between toxicity and perplexity than whole model adaptation for the large-scale models.
翻訳日:2022-02-10 14:24:24 公開日:2022-02-08
# 生成型マルチタスク学習はターゲット・キャウンド・コンバウンディングを緩和する

Generative multitask learning mitigates target-causing confounding ( http://arxiv.org/abs/2202.04136v1 )

ライセンス: Link先を確認
Taro Makino, Krzysztof Geras, Kyunghyun Cho(参考訳) マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。 提案手法では,既存のMLシステムに最小限の変更を加え,事前の確率シフトに対する堅牢性を向上させる。 改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。 ターゲットカウンセラーコンビナート(target-causing confounders)と呼ぶ。 これらの共同設立者は、入力とターゲットの間に刺激的な依存関係を引き起こす。 これは、従来のマルチタスク学習のアプローチにおいて、入力が条件的に独立であるという仮定から問題となる。 提案手法では,ターゲット間の依存関係を考慮し,ターゲット・カウティングの混同を緩和する。 通常の慣行に加えて必要となるのは、識別から生成的な分類に切り替える対象の同時分布を推定し、すべての対象を共同で予測することである。 人属性とタスクノミーデータセットの結果は,事前確率シフトに対するロバスト性の概念的改善を反映したものである。

We propose a simple and scalable approach to causal representation learning for multitask learning. Our approach requires minimal modification to existing ML systems, and improves robustness to prior probability shift. The improvement comes from mitigating unobserved confounders that cause the targets, but not the input. We refer to them as target-causing confounders. These confounders induce spurious dependencies between the input and targets. This poses a problem for the conventional approach to multitask learning, due to its assumption that the targets are conditionally independent given the input. Our proposed approach takes into account the dependency between the targets in order to alleviate target-causing confounding. All that is required in addition to usual practice is to estimate the joint distribution of the targets to switch from discriminative to generative classification, and to predict all targets jointly. Our results on the Attributes of People and Taskonomy datasets reflect the conceptual improvement in robustness to prior probability shift.
翻訳日:2022-02-10 14:24:02 公開日:2022-02-08
# InferGrad:トレーニングにおける推論を考慮したヴォコーダの拡散モデルの改善

InferGrad: Improving Diffusion Models for Vocoder by Considering Inference in Training ( http://arxiv.org/abs/2202.03751v1 )

ライセンス: Link先を確認
Zehua Chen, Xu Tan, Ke Wang, Shifeng Pan, Danilo Mandic, Lei He, Sheng Zhao(参考訳) 拡散確率モデル(略して拡散モデル)のノイズ化は、しばしば推論速度を遅くする最先端の生成モデルに一致するまたは超える生成品質を達成するために、推論において多くの反復を必要とする。 以前のアプローチでは、数回のイテレーションで推論スケジュールの選択を最適化し、推論をスピードアップすることを目指している。 しかし、これは主に推論プロセスがトレーニングプロセスと共同最適化することなく個別に最適化されるため、生成品質が低下する。 本稿では,推論過程をトレーニングに組み込んだvocoderの拡散モデルであるinfergradを提案する。 より具体的には、トレーニング中、数回のイテレーションで予測スケジュールの逆プロセスを通じてランダムノイズからデータを生成し、生成したデータと地上データとのギャップを最小限に抑えるために損失を課す。 そして、既存のアプローチとは異なり、infergradのトレーニングは推論プロセスを考慮する。 infergradの利点は、ljspeechデータセットの実験を通じて実証され、infergradがベースラインと同じ声質を維持しながら、同じ条件でベースラインのwavegradよりも優れた音声品質を達成していることを示している。

Denoising diffusion probabilistic models (diffusion models for short) require a large number of iterations in inference to achieve the generation quality that matches or surpasses the state-of-the-art generative models, which invariably results in slow inference speed. Previous approaches aim to optimize the choice of inference schedule over a few iterations to speed up inference. However, this results in reduced generation quality, mainly because the inference process is optimized separately, without jointly optimizing with the training process. In this paper, we propose InferGrad, a diffusion model for vocoder that incorporates inference process into training, to reduce the inference iterations while maintaining high generation quality. More specifically, during training, we generate data from random noise through a reverse process under inference schedules with a few iterations, and impose a loss to minimize the gap between the generated and ground-truth data samples. Then, unlike existing approaches, the training of InferGrad considers the inference process. The advantages of InferGrad are demonstrated through experiments on the LJSpeech dataset showing that InferGrad achieves better voice quality than the baseline WaveGrad under same conditions while maintaining the same voice quality as the baseline but with $3$x speedup ($2$ iterations for InferGrad vs $6$ iterations for WaveGrad).
翻訳日:2022-02-10 14:23:19 公開日:2022-02-08
# 悪性黒色腫の検出 : 皮膚病変分類のための皮膚トーン検出と脱バイアス

Detecting Melanoma Fairly: Skin Tone Detection and Debiasing for Skin Lesion Classification ( http://arxiv.org/abs/2202.02832v2 )

ライセンス: Link先を確認
Peter J. Bevan and Amir Atapour-Abarghouei(参考訳) 畳み込みニューラルネットワークはメラノーマおよび他の皮膚病変の分類においてヒトレベルの性能を示したが、異なる皮膚のトーン間の明らかなパフォーマンス格差は、広く展開する前に対処すべきである。 本研究では,ベンチマークとして一般的に使用されるデータセットの皮膚のトーンバイアスを明らかにするために,修正された変分オートエンコーダを利用する。 本稿では,病変画像の皮膚トーンを自動的にラベリングする効率的かつ効果的なアルゴリズムを提案し,ベンチマークisicデータセットにアノテートする。 その後,2つの先導バイアスアンラーニング技術を用いて皮膚トーンバイアスを軽減した。 実験の結果,皮膚トーン検出アルゴリズムが既存のソリューションを上回っており,未学習の皮膚トーンが一般化を改善し,より軽い皮膚トーンと暗い皮膚トーンにおけるメラノーマ検出性能の差を低減できることが示された。

Convolutional Neural Networks have demonstrated human-level performance in the classification of melanoma and other skin lesions, but evident performance disparities between differing skin tones should be addressed before widespread deployment. In this work, we utilise a modified variational autoencoder to uncover skin tone bias in datasets commonly used as benchmarks. We propose an efficient yet effective algorithm for automatically labelling the skin tone of lesion images, and use this to annotate the benchmark ISIC dataset. We subsequently use two leading bias unlearning techniques to mitigate skin tone bias. Our experimental results provide evidence that our skin tone detection algorithm outperforms existing solutions and that unlearning skin tone improves generalisation and can reduce the performance disparity between melanoma detection in lighter and darker skin tones.
翻訳日:2022-02-10 12:42:01 公開日:2022-02-08
# (参考訳) 中等教育における自動推論導入のための4つの幾何学問題

Four Geometry Problems to Introduce Automated Deduction in Secondary Schools ( http://arxiv.org/abs/2202.03566v1 )

ライセンス: CC BY 4.0
Pedro Quaresma (CISUC / Department of Mathematics, University of Coimbra, Portugal), Vanda Santos (CIDTFF / University of Aveiro and CISUC, Portugal)(参考訳) 中学校における自動推論システムの導入はいくつかのボトルネック、カリキュラムにおける厳密な数学的デモンストレーションの対象の欠如、課題に関する教師の知識の欠如、自動的な手段でタスクに取り組むことの難しさに直面している。 このような困難にもかかわらず、学生や教師が操作しやすく、自動推論ツールで処理しやすくすることで、幾何学における自動推論の主題を導入することができると主張している。 この主題は、厳密な証明、視覚的証明、数値的証明、代数的形式的証明、合成的形式的証明、あるいはそれらの欠如という4つの中等学校の幾何学問題に対処することで議論される。 これらの問題に対して,情報通信技術,具体的には自動推論ツールを活用した授業計画について論じる。

The introduction of automated deduction systems in secondary schools face several bottlenecks, the absence of the subject of rigorous mathematical demonstrations in the curricula, the lack of knowledge by the teachers about the subject and the difficulty of tackling the task by automatic means. Despite those difficulties we claim that the subject of automated deduction in geometry can be introduced, by addressing it in particular cases: simple to manipulate by students and teachers and reasonably easy to be dealt by automatic deduction tools. The subject is discussed by addressing four secondary schools geometry problems: their rigorous proofs, visual proofs, numeric proofs, algebraic formal proofs, synthetic formal proofs, or the lack of them. For these problems we discuss a lesson plan to address them with the help of Information and Communications Technology, more specifically, automated deduction tools.
翻訳日:2022-02-10 04:46:32 公開日:2022-02-08
# (参考訳) 3次元低線量顎顔面cbctモデリングのための口腔内スキャンデータによる金属人工物除去

Metal Artifact Reduction with Intra-Oral Scan Data for 3D Low Dose Maxillofacial CBCT Modeling ( http://arxiv.org/abs/2202.03571v1 )

ライセンス: CC BY 4.0
Chang Min Hyun, Taigyntuya Bayaraa, Hye Sun Yun, Tae Jun Jang, Hyoung Suk Park, and Jin Keun Seo(参考訳) 低用量歯科用コーンビームCT(CBCT)は顎顔面のモデリングにますます利用されている。 しかし, インプラント, クラウン, 歯の充填などの金属インサートの存在は, cbct画像における強度の高いストレッチとシェーディングアーティファクトを生じさせ, 歯の形態的構造の喪失を招き, 骨の正確な分節化を防止している。 2段階の金属アーティファクト低減法が提案されている3次元低用量顎顔面cbctモデリングの精度は, 放射線照射を必要としない口腔内スキャンデータから, 歯形事前情報を活用することが重要となる。 第1段階では、金属関連アーティファクトを緩和するために画像と画像の深層学習ネットワークが使用される。 学習能力を向上させるため,提案ネットワークは口腔内スキャンデータをサイドインプットとして活用し,補助歯のセグメンテーションのマルチタスク学習を行うように設計されている。 第2段では、第1段で修正された歯科用CBCT画像から骨を分割して3次元顎顔面モデルを構築する。 正確な骨分節については、口腔内スキャンデータの形状に応じて重み付け領域を決定する重み付けしきい値が適用される。 臨床において, メタルアーティファクトフリーおよびメタルアーティファクト影響を受ける歯科用cbct画像のペアトレーニングデータセットを取得することが困難であるため, cbct物理モデルによる現実的なデータセットの自動生成法を導入する。 3次元低線量顎顔面CBCTモデルにおける口腔内スキャンデータから歯面情報を活用する方法の有効性をシミュレーションおよび臨床実験により明らかにした。

Low-dose dental cone beam computed tomography (CBCT) has been increasingly used for maxillofacial modeling. However, the presence of metallic inserts, such as implants, crowns, and dental filling, causes severe streaking and shading artifacts in a CBCT image and loss of the morphological structures of the teeth, which consequently prevents accurate segmentation of bones. A two-stage metal artifact reduction method is proposed for accurate 3D low-dose maxillofacial CBCT modeling, where a key idea is to utilize explicit tooth shape prior information from intra-oral scan data whose acquisition does not require any extra radiation exposure. In the first stage, an image-to-image deep learning network is employed to mitigate metal-related artifacts. To improve the learning ability, the proposed network is designed to take advantage of the intra-oral scan data as side-inputs and perform multi-task learning of auxiliary tooth segmentation. In the second stage, a 3D maxillofacial model is constructed by segmenting the bones from the dental CBCT image corrected in the first stage. For accurate bone segmentation, weighted thresholding is applied, wherein the weighting region is determined depending on the geometry of the intra-oral scan data. Because acquiring a paired training dataset of metal-artifact-free and metal artifact-affected dental CBCT images is challenging in clinical practice, an automatic method of generating a realistic dataset according to the CBCT physics model is introduced. Numerical simulations and clinical experiments show the feasibility of the proposed method, which takes advantage of tooth surface information from intra-oral scan data in 3D low dose maxillofacial CBCT modeling.
翻訳日:2022-02-10 04:28:12 公開日:2022-02-08
# (参考訳) 胸部X線写真を用いたDense Convolutional Networkを用いた胸部疾患のマルチラベル分類

Multi-Label Classification of Thoracic Diseases using Dense Convolutional Network on Chest Radiographs ( http://arxiv.org/abs/2202.03583v1 )

ライセンス: CC BY 4.0
Dipkamal Bhusal, Dr. Sanjeeb Prasad Panday(参考訳) 胸部X線像は胸部疾患を識別する最も一般的な診断手法の1つである。 しかしながら、X線画像における病理の同定には熟練した人力が必要であり、特に画像のみによる疾患の特定が人目で難しい場合において、解釈のレベルが異なる時間のかかる課題としてしばしば引用される。 近年,画像分類における深層学習の成果により,その病気診断への応用が広く研究されている。 本研究は胸部X線多彩な疾患診断モデルを提案する。 Dense Convolutional Neural Network (DenseNet)を用いて、診断システムは高い分類予測を得ることができた。 このモデルでは、心肥大のAUCスコアが0.896、NoduleのAUCスコアが0.655であった。 また、GRADCAMを用いて各病理の存在を示す胸部X線写真の一部を局所化し、深層学習アルゴリズムのモデル解釈可能性に寄与した。

Chest X-ray images are one of the most common medical diagnosis techniques to identify different thoracic diseases. However, identification of pathologies in X-ray images requires skilled manpower and are often cited as a time-consuming task with varied level of interpretation, particularly in cases where the identification of disease only by images is difficult for human eyes. With recent achievements of deep learning in image classification, its application in disease diagnosis has been widely explored. This research project presents a multi-label disease diagnosis model of chest x-rays. Using Dense Convolutional Neural Network (DenseNet), the diagnosis system was able to obtain high classification predictions. The model obtained the highest AUC score of 0.896 for condition Cardiomegaly and the lowest AUC score for Nodule, 0.655. The model also localized the parts of the chest radiograph that indicated the presence of each pathology using GRADCAM, thus contributing to the model interpretability of a deep learning algorithm.
翻訳日:2022-02-10 04:05:02 公開日:2022-02-08
# (参考訳) 非明視的多クラス能動探索による多変量探索

Nonmyopic Multiclass Active Search for Diverse Discovery ( http://arxiv.org/abs/2202.03593v1 )

ライセンス: CC BY 4.0
Quan Nguyen, Roman Garnett(参考訳) アクティブサーチは適応的な実験設計の舞台であり、予算制約を受ける希少で価値のあるクラスのメンバーを明らかにすることを目的としている。 この問題における重要な考慮事項は、発見対象間の多様性である。多くのアプリケーションでは、多様な発見がより洞察を与え、下流のタスクで好まれる可能性がある。 しかし、既存のアクティブサーチポリシーのほとんどは、全てのターゲットが共通のポジティブクラスに属していると仮定するか、単純なヒューリスティックスを通じて多様性を奨励している。 本稿では,発見者間のラベルの多様性を自然に誘引するユーティリティ関数を特徴とする,複数の対象クラスを持つアクティブサーチの新規な定式化について述べる。 次に,この問題をベイズレンズで研究し,最適方針を近似する硬さを証明した。 最後に,最適方針に対する効率的で非明明な近似を提案し,その優れた経験的性能を創薬を含む幅広い実験場面で実証する。

Active search is a setting in adaptive experimental design where we aim to uncover members of rare, valuable class(es) subject to a budget constraint. An important consideration in this problem is diversity among the discovered targets -- in many applications, diverse discoveries offer more insight and may be preferable in downstream tasks. However, most existing active search policies either assume that all targets belong to a common positive class or encourage diversity via simple heuristics. We present a novel formulation of active search with multiple target classes, characterized by a utility function that naturally induces a preference for label diversity among discoveries via a diminishing returns mechanism. We then study this problem under the Bayesian lens and prove a hardness result for approximating the optimal policy. Finally, we propose an efficient, nonmyopic approximation to the optimal policy and demonstrate its superior empirical performance across a wide variety of experimental settings, including drug discovery.
翻訳日:2022-02-10 03:55:19 公開日:2022-02-08
# (参考訳) 脳白質特徴を用いた健常者における年齢・性別のモデル化と予測:深層学習アプローチ

Model and predict age and sex in healthy subjects using brain white matter features: A deep learning approach ( http://arxiv.org/abs/2202.03595v1 )

ライセンス: CC BY 4.0
Hao He, Fan Zhang, Steve Pieper, Nikos Makris, Yogesh Rathi, William Wells III, Lauren J. O'Donnell(参考訳) 人間の脳のホワイトマター(WM)構造は科学界にとって大きな関心事である。 拡散MRIは、脳のWM構造を非侵襲的に記述する強力なツールを提供する。 脳のコネクトームと健康な被験者の年齢と性別のマッピングにおける性別関連脳構造の違いのモニタリングを可能にするために、我々は、繊維クラスターによる拡散の特徴を抽出し、新しいアンサンブルニューラルネットワーク分類器を用いて性別と年齢を予測する。 我々は,Human Connectome Project (HCP) の若年成人データセットの実験を行い,性別予測では94.82%,年齢予測では2.51歳MAEを達成した。 また、分画異方性(FA)が性で最も予測的であり、繊維の数が最も年齢の予測的であり、異なる特徴の組み合わせによってモデルの性能が向上することを示した。

The human brain's white matter (WM) structure is of immense interest to the scientific community. Diffusion MRI gives a powerful tool to describe the brain WM structure noninvasively. To potentially enable monitoring of age-related changes and investigation of sex-related brain structure differences on the mapping between the brain connectome and healthy subjects' age and sex, we extract fiber-cluster-based diffusion features and predict sex and age with a novel ensembled neural network classifier. We conduct experiments on the Human Connectome Project (HCP) young adult dataset and show that our model achieves 94.82% accuracy in sex prediction and 2.51 years MAE in age prediction. We also show that the fractional anisotropy (FA) is the most predictive of sex, while the number of fibers is the most predictive of age and the combination of different features can improve the model performance.
翻訳日:2022-02-10 03:34:36 公開日:2022-02-08
# (参考訳) MOST-Net:顔スケッチ合成のためのメモリ指向スタイル転送ネットワーク

MOST-Net: A Memory Oriented Style Transfer Network for Face Sketch Synthesis ( http://arxiv.org/abs/2202.03596v1 )

ライセンス: CC BY 4.0
Fan Ji, Muyi Sun, Xingqun Qi, Qi Li, Zhenan Sun(参考訳) 顔のスケッチ合成はマルチメディアエンターテイメントや法執行機関で広く使われている。 最近のディープニューラルネットワークの発展にもかかわらず、人間の顔の多様性と複雑さのために、正確で現実的な顔スケッチ合成は依然として難しい課題である。 現在の画像から画像への変換に基づく顔のスケッチ合成は、小規模データセットに関して、しばしば過剰フィッティングの問題に遭遇する。 この問題に対処するため、顔スケッチ合成のためのエンドツーエンドメモリ指向スタイル転送ネットワーク(MOST-Net)を提案し、限られたデータで高忠実なスケッチを生成する。 具体的には、ドメインアライメントの知識を長期的に捉えるために、外部の自己教師付き動的メモリモジュールを導入する。 このようにして,提案モデルでは,顔と対応するスケッチ間の耐久性のある関係を特徴レベルで確立することで,ドメイン転送能力を得ることができた。 さらに,メモリモジュールの機能アライメントのための新たなメモリ精細化損失(mr損失)を設計し,教師なし方式でメモリスロットの精度を向上させる。 CUFSとCUFSFデータセットの大規模な実験により、MOST-Netは、特に構造類似度指数(SSIM)の観点から、最先端のパフォーマンスを達成することが示された。

Face sketch synthesis has been widely used in multi-media entertainment and law enforcement. Despite the recent developments in deep neural networks, accurate and realistic face sketch synthesis is still a challenging task due to the diversity and complexity of human faces. Current image-to-image translation-based face sketch synthesis frequently encounters over-fitting problems when it comes to small-scale datasets. To tackle this problem, we present an end-to-end Memory Oriented Style Transfer Network (MOST-Net) for face sketch synthesis which can produce high-fidelity sketches with limited data. Specifically, an external self-supervised dynamic memory module is introduced to capture the domain alignment knowledge in the long term. In this way, our proposed model could obtain the domain-transfer ability by establishing the durable relationship between faces and corresponding sketches on the feature level. Furthermore, we design a novel Memory Refinement Loss (MR Loss) for feature alignment in the memory module, which enhances the accuracy of memory slots in an unsupervised manner. Extensive experiments on the CUFS and the CUFSF datasets show that our MOST-Net achieves state-of-the-art performance, especially in terms of the Structural Similarity Index(SSIM).
翻訳日:2022-02-10 03:24:55 公開日:2022-02-08
# (参考訳) ディープラーニングの一般化を効果的に改善するグラディエントノルムの罰則

Penalizing Gradient Norm for Efficiently Improving Generalization in Deep Learning ( http://arxiv.org/abs/2202.03599v1 )

ライセンス: CC BY 4.0
Yang Zhao, Hao Zhang and Xiuyuan Hu(参考訳) ディープニューラルネットワーク(dnn)をうまく一般化するためにどのようにトレーニングするかは、ディープラーニングの中心的な関心事である。 本稿では、最適化時の損失関数の勾配ノルムを加味してモデル一般化を改善する効果的な方法を提案する。 損失関数の勾配ノルムを限定することで、最適化者が平坦な最小値を見つけるのに役立つことを実証する。 我々は1次近似を利用して対応する勾配を効率よく実装し、勾配降下フレームワークに適合する。 実験では,本手法を用いることで,異なるデータセット上での各種モデルの一般化性能が向上できることを確認した。 また,最近のシャープネスを意識した最小化手法である \cite{dblp:conf/iclr/foretkmn21} は特別なものであるが,本手法の最良の場合がこれらのタスクに新たな最先端性能をもたらすことを示す。

How to train deep neural networks (DNNs) to generalize well is a central concern in deep learning, especially for severely overparameterized networks nowadays. In this paper, we propose an effective method to improve the model generalization by additionally penalizing the gradient norm of loss function during optimization. We demonstrate that confining the gradient norm of loss function could help lead the optimizers towards finding flat minima. We leverage the first-order approximation to efficiently implement the corresponding gradient to fit well in the gradient descent framework. In our experiments, we confirm that when using our methods, generalization performance of various models could be improved on different datasets. Also, we show that the recent sharpness-aware minimization method \cite{DBLP:conf/iclr/ForetKMN21} is a special, but not the best, case of our method, where the best case of our method could give new state-of-art performance on these tasks.
翻訳日:2022-02-10 03:12:48 公開日:2022-02-08
# (参考訳) HistBERT:Diachronic Lexical Semantic Analysisのための事前学習型言語モデル

HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic Analysis ( http://arxiv.org/abs/2202.03612v1 )

ライセンス: CC BY 4.0
Wenjun Qiu, Yang Xu(参考訳) 文脈化された単語埋め込みは、歴史的意味変化に関するものを含む様々な自然言語処理タスクにおいて最先端のパフォーマンスを示している。 しかし、BERTのような言語モデルは、主に現代のコーパスデータに基づいて訓練された。 過去のコーパスデータによるトレーニングがダイアクロニック・セマンティック・アナリティクスを改善するかどうかを検討するため, 従来のアメリカ英語コーパスをトレーニングしたBERTベースの言語モデルHistBERTを提案する。 提案手法の有効性を,元のBERTとHistBERTの性能を比較して検討し,単語の類似性および意味変化解析における有望な結果を報告する。 本研究は,ダイアクロニック意味解析における文脈埋め込みの有効性が入力テキストの時間的プロファイルに依存することを示唆し,この手法を歴史的意味変化の研究に応用すべきである。

Contextualized word embeddings have demonstrated state-of-the-art performance in various natural language processing tasks including those that concern historical semantic change. However, language models such as BERT was trained primarily on contemporary corpus data. To investigate whether training on historical corpus data improves diachronic semantic analysis, we present a pre-trained BERT-based language model, HistBERT, trained on the balanced Corpus of Historical American English. We examine the effectiveness of our approach by comparing the performance of the original BERT and that of HistBERT, and we report promising results in word similarity and semantic shift analysis. Our work suggests that the effectiveness of contextual embeddings in diachronic semantic analysis is dependent on the temporal profile of the input text and care should be taken in applying this methodology to study historical semantic change.
翻訳日:2022-02-10 02:58:00 公開日:2022-02-08
# (参考訳) 自然言語生成における幻覚の実態調査

Survey of Hallucination in Natural Language Generation ( http://arxiv.org/abs/2202.03629v1 )

ライセンス: CC BY 4.0
Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Andrea Madotto, Pascale Fung(参考訳) 自然言語生成(NLG)は、トランスフォーマーベースの言語モデルのようなディープラーニング技術の開発により、近年指数関数的に改善されている。 この進歩は、より流動的で一貫性のある自然言語生成をもたらし、自然に抽象的な要約、対話生成、データ-テキスト生成といった下流タスクの開発に繋がる。 しかし、このような生成には幻覚テキストが含まれており、多くの現実シナリオにおいて、テキスト生成の性能がユーザの期待に届かないようにしている。 この問題に対処するため,幻覚の評価・緩和方法の研究は様々な課題で提示されてきたが,総合的な検討は行われていない。 本調査では,NLGの幻覚問題における研究の進展と課題について概説する。 調査は2つの大きな部門に分けられる。 (i) メトリクス、緩和方法、今後の方向性の概観 (ii)抽象的要約,対話生成,生成的質問応答,テキスト間データ生成,機械翻訳など,ダウンストリームタスクの幻覚に対するタスク固有研究の進展 この調査は、これらのタスクにおける研究者の協力を促進する可能性がある。

Natural Language Generation (NLG) has improved exponentially in recent years thanks to the development of deep learning technologies such as Transformer-based language models. This advancement has led to more fluent and coherent natural language generation, naturally leading to development in downstream tasks such as abstractive summarization, dialogue generation and data-to-text generation. However, it is also investigated that such generation includes hallucinated texts, which makes the performances of text generation fail to meet users' expectations in many real-world scenarios. In order to address this issue, studies in evaluation and mitigation methods of hallucinations have been presented in various tasks, but have not been reviewed in a combined manner. In this survey, we provide a broad overview of the research progress and challenges in the hallucination problem of NLG. The survey is organized into two big divisions: (i) a general overview of metrics, mitigation methods, and future directions; (ii) task-specific research progress for hallucinations in a large set of downstream tasks: abstractive summarization, dialogue generation, generative question answering, data-to-text generation, and machine translation. This survey could facilitate collaborative efforts among researchers in these tasks.
翻訳日:2022-02-10 02:46:52 公開日:2022-02-08
# (参考訳) ECRECer:マルチエージェントデュアルコア学習に基づく酵素委員会番号勧告とベンチマーク

ECRECer: Enzyme Commission Number Recommendation and Benchmarking based on Multiagent Dual-core Learning ( http://arxiv.org/abs/2202.03632v1 )

ライセンス: CC BY 4.0
Zhenkun Shi, Qianqian Yuan, Ruoyu Wang, Hoaran Li, Xiaoping Liao, Hongwu Ma(参考訳) 酵素委員会(EC)の番号は、タンパク質配列とそれが触媒する生化学反応を関連付けるもので、酵素機能と細胞代謝の正確な理解に不可欠である。 多くのab-initio計算手法が与えられた入力シーケンスのEC数値を直接予測するために提案された。 しかし、既存の手法の予測性能(正確性、リコール、精度)、ユーザビリティ、効率性は、まだ改善の余地がたくさんある。 本稿では,新しいディープラーニング技術に基づいてEC数値を正確に予測するクラウドプラットフォームであるECRECerについて報告する。 ECRECerを構築するために、異なるタンパク質表現法を評価し、タンパク質配列の埋め込みにタンパク質言語モデルを採用する。 組込み後,提案したタスクをマルチタスクで学習するマルチエージェント階層型ディープラーニングフレームワークを提案する。 具体的には、極端に多ラベルの分類器を用いてEC予測を行い、最終的なモデルを統合・微調整するために欲求戦略を用いた。 4つの代表的な手法に対する比較分析の結果、ecrecerは最も高いパフォーマンスをもたらし、その結果、精度が向上し、f1スコアは最先端よりも70%と20%向上した。 ECRECerでは、不完全なEC番号をフル4レベルとするスイスプロデータベースに多数の酵素をアノテートすることができる。 UniPort タンパク質 "A0A0U5GJ41" を例に(1.14.---)、ECRECer は AlphaFold2 に基づくさらなるタンパク質構造解析を裏付ける "1.14.11.38" でアノテートした。 最後に、webサーバ(https://ecrecer.biodesign.ac.cn)を確立し、ユーザビリティを向上させるためにオフラインバンドルを提供しました。

Enzyme Commission (EC) numbers, which associate a protein sequence with the biochemical reactions it catalyzes, are essential for the accurate understanding of enzyme functions and cellular metabolism. Many ab-initio computational approaches were proposed to predict EC numbers for given input sequences directly. However, the prediction performance (accuracy, recall, precision), usability, and efficiency of existing methods still have much room to be improved. Here, we report ECRECer, a cloud platform for accurately predicting EC numbers based on novel deep learning techniques. To build ECRECer, we evaluate different protein representation methods and adopt a protein language model for protein sequence embedding. After embedding, we propose a multi-agent hierarchy deep learning-based framework to learn the proposed tasks in a multi-task manner. Specifically, we used an extreme multi-label classifier to perform the EC prediction and employed a greedy strategy to integrate and fine-tune the final model. Comparative analyses against four representative methods demonstrate that ECRECer delivers the highest performance, which improves accuracy and F1 score by 70% and 20% over the state-of-the-the-art, respectively. With ECRECer, we can annotate numerous enzymes in the Swiss-Prot database with incomplete EC numbers to their full fourth level. Take UniPort protein "A0A0U5GJ41" as an example (1.14.-.-), ECRECer annotated it with "1.14.11.38", which supported by further protein structure analysis based on AlphaFold2. Finally, we established a webserver (https://ecrecer.biodesign.ac.cn) and provided an offline bundle to improve usability.
翻訳日:2022-02-10 02:45:57 公開日:2022-02-08
# (参考訳) ブール観察ゲーム

Boolean Observation Games ( http://arxiv.org/abs/2202.03637v1 )

ライセンス: CC BY 4.0
Hans van Ditmarsch and Sunil Simon(参考訳) 本稿では,不完全な情報と定性的目的を持つマルチプレイヤー有限戦略ゲームサブクラスであるBoolean Observation Gamesを紹介する。 ブール観測ゲームでは、各プレイヤーは有限な命題変数の集合に関連付けられ、その値だけを観測でき、誰がその値を明らかにすることができるかを制御する。 変数の与えられた、固定された値を制御しない。 ブール観察ゲーム(boolean observation games)は、ブールゲーム(boolean games)の一般化であり、戦略ゲームの熟達したサブクラスであるが、完全な情報を持ち、各プレイヤーがその変数の値を制御する。 ブール観察ゲームでは、プレイヤーのゴールは変数のマルチエージェント知識を記述する。 古典的な戦略ゲームと同様に、プレイヤーは戦略を同時に選ぶため、観察ゲームは不完全な情報と不完全な情報の両面を捉えている。 変数の区別不能な評価の集合が与えられた結果の集合について推論する必要がある。 ナッシュ均衡が何であるかは、そのような集合間の結果関係に依存する。 我々は, ポスト平衡の定性的変種を含む, 様々な結果関係を示す。 結果関係が与えられた場合,nash平衡が存在することが保証される条件を特定する。 また,戦略プロファイルがnash平衡であるかどうかの検証やnash平衡の存在の検証の複雑さについても検討した。 さらに,'knowing whether'目標式を用いてブール観測ゲームのサブクラスについて検討し,満足度は変数の値に依存しないことを示した。 それぞれのブール観測ゲームがブールゲームに対応し、その逆も異なる対応によって対応し、どちらの対応もナッシュ平衡の存在という点で正確であることを示す。

We introduce Boolean Observation Games, a subclass of multi-player finite strategic games with incomplete information and qualitative objectives. In Boolean observation games, each player is associated with a finite set of propositional variables of which only it can observe the value, and it controls whether and to whom it can reveal that value. It does not control the given, fixed, value of variables. Boolean observation games are a generalization of Boolean games, a well-studied subclass of strategic games but with complete information, and wherein each player controls the value of its variables. In Boolean observation games player goals describe multi-agent knowledge of variables. As in classical strategic games, players choose their strategies simultaneously and therefore observation games capture aspects of both imperfect and incomplete information. They require reasoning about sets of outcomes given sets of indistinguishable valuations of variables. What a Nash equilibrium is, depends on an outcome relation between such sets. We present various outcome relations, including a qualitative variant of ex-post equilibrium. We identify conditions under which, given an outcome relation, Nash equilibria are guaranteed to exist. We also study the complexity of checking for the existence of Nash equilibria and of verifying if a strategy profile is a Nash equilibrium. We further study the subclass of Boolean observation games with `knowing whether' goal formulas, for which the satisfaction does not depend on the value of variables. We show that each such Boolean observation game corresponds to a Boolean game and vice versa, by a different correspondence, and that both correspondences are precise in terms of existence of Nash equilibria.
翻訳日:2022-02-10 02:44:34 公開日:2022-02-08
# (参考訳) 多変量時系列データにおける異常検出のためのコントラスト予測符号化

Contrastive predictive coding for Anomaly Detection in Multi-variate Time Series Data ( http://arxiv.org/abs/2202.03639v1 )

ライセンス: CC BY 4.0
Theivendiram Pranavan, Terence Sim, Arulmurugan Ambikapathi, Savitha Ramasamy(参考訳) 多変量時系列(MVTS)データの異常検出は、長期的時間的依存関係と複数の変数間の相関の同時表現を必要とするため、大きな課題である。 より頻繁に、一つの依存関係を一度にモデリングすることで複雑さを壊すことでこの問題を解決します。 本稿では,MVTSデータにおける異常検出に向けて,Contrastive Predictive Coding (TRL-CPC) を用いた時系列表現学習を提案する。 まず,エンコーダ,自動回帰器,非線形変換関数を共同で最適化し,MVTSデータセットの表現を効果的に学習し,今後のトレンドを予測する。 コンテキストベクトルは、mtvの観測ウィンドウの代表的なものであることに注意する必要がある。 次に、これらの文脈ベクトルの非線形変換によって得られる後続の瞬間に対する潜時表現は、正の対の密度が最大になるような多変数に対するエンコーダの潜時表現と対比される。 したがって、TRL-CPCは、健全な信号パターンに対するパラメータの時間的依存関係と相関をモデル化するのに役立つ。 最後に、潜在表現をガウススコアリング関数に適合させて異常を検出する。 SOTA異常検出法に対する3つのMVTSデータセットに対するTRL-CPCの評価は,TRL-CPCの優位性を示している。

Anomaly detection in multi-variate time series (MVTS) data is a huge challenge as it requires simultaneous representation of long term temporal dependencies and correlations across multiple variables. More often, this is solved by breaking the complexity through modeling one dependency at a time. In this paper, we propose a Time-series Representational Learning through Contrastive Predictive Coding (TRL-CPC) towards anomaly detection in MVTS data. First, we jointly optimize an encoder, an auto-regressor and a non-linear transformation function to effectively learn the representations of the MVTS data sets, for predicting future trends. It must be noted that the context vectors are representative of the observation window in the MTVS. Next, the latent representations for the succeeding instants obtained through non-linear transformations of these context vectors, are contrasted with the latent representations of the encoder for the multi-variables such that the density for the positive pair is maximized. Thus, the TRL-CPC helps to model the temporal dependencies and the correlations of the parameters for a healthy signal pattern. Finally, fitting the latent representations are fit into a Gaussian scoring function to detect anomalies. Evaluation of the proposed TRL-CPC on three MVTS data sets against SOTA anomaly detection methods shows the superiority of TRL-CPC.
翻訳日:2022-02-10 02:43:26 公開日:2022-02-08
# (参考訳) Causal Scene BERT: 挑戦的なデータのグループ探索によるオブジェクト検出の改善

Causal Scene BERT: Improving object detection by searching for challenging groups of data ( http://arxiv.org/abs/2202.03651v1 )

ライセンス: CC BY 4.0
Cinjon Resnick, Or Litany, Amlan Kar, Karsten Kreis, James Lucas, Kyunghyun Cho, Sanja Fidler(参考訳) 現代のコンピュータビジョンアプリケーションは、オブジェクト検出のようなタスクのためにニューラルネットワークでパラメータ化された学習ベースの知覚モジュールに依存している。 これらのモジュールは、トレーニングプロセスに固有のバイアスのため、予想される誤差が低いが、データの非定型的なグループに対して高い誤差を持つことが多い。 自律走行車(AV)の構築において、認識モジュールはシステム全体の性能に不可欠であるため、この問題は特に重要な課題である。 AVの障害を特定した後、人間チームは関連するデータをマージして、共通の原因を共有するグループ認識障害を発生させる。 これらのグループからより多くのデータが収集され、問題を修正するためにモデルを再トレーニングする前に注釈付けされる。 言い換えると、エラー群が発見され、後から対処される。 本研究の主な貢献は,シミュレーションシーンで因果的介入を行うことで,このような群を先見的に発見する擬似自動的手法である。 データ多様体への介入を維持するために、マスキング言語モデルを利用する。 また,これらのグループから収集したデータを用いて再トレーニングを行うことは,より多くの iid データを追加することに比べ,無秩序に有用であることを示す。 また、シミュレーションされたシーンで介入を実行するソフトウェアをリリースする予定です。

Modern computer vision applications rely on learning-based perception modules parameterized with neural networks for tasks like object detection. These modules frequently have low expected error overall but high error on atypical groups of data due to biases inherent in the training process. In building autonomous vehicles (AV), this problem is an especially important challenge because their perception modules are crucial to the overall system performance. After identifying failures in AV, a human team will comb through the associated data to group perception failures that share common causes. More data from these groups is then collected and annotated before retraining the model to fix the issue. In other words, error groups are found and addressed in hindsight. Our main contribution is a pseudo-automatic method to discover such groups in foresight by performing causal interventions on simulated scenes. To keep our interventions on the data manifold, we utilize masked language models. We verify that the prioritized groups found via intervention are challenging for the object detector and show that retraining with data collected from these groups helps inordinately compared to adding more IID data. We also plan to release software to run interventions in simulated scenes, which we hope will benefit the causality community.
翻訳日:2022-02-10 02:34:12 公開日:2022-02-08
# (参考訳) 超球面高調波による線形時間カーネル行列近似

Linear Time Kernel Matrix Approximation via Hyperspherical Harmonics ( http://arxiv.org/abs/2202.03655v1 )

ライセンス: CC BY 4.0
John Paul Ryan and Anil Damle(参考訳) 機械学習のカーネル手法で発生する行列の低ランク近似を構築するための新しい手法を提案する。 提案手法は,基礎となるカーネル関数の新たな解析拡張とデータ依存圧縮ステップを組み合わせることで近似をさらに最適化する。 この手順は線形時間に作用し、任意の等方性核に適用できる。 さらに, ランクを入力として受け入れる一般的な手法とは対照的に, 所望のエラー許容度を入力として受け入れる。 実験の結果,提案手法は,与えられたランクの精度と,与えられた精度の計算時間の両方に関して,カーネル,次元,データセットにまたがってよく用いられるNystrom法と比較した。 特に、これらの問題設定の多くにおいて、我々のアプローチは最適に近い低ランク近似を生成する。 理論的開発と実験結果を補完する新しい技術の効率的なオープンソース実装を提供する。

We propose a new technique for constructing low-rank approximations of matrices that arise in kernel methods for machine learning. Our approach pairs a novel automatically constructed analytic expansion of the underlying kernel function with a data-dependent compression step to further optimize the approximation. This procedure works in linear time and is applicable to any isotropic kernel. Moreover, our method accepts the desired error tolerance as input, in contrast to prevalent methods which accept the rank as input. Experimental results show our approach compares favorably to the commonly used Nystrom method with respect to both accuracy for a given rank and computational time for a given accuracy across a variety of kernels, dimensions, and datasets. Notably, in many of these problem settings our approach produces near-optimal low-rank approximations. We provide an efficient open-source implementation of our new technique to complement our theoretical developments and experimental results.
翻訳日:2022-02-10 02:30:47 公開日:2022-02-08
# (参考訳) 強化学習における微分可能な品質多様性の勾配近似

Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning ( http://arxiv.org/abs/2202.03666v1 )

ライセンス: CC BY 4.0
Bryon Tjanaka, Matthew C. Fontaine, Julian Togelius, Stefanos Nikolaidis(参考訳) 損傷に適応しなければならない歩行エージェントを考える。 この課題に対処するために、ポリシーの集合を訓練し、損傷した場合に適切なポリシーを選択する。 このコレクションのトレーニングは品質多様性(qd)の最適化問題と見なされ、一連の指標(測定可能な特性)にまたがって目標を最大化(前進)する解(政治)を探索する。 近年の研究では、目標値と測度に正確な勾配が利用できる場合、微分品質多様性(DQD)アルゴリズムがQD最適化を大幅に加速していることが示されている。 しかし、そのような勾配は通常、微分不可能な環境のためにRL設定では利用できない。 dqdをrl設定に適用するために,進化戦略とアクタ-クリティック手法を用いて,目標を近似し,勾配を測定することを提案する。 我々はDQDアルゴリズムCMA-MEGAの2つの変種を開発し、それぞれ異なる勾配近似を持ち、それらを4つのシミュレーション歩行タスクで評価する。 1つの変種は2つのタスクで最先端のPGA-MAP-Elitesと同等のパフォーマンス(QDスコア)を達成する。 他の変種は全てのタスクで比較可能であるが、2つのタスクでPGA-MAP-Elitesよりも効率が低い。 これらの結果は、目的の厳密な最適化と正確な勾配が利用できない領域におけるCMA-MEGAの限界についての洞察を与える。

Consider a walking agent that must adapt to damage. To approach this task, we can train a collection of policies and have the agent select a suitable policy when damaged. Training this collection may be viewed as a quality diversity (QD) optimization problem, where we search for solutions (policies) which maximize an objective (walking forward) while spanning a set of measures (measurable characteristics). Recent work shows that differentiable quality diversity (DQD) algorithms greatly accelerate QD optimization when exact gradients are available for the objective and measures. However, such gradients are typically unavailable in RL settings due to non-differentiable environments. To apply DQD in RL settings, we propose to approximate objective and measure gradients with evolution strategies and actor-critic methods. We develop two variants of the DQD algorithm CMA-MEGA, each with different gradient approximations, and evaluate them on four simulated walking tasks. One variant achieves comparable performance (QD score) with the state-of-the-art PGA-MAP-Elites in two tasks. The other variant performs comparably in all tasks but is less efficient than PGA-MAP-Elites in two tasks. These results provide insight into the limitations of CMA-MEGA in domains that require rigorous optimization of the objective and where exact gradients are unavailable.
翻訳日:2022-02-10 02:10:35 公開日:2022-02-08
# (参考訳) 1-vs-all分類器を用いた校正学習

Calibrated Learning to Defer with One-vs-All Classifiers ( http://arxiv.org/abs/2202.03673v1 )

ライセンス: CC BY 4.0
Rajeev Verma, Eric Nalisnick(参考訳) 遅延学習(L2D)フレームワークは、AIシステムをより安全にする可能性がある。 ある入力に対して、このシステムは、人間が正しい行動を取るモデルよりも可能性の高い場合、その決定を人間に延期することができる。 本研究では,L2Dシステムのキャリブレーションについて検討し,出力する確率が健全かどうかを検討した。 我々は、mozannar & sontag (2020)のマルチクラスフレームワークが専門家の正確性に関して調整されていないことを発見した。 さらに、この目的のためにパラメータ化が縮退しているため、有効な確率を生成することさえ保証されていない。 本稿では, 1-vs-all分類器をベースとしたL2Dシステムを提案する。 さらに、この損失関数は Mozannar & Sontag's (2020) のような多クラスL2Dに対する一貫したサロゲートでもある。 私たちの実験では、システムの校正だけでなく、このメリットも正確性にコストがかかりません。 我々のモデルの精度は、ヘイトスピーチ検出から銀河分類、皮膚病変の診断に至るまでのタスクにおけるMozannar & Sontag(2020)モデルと常に同等(そしてしばしば優れている)である。

The learning to defer (L2D) framework has the potential to make AI systems safer. For a given input, the system can defer the decision to a human if the human is more likely than the model to take the correct action. We study the calibration of L2D systems, investigating if the probabilities they output are sound. We find that Mozannar & Sontag's (2020) multiclass framework is not calibrated with respect to expert correctness. Moreover, it is not even guaranteed to produce valid probabilities due to its parameterization being degenerate for this purpose. We propose an L2D system based on one-vs-all classifiers that is able to produce calibrated probabilities of expert correctness. Furthermore, our loss function is also a consistent surrogate for multiclass L2D, like Mozannar & Sontag's (2020). Our experiments verify that not only is our system calibrated, but this benefit comes at no cost to accuracy. Our model's accuracy is always comparable (and often superior) to Mozannar & Sontag's (2020) model's in tasks ranging from hate speech detection to galaxy classification to diagnosis of skin lesions.
翻訳日:2022-02-10 01:41:16 公開日:2022-02-08
# (参考訳) 新しい物体との深部活動特徴識別性に関するネットワーク比較

Network Comparison Study of Deep Activation Feature Discriminability with Novel Objects ( http://arxiv.org/abs/2202.03695v1 )

ライセンス: CC BY-SA 4.0
Michael Karnes, Alper Yilmaz(参考訳) 特徴抽出はコンピュータビジョン分野において常に重要な要素である。 最近では、最先端のコンピュータビジョンアルゴリズムがDeep Neural Networks(DNN)を機能抽出ロールに組み込んで、Deep Convolutional Activation Features(DeCAF)を作成している。 DNN知識ドメインの転送可能性により、新しいオブジェクトクラス、特に限られたトレーニングデータを持つアプリケーションにおいて、事前訓練済みのDNN特徴抽出が広く利用できるようになった。 本研究では,視覚認識dnnアーキテクチャの先駆的6つのdecaf空間に符号化された新しい物体の視覚的外観の一般識別性を分析する。 本研究は,2つの視覚オブジェクト追跡ベンチマークデータセットを横断するデカフ対象多様体間のマハラノビス距離とコサイン類似性を特徴付ける。 各オブジェクトを取り巻く背景は、多様体解析においてオブジェクトクラスとして含まれ、より広い範囲の新しいクラスを提供する。 本研究では、異なるネットワークアーキテクチャがネットワーク選択プロセスにおいて考慮すべき異なるネットワーク機能に繋がることを示した。 これらの結果は、VOT2015とUAV123ベンチマークデータセットから生成されるが、提案手法は、ラベル付きビジュアルデータセットのネットワーク性能特性を効率的に比較するために有効である。

Feature extraction has always been a critical component of the computer vision field. More recently, state-of-the-art computer visions algorithms have incorporated Deep Neural Networks (DNN) in feature extracting roles, creating Deep Convolutional Activation Features (DeCAF). The transferability of DNN knowledge domains has enabled the wide use of pretrained DNN feature extraction for applications with novel object classes, especially those with limited training data. This study analyzes the general discriminability of novel object visual appearances encoded into the DeCAF space of six of the leading visual recognition DNN architectures. The results of this study characterize the Mahalanobis distances and cosine similarities between DeCAF object manifolds across two visual object tracking benchmark data sets. The backgrounds surrounding each object are also included as an object classes in the manifold analysis, providing a wider range of novel classes. This study found that different network architectures led to different network feature focuses that must to be considered in the network selection process. These results are generated from the VOT2015 and UAV123 benchmark data sets; however, the proposed methods can be applied to efficiently compare estimated network performance characteristics for any labeled visual data set.
翻訳日:2022-02-10 01:12:40 公開日:2022-02-08
# (参考訳) 予算コンビネート型多腕バンディット

Budgeted Combinatorial Multi-Armed Bandits ( http://arxiv.org/abs/2202.03704v1 )

ライセンス: CC BY 4.0
Debojit Das, Shweta Jain, Sujit Gujar(参考訳) 各ラウンドにおいて、アルゴリズムは1つ以上のアームからなるスーパーアームを選択する。 目標は、限られた予算内ですべてのラウンドを終えて、期待される総後悔を最小限に抑えることだ。 この文献の既存の技術は、1ラウンドあたりの予算を固定するか、各ラウンドで引き出された武器の数を固定する。 我々の設定はより一般的であり、残りの予算と残りのラウンド数に基づいて、アルゴリズムは各ラウンドで何個のアームを引くかを決定することができる。 まず, CBwK-Greedy-UCBアルゴリズムを提案する。 次に,この問題を単一プルでKnapsacks (BwK) を用いた Bandits に還元する手法を提案する。 そこで本研究ではPrimalDualBwKを用いたCBwK-LPUCBを提案する。 我々はCBwK-LP-UCBに対する後悔の限界を厳格に証明する。 2つのアルゴリズムを実験的に比較し,CBwK-Greedy-UCBがCBwK-LP-UCBよりも漸進的に優れた性能を発揮することを示した。 また、非常に高い予算で、後悔はゼロになることも示しています。

We consider a budgeted combinatorial multi-armed bandit setting where, in every round, the algorithm selects a super-arm consisting of one or more arms. The goal is to minimize the total expected regret after all rounds within a limited budget. Existing techniques in this literature either fix the budget per round or fix the number of arms pulled in each round. Our setting is more general where based on the remaining budget and remaining number of rounds, the algorithm can decide how many arms to be pulled in each round. First, we propose CBwK-Greedy-UCB algorithm, which uses a greedy technique, CBwK-Greedy, to allocate the arms to the rounds. Next, we propose a reduction of this problem to Bandits with Knapsacks (BwK) with a single pull. With this reduction, we propose CBwK-LPUCB that uses PrimalDualBwK ingeniously. We rigorously prove regret bounds for CBwK-LP-UCB. We experimentally compare the two algorithms and observe that CBwK-Greedy-UCB performs incrementally better than CBwK-LP-UCB. We also show that for very high budgets, the regret goes to zero.
翻訳日:2022-02-10 01:01:04 公開日:2022-02-08
# (参考訳) Cyrus 2D Simulation Team Description Paper 2016

Cyrus 2D Simulation Team Description Paper 2016 ( http://arxiv.org/abs/2202.03726v1 )

ライセンス: CC0 1.0
Nader Zare and Ashkan Keshavarzi and Seyed Ehsan Beheshtian and Hadi Mowla and Aryan Akbarpour and Hossein Jafari and Keyvan Arab Baraghi and Mohammad Amin Zarifi and Reza Javidan(参考訳) この説明には、アルゴリズムと、Cyrusチームメンバーによって実装されているアルゴリズムの説明が含まれている。 この説明の目的は、シューティング、ブロック、マーク、防御的決定について、簡潔な説明をすることである。 実装された部分についても説明している。 サイラスが使ったベースコードは エージェント3.11です

This description includes some explanation about algorithms and also algorithms that are being implemented by Cyrus team members. The objectives of this description are to express a brief explanation about shoot, block, mark and defensive decision will be given. It also explained about the parts that has been implemented. The base code that Cyrus used is agent 3.11.
翻訳日:2022-02-10 00:42:50 公開日:2022-02-08
# (参考訳) 重み付けは有害である:多目的探索型ソフトウェア工学におけるパレート検索と重み付け検索

The Weights can be Harmful: Pareto Search versus Weighted Search in Multi-Objective Search-Based Software Engineering ( http://arxiv.org/abs/2202.03728v1 )

ライセンス: CC BY 4.0
Tao Chen and Miqing Li(参考訳) 検索ベースソフトウェア工学(SBSE)において最適化される複数の目的が存在するため、パレート検索は一般的に採用されている。 問題のpareto最適解のよい近似を探索し、そこから利害関係者が好みに応じて最も望ましい解を選ぶ。 しかし、探索の前に利害関係者の明確な選好(例えば、目的間の相対的な重要性を反映した重み)が利用可能である場合、加重探索は、元の多目的問題を単一目的に変換して探索を単純化し、利害関係者のみに焦点を合わせることができるため、第一選択であると考えられている。 本稿では,このような「重み付け探索優先」の信念に疑問を呈する。 重みは,明確な選好が存在する場合でも,実際に検索プロセスに有害であることが示された。 具体的には,3つの代表的なsbse問題から38のシステム/プロジェクトと,2種類の検索予算と9種類の重み付けからなる大規模実証研究を行い,604例の比較を行った。 私たちの重要な発見は、重み付き検索は、検索の初期段階で比較的少ないリソースを消費することで、あるレベルのソリューション品質に達することですが、pareto検索は、十分な、しかし非現実的な検索予算を許容する限り、その重み付き検索に比べて、ほとんどの時間(最大77%)でかなり良いのです。 これにより、本論文の他の発見や実行可能な提案とともに、重み付けの選択に関する実用的で包括的なガイダンスを定式化し、明確な嗜好が利用できる状況下でParetoがSBSEを検索できる。 すべてのコードとデータは、https://github.com/ideas-labo/pareto-vs-weight-for-sbseでアクセスできる。

In presence of multiple objectives to be optimized in Search-Based Software Engineering (SBSE), Pareto search has been commonly adopted. It searches for a good approximation of the problem's Pareto optimal solutions, from which the stakeholders choose the most preferred solution according to their preferences. However, when clear preferences of the stakeholders (e.g., a set of weights which reflect relative importance between objectives) are available prior to the search, weighted search is believed to be the first choice since it simplifies the search via converting the original multi-objective problem into a single-objective one and enable the search to focus on what only the stakeholders are interested in. This paper questions such a "weighted search first" belief. We show that the weights can, in fact, be harmful to the search process even in the presence of clear preferences. Specifically, we conduct a large scale empirical study which consists of 38 systems/projects from three representative SBSE problems, together with two types of search budget and nine sets of weights, leading to 604 cases of comparisons. Our key finding is that weighted search reaches a certain level of solution quality by consuming relatively less resources at the early stage of the search; however, Pareto search is at the majority of the time (up to 77% of the cases) significantly better than its weighted counterpart, as long as we allow a sufficient, but not unrealistic search budget. This, together with other findings and actionable suggestions in the paper, allows us to codify pragmatic and comprehensive guidance on choosing weighted and Pareto search for SBSE under the circumstance that clear preferences are available. All code and data can be accessed at: https://github.com/ideas-labo/pareto-vs-weight-for-sbse.
翻訳日:2022-02-10 00:38:36 公開日:2022-02-08
# (参考訳) ASPとDatalogにおけるH-Partitionsの計算

Computing H-Partitions in ASP and Datalog ( http://arxiv.org/abs/2202.03730v1 )

ライセンス: CC BY 4.0
Chlo\'e Capon and Nicolas Lecomte and Jef Wijsen(参考訳) 有限無向単純グラフの$H$分割$G$は、モデルグラフ$H$で表される制約が満たされるような$G$の頂点のラベルである。 すべてのモデルグラフ $h$ に対して、与えられた入力グラフ $g$ が$h$-partition を認めるかどうかを非決定論的多項式時間で決定することができる。 さらに、ダンタスらは、ほとんどのモデルグラフに対して、この決定問題は決定論的多項式時間であることを示した。 本稿では,$h$-partitionsを求める多項式時間アルゴリズムを,階層化否定法を用いてdatalogで表現できることを示す。 さらに,解集合ソルバclingoを用いて,直観的推測チェックプログラムとデータログプログラムを比較する実験を行った。 実験の結果,Clingoでは,推定・チェックプログラムが同等のDatalogプログラムよりも高速に動作することがわかった。

A $H$-partition of a finite undirected simple graph $G$ is a labeling of $G$'s vertices such that the constraints expressed by the model graph $H$ are satisfied. For every model graph $H$, it can be decided in non-deterministic polynomial time whether a given input graph $G$ admits a $H$-partition. Moreover, it has been shown by Dantas et al. that for most model graphs, this decision problem is in deterministic polynomial time. In this paper, we show that these polynomial-time algorithms for finding $H$-partitions can be expressed in Datalog with stratified negation. Moreover, using the answer set solver Clingo, we have conducted experiments to compare straightforward guess-and-check programs with Datalog programs. Our experiments indicate that in Clingo, guess-and-check programs run faster than their equivalent Datalog programs.
翻訳日:2022-02-10 00:36:44 公開日:2022-02-08
# (参考訳) 距離予測による見えない環境における物体の移動

Navigating to Objects in Unseen Environments by Distance Prediction ( http://arxiv.org/abs/2202.03735v1 )

ライセンス: CC BY 4.0
Minzhao Zhu, Binglei Zhao, Tao Kong(参考訳) object goal navigation(objectnav)タスクは、エージェントを見えない環境でオブジェクトインスタンスにナビゲートすることです。 従来のナビゲーションパラダイムは、構築済みの地図上で最短経路を計画する。 そこで本稿では,推定距離マップに基づいて直接経路計画を行うことのできるオブジェクト目標ナビゲーションフレームワークを提案する。 具体的には,鳥眼のセマンティックマップを入力として,学習した事前知識に基づいて,マップセルから対象物体までの距離を推定する。 推定距離マップにより、エージェントは環境を探索し、人間設計または学習されたナビゲーションポリシーに基づいて対象物に移動することができる。 視覚的に現実的なシミュレーション環境における実験結果から,提案手法は成功率と効率性において,幅広いベースラインを上回ります。

Object Goal Navigation (ObjectNav) task is to navigate an agent to an object instance in unseen environments. The traditional navigation paradigm plans the shortest path on a pre-built map. Inspired by this, we propose an object goal navigation framework, which could directly perform path planning based on an estimated distance map. Specifically, our model takes a birds-eye-view semantic map as input, and estimates the distance from the map cells to the target object based on the learned prior knowledge. With the estimated distance map, the agent could explore the environment and navigate to the target objects based on either human-designed or learned navigation policy. Empirical results in visually realistic simulation environments show that the proposed method outperforms a wide range of baselines on success rate and efficiency.
翻訳日:2022-02-10 00:17:00 公開日:2022-02-08
# (参考訳) GPT-3によるオブジェクト概念の意味的特徴

Semantic features of object concepts generated with GPT-3 ( http://arxiv.org/abs/2202.03753v1 )

ライセンス: CC BY 4.0
Hannes Hansen, Martin N. Hebart(参考訳) セマンティックな特徴は概念表現の性質を研究する上で中心的な役割を果たしてきた。 しかし、人間のレーティングから特徴を実証的にサンプリングし、標準として使うのに必要な膨大な時間と労力は、手作業による限定的な概念に制限されている。 近年のトランスフォーマーベース言語モデルによる有望な発展を考えると,そのようなモデルを用いて任意の対象概念に対して意味のあるプロパティのリストを自動生成できるのか,また,そのようなモデルが人間に類似した特徴を生み出すのかを問う。 そこで我々は,GPT-3モデルを用いて1,854個のオブジェクトのセマンティックな特徴を生成し,自動生成した特徴と既存の特徴ノルムを比較した。 GPT-3は人間よりも多くの特徴を生み出したが、生成した特徴の種類には同様の分布を示した。 特徴ノルムの生成は, 類似性, 関連性, カテゴリメンバシップの予測においてヒトのノルムに匹敵するが, ばらつき分割は, これらの予測がヒトとGPT-3の類似の分散によって引き起こされることを示した。 これらの結果は、人間の知識の重要な側面を捉え、解釈可能な特徴集合を自動生成するための新しいアプローチを得るための大きな言語モデルの可能性を強調し、心理的および言語研究における意味的特徴の潜在的利用を劇的に拡大する。

Semantic features have been playing a central role in investigating the nature of our conceptual representations. Yet the enormous time and effort required to empirically sample and norm features from human raters has restricted their use to a limited set of manually curated concepts. Given recent promising developments with transformer-based language models, here we asked whether it was possible to use such models to automatically generate meaningful lists of properties for arbitrary object concepts and whether these models would produce features similar to those found in humans. To this end, we probed a GPT-3 model to generate semantic features for 1,854 objects and compared automatically-generated features to existing human feature norms. GPT-3 generated many more features than humans, yet showed a similar distribution in the types of generated features. Generated feature norms rivaled human norms in predicting similarity, relatedness, and category membership, while variance partitioning demonstrated that these predictions were driven by similar variance in humans and GPT-3. Together, these results highlight the potential of large language models to capture important facets of human knowledge and yield a new approach for automatically generating interpretable feature sets, thus drastically expanding the potential use of semantic features in psychological and linguistic studies.
翻訳日:2022-02-10 00:05:02 公開日:2022-02-08
# (参考訳) シェルコードは自然言語で生成できるのか? 実証的研究

Can We Generate Shellcodes via Natural Language? An Empirical Study ( http://arxiv.org/abs/2202.03755v1 )

ライセンス: CC BY 4.0
Pietro Liguori, Erfan Al-Hossami, Domenico Cotroneo, Roberto Natella, Bojan Cukic, Samira Shaikh(参考訳) ソフトウェアエクスプロイトを書くことは、攻撃的なセキュリティアナリストが攻撃を調査し予防する重要なプラクティスである。 特にシェルコードは、アセンブリ言語で記述されているため、特に時間がかかり、技術的な課題である。 本稿では,ニューラルマシン翻訳(nmt)に基づくアプローチを提案することで,自然言語による記述から始まったシェルコードを自動的に生成するタスクに対処する。 次に,公開データベースからの実Linux/x86シェルコードの3,200個のアセンブリコードスニペットからなる,新しいデータセット(Shellcode_IA32)を用いた実証的研究を行った。 また,シェルコード生成におけるNMTの精度を評価するための新しい指標を提案する。 実験分析の結果,nmtは自然言語から高い精度でアセンブリコードスニペットを生成することができ,多くの場合,エラーを伴わずにシェルコード全体を生成できることがわかった。

Writing software exploits is an important practice for offensive security analysts to investigate and prevent attacks. In particular, shellcodes are especially time-consuming and a technical challenge, as they are written in assembly language. In this work, we address the task of automatically generating shellcodes, starting purely from descriptions in natural language, by proposing an approach based on Neural Machine Translation (NMT). We then present an empirical study using a novel dataset (Shellcode_IA32), which consists of 3,200 assembly code snippets of real Linux/x86 shellcodes from public databases, annotated using natural language. Moreover, we propose novel metrics to evaluate the accuracy of NMT at generating shellcodes. The empirical analysis shows that NMT can generate assembly code snippets from the natural language with high accuracy and that in many cases can generate entire shellcodes with no errors.
翻訳日:2022-02-09 23:55:00 公開日:2022-02-08
# (参考訳) ベイズ深層学習のための確率勾配MCMC法に対するパラメータ空間の影響

Impact of Parameter Sparsity on Stochastic Gradient MCMC Methods for Bayesian Deep Learning ( http://arxiv.org/abs/2202.03770v1 )

ライセンス: CC BY 4.0
Meet P. Vadera, Adam D. Cobb, Brian Jalaian, Benjamin M. Marlin(参考訳) ベイズ法は、ディープニューラルネットワークモデルの不確実性定量化能力とロバスト性を改善するための重要な約束を持っている。 近年の研究では、変分ベイズとマルコフ連鎖モンテカルロ(MCMC)の両方のフレームワークに基づいて、ディープニューラルネットワークに対する近似ベイズ推定法が数多く研究されている。 MCMC法における基本的な問題は、計算時間とモデル記憶コストの増大を犠牲にして、それらの改善が得られたことである。 本稿では,モデルストレージコストと予測性能と不確実性定量化能力に対する実行時間とを柔軟にトレードオフするスパースネットワーク構造の可能性を検討する。 確率勾配MCMC法をベイズ推定法として使用し,スパースネットワーク構造を選択するための様々なアプローチを検討する。 その結果, ランダムに選択したサブストラクチャのクラスは, モデルトレーニング時間を劇的に短縮しつつ, 最先端反復プルーニング法から派生したサブストラクチャを実現できることがわかった。

Bayesian methods hold significant promise for improving the uncertainty quantification ability and robustness of deep neural network models. Recent research has seen the investigation of a number of approximate Bayesian inference methods for deep neural networks, building on both the variational Bayesian and Markov chain Monte Carlo (MCMC) frameworks. A fundamental issue with MCMC methods is that the improvements they enable are obtained at the expense of increased computation time and model storage costs. In this paper, we investigate the potential of sparse network structures to flexibly trade-off model storage costs and inference run time against predictive performance and uncertainty quantification ability. We use stochastic gradient MCMC methods as the core Bayesian inference method and consider a variety of approaches for selecting sparse network structures. Surprisingly, our results show that certain classes of randomly selected substructures can perform as well as substructures derived from state-of-the-art iterative pruning methods while drastically reducing model training times.
翻訳日:2022-02-09 23:54:02 公開日:2022-02-08
# (参考訳) ジェットタグ用粒子変圧器

Particle Transformer for Jet Tagging ( http://arxiv.org/abs/2202.03772v1 )

ライセンス: CC BY 4.0
Huilin Qu, Congqiao Li, Sitian Qian(参考訳) ジェットタグは、粒子物理学において決定的だが難しい分類課題である。 ディープラーニングはジェットタグを変換し、パフォーマンスを大幅に向上させたが、大規模なパブリックデータセットの欠如はさらなる強化を妨げる。 本稿ではジェットタグのための新しい包括的データセットであるJetClassを紹介する。 JetClassデータセットは100Mジェットで構成され、既存の公開データセットよりも約2桁大きい。 合計10種類のジェットがシミュレートされ、これまでにタグ付けのためにいくつかのタイプが検討されていない。 大規模データセットに基づいて,ParT (Particle Transformer) と呼ばれるジェットタグのための新しいトランスフォーマーアーキテクチャを提案する。 注意機構にペアワイズ粒子相互作用を組み込むことで、ParTは通常のトランスフォーマーよりも高いタグ付け性能を実現し、従来の技術であるParticleNetを大きなマージンで上回る。 一度微調整されたParTモデルは、広く採用されている2つのジェットタグ付けベンチマークの性能を大幅に向上させた。

Jet tagging is a critical yet challenging classification task in particle physics. While deep learning has transformed jet tagging and significantly improved performance, the lack of a large-scale public dataset impedes further enhancement. In this work, we present JetClass, a new comprehensive dataset for jet tagging. The JetClass dataset consists of 100 M jets, about two orders of magnitude larger than existing public datasets. A total of 10 types of jets are simulated, including several types unexplored for tagging so far. Based on the large dataset, we propose a new Transformer-based architecture for jet tagging, called Particle Transformer (ParT). By incorporating pairwise particle interactions in the attention mechanism, ParT achieves higher tagging performance than a plain Transformer and surpasses the previous state-of-the-art, ParticleNet, by a large margin. The pre-trained ParT models, once fine-tuned, also substantially enhance the performance on two widely adopted jet tagging benchmarks.
翻訳日:2022-02-09 23:34:20 公開日:2022-02-08
# (参考訳) 半教師付き学習と教師付き学習を組み合わせたマルチモーダルユーザ状態認識におけるデータ共有

Addressing Data Scarcity in Multimodal User State Recognition by Combining Semi-Supervised and Supervised Learning ( http://arxiv.org/abs/2202.03775v1 )

ライセンス: CC BY-SA 4.0
Hendric Vo{\ss}, Heiko Wersing, Stefan Kopp(参考訳) 人間の心理状態を検出することは、ロボットがユーザの意図や欲求を理解するために、協調的でインテリジェントなロボットの開発に不可欠である。 その重要性にもかかわらず、そのようなデータの収集とラベル付けに要する時間と労力が禁止的に高いため、自動認識アルゴリズムを訓練するための高品質なデータを大量に取得することは困難である。 本稿では,人間とロボットのインタラクション環境において,少数の手動の注釈付きデータを用いて解離・解離・混乱状態を検出するためのマルチモーダル機械学習手法を提案する。 我々は、人間とロボットのインタラクション研究を行い、データセットを収集し、機械学習アプローチのための新しい前処理パイプラインを開発する。 半教師付きアーキテクチャと教師付きアーキテクチャを組み合わせることで、少ないラベル付きデータと大きなラベルなしデータセットでdis/agreement検出に対して平均81.1\%のf1-scoreを達成でき、同時に教師付きアプローチと比較してモデルの堅牢性を高めることができる。

Detecting mental states of human users is crucial for the development of cooperative and intelligent robots, as it enables the robot to understand the user's intentions and desires. Despite their importance, it is difficult to obtain a large amount of high quality data for training automatic recognition algorithms as the time and effort required to collect and label such data is prohibitively high. In this paper we present a multimodal machine learning approach for detecting dis-/agreement and confusion states in a human-robot interaction environment, using just a small amount of manually annotated data. We collect a data set by conducting a human-robot interaction study and develop a novel preprocessing pipeline for our machine learning approach. By combining semi-supervised and supervised architectures, we are able to achieve an average F1-score of 81.1\% for dis-/agreement detection with a small amount of labeled data and a large unlabeled data set, while simultaneously increasing the robustness of the model compared to the supervised approach.
翻訳日:2022-02-09 23:12:28 公開日:2022-02-08
# (参考訳) SCR: 幾何学的優先順位を持つ滑らかな輪郭回帰

SCR: Smooth Contour Regression with Geometric Priors ( http://arxiv.org/abs/2202.03784v1 )

ライセンス: CC BY 4.0
Gaetan Bahl, Lionel Daniel, Florent Lafarge(参考訳) オブジェクト検出手法は伝統的にピクセルレベルのマスクやバウンディングボックスを使用するが、ポリゴンやアクティブな輪郭などの代替表現が最近出現している。 それらのうち、フーリエ係数やチェビシェフ係数の回帰に基づく手法は、自由形式の対象に対して高いポテンシャルを示した。 物体の形を極関数として定義することで、それらは星型領域に限定される。 本稿では,分解能のないオブジェクト輪郭を複雑な周期関数として捉える手法であるSCRを用いてこの問題に対処する。 本手法は, 効率の良い幾何学形状事前設計により, 精度とコンパクト性を両立させる。 人気のあるcoco 2017インスタンスセグメンテーションデータセットでscrをベンチマークし、この分野の既存のアルゴリズムとの競争力を示す。 さらに、当社のネットワークのコンパクトバージョンを設計し、幅広い電力ターゲットで組み込みハードウェアをベンチマークし、リアルタイムパフォーマンスを実現しています。

While object detection methods traditionally make use of pixel-level masks or bounding boxes, alternative representations such as polygons or active contours have recently emerged. Among them, methods based on the regression of Fourier or Chebyshev coefficients have shown high potential on freeform objects. By defining object shapes as polar functions, they are however limited to star-shaped domains. We address this issue with SCR: a method that captures resolution-free object contours as complex periodic functions. The method offers a good compromise between accuracy and compactness thanks to the design of efficient geometric shape priors. We benchmark SCR on the popular COCO 2017 instance segmentation dataset, and show its competitiveness against existing algorithms in the field. In addition, we design a compact version of our network, which we benchmark on embedded hardware with a wide range of power targets, achieving up to real-time performance.
翻訳日:2022-02-09 22:59:39 公開日:2022-02-08
# (参考訳) テキスト分類における対実的マルチトークンフェアネス

Counterfactual Multi-Token Fairness in Text Classification ( http://arxiv.org/abs/2202.03792v1 )

ライセンス: CC BY 4.0
Pranay Lohia(参考訳) 偽造トークンの生成は、一般的に短文で単一の文である1つのトークンだけを摂動することに限定されている。 これらのトークンは、しばしば多くの繊細な属性の1つに関連付けられる。 反事実が生成されると、任意の機密属性に対する機械学習分類モデルの不変性を達成するという目標が限定され、反事実公平性の定式化が狭まる。 本稿では,根の問題を解き,理解のためにより大きな領域を開くことで,これらの限界を克服する。 我々は、機密トークンとその対応する摂動トークンのリソースをキュレートし、サポートを従来の機密属性である \textit{Age}、 \textit{Gender}、 \textit{Race} から \textit{Nationality}、 \textit{Disability}、 \textit{Religion} に拡張しました。 対実生成の概念は、あらゆる形式のテキストや文書に有効なマルチトークンサポートにまで拡張されている。 複数の機密トークンを摂動させることで反事実を生成する方法を \textbf{counterfactual multi-token generation} と定義する。 この手法は、シングルトーケン方式よりも大幅な性能向上を示すために概念化され、複数のベンチマークデータセット上で検証されている。 反ファクト生成における評価は、改善された「textbf{Counterfactual Multi-token Fairness}」を達成する際に伝播する。

The counterfactual token generation has been limited to perturbing only a single token in texts that are generally short and single sentences. These tokens are often associated with one of many sensitive attributes. With limited counterfactuals generated, the goal to achieve invariant nature for machine learning classification models towards any sensitive attribute gets bounded, and the formulation of Counterfactual Fairness gets narrowed. In this paper, we overcome these limitations by solving root problems and opening bigger domains for understanding. We have curated a resource of sensitive tokens and their corresponding perturbation tokens, even extending the support beyond traditionally used sensitive attributes like \textit{Age}, \textit{Gender}, and \textit{Race} to \textit{Nationality}, \textit{Disability}, and \textit{Religion}. The concept of Counterfactual Generation has been extended to multi-token support valid over all forms of texts and documents. We define the method of generating counterfactuals by perturbing multiple sensitive tokens as \textbf{Counterfactual Multi-token Generation}. The method has been conceptualized to showcase significant performance improvement over single-token methods and validated over multiple benchmark datasets. The emendation in counterfactual generation propagates in achieving improved \textbf{Counterfactual Multi-token Fairness}.
翻訳日:2022-02-09 22:40:51 公開日:2022-02-08
# (参考訳) 共形写像を用いたスパースセンサからの任意の2次元物体まわりの深層学習流体流れの再構成

Deep learning fluid flow reconstruction around arbitrary two-dimensional objects from sparse sensors using conformal mappings ( http://arxiv.org/abs/2202.03798v1 )

ライセンス: CC BY-SA 4.0
Ali Girayhan \"Ozbay and Sylvain Laizet(参考訳) 限られたセンサーからのフロー再構成(FR)タスクに対するディープニューラルネットワーク(DNN)の使用は、非常に高次元の関係を再現するDNNの能力のために、強い研究関心を集めている。 与えられたレイノルズ数に対して1つのフローケース、あるいはレイノルズ数の範囲を減らして訓練されたこれらのモデルは、残念ながら、再学習することなく異なる物体の周りの流体を処理できない。 本研究では,空間的多次元fr(smgfr)タスクと呼ばれる新しい枠組みを提案し,計算領域を環状として再訓練することなく,異なる2次元物体まわりの流体の流れを再構成する手法を提案する。 異なるセンサ設定のための異なるDNN(フローに関する情報が収集される)は、Bezier曲線を用いてランダムに生成された64オブジェクトに対して約300ドルのレイノルズ数に対する高忠実度シミュレーションデータで訓練される。 モデルとセンサーのセットアップのパフォーマンスは、16個の見えない物体のまわりの流れによって評価される。 提案手法は,モデルがデカルト格子上でトレーニングされる従来の手法と比較して,smgfrの誤差を最大15\%改善することを示した。 最後に、SMGFRタスクは将来、流体流スナップショットの予測に拡張され、時空間MGFRタスクが導入される。 この時空間再構成タスクでは,DNNを空間的,時間的要素に分割する新たな手法が開発されている。 その結果, このアプローチは, 時間的, 空間的に, 任意の物体まわりの流体の流れの主な特徴を再現できることがわかった。

The usage of deep neural networks (DNNs) for flow reconstruction (FR) tasks from a limited number of sensors is attracting strong research interest, owing to DNNs' ability to replicate very high dimensional relationships. Trained over a single flow case for a given Reynolds number or over a reduced range of Reynolds numbers, these models are unfortunately not able to handle fluid flows around different objects without re-training. In this work, we propose a new framework called Spatial Multi-Geometry FR (SMGFR) task, capable of reconstructing fluid flows around different two-dimensional objects without re-training, mapping the computational domain as an annulus. Different DNNs for different sensor setups (where information about the flow is collected) are trained with high-fidelity simulation data for a Reynolds number equal to approximately $300$ for 64 objects randomly generated using Bezier curves. The performance of the models and sensor setups are then assessed for the flow around 16 unseen objects. It is shown that our mapping approach improves percentage errors by up to 15\% in SMGFR when compared to a more conventional approach where the models are trained on a Cartesian grid. Finally, the SMGFR task is extended to predictions of fluid flow snapshots in the future, introducing the Spatio-temporal MGFR (STMGFR) task. For this spatio-temporal reconstruction task, a novel approach is developed involving splitting DNNs into a spatial and a temporal component. Our results demonstrate that this approach is able to reproduce, in time and in space, the main features of a fluid flow around arbitrary objects.
翻訳日:2022-02-09 22:23:46 公開日:2022-02-08
# (参考訳) 最良のシステムは何か? NLPベンチマークの新展開

What are the best systems? New perspectives on NLP Benchmarking ( http://arxiv.org/abs/2202.03799v1 )

ライセンス: CC BY 4.0
Pierre Colombo and Nathan Noiry and Ekhine Irurozki and Stephan Clemencon(参考訳) 機械学習において、ベンチマークとは、1つまたは複数のメトリクスに関連するデータセットの集合と、異なるシステムパフォーマンスを集約する方法である。 彼らは楽器です (i)異なる軸に沿っての新しい方法の進展を評価すること、及び (ii)実用上最良のシステムを選択すること。 特にNLPでは、様々なタスクでうまく一般化されるであろう大規模な事前学習モデル(GPT、BERTなど)が開発されている。 コミュニティは、主に新しいデータセットとメトリクスの開発に注力しているが、アグリゲーション手順にはほとんど関心がなく、様々なパフォーマンス指標よりも単純な平均に削減されることが多い。 しかし、メトリクスが異なるスケールにある場合、この手順は問題になりうるため、急激な結論につながる可能性がある。 本稿では,異なるタスクにまたがるシステムの性能をランク付けする新しい手法を提案する。 社会的選択理論に動機づけられ、各タスクによって引き起こされるランキングを集約することで最終的なシステム順序が得られ、理論的に接地される。 合成スコアと実スコア(glue, extrem, seval, tac, flickrなど)の両方で、我々のアプローチの健全性を評価するために、270k以上のスコアで広範な数値実験を行いました。 特に,本手法は,信頼性とロバストさを両立させながら,平均集約法と異なる結果が得られることを示す。

In Machine Learning, a benchmark refers to an ensemble of datasets associated with one or multiple metrics together with a way to aggregate different systems performances. They are instrumental in (i) assessing the progress of new methods along different axes and (ii) selecting the best systems for practical use. This is particularly the case for NLP with the development of large pre-trained models (e.g. GPT, BERT) that are expected to generalize well on a variety of tasks. While the community mainly focused on developing new datasets and metrics, there has been little interest in the aggregation procedure, which is often reduced to a simple average over various performance measures. However, this procedure can be problematic when the metrics are on a different scale, which may lead to spurious conclusions. This paper proposes a new procedure to rank systems based on their performance across different tasks. Motivated by the social choice theory, the final system ordering is obtained through aggregating the rankings induced by each task and is theoretically grounded. We conduct extensive numerical experiments (on over 270k scores) to assess the soundness of our approach both on synthetic and real scores (e.g. GLUE, EXTREM, SEVAL, TAC, FLICKR). In particular, we show that our method yields different conclusions on state-of-the-art systems than the mean-aggregation procedure while being both more reliable and robust.
翻訳日:2022-02-09 22:22:09 公開日:2022-02-08
# (参考訳) バイナリ分類器の公平性への最適輸送

Optimal Transport of Binary Classifiers to Fairness ( http://arxiv.org/abs/2202.03814v1 )

ライセンス: CC BY 4.0
Maarten Buyl, Tijl De Bie(参考訳) 機械学習における公平性に関する過去の研究の多くは、分類器の予測を、異なる人口階層の個人に対して同様の統計的特性を持つことに重点を置いてきた。 しかし、そのような方法は単に分類器のスコアを再スケーリングし、異なるグループの個人が類似した特徴を持っているかどうかを無視する。 提案手法であるOTF(Optimal Transport to Fairness)は,この類似性を考慮に入れ,不公平さを,公平性制約を満たす任意のスコア関数と分類器間のOTの最小コストとして定量化する。 線形公正性制約の柔軟なクラスに対しては、任意の標準分類設定に追加可能な不公平コスト項として OTF を計算する実践的な方法を示す。 実験により、OTFは予測力と公平性の間の効果的なトレードオフを達成することができることが示された。

Much of the past work on fairness in machine learning has focused on forcing the predictions of classifiers to have similar statistical properties for individuals of different demographics. Yet, such methods often simply perform a rescaling of the classifier scores and ignore whether individuals of different groups have similar features. Our proposed method, Optimal Transport to Fairness (OTF), applies Optimal Transport (OT) to take this similarity into account by quantifying unfairness as the smallest cost of OT between a classifier and any score function that satisfies fairness constraints. For a flexible class of linear fairness constraints, we show a practical way to compute OTF as an unfairness cost term that can be added to any standard classification setting. Experiments show that OTF can be used to achieve an effective trade-off between predictive power and fairness.
翻訳日:2022-02-09 21:52:40 公開日:2022-02-08
# (参考訳) 細粒度視覚分類のための新しいプラグインモジュール

A Novel Plug-in Module for Fine-Grained Visual Classification ( http://arxiv.org/abs/2202.03822v1 )

ライセンス: CC BY 4.0
Po-Yung Chou, Cheng-Hung Lin, Wen-Chung Kao(参考訳) 視覚分類は粗粒度と細粒度に分けることができる。 粗粒度分類は、猫と犬の分類のような大きな異種性を持つカテゴリーを表し、細粒度分類は、猫種、鳥類種、車両の造形またはモデルのような大きな類似性を持つ分類を表す。 粗い視覚分類とは異なり、きめ細かい視覚分類では、専門家がデータをラベル付けする必要があることが多い。 この課題に対処するため、多くのアプローチが、最も差別的な領域を自動的に見つけ、より正確な機能を提供するために、ローカル機能を使用することを提案している。 これらのアプローチは画像レベルのアノテーションのみを必要とするため、アノテーションのコストが削減される。 しかし、これらの手法の多くは2段階または多段階のアーキテクチャを必要とし、エンドツーエンドで訓練することはできない。 そこで本研究では,CNNベースのネットワークやTransformerベースのネットワークなど,多くの一般的なバックボーンと統合可能なプラグインモジュールを提案する。 プラグインモジュールは、ピクセルレベルの特徴マップとヒューズフィルタリング機能を出力して、きめ細かい視覚的分類を強化することができる。 実験の結果,CUB200-2011 および NABirds において,提案したプラグインモジュールの精度は92.77\%,92.83\% に向上した。 ソースコードはGithub https://github.com/chou141253/FGVC-PIM.gitで公開しています。

Visual classification can be divided into coarse-grained and fine-grained classification. Coarse-grained classification represents categories with a large degree of dissimilarity, such as the classification of cats and dogs, while fine-grained classification represents classifications with a large degree of similarity, such as cat species, bird species, and the makes or models of vehicles. Unlike coarse-grained visual classification, fine-grained visual classification often requires professional experts to label data, which makes data more expensive. To meet this challenge, many approaches propose to automatically find the most discriminative regions and use local features to provide more precise features. These approaches only require image-level annotations, thereby reducing the cost of annotation. However, most of these methods require two- or multi-stage architectures and cannot be trained end-to-end. Therefore, we propose a novel plug-in module that can be integrated to many common backbones, including CNN-based or Transformer-based networks to provide strongly discriminative regions. The plugin module can output pixel-level feature maps and fuse filtered features to enhance fine-grained visual classification. Experimental results show that the proposed plugin module outperforms state-of-the-art approaches and significantly improves the accuracy to 92.77\% and 92.83\% on CUB200-2011 and NABirds, respectively. We have released our source code in Github https://github.com/chou141253/FGVC-PIM.git.
翻訳日:2022-02-09 21:33:55 公開日:2022-02-08
# (参考訳) skrl:強化学習のためのモジュラーで柔軟なライブラリ

skrl: Modular and Flexible Library for Reinforcement Learning ( http://arxiv.org/abs/2202.03825v1 )

ライセンス: CC BY 4.0
Antonio Serrano-Mu\~noz, Nestor Arana-Arexolaleiba, Dimitrios Chrysostomou and Simon B{\o}gh(参考訳) skrlはpythonで書かれた強化学習のためのオープンソースモジュールライブラリで、アルゴリズム実装の可読性、単純性、透明性にフォーカスして設計されている。 従来のopenaiジムインターフェースを使用する環境のサポートとは別に、nvidia isaacジム環境のロード、設定、運用も可能で、複数のエージェントが同じ実行でリソースを共有するかどうかに関わらず、調整可能なスコープで並列にトレーニングすることができる。 ライブラリのドキュメンテーションはhttps://skrl.readthedocs.ioで、ソースコードはGitHubのurl{https://github.com/Toni-SM/skrlで入手できる。

skrl is an open-source modular library for reinforcement learning written in Python and designed with a focus on readability, simplicity, and transparency of algorithm implementations. Apart from supporting environments that use the traditional OpenAI Gym interface, it allows loading, configuring, and operating NVIDIA Isaac Gym environments, enabling the parallel training of several agents with adjustable scopes, which may or may not share resources, in the same execution. The library's documentation can be found at https://skrl.readthedocs.io and its source code is available on GitHub at url{https://github.com/Toni-SM/skrl.
翻訳日:2022-02-09 21:13:06 公開日:2022-02-08
# (参考訳) MetaKG: コールドスタート勧告のための知識グラフのメタラーニング

MetaKG: Meta-learning on Knowledge Graph for Cold-start Recommendation ( http://arxiv.org/abs/2202.03851v1 )

ライセンス: CC BY 4.0
Yuntao Du, Xinjun Zhu, Lu Chen, Ziquan Fang, Yunjun Gao(参考訳) 知識グラフ(KG)は、相互接続された型付きエンティティとその属性からなる。 最近は、より正確で説明しやすく、多様なユーザの好みの推薦を可能にする補助情報として、kgsが広く使われている。 具体的には、KGに隠された長期接続型ユーザ・イテム相互作用から、高次関係/依存性をモデル化することを目的とした既存のKGベースのレコメンデーション手法を提案する。 しかし、そのほとんどは、新しいユーザや新しいアイテムに関わる場合のシナリオにおけるパフォーマンスを制限するレコメンデーション分析のコールドスタート問題(すなわち、ユーザーコールドスタートとアイテムコールドスタート)を無視している。 不足したトレーニングサンプルでのメタラーニングの成功に触発されて,協調学習型メタラーナと知識認識型メタラーナを包含するメタラーニングベースのフレームワークであるmetakgを提案し,メタユーザの好みとエンティティの知識を捉えてコールドスタート推薦を行う。 共同認識型メタ学習者は、各ユーザの好み学習タスクをローカルに集約することを目的としている。 対照的に、知識を意識したメタ学習者は、異なるユーザの好み学習タスクにまたがる知識表現をグローバルに一般化する。 2人のメタ学習者がガイドしたMetaKGは、コールドスタートシナリオに容易に適応できる高次の協調関係と意味表現を効果的にキャプチャできる。 さらに,メタ学習のための情報処理タスクを適応的に選択できる適応型タスクスケジューラを考案した。 3つの実データ集合を用いた様々なコールドスタートシナリオに関する大規模な実験により、我々が提示したMetaKGは、有効性、効率性、スケーラビリティの点で、既存のすべての競合製品より優れていることを示した。

A knowledge graph (KG) consists of a set of interconnected typed entities and their attributes. Recently, KGs are popularly used as the auxiliary information to enable more accurate, explainable, and diverse user preference recommendations. Specifically, existing KG-based recommendation methods target modeling high-order relations/dependencies from long connectivity user-item interactions hidden in KG. However, most of them ignore the cold-start problems (i.e., user cold-start and item cold-start) of recommendation analytics, which restricts their performance in scenarios when involving new users or new items. Inspired by the success of meta-learning on scarce training samples, we propose a novel meta-learning based framework called MetaKG, which encompasses a collaborative-aware meta learner and a knowledge-aware meta learner, to capture meta users' preference and entities' knowledge for cold-start recommendations. The collaborative-aware meta learner aims to locally aggregate user preferences for each user preference learning task. In contrast, the knowledge-aware meta learner is to globally generalize knowledge representation across different user preference learning tasks. Guided by two meta learners, MetaKG can effectively capture the high-order collaborative relations and semantic representations, which could be easily adapted to cold-start scenarios. Besides, we devise a novel adaptive task scheduler which can adaptively select the informative tasks for meta learning in order to prevent the model from being corrupted by noisy tasks. Extensive experiments on various cold-start scenarios using three real data sets demonstrate that our presented MetaKG outperforms all the existing state-of-the-art competitors in terms of effectiveness, efficiency, and scalability.
翻訳日:2022-02-09 21:04:02 公開日:2022-02-08
# (参考訳) 森林の最適分類における距離対策の比較研究

Comparative Study Between Distance Measures On Supervised Optimum-Path Forest Classification ( http://arxiv.org/abs/2202.03854v1 )

ライセンス: CC BY 4.0
Gustavo Henrique de Rosa, Mateus Roder, Jo\~ao Paulo Papa(参考訳) 機械学習は、画像分類、オブジェクト認識、異常検出、データ予測といった、広範囲にわたる課題を解決できる可能性から、過去10年間にわたって大きな注目を集めてきた。 このようなアプリケーションに取り組むための標準的なアプローチは教師付き学習に基づいており、これは大量のラベル付きデータによって支援され、ロジスティック回帰、決定木、ランダムフォレスト、サポートベクトルマシンなどのいわゆる分類器によって実行される。 従来の分類法に代わるものとして、パラメータレス最適パスフォレスト(OPF)があり、グラフベースの方法論と距離測定を用いてノード間の弧を作り、ノードを征服し、ラベルを定義し、森林を形成する。 それにもかかわらず、その性能はデータセットの性質に応じて変化する適切な距離尺度と強く関連している。 そこで,本研究では,森林の最適林分分類に適用する広範囲な距離測定法の比較研究を提案する。 実験結果は、よく知られた文献データセットを用いて実施され、ベンチマーク分類器間で比較され、OPFが異なるドメインに適応する能力を示す。

Machine Learning has attracted considerable attention throughout the past decade due to its potential to solve far-reaching tasks, such as image classification, object recognition, anomaly detection, and data forecasting. A standard approach to tackle such applications is based on supervised learning, which is assisted by large sets of labeled data and is conducted by the so-called classifiers, such as Logistic Regression, Decision Trees, Random Forests, and Support Vector Machines, among others. An alternative to traditional classifiers is the parameterless Optimum-Path Forest (OPF), which uses a graph-based methodology and a distance measure to create arcs between nodes and hence sets of trees, responsible for conquering the nodes, defining their labels, and shaping the forests. Nevertheless, its performance is strongly associated with an appropriate distance measure, which may vary according to the dataset's nature. Therefore, this work proposes a comparative study over a wide range of distance measures applied to the supervised Optimum-Path Forest classification. The experimental results are conducted using well-known literature datasets and compared across benchmarking classifiers, illustrating OPF's ability to adapt to distinct domains.
翻訳日:2022-02-09 20:40:03 公開日:2022-02-08
# (参考訳) BIQ2021: 大規模ブラインド画像品質評価データベース

BIQ2021: A Large-Scale Blind Image Quality Assessment Database ( http://arxiv.org/abs/2202.03879v1 )

ライセンス: CC BY 4.0
Nisar Ahmed, Shahzad Asif(参考訳) デジタルマルチメディアデバイスの普及に伴い,デジタル画像の知覚的品質の評価がますます重要になっている。 スマートフォンと高速インターネットは、利用可能なマルチメディアコンテンツの量を増やすテクノロジーの2つの例にすぎない。 したがって、客観的品質評価訓練に必要な代表データセットを取得することは大きな課題である。 本稿では,ブラインド画像品質評価データベースbiq2021について述べる。 自然に発生する歪みと信頼性のあるラベル付き画像を選択することにより、非参照画像品質評価のための代表画像を取得するという課題に対処する。 データセットは、画像の品質評価に使用する意図のないもの、意図的に導入した自然歪で撮影されたもの、オープンソースの画像共有プラットフォームから撮影されたものの3つのセットで構成されている。 様々な種類のオブジェクトと様々な前景と背景情報を含む様々なデバイスからの多様な画像のコレクションを維持することを目的としている。 信頼性の高いスコアを得るために、これらの画像は単一刺激法を用いて実験室環境で主観的にスコアされる。 データベースは、主観的スコアリング、人間の主題統計、および各画像の標準偏差に関する情報を含む。 データセットの平均オピニオンスコア(MOS)は、視覚的品質を評価するのに役立つ。 さらに,提案データベースを用いて既存のブラインド画像品質評価手法の評価を行い,PearsonとSpearmanの相関係数を用いて評価を行った。 イメージデータベースとMOSは、自由に使用およびベンチマークが可能である。

The assessment of the perceptual quality of digital images is becoming increasingly important as a result of the widespread use of digital multimedia devices. Smartphones and high-speed internet are just two examples of technologies that have multiplied the amount of multimedia content available. Thus, obtaining a representative dataset, which is required for objective quality assessment training, is a significant challenge. The Blind Image Quality Assessment Database, BIQ2021, is presented in this article. By selecting images with naturally occurring distortions and reliable labeling, the dataset addresses the challenge of obtaining representative images for no-reference image quality assessment. The dataset consists of three sets of images: those taken without the intention of using them for image quality assessment, those taken with intentionally introduced natural distortions, and those taken from an open-source image-sharing platform. It is attempted to maintain a diverse collection of images from various devices, containing a variety of different types of objects and varying degrees of foreground and background information. To obtain reliable scores, these images are subjectively scored in a laboratory environment using a single stimulus method. The database contains information about subjective scoring, human subject statistics, and the standard deviation of each image. The dataset's Mean Opinion Scores (MOS) make it useful for assessing visual quality. Additionally, the proposed database is used to evaluate existing blind image quality assessment approaches, and the scores are analyzed using Pearson and Spearman's correlation coefficients. The image database and MOS are freely available for use and benchmarking.
翻訳日:2022-02-09 20:20:05 公開日:2022-02-08
# (参考訳) graphdca -- 実グラフと合成グラフのノード分布比較のためのフレームワーク

GraphDCA -- a Framework for Node Distribution Comparison in Real and Synthetic Graphs ( http://arxiv.org/abs/2202.03884v1 )

ライセンス: CC BY 4.0
Ciwan Ceylan, Petra Poklukar, Hanna Hultin, Alexander Kravchenko, Anastasia Varava, Danica Kragic(参考訳) 2つのグラフを比較するとき、特にグラフ生成モデルを評価するためによく用いられるグローバルグラフ統計よりも、ノード構造の特徴の分布の方がより有益であると論じる。 そこで我々は,各ノード表現セットのアライメントに基づいて,グラフ間の類似性を評価するフレームワークGraphDCAを提案する。 これらの集合は、グラフデータに拡張したDCA(Delaunay Component Analysis)と呼ばれる、最近提案された表現空間の比較手法を用いて比較される。 本フレームワークを評価するために, 異なる構造パターンを示すグラフのベンチマークデータセットを作成し, 3つのノード構造特徴抽出器を用いて, 類似および異種局所構造を持つグラフを認識することを示す。 次に,3つの実世界のグラフデータセットを評価するためのフレームワークを適用し,段階的なエッジ摂動を用いて,グラフdcaがグローバル統計とは異なり徐々に類似度を減少させていくことを実証する。 最後に、グラフDCAを用いて2つの最先端グラフ生成モデル、NetGANとCellを評価し、これらのモデルが局所的な特徴を適切に再現するためにさらなる改善が必要であると結論づける。

We argue that when comparing two graphs, the distribution of node structural features is more informative than global graph statistics which are often used in practice, especially to evaluate graph generative models. Thus, we present GraphDCA - a framework for evaluating similarity between graphs based on the alignment of their respective node representation sets. The sets are compared using a recently proposed method for comparing representation spaces, called Delaunay Component Analysis (DCA), which we extend to graph data. To evaluate our framework, we generate a benchmark dataset of graphs exhibiting different structural patterns and show, using three node structure feature extractors, that GraphDCA recognizes graphs with both similar and dissimilar local structure. We then apply our framework to evaluate three publicly available real-world graph datasets and demonstrate, using gradual edge perturbations, that GraphDCA satisfyingly captures gradually decreasing similarity, unlike global statistics. Finally, we use GraphDCA to evaluate two state-of-the-art graph generative models, NetGAN and CELL, and conclude that further improvements are needed for these models to adequately reproduce local structural features.
翻訳日:2022-02-09 20:09:57 公開日:2022-02-08
# (参考訳) 組合せ最適化のための文脈例からMAX-SATを学ぶ

Learning MAX-SAT from Contextual Examples for Combinatorial Optimisation ( http://arxiv.org/abs/2202.03888v1 )

ライセンス: CC BY-SA 4.0
Mohit Kumar, Samuel Kolb, Stefano Teso, Luc De Raedt(参考訳) 組合せ最適化問題は人工知能においてユビキタスである。 しかし、基礎となるモデルを設計するにはかなりの専門知識が必要です。 モデルは通常、ハードな制約とソフトな制約、あるいはハードな制約と客観的な機能を組み合わせたものです。 本稿では,文脈の例から組合せ最適化問題を学習するための新しい設定を提案する。 これらの正の例と負の例は、ソリューションが十分であるかどうかという特定の文脈を示す。 MAX-SAT形式は,これらの特徴を持つシンプルで強力な設定であるため,我々のフレームワークを開発した。 MAX-SATモデルの学習性について検討する。 我々の理論的結果は、データが直感的な「表現性」条件を満たす限り、現実的かつ不可知的な設定における文脈例から、高品質のMAX-SATモデルを学習できることを示唆している。 また,2つの実装を理論的結果に基づいて提案する。一方は構文誘導合成のアイデアを利用し,他方は確率的局所探索技術を利用する。 2つの実装は、文脈例から合成モデルとベンチマークモデルを復元することで評価される。 実験結果は,max-satモデルが文脈サンプルから学習できることを示す理論解析を支持する。 2つの実装のうち、確率的局所探索学習者は、同等またはより良いモデルを提供しながら、構文誘導実装よりもはるかにスケールする。

Combinatorial optimisation problems are ubiquitous in artificial intelligence. Designing the underlying models, however, requires substantial expertise, which is a limiting factor in practice. The models typically consist of hard and soft constraints, or combine hard constraints with an objective function. We introduce a novel setting for learning combinatorial optimisation problems from contextual examples. These positive and negative examples show - in a particular context - whether the solutions are good enough or not. We develop our framework using the MAX-SAT formalism as it is simple yet powerful setting having these features. We study the learnability of MAX-SAT models. Our theoretical results show that high-quality MAX-SAT models can be learned from contextual examples in the realisable and agnostic settings, as long as the data satisfies an intuitive "representativeness" condition. We also contribute two implementations based on our theoretical results: one leverages ideas from syntax-guided synthesis while the other makes use of stochastic local search techniques. The two implementations are evaluated by recovering synthetic and benchmark models from contextual examples. The experimental results support our theoretical analysis, showing that MAX-SAT models can be learned from contextual examples. Among the two implementations, the stochastic local search learner scales much better than the syntax-guided implementation while providing comparable or better models.
翻訳日:2022-02-09 19:46:15 公開日:2022-02-08
# (参考訳) スライスワッサースタインカーネルによる分布回帰

Distribution Regression with Sliced Wasserstein Kernels ( http://arxiv.org/abs/2202.03926v1 )

ライセンス: CC BY 4.0
Dimitri Meunier, Massimiliano Pontil and Carlo Ciliberto(参考訳) 確率空間(あるいは分布回帰)における学習関数の問題は、機械学習コミュニティに大きな関心を集めている。 この問題の背後にある重要な課題は、基礎となる機能マッピングのすべての関連する特性をキャプチャする適切な表現を特定することである。 分布回帰に対する原則的アプローチは、カーネル平均埋め込みによって提供され、確率レベルでの入力領域におけるカーネル誘起の類似性を持ち上げる。 この戦略は、問題の2段階サンプリングの性質に効果的に取り組み、普遍的な一貫性や過剰なリスク境界といった強い統計的保証を持つ推定器を導出することができる。 しかし、カーネルは最大平均誤差(MMD)に暗黙的にヒンジを埋め込むことで、分布間の重要な幾何学的関係を捉えられない可能性がある。 対照的に、最適なトランスポート(ot)メトリクスは、トピックに関する最近の文献に記録されているように、潜在的に魅力的である。 本研究では,分布回帰のための最初のotベース推定器を提案する。 Sliced Wasserstein 距離の上に構築し,OT に基づく表現を得る。 このような表現に基づいて,カーネルリッジ回帰推定器の理論的性質を考察し,普遍的一貫性と過大なリスク境界を証明した。 予備実験は,提案手法の有効性を示し,MDDに基づく推定値と比較することによって理論的知見を補完する。

The problem of learning functions over spaces of probabilities - or distribution regression - is gaining significant interest in the machine learning community. A key challenge behind this problem is to identify a suitable representation capturing all relevant properties of the underlying functional mapping. A principled approach to distribution regression is provided by kernel mean embeddings, which lifts kernel-induced similarity on the input domain at the probability level. This strategy effectively tackles the two-stage sampling nature of the problem, enabling one to derive estimators with strong statistical guarantees, such as universal consistency and excess risk bounds. However, kernel mean embeddings implicitly hinge on the maximum mean discrepancy (MMD), a metric on probabilities, which may fail to capture key geometrical relations between distributions. In contrast, optimal transport (OT) metrics, are potentially more appealing, as documented by the recent literature on the topic. In this work, we propose the first OT-based estimator for distribution regression. We build on the Sliced Wasserstein distance to obtain an OT-based representation. We study the theoretical properties of a kernel ridge regression estimator based on such representation, for which we prove universal consistency and excess risk bounds. Preliminary experiments complement our theoretical findings by showing the effectiveness of the proposed approach and compare it with MMD-based estimators.
翻訳日:2022-02-09 19:45:12 公開日:2022-02-08
# (参考訳) もし人間がそれを見ることができれば、あなたのシステムは:マシンビジョンコンポーネントの信頼性要件

If a Human Can See It, So Should Your System: Reliability Requirements for Machine Vision Components ( http://arxiv.org/abs/2202.03930v1 )

ライセンス: CC BY 4.0
Boyue Caroline Hu, Lina Marsso, Krzysztof Czarnecki, Rick Salay, Huakun Shen, Marsha Chechik(参考訳) 機械ビジョンコンポーネント(MVC)は安全に重要になっている。 安全性を含む品質の保証は、デプロイメントの成功に不可欠です。 保証は、正確に指定され、理想的には、マシン検証可能な要件の可用性に依存する。 最先端のパフォーマンスを持つMVCは機械学習(ML)とトレーニングデータに依存しているが、その要件はほとんどない。 本稿では,MVCのマシン検証可能な信頼性要件を,環境における現実的かつ安全クリティカルな変化をシミュレートする変換に対して定義する必要性に対処する。 人間のパフォーマンスをベースラインとして、私たちは信頼性要件を次のように定義しています。 To this end, we provide: (1) a class of safety-related image transformations; (2) reliability requirement classes to specify correctness-preservation and prediction-preservation for MVCs; (3) a method to instantiate machine-verifiable requirements from these requirements classes using human performance experiment data; (4) human performance experiment data for image recognition involving eight commonly used transformations, from about 2000 human participants; and (5) a method for automatically checking whether an MVC satisfies our requirements. さらに, 従来の13種類の画像分類モデルを用いて, 信頼性要件を検証し, 再利用可能であることを示す。 最後に,既存手法では検出できないMVCの信頼性ギャップを,我々の手法が検出できることを実証する。

Machine Vision Components (MVC) are becoming safety-critical. Assuring their quality, including safety, is essential for their successful deployment. Assurance relies on the availability of precisely specified and, ideally, machine-verifiable requirements. MVCs with state-of-the-art performance rely on machine learning (ML) and training data but largely lack such requirements. In this paper, we address the need for defining machine-verifiable reliability requirements for MVCs against transformations that simulate the full range of realistic and safety-critical changes in the environment. Using human performance as a baseline, we define reliability requirements as: 'if the changes in an image do not affect a human's decision, neither should they affect the MVC's.' To this end, we provide: (1) a class of safety-related image transformations; (2) reliability requirement classes to specify correctness-preservation and prediction-preservation for MVCs; (3) a method to instantiate machine-verifiable requirements from these requirements classes using human performance experiment data; (4) human performance experiment data for image recognition involving eight commonly used transformations, from about 2000 human participants; and (5) a method for automatically checking whether an MVC satisfies our requirements. Further, we show that our reliability requirements are feasible and reusable by evaluating our methods on 13 state-of-the-art pre-trained image classification models. Finally, we demonstrate that our approach detects reliability gaps in MVCs that other existing methods are unable to detect.
翻訳日:2022-02-09 18:31:10 公開日:2022-02-08
# (参考訳) 加速度計を用いた非侵襲的長期カフモニタリングのためのベッド機能検出

Accelerometer-based Bed Occupancy Detection for Automatic, Non-invasive Long-term Cough Monitoring ( http://arxiv.org/abs/2202.03936v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Igor Miranda, Andreas Diacon and Thomas Niesler(参考訳) 本稿では,スマートフォン内蔵加速度計から患者のベッド占有度を自動的に検出し,機械学習による長期コークスモニタリングシステムを提案する。 従来、このシステムはコークス現象を正常に検出するために用いられており、長時間の監視にはベッドの占有率検出が必要である。最初の実験では、患者が長時間ベッドを離れることが頻繁にあり、ビデオ監視や圧力センサーの使用は患者に好ましくない代替手段ではないことが示されている。 結核(TB)治療中の成人7名を対象に,手動遅延加速度信号のデータセットを249時間作成した。 ベッド占有度検出工程は、3つの検出器からなり、1つは高い感度、低い特異度で占有度変化を分類し、もう1つは高い特異度、低い感度で占有度相互作用を分類する。 最終状態検出器はミス分類区間を補正する。 LR, MLP, CNN, LSTMの4つの分類器をトレーニングし評価するために, 退院患者のクロスバリデーションスキームを使用した後, LSTMは, 予測されたベッド占有率を最終状態検出器からの出力と実際のベッド占有率サンプルとを試料で比較しながら, 曲線(AUC)が0。 また,14日間観察された結核菌陽性患者から採取した検体のコロニー形成単位と陽性率を算出し,提案システムを用いて1日あたりの枯渇率の予測を行った。 以上の結果から, TB治療下で改善した患者は, 自動的, 迅速で非侵襲的, 非侵襲的, 費用対効果の低い長期モニタリングシステムにより, 患者の回復率のモニタリングに極めて有用であることが示唆された。

We present a machine learning based long-term cough monitoring system by detecting patient's bed occupancy from a bed-attached smartphone-inbuilt accelerometer automatically. Previously this system was used to detect cough events successfully and long-term cough monitoring requires bed occupancy detection, as the initial experiments show that patients leave their bed very often for long period of time and using video-monitoring or pressure sensors are not patient-favourite alternatives. We have compiled a 249-hour dataset of manually-labelled acceleration signals gathered from seven adult male patients undergoing treatment for tuberculosis (TB). The bed occupancy detection process consists of three detectors, among which the first one classifies occupancy-change with high sensitivity, low specificity and the second one classifies occupancy-interval with high specificity, low sensitivity. The final state detector corrects the miss-classified sections. After using a leave-one-patient-out cross-validation scheme to train and evaluate four classifiers such as LR, MLP, CNN and LSTM; LSTM produces the highest area under the curve (AUC) of 0.94 while comparing the predicted bed occupancy as the output from the final state detector with the actual bed occupancy sample by sample. We have also calculated colony forming unit and time to positivity of the sputum samples of TB positive patients who were monitored for 14 days and the proposed system was used to predict daily cough rates. The results show that patients who improve under TB treatment have decreasing daily cough rates, indicating the proposed automatic, quick, non-invasive, non-intrusive, cost-effective long-term cough monitoring system can be extremely useful in monitoring patients' recovery rate.
翻訳日:2022-02-09 18:06:14 公開日:2022-02-08
# (参考訳) 一般化エラーから輸送コストの不平等・バックへ

From Generalisation Error to Transportation-cost Inequalities and Back ( http://arxiv.org/abs/2202.03956v1 )

ライセンス: CC BY 4.0
Amedeo Roberto Esposito, Michael Gastpar(参考訳) 本研究では,期待一般化誤差と輸送コストの不等式とのバウンド問題とを結びつける。 両方のアプローチの背後にあるパターンを公開することで、それらを一般化し、Kullback-Leibler Divergences/Mutual Informationやサブガウス測度を超えることができます。 特に、函数を含む2つの不等式族と測度を含む1つの不等式の間の同値性を示す結果を提供することができる。 この結果は、輸送コストの不等式と測度の集中を結びつけるbobkovとg\"otzeによって提案されたものである。 さらに、相互情報を含む標準一般化誤差境界を復元し、任意の発散対策を含む新しいより一般的な境界を導入することができる。

In this work, we connect the problem of bounding the expected generalisation error with transportation-cost inequalities. Exposing the underlying pattern behind both approaches we are able to generalise them and go beyond Kullback-Leibler Divergences/Mutual Information and sub-Gaussian measures. In particular, we are able to provide a result showing the equivalence between two families of inequalities: one involving functionals and one involving measures. This result generalises the one proposed by Bobkov and G\"otze that connects transportation-cost inequalities with concentration of measure. Moreover, it allows us to recover all standard generalisation error bounds involving mutual information and to introduce new, more general bounds, that involve arbitrary divergence measures.
翻訳日:2022-02-09 17:38:13 公開日:2022-02-08
# (参考訳) クロスドメインハイパースペクトル画像表現のための自己教師ありコントラスト学習

Self-supervised Contrastive Learning for Cross-domain Hyperspectral Image Representation ( http://arxiv.org/abs/2202.03968v1 )

ライセンス: CC BY 4.0
Hyungtae Lee and Heesung Kwon(参考訳) 近年,セマンティックラベルを使わずに意味のある分類課題の表現を習得する能力によって,自己指導型学習が注目されている。 本稿では,本質的に注釈付けが難しいハイパースペクトル画像に適した自己教師付き学習フレームワークを提案する。 提案するフレームワークアーキテクチャは、クロスドメインCNNを利用して、スペクトル特性の異なる様々なハイパースペクトル画像から表現を学習し、画素レベルのアノテーションがない。 このフレームワークでは、同じ画像内の隣接するスペクトルベクトルが複数の超スペクトル画像を包含する共通表現空間に集束されるコントラスト学習によって、クロスドメイン表現が学習される。 対照的に、異なるハイパースペクトル画像のスペクトルベクトルは、空間内の異なるクラスタに分割される。 コントラスト学習による学習表現を下流課題に効果的に転送することを確認するため,ハイパースペクトル画像の分類タスクを行う。 実験の結果,スクラッチや他のトランスファー学習法から学習したモデルに対して,提案する自己教師あり表現の利点が示された。

Recently, self-supervised learning has attracted attention due to its remarkable ability to acquire meaningful representations for classification tasks without using semantic labels. This paper introduces a self-supervised learning framework suitable for hyperspectral images that are inherently challenging to annotate. The proposed framework architecture leverages cross-domain CNN, allowing for learning representations from different hyperspectral images with varying spectral characteristics and no pixel-level annotation. In the framework, cross-domain representations are learned via contrastive learning where neighboring spectral vectors in the same image are clustered together in a common representation space encompassing multiple hyperspectral images. In contrast, spectral vectors in different hyperspectral images are separated into distinct clusters in the space. To verify that the learned representation through contrastive learning is effectively transferred into a downstream task, we perform a classification task on hyperspectral images. The experimental results demonstrate the advantage of the proposed self-supervised representation over models trained from scratch or other transfer learning methods.
翻訳日:2022-02-09 17:22:56 公開日:2022-02-08
# (参考訳) レインボーの識別プライバシー

Rainbow Differential Privacy ( http://arxiv.org/abs/2202.03974v1 )

ライセンス: CC BY 4.0
Ziqi Zhou, Onur G\"unl\"u, Rafael G. L. D'Oliveira, Muriel M\'edard, Parastoo Sadeghi, and Rafael F. Schaefer(参考訳) 我々は,グラフの彩色に対応するバイナリ関数に制限されたランダム化グラフ彩色から多値関数まで,微分プライベート(dp)機構を設計するための従来のフレームワークを拡張した。 前述したように、データセットはグラフのノードであり、隣接する2つのデータセットはエッジで接続される。 当社の設定では、各データセットが、レインボーと呼ぶメカニズムの可能な出力に対して優先順序を持つと仮定します。 異なる虹色はデータセットのグラフを異なる領域に分割する。 これらの領域の境界でdp機構が予め指定されている場合、少なくとも1つの最適機構が存在することを示す。 さらに、このメカニズムがすべての同じrainbow境界データセットに対して等しく振る舞う場合、問題は線グラフへの射によって大幅に単純化され、解決される。 次に、三元関数の場合の直線グラフの閉形式式を示す。 本論文における三項問合せ処理は,高次元問合せ空間に優先的な問合せ順序で拡張できるほどのリッチさを示すが,その最適性証明は三項証明から直接は従わないように思われる。

We extend a previous framework for designing differentially private (DP) mechanisms via randomized graph colorings that was restricted to binary functions, corresponding to colorings in a graph, to multi-valued functions. As before, datasets are nodes in the graph and any two neighboring datasets are connected by an edge. In our setting, we assume each dataset has a preferential ordering for the possible outputs of the mechanism, which we refer to as a rainbow. Different rainbows partition the graph of datasets into different regions. We show that when the DP mechanism is pre-specified at the boundary of such regions, at most one optimal mechanism can exist. Moreover, if the mechanism is to behave identically for all same-rainbow boundary datasets, the problem can be greatly simplified and solved by means of a morphism to a line graph. We then show closed form expressions for the line graph in the case of ternary functions. Treatment of ternary queries in this paper displays enough richness to be extended to higher-dimensional query spaces with preferential query ordering, but the optimality proof does not seem to follow directly from the ternary proof.
翻訳日:2022-02-09 17:15:32 公開日:2022-02-08
# (参考訳) 弱教師付き学習のためのデータ一貫性

Data Consistency for Weakly Supervised Learning ( http://arxiv.org/abs/2202.03987v1 )

ライセンス: CC BY 4.0
Chidubem Arachie, Bert Huang(参考訳) 多くの応用において、機械学習モデルのトレーニングは、大量の人間の注釈データを使用する。 データの正確なラベルを取得するのはコストがかかる。 代わりに、弱い監督によるトレーニングは、低コストな代替手段を提供する。 本稿では,ノイズの少ないラベル,すなわち弱信号を処理するとともに,トレーニングデータの特徴を考慮し,正確なラベルを生成する新しい弱い監督アルゴリズムを提案する。 本手法は,データ表現の分類器を探索し,妥当なラベリングを求める。 私たちはこのパラダイムデータを、一貫した弱い監視と呼んでいる。 当社のフレームワークの重要な側面は、データサンプルのラベルを低く、あるいは、弱い監督層からカバーできないと見積もることができることです。 また,弱い信号と真のラベルの結合分布については仮定しない。 代わりに、弱い信号とデータ機能を使って、生成するラベル間のデータの一貫性を強制する制約付き最適化を解決します。 異なるデータセット上での手法の実証的評価は,テキスト分類と画像分類の両方において,最先端の弱い監督手法を著しく上回っていることを示している。

In many applications, training machine learning models involves using large amounts of human-annotated data. Obtaining precise labels for the data is expensive. Instead, training with weak supervision provides a low-cost alternative. We propose a novel weak supervision algorithm that processes noisy labels, i.e., weak signals, while also considering features of the training data to produce accurate labels for training. Our method searches over classifiers of the data representation to find plausible labelings. We call this paradigm data consistent weak supervision. A key facet of our framework is that we are able to estimate labels for data examples low or no coverage from the weak supervision. In addition, we make no assumptions about the joint distribution of the weak signals and true labels of the data. Instead, we use weak signals and the data features to solve a constrained optimization that enforces data consistency among the labels we generate. Empirical evaluation of our method on different datasets shows that it significantly outperforms state-of-the-art weak supervision methods on both text and image classification tasks.
翻訳日:2022-02-09 17:01:12 公開日:2022-02-08
# (参考訳) 火山崩壊検出のための自己教師付きコントラスト学習

Self-supervised Contrastive Learning for Volcanic Unrest Detection ( http://arxiv.org/abs/2202.04030v1 )

ライセンス: CC BY-SA 4.0
Nikolaos Ioannis Bountos, Ioannis Papoutsis, Dimitrios Michail, Nantheera Anantrasirichai(参考訳) InSAR(Interferometric Synthetic Aperture Radar)データから測定した地中変形は,火山噴火と統計的に相関した火山活動の兆候と考えられる。 近年の研究では,大域的な火山災害対策に向けて,Sentinel-1 InSARデータとDL(Deep Learning)手法を用いた火山変動信号の検出の可能性が示されている。 しかし、ラベル付きデータの欠如とクラス不均衡により検出精度が損なわれる。 これを解決するために、合成データはimagenetデータセットで事前トレーニングされたdlモデルの微調整に一般的に使用される。 このアプローチは、実際のInSARデータの一般化に苦しむ。 本稿では,ラベルのないInSARデータに隠れた高品質な視覚表現を学習するために,自己指導型コントラスト学習を提案する。 当社のアプローチは,SimCLRフレームワークをベースとして,特殊なアーキテクチャや大規模ラベル付きあるいは合成データセットを必要としないソリューションを提供しています。 自己教師付きパイプラインは最先端手法に対して高い精度を実現でき, 分散テストデータにおいても優れた一般化が得られている。 最後に,最近のアイスランドのファグラダルフジャル火山噴火に先立つ不穏なエピソードを検知する手法の有効性を示す。

Ground deformation measured from Interferometric Synthetic Aperture Radar (InSAR) data is considered a sign of volcanic unrest, statistically linked to a volcanic eruption. Recent studies have shown the potential of using Sentinel-1 InSAR data and supervised deep learning (DL) methods for the detection of volcanic deformation signals, towards global volcanic hazard mitigation. However, detection accuracy is compromised from the lack of labelled data and class imbalance. To overcome this, synthetic data are typically used for finetuning DL models pre-trained on the ImageNet dataset. This approach suffers from poor generalisation on real InSAR data. This letter proposes the use of self-supervised contrastive learning to learn quality visual representations hidden in unlabeled InSAR data. Our approach, based on the SimCLR framework, provides a solution that does not require a specialized architecture nor a large labelled or synthetic dataset. We show that our self-supervised pipeline achieves higher accuracy with respect to the state-of-the-art methods, and shows excellent generalisation even for out-of-distribution test data. Finally, we showcase the effectiveness of our approach for detecting the unrest episodes preceding the recent Icelandic Fagradalsfjall volcanic eruption.
翻訳日:2022-02-09 16:43:10 公開日:2022-02-08
# (参考訳) 物理インフォームドニューラルネットワークによるパラメトリック磁気抵抗問題の解法

Physics-informed neural networks for solving parametric magnetostatic problems ( http://arxiv.org/abs/2202.04041v1 )

ライセンス: CC BY 4.0
Andr\'es Beltr\'an-Pulido, Ilias Bilionis, Dionysios Aliprantis(参考訳) 磁気デバイスの最適設計は、設計パラメータ数が高い場合、現在の計算手法を用いて難解になる。 物理インフォームド深層学習フレームワークは、このような次元の呪いを和らげる可能性がある。 本研究の目的は,2次元(2次元)静磁場問題において,設計パラメータの関数として磁場応答を学習する物理情報ニューラルネットワークの能力を検討することである。 私たちのアプローチは以下の通りです。 2次元パラメトリック磁気静磁場問題の変分原理を導出し、支配物理学、すなわちマクスウェル方程式の方程式を満たす解の存在と一意性を証明する。 深部ニューラルネットワーク(DNN)を用いて、磁場を空間の関数として表現し、幾何学的特徴や操作点条件を記述した合計10のパラメータを表現している。 確率勾配勾配の変種を用いて物理インフォームド・ロス関数を最小化することによりDNNを訓練する。 その後,パラメトリック固有コア電磁石問題を用いて系統的な数値研究を行う。 これらの研究では、100以上の異なる可能性を試すDNNアーキテクチャが異なっています。 各研究において,dnnの精度を有限要素解析の予測と比較し,評価した。 徹底的な非パラメトリック研究では、十分にパラメータ化された高密度ネットワークが1%未満の相対誤差をもたらすことが観察された。 残留接続は常に同じ数のトレーニングイテレーションの相対エラーを改善する。 また,デバイス形状に整合したフーリエ符号化機能は,高次高調波は必要ではないものの,収束率を向上させる。 最後に,パラメータ化幾何を用いた10次元問題に対するアプローチを示す。

The optimal design of magnetic devices becomes intractable using current computational methods when the number of design parameters is high. The emerging physics-informed deep learning framework has the potential to alleviate this curse of dimensionality. The objective of this paper is to investigate the ability of physics-informed neural networks to learn the magnetic field response as a function of design parameters in the context of a two-dimensional (2-D) magnetostatic problem. Our approach is as follows. We derive the variational principle for 2-D parametric magnetostatic problems, and prove the existence and uniqueness of the solution that satisfies the equations of the governing physics, i.e., Maxwell's equations. We use a deep neural network (DNN) to represent the magnetic field as a function of space and a total of ten parameters that describe geometric features and operating point conditions. We train the DNN by minimizing the physics-informed loss function using a variant of stochastic gradient descent. Subsequently, we conduct systematic numerical studies using a parametric EI-core electromagnet problem. In these studies, we vary the DNN architecture trying more than one hundred different possibilities. For each study, we evaluate the accuracy of the DNN by comparing its predictions to those of finite element analysis. In an exhaustive non-parametric study, we observe that sufficiently parameterized dense networks result in relative errors of less than 1%. Residual connections always improve relative errors for the same number of training iterations. Also, we observe that Fourier encoding features aligned with the device geometry do improve the rate of convergence, albeit higher-order harmonics are not necessary. Finally, we demonstrate our approach on a ten-dimensional problem with parameterized geometry.
翻訳日:2022-02-09 16:32:58 公開日:2022-02-08
# (参考訳) sparsistentアルゴリズムによるsparse pcaのエントリワイズリカバリ保証

Entrywise Recovery Guarantees for Sparse PCA via Sparsistent Algorithms ( http://arxiv.org/abs/2202.04061v1 )

ライセンス: CC BY 4.0
Joshua Agterberg and Jeremias Sulam(参考訳) スパース主成分分析 (sparse principal component analysis, pca) は、応用統計の多くの部分分野にわたる一般的なツールである。 いくつかの結果は主固有ベクトルの回復誤差を特徴付けているが、それらは典型的にはスペクトルあるいはフロベニウスノルムである。 本稿では,一般の高次元サブガウジアン設計の下で,スパースpcaに対してエントリワイズ$\ell_{2,\infty}$バウンドを提供する。 特に,本研究の結果は,高い確率で正しいサポートを選択するアルゴリズムであり,スパーシスタントなアルゴリズムである。 提案手法は,提案手法による推定誤差のより詳細な評価を行うことにより,既知結果の精度を向上し,近年,入力空間摂動理論のために開発された手法を用いている。

Sparse Principal Component Analysis (PCA) is a prevalent tool across a plethora of subfields of applied statistics. While several results have characterized the recovery error of the principal eigenvectors, these are typically in spectral or Frobenius norms. In this paper, we provide entrywise $\ell_{2,\infty}$ bounds for Sparse PCA under a general high-dimensional subgaussian design. In particular, our results hold for any algorithm that selects the correct support with high probability, those that are sparsistent. Our bound improves upon known results by providing a finer characterization of the estimation error, and our proof uses techniques recently developed for entrywise subspace perturbation theory.
翻訳日:2022-02-09 16:30:48 公開日:2022-02-08
# インディ・オートマチック・チャレンジ - 自律走行のレースカー。

Indy Autonomous Challenge -- Autonomous Race Cars at the Handling Limits ( http://arxiv.org/abs/2202.03807v1 )

ライセンス: Link先を確認
Alexander Wischnewski, Maximilian Geisslinger, Johannes Betz, Tobias Betz, Felix Fent, Alexander Heilmeier, Leonhard Hermansdorfer, Thomas Herrmann, Sebastian Huch, Phillip Karle, Felix Nobis, Levent \"Ogretmen, Matthias Rowold, Florian Sauerbeck, Tim Stahl, Rainer Trauth, Markus Lienkamp, Boris Lohmann(参考訳) motorsportは常に技術進歩の実現者であり、同じことが自動運転業界にも当てはまる。 TUM Auton-omous Motorsportsは、2021年10月、インディアナポリス・モーター・スピードウェイのダララAV-21レースカー10台のうち1台を走らせることで、自動運転ソフトウェアスタックをベンチマークするインディ・オートマチック・チャレンジに参加する。 論文の最初のパートでは、学術的な観点から自動運転車レースに参加する理由を説明している。 同時に、モータースポーツ関連の軌道安全対策のため、本質的に安全である。 したがって、最も困難で稀な状況をマスターできる自律運転アルゴリズムを開発するための理想的な試験場である。 さらに,ソフトウェア開発ワークフローに関する洞察を提供し,ハードウェア・イン・ザ・ループシミュレーションのセットアップを提示する。 最大8台の自動運転車のシミュレーションをリアルタイムで実行することができる。 本論文の第2部では,ソフトウェアアーキテクチャの概要を概説するとともに,センサ検出範囲の最大化,複数車両状況のリアブル処理,不確実性下での動作制御など,高性能な自律レースソフトウェアの構築における開発優先事項について述べる。

Motorsport has always been an enabler for technological advancement, and the same applies to the autonomous driving industry. The team TUM Auton-omous Motorsports will participate in the Indy Autonomous Challenge in Octo-ber 2021 to benchmark its self-driving software-stack by racing one out of ten autonomous Dallara AV-21 racecars at the Indianapolis Motor Speedway. The first part of this paper explains the reasons for entering an autonomous vehicle race from an academic perspective: It allows focusing on several edge cases en-countered by autonomous vehicles, such as challenging evasion maneuvers and unstructured scenarios. At the same time, it is inherently safe due to the motor-sport related track safety precautions. It is therefore an ideal testing ground for the development of autonomous driving algorithms capable of mastering the most challenging and rare situations. In addition, we provide insight into our soft-ware development workflow and present our Hardware-in-the-Loop simulation setup. It is capable of running simulations of up to eight autonomous vehicles in real time. The second part of the paper gives a high-level overview of the soft-ware architecture and covers our development priorities in building a high-per-formance autonomous racing software: maximum sensor detection range, relia-ble handling of multi-vehicle situations, as well as reliable motion control under uncertainty.
翻訳日:2022-02-09 16:28:58 公開日:2022-02-08
# 多部ネットワークのスペクトル埋め込みと潜時幾何学

Spectral embedding and the latent geometry of multipartite networks ( http://arxiv.org/abs/2202.03945v1 )

ライセンス: Link先を確認
Alexander Modell, Ian Gallagher, Joshua Cape, Patrick Rubin-Delanchy(参考訳) スペクトル埋め込みは、その隣接行列またはラプラシアン行列の固有ベクトルに基づいて、ネットワークのノードのベクトル表現を見つけ、科学全体に応用されている。 このようなネットワークの多くはマルチパーティションであり、ノードはパーティションに分割され、同じパーティションのノードは接続されない。 ネットワークがマルチパーティタイトである場合,高次元空間の分割特異的な低次元部分空間近傍で,スペクトル埋め込みにより得られるノード表現が実演される。 このため、スペクトル埋め込み後の追従ステップを提案し、周囲次元ではなく固有次元のノード表現を復元し、低ランク不均一ランダムグラフモデルの下で一様整合性を示す。 本手法は,バイアジャクシー行列やバイラプラシア行列の特異値分解によってノード表現が得られるバイパルタイトスペクトル埋め込みを自然に一般化する。

Spectral embedding finds vector representations of the nodes of a network, based on the eigenvectors of its adjacency or Laplacian matrix, and has found applications throughout the sciences. Many such networks are multipartite, meaning their nodes can be divided into partitions and nodes of the same partition are never connected. When the network is multipartite, this paper demonstrates that the node representations obtained via spectral embedding live near partition-specific low-dimensional subspaces of a higher-dimensional ambient space. For this reason we propose a follow-on step after spectral embedding, to recover node representations in their intrinsic rather than ambient dimension, proving uniform consistency under a low-rank, inhomogeneous random graph model. Our method naturally generalizes bipartite spectral embedding, in which node representations are obtained by singular value decomposition of the biadjacency or bi-Laplacian matrix.
翻訳日:2022-02-09 16:28:17 公開日:2022-02-08
# 位相ストレッチ適応勾配場エクストラクタ(PAGE)

Phase-Stretch Adaptive Gradient-Field Extractor (PAGE) ( http://arxiv.org/abs/2202.03570v1 )

ライセンス: Link先を確認
Callen MacPhee, Madhuri Suthar, Bahram Jalali(参考訳) phase-stretch adaptive gradient-field extractor (page) は電磁回折と分散の物理に触発されたエッジ検出アルゴリズムである。 画像の明るさが突然変化するデジタル画像において、エッジ、向き、シャープさを識別する計算画像アルゴリズムである。 エッジ検出は目が行う基本的な操作であり、視覚知覚に不可欠である。 PAGEは、元のイメージを、オブジェクトの表現と分類に使用できる機能マップのセットに埋め込む。 このアルゴリズムは、低光度および低コントラスト画像においてエッジおよびテクスチャ抽出器として非常によく機能する。 この原稿は、GitHubリポジトリ https://github.com/JalaliLabUCLAで同時に公開されているオープンソースコードをサポートする準備が整っている。

Phase-Stretch Adaptive Gradient-Field Extractor (PAGE) is an edge detection algorithm that is inspired by physics of electromagnetic diffraction and dispersion. A computational imaging algorithm, it identifies edges, their orientations and sharpness in a digital image where the image brightness changes abruptly. Edge detection is a basic operation performed by the eye and is crucial to visual perception. PAGE embeds an original image into a set of feature maps that can be used for object representation and classification. The algorithm performs exceptionally well as an edge and texture extractor in low light level and low contrast images. This manuscript is prepared to support the open-source code which is being simultaneously made available within the GitHub repository https://github.com/JalaliLabUCLA.
翻訳日:2022-02-09 16:24:10 公開日:2022-02-08
# 非ペアトレーニングデータによる画質指標誘導肖像画線描画

Quality Metric Guided Portrait Line Drawing Generation from Unpaired Training Data ( http://arxiv.org/abs/2202.03678v1 )

ライセンス: Link先を確認
Ran Yi, Yong-Jin Liu, Yu-Kun Lai, Paul L. Rosin(参考訳) 顔の肖像画は、抽象的で表現力に富んだ独特のスタイルの芸術である。 しかし、その意味的制約が高いため、既存の多くの手法は、ペア化されたトレーニングデータを用いてポートレート描画を生成することを学ぶ。 本稿では,顔画像から肖像画への自動変換手法を提案する。この手法は,(1)複数のスタイルで高品質な肖像画を1つのネットワークで作成すること,(2)トレーニングデータに見当たらない「新しいスタイル」の肖像画を作成できること,である。 これらの利点を達成するために,(1)人間の知覚から学習した肖像画の新たな品質指標を提案し,(2)画質損失を導入し,より見栄えの良い肖像画を描くためのネットワークを導出する。 我々は,CycleGANのような既存の未完成の翻訳手法が,画像領域と肖像画領域の間に重要な情報不均衡のため,図面全体に見えない復元情報を無差別に埋め込む傾向があることを観察した。 そこで本研究では,この問題を解決するために,再構成情報を可視化し,選択した顔面領域にのみ埋め込む新しい非対称サイクルマッピングを提案する。 重要な顔領域に対する局所的判別器とともに, 生成した図面におけるすべての顔特徴を良好に保存する。 さらに,ジェネレータの分解により,図面生成中に顔の意味情報を組み込む方法が学習された。 ユーザスタディを含む広範な実験により,本モデルが最先端手法よりも優れていることが示された。

Face portrait line drawing is a unique style of art which is highly abstract and expressive. However, due to its high semantic constraints, many existing methods learn to generate portrait drawings using paired training data, which is costly and time-consuming to obtain. In this paper, we propose a novel method to automatically transform face photos to portrait drawings using unpaired training data with two new features; i.e., our method can (1) learn to generate high quality portrait drawings in multiple styles using a single network and (2) generate portrait drawings in a "new style" unseen in the training data. To achieve these benefits, we (1) propose a novel quality metric for portrait drawings which is learned from human perception, and (2) introduce a quality loss to guide the network toward generating better looking portrait drawings. We observe that existing unpaired translation methods such as CycleGAN tend to embed invisible reconstruction information indiscriminately in the whole drawings due to significant information imbalance between the photo and portrait drawing domains, which leads to important facial features missing. To address this problem, we propose a novel asymmetric cycle mapping that enforces the reconstruction information to be visible and only embedded in the selected facial regions. Along with localized discriminators for important facial regions, our method well preserves all important facial features in the generated drawings. Generator dissection further explains that our model learns to incorporate face semantic information during drawing generation. Extensive experiments including a user study show that our model outperforms state-of-the-art methods.
翻訳日:2022-02-09 16:23:58 公開日:2022-02-08
# 残差を異常スコアとして用いた際の落とし穴について

On the Pitfalls of Using the Residual Error as Anomaly Score ( http://arxiv.org/abs/2202.03826v1 )

ライセンス: Link先を確認
Felix Meissen, Benedikt Wiestler, Georgios Kaissis, Daniel Rueckert(参考訳) 医療画像における異常局在に関する最新の手法の多くは、潜在的な異常入力画像とその「健康」再構成の間の残像の計算に依存している。 異常領域の再建は誤る必要があるため,医用画像の異常を検出するスコアとして大きな残像が得られた。 しかし、この仮定は、使用する機械学習モデルの完全な再構築による残差を考慮していない。 このような誤差は容易に関心の残差を覆すことができ、したがって残像をスコアリング関数として使うことに強く疑問を呈する。 我々の研究は、残像のこの根本的な問題を詳細に探求している。 この問題を理論的に定義し,不完全な再構築の効果に対する異常の強度とテクスチャの影響を,一連の実験で徹底的に評価する。 コードと実験はhttps://github.com/FeliMe/residual-score-pitfallsで利用可能である。

Many current state-of-the-art methods for anomaly localization in medical images rely on calculating a residual image between a potentially anomalous input image and its "healthy" reconstruction. As the reconstruction of the unseen anomalous region should be erroneous, this yields large residuals as a score to detect anomalies in medical images. However, this assumption does not take into account residuals resulting from imperfect reconstructions of the machine learning models used. Such errors can easily overshadow residuals of interest and therefore strongly question the use of residual images as scoring function. Our work explores this fundamental problem of residual images in detail. We theoretically define the problem and thoroughly evaluate the influence of intensity and texture of anomalies against the effect of imperfect reconstructions in a series of experiments. Code and experiments are available under https://github.com/FeliMe/residual-score-pitfalls
翻訳日:2022-02-09 16:23:31 公開日:2022-02-08
# cbct適応放射線治療のためのテストタイム最適化(tto)によるセグメンテーション

Segmentation by Test-Time Optimization (TTO) for CBCT-based Adaptive Radiation Therapy ( http://arxiv.org/abs/2202.03978v1 )

ライセンス: Link先を確認
Xiao Liang, Jaehee Chun, Howard Morgan, Ti Bai, Dan Nguyen, Justin C. Park, Steve Jiang(参考訳) オンライン適応放射線療法 (ART) は, 主にコーンビームCT(CBCT)画像において, 目標体積と臓器病変(OAR)の自動分離を正確かつ効率的に行う必要がある。 従来型または深層学習(DL)に基づく変形性画像登録(DIR)による前処理計画CT(pCT)からのエキスパート描画輪郭の伝播は,多くの状況において改善される。 典型的なdlベースのdirモデルは、患者集団のデータセットで訓練された人口ベースであり、一般化可能性の問題に影響を受ける可能性がある。 本稿では,まず個別の検査患者に対してdlベースのdir人口モデルを洗練し,次にオンラインアート処理の分画毎に段階的に改善するテストタイム最適化(tto)法を提案する。 提案手法は, 一般化可能性問題の影響を受けにくいため, モデル精度を向上し, 特に外れ値に対して, 異なるDLベースDIRモデルの全体的な性能を向上させることができる。 頭頸部扁平上皮癌239例のデータを用いて検討した。 まず,200名の患者を対象に集団モデルを訓練し,残りの39名の患者にTTOを適用して39名の個別化モデルを得た。 分割精度の観点から,各個体群モデルと個体群モデルを比較した。 TTOによる少なくとも0.05 DSC改善または2mm HD95改善の患者は、最先端のVoxelmorphで選択された17の構造物で平均して39例中10例である。 事前学習した人口モデルからTTOを用いた個別化モデルを導出する平均時間はおよそ4分である。 同一患者の後続分数に個別化モデルを適用する場合、平均時間を約1分に短縮し、精度をわずかに向上させる。

Online adaptive radiotherapy (ART) requires accurate and efficient auto-segmentation of target volumes and organs-at-risk (OARs) in mostly cone-beam computed tomography (CBCT) images. Propagating expert-drawn contours from the pre-treatment planning CT (pCT) through traditional or deep learning (DL) based deformable image registration (DIR) can achieve improved results in many situations. Typical DL-based DIR models are population based, that is, trained with a dataset for a population of patients, so they may be affected by the generalizability problem. In this paper, we propose a method called test-time optimization (TTO) to refine a pre-trained DL-based DIR population model, first for each individual test patient, and then progressively for each fraction of online ART treatment. Our proposed method is less susceptible to the generalizability problem, and thus can improve overall performance of different DL-based DIR models by improving model accuracy, especially for outliers. Our experiments used data from 239 patients with head and neck squamous cell carcinoma to test the proposed method. Firstly, we trained a population model with 200 patients, and then applied TTO to the remaining 39 test patients by refining the trained population model to obtain 39 individualized models. We compared each of the individualized models with the population model in terms of segmentation accuracy. The number of patients with at least 0.05 DSC improvement or 2 mm HD95 improvement by TTO averaged over the 17 selected structures for the state-of-the-art architecture Voxelmorph is 10 out of 39 test patients. The average time for deriving the individualized model using TTO from the pre-trained population model is approximately four minutes. When adapting the individualized model to a later fraction of the same patient, the average time is reduced to about one minute and the accuracy is slightly improved.
翻訳日:2022-02-09 16:21:58 公開日:2022-02-08
# newskvqa: ナレッジアウェアなニュースビデオの質問に答える

NEWSKVQA: Knowledge-Aware News Video Question Answering ( http://arxiv.org/abs/2202.04015v1 )

ライセンス: Link先を確認
Pranay Gupta and Manish Gupta(参考訳) ビデオの文脈で質問に答えることは、ビデオインデクシング、ビデオ検索システム、ビデオ要約、学習管理システム、監視ビデオ分析において有用である。 視覚的質問応答に関する研究は多数存在するが、ビデオ質問応答(1)は映画、テレビ番組、ゲームプレイ、ヒューマンアクティビティなどの領域に限定され、(2)は常識推論に基づくものが多い。 本稿では,ニュースビデオの文脈における知識に基づく質問への回答という,ビデオ質問応答の新たなフロンティアについて検討する。 この目的のために、8263のユニークなエンティティをカバーする100万の質問応答ペアを用いて、156時間にまたがる12Kのニュースビデオのデータセットをキュレートする。 データセットを公開しています。 このデータセットを用いて,複数の質問,ビデオ,書き起こし,知識ベースをマルチモーダルで参照し,強いベースラインを示す,newskvqa(knowledge-aware news video question answering)という新しい手法を提案する。

Answering questions in the context of videos can be helpful in video indexing, video retrieval systems, video summarization, learning management systems and surveillance video analysis. Although there exists a large body of work on visual question answering, work on video question answering (1) is limited to domains like movies, TV shows, gameplay, or human activity, and (2) is mostly based on common sense reasoning. In this paper, we explore a new frontier in video question answering: answering knowledge-based questions in the context of news videos. To this end, we curate a new dataset of 12K news videos spanning across 156 hours with 1M multiple-choice question-answer pairs covering 8263 unique entities. We make the dataset publicly available. Using this dataset, we propose a novel approach, NEWSKVQA (Knowledge-Aware News Video Question Answering) which performs multi-modal inferencing over textual multiple-choice questions, videos, their transcripts and knowledge base, and presents a strong baseline.
翻訳日:2022-02-09 16:21:27 公開日:2022-02-08
# 不平衡最適輸送のための勾配外挿法の収束について

On the Convergence of Gradient Extrapolation Methods for Unbalanced Optimal Transport ( http://arxiv.org/abs/2202.03618v1 )

ライセンス: Link先を確認
Quang Minh Nguyen, Hoang H. Nguyen, Yi Zhou, Lam M. Nguyen(参考訳) 標準最適輸送(OT)の限界制約は、正規化係数$\tau$でクルバック・リーブラー分散(Kullback-Leibler divergence)を介して緩和される。 グラデーション外挿法(gem-uot)に基づく新しいアルゴリズムを提案し、uot問題に対する$o\big( \kappa n^2 \log\big(\frac{\tau n}{\varepsilon}\big) \big)$,ただし$\kappa$は2つの入力測度のみに依存する条件数である。 唯一の既知の複雑性である${o}\big(\tfrac{\tau n^2 \log(n)}{\varepsilon} \log\big(\tfrac{\log(n)}{{\varepsilon}}\big)\big)$ をシンクホーンアルゴリズムで解くために、我々は$\varepsilon$の方が優れており、$\tau$に対するシンクホーンの線形依存を持ち上げている。 この証明手法は、2乗の$\ell_2$-norm正規化uot目的の新たな二重定式化に基づいているが、これは独立興味を持ち、輸送計画と輸送距離の両方の観点から、uotとotの近似誤差の新たなキャラクタリゼーションにつながる。 この目的のために、我々はさらに、$\tau$ の微調整された gem-uot とプロセス後の投影ステップに基づいて、標準 ot 問題に対する $o\big( \kappa n^2 \log\big(\frac{ n}{\varepsilon}\big) \big)$ の $\varepsilon$-approximate solution を見つけるアルゴリズムを提示する。 合成データと実データに関する広範な実験は,理論を検証し,実際の手法の良好な性能を示す。

We study the Unbalanced Optimal Transport (UOT) between two measures of possibly different masses with at most $n$ components, where marginal constraints of the standard Optimal Transport (OT) are relaxed via Kullback-Leibler divergence with regularization factor $\tau$. We propose a novel algorithm based on Gradient Extrapolation Method (GEM-UOT) to find an $\varepsilon$-approximate solution to the UOT problem in $O\big( \kappa n^2 \log\big(\frac{\tau n}{\varepsilon}\big) \big)$, where $\kappa$ is the condition number depending on only the two input measures. Compared to the only known complexity ${O}\big(\tfrac{\tau n^2 \log(n)}{\varepsilon} \log\big(\tfrac{\log(n)}{{\varepsilon}}\big)\big)$ for solving the UOT problem via the Sinkhorn algorithm, ours is better in $\varepsilon$ and lifts Sinkhorn's linear dependence on $\tau$, which hindered its practicality to approximate the standard OT via UOT. Our proof technique is based on a novel dual formulation of the squared $\ell_2$-norm regularized UOT objective, which is of independent interest and also leads to a new characterization of approximation error between UOT and OT in terms of both the transportation plan and transport distance. To this end, we further present an algorithm, based on GEM-UOT with fine tuned $\tau$ and a post-process projection step, to find an $\varepsilon$-approximate solution to the standard OT problem in $O\big( \kappa n^2 \log\big(\frac{ n}{\varepsilon}\big) \big)$, which is a new complexity in the literature of OT. Extensive experiments on synthetic and real datasets validate our theories and demonstrate the favorable performance of our methods in practice.
翻訳日:2022-02-09 16:20:00 公開日:2022-02-08
# 信号マップの統一予測フレームワーク

A Unified Prediction Framework for Signal Maps ( http://arxiv.org/abs/2202.03679v1 )

ライセンス: Link先を確認
Emmanouil Alimpertis (1), Athina Markopoulou (1), Carter T. Butts (1), Evita Bakopoulou (1), Konstantinos Psounis (2) ((1) University of California Irvine (2) University of Southern California)(参考訳) セルラーネットワークの計画と運用には信号マップが不可欠である。 しかし、そのような地図を作成するのに必要な測定値は高価で、しばしば偏りがあり、常に関心の指標を反映しているとは限らない。 本稿では,限られた測定値から細胞信号マップを予測するための統一フレームワークを開発した。 我々は,全ての測定が特定の予測タスクにおいて等しく重要であるわけではないという事実に対処する3つのメカニズムを提案し,組み合わせる。 まず、信号強度(RSRP)を含む‘emph{quality-of-service’関数(Q$)を設計すると同時に、カバレッジ(76\%-92\%のリコール改善)やコールドロップ確率(32\%のエラー低減)など、他の関心の指標も設計する。 トレーニング損失関数を暗黙的に変更することで、品質関数はRSRP自体の重要箇所の予測を改善することができる(例えば、エラーが重要となる低信号強度レギュレーションにおいて、MSEの最大27%の削減)。 第二に、特徴空間の異なる部分における予測の相対的重要性を特定するために、emph{weight function}(W$)を導入する。 本研究では、サンプリングとターゲット分布のミスマッチ(空間的均一な損失やユーザ人口密度に対する目標に対する20倍の改善)において、重要サンプリングに基づく再重み付けを提案する。 第3に、"em data shapley} フレームワークをこのコンテキストで初めて適用する。 予測タスクへの貢献の重要性を捉えた個々の測定ポイントに値($\phi$)を割り当てる。 これにより、負の値を持つ点を取り除くことによって予測(カバレッジ損失のリコール時の64\%から94\%)を改善でき、データ最小化(つまり、データw/o損失の70\%を性能で排除できることを示す)も可能となる。 いくつかの実世界のデータセットを用いて,提案手法を評価し,予測性能を大幅に改善した。

Signal maps are essential for the planning and operation of cellular networks. However, the measurements needed to create such maps are expensive, often biased, not always reflecting the metrics of interest, and posing privacy risks. In this paper, we develop a unified framework for predicting cellular signal maps from limited measurements. We propose and combine three mechanisms that deal with the fact that not all measurements are equally important for a particular prediction task. First, we design \emph{quality-of-service functions ($Q$)}, including signal strength (RSRP) but also other metrics of interest, such as coverage (improving recall by 76\%-92\%) and call drop probability (reducing error by as much as 32\%). By implicitly altering the training loss function, quality functions can also improve prediction for RSRP itself where it matters (e.g. MSE reduction up to 27\% in the low signal strength regime, where errors are critical). Second, we introduce \emph{weight functions} ($W$) to specify the relative importance of prediction at different parts of the feature space. We propose re-weighting based on importance sampling to obtain unbiased estimators when the sampling and target distributions mismatch(yielding 20\% improvement for targets on spatially uniform loss or on user population density). Third, we apply the {\em Data Shapley} framework for the first time in this context: to assign values ($\phi$) to individual measurement points, which capture the importance of their contribution to the prediction task. This can improve prediction (e.g. from 64\% to 94\% in recall for coverage loss) by removing points with negative values, and can also enable data minimization (i.e. we show that we can remove 70\% of data w/o loss in performance). We evaluate our methods and demonstrate significant improvement in prediction performance, using several real-world datasets.
翻訳日:2022-02-09 16:17:42 公開日:2022-02-08
# 医療データの個人別フェデレーション・サバイバル分析の実践的課題

Practical Challenges in Differentially-Private Federated Survival Analysis of Medical Data ( http://arxiv.org/abs/2202.03758v1 )

ライセンス: Link先を確認
Shadi Rahimian, Raouf Kerkouche, Ina Kurth, Mario Fritz(参考訳) サバイバル分析(Survival analysis)またはタイム・ツー・イベント分析(Time-to-event analysis)は、集団や個人において、関心事が起こるのにかかる時間をモデル化し、予測することを目的としている。 医学的な文脈では、この出来事は、死亡、転移、がんの再発などの時期かもしれません。 近年,生存分析に特化して設計されたニューラルネットワークの利用が普及し,従来の手法に代わる魅力的な選択肢となっている。 本稿では,ニューラルネットワークの本質的特性を利用して,これらのモデルのトレーニングプロセスを統合する。 医療分野において、データが不足し、複数の医療センターの連携が、治療や疾患の性質について決定的に決定する上で不可欠であるため、これは重要である。 データセットのプライバシを確保するために、フェデレーション学習の上に差分プライバシーを利用するのが一般的である。 異なるプライバシは、トレーニングの異なる段階にランダムノイズを導入することで作用するため、相手がデータの詳細を抽出することが難しくなる。 しかし、小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズによってモデルが収束することが難しくなる。 この問題に対処するために,プライベートフェデレーション学習方式に後処理段階を追加するdpfed-postを提案する。 この追加ステップは、ノイズの平均パラメータ更新の大きさとモデルの収束を容易にするのに役立つ。 実験では,各保健所が数百レコードしか保持していない現実的な環境で3つの実世界データセットを選択し,dpfed-postが,標準の差分型フェデレート学習方式と比較して,最大17-%のコストでモデルの性能を向上できることを示した。

Survival analysis or time-to-event analysis aims to model and predict the time it takes for an event of interest to happen in a population or an individual. In the medical context this event might be the time of dying, metastasis, recurrence of cancer, etc. Recently, the use of neural networks that are specifically designed for survival analysis has become more popular and an attractive alternative to more traditional methods. In this paper, we take advantage of the inherent properties of neural networks to federate the process of training of these models. This is crucial in the medical domain since data is scarce and collaboration of multiple health centers is essential to make a conclusive decision about the properties of a treatment or a disease. To ensure the privacy of the datasets, it is common to utilize differential privacy on top of federated learning. Differential privacy acts by introducing random noise to different stages of training, thus making it harder for an adversary to extract details about the data. However, in the realistic setting of small medical datasets and only a few data centers, this noise makes it harder for the models to converge. To address this problem, we propose DPFed-post which adds a post-processing stage to the private federated learning scheme. This extra step helps to regulate the magnitude of the noisy average parameter update and easier convergence of the model. For our experiments, we choose 3 real-world datasets in the realistic setting when each health center has only a few hundred records, and we show that DPFed-post successfully increases the performance of the models by an average of up to $17\%$ compared to the standard differentially private federated learning scheme.
翻訳日:2022-02-09 16:17:08 公開日:2022-02-08
# インテリジェントチュータシステムのためのトランスファー可能な学生パフォーマンスモデリング

Transferable Student Performance Modeling for Intelligent Tutoring Systems ( http://arxiv.org/abs/2202.03980v1 )

ライセンス: Link先を確認
Robin Schmucker, Tom M. Mitchell(参考訳) 世界中の何百万人もの学習者が知的学習システム(ITS)を使用している。 その中核であるITSは、パーソナライズされた命令を提供するために、各ユーザのパフォーマンスレベルの変化を追跡する機械学習アルゴリズムに依存している。 重要となるのは,過去の学習者のインタラクションシーケンスデータを用いて生徒のパフォーマンスモデルを訓練し,将来の学習者によって生成されたデータを分析することである。 これにより、トレーニングデータがない新しいコースが導入されると、コールドスタート問題が発生する。 本稿では,既存のコースのログデータを活用することで,新しいコースの正確な性能予測を行う方法として転送学習手法を検討する。 私たちは2つの設定を研究します (i)naive転送設定では,任意のコースに適用可能なコース非依存のパフォーマンスモデルを提案する。 (II) 誘導伝達設定では, 小型目標コースデータ(パイロット実験で収集した等)を用いて, 事前学習したコース非依存のパフォーマンスモデルを新たなコースに調整する。 実世界の大規模ITSにおける47,000人以上の学生のデータを含む5つの数学コースの学生相互作用シーケンスデータを用いて,提案手法の評価を行った。 人的領域の専門家によって提供される追加機能(例えば、新しいコースの質問に対する難易度評価など)を利用するコース非依存モデルでは、新しいコースの学生インタラクショントレーニングデータがないため、新しいコースの何千人もの学生のトレーニングデータを使用する標準的なBKTやPFAモデルと同等の精度で予測できる。 インダクティブな設定では,学生インタラクショントレーニングデータ(100名)のみを両立させることで,従来のパフォーマンスモデルよりも正確な予測を行うことができる。

Millions of learners worldwide are now using intelligent tutoring systems (ITSs). At their core, ITSs rely on machine learning algorithms to track each user's changing performance level over time to provide personalized instruction. Crucially, student performance models are trained using interaction sequence data of previous learners to analyse data generated by future learners. This induces a cold-start problem when a new course is introduced for which no training data is available. Here, we consider transfer learning techniques as a way to provide accurate performance predictions for new courses by leveraging log data from existing courses. We study two settings: (i) In the naive transfer setting, we propose course-agnostic performance models that can be applied to any course. (ii) In the inductive transfer setting, we tune pre-trained course-agnostic performance models to new courses using small-scale target course data (e.g., collected during a pilot study). We evaluate the proposed techniques using student interaction sequence data from 5 different mathematics courses containing data from over 47,000 students in a real world large-scale ITS. The course-agnostic models that use additional features provided by human domain experts (e.g, difficulty ratings for questions in the new course) but no student interaction training data for the new course, achieve prediction accuracy on par with standard BKT and PFA models that use training data from thousands of students in the new course. In the inductive setting our transfer learning approach yields more accurate predictions than conventional performance models when only limited student interaction training data (<100 students) is available to both.
翻訳日:2022-02-09 16:16:37 公開日:2022-02-08
# PrivFair: プライバシー保護フェアネス監査のためのライブラリ

PrivFair: a Library for Privacy-Preserving Fairness Auditing ( http://arxiv.org/abs/2202.04058v1 )

ライセンス: Link先を確認
Sikha Pentyala, David Melanson, Martine De Cock, Golnoosh Farnadi(参考訳) 機械学習(ML)は、医療、司法、金融など、人々の生活の質に直接影響を及ぼすアプリケーションで顕著になっている。 MLモデルは、性別、人種、障害などのセンシティブな属性に基づいた差別を示す。 mlモデルにバイアスがないかどうかを評価することは、いまだに難しい課題であり、定義上、差別防止法やデータ保護法の対象となる繊細なユーザー特性で行わなければならない。 mlモデルの公正監査のための既存のライブラリは、監査データのプライバシーを保護するメカニズムを提供していません。 MLモデルのプライバシ保護フェアネス監査のためのライブラリであるPrivFairを紹介する。 Secure Multiparty Computation (MPC) を用いることで、監査対象のモデルの機密性と監査に使用する機密データを保護し、企業が所有する独自分類器が外部調査員の機密監査データを使用して監査されるシナリオをサポートする。 文書データや画像データを用いたグループフェアネス監査にPrivFairを用いることで,調査員が暗号化されていない方法でデータを公開したり,モデル所有者がモデルパラメータを平文で公開したりすることなく,グループフェアネス監査にPivFairを活用できることを実証する。

Machine learning (ML) has become prominent in applications that directly affect people's quality of life, including in healthcare, justice, and finance. ML models have been found to exhibit discrimination based on sensitive attributes such as gender, race, or disability. Assessing if an ML model is free of bias remains challenging to date, and by definition has to be done with sensitive user characteristics that are subject of anti-discrimination and data protection law. Existing libraries for fairness auditing of ML models offer no mechanism to protect the privacy of the audit data. We present PrivFair, a library for privacy-preserving fairness audits of ML models. Through the use of Secure Multiparty Computation (MPC), \textsc{PrivFair} protects the confidentiality of the model under audit and the sensitive data used for the audit, hence it supports scenarios in which a proprietary classifier owned by a company is audited using sensitive audit data from an external investigator. We demonstrate the use of PrivFair for group fairness auditing with tabular data or image data, without requiring the investigator to disclose their data to anyone in an unencrypted manner, or the model owner to reveal their model parameters to anyone in plaintext.
翻訳日:2022-02-09 16:16:10 公開日:2022-02-08
# プライベート5Gを用いたエッジ型発熱スクリーニングシステム

Edge-based fever screening system over private 5G ( http://arxiv.org/abs/2202.03917v1 )

ライセンス: Link先を確認
Murugan Sankaradas, Kunal Rao, Ravi Rajendran, Amit Redkar and Srimat Chakradhar(参考訳) エッジコンピューティングと5gは、データソースに近い分析を実行し、集中型クラウドデプロイメントでは不可能である超低レイテンシ応答時間を達成することができる。 本稿では、エッジ機械学習技術を用いて、プライベートな5gを利用して、発熱のある個人を正確に識別し、リアルタイムに表示する新しいフィーバースクリーニングシステムを提案する。 特に,エッジにおけるクロススペクトルデータストリームと熱データストリームの融合とアライメントのための深層学習に基づく新しい手法を提案する。 CS-GAN(Cross-Spectral Generative Adversarial Network)は、視覚スペクトルと熱スペクトルを一意に関連付けるために必要な、重要な、代表的オブジェクトレベルの特徴を持つ視覚画像を合成する。 CS-GANの2つの重要な特徴は、対応するクロススペクトルオブジェクトの高品質なペアリングをもたらす新しい特徴保存損失関数と、リアルタイム推論を加速するだけでなく、エッジでのモデルトレーニング中に収束を高速化するスキップ接続(新しいネットワーク拡張)を持つ二重ボトルネック残差層である。 われわれの知る限り、これは5Gネットワークと限られたエッジリソースを活用して、視覚的および熱的ストリームにおけるオブジェクトのリアルタイムな特徴レベルの関連を可能にする最初の技術である(Intel Core i7-8650 4コア、1.9GHzモバイルプロセッサ上では、フルHDフレームが30ミリ秒)。 我々の知る限り、このシステムは、アリーナ、テーマパーク、空港、その他の重要な施設の従業員や客の発熱スクリーニングを可能にする、リアルタイム運用を実現する最初のシステムでもある。 エッジコンピューティングと5Gを活用することで、私たちの熱スクリーニングシステムは98.5%の精度を達成でき、集中型クラウドデプロイメントと比較して約5倍の人を処理できます。

Edge computing and 5G have made it possible to perform analytics closer to the source of data and achieve super-low latency response times, which is not possible with centralized cloud deployment. In this paper, we present a novel fever-screening system, which uses edge machine learning techniques and leverages private 5G to accurately identify and screen individuals with fever in real-time. Particularly, we present deep-learning based novel techniques for fusion and alignment of cross-spectral visual and thermal data streams at the edge. Our novel Cross-Spectral Generative Adversarial Network (CS-GAN) synthesizes visual images that have the key, representative object level features required to uniquely associate objects across visual and thermal spectrum. Two key features of CS-GAN are a novel, feature-preserving loss function that results in high-quality pairing of corresponding cross-spectral objects, and dual bottleneck residual layers with skip connections (a new, network enhancement) to not only accelerate real-time inference, but to also speed up convergence during model training at the edge. To the best of our knowledge, this is the first technique that leverages 5G networks and limited edge resources to enable real-time feature-level association of objects in visual and thermal streams (30 ms per full HD frame on an Intel Core i7-8650 4-core, 1.9GHz mobile processor). To the best of our knowledge, this is also the first system to achieve real-time operation, which has enabled fever screening of employees and guests in arenas, theme parks, airports and other critical facilities. By leveraging edge computing and 5G, our fever screening system is able to achieve 98.5% accuracy and is able to process about 5X more people when compared to a centralized cloud deployment.
翻訳日:2022-02-09 16:15:47 公開日:2022-02-08
# 設計問題に対する共形予測

Conformal prediction for the design problem ( http://arxiv.org/abs/2202.03613v1 )

ライセンス: Link先を確認
Clara Fannjiang, Stephen Bates, Anastasios Angelopoulos, Jennifer Listgarten, Michael I. Jordan(参考訳) 機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。 例えば、タンパク質設計問題において、タンパク質配列の実際の値特性を予測する回帰モデルがあり、トレーニングデータで観測されるよりも高い特性値を示すと考えられる新しい配列を提案する。 ウェットラボにおける設計シーケンスの検証は一般的にコストがかかるため、モデルの予測をどれだけ信頼できるかを知ることが重要である。 しかし、そのような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある:トレーニングデータとテストデータが統計的に依存している場合、後者が前者に基づいて選択される。 したがって、テストデータ(すなわち、設計されたシーケンス)におけるモデルのエラーは、トレーニングデータに対するエラーと非自明な関係を持つ。 そこで本研究では,予測の不確かさを定量化する手法を提案する。 我々は、トレーニングデータとテストデータ間の依存性を考慮した予測のための信頼セットを構築する。 我々の構成する信頼度集合は、訓練されたモデルがテスト時間入力分布を選択した場合でも、任意の予測アルゴリズムを保持できる有限サンプル保証を持つ。 モチベーション・ユースケースとして,複数の実データを用いた設計タンパク質の適合性予測の不確かさを定量化する手法を提案する。

In many real-world deployments of machine learning, we use a prediction algorithm to choose what data to test next. For example, in the protein design problem, we have a regression model that predicts some real-valued property of a protein sequence, which we use to propose new sequences believed to exhibit higher property values than observed in the training data. Since validating designed sequences in the wet lab is typically costly, it is important to know how much we can trust the model's predictions. In such settings, however, there is a distinct type of distribution shift between the training and test data: one where the training and test data are statistically dependent, as the latter is chosen based on the former. Consequently, the model's error on the test data -- that is, the designed sequences -- has some non-trivial relationship with its error on the training data. Herein, we introduce a method to quantify predictive uncertainty in such settings. We do so by constructing confidence sets for predictions that account for the dependence between the training and test data. The confidence sets we construct have finite-sample guarantees that hold for any prediction algorithm, even when a trained model chooses the test-time input distribution. As a motivating use case, we demonstrate how our method quantifies uncertainty for the predicted fitness of designed protein using several real data sets.
翻訳日:2022-02-09 16:13:32 公開日:2022-02-08
# 優先型コミュニケーション学習によるマルチエージェントパス探索

Multi-Agent Path Finding with Prioritized Communication Learning ( http://arxiv.org/abs/2202.03634v1 )

ライセンス: Link先を確認
Wenhao Li, Hongjun Chen, Bo Jin, Wenzhe Tan, Hongyuan Zha, Xiangfeng Wang(参考訳) マルチエージェントパス探索(MAPF)は、自動化倉庫など、大規模な現実世界の問題を解決するために広く用いられている。 リアルタイム問題の軽減と最適な計画方針の追求を同時に行うために,学習ベースの完全分散フレームワークが導入された。 しかし、既存の手法は、衝突と呼ばれる)頂点の衝突を著しく増加させ、成功率が低いか、あるいはより多くの分裂を引き起こす可能性がある。 本稿では,分散型マルチエージェント強化学習フレームワークにおけるコミュニケーショントポロジに暗黙の計画優先順位を組み込んだ,PrIoritized Communication Learning(PICO)を提案する。 古典的な結合プランナーと組み合わせることで、暗黙の優先学習モジュールを使用して動的通信トポロジを形成し、効果的な衝突回避機構を構築することができる。 PICOは、最先端の学習ベースプランナーよりも、成功率と衝突率の両方において、大規模なマルチエージェントパス探索タスクにおいて、大幅に改善されている。

Multi-agent path finding (MAPF) has been widely used to solve large-scale real-world problems, e.g. automation warehouse. The learning-based fully decentralized framework has been introduced to simultaneously alleviate real-time problem and pursuit the optimal planning policy. However, existing methods might generate significantly more vertex conflicts (called collision), which lead to low success rate or more makespan. In this paper, we propose a PrIoritized COmmunication learning method (PICO), which incorporates the implicit planning priorities into the communication topology within the decentralized multi-agent reinforcement learning framework. Assembling with the classic coupled planners, the implicit priority learning module can be utilized to form the dynamic communication topology, which also build an effective collision-avoiding mechanism. PICO performs significantly better in large-scale multi-agent path finding tasks in both success rates and collision rates than state-of-the-art learning-based planners.
翻訳日:2022-02-09 16:13:10 公開日:2022-02-08
# 分散機械学習のための勾配追跡法の改良

An Improved Analysis of Gradient Tracking for Decentralized Machine Learning ( http://arxiv.org/abs/2202.03836v1 )

ライセンス: Link先を確認
Anastasia Koloskova, Tao Lin, Sebastian U. Stich(参考訳) トレーニングデータを$n$のエージェントに分散するネットワーク上での分散機械学習について検討し、各エージェントがローカルデータの確率的モデル更新を計算する。 エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。 勾配追跡(GT)アルゴリズムは、労働者の局所データ分布の違いを考慮し、重要な課題を克服することができるが、GTアルゴリズムの既知の収束率は、混合パラメータ$p$(接続行列のスペクトルギャップに関連する)への依存に関して最適ではない。 本稿では, 確率論的凸, 凸, 非凸設定におけるGT法をより厳密に解析する。 我々は、$p$から$\mathcal{O}(p^{-2})$から$\mathcal{O}(p^{-1}c^{-1})$への依存を改善し、$\mathcal{O}(p^{-3/2})$から$\mathcal{O}(p^{-1/2}c^{-1})$への依存を改善する。 この改善は、独立した興味を持つことができる新しい証明技術によって可能になった。

We consider decentralized machine learning over a network where the training data is distributed across $n$ agents, each of which can compute stochastic model updates on their local data. The agent's common goal is to find a model that minimizes the average of all local loss functions. While gradient tracking (GT) algorithms can overcome a key challenge, namely accounting for differences between workers' local data distributions, the known convergence rates for GT algorithms are not optimal with respect to their dependence on the mixing parameter $p$ (related to the spectral gap of the connectivity matrix). We provide a tighter analysis of the GT method in the stochastic strongly convex, convex and non-convex settings. We improve the dependency on $p$ from $\mathcal{O}(p^{-2})$ to $\mathcal{O}(p^{-1}c^{-1})$ in the noiseless case and from $\mathcal{O}(p^{-3/2})$ to $\mathcal{O}(p^{-1/2}c^{-1})$ in the general stochastic case, where $c \geq p$ is related to the negative eigenvalues of the connectivity matrix (and is a constant in most practical applications). This improvement was possible due to a new proof technique which could be of independent interest.
翻訳日:2022-02-09 16:12:55 公開日:2022-02-08
# 自己監督訓練による教師なし音源分離

Unsupervised Source Separation via Self-Supervised Training ( http://arxiv.org/abs/2202.03875v1 )

ライセンス: Link先を確認
Ertu\u{g} Karamatl{\i}, Serap K{\i}rb{\i}z(参考訳) そこで本研究では,単チャネル2音源混合音声からの自己教師あり学習を含む2つの非教師なし(blind)音源分離法を提案する。 最初の方法は、置換不変性トレーニング(PIT)を用いて、元の混合物を人工的に生成した混合物を元の混合物に分離し、混合置換不変性トレーニング(MixPIT)と名付けた。 私たちは、この難しい目標が、基礎となるソースを分離する学習のための有効なプロキシタスクであることに気付きました。 ソース推定の混合物を作成し、pitを用いてこれら新しい混合物を循環的に分離することで、この第1の方法を改善する。 第2の方法である巡回混合置換不変トレーニング(mixcycle)と命名し、循環は、同じモデルを使って人工混合を生成し、それらを連続的に学習するという事実を指す。 MixPITは私たちの小さなデータセット(SC09Mix)で共通のベースライン(MixIT)を上回り、標準データセット(LibriMix)で同等のパフォーマンスを持つことを示す。 驚くべきことに、mixcycleは固有のデータ拡張機構のおかげで、データ効率によって教師付きピットのパフォーマンスを上回っている。 我々の知る限りでは、教師なしの方法以外、教師なしの訓練のパフォーマンスにマッチまたは超えるものはない。

We introduce two novel unsupervised (blind) source separation methods, which involve self-supervised training from single-channel two-source speech mixtures without any access to the ground truth source signals. Our first method employs permutation invariant training (PIT) to separate artificially-generated mixtures of the original mixtures back into the original mixtures, which we named mixture permutation invariant training (MixPIT). We found this challenging objective to be a valid proxy task for learning to separate the underlying sources. We improve upon this first method by creating mixtures of source estimates and employing PIT to separate these new mixtures in a cyclic fashion. We named this second method cyclic mixture permutation invariant training (MixCycle), where cyclic refers to the fact that we use the same model to produce artificial mixtures and to learn from them continuously. We show that MixPIT outperforms a common baseline (MixIT) on our small dataset (SC09Mix), and they have comparable performance on a standard dataset (LibriMix). Strikingly, we also show that MixCycle surpasses the performance of supervised PIT by being data-efficient, thanks to its inherent data augmentation mechanism. To the best of our knowledge, no other purely unsupervised method is able to match or exceed the performance of supervised training.
翻訳日:2022-02-09 16:12:29 公開日:2022-02-08
# 検証支援深層アンサンブル選択

Verification-Aided Deep Ensemble Selection ( http://arxiv.org/abs/2202.03898v1 )

ライセンス: Link先を確認
Guy Amir, Guy Katz and Michael Schapira(参考訳) ディープニューラルネットワーク(DNN)は、様々な複雑なタスクを実現するための選択技術となっている。 しかし、最近の多くの研究で強調されているように、正しく分類された入力に対する知覚できない摂動でさえ、DNNによる誤分類につながる可能性がある。 これにより、DNNは攻撃者による戦略的入力操作に脆弱になり、環境騒音に対する過敏性が生じる。 この現象を緩和するため、実践者はDNNのアンサンブルによる共同分類を適用した。 同じ入力に対して異なる個別DNNの分類出力を集約することにより、アンサンブルベースの分類は、単一のDNNの確率的トレーニングプロセスの具体化による誤分類のリスクを低減する。 しかし、DNNアンサンブルの有効性は、多くの異なる入力を同時に実行しないメンバーに大きく依存している。 本稿では,DNN検証の最近の進歩を活用し,より堅牢なアンサンブルに基づく分類において,入力が逆向きに摂動している場合でも,同時エラーの少ないアンサンブル構成を特定する手法を考案する。 提案フレームワークは,DNN検証器をバックエンドとして使用し,アンサンブルを直接検証する際の複雑さを低減するためのヒューリスティックスを含む。 より広い範囲において、我々の研究は、さまざまなアプリケーションドメインにわたる実世界のディープラーニングベースのシステムの堅牢性を向上させる可能性のある、形式的検証のための新しい普遍的目標を提示する。

Deep neural networks (DNNs) have become the technology of choice for realizing a variety of complex tasks. However, as highlighted by many recent studies, even an imperceptible perturbation to a correctly classified input can lead to misclassification by a DNN. This renders DNNs vulnerable to strategic input manipulations by attackers, and also prone to oversensitivity to environmental noise. To mitigate this phenomenon, practitioners apply joint classification by an ensemble of DNNs. By aggregating the classification outputs of different individual DNNs for the same input, ensemble-based classification reduces the risk of misclassifications due to the specific realization of the stochastic training process of any single DNN. However, the effectiveness of a DNN ensemble is highly dependent on its members not simultaneously erring on many different inputs. In this case study, we harness recent advances in DNN verification to devise a methodology for identifying ensemble compositions that are less prone to simultaneous errors, even when the input is adversarially perturbed -- resulting in more robustly-accurate ensemble-based classification. Our proposed framework uses a DNN verifier as a backend, and includes heuristics that help reduce the high complexity of directly verifying ensembles. More broadly, our work puts forth a novel universal objective for formal verification that can potentially improve the robustness of real-world, deep-learning-based systems across a variety of application domains.
翻訳日:2022-02-09 16:12:06 公開日:2022-02-08
# (参考訳) 2021年画像類似性チャレンジの結果と結果

Results and findings of the 2021 Image Similarity Challenge ( http://arxiv.org/abs/2202.04007v1 )

ライセンス: CC BY 4.0
Zo\"e Papakipos, Giorgos Tolias, Tomas Jenicek, Ed Pizzi, Shuhei Yokoo, Wenhao Wang, Yifan Sun, Weipu Zhang, Yi Yang, Sanjay Addicam, Sergio Manuel Papadakis, Cristian Canton Ferrer, Ondrej Chum, Matthijs Douze(参考訳) 2021年のイメージ類似性チャレンジでは、最新の画像コピー検出方法を評価するための新しいベンチマークとしてデータセットが導入された。 大会には200人が参加した。 本稿では,トップ投稿の量的・質的分析について述べる。 最も難しい画像変換は、重度の画像作物または無関係な画像に隠れることと、局所的なピクセルの摂動の組み合わせである。 優勝作品の鍵となるアルゴリズム要素は、強化強化のトレーニング、自己教師付き学習、スコアの正規化、明示的なオーバーレイ検出、グローバルディスクリプタマッチング、ペアワイズ画像比較である。

The 2021 Image Similarity Challenge introduced a dataset to serve as a new benchmark to evaluate recent image copy detection methods. There were 200 participants to the competition. This paper presents a quantitative and qualitative analysis of the top submissions. It appears that the most difficult image transformations involve either severe image crops or hiding into unrelated images, combined with local pixel perturbations. The key algorithmic elements in the winning submissions are: training on strong augmentations, self-supervised learning, score normalization, explicit overlay detection, and global descriptor matching followed by pairwise image comparison.
翻訳日:2022-02-09 16:08:54 公開日:2022-02-08
# ひび割れって何? 構造き裂の分割・検出・定量化のための深層学習法のレビューと分析

What's Cracking? A Review and Analysis of Deep Learning Methods for Structural Crack Segmentation, Detection and Quantification ( http://arxiv.org/abs/2202.03714v1 )

ライセンス: Link先を確認
Jacob K\"onig, Mark Jenkins, Mike Mannion, Peter Barrie, Gordon Morison(参考訳) 表面クラックは、潜在的構造欠陥の非常に一般的な指標である。 早期発見とモニタリングは、構造的健康モニタリングにおいて重要な要素である。 未処理のまま、時間とともに大きくなり、高価な修理やメンテナンスが必要となる。 近年のコンピュータビジョンとディープラーニングアルゴリズムの進歩により,このモニタリングプロセスにおける亀裂の自動検出とセグメンテーションが注目されている。 このレビューは、ディープラーニングを利用したクラック解析アルゴリズムの分野における公開研究の概要を研究者に提供することを目的としている。 コンピュータビジョンアルゴリズムを構造ヘルスモニタリング設定の亀裂に応用することで解決される様々なタスクの概要と、亀裂分類、検出、セグメンテーション、定量化を行う最近の完全で半教師なしのアプローチの詳細なレビューを提供する。 さらに、このレビューでは、クラックに使用される一般的なデータセットと、それらのアルゴリズムのパフォーマンスを評価するために使用されるメトリクスを強調している。 最後に、潜在的な研究ギャップを概説し、さらなる研究方向性を提供する。

Surface cracks are a very common indicator of potential structural faults. Their early detection and monitoring is an important factor in structural health monitoring. Left untreated, they can grow in size over time and require expensive repairs or maintenance. With recent advances in computer vision and deep learning algorithms, the automatic detection and segmentation of cracks for this monitoring process have become a major topic of interest. This review aims to give researchers an overview of the published work within the field of crack analysis algorithms that make use of deep learning. It outlines the various tasks that are solved through applying computer vision algorithms to surface cracks in a structural health monitoring setting and also provides in-depth reviews of recent fully, semi and unsupervised approaches that perform crack classification, detection, segmentation and quantification. Additionally, this review also highlights popular datasets used for cracks and the metrics that are used to evaluate the performance of those algorithms. Finally, potential research gaps are outlined and further research directions are provided.
翻訳日:2022-02-09 15:30:36 公開日:2022-02-08
# デバイス上コンピュータビジョンのための汎用計算パラダイムとしてのバイナリニューラルネットワーク

Binary Neural Networks as a general-propose compute paradigm for on-device computer vision ( http://arxiv.org/abs/2202.03716v1 )

ライセンス: Link先を確認
Guhong Nie (1), Lirui Xiao (1), Menglong Zhu (1), Dongliang Chu (1), Yue Shen (1), Peng Li (1), Kang Yang (1), Li Du (2) and Bo Chen (1) ((1) DJI Innovations Inc, (2) School of Electronic Science and Engineering, Nanjing University)(参考訳) バイナリニューラルネットワーク(BNN)がデバイス上でのコンピュータビジョンアルゴリズムの主流となるためには、8ビット量子化よりも高速vs精度のトレードオフを達成し、ビジョンタスクでも同様の一般応用性を確立する必要がある。 この目的のために,我々はBNNフレームワークを提案する。 1)ハードウェアフレンドリーのための最小限の推論方式 2 高精度な過度パラメータ化訓練方法、及び 3)異なる視覚タスクに適応するための簡単な手順。 我々のBNNは8ビットベースラインの精度レベルを保持するだけでなく、モバイルCPU上で1.3-2.4$\times$高速FPSを示す。 我々のBNNは、2.8-7$\times$8ビットより少ない実行サイクル、2.1-2.7$\times$代替BNNの設計よりも少ない実行サイクルを約束している。 これらの結果から,大規模なBNN導入の時期が示唆された。

For binary neural networks (BNNs) to become the mainstream on-device computer vision algorithm, they must achieve a superior speed-vs-accuracy tradeoff than 8-bit quantization and establish a similar degree of general applicability in vision tasks. To this end, we propose a BNN framework comprising 1) a minimalistic inference scheme for hardware-friendliness, 2) an over-parameterized training scheme for high accuracy, and 3) a simple procedure to adapt to different vision tasks. The resultant framework overtakes 8-bit quantization in the speed-vs-accuracy tradeoff for classification, detection, segmentation, super-resolution and matching: our BNNs not only retain the accuracy levels of their 8-bit baselines but also showcase 1.3-2.4$\times$ faster FPS on mobile CPUs. Similar conclusions can be drawn for prototypical systolic-array-based AI accelerators, where our BNNs promise 2.8-7$\times$ fewer execution cycles than 8-bit and 2.1-2.7$\times$ fewer cycles than alternative BNN designs. These results suggest that the time for large-scale BNN adoption could be upon us.
翻訳日:2022-02-09 15:30:21 公開日:2022-02-08
# ポイントレベルアノテーションを用いた都市景観意味セグメンテーションのための一貫性正規化地域成長ネットワーク

Consistency-Regularized Region-Growing Network for Semantic Segmentation of Urban Scenes with Point-Level Annotations ( http://arxiv.org/abs/2202.03740v1 )

ライセンス: Link先を確認
Yonghao Xu and Pedram Ghamisi(参考訳) 深層学習アルゴリズムは、超高解像度(vhr)画像の意味セグメンテーションにおいて大きな成功を収めている。 それでも、これらのモデルのトレーニングには、一般的に大量の正確なピクセル単位のアノテーションが必要である。 アノテーションの負担を軽減するため,ポイントレベルのアノテーションを用いたVHR画像のセマンティックセグメンテーションを実現するために,一貫性調整型領域成長ネットワーク(CRGNet)を提案する。 crgnetの鍵となるアイデアは、ラベルのないピクセルを反復的に選択し、元のスパースポイントから注釈領域を広げることである。 しかし、拡張アノテーションには誤りやノイズがある可能性があるため、直接学習することでネットワークのトレーニングを誤解させる可能性がある。 そこで本研究では,ベース分類器と拡張分類器を併用した一貫性正規化戦略を提案する。 具体的には、ベース分類器は元のスパースアノテーションによって管理され、拡張された分類器は、ベース分類器が生成した拡張アノテーションから地域拡大メカニズムを学習することを目的としている。 これにより、ベースと拡張された分類器との差を最小限にして整合正則化を実現する。 このような単純な正規化戦略は、地域成長メカニズムの品質を制御するのに非常に有用である。 2つのベンチマークデータセットに対する大規模な実験は、提案されたCRGNetが既存の最先端の手法を大幅に上回っていることを示している。 コードと事前訓練されたモデルはオンラインで利用できる。

Deep learning algorithms have obtained great success in semantic segmentation of very high-resolution (VHR) images. Nevertheless, training these models generally requires a large amount of accurate pixel-wise annotations, which is very laborious and time-consuming to collect. To reduce the annotation burden, this paper proposes a consistency-regularized region-growing network (CRGNet) to achieve semantic segmentation of VHR images with point-level annotations. The key idea of CRGNet is to iteratively select unlabeled pixels with high confidence to expand the annotated area from the original sparse points. However, since there may exist some errors and noises in the expanded annotations, directly learning from them may mislead the training of the network. To this end, we further propose the consistency regularization strategy, where a base classifier and an expanded classifier are employed. Specifically, the base classifier is supervised by the original sparse annotations, while the expanded classifier aims to learn from the expanded annotations generated by the base classifier with the region-growing mechanism. The consistency regularization is thereby achieved by minimizing the discrepancy between the predictions from both the base and the expanded classifiers. We find such a simple regularization strategy is yet very useful to control the quality of the region-growing mechanism. Extensive experiments on two benchmark datasets demonstrate that the proposed CRGNet significantly outperforms the existing state-of-the-art methods. Codes and pre-trained models will be available online.
翻訳日:2022-02-09 15:30:00 公開日:2022-02-08
# STC:ビデオインスタンスセグメンテーションのための時空間コントラスト学習

STC: Spatio-Temporal Contrastive Learning for Video Instance Segmentation ( http://arxiv.org/abs/2202.03747v1 )

ライセンス: Link先を確認
Zhengkai Jiang, Zhangxuan Gu, Jinlong Peng, Hang Zhou, Liang Liu, Yabiao Wang, Ying Tai, Chengjie Wang, Liqing Zhang(参考訳) Video Instance Segmentation (VIS)は、ビデオ内の分類、セグメンテーション、インスタンス関連を同時に必要とするタスクである。 最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。 対照的に、インスタンスセグメンテーション手法であるCondInstをベースとした、シンプルで効率的なシングルステージVISフレームワークを提案する。 インスタンス関連付けの精度を向上させるために,フレーム間の埋め込みを追跡する双方向時空間コントラスト学習戦略を提案する。 さらに、インスタンス毎の時間的一貫性スキームを用いて、時間的コヒーレントな結果を生成する。 YouTube-VIS-2019、YouTube-VIS-2021、OVIS-2021データセットで実施された実験は、提案手法の有効性と有効性を検証する。 提案フレームワークは,他の多くのインスタンスレベルのビデオアソシエーションタスクに対して,シンプルで強力な代替手段として機能することを期待している。 コードは利用可能になる。

Video Instance Segmentation (VIS) is a task that simultaneously requires classification, segmentation, and instance association in a video. Recent VIS approaches rely on sophisticated pipelines to achieve this goal, including RoI-related operations or 3D convolutions. In contrast, we present a simple and efficient single-stage VIS framework based on the instance segmentation method CondInst by adding an extra tracking head. To improve instance association accuracy, a novel bi-directional spatio-temporal contrastive learning strategy for tracking embedding across frames is proposed. Moreover, an instance-wise temporal consistency scheme is utilized to produce temporally coherent results. Experiments conducted on the YouTube-VIS-2019, YouTube-VIS-2021, and OVIS-2021 datasets validate the effectiveness and efficiency of the proposed method. We hope the proposed framework can serve as a simple and strong alternative for many other instance-level video association tasks. Code will be made available.
翻訳日:2022-02-09 15:29:35 公開日:2022-02-08
# Ada-NETS: 構造空間におけるアダプティブ近傍発見による顔クラスタリング

Ada-NETS: Face Clustering via Adaptive Neighbour Discovery in the Structure Space ( http://arxiv.org/abs/2202.03800v1 )

ライセンス: Link先を確認
Yaohua Wang, Yaobin Zhang, Fangyi Zhang, Senzhang Wang, Ming Lin, YuQi Zhang, Xiuyu Sun(参考訳) 顔のクラスタリングは、Web上の大量の顔画像を活用するために、最近研究の関心が高まっている。 最先端のパフォーマンスはグラフ畳み込みネットワーク(GCN)によって達成されている。 しかし、既存のGCNベースの手法は、主に特徴空間におけるkNN関係に従って顔グラフを構築するため、異なるクラスの2つの面を接続する多くのノイズエッジにつながる可能性がある。 フェース機能は、これらのノイズエッジに沿ってメッセージが通過すると汚染され、GCNのパフォーマンスが低下する。 本稿では,GCNのクリーングラフを構築することにより,Ada-NETSという新しいアルゴリズムを提案する。 Ada-NETSでは、各顔が新しい構造空間に変換され、隣接する画像の顔の特徴を考慮した堅牢な特徴が得られる。 次に,各顔画像と接続するエッジ数を決定するために,適応型近傍発見戦略を提案する。 クリーンでリッチなエッジでグラフを構築してgcnをクラスタの顔にする方法を維持しながら、ノイズエッジを大幅に削減します。 複数のパブリッククラスタリングデータセットに関する実験では、ada-netsが現在の最先端のメソッドを著しく上回っており、その優位性と一般化が証明されている。

Face clustering has attracted rising research interest recently to take advantage of massive amounts of face images on the web. State-of-the-art performance has been achieved by Graph Convolutional Networks (GCN) due to their powerful representation capacity. However, existing GCN-based methods build face graphs mainly according to kNN relations in the feature space, which may lead to a lot of noise edges connecting two faces of different classes. The face features will be polluted when messages pass along these noise edges, thus degrading the performance of GCNs. In this paper, a novel algorithm named Ada-NETS is proposed to cluster faces by constructing clean graphs for GCNs. In Ada-NETS, each face is transformed to a new structure space, obtaining robust features by considering face features of the neighbour images. Then, an adaptive neighbour discovery strategy is proposed to determine a proper number of edges connecting to each face image. It significantly reduces the noise edges while maintaining the good ones to build a graph with clean yet rich edges for GCNs to cluster faces. Experiments on multiple public clustering datasets show that Ada-NETS significantly outperforms current state-of-the-art methods, proving its superiority and generalization.
翻訳日:2022-02-09 15:29:19 公開日:2022-02-08
# クラウドカウントのためのリアルタイムドローン監督のための統合マルチタスク学習フレームワーク

A Unified Multi-Task Learning Framework of Real-Time Drone Supervision for Crowd Counting ( http://arxiv.org/abs/2202.03843v1 )

ライセンス: Link先を確認
Siqi Gu and Zhichao Lian(参考訳) 本稿では、画像融合ネットワークアーキテクチャを用いて、可視・熱赤外画像からの画像を融合させる新しいMFCC(Unified Multi-Task Learning Framework of Real-Time Drone Supervision for Crowd Counting)と、密度マップを推定するクラウドカウントネットワークアーキテクチャを提案する。 このフレームワークの目的は、ドローンがリアルタイムで捉えた可視・熱赤外画像などの2つのモダリティを融合させ、その補完的な情報を利用して密集人口を正確にカウントし、ドローンの飛行を誘導して密集人口を監視することである。 そこで本研究では,クラウドカウントのための統合マルチタスク学習フレームワークを初めて提案し,画像融合ネットワークとクラウドカウントネットワークを整合させるために統合トレーニング損失関数を再設計する。 また,画像融合エンコーダプロセスに密度マップ特徴を融合し,計数特徴を学習するための補助学習モジュール(alm)を設計した。 そこで本研究では,マルチレセプティブ・フィールドのコンテキスト情報をエンコードするための密接な接続アーキテクチャに基づく拡張コンテキスト抽出モジュール(ecem)を提案し,マルチドメイン・アテンション・ブロック(mab)をドローン・ビューの頭部領域に適用する。 最後に、予測マップを用いてドローンを自動的に誘導し、密集した群衆を監督する。 DroneRGBTデータセットの実験結果から,既存の手法と比較して,客観的評価と学習プロセスの容易さに比較して結果が得られた。

In this paper, a novel Unified Multi-Task Learning Framework of Real-Time Drone Supervision for Crowd Counting (MFCC) is proposed, which utilizes an image fusion network architecture to fuse images from the visible and thermal infrared image, and a crowd counting network architecture to estimate the density map. The purpose of our framework is to fuse two modalities, including visible and thermal infrared images captured by drones in real-time, that exploit the complementary information to accurately count the dense population and then automatically guide the flight of the drone to supervise the dense crowd. To this end, we propose the unified multi-task learning framework for crowd counting for the first time and re-design the unified training loss functions to align the image fusion network and crowd counting network. We also design the Assisted Learning Module (ALM) to fuse the density map feature to the image fusion encoder process for learning the counting features. To improve the accuracy, we propose the Extensive Context Extraction Module (ECEM) that is based on a dense connection architecture to encode multi-receptive-fields contextual information and apply the Multi-domain Attention Block (MAB) for concerning the head region in the drone view. Finally, we apply the prediction map to automatically guide the drones to supervise the dense crowd. The experimental results on the DroneRGBT dataset show that, compared with the existing methods, ours has comparable results on objective evaluations and an easier training process.
翻訳日:2022-02-09 15:28:57 公開日:2022-02-08
# 適応グラフ推論による光流れの学習

Learning Optical Flow with Adaptive Graph Reasoning ( http://arxiv.org/abs/2202.03857v1 )

ライセンス: Link先を確認
Ao Luo, Fan Yang, Kunming Luo, Xin Li, Haoqiang Fan, Shuaicheng Liu(参考訳) 光フローとして知られるビデオフレーム間のピクセル当たりの動きを推定することは、ビデオの理解と分析において長年の課題である。 現代のオプティカルフロー技術のほとんどは、特徴的類似性を伴うクロスイメージマッチングへの対処に重点を置いているが、全体論的運動理解を達成するために与えられたシーンを明示的に推論する方法を考える方法はほとんどない。 本稿では,光フローにおけるシーン/コンテキスト情報の価値を強調するために,光フローに対する適応グラフ推論 (AGFlow) と呼ばれる新しいグラフベースのアプローチを提案する。 我々のキーとなる考え方は、マッチング手順からコンテキスト推論を分離し、シーン情報を利用して、適応グラフ上での学習による動き推定を効果的に支援することである。 提案したAGFlowは、コンテキスト情報を効果的に活用し、マッチング手順に組み込むことができ、より堅牢で正確な結果が得られる。 sintel clean と final pass の両方において、agflow は epe の 1.43 と 2.47 ピクセルで最高の精度を達成し、それぞれ 11.2% と 13.6% で最先端のアプローチを上回っている。

Estimating per-pixel motion between video frames, known as optical flow, is a long-standing problem in video understanding and analysis. Most contemporary optical flow techniques largely focus on addressing the cross-image matching with feature similarity, with few methods considering how to explicitly reason over the given scene for achieving a holistic motion understanding. In this work, taking a fresh perspective, we introduce a novel graph-based approach, called adaptive graph reasoning for optical flow (AGFlow), to emphasize the value of scene/context information in optical flow. Our key idea is to decouple the context reasoning from the matching procedure, and exploit scene information to effectively assist motion estimation by learning to reason over the adaptive graph. The proposed AGFlow can effectively exploit the context information and incorporate it within the matching procedure, producing more robust and accurate results. On both Sintel clean and final passes, our AGFlow achieves the best accuracy with EPE of 1.43 and 2.47 pixels, outperforming state-of-the-art approaches by 11.2% and 13.6%, respectively.
翻訳日:2022-02-09 15:28:29 公開日:2022-02-08
# GLPU:Lidar Pointcloud Upsamplingのための幾何学的アプローチ

GLPU: A Geometric Approach For Lidar Pointcloud Upsampling ( http://arxiv.org/abs/2202.03901v1 )

ライセンス: Link先を確認
George Eskandar, Janaranjani Palaniswamy, Karim Guirguis, Barath Somashekar, Bin Yang(参考訳) 自律運転では、ライダーは3D環境の理解に固有のものである。 lidarセンサーは垂直解像度によって異なるが、より高密度なポイントクラウドはより詳細な環境を描写する。 pointcloud upsamplingは、sparserから高分解能のpointcloudsを予測して、このパフォーマンスギャップを低コストで橋渡しする。 多くのアップサンプリングフレームワークは堅牢なパフォーマンスを達成したが、異なるデータセットやメトリクスでテストされたため、公正な比較は難しい。 本研究ではまず,既存のアルゴリズムをKITTIデータセット上でベンチマークするために,一貫した比較研究を行う。 その結果,非効率なデータ表現,小さな受容場,低周波損失の3つの要因が性能を妨げていることがわかった。 シーンジオメトリを活用することで,上述の制限に対処するため,新たなGLPUフレームワークが提案されている。 KITTIベンチマークの他の手法と比較して,GLPUの有効性と性能を実証した。

In autonomous driving, lidar is inherent for the understanding of the 3D environment. Lidar sensors vary in vertical resolutions, where a denser pointcloud depicts a more detailed environment, albeit at a significantly higher cost. Pointcloud upsampling predicts high-resolution pointclouds from sparser ones to bridge this performance gap at a lower cost. Although many upsampling frameworks have achieved a robust performance, a fair comparison is difficult as they were tested on different datasets and metrics. In this work, we first conduct a consistent comparative study to benchmark the existing algorithms on the KITTI dataset. Then, we observe that there are three common factors that hinder the performance: an inefficient data representation, a small receptive field, and low-frequency losses. By leveraging the scene geometry, a new self-supervised geometric lidar pointcloud upsampling (GLPU) framework is proposed to address the aforementioned limitations. Our experiments demonstrate the effectiveness and superior performance of GLPU compared to other techniques on the KITTI benchmark.
翻訳日:2022-02-09 15:28:05 公開日:2022-02-08
# 非負画像合成のための残差アライメント:勾配最適化

Residual Aligned: Gradient Optimization for Non-Negative Image Synthesis ( http://arxiv.org/abs/2202.04036v1 )

ライセンス: Link先を確認
Flora Yu Shen, Katie Luo, Guandao Yang, Harald Haraldsson, Serge Belongie(参考訳) 本研究は,非負画像合成という,拡張現実(OST)による光学的ファインメントの重要な問題に対処する。 画像生成手法の多くは、各画素を完全に制御し、光を加えることでより暗い画素を生成することができないため、この条件下で失敗する。 ar画像合成における非負画像生成問題を解決するために、先行研究は人間の視覚をシミュレートするために光学的錯視を利用したが、高ダイナミックレンジのような状況下では明度維持に失敗した。 そこで本稿では, 局所的に光の濃度を保ち, 高周波の詳細を捉える手法を提案する。 既存の手法と比較して, 大規模画像, 高分解能画像, 高ダイナミックレンジ画像転送などのシナリオにおいて, 画像から画像への変換タスクにおいて, 高い性能を示す。

In this work, we address an important problem of optical see through (OST) augmented reality: non-negative image synthesis. Most of the image generation methods fail under this condition, since they assume full control over each pixel and cannot create darker pixels by adding light. In order to solve the non-negative image generation problem in AR image synthesis, prior works have attempted to utilize optical illusion to simulate human vision but fail to preserve lightness constancy well under situations such as high dynamic range. In our paper, we instead propose a method that is able to preserve lightness constancy at a local level, thus capturing high frequency details. Compared with existing work, our method shows strong performance in image-to-image translation tasks, particularly in scenarios such as large scale images, high resolution images, and high dynamic range image transfer.
翻訳日:2022-02-09 15:27:16 公開日:2022-02-08
# 自然言語におけるプロパティベーステストに向けて

Towards Property-Based Tests in Natural Language ( http://arxiv.org/abs/2202.03616v1 )

ライセンス: Link先を確認
Colin S. Gordon (Drexel University)(参考訳) 自然言語からテストを生成する新しいアプローチを検討する。 構造化されたコメントから機械学習やテンプレート抽出に頼るのではなく、自然言語文を実行可能なテストに変換するために言語学から古典的なアイデアを適用することを提案する。 本稿では,コンビネータ分類文法(ccgs)のプロパティベーステスト生成への応用について検討する。 本プロトタイプでは,プロパティベースのテストに関する教科書の章で,各例の英語記述からテストを生成することができる。

We consider a new approach to generate tests from natural language. Rather than relying on machine learning or templated extraction from structured comments, we propose to apply classic ideas from linguistics to translate natural-language sentences into executable tests. This paper explores the application of combinatory categorial grammars (CCGs) to generating property-based tests. Our prototype is able to generate tests from English descriptions for each example in a textbook chapter on property-based testing.
翻訳日:2022-02-09 15:27:01 公開日:2022-02-08
# 多重ネットワークのための帯域サンプリング

Bandit Sampling for Multiplex Networks ( http://arxiv.org/abs/2202.03621v1 )

ライセンス: Link先を確認
Cenk Baykal, Vamsi K. Potluru, Sameena Shah, Manuela M. Veloso(参考訳) グラフニューラルネットワークは、多くの分類や予測タスクで優れた性能を発揮したことで、注目を集めている。 特に、ソーシャルネットワーク、生物医学データセット、金融取引グラフに広く応用されているノード分類やリンク予測に使われている。 既存の作業の大部分は、エンティティ間の単一のタイプの接続しか持たないネットワークにアクセス可能なモノプレックス設定に重点を置いています。 しかし、複数の種類の接続がある多重化設定や、エンティティ間の \emph{layers} では、リンク予測のようなタスクのパフォーマンスは、他のコネクションタイプからの情報を考慮した場合より強くなることが示されている。 本稿では,多数の層を有する多重ネットワーク上でスケーラブルな学習を行うアルゴリズムを提案する。 提案手法の効率性は,オンライン学習アルゴリズムによって実現され,学習中に関連する情報を持つ層のみが集約されるように,隣接層をサンプリングする方法を学習する。 このサンプリングは、例えばMNEのような以前の作業と異なり、これは \emph{all} 層にまたがる情報を集約し、その結果、大きなネットワーク上での計算的インタラクタビリティをもたらす。 提案手法は,非サンプリング層を訓練する必要がなく,さらに効率が向上し,提案手法の実用性を示す人工的シナリオと実世界のシナリオの両方について実験結果を示すことにより,近年の \textsc{deeplex} の層サンプリング手法を改良した。

Graph neural networks have gained prominence due to their excellent performance in many classification and prediction tasks. In particular, they are used for node classification and link prediction which have a wide range of applications in social networks, biomedical data sets, and financial transaction graphs. Most of the existing work focuses primarily on the monoplex setting where we have access to a network with only a single type of connection between entities. However, in the multiplex setting, where there are multiple types of connections, or \emph{layers}, between entities, performance on tasks such as link prediction has been shown to be stronger when information from other connection types is taken into account. We propose an algorithm for scalable learning on multiplex networks with a large number of layers. The efficiency of our method is enabled by an online learning algorithm that learns how to sample relevant neighboring layers so that only the layers with relevant information are aggregated during training. This sampling differs from prior work, such as MNE, which aggregates information across \emph{all} layers and consequently leads to computational intractability on large networks. Our approach also improves on the recent layer sampling method of \textsc{DeePlex} in that the unsampled layers do not need to be trained, enabling further increases in efficiency.We present experimental results on both synthetic and real-world scenarios that demonstrate the practical effectiveness of our proposed approach.
翻訳日:2022-02-09 15:24:02 公開日:2022-02-08
# nxtpost:facebookグループでレコメンデーションを投稿できる

NxtPost: User to Post Recommendations in Facebook Groups ( http://arxiv.org/abs/2202.03645v1 )

ライセンス: Link先を確認
Kaushik Rangadurai, Yiqun Liu, Siddarth Malreddy, Xiaoyi Liu, Piyush Maheshwari, Vishwanath Sangale, Fedor Borisyuk(参考訳) 本稿では,facebookグループに対して,ユーザからポストへのシーケンシャルレコメンデーションシステムnxtpostを提案する。 NLPの最近の進歩にインスパイアされた我々は、Transformerベースのモデルをシーケンシャルレコメンデーションの領域に適応させた。 短期と長期の両方のユーザの関心を最適化する、因果マスク付きマルチヘッドアテンションについて検討する。 定義された安全プロセスによって検証されたユーザの過去の活動から、nxtpostはユーザーの動的コンテンツ嗜好の表現を学習し、次にユーザーが興味を持つかもしれないポストを予測する。 従来のTransformerベースの手法とは対照的に、推奨されるポストが固定コーパスを持つとは仮定しない。 したがって、外部アイテム/トークン埋め込みを使用して、シーケンスベースのアプローチを大きな語彙に拡張する。 49%の abs を達成します オフライン評価の改善。 NxtPostのデプロイの結果、0.6%以上のユーザーが新しい人と出会い、コミュニティと関わり、知識を共有し、サポートを得る。 本稿では,パーソナライズされた逐次的レコメンデーションシステムを開発した経験,コールドスタートユーザのためのモデルをデプロイする教訓,フレッシュネスに対処する方法,オンラインa/b実験でより高い効率に達するためのチューニング戦略について紹介する。

In this paper, we present NxtPost, a deployed user-to-post content-based sequential recommender system for Facebook Groups. Inspired by recent advances in NLP, we have adapted a Transformer-based model to the domain of sequential recommendation. We explore causal masked multi-head attention that optimizes both short and long-term user interests. From a user's past activities validated by defined safety process, NxtPost seeks to learn a representation for the user's dynamic content preference and to predict the next post user may be interested in. In contrast to previous Transformer-based methods, we do not assume that the recommendable posts have a fixed corpus. Accordingly, we use an external item/token embedding to extend a sequence-based approach to a large vocabulary. We achieve 49% abs. improvement in offline evaluation. As a result of NxtPost deployment, 0.6% more users are meeting new people, engaging with the community, sharing knowledge and getting support. The paper shares our experience in developing a personalized sequential recommender system, lessons deploying the model for cold start users, how to deal with freshness, and tuning strategies to reach higher efficiency in online A/B experiments.
翻訳日:2022-02-09 15:23:40 公開日:2022-02-08
# APPFL:プライバシ保護フェデレーション学習のためのオープンソースソフトウェアフレームワーク

APPFL: Open-Source Software Framework for Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2202.03672v1 )

ライセンス: Link先を確認
Minseok Ryu, Youngdae Kim, Kibaek Kim, and Ravi K. Madduri(参考訳) フェデレートラーニング(FL)は、従来の機械学習のように、データを中央の場所に転送する代わりに、異なる場所でトレーニングモデルを実行し、トレーニングから重みを更新することを可能にする。 fl機能はバイオメディシンやスマートグリッドといった分野において特に重要であり、政策上の課題からデータを自由に共有したり、中央の場所に保存したりできない。 分散データセットから学習する能力のおかげで、FLは現在急速に成長している研究分野であり、多くのFLフレームワークが開発されている。 本稿では,Argonne Privacy-Preserving Federated LearningフレームワークであるAPPFLを紹介する。 appflは、実装済みプライバシ保存アルゴリズムを活用し、新しいアルゴリズムを実装し、プライバシ保存技術で様々なflアルゴリズムをシミュレートし、デプロイすることができる。 モジュラーフレームワークにより、アルゴリズム、プライバシ、通信プロトコル、ニューラルネットワークモデル、ユーザデータなどのコンポーネントをカスタマイズすることができる。 また,乗算器の不正確な交互方向法に基づく新しい通信効率アルゴリズムを提案する。 このアルゴリズムは、現在の最先端技術よりもサーバとクライアント間の通信を著しく少なくする。 様々なテストデータセット上の差分プライベートFLとスケーラビリティを含むAPPFLの計算能力を,異なる計算環境における複数のアルゴリズムとデータセットを用いて示す。

Federated learning (FL) enables training models at different sites and updating the weights from the training instead of transferring data to a central location and training as in classical machine learning. The FL capability is especially important to domains such as biomedicine and smart grid, where data may not be shared freely or stored at a central location because of policy challenges. Thanks to the capability of learning from decentralized datasets, FL is now a rapidly growing research field, and numerous FL frameworks have been developed. In this work, we introduce APPFL, the Argonne Privacy-Preserving Federated Learning framework. APPFL allows users to leverage implemented privacy-preserving algorithms, implement new algorithms, and simulate and deploy various FL algorithms with privacy-preserving techniques. The modular framework enables users to customize the components for algorithms, privacy, communication protocols, neural network models, and user data. We also present a new communication-efficient algorithm based on an inexact alternating direction method of multipliers. The algorithm requires significantly less communication between the server and the clients than does the current state of the art. We demonstrate the computational capabilities of APPFL, including differentially private FL on various test datasets and its scalability, by using multiple algorithms and datasets on different computing environments.
翻訳日:2022-02-09 15:23:18 公開日:2022-02-08
# 二段階最適化におけるサドル点の効率的なエスケープ

Efficiently Escaping Saddle Points in Bilevel Optimization ( http://arxiv.org/abs/2202.03684v1 )

ライセンス: Link先を確認
Minhui Huang, Kaiyi Ji, Shiqian Ma and Lifeng Lai(参考訳) バイレベル最適化は、機械学習と最適化における根本的な問題の1つである。 両レベル最適化の最近の理論的発展は、非凸-強凸の場合の1次定常点の発見に焦点を当てている。 本稿では,非凸凸二値最適化において,サドル点を回避できるアルゴリズムを解析する。 具体的には、温かい開始戦略を持つ摂動的擬似微分(AID)は、高い確率で$\tilde{O}(\epsilon^{-2})$反復において、局所的な二レベル最適化の$\epsilon$-approximateの最小値を求める。 さらに, サドル点を回避し, 確率的二値最適化の局所最小値を求める純粋一階アルゴリズムであるineon(inexact negative-curvature-originated-from-noise algorithm)を提案する。 副産物として、ミニマックス問題に対して局所ミニマックス点に収束する摂動多段勾配勾配上昇(GDmax)アルゴリズムの最初の漸近解析を行う。

Bilevel optimization is one of the fundamental problems in machine learning and optimization. Recent theoretical developments in bilevel optimization focus on finding the first-order stationary points for nonconvex-strongly-convex cases. In this paper, we analyze algorithms that can escape saddle points in nonconvex-strongly-convex bilevel optimization. Specifically, we show that the perturbed approximate implicit differentiation (AID) with a warm start strategy finds $\epsilon$-approximate local minimum of bilevel optimization in $\tilde{O}(\epsilon^{-2})$ iterations with high probability. Moreover, we propose an inexact NEgative-curvature-Originated-from-Noise Algorithm (iNEON), a pure first-order algorithm that can escape saddle point and find local minimum of stochastic bilevel optimization. As a by-product, we provide the first nonasymptotic analysis of perturbed multi-step gradient descent ascent (GDmax) algorithm that converges to local minimax point for minimax problems.
翻訳日:2022-02-09 15:22:57 公開日:2022-02-08
# 現実世界における連合学習からの学習

Learnings from Federated Learning in the Real world ( http://arxiv.org/abs/2202.03925v1 )

ライセンス: Link先を確認
Christophe Dupuy, Tanya G. Roosta, Leo Long, Clement Chung, Rahul Gupta, Salman Avestimehr(参考訳) 実世界データに適用された連合学習(fl)は、いくつかの慣用性に苦しむことがある。 そのような慣用性のひとつは、デバイス間でのデータ分散である。 デバイス間でデータを分散できるので、大量のデータを持つ "heavy device" が存在する一方で、わずかなデータポイントしか持たない "light users" が多数存在する。 デバイス間のデータの均一性も存在します。 本研究では, flを用いて学習した自然言語理解モデル (nlu) に対する特徴量の影響を評価する。 大規模nluシステムから得られたデータを数千台のデバイスに提供して実験を行い,flトレーニングの各ラウンドにおけるインタラクション数に基づく単純な非一様デバイス選択が,モデルの性能を向上させることを示した。 この利点は連続的なFLにおいてさらに増幅され、非一様サンプリングが一度にすべてのデータを使ってFLメソッドに追いつく。

Federated Learning (FL) applied to real world data may suffer from several idiosyncrasies. One such idiosyncrasy is the data distribution across devices. Data across devices could be distributed such that there are some "heavy devices" with large amounts of data while there are many "light users" with only a handful of data points. There also exists heterogeneity of data across devices. In this study, we evaluate the impact of such idiosyncrasies on Natural Language Understanding (NLU) models trained using FL. We conduct experiments on data obtained from a large scale NLU system serving thousands of devices and show that simple non-uniform device selection based on the number of interactions at each round of FL training boosts the performance of the model. This benefit is further amplified in continual FL on consecutive time periods, where non-uniform sampling manages to swiftly catch up with FL methods using all data at once.
翻訳日:2022-02-09 15:22:22 公開日:2022-02-08
# 不変積分による深層分類ネットワークのサンプル複雑度向上

Improving the Sample-Complexity of Deep Classification Networks with Invariant Integration ( http://arxiv.org/abs/2202.03967v1 )

ライセンス: Link先を確認
Matthias Rath and Alexandru Paul Condurache(参考訳) 変換によるクラス内分散の事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善する強力な方法である。 これにより、トレーニングデータが不足している事実上重要なユースケースに適用できる。 学習されるよりもむしろ、これらの変換に不変を課すことによって、この知識を組み込むことができる。 群同変の畳み込みを用いて不変性を課すことができ、次にプーリング演算を行う。 回転不変性について、以前の研究は空間プーリング演算を不変表現を明示的に構成する不変積分に置き換えた。 不変積分は単項を用いるが、これは高価な事前訓練を必要とする反復的アプローチで選択される。 そこで本研究では,より複雑な問題に対して応用可能なプルーニング法に基づく新しいモノミアル選択アルゴリズムを提案する。 さらに,重み付き和,多層パーセプトロン,セルフアテンションといった関数をモノミアルに置き換え,不変積分に基づくアーキテクチャのトレーニングを合理化する。 本研究では, 単項および重み付き和を用いた回転不変積分に基づくワイド-ResNetアーキテクチャが, 限られたサンプル系において, 各々の基線よりも優れていることを示す。 我々は,回転型MNISTとSVHNの全データを用いて,回転がクラス内変動の主源となる最先端の結果を得る。 stl-10では、プーリングを用いた標準および回転同変畳み込みニューラルネットワークを上回る。

Leveraging prior knowledge on intraclass variance due to transformations is a powerful method to improve the sample complexity of deep neural networks. This makes them applicable to practically important use-cases where training data is scarce. Rather than being learned, this knowledge can be embedded by enforcing invariance to those transformations. Invariance can be imposed using group-equivariant convolutions followed by a pooling operation. For rotation-invariance, previous work investigated replacing the spatial pooling operation with invariant integration which explicitly constructs invariant representations. Invariant integration uses monomials which are selected using an iterative approach requiring expensive pre-training. We propose a novel monomial selection algorithm based on pruning methods to allow an application to more complex problems. Additionally, we replace monomials with different functions such as weighted sums, multi-layer perceptrons and self-attention, thereby streamlining the training of invariant-integration-based architectures. We demonstrate the improved sample complexity on the Rotated-MNIST, SVHN and CIFAR-10 datasets where rotation-invariant-integration-based Wide-ResNet architectures using monomials and weighted sums outperform the respective baselines in the limited sample regime. We achieve state-of-the-art results using full data on Rotated-MNIST and SVHN where rotation is a main source of intraclass variation. On STL-10 we outperform a standard and a rotation-equivariant convolutional neural network using pooling.
翻訳日:2022-02-09 15:21:27 公開日:2022-02-08
# causpref: 分散推薦のための因果選好学習

CAUSPref: Causal Preference Learning for Out-of-Distribution Recommendation ( http://arxiv.org/abs/2202.03984v1 )

ライセンス: Link先を確認
Yue He, Zimu Wang, Peng Cui, Hao Zou, Yafeng Zhang, Qiang Cui, Yong Jiang(参考訳) 近年の機械学習の進歩的な能力により、リコメンダシステムが著しく発展しているにもかかわらず、現在のリコメンダシステムは、現実的なシナリオにおけるユーザやアイテムの分散シフトに対して、依然として脆弱であり、テスト環境におけるパフォーマンスの急激な低下につながっている。 スパースデータからの暗黙のフィードバックしか利用できない多くの一般的なアプリケーションでは、さらに厳しい。 したがって,様々な環境においてレコメンデーション手法の性能安定性を促進することが重要である。 本稿では,まず,out-of-distribution (ood) 一般化の観点から,暗黙的推奨問題の徹底的な解析を行う。 そして,提案する理論分析の指導のもと,提案した推薦特化DAG学習をCAUSPrefという新たな因果選好に基づく推薦フレームワークに組み込むことを提案する。 実世界のデータセットから得られた広範囲な実験結果から、我々のアプローチは、分散設定のタイプにおいて、ベンチマークモデルを大幅に上回っており、その印象的な解釈可能性を示しています。

In spite of the tremendous development of recommender system owing to the progressive capability of machine learning recently, the current recommender system is still vulnerable to the distribution shift of users and items in realistic scenarios, leading to the sharp decline of performance in testing environments. It is even more severe in many common applications where only the implicit feedback from sparse data is available. Hence, it is crucial to promote the performance stability of recommendation method in different environments. In this work, we first make a thorough analysis of implicit recommendation problem from the viewpoint of out-of-distribution (OOD) generalization. Then under the guidance of our theoretical analysis, we propose to incorporate the recommendation-specific DAG learner into a novel causal preference-based recommendation framework named CAUSPref, mainly consisting of causal learning of invariant user preference and anti-preference negative sampling to deal with implicit feedback. Extensive experimental results from real-world datasets clearly demonstrate that our approach surpasses the benchmark models significantly under types of out-of-distribution settings, and show its impressive interpretability.
翻訳日:2022-02-09 15:21:08 公開日:2022-02-08
# 教師付き変化点検出のためのシンクホーンダイバージェンス学習

Learning Sinkhorn divergences for supervised change point detection ( http://arxiv.org/abs/2202.04000v1 )

ライセンス: Link先を確認
Nauman Ahad, Eva L. Dyer, Keith B. Hengen, Yao Xie, Mark A. Davenport(参考訳) 現代の多くのアプリケーションは、複雑なシーケンシャルデータの変化点を検出する必要がある。 変更点検出のための既存のほとんどのメソッドは教師なしであり、結果として、どのような変更を検出したいか、あるいは何らかの変更が無視されるかどうかに関する情報がない。 これにより、しばしば変更検出性能が低下する。 そこで本研究では,スライディングウインドウにおける2つのサンプルテストにおいて,シンクホーンダイバージェンスを用いてオンライン的に変化点を検出できるように,基底距離の学習にtrue change pointインスタンスを用いた新しい変化点検出フレームワークを提案する。 本手法は,高次元変化点検出設定における特徴選択と解釈の両方に有用なスパースメトリックの学習に使用できる。 その結果,提案手法はラベル付き変更点インスタンス数が少ないだけで,既存の教師なし変更点検出手法よりも大幅に変更点検出性能を向上させることができることがわかった。

Many modern applications require detecting change points in complex sequential data. Most existing methods for change point detection are unsupervised and, as a consequence, lack any information regarding what kind of changes we want to detect or if some kinds of changes are safe to ignore. This often results in poor change detection performance. We present a novel change point detection framework that uses true change point instances as supervision for learning a ground metric such that Sinkhorn divergences can be then used in two-sample tests on sliding windows to detect change points in an online manner. Our method can be used to learn a sparse metric which can be useful for both feature selection and interpretation in high-dimensional change point detection settings. Experiments on simulated as well as real world sequences show that our proposed method can substantially improve change point detection performance over existing unsupervised change point detection methods using only few labeled change point instances.
翻訳日:2022-02-09 15:20:46 公開日:2022-02-08
# 累積ラドン特徴量による時系列異常検出

Time Series Anomaly Detection by Cumulative Radon Features ( http://arxiv.org/abs/2202.04067v1 )

ライセンス: Link先を確認
Yedid Hoshen(参考訳) 異常な時系列を検出することは、科学的、医学的、産業的なタスクにとって重要だが、本質的な教師なしの性質のため、困難である。 近年、深層ニューラルネットワークを用いて、より複雑な機能を学ぶことで、このタスクの進歩がもたらされている。 本研究では,分布距離測定と組み合わせると浅い特徴が十分であると主張する。 当社のアプローチでは,各時系列を,各タイムポイントが1つのサンプルを構成する高次元の経験的特徴分布としてモデル化する。 したがって、テスト時系列と通常のトレーニングセットの間の距離をモデル化するには、多変量確率分布間の距離を効率的に測定する必要がある。 累積ラドン特徴を用いて各時系列をパラメータ化することで,正規時系列の分布を効率的かつ効果的にモデル化できることを示す。 提案手法は,従来の手法と複雑で最先端のディープラーニング手法よりも優れた結果が得られることを示す。 コードが提供される。

Detecting anomalous time series is key for scientific, medical and industrial tasks, but is challenging due to its inherent unsupervised nature. In recent years, progress has been made on this task by learning increasingly more complex features, often using deep neural networks. In this work, we argue that shallow features suffice when combined with distribution distance measures. Our approach models each time series as a high dimensional empirical distribution of features, where each time-point constitutes a single sample. Modeling the distance between a test time series and the normal training set therefore requires efficiently measuring the distance between multivariate probability distributions. We show that by parameterizing each time series using cumulative Radon features, we are able to efficiently and effectively model the distribution of normal time series. Our theoretically grounded but simple-to-implement approach is evaluated on multiple datasets and shown to achieve better results than established, classical methods as well as complex, state-of-the-art deep learning methods. Code is provided.
翻訳日:2022-02-09 15:20:21 公開日:2022-02-08
# (参考訳) 画像編集のための自己条件付き生成型逆ネットワーク

Self-Conditioned Generative Adversarial Networks for Image Editing ( http://arxiv.org/abs/2202.04040v1 )

ライセンス: CC BY 4.0
Yunzhe Liu, Rinon Gal, Amit H. Bermano, Baoquan Chen, Daniel Cohen-Or(参考訳) generative adversarial networks (gans) はバイアスに影響を受けやすく、バランスのとれないデータやモードの崩壊から学んでいる。 ネットワークはデータ分散のコアに集中し、テール(あるいは分布のエッジ)を置き去りにします。 このバイアスは公平な懸念だけでなく、ディストリビューションのコアから切り離す際に潜在トラバーサル編集方法が崩壊する上でも重要な役割を担っていると論じている。 本研究は, 自己条件付けプロセスを通じて生成バイアスを緩和する手法を概説し, 事前学習した発電機の潜伏空間内の距離をデータの初期ラベルとして利用する。 これらの自己ラベル付きデータから得られた再サンプリングされた分布にジェネレータを微調整することにより、ジェネレータは稀なセマンティック属性とよりよく競合し、これらの特性をより現実的な生成を可能にする。 モデルと潜在性編集手法を比較し,バイアスを緩和することで,より広い範囲の変換を通じて,より詳細な意味制御と識別性維持を実現することを示す。 私たちのコードとモデルはhttps://github.com/yzliu567/sc-ganで入手できる。

Generative Adversarial Networks (GANs) are susceptible to bias, learned from either the unbalanced data, or through mode collapse. The networks focus on the core of the data distribution, leaving the tails - or the edges of the distribution - behind. We argue that this bias is responsible not only for fairness concerns, but that it plays a key role in the collapse of latent-traversal editing methods when deviating away from the distribution's core. Building on this observation, we outline a method for mitigating generative bias through a self-conditioning process, where distances in the latent-space of a pre-trained generator are used to provide initial labels for the data. By fine-tuning the generator on a re-sampled distribution drawn from these self-labeled data, we force the generator to better contend with rare semantic attributes and enable more realistic generation of these properties. We compare our models to a wide range of latent editing methods, and show that by alleviating the bias they achieve finer semantic control and better identity preservation through a wider range of transformations. Our code and models will be available at https://github.com/yzliu567/sc-gan
翻訳日:2022-02-09 15:18:08 公開日:2022-02-08
# カスケード・デバイアス : 多重フェアネス・エンハンシングによる累積効果の研究

Cascaded Debiasing : Studying the Cumulative Effect of Multiple Fairness-Enhancing Interventions ( http://arxiv.org/abs/2202.03734v1 )

ライセンス: Link先を確認
Bhavya Ghai, Mihir Mishra, Klaus Mueller(参考訳) 機械学習(ML)パイプラインの異なる段階における複数のフェアネス強化介入の累積効果を理解することは、フェアネス文学の批判的で未発見の側面である。 このような知識は、公正なMLパイプラインの設計において、データサイエンティストやML実践者に価値があります。 本稿は,60の介入,9の公正度指標,2つのユーティリティメトリクス(精度とF1スコア)を4つのベンチマークデータセットに組み合わせて,この領域を探索する第一歩となる。 実験データを定量的に分析し,公平性,実用性,集団に対する複数介入の影響を定量的に測定した。 その結果,複数の介入を施すことで,個々の介入よりも公平性が向上し,有用性が低下することが判明した。 しかし、より多くの介入を追加することは、必ずしもより良い公平性や悪いユーティリティをもたらすとは限らない。 高いパフォーマンス(f1スコア)と高い公平性を達成する確率は、より多くの介入によって増加する。 マイナス面として,公平度向上の介入は,異なる集団,特に特権集団に悪影響を及ぼすことが判明した。 この研究は、集団間の格差だけでなく、異なる集団に対する影響を考慮に入れた新しい公平度指標の必要性を強調した。 最後に、フェアなMLパイプラインの設計を支援するために、さまざまなフェアネスとユーティリティメトリクスに最適な介入の組み合わせのリストを提供します。

Understanding the cumulative effect of multiple fairness enhancing interventions at different stages of the machine learning (ML) pipeline is a critical and underexplored facet of the fairness literature. Such knowledge can be valuable to data scientists/ML practitioners in designing fair ML pipelines. This paper takes the first step in exploring this area by undertaking an extensive empirical study comprising 60 combinations of interventions, 9 fairness metrics, 2 utility metrics (Accuracy and F1 Score) across 4 benchmark datasets. We quantitatively analyze the experimental data to measure the impact of multiple interventions on fairness, utility and population groups. We found that applying multiple interventions results in better fairness and lower utility than individual interventions on aggregate. However, adding more interventions do no always result in better fairness or worse utility. The likelihood of achieving high performance (F1 Score) along with high fairness increases with larger number of interventions. On the downside, we found that fairness-enhancing interventions can negatively impact different population groups, especially the privileged group. This study highlights the need for new fairness metrics that account for the impact on different population groups apart from just the disparity between groups. Lastly, we offer a list of combinations of interventions that perform best for different fairness and utility metrics to aid the design of fair ML pipelines.
翻訳日:2022-02-09 15:05:12 公開日:2022-02-08
# reluニューラルネットワークの幅は深さよりも重要ではない

Width is Less Important than Depth in ReLU Neural Networks ( http://arxiv.org/abs/2202.03841v1 )

ライセンス: Link先を確認
Gal Vardi, Gilad Yehudai, Ohad Shamir(参考訳) Lu et al. (2017) は、$\mathbb{R}^d$ の入力を持つ任意の対象ネットワークを、(対象ネットワークのアーキテクチャに依存しない)幅$O(d)$ネットワークで近似できることを示した。 従来の深さ分離定理は、幅と深さの役割が入れ替わるときに同様の結果が得られないことを示しており、ニューラルネットワークの表現力において、深さが幅よりも重要な役割を果たすことが従う。 その結果は,境界重み付きネットワークの構築,最大幅が$d+2$のネットワークの構築に拡張される。 これら2つの構成は、ターゲットネットワーク上のパラメータ数に余分な多項式因子を引き起こす。 また、深いネットワークと狭いネットワークを用いて、対象ネットワーク上のパラメータ数が増加しないような、幅の広いネットワークと浅いネットワークの正確な表現を示す。

We solve an open question from Lu et al. (2017), by showing that any target network with inputs in $\mathbb{R}^d$ can be approximated by a width $O(d)$ network (independent of the target network's architecture), whose number of parameters is essentially larger only by a linear factor. In light of previous depth separation theorems, which imply that a similar result cannot hold when the roles of width and depth are interchanged, it follows that depth plays a more significant role than width in the expressive power of neural networks. We extend our results to constructing networks with bounded weights, and to constructing networks with width at most $d+2$, which is close to the minimal possible width due to previous lower bounds. Both of these constructions cause an extra polynomial factor in the number of parameters over the target network. We also show an exact representation of wide and shallow networks using deep and narrow networks which, in certain cases, does not increase the number of parameters over the target network.
翻訳日:2022-02-09 15:04:05 公開日:2022-02-08
# Strict Complementarityによる高次元凸部分空間最適化のための効率的なアルゴリズム

Efficient Algorithms for High-Dimensional Convex Subspace Optimization via Strict Complementarity ( http://arxiv.org/abs/2202.04020v1 )

ライセンス: Link先を確認
Dan Garber, Ron Fisher(参考訳) 我々は、凸と滑らかな損失を最小化する$\reals^n$, $k<<n$ の$k$次元部分空間を目標とする最適化問題を考える。 このような問題は、主成分分析(PCA)の基本課題を、頑健でスパースな要素や、バイナリデータのためのロジスティックPCAなどを含むように一般化する。 この問題は凸ではないものの、非常に効率的な反復とメモリ要件を持つ自然アルゴリズムを認め、高次元のレジームにおいて非常に望ましいが、グローバルな最適解への高速な収束について議論することは困難である。 一方、大域的最適度への収束が単純であるような単純な凸緩和が存在するが、対応するアルゴリズムは次元が非常に大きい場合には効率的ではない。 本研究では、凸緩和に対する最適解が一意であり、また元の非凸問題に対する最適解であるような自然な決定論的十分条件を示す。 主に、この条件下では、「ウォームスタート」で初期化されると「textit{gradient orthogonal iteration}」と呼ばれる自然な高効率な非凸勾配法が非凸問題に対して線形収束することを証明している。 また,非凸射影勾配法と,凸緩和に適用した場合のフランク・ウルフ法についても同様の結果が得られた。 我々は、我々のアプローチの魅力を示す合成データに関する実証的な証拠で締めくくった。

We consider optimization problems in which the goal is find a $k$-dimensional subspace of $\reals^n$, $k<<n$, which minimizes a convex and smooth loss. Such problemsgeneralize the fundamental task of principal component analysis (PCA) to include robust and sparse counterparts, and logistic PCA for binary data, among others. While this problem is not convex it admits natural algorithms with very efficient iterations and memory requirements, which is highly desired in high-dimensional regimes however, arguing about their fast convergence to a global optimal solution is difficult. On the other hand, there exists a simple convex relaxation for which convergence to the global optimum is straightforward, however corresponding algorithms are not efficient when the dimension is very large. In this work we present a natural deterministic sufficient condition so that the optimal solution to the convex relaxation is unique and is also the optimal solution to the original nonconvex problem. Mainly, we prove that under this condition, a natural highly-efficient nonconvex gradient method, which we refer to as \textit{gradient orthogonal iteration}, when initialized with a "warm-start", converges linearly for the nonconvex problem. We also establish similar results for the nonconvex projected gradient method, and the Frank-Wolfe method when applied to the convex relaxation. We conclude with empirical evidence on synthetic data which demonstrate the appeal of our approach.
翻訳日:2022-02-09 15:03:46 公開日:2022-02-08
# 非滑らか・低ランク行列最適化問題に対する低ランク超勾配法

Low-Rank Extragradient Method for Nonsmooth and Low-Rank Matrix Optimization Problems ( http://arxiv.org/abs/2202.04026v1 )

ライセンス: Link先を確認
Dan Garber, Atara Kaplan(参考訳) 低ランクおよび非滑らかな行列最適化問題は統計学や機械学習における多くの基本的なタスクを捉えている。 近年,高階行列の維持や高価な高階SVDの計算が困難になるような低階最適化問題に対する効率的な手法の開発が進んでいるが,非滑らかな問題の進歩は遅れている。 本稿では,このような問題に対する標準凸緩和について考察する。 主に、自然な \textit{ Generalized strict complementarity} 条件と、非滑らかな目的が滑らかな関数の最大値として記述できるという比較的穏やかな仮定の下では、 \textit{extragradient method} が "warm-start" 点で初期化されると、反復毎に2つの \textit{low-rank} SVD しか必要とせず、速度$O(1/t)$ で最適解に収束する。 我々は,必要なSVDのランクと,そのメソッドを初期化する必要があるボールの半径との間に,正確なトレードオフを与える。 我々は,非滑らかな低ランク行列回復タスクに関する実験的な実験を行い,全ランクSVDを(低ランクの)接地トラス行列のランクに一致するランクのSVDに置き換えた場合に,単純な初期化を用いて全く同じ繰り返しを生成することを示した。

Low-rank and nonsmooth matrix optimization problems capture many fundamental tasks in statistics and machine learning. While significant progress has been made in recent years in developing efficient methods for \textit{smooth} low-rank optimization problems that avoid maintaining high-rank matrices and computing expensive high-rank SVDs, advances for nonsmooth problems have been slow paced. In this paper we consider standard convex relaxations for such problems. Mainly, we prove that under a natural \textit{generalized strict complementarity} condition and under the relatively mild assumption that the nonsmooth objective can be written as a maximum of smooth functions, the \textit{extragradient method}, when initialized with a "warm-start" point, converges to an optimal solution with rate $O(1/t)$ while requiring only two \textit{low-rank} SVDs per iteration. We give a precise trade-off between the rank of the SVDs required and the radius of the ball in which we need to initialize the method. We support our theoretical results with empirical experiments on several nonsmooth low-rank matrix recovery tasks, demonstrating that using simple initializations, the extragradient method produces exactly the same iterates when full-rank SVDs are replaced with SVDs of rank that matches the rank of the (low-rank) ground-truth matrix to be recovered.
翻訳日:2022-02-09 15:03:22 公開日:2022-02-08
# 乳がんスクリーニング技術に関するサーベイ:サーモグラフィーと電気インピーダンストモグラフィー

A Survey of Breast Cancer Screening Techniques: Thermography and Electrical Impedance Tomography ( http://arxiv.org/abs/2202.03737v1 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez, N. Zerhouni, Z. Al Masry, C. Devalland, C. Varnier(参考訳) 乳がんは、多くの女性の生命を脅かす病気であり、早期かつ正確な発見が死亡率の低下に重要な役割を果たしている。 マンモグラフィは乳がん検診の基準技術であるが、多くの国では経済的、社会的、文化的問題のためにマンモグラフィへのアクセスが不足している。 計算ツール、赤外線カメラ、生体インピーダンス定量化装置の進歩により、サーモグラフィー、赤外線イメージング、電気インピーダンストモグラフィといった並列技術の開発が可能となり、より速く、信頼性が高く、安価になった。 過去数十年間、これらは乳がん診断の補完的手順と考えられており、多くの研究が偽陽性と偽陰性率は大幅に減少していると結論付けている。 本研究は, 先述した3つの技術に関する最後のブレークスルーを概観し, より優れたグローバルパフォーマンスを得るために, 複数の計算スキルを混在させることの利点を説明することを目的とする。 さらに,ロジスティック回帰,決定木,ランダムフォレストから人工,深層,畳み込みニューラルネットワークまで,乳がん診断に適用されるいくつかの機械学習手法の比較を行った。 最後に, 3次元乳房シミュレーション, 前処理技術, 研究分野のバイオメディカルデバイス, 腫瘍の位置と大きさの予測について述べる。

Breast cancer is a disease that threatens many women's life, thus, early and accurate detection plays a key role in reducing the mortality rate. Mammography stands as the reference technique for breast cancer screening; nevertheless, many countries still lack access to mammograms due to economic, social, and cultural issues. Last advances in computational tools, infrared cameras, and devices for bio-impedance quantification allowed the development of parallel techniques like thermography, infrared imaging, and electrical impedance tomography, these being faster, reliable and cheaper. In the last decades, these have been considered as complement procedures for breast cancer diagnosis, where many studies concluded that false positive and false negative rates are greatly reduced. This work aims to review the last breakthroughs about the three above-mentioned techniques describing the benefits of mixing several computational skills to obtain a better global performance. In addition, we provide a comparison between several machine learning techniques applied to breast cancer diagnosis going from logistic regression, decision trees, and random forest to artificial, deep, and convolutional neural networks. Finally, it is mentioned several recommendations for 3D breast simulations, pre-processing techniques, biomedical devices in the research field, prediction of tumor location and size.
翻訳日:2022-02-09 15:02:52 公開日:2022-02-08
# 言語モデルは位置-ロールマッピングを学ぶか?

Do Language Models Learn Position-Role Mappings? ( http://arxiv.org/abs/2202.03611v1 )

ライセンス: Link先を確認
Jackson Petty, Michael Wilson, Robert Frank(参考訳) 自然言語における位置ロールマッピングの知識はどのように学習されるか? 本稿では,この課題を計算環境において検討し,多種多様な関連言語モデル(BERT,RoBERTa,DistilBERT)がこれらのマッピングの知識を示し,その知識が構文的,構造的,語彙的交替において相互に持続するか否かを検討する。 実験1では、これらのニューラルモデルが、ditransitive構成におけるテーマと受け手の役割の区別を実際に認識し、これらの異なるパターンが構築タイプ間で共有されることを示す。 実験2では,これらの言語モデルを新しいテーマと受け手のようなトークンで微調整することで,モデルが他のパラダイムでの配置を正しく予測できることを示すことにより,これらのマッピングの知識が独立的に学習されるのではなく,共有されていることを示唆する。 しかし、この一般化のいくつかの制限は、タスクが新しい二進動詞による構成を伴い、モデル性能の基盤となる語彙的特異性の程度を示唆するものである。

How is knowledge of position-role mappings in natural language learned? We explore this question in a computational setting, testing whether a variety of well-performing pertained language models (BERT, RoBERTa, and DistilBERT) exhibit knowledge of these mappings, and whether this knowledge persists across alternations in syntactic, structural, and lexical alternations. In Experiment 1, we show that these neural models do indeed recognize distinctions between theme and recipient roles in ditransitive constructions, and that these distinct patterns are shared across construction type. We strengthen this finding in Experiment 2 by showing that fine-tuning these language models on novel theme- and recipient-like tokens in one paradigm allows the models to make correct predictions about their placement in other paradigms, suggesting that the knowledge of these mappings is shared rather than independently learned. We do, however, observe some limitations of this generalization when tasks involve constructions with novel ditransitive verbs, hinting at a degree of lexical specificity which underlies model performance.
翻訳日:2022-02-09 15:01:19 公開日:2022-02-08
# 抽象要約に基づく微分可能なN-gram

Differentiable N-gram Objective on Abstractive Summarization ( http://arxiv.org/abs/2202.04003v1 )

ライセンス: Link先を確認
Yunqi Zhu and Wensheng Zhang and Mingjin Zhu(参考訳) ROUGEは、シーケンス・ツー・シーケンスタスクのn-gramに基づく標準的な自動評価指標であり、クロスエントロピー損失は、ユニグラムレベルで最適化されるニューラルネットワーク言語モデルの重要な目的である。 そこで我々は,n-gramの目標を微分可能とし,訓練基準と評価基準との相違を緩和する。 この目的は一致したサブシーケンスの確率的重みを最大化し、我々の研究の新規性は一致したサブシーケンスの目的重みを等しく保ち、基準系列におけるn-グラムの基底真理数によって一致したサブシーケンスの数を減少させない。 クロスエントロピー損失と提案する目標を共同で最適化し,抽象要約データセットcnn/dmとxsumに対して,適切なルージュスコアの強化を行い,代替n-gram目標を上回った。

ROUGE is a standard automatic evaluation metric based on n-grams for sequence-to-sequence tasks, while cross-entropy loss is an essential objective of neural network language model that optimizes at a unigram level. We present differentiable n-gram objectives, attempting to alleviate the discrepancy between training criterion and evaluating criterion. The objective maximizes the probabilistic weight of matched sub-sequences, and the novelty of our work is the objective weights the matched sub-sequences equally and does not ceil the number of matched sub-sequences by the ground truth count of n-grams in reference sequence. We jointly optimize cross-entropy loss and the proposed objective, providing decent ROUGE score enhancement over abstractive summarization dataset CNN/DM and XSum, outperforming alternative n-gram objectives.
翻訳日:2022-02-09 15:00:59 公開日:2022-02-08
# ポルトガル語の質問応答とテキストからsqlへの統合

Integrating question answering and text-to-SQL in Portuguese ( http://arxiv.org/abs/2202.04048v1 )

ライセンス: Link先を確認
Marcos Menon Jos\'e, Marcelo Archanjo Jos\'e, Denis Deratani Mau\'a and F\'abio Gagliardi Cozman(参考訳) ディープラーニングトランスフォーマーは、自然言語の質問に答えるシステムを大幅に改善した。 ここでは、異なるモジュールを統合して、2つの異なる種類のクエリに応答するアーキテクチャを提案し、構築し、検証する。 我々のアーキテクチャは、自由形式の自然言語テキストを取り、それを分類してNeural Question Answering ReasonerまたはNatural Language ParserにSQLに送る。 私たちは、この言語で利用可能な主要なツールを使って、ポルトガル語の完全なシステムを実装し、トレーニングとテストデータセットを翻訳しました。 実験により,本システムは高い精度 (99 %以上) で適切な解答法を選択し,モジュール型解答法の有効性を検証した。

Deep learning transformers have drastically improved systems that automatically answer questions in natural language. However, different questions demand different answering techniques; here we propose, build and validate an architecture that integrates different modules to answer two distinct kinds of queries. Our architecture takes a free-form natural language text and classifies it to send it either to a Neural Question Answering Reasoner or a Natural Language parser to SQL. We implemented a complete system for the Portuguese language, using some of the main tools available for the language and translating training and testing datasets. Experiments show that our system selects the appropriate answering method with high accuracy (over 99\%), thus validating a modular question answering strategy.
翻訳日:2022-02-09 15:00:40 公開日:2022-02-08
# time to focus:時系列帰属法を用いた総合ベンチマーク

Time to Focus: A Comprehensive Benchmark Using Time Series Attribution Methods ( http://arxiv.org/abs/2202.03759v1 )

ライセンス: Link先を確認
Dominique Mercier, Jwalin Bhatt, Andreas Dengel, Sheraz Ahmed(参考訳) 過去10年間、ニューラルネットワークは、不正確または複雑なデータから有意義な特徴を抽出し、いくつかのドメインで超人的パフォーマンスを達成する能力によって、産業と研究の両方に大きな影響を与えてきた。 しかし、透明性の欠如により、これらのネットワークの使用は安全クリティカルな領域で妨げられている。 安全上重要な地域では、法律でこれが必要である。 近年,これらのモデルによる予測の解釈を提供することにより,このブラックボックスを明らかにする方法が提案されている。 本稿では,畳み込み型分類器の説明を計算し,時系列解析に焦点をあてる。 提案実験は,勾配法および摂動法に基づく帰属法を含む。 詳細分析の結果,摂動に基づくアプローチが感度と咬合ゲームにおいて優れていることがわかった。 これらの手法は、より高い連続性を持つ説明を生み出す傾向がある。 逆に、グラデーションベースのテクニックは実行時や不確かさに優れています。 さらに、トレーニングされたモデル、実行可能なアプリケーションドメイン、個々の特性に対するメソッドの依存性を検証する。 その結果,最適な属性選択法が望ましいユースケースと強く相関していることが示唆された。 アトリビューションメソッドのカテゴリも単一のアプローチも、すべての面で優れたパフォーマンスを示していません。

In the last decade neural network have made huge impact both in industry and research due to their ability to extract meaningful features from imprecise or complex data, and by achieving super human performance in several domains. However, due to the lack of transparency the use of these networks is hampered in the areas with safety critical areas. In safety-critical areas, this is necessary by law. Recently several methods have been proposed to uncover this black box by providing interpreation of predictions made by these models. The paper focuses on time series analysis and benchmark several state-of-the-art attribution methods which compute explanations for convolutional classifiers. The presented experiments involve gradient-based and perturbation-based attribution methods. A detailed analysis shows that perturbation-based approaches are superior concerning the Sensitivity and occlusion game. These methods tend to produce explanations with higher continuity. Contrarily, the gradient-based techniques are superb in runtime and Infidelity. In addition, a validation the dependence of the methods on the trained model, feasible application domains, and individual characteristics is attached. The findings accentuate that choosing the best-suited attribution method is strongly correlated with the desired use case. Neither category of attribution methods nor a single approach has shown outstanding performance across all aspects.
翻訳日:2022-02-09 15:00:03 公開日:2022-02-08
# 知識グラフを用いた機械学習分類器のルールに基づく説明

Computing Rule-Based Explanations of Machine Learning Classifiers using Knowledge Graphs ( http://arxiv.org/abs/2202.03971v1 )

ライセンス: Link先を確認
Edmund Dervakos, Orfeas Menis-Mastromichalakis, Alexandros Chortaras, Giorgos Stamou(参考訳) 機械学習分類器の透明性の欠如を解決する手段として、記号的知識表現と推論を用いることは、近年多くの研究者を惹きつける研究分野である。 本研究では,機械学習分類器の動作を説明する用語を提供する基盤となるフレームワークとして知識グラフを用いる。 特に、知識グラフの形で分類器の応用領域が記述された場合、知識グラフの用語で表される一階述語論理規則の形で、その操作のブラックボックス説明を抽出し表現する新しい方法を導入する。

The use of symbolic knowledge representation and reasoning as a way to resolve the lack of transparency of machine learning classifiers is a research area that lately attracts many researchers. In this work, we use knowledge graphs as the underlying framework providing the terminology for representing explanations for the operation of a machine learning classifier. In particular, given a description of the application domain of the classifier in the form of a knowledge graph, we introduce a novel method for extracting and representing black-box explanations of its operation, in the form of first-order logic rules expressed in the terminology of the knowledge graph.
翻訳日:2022-02-09 14:59:46 公開日:2022-02-08
# 長期視覚位置認識のための意味的スケルトン表現を用いた新しい画像記述器

A Novel Image Descriptor with Aggregated Semantic Skeleton Representation for Long-term Visual Place Recognition ( http://arxiv.org/abs/2202.03677v1 )

ライセンス: Link先を確認
Nie Jiwei and Feng Joe-Mei and Xue Dingyu and Pan Feng and Liu Wei and Hu Jun and Cheng Shuai(参考訳) 同期ローカライゼーション・マッピング(SLAM)システムにおいて、ループクロージャは、特定のシーン記述子をマッチングすることで、プレストアされたシーケンシャルイメージのセットから現在のシーンを検索するVisual Place Recognition(VPR)によって達成される累積エラーを除去することができる。 都市シーンでは、季節や照明による外観の変化が、シーン記述者の頑健さに大きな課題をもたらしている。 意味的セグメンテーション画像は、対象の形状情報だけでなく、シーンの外観変化に影響されないカテゴリや空間関係も提供できる。 本稿では, 局所集約記述子ベクトル (VLAD) の革新により, 環境の急激な変化下でのVPRに対して, SSR-VLADと呼ばれる, 集合的意味的骨格表現(SSR)を付加した新しい画像記述子を提案する。 1つの画像のSSR-VLADは、各カテゴリのセマンティックスケルトンの特徴を集約し、画像意味情報の時空間分布情報を符号化する。 都市景観に挑戦する3つの公共データセットについて,一連の実験を行った。 CoHOG, NetVLAD, LOST-X, Region-VLADの4つの最先端VPR手法と比較して、SSR-VLADのマッチングによりVPRはこれらの手法より優れ、同時に競合するリアルタイム性能を維持する。

In a Simultaneous Localization and Mapping (SLAM) system, a loop-closure can eliminate accumulated errors, which is accomplished by Visual Place Recognition (VPR), a task that retrieves the current scene from a set of pre-stored sequential images through matching specific scene-descriptors. In urban scenes, the appearance variation caused by seasons and illumination has brought great challenges to the robustness of scene descriptors. Semantic segmentation images can not only deliver the shape information of objects but also their categories and spatial relations that will not be affected by the appearance variation of the scene. Innovated by the Vector of Locally Aggregated Descriptor (VLAD), in this paper, we propose a novel image descriptor with aggregated semantic skeleton representation (SSR), dubbed SSR-VLAD, for the VPR under drastic appearance-variation of environments. The SSR-VLAD of one image aggregates the semantic skeleton features of each category and encodes the spatial-temporal distribution information of the image semantic information. We conduct a series of experiments on three public datasets of challenging urban scenes. Compared with four state-of-the-art VPR methods- CoHOG, NetVLAD, LOST-X, and Region-VLAD, VPR by matching SSR-VLAD outperforms those methods and maintains competitive real-time performance at the same time.
翻訳日:2022-02-09 14:57:52 公開日:2022-02-08
# クラスインクリメンタルラーニングのための自己修復型不均衡整流

Self-Paced Imbalance Rectification for Class Incremental Learning ( http://arxiv.org/abs/2202.03703v1 )

ライセンス: Link先を確認
Zhiheng Liu, Kai Zhu and Yang Cao(参考訳) exemplarベースのクラスインクリメンタルラーニングは、古いクラスを忘れずに新しいクラスを認識し、そのサンプルは限られたメモリでしか保存できない。 異なる環境におけるメモリ容量の変動に起因する古い例に対する新しいサンプルの比率変動は、漸進的な最適化プロセスの安定化に困難をもたらす。 この問題に対処するために,表現学習段階における漸進的バランスを動的に維持する,自己対応型不均衡補正手法を提案する。 具体的には,古いクラスと新しいクラス間のロジットマージンを対応する数比で調整し,古いクラスの表現能力を強化する周波数補償戦略と,古い組込み空間における異なるクラスの類似性を推定することで表現の混乱を低減させる継承転送戦略からなる。 さらに、複数のステップワイドインクリメントで古いクラスの繰り返し最適化を緩和するために、時間的減衰機構を提案する。 3つのベンチマークに関する広範な実験は、安定したインクリメンタルなパフォーマンスを示し、最先端のメソッドを著しく上回っている。

Exemplar-based class-incremental learning is to recognize new classes while not forgetting old ones, whose samples can only be saved in limited memory. The ratio fluctuation of new samples to old exemplars, which is caused by the variation of memory capacity at different environments, will bring challenges to stabilize the incremental optimization process. To address this problem, we propose a novel self-paced imbalance rectification scheme, which dynamically maintains the incremental balance during the representation learning phase. Specifically, our proposed scheme consists of a frequency compensation strategy that adjusts the logits margin between old and new classes with the corresponding number ratio to strengthen the expression ability of the old classes, and an inheritance transfer strategy to reduce the representation confusion by estimating the similarity of different classes in the old embedding space. Furthermore, a chronological attenuation mechanism is proposed to mitigate the repetitive optimization of the older classes at multiple step-wise increments. Extensive experiments on three benchmarks demonstrate stable incremental performance, significantly outperforming the state-of-the-art methods.
翻訳日:2022-02-09 14:57:22 公開日:2022-02-08
# (参考訳) カーネル学習におけるスパース近似法の収束率の改善

Improved Convergence Rates for Sparse Approximation Methods in Kernel-Based Learning ( http://arxiv.org/abs/2202.04005v1 )

ライセンス: CC BY 4.0
Sattar Vakili, Jonathan Scarlett, Da-shan Shiu, Alberto Bernacchia(参考訳) kernel ridge regressionやgaussian processといったカーネルベースのモデルは、回帰と最適化のための機械学習アプリケーションにおいてユビキタスである。 カーネルベースのモデルの深刻な欠点は高い計算コストであることはよく知られており、$n$サンプルのデータセットを考えると、コストは$\mathcal{O}(n^3)$として増加する。 既存のスパース近似法は計算コストを大幅に削減することができ、実世界のコストを特定のケースでは$\mathcal{o}(n)$ まで下げることができる。 この顕著な成功にもかかわらず、近似による誤差に対する分析的信頼範囲の既存の結果には大きなギャップが残っている。 本研究では,new confidence intervals for the nystr\"om method と sparse variational gaussian processes approximation method を提案する。 私たちの信頼区間は、回帰と最適化の両方においてエラー境界を改善します。 これらの信頼区間を,モデルの近似(サロゲート)後方分散の新しい解釈を用いて確立する。

Kernel-based models such as kernel ridge regression and Gaussian processes are ubiquitous in machine learning applications for regression and optimization. It is well known that a serious downside for kernel-based models is the high computational cost; given a dataset of $n$ samples, the cost grows as $\mathcal{O}(n^3)$. Existing sparse approximation methods can yield a significant reduction in the computational cost, effectively reducing the real world cost down to as low as $\mathcal{O}(n)$ in certain cases. Despite this remarkable empirical success, significant gaps remain in the existing results for the analytical confidence bounds on the error due to approximation. In this work, we provide novel confidence intervals for the Nystr\"om method and the sparse variational Gaussian processes approximation method. Our confidence intervals lead to improved error bounds in both regression and optimization. We establish these confidence intervals using novel interpretations of the approximate (surrogate) posterior variance of the models.
翻訳日:2022-02-09 14:54:33 公開日:2022-02-08
# KENN: 時系列予測の知識を活用したディープニューラルネットワークの実現

KENN: Enhancing Deep Neural Networks by Leveraging Knowledge for Time Series Forecasting ( http://arxiv.org/abs/2202.03903v1 )

ライセンス: Link先を確認
Muhammad Ali Chattha, Ludger van Elst, Muhammad Imran Malik, Andreas Dengel, Sheraz Ahmed(参考訳) エンドツーエンドのデータ駆動機械学習手法は、実世界のアプリケーションでは実現できないことが多い、トレーニングデータの質と量という面では、しばしば余分な要件を持っています。 これは特に、災害予測、異常検出、需要予測などの問題が大量の履歴データを持っていない時系列領域において当てはまる。 さらに、トレーニングの過去の例に純粋に依存することは、実行時に非常に重要なドメインである知識を無視し、独自のアドバンテージを持つため、サブ最適である。 本稿では,知識とデータドメインの強みを両立させ,個々の弱点を緩和することを目的とした時系列予測のための知識融合アーキテクチャである知識強化ニューラルネットワーク(KENN)を提案する。 我々は、KENNがフレームワーク全体のデータ依存を減らすだけでなく、純粋に知識とデータ駆動ドメインによって生成されるものよりも優れた予測を生成することで、パフォーマンスを向上させることを示した。 また,kennと最先端予測手法を比較し,50%のデータをトレーニングした場合においても,kennが生成する予測が有意に優れていることを示した。

End-to-end data-driven machine learning methods often have exuberant requirements in terms of quality and quantity of training data which are often impractical to fulfill in real-world applications. This is specifically true in time series domain where problems like disaster prediction, anomaly detection, and demand prediction often do not have a large amount of historical data. Moreover, relying purely on past examples for training can be sub-optimal since in doing so we ignore one very important domain i.e knowledge, which has its own distinct advantages. In this paper, we propose a novel knowledge fusion architecture, Knowledge Enhanced Neural Network (KENN), for time series forecasting that specifically aims towards combining strengths of both knowledge and data domains while mitigating their individual weaknesses. We show that KENN not only reduces data dependency of the overall framework but also improves performance by producing predictions that are better than the ones produced by purely knowledge and data driven domains. We also compare KENN with state-of-the-art forecasting methods and show that predictions produced by KENN are significantly better even when trained on only 50\% of the data.
翻訳日:2022-02-09 14:13:47 公開日:2022-02-08
# 混合整数計画を用いた注意ネットワークのロバスト性検証

Robustness Verification for Attention Networks using Mixed Integer Programming ( http://arxiv.org/abs/2202.03932v1 )

ライセンス: Link先を確認
Hsuan-Cheng Liao, Chih-Hong Cheng, Maximilian Kneissl, Alois Knoll(参考訳) 変換器のような注意ネットワークは、自然言語処理からオブジェクト認識まで、多くのアプリケーションで強力に示されてきた。 本稿では,そのロバスト性について,理論と経験的両面から考察する。 理論的には、線形化層正規化とスパースマックス活性化を含む注意ネットワークを定式化し、その堅牢性検証を混合整数計画問題に還元する。 na\" エンコーディングとは別に、許容摂動領域から厳密な間隔を導き、検証プロセスを高速化するためにいくつかのヒューリスティックを調べる。 より具体的には、一般的なニューラルネットワークにおけるsoftmaxアクティベーションにも適用可能な、スパースマックスアクティベーションのための新しいバウンディングテクニックを見つける。 実験により,提案手法を車線逸脱警告のケーススタディで評価し,約1桁の性能向上を実証した。 さらに、注意ネットワークは一般的に一般的なニューラルネットワークよりも高い精度を提供するが、類似のサイズのマルチ層パーセプトロンと対照的に、必ずしもロバストではないことを示す。

Attention networks such as transformers have been shown powerful in many applications ranging from natural language processing to object recognition. This paper further considers their robustness properties from both theoretical and empirical perspectives. Theoretically, we formulate a variant of attention networks containing linearized layer normalization and sparsemax activation, and reduce its robustness verification to a Mixed Integer Programming problem. Apart from a na\"ive encoding, we derive tight intervals from admissible perturbation regions and examine several heuristics to speed up the verification process. More specifically, we find a novel bounding technique for sparsemax activation, which is also applicable to softmax activation in general neural networks. Empirically, we evaluate our proposed techniques with a case study on lane departure warning and demonstrate a performance gain of approximately an order of magnitude. Furthermore, although attention networks typically deliver higher accuracy than general neural networks, contrasting its robustness against a similar-sized multi-layer perceptron surprisingly shows that they are not necessarily more robust.
翻訳日:2022-02-09 14:13:29 公開日:2022-02-08
# 局所ニューラルトランスフォーメーションを用いた時系列内異常の検出

Detecting Anomalies within Time Series using Local Neural Transformations ( http://arxiv.org/abs/2202.03944v1 )

ライセンス: Link先を確認
Tim Schneider, Chen Qiu, Marius Kloft, Decky Aspandi Latif, Steffen Staab, Stephan Mandt, Maja Rudolph(参考訳) 我々は,自動車,金融,マーケティングから医療診断,疫学に至るまで,多くのアプリケーション領域において不可欠な時系列内の異常を検出する新しい手法を開発した。 この手法は、強力な画像変換が可能な画像の深い異常検出を促進する上で重要な役割を果たした自己教師型ディープラーニングに基づいている。 しかし、このような変換は時系列では広く利用できない。 そこで我々は,データから時系列の局所変換を学習する手法であるLocal Neural Transformations(LNT)を開発した。 本手法は,各時間ステップ毎に異常スコアを生成し,時系列内の異常を検出する。 従来の深部異常検出(ad)法よりも,新しい学習目標が変換学習に適していることが理論的に証明された。 我々の実験は,LNTがLibriSpeechデータセットから音声セグメントの異常を見つけ,サイバー物理システムへの割り込みを従来よりもより正確に検出できることを実証した。 学習した変換の可視化は、LNTが学習する変換のタイプに関する洞察を与える。

We develop a new method to detect anomalies within time series, which is essential in many application domains, reaching from self-driving cars, finance, and marketing to medical diagnosis and epidemiology. The method is based on self-supervised deep learning that has played a key role in facilitating deep anomaly detection on images, where powerful image transformations are available. However, such transformations are widely unavailable for time series. Addressing this, we develop Local Neural Transformations(LNT), a method learning local transformations of time series from data. The method produces an anomaly score for each time step and thus can be used to detect anomalies within time series. We prove in a theoretical analysis that our novel training objective is more suitable for transformation learning than previous deep Anomaly detection(AD) methods. Our experiments demonstrate that LNT can find anomalies in speech segments from the LibriSpeech data set and better detect interruptions to cyber-physical systems than previous work. Visualization of the learned transformations gives insight into the type of transformations that LNT learns.
翻訳日:2022-02-09 14:13:09 公開日:2022-02-08
# 短期記憶を用いた確率的強化学習

Provable Reinforcement Learning with a Short-Term Memory ( http://arxiv.org/abs/2202.03983v1 )

ライセンス: Link先を確認
Yonathan Efroni, Chi Jin, Akshay Krishnamurthy, Sobhan Miryoosefi(参考訳) 現実のシーケンシャルな意思決定問題は、一般に部分的な可観測性を伴うため、エージェントは潜伏状態や計画、適切な決定を行うために、履歴の記憶を維持する必要がある。 部分的に観測可能なマルコフ決定過程(POMDPs)の学習において、多くの最悪の統計的および計算上の障壁が知られているため、一般に部分観測可能性を伴う符号化は非常に難しい。 いくつかの物理応用における問題構造と「フレーム・スタックング」と呼ばれる一般的な手法によって動機づけられた本論文では,最新の短い長さ$m$の履歴から潜在状態が復号できるPMDPの新たなサブクラスを研究することを提案する。 表式およびリッチ観測設定(観測回数が巨大である場合)において、この種類の問題に対する最適に近いポリシーを学ぶために、サンプル複雑性の上限と下限を設定する。 特に,リッチ・オブザーブレーション・セッティングでは,問題地平線ではなく,短期の$m$で指数関数的にスケールし,観測数に依存しない,新しい「モーメントマッチング」手法を用いて新しいアルゴリズムを開発した。 これらの環境において,短期記憶が強化学習に十分であることを示す。

Real-world sequential decision making problems commonly involve partial observability, which requires the agent to maintain a memory of history in order to infer the latent states, plan and make good decisions. Coping with partial observability in general is extremely challenging, as a number of worst-case statistical and computational barriers are known in learning Partially Observable Markov Decision Processes (POMDPs). Motivated by the problem structure in several physical applications, as well as a commonly used technique known as "frame stacking", this paper proposes to study a new subclass of POMDPs, whose latent states can be decoded by the most recent history of a short length $m$. We establish a set of upper and lower bounds on the sample complexity for learning near-optimal policies for this class of problems in both tabular and rich-observation settings (where the number of observations is enormous). In particular, in the rich-observation setting, we develop new algorithms using a novel "moment matching" approach with a sample complexity that scales exponentially with the short length $m$ rather than the problem horizon, and is independent of the number of observations. Our results show that a short-term memory suffices for reinforcement learning in these environments.
翻訳日:2022-02-09 14:12:53 公開日:2022-02-08
# 融合Gromov-Wasserstein Barycenterを用いたグラフ予測の学習

Learning to Predict Graphs with Fused Gromov-Wasserstein Barycenters ( http://arxiv.org/abs/2202.03813v1 )

ライセンス: Link先を確認
Luc Brogat-Motte, R\'emi Flamary, C\'eline Brouard, Juho Rousu, Florence d'Alch\'e-Buc(参考訳) 本稿では,最適なトランスポートツールを利用することで,ラベル付きグラフ予測を監督するフラッグシップタスクを解決するための,新規で汎用的なフレームワークを提案する。 グロモフ・ワッセルシュタイン(fgw)損失による回帰問題として問題を定式化し,入力に重みが依存するfgwバリセンタに基づく予測モデルを提案する。 まず、カーネルリッジ回帰に基づく非パラメトリック推定器を導入し、一貫性や過剰リスク境界などの理論的結果が証明される。 次に、ニューラルネットワークを用いてバリセンター重みをモデル化し、FGWバリセンターを計算したグラフを付加的に学習する、解釈可能なパラメトリックモデルを提案する。 数値実験により, シミュレーションデータ上にラベル付きグラフ空間内を補間する手法の強度と性能が, 極めて少ない工学的手法で非常に良好な性能に到達できる, メタボリック同定の困難さを示す。

This paper introduces a novel and generic framework to solve the flagship task of supervised labeled graph prediction by leveraging Optimal Transport tools. We formulate the problem as regression with the Fused Gromov-Wasserstein (FGW) loss and propose a predictive model relying on a FGW barycenter whose weights depend on inputs. First we introduce a non-parametric estimator based on kernel ridge regression for which theoretical results such as consistency and excess risk bound are proved. Next we propose an interpretable parametric model where the barycenter weights are modeled with a neural network and the graphs on which the FGW barycenter is calculated are additionally learned. Numerical experiments show the strength of the method and its ability to interpolate in the labeled graph space on simulated data and on a difficult metabolic identification problem where it can reach very good performance with very little engineering.
翻訳日:2022-02-09 14:10:45 公開日:2022-02-08
# エキスパート強化によるロバストハイブリッド学習

Robust Hybrid Learning With Expert Augmentation ( http://arxiv.org/abs/2202.03881v1 )

ライセンス: Link先を確認
Antoine Wehenkel, Jens Behrmann, Hsiang Hsu, Guillermo Sapiro, Gilles Louppe and, J\"orn-Henrik Jacobsen(参考訳) ハイブリッドモデリングは、データから学んだ機械学習(ML)コンポーネントと組み合わせることで、専門家モデルの誤特定を減らす。 多くのMLアルゴリズムと同様に、ハイブリッドモデルの性能保証はトレーニング分布に限られている。 エキスパートモデルは通常、トレーニング領域外でも有効であるという知見を活用することで、‘textit{expert augmentation}’と呼ばれるハイブリッドデータ拡張戦略を導入することで、この制限を克服します。 ハイブリッドモデリングの確率論的形式化に基づき、専門家の強化が一般化を改善する理由を示す。 最後に, 常微分方程式および偏微分方程式によって記述される力学系をモデル化する一連の制御実験において, 拡張ハイブリッドモデルの実用的効果を検証する。

Hybrid modelling reduces the misspecification of expert models by combining them with machine learning (ML) components learned from data. Like for many ML algorithms, hybrid model performance guarantees are limited to the training distribution. Leveraging the insight that the expert model is usually valid even outside the training domain, we overcome this limitation by introducing a hybrid data augmentation strategy termed \textit{expert augmentation}. Based on a probabilistic formalization of hybrid modelling, we show why expert augmentation improves generalization. Finally, we validate the practical benefits of augmented hybrid models on a set of controlled experiments, modelling dynamical systems described by ordinary and partial differential equations.
翻訳日:2022-02-09 14:10:23 公開日:2022-02-08
# ペアワイズアレスト近傍平滑化による既存のk平均初期化アルゴリズムの体系的改善

Systematically improving existing k-means initialization algorithms at nearly no cost, by pairwise-nearest-neighbor smoothing ( http://arxiv.org/abs/2202.03949v1 )

ライセンス: Link先を確認
Carlo Baldassi(参考訳) PNN-smoothingと呼ばれる$k$-meansクラスタリングアルゴリズムを初期化(参照)するためのメタメソッドを提案する。 与えられたデータセットを$J$のランダムなサブセットに分割し、各データセットを個別にクラスタリングし、結果のクラスタリングをペアワイズ・アネレス・ニア(PNN)メソッドとマージする。 個々のサブセットをクラスタリングする場合、任意のシードアルゴリズムが使用できるという意味でのメタメソッドである。 シードアルゴリズムの計算複雑性が、データ$N$とクラスタ数$k$で線形であれば、PNN-smoothingもほぼ線形であり、適切な選択は$J$であり、実際、ほとんどの場合、少なくとも数パーセント遅くなっている。 実験により, 既存のシード法を複数使用し, 合成および実データ集合をテストした結果, この手法が系統的にコストを下げることを示した。 再帰的に適用することもでき、容易に並列化できる。 私たちの実装はhttps://github.com/carlobaldassi/KMeansPNNSmoothing.jlで公開されています。

We present a meta-method for initializing (seeding) the $k$-means clustering algorithm called PNN-smoothing. It consists in splitting a given dataset into $J$ random subsets, clustering each of them individually, and merging the resulting clusterings with the pairwise-nearest-neighbor (PNN) method. It is a meta-method in the sense that when clustering the individual subsets any seeding algorithm can be used. If the computational complexity of that seeding algorithm is linear in the size of the data $N$ and the number of clusters $k$, PNN-smoothing is also almost linear with an appropriate choice of $J$, and in fact only at most a few percent slower in most cases in practice. We show empirically, using several existing seeding methods and testing on several synthetic and real datasets, that this procedure results in systematically better costs. It can even be applied recursively, and easily parallelized. Our implementation is publicly available at https://github.com/carlobaldassi/KMeansPNNSmoothing.jl
翻訳日:2022-02-09 14:10:11 公開日:2022-02-08
# マスクオートエンコーダの理解方法

How to Understand Masked Autoencoders ( http://arxiv.org/abs/2202.03670v1 )

ライセンス: Link先を確認
Shuhao Cao, Peng Xu, David A. Clifton(参考訳) masked autoencoders (mae) are scalable vision learners"は、画像の事前学習の最先端を達成するだけでなく、視覚と言語によるマスク付き自動エンコーディング(bert)のギャップを埋めるマイルストーンでもある、自己教師付き学習に革命をもたらす。 しかし、我々の知る限り、今のところMAEの強力な表現性を説明する理論的視点は存在しない。 本稿では,MAEの数学的理解を提供する統一理論フレームワークを初めて提案する。 特に,重複しない領域分割設定下での積分カーネルを用いたmaeのパッチベースの注意アプローチについて説明する。 筆者らは,MAEの大成功の主な理由を,我々の枠組みに基づいて理解するために,5つの質問に回答し,演算子理論と数学的厳密さの洞察を用いて回答する。

"Masked Autoencoders (MAE) Are Scalable Vision Learners" revolutionizes the self-supervised learning that not only achieves the state-of-the-art for image pretraining, but also is a milestone that bridged the gap between the visual and linguistic masked autoencoding (BERT-style) pretrainings. However, to our knowledge, to date there are no theoretical perspectives to explain the powerful expressivity of MAE. In this paper, we, for the first time, propose a unified theoretical framework that provides a mathematical understanding for MAE. Particularly, we explain the patch-based attention approaches of MAE using an integral kernel under a non-overlapping domain decomposition setting. To help the researchers to further grasp the main reasons of the great success of MAE, based on our framework, we contribute five questions and answer them by insights from operator theory with mathematical rigor.
翻訳日:2022-02-09 14:09:50 公開日:2022-02-08
# 教師付き深層学習における訓練モデル : 条件付きリスク最小化器

Trained Model in Supervised Deep Learning is a Conditional Risk Minimizer ( http://arxiv.org/abs/2202.03674v1 )

ライセンス: Link先を確認
Yutong Xie, Dufan Wu, Bin Dong and Quanzheng Li(参考訳) 教師付き深層学習における訓練モデルが各入力の条件付きリスクを最小限に抑えることを実証した(Theorem 2.1)。 この特性は、訓練されたモデルの振る舞いに関する洞察を与え、場合によっては教師なし学習と教師なし学習のつながりを確立した。 また,ラベルが難解であるが,条件付きリスク最小化として書ける場合,ラベルがアクセス可能な元の教師付き学習問題と同等の形式であることが証明された(theorem 2.2)。 本研究では,この定理により,ノイズ2score,ノイズ2noise,スコア関数推定など既存の著作物の多くを説明できることを実証した。 さらに, Theorem 2.1 を用いて雑音ラベルを用いた分類問題を抽出し, MNIST データセットを用いて検証した。 さらに,Theorem 2.2に基づいて画像超解像の不確かさを推定する手法を提案し,画像Netデータセットを用いて検証した。 コードはgithubから入手できます。

We proved that a trained model in supervised deep learning minimizes the conditional risk for each input (Theorem 2.1). This property provided insights into the behavior of trained models and established a connection between supervised and unsupervised learning in some cases. In addition, when the labels are intractable but can be written as a conditional risk minimizer, we proved an equivalent form of the original supervised learning problem with accessible labels (Theorem 2.2). We demonstrated that many existing works, such as Noise2Score, Noise2Noise and score function estimation can be explained by our theorem. Moreover, we derived a property of classification problem with noisy labels using Theorem 2.1 and validated it using MNIST dataset. Furthermore, We proposed a method to estimate uncertainty in image super-resolution based on Theorem 2.2 and validated it using ImageNet dataset. Our code is available on github.
翻訳日:2022-02-09 14:09:35 公開日:2022-02-08
# 高次元非構造データにおけるクラス密度とデータセットの品質

Class Density and Dataset Quality in High-Dimensional, Unstructured Data ( http://arxiv.org/abs/2202.03856v1 )

ライセンス: Link先を確認
Adam Byerly and Tatiana Kalganova(参考訳) 我々は,高次元非構造データセットにおける各クラス内のサンプルの集合類似度を測定するために,クラス密度の定義を提供する。 次に、クラス密度を計算し、各手法が生成する値と、訓練されたモデル上で達成した個々のクラステスト精度との相関関係を解析する。 さらに,高次元の非構造化データに対するデータセット品質の定義を提案し,それらのデータセットが一定の品質しきい値(実験により得られたデータセットの>10)を満たすことが,個々のクラス密度に基づいて冗長データを導出する候補であることを示す。

We provide a definition for class density that can be used to measure the aggregate similarity of the samples within each of the classes in a high-dimensional, unstructured dataset. We then put forth several candidate methods for calculating class density and analyze the correlation between the values each method produces with the corresponding individual class test accuracies achieved on a trained model. Additionally, we propose a definition for dataset quality for high-dimensional, unstructured data and show that those datasets that met a certain quality threshold (experimentally demonstrated to be > 10 for the datasets studied) were candidates for eliding redundant data based on the individual class densities.
翻訳日:2022-02-09 14:08:10 公開日:2022-02-08
# 分散一般化のための不確実性モデリング

Uncertainty Modeling for Out-of-Distribution Generalization ( http://arxiv.org/abs/2202.03958v1 )

ライセンス: Link先を確認
Xiaotong Li, Yongxing Dai, Yixiao Ge, Jun Liu, Ying Shan, Ling-Yu Duan(参考訳) さまざまなビジョンタスクで顕著な進歩が達成されているが、ディープニューラルネットワークは、分散外のシナリオでテストした場合、依然として明らかにパフォーマンス低下を被っている。 訓練データのドメイン特性を持つ特徴統計(平均偏差と標準偏差)を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。 一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなし、テスト中の潜在的なドメインシフトに起因する不確実な統計の相違を明示的に考慮しない。 本稿では,学習中の特徴量の合成による領域シフトの不確かさをモデル化することにより,ネットワークの一般化能力を向上させる。 具体的には、潜在的な不確実性を考慮して、特徴統計は多変量ガウス分布に従うと仮定する。 したがって、各特徴統計はもはや決定論的価値ではなく、多様な分布可能性を持つ確率的ポイントである。 不確定な特徴統計により、モデルはドメインの摂動を緩和し、潜在的なドメインシフトに対するロバスト性を改善するように訓練することができる。 本手法は追加パラメータなしでネットワークに容易に統合できる。 提案手法は画像分類,セマンティックセグメンテーション,インスタンス検索など,複数の視覚タスクにおけるネットワーク一般化能力を一貫して改善することを示した。 コードは近くhttps://github.com/lixiaotong97/dsuでリリースされる。

Though remarkable progress has been achieved in various vision tasks, deep neural networks still suffer obvious performance degradation when tested in out-of-distribution scenarios. We argue that the feature statistics (mean and standard deviation), which carry the domain characteristics of the training data, can be properly manipulated to improve the generalization ability of deep learning models. Common methods often consider the feature statistics as deterministic values measured from the learned features and do not explicitly consider the uncertain statistics discrepancy caused by potential domain shifts during testing. In this paper, we improve the network generalization ability by modeling the uncertainty of domain shifts with synthesized feature statistics during training. Specifically, we hypothesize that the feature statistic, after considering the potential uncertainties, follows a multivariate Gaussian distribution. Hence, each feature statistic is no longer a deterministic value, but a probabilistic point with diverse distribution possibilities. With the uncertain feature statistics, the models can be trained to alleviate the domain perturbations and achieve better robustness against potential domain shifts. Our method can be readily integrated into networks without additional parameters. Extensive experiments demonstrate that our proposed method consistently improves the network generalization ability on multiple vision tasks, including image classification, semantic segmentation, and instance retrieval. The code will be released soon at https://github.com/lixiaotong97/DSU.
翻訳日:2022-02-09 14:07:58 公開日:2022-02-08
# 球面画像の等分散と拡張

Equivariance versus Augmentation for Spherical Images ( http://arxiv.org/abs/2202.03990v1 )

ライセンス: Link先を確認
Jan E. Gerken, Oscar Carlsson, Hampus Linander, Fredrik Ohlsson, Christoffer Petersson, Daniel Persson(参考訳) 球面画像に適用した畳み込みニューラルネットワーク(CNN)における回転同値の役割を解析する。 我々は、S2CNNとして知られるグループ同変ネットワークと、データ増大量で訓練された標準非同変CNNの性能を比較する。 選択されたアーキテクチャは、それぞれの設計パラダイムのベースライン参照と見なすことができる。 我々のモデルは、球面に投影されたMNISTデータセットまたはFashionMNISTデータセットから、単一または複数の項目で訓練され、評価される。 本質的に回転不変である画像分類のタスクでは,データ増大量とネットワークサイズを大きく増加させることで,標準CNNが同変ネットワークと少なくとも同等の性能に達することが可能となる。 対照的に、セマンティックセグメンテーションの本質的に同変なタスクでは、非等変ネットワークは、パラメータが著しく少ない同変ネットワークによって一貫して優れる。 また、異なるネットワークの推論遅延とトレーニング時間を解析・比較し、同変アーキテクチャと実践上の問題に対するデータ拡張とのトレードオフを詳細に検討する。 実験で使用される同変球面ネットワークはhttps://github.com/JanEGerken/sem_seg_s2cnn で利用可能である。

We analyze the role of rotational equivariance in convolutional neural networks (CNNs) applied to spherical images. We compare the performance of the group equivariant networks known as S2CNNs and standard non-equivariant CNNs trained with an increasing amount of data augmentation. The chosen architectures can be considered baseline references for the respective design paradigms. Our models are trained and evaluated on single or multiple items from the MNIST or FashionMNIST dataset projected onto the sphere. For the task of image classification, which is inherently rotationally invariant, we find that by considerably increasing the amount of data augmentation and the size of the networks, it is possible for the standard CNNs to reach at least the same performance as the equivariant network. In contrast, for the inherently equivariant task of semantic segmentation, the non-equivariant networks are consistently outperformed by the equivariant networks with significantly fewer parameters. We also analyze and compare the inference latency and training times of the different networks, enabling detailed tradeoff considerations between equivariant architectures and data augmentation for practical problems. The equivariant spherical networks used in the experiments will be made available at https://github.com/JanEGerken/sem_seg_s2cnn .
翻訳日:2022-02-09 14:07:36 公開日:2022-02-08
# 深層学習とタスク特化中心ラベリングを用いたCAD-RADSスコーリング

CAD-RADS Scoring using Deep Learning and Task-Specific Centerline Labeling ( http://arxiv.org/abs/2202.03671v1 )

ライセンス: Link先を確認
Felix Denzinger, Michael Wels, Oliver Taubmann, Mehmet A. G\"uls\"un, Max Sch\"obinger, Florian Andr\'e, Sebastian J. Buss, Johannes G\"orich, Michael S\"uhling, Andreas Maier and Katharina Breininger(参考訳) 冠状動脈疾患(CAD)は、世界中の死因の1つであり続けており、診断のスピードアップと改善のためのアルゴリズムで医師を支援することへの関心が高い。 臨床的には、CADの重症度は冠状動脈造影(CCTA)スキャンで評価され、CAD-Reporting and Data System(CAD-RADS)スコアで手動で評価されることが多い。 このスコアが評価する臨床質問は、患者がcadを持っているか(ルールアウト)、深刻なcadを持っているか(ホールドアウト)である。 本研究では,CAD-RADS自動スコアリングのための最先端性能を実現する。 本稿では,タスク固有のディープラーニングアーキテクチャのための重度ラベル符号化,テスト時間拡張(TTA),モデルアンサンブルを提案する。 さらに,冠状木を患者間で一貫性のある部分に分割する新しいタスクおよびモデル特異的かつヒューリスティックな冠動脈セグメントラベル法を提案する。 高速で、堅牢で、実装も簡単です。 受信機動作特性曲線(AUC)では,ルールアウトでは0.914から0.942に,ホールドアウトでは0.921から0.950に,それぞれ上昇することができた。

With coronary artery disease (CAD) persisting to be one of the leading causes of death worldwide, interest in supporting physicians with algorithms to speed up and improve diagnosis is high. In clinical practice, the severeness of CAD is often assessed with a coronary CT angiography (CCTA) scan and manually graded with the CAD-Reporting and Data System (CAD-RADS) score. The clinical questions this score assesses are whether patients have CAD or not (rule-out) and whether they have severe CAD or not (hold-out). In this work, we reach new state-of-the-art performance for automatic CAD-RADS scoring. We propose using severity-based label encoding, test time augmentation (TTA) and model ensembling for a task-specific deep learning architecture. Furthermore, we introduce a novel task- and model-specific, heuristic coronary segment labeling, which subdivides coronary trees into consistent parts across patients. It is fast, robust, and easy to implement. We were able to raise the previously reported area under the receiver operating characteristic curve (AUC) from 0.914 to 0.942 in the rule-out and from 0.921 to 0.950 in the hold-out task respectively.
翻訳日:2022-02-09 14:07:17 公開日:2022-02-08
# 文脈データ活用のための2段階アプローチ--航空通信における音声認識

A two-step approach to leverage contextual data: speech recognition in air-traffic communications ( http://arxiv.org/abs/2202.03725v1 )

ライセンス: Link先を確認
Iuliia Nigmatulina, Juan Zuluaga-Gomez, Amrutha Prasad, Seyyed Saeed Sarfjoo, Petr Motlicek(参考訳) 自動音声認識(asr)は、パイロットと航空管制官間の音声通信の補助として、タスクの複雑さを著しく低減し、送信情報の信頼性を高めることができる。 ASRの応用は誤解による事故件数が減少し、航空交通管理(ATM)の効率が向上する可能性がある。 特に重要な情報、例えばコールサインやコマンドの精度の高い予測は、エラーのリスクを最小限に抑えるために必要である。 ASRと自然言語処理(NLP)の利点を組み合わせることで、監視データ(つまり追加のモダリティ)がコールサイン(名前付きエンティティ)の認識を大幅に改善することを証明する。 本稿では,(1)1ステップ(ASR)において,G.fstおよび/または復号FST(lattices)において,確率的符号n-gramの重みが減少し,(2)2ステップ(NLP)では,名前付きエンティティ認識(NER)による認識出力の改善から抽出されたコールサインが,監視データと相関して最も適切なものを選択する。 コールサインn-gramをASR法とNLP法の組み合わせで増強すると、絶対値の53.7%、相対値の60.4%のコールサイン認識が向上する。

Automatic Speech Recognition (ASR), as the assistance of speech communication between pilots and air-traffic controllers, can significantly reduce the complexity of the task and increase the reliability of transmitted information. ASR application can lead to a lower number of incidents caused by misunderstanding and improve air traffic management (ATM) efficiency. Evidently, high accuracy predictions, especially, of key information, i.e., callsigns and commands, are required to minimize the risk of errors. We prove that combining the benefits of ASR and Natural Language Processing (NLP) methods to make use of surveillance data (i.e. additional modality) helps to considerably improve the recognition of callsigns (named entity). In this paper, we investigate a two-step callsign boosting approach: (1) at the 1 step (ASR), weights of probable callsign n-grams are reduced in G.fst and/or in the decoding FST (lattices), (2) at the 2 step (NLP), callsigns extracted from the improved recognition outputs with Named Entity Recognition (NER) are correlated with the surveillance data to select the most suitable one. Boosting callsign n-grams with the combination of ASR and NLP methods eventually leads up to 53.7% of an absolute, or 60.4% of a relative, improvement in callsign recognition.
翻訳日:2022-02-09 14:06:54 公開日:2022-02-08
# (参考訳) 強化学習における3次元回転のビンガムポリシーパラメータ化

Bingham Policy Parameterization for 3D Rotations in Reinforcement Learning ( http://arxiv.org/abs/2202.03957v1 )

ライセンス: CC BY 4.0
Stephen James, Pieter Abbeel(参考訳) 強化学習中に3次元回転を表現するための新しいポリシーパラメータ化を提案する。 今日、連続制御強化学習文献では、多くの確率的政策パラメータ化はガウス的である。 ガウス政策のパラメータ化を普遍的に適用することは、すべての環境において必ずしも望ましいとは限らない。 このことが特に真実である場合の1つは、独立に3次元回転出力を予測するか、あるいは完全な6次元ポーズ出力の一部として変換と結合するタスクである。 提案するビンガムポリシーパラメータ化(bpp)はビンガム分布をモデル化し,強化学習タスクにおいてガウスポリシーパラメータ化よりも優れた回転(四元数)予測を可能にする。 回転wahba問題タスクのbppを評価するとともに、rlbenchから視覚に基づく次善のポーズロボット操作タスクのセットを評価する。 本論文は,ガウスを常に仮定するよりも,特定の環境に適した他の政策パラメタライゼーションの開発を奨励することを願っている。

We propose a new policy parameterization for representing 3D rotations during reinforcement learning. Today in the continuous control reinforcement learning literature, many stochastic policy parameterizations are Gaussian. We argue that universally applying a Gaussian policy parameterization is not always desirable for all environments. One such case in particular where this is true are tasks that involve predicting a 3D rotation output, either in isolation, or coupled with translation as part of a full 6D pose output. Our proposed Bingham Policy Parameterization (BPP) models the Bingham distribution and allows for better rotation (quaternion) prediction over a Gaussian policy parameterization in a range of reinforcement learning tasks. We evaluate BPP on the rotation Wahba problem task, as well as a set of vision-based next-best pose robot manipulation tasks from RLBench. We hope that this paper encourages more research into developing other policy parameterization that are more suited for particular environments, rather than always assuming Gaussian.
翻訳日:2022-02-09 14:05:25 公開日:2022-02-08
# DALL-Eval:テキスト・ツー・イメージ生成変換器の推論スキルと社会的バイアスの探索

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers ( http://arxiv.org/abs/2202.04053v1 )

ライセンス: Link先を確認
Jaemin Cho, Abhay Zala, Mohit Bansal(参考訳) テキスト記述から画像を生成することは、多くの注目を集めている。 近年,マルチモーダルトランスフォーマー言語モデルであるDALL-Eとその変種は,大規模学習データと計算を応用した,シンプルなアーキテクチャと学習目標を備えた高品質なテキスト・画像生成能力を示している。 しかし、興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。 本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。 まず,物体認識,物体カウント,色認識,空間関係理解という4つの視覚的推論スキルを測定した。 そこで本研究では,これらの4つの視覚的推論能力を測定する診断データセットと評価ツールキットであるPaintSkillsを提案する。 次に,事前学習された画像キャプション,画像テキスト検索,画像分類モデルに基づいて,生成された画像のテキストアライメントと品質を測定する。 第3に,モデル内の社会的バイアスを評価する。 そこで本研究では,事前学習された画像検索モデルと人格評価に基づくテキスト対画像生成モデルの性別および人種バイアスの評価を提案する。 実験の結果,最近のテキスト・画像モデルでは,色認識や空間的関係の理解よりも物体の認識・数え方が優れており,全てのスキルにおいてモデル性能とオラクル精度の間には大きなギャップがあることがわかった。 次に、近年のテキスト対画像モデルが、web画像とテキストのペアから特定の性別/人種バイアスを学ぶことを実証する。 また,視覚推論スキルとジェンダーバイアスの自動評価は,人間の判断と高い相関性を示す。 われわれの研究は、視覚的推論スキルと社会的偏見に関するテキスト・ツー・イメージ・モデルの改善の今後の進歩を導いてくれることを期待している。 コードとデータ: https://github.com/j-min/dalleval

Generating images from textual descriptions has gained a lot of attention. Recently, DALL-E, a multimodal transformer language model, and its variants have shown high-quality text-to-image generation capabilities with a simple architecture and training objective, powered by large-scale training data and computation. However, despite the interesting image generation results, there has not been a detailed analysis on how to evaluate such models. In this work, we investigate the reasoning capabilities and social biases of such text-to-image generative transformers in detail. First, we measure four visual reasoning skills: object recognition, object counting, color recognition, and spatial relation understanding. For this, we propose PaintSkills, a diagnostic dataset and evaluation toolkit that measures these four visual reasoning skills. Second, we measure the text alignment and quality of the generated images based on pretrained image captioning, image-text retrieval, and image classification models. Third, we assess social biases in the models. For this, we suggest evaluation of gender and racial biases of text-to-image generation models based on a pretrained image-text retrieval model and human evaluation. In our experiments, we show that recent text-to-image models perform better in recognizing and counting objects than recognizing colors and understanding spatial relations, while there exists a large gap between model performances and oracle accuracy on all skills. Next, we demonstrate that recent text-to-image models learn specific gender/racial biases from web image-text pairs. We also show that our automatic evaluations of visual reasoning skills and gender bias are highly correlated with human judgments. We hope our work will help guide future progress in improving text-to-image models on visual reasoning skills and social biases. Code and data at: https://github.com/j-min/DallEval
翻訳日:2022-02-09 13:52:16 公開日:2022-02-08
# 画像と深部逆画像による毛髪色ディジタイゼーション

Hair Color Digitization through Imaging and Deep Inverse Graphics ( http://arxiv.org/abs/2202.03723v1 )

ライセンス: Link先を確認
Robin Kips, Panagiotis-Alexandros Bokaris, Matthieu Perrot, Pietro Gori, Isabelle Bloch(参考訳) 毛髪の外観は、髪の形状と異なる繊維に光がどのように反射するかによって複雑な現象である。 そのため、レンダリング環境で特定の毛髪の色を再現することは、視覚的に結果を調整するために手作業とコンピュータグラフィックスの専門知識を必要とする難しい作業である。 現在のヘアキャプチャー法は毛髪形状の推定に重点を置いているが、多くのアプリケーションは、拡張現実(AR)から毛髪死に至る、物理的なヘアサンプルの外観を自動でキャプチャする手法の恩恵を受けることができる。 深層ニューラルネットワークを用いた逆画像と材料キャプチャの最近の進歩に基づいて,髪色デジタル化の新しい手法を提案する。 提案するパイプラインでは, 毛髪サンプルの色相をキャプチャし, 類似した外観の毛髪の合成画像をレンダリングし, 異なる髪型や照明環境をシミュレートする。 写実的なヘアイメージのレンダリングにはパストレーシングレンダリングが必要となるため、従来の微分可能レンダリングに基づく逆グラフィックスアプローチは難解である。 本手法は,制御された撮像装置,パストラッシング・レンダラ,および自己教師あり機械学習に基づく逆グラフィックスモデルを組み合わせたものである。 実画像と合成画像の両方で毛髪のデジタル化手法の性能を解説し, 髪の色を正確に捉え, 描画できることを示す。

Hair appearance is a complex phenomenon due to hair geometry and how the light bounces on different hair fibers. For this reason, reproducing a specific hair color in a rendering environment is a challenging task that requires manual work and expert knowledge in computer graphics to tune the result visually. While current hair capture methods focus on hair shape estimation many applications could benefit from an automated method for capturing the appearance of a physical hair sample, from augmented/virtual reality to hair dying development. Building on recent advances in inverse graphics and material capture using deep neural networks, we introduce a novel method for hair color digitization. Our proposed pipeline allows capturing the color appearance of a physical hair sample and renders synthetic images of hair with a similar appearance, simulating different hair styles and/or lighting environments. Since rendering realistic hair images requires path-tracing rendering, the conventional inverse graphics approach based on differentiable rendering is untractable. Our method is based on the combination of a controlled imaging device, a path-tracing renderer, and an inverse graphics model based on self-supervised machine learning, which does not require to use differentiable rendering to be trained. We illustrate the performance of our hair digitization method on both real and synthetic images and show that our approach can accurately capture and render hair color.
翻訳日:2022-02-09 13:51:47 公開日:2022-02-08
# フェアSA:顔認識におけるフェアネスの感度解析

Fair SA: Sensitivity Analysis for Fairness in Face Recognition ( http://arxiv.org/abs/2202.03586v1 )

ライセンス: Link先を確認
Aparna R. Joshi, Xavier Suau, Nivedha Sivakumar, Luca Zappella and Nicholas Apostoloff(参考訳) 高影響領域におけるディープラーニングの利用がユビキタス化するにつれ、モデルのレジリエンスを評価することがますます重要である。 そのような大きな影響領域の1つは顔認識であり、現実世界のアプリケーションは、動きのぼかしや高露出といった様々な劣化の影響を受ける画像を含む。 さらに、性別や人種といったさまざまな属性でキャプチャされた画像は、顔認識アルゴリズムの堅牢性にも挑戦することができる。 従来の要約統計では、顔認識モデルの総合的な性能は改善を続けているが、これらの指標はモデルのロバスト性や公平性を直接測定するものではない。 視覚心理物理学感度分析(vpsa)[1]は、データにインクリメンタルな摂動を導入することによって、個々の障害原因を特定する方法を提供する。 しかし、摂動はサブグループに異なる影響を与える可能性がある。 本稿では,VPSAを拡張した汎用フレームワークとして,ロバスト性に基づく新たなフェアネス評価を提案する。 この枠組みにより,摂動によって影響を受ける集団の異なるサブグループに対して,モデルが公平に実行する能力を分析し,対象のロバスト性を測定することにより,サブグループの正確な障害モードを特定できる。 モデルの公平性への注目が高まる中、顔認識をフレームワークのサンプルアプリケーションとして使用し、auc行列を介してモデルの公平性解析をコンパクトに可視化することを提案する。 本研究では,一般的な顔認識モデルの性能を分析し,画像の摂動時に一部のサブグループが不利であることを実証的に示す。

As the use of deep learning in high impact domains becomes ubiquitous, it is increasingly important to assess the resilience of models. One such high impact domain is that of face recognition, with real world applications involving images affected by various degradations, such as motion blur or high exposure. Moreover, images captured across different attributes, such as gender and race, can also challenge the robustness of a face recognition algorithm. While traditional summary statistics suggest that the aggregate performance of face recognition models has continued to improve, these metrics do not directly measure the robustness or fairness of the models. Visual Psychophysics Sensitivity Analysis (VPSA) [1] provides a way to pinpoint the individual causes of failure by way of introducing incremental perturbations in the data. However, perturbations may affect subgroups differently. In this paper, we propose a new fairness evaluation based on robustness in the form of a generic framework that extends VPSA. With this framework, we can analyze the ability of a model to perform fairly for different subgroups of a population affected by perturbations, and pinpoint the exact failure modes for a subgroup by measuring targeted robustness. With the increasing focus on the fairness of models, we use face recognition as an example application of our framework and propose to compactly visualize the fairness analysis of a model via AUC matrices. We analyze the performance of common face recognition models and empirically show that certain subgroups are at a disadvantage when images are perturbed, thereby uncovering trends that were not visible using the model's performance on subgroups without perturbations.
翻訳日:2022-02-09 13:50:46 公開日:2022-02-08
# TimeLMs: Twitterのダイアクロニック言語モデル

TimeLMs: Diachronic Language Models from Twitter ( http://arxiv.org/abs/2202.03829v1 )

ライセンス: Link先を確認
Daniel Loureiro, Francesco Barbieri, Leonardo Neves, Luis Espinosa Anke, Jose Camacho-Collados(参考訳) その重要性にもかかわらず、時間変数はNLPや言語モデル文学では無視されている。 本稿では,時系列Twitterデータに特化した言語モデルであるTimeLMを提案する。 連続的な学習戦略は、Twitterベースの言語モデルが将来および配布外ツイートに対処する能力を高め、標準化されたよりモノリシックなベンチマークと競合することを示す。 また、特定の名前付きエンティティや概念ドリフトを含むアクティビティのトレンドやピークに対処する方法を示す定性的な分析も数多く行っています。

Despite its importance, the time variable has been largely neglected in the NLP and language model literature. In this paper, we present TimeLMs, a set of language models specialized on diachronic Twitter data. We show that a continual learning strategy contributes to enhancing Twitter-based language models' capacity to deal with future and out-of-distribution tweets, while making them competitive with standardized and more monolithic benchmarks. We also perform a number of qualitative analyses showing how they cope with trends and peaks in activity involving specific named entities or concept drift.
翻訳日:2022-02-09 13:48:48 公開日:2022-02-08
# 多様性保存型知識蒸留のためのチャネル間相関の探索

Exploring Inter-Channel Correlation for Diversity-preserved KnowledgeDistillation ( http://arxiv.org/abs/2202.03680v1 )

ライセンス: Link先を確認
Li Liu, Qingle Huang, Sihao Lin, Hongwei Xie, Bing Wang, Xiaojun Chang, Xiaodan Liang(参考訳) 知識蒸留は、より大きいモデル(教師)から小さいモデル(学生)への学習表現の移動において、非常に有望な安定化を示す。 先行手法では,特徴のチャネル間相関を維持できる重要な役割を無視し,教師ネットワークにおける特徴空間の内在的分布と特徴の十分な多様性特性を捉えることが困難となり,この問題を解決するために,学生ネットワークのフェアチュール空間の多様性と相同性が教師ネットワークと整合できる知識蒸留のためのthenovel inter-channel correlation for knowledge distillation(ickd)を提案する。 これら二つのチャネル間の相関は、それらが互いに無関係でなければ多様性であると解釈される。 その後、学生は自身の埋め込み空間内で相関関係を模倣する必要がある。 さらに、グリッドレベルのチャネル間相関を導入し、密な予測タスクを実現する。 includ-ing imagenet classificationとpascal voc segmentationの2つの視覚課題に関する広範囲な実験は、既存の多くの方法に勝り、知識蒸留の分野における最先端の進歩である、我々のicckdの優位性を実証している。 我々の知る限りでは,imagenet分類において,knowl-edge蒸留がresnet18を72%以上増加させる最初の方法である。 コードは、https://github.com/ADLab-AutoDrive/ICKDで入手できる。

Knowledge Distillation has shown very promising abil-ity in transferring learned representation from the largermodel (teacher) to the smaller one (student).Despitemany efforts, prior methods ignore the important role ofretaining inter-channel correlation of features, leading tothe lack of capturing intrinsic distribution of the featurespace and sufficient diversity properties of features in theteacher network.To solve the issue, we propose thenovel Inter-Channel Correlation for Knowledge Distillation(ICKD), with which the diversity and homology of the fea-ture space of the student network can align with that ofthe teacher network. The correlation between these twochannels is interpreted as diversity if they are irrelevantto each other, otherwise homology. Then the student isrequired to mimic the correlation within its own embed-ding space. In addition, we introduce the grid-level inter-channel correlation, making it capable of dense predictiontasks. Extensive experiments on two vision tasks, includ-ing ImageNet classification and Pascal VOC segmentation,demonstrate the superiority of our ICKD, which consis-tently outperforms many existing methods, advancing thestate-of-the-art in the fields of Knowledge Distillation. Toour knowledge, we are the first method based on knowl-edge distillation boosts ResNet18 beyond 72% Top-1 ac-curacy on ImageNet classification. Code is available at:https://github.com/ADLab-AutoDrive/ICKD.
翻訳日:2022-02-09 13:48:38 公開日:2022-02-08
# Social-DualCVAE:ソーシャルインタラクションパターン認識とデュアル条件変分自動エンコーダに基づくマルチモーダル軌道予測

Social-DualCVAE: Multimodal Trajectory Forecasting Based on Social Interactions Pattern Aware and Dual Conditional Variational Auto-Encoder ( http://arxiv.org/abs/2202.03954v1 )

ライセンス: Link先を確認
Jiashi Gao, Xinming Shi, James J.Q. Yu(参考訳) 歩行者軌道予測は、自動運転、自律ロボット、監視システムなど、複数のユーティリティ領域において基本的なタスクである。 将来の軌跡予測はマルチモーダルであり、シーンコンテキストとの物理的相互作用や歩行者間の複雑な社会的相互作用の影響を受けている。 既存の文献は主に深層学習ネットワークによる社会的相互作用の表現を学習するが、明示的な相互作用パターンは利用されない。 フォローや衝突回避といった異なる相互作用パターンは、次の動きの異なる傾向を生み出すため、軌道予測には社会的相互作用パターンの認識が重要である。 さらに、社会的相互作用パターンはプライバシーやラベルの欠如に関係している。 上記の課題に共同で対処するために、過去の軌跡だけでなく相互作用パターンの教師なし分類にもとづく生成モデルに基づくマルチモーダル軌道予測のためのソーシャル・デュアル条件変分自動エンコーダ(Social-DualCVAE)を提案する。 過去の軌跡と社会的相互作用パターンに基づいて, ラベルなしの社会的相互作用パターンであるdualcvaeのカテゴリ分布を生成後, 潜在変数推定によるマルチモーダル軌道予測のために提案する。 変動境界は訓練中の最小化目標として導出される。 提案手法は, 広く用いられている軌道ベンチマークで評価され, 先行手法よりも優れていた。

Pedestrian trajectory forecasting is a fundamental task in multiple utility areas, such as self-driving, autonomous robots, and surveillance systems. The future trajectory forecasting is multi-modal, influenced by physical interaction with scene contexts and intricate social interactions among pedestrians. The mainly existing literature learns representations of social interactions by deep learning networks, while the explicit interaction patterns are not utilized. Different interaction patterns, such as following or collision avoiding, will generate different trends of next movement, thus, the awareness of social interaction patterns is important for trajectory forecasting. Moreover, the social interaction patterns are privacy concerned or lack of labels. To jointly address the above issues, we present a social-dual conditional variational auto-encoder (Social-DualCVAE) for multi-modal trajectory forecasting, which is based on a generative model conditioned not only on the past trajectories but also the unsupervised classification of interaction patterns. After generating the category distribution of the unlabeled social interaction patterns, DualCVAE, conditioned on the past trajectories and social interaction pattern, is proposed for multi-modal trajectory prediction by latent variables estimating. A variational bound is derived as the minimization objective during training. The proposed model is evaluated on widely used trajectory benchmarks and outperforms the prior state-of-the-art methods.
翻訳日:2022-02-09 13:48:13 公開日:2022-02-08
# 非指向型ニューラルネットワークによる構造モデリング

Modeling Structure with Undirected Neural Networks ( http://arxiv.org/abs/2202.03760v1 )

ライセンス: Link先を確認
Tsvetomila Mihaylova, Vlad Niculae, Andr\'e F. T. Martins(参考訳) ニューラルネットワークは強力な関数推定器であり、構造化データモデリングのパラダイムとしての地位に繋がる。 しかし、問題(例えば因子グラフ)のモジュラリティを強調する他の構造化表現とは異なり、ニューラルネットワークは通常、入力から出力へのモノリシックなマッピングであり、計算順序は一定である。 この制限は、モデル化された変数間の計算と相互作用の異なる方向を捉えることを妨げる。 本稿では,因子グラフとニューラルネットワークの表現強度を組み合わせて,任意の順序で実行できる計算を記述可能な柔軟なフレームワークであるundirected Neural Network(UNN)を提案する。 提案するモデルでは,フィードフォワード,リカレント,自己アテンションネットワーク,自動エンコーダ,暗黙のレイヤを持つネットワークなど,既存のアーキテクチャをサブセットして拡張する。 本研究では,木制約による依存性解析,畳み込み画像分類,注意を伴うシーケンス補完といったタスクにおいて,非構造的・構造的ニューラルアーキテクチャの有効性を示す。 計算順序を変化させることで、単一のUNNを分類器とプロトタイプ生成器の両方として使用し、入力シーケンスの欠落部分を補う方法を示し、さらなる研究の場として期待できる。

Neural networks are powerful function estimators, leading to their status as a paradigm of choice for modeling structured data. However, unlike other structured representations that emphasize the modularity of the problem -- e.g., factor graphs -- neural networks are usually monolithic mappings from inputs to outputs, with a fixed computation order. This limitation prevents them from capturing different directions of computation and interaction between the modeled variables. In this paper, we combine the representational strengths of factor graphs and of neural networks, proposing undirected neural networks (UNNs): a flexible framework for specifying computations that can be performed in any order. For particular choices, our proposed models subsume and extend many existing architectures: feed-forward, recurrent, self-attention networks, auto-encoders, and networks with implicit layers. We demonstrate the effectiveness of undirected neural architectures, both unstructured and structured, on a range of tasks: tree-constrained dependency parsing, convolutional image classification, and sequence completion with attention. By varying the computation order, we show how a single UNN can be used both as a classifier and a prototype generator, and how it can fill in missing parts of an input sequence, making them a promising field for further research.
翻訳日:2022-02-09 13:47:35 公開日:2022-02-08
# 強化学習のための地域説明

Local Explanations for Reinforcement Learning ( http://arxiv.org/abs/2202.03597v1 )

ライセンス: Link先を確認
Ronny Luss, Amit Dhurandhar, Miao Liu(参考訳) 説明可能なAIに関する多くの研究は、ブラックボックス分類モデルの説明に焦点を当てている。 ドメインユーザによって理解されるような、深層強化学習(RL)ポリシーの説明は、はるかに少ない注目を集めている。 本稿では,自動学習されたメタ状態から重要な状態を特定することに基づくRLポリシーを理解するための新しい視点を提案する。 従来の多くのアプローチとの主な概念的違いは、行動の類似性ではなく、専門家の政策力学によって支配される局所性に基づいてメタ状態を形成し、状態空間の基盤となる位相に関する特別な知識を仮定しないことである。 理論的には、メタ状態を見つけるアルゴリズムは収束し、各メタ状態から重要な状態を選択する目的がサブモジュラーであることを示した。 4つの領域(4つの部屋、ドアキー、ミニパックマン、ポン)の実験と慎重に実施されたユーザスタディは、私たちの視点がポリシーの理解を深めることを示している。 これは、私たちのメタ状態がより直感的な結果であり、対応する重要な状態が、人間が解釈し、従うのが容易な、牽引可能な中間目標の強い指標であることを推測する。

Many works in explainable AI have focused on explaining black-box classification models. Explaining deep reinforcement learning (RL) policies in a manner that could be understood by domain users has received much less attention. In this paper, we propose a novel perspective to understanding RL policies based on identifying important states from automatically learned meta-states. The key conceptual difference between our approach and many previous ones is that we form meta-states based on locality governed by the expert policy dynamics rather than based on similarity of actions, and that we do not assume any particular knowledge of the underlying topology of the state space. Theoretically, we show that our algorithm to find meta-states converges and the objective that selects important states from each meta-state is submodular leading to efficient high quality greedy selection. Experiments on four domains (four rooms, door-key, minipacman, and pong) and a carefully conducted user study illustrate that our perspective leads to better understanding of the policy. We conjecture that this is a result of our meta-states being more intuitive in that the corresponding important states are strong indicators of tractable intermediate goals that are easier for humans to interpret and follow.
翻訳日:2022-02-09 13:45:03 公開日:2022-02-08
# 強化学習におけるバックドア検出

Backdoor Detection in Reinforcement Learning ( http://arxiv.org/abs/2202.03609v1 )

ライセンス: Link先を確認
Junfeng Guo, Ang Li, Cong Liu(参考訳) 実世界の強化学習(RL)が普及しつつある一方で,RLシステムの安全性や堅牢性には注意が必要である。 最近の研究によると、マルチエージェントのRL環境では、バックドアトリガーアクションが被害者のエージェント(すなわちトロイの木馬のエージェント)に注入され、バックドアトリガーアクションを見ると破滅的な失敗を引き起こす可能性がある。 我々は,この安全性脆弱性に対処するために,rlバックドア検出の問題を提案する。 広範な実証実験から得られた興味深い観察は、バックドアトリガー動作と同様の正常な作用がトロヤン剤の低性能を惹起するトリガー滑らか性である。 本研究は, トロイの木馬エージェントに近似的なトリガー動作を求めるための強化学習ソリューションであるTrojanSeekerを提案し, さらに, マシン・アンラーニングに基づくトロイの木馬エージェントの軽減のための効率的なアプローチを提案する。 実験により,すべてのトロイの木馬エージェントを,様々な種類のエージェントや環境にまたがって正しく識別し緩和できることを示した。

While the real world application of reinforcement learning (RL) is becoming popular, the safety concern and the robustness of an RL system require more attention. A recent work reveals that, in a multi-agent RL environment, backdoor trigger actions can be injected into a victim agent (a.k.a. trojan agent), which can result in a catastrophic failure as soon as it sees the backdoor trigger action. We propose the problem of RL Backdoor Detection, aiming to address this safety vulnerability. An interesting observation we drew from extensive empirical studies is a trigger smoothness property where normal actions similar to the backdoor trigger actions can also trigger low performance of the trojan agent. Inspired by this observation, we propose a reinforcement learning solution TrojanSeeker to find approximate trigger actions for the trojan agents, and further propose an efficient approach to mitigate the trojan agents based on machine unlearning. Experiments show that our approach can correctly distinguish and mitigate all the trojan agents across various types of agents and environments.
翻訳日:2022-02-09 13:44:44 公開日:2022-02-08
# グラフ関係領域適応

Graph-Relational Domain Adaptation ( http://arxiv.org/abs/2202.03628v1 )

ライセンス: Link先を確認
Zihao Xu, Hao he, Guang-He Lee, Yuyang Wang, Hao Wang(参考訳) 既存のドメイン適応手法は、すべてのドメインを均等に扱い、全てを完璧に調整する傾向がある。 このような均一なアライメントは、異なる領域間の位相構造を無視しているため、近くのドメインには有益であるが、必ずしも遠いドメインには有益である。 本稿では、ドメイングラフを用いてドメイン隣接性をエンコードすることにより、このような統一的なアライメントを緩和する。例えば、各ステートをドメインとして、各エッジを隣接性を示す米国内の状態グラフを、グラフ構造に基づいて柔軟に整列させることができる。 符号化条件付きグラフ埋め込みを用いた新しいグラフ識別器を用いて,既存の逆学習フレームワークを一般化する。 理論的解析により、グラフが斜めであるときの古典的領域適応は平衡で回復し、他の種類のグラフに対する非自明なアライメントを実現する。 実験結果から,本手法は一様アライメントの一般化に成功し,グラフで表されるドメイン情報を自然に組み込んで,合成および実世界のデータセット上で既存のドメイン適応手法を改善した。 コードは間もなくhttps://github.com/Wang-ML-Lab/GRDA.orgで公開される。

Existing domain adaptation methods tend to treat every domain equally and align them all perfectly. Such uniform alignment ignores topological structures among different domains; therefore it may be beneficial for nearby domains, but not necessarily for distant domains. In this work, we relax such uniform alignment by using a domain graph to encode domain adjacency, e.g., a graph of states in the US with each state as a domain and each edge indicating adjacency, thereby allowing domains to align flexibly based on the graph structure. We generalize the existing adversarial learning framework with a novel graph discriminator using encoding-conditioned graph embeddings. Theoretical analysis shows that at equilibrium, our method recovers classic domain adaptation when the graph is a clique, and achieves non-trivial alignment for other types of graphs. Empirical results show that our approach successfully generalizes uniform alignment, naturally incorporates domain information represented by graphs, and improves upon existing domain adaptation methods on both synthetic and real-world datasets. Code will soon be available at https://github.com/Wang-ML-Lab/GRDA.
翻訳日:2022-02-09 13:44:25 公開日:2022-02-08
# ドメイン対応型空間時間ネットワーク:都市横断の短期交通予測のための転送可能なフレームワーク

Domain Adversarial Spatial-Temporal Network: A Transferable Framework for Short-term Traffic Forecasting across Cities ( http://arxiv.org/abs/2202.03630v1 )

ライセンス: Link先を確認
Yihong Tang, Ao Qu, Andy H.F. Chow, William H.K. Lam, S.C. Wong, Wei Ma(参考訳) 正確なリアルタイム交通予測はインテリジェント交通システム(ITS)にとって重要であり、様々なスマートモビリティアプリケーションの基盤となっている。 この研究領域は深層学習に支配されているが,近年の研究では,新しいモデル構造の開発による精度向上が限界に達しつつあることが示唆されている。 その代わりに、異なるデータ分布とネットワークトポロジを持つ都市間で「予測関連知識」を転送することで、改善が達成できると想定している。 そこで本研究では,DASTNet(Domain Adversarial Space-Temporal Network)という,新たなトラフィック予測フレームワークを提案する。 DASTNetは複数のソースネットワーク上で事前トレーニングされ、ターゲットネットワークのトラフィックデータに微調整される。 具体的には、グラフ表現学習と対向領域適応技術を利用して、時間的トラフィックデータをモデル化するためにさらに組み込まれたドメイン不変ノード埋め込みを学習する。 我々の知る限りでは、ネットワーク全体のトラフィック予測問題に対して、敵のマルチドメイン適応を採用するのは初めてである。 DASTNetは、3つのベンチマークデータセット上で、最先端のベースラインメソッドを一貫して上回る。 訓練されたDASTNetは香港の新しい交通検知器に適用され、正確な交通予測は検知器が利用可能になったらすぐに(一日以内に)配信される。 本研究は,交通予測手法の拡充と,歴史的交通データを欠く都市への実践的影響を示唆するものである。

Accurate real-time traffic forecast is critical for intelligent transportation systems (ITS) and it serves as the cornerstone of various smart mobility applications. Though this research area is dominated by deep learning, recent studies indicate that the accuracy improvement by developing new model structures is becoming marginal. Instead, we envision that the improvement can be achieved by transferring the "forecasting-related knowledge" across cities with different data distributions and network topologies. To this end, this paper aims to propose a novel transferable traffic forecasting framework: Domain Adversarial Spatial-Temporal Network (DASTNet). DASTNet is pre-trained on multiple source networks and fine-tuned with the target network's traffic data. Specifically, we leverage the graph representation learning and adversarial domain adaptation techniques to learn the domain-invariant node embeddings, which are further incorporated to model the temporal traffic data. To the best of our knowledge, we are the first to employ adversarial multi-domain adaptation for network-wide traffic forecasting problems. DASTNet consistently outperforms all state-of-the-art baseline methods on three benchmark datasets. The trained DASTNet is applied to Hong Kong's new traffic detectors, and accurate traffic predictions can be delivered immediately (within one day) when the detector is available. Overall, this study suggests an alternative to enhance the traffic forecasting methods and provides practical implications for cities lacking historical traffic data.
翻訳日:2022-02-09 13:44:04 公開日:2022-02-08
# invertible tabular gans: 表データ合成のためのonestoneで2羽の鳥を殺す

Invertible Tabular GANs: Killing Two Birds with OneStone for Tabular Data Synthesis ( http://arxiv.org/abs/2202.03636v1 )

ライセンス: Link先を確認
Jaehoon Lee, Jihyeon Hyeong, Jinsung Jeon, Noseong Park, Jihoon Cho(参考訳) タブラルデータ合成は、文献で広く注目を集めている。 これは、利用可能なデータは、しばしば制限され、不完全であり、簡単に取得できないため、データのプライバシがますます重要になっているためである。 本稿では,ganの逆訓練と可逆ニューラルネットワークの負対数密度正規化を組み合わせた表合成のための一般化ganフレームワークを提案する。 提案フレームワークは2つの異なる目的に利用できる。 まず,実記録の負の対数密度を減少させることにより,合成品質をさらに向上させることができる。 一方、実記録の負のログ密度を増加させることで、実記録とあまり親しくなく、潜在的な情報漏洩の可能性を低下させる方法で実記録を合成することができる。 我々は、分類、回帰、およびプライバシ攻撃のための実世界のデータセットで実験を行う。 提案手法は, 対向訓練において負の対数密度を減少させる際の最適合成品質(タスク指向評価指標, 例えばF1)を示す。 負のログ密度を増大させると、実記録と偽記録との距離が増加し、プライバシー攻撃に対する堅牢性が向上することを示す実験結果が得られた。

Tabular data synthesis has received wide attention in the literature. This is because available data is often limited, incomplete, or cannot be obtained easily, and data privacy is becoming increasingly important. In this work, we present a generalized GAN framework for tabular synthesis, which combines the adversarial training of GANs and the negative log-density regularization of invertible neural networks. The proposed framework can be used for two distinctive objectives. First, we can further improve the synthesis quality, by decreasing the negative log-density of real records in the process of adversarial training. On the other hand, by increasing the negative log-density of real records, realistic fake records can be synthesized in a way that they are not too much close to real records and reduce the chance of potential information leakage. We conduct experiments with real-world datasets for classification, regression, and privacy attacks. In general, the proposed method demonstrates the best synthesis quality (in terms of task-oriented evaluation metrics, e.g., F1) when decreasing the negative log-density during the adversarial training. If increasing the negative log-density, our experimental results show that the distance between real and fake records increases, enhancing robustness against privacy attacks.
翻訳日:2022-02-09 13:43:38 公開日:2022-02-08
# カテゴリー変数によるブラックボックス最適化のためのフーリエ表現

Fourier Representations for Black-Box Optimization over Categorical Variables ( http://arxiv.org/abs/2202.03712v1 )

ライセンス: Link先を確認
Hamid Dadkhahi, Jesus Rios, Karthikeyan Shanmugam, Payel Das(参考訳) 純粋に分類変数上で定義される実世界のブラックボックス関数の最適化は研究の活発な領域である。 特に、特定の機能的または構造的性質を持つ生物学的配列の最適化と設計は、医学、材料科学、バイオテクノロジーに大きな影響を及ぼす。 シミュレーションアニーリング (SA) やモンテカルロ木探索 (MCTS) のようなスタンドアロンの探索アルゴリズムは、そのような最適化問題によく用いられる。 このようなアルゴリズムの性能とサンプル効率を改善するために,従来の手法と協調して,純粋に分類変数に対するブラックボックス評価を行う手法を提案する。 この目的のために、群理論フーリエ展開(group-theoretic Fourier expansion)とブールフーリエ展開(Boolean Fourier expansion)という2つの異なる表現を示す。 このような表現を学習するために、サロゲートモデルを更新するための2つの異なる設定を検討する。 まず,ブラックボックスの評価を行う度に,各表現のフーリエ文字を専門家とし,それぞれの係数を指数重み更新規則により更新する,逆オンライン回帰設定を利用する。 第2に,問合せがトンプソンサンプリングによって選択され,その後方が(提案する表現よりも)スパースベイズ回帰モデルによって更新されるベイズ設定を考える。 合成ベンチマークおよび実世界のRNA配列最適化および設計問題に対する数値実験により,提案手法の表現力を示すとともに,計算コストやサンプル効率を大幅に向上させながら,最先端の手法と比較して競争力や優れた性能を実現する。

Optimization of real-world black-box functions defined over purely categorical variables is an active area of research. In particular, optimization and design of biological sequences with specific functional or structural properties have a profound impact in medicine, materials science, and biotechnology. Standalone search algorithms, such as simulated annealing (SA) and Monte Carlo tree search (MCTS), are typically used for such optimization problems. In order to improve the performance and sample efficiency of such algorithms, we propose to use existing methods in conjunction with a surrogate model for the black-box evaluations over purely categorical variables. To this end, we present two different representations, a group-theoretic Fourier expansion and an abridged one-hot encoded Boolean Fourier expansion. To learn such representations, we consider two different settings to update our surrogate model. First, we utilize an adversarial online regression setting where Fourier characters of each representation are considered as experts and their respective coefficients are updated via an exponential weight update rule each time the black box is evaluated. Second, we consider a Bayesian setting where queries are selected via Thompson sampling and the posterior is updated via a sparse Bayesian regression model (over our proposed representation) with a regularized horseshoe prior. Numerical experiments over synthetic benchmarks as well as real-world RNA sequence optimization and design problems demonstrate the representational power of the proposed methods, which achieve competitive or superior performance compared to state-of-the-art counterparts, while improving the computation cost and/or sample efficiency, substantially.
翻訳日:2022-02-09 13:43:17 公開日:2022-02-08
# (参考訳) 予算のアクティブラーニング - 高予算と低予算の逆戦略

Active Learning on a Budget: Opposite Strategies Suit High and Low Budgets ( http://arxiv.org/abs/2202.02794v2 )

ライセンス: CC BY 4.0
Guy Hacohen, Avihu Dekel, Daphna Weinshall(参考訳) 積極的学習を考察し,ラベル付きサンプルの数(予算規模)と適切なクエリ戦略との関係に着目した。 我々の理論的分析は、相転移を想起させる行動を示している:典型的な点は、予算が大きければ、非定型的(または不確実)な点が最善である。 理論的および実証的な研究から、同様の現象が単純な分類モデルで起こることが示されている。 そこで本研究では,低予算化に適した学習戦略であるtypiclustを提案する。 さまざまなアーキテクチャとイメージデータセットを用いた比較実証調査において,低予算のTypiClustは,他のすべてのアクティブな学習戦略よりも優れていることを報告した。 半教師付きフレームワークでTypiClustを使用することで、競争力のある半教師付き手法のパフォーマンスが大幅に向上し、最先端技術を上回っます。

Investigating active learning, we focus on the relation between the number of labeled examples (budget size), and suitable corresponding querying strategies. Our theoretical analysis shows a behavior reminiscent of phase transition: typical points should best be queried in the low budget regime, while atypical (or uncertain) points are best queried when the budget is large. Combined evidence from our theoretical and empirical studies shows that a similar phenomenon occurs in simple classification models. Accordingly, we propose TypiClust -- a deep active learning strategy suited for low budgets. In a comparative empirical investigation using a variety of architectures and image datasets, we report that in the low budget regime, TypiClust outperforms all other active learning strategies. Using TypiClust in a semi-supervised framework, the performance of competitive semi-supervised methods gets a significant boost, surpassing the state of the art.
翻訳日:2022-02-09 13:41:31 公開日:2022-02-08
# (参考訳) GLPanoDepth:グローバル・ローカル・パノラマ奥行き推定

GLPanoDepth: Global-to-Local Panoramic Depth Estimation ( http://arxiv.org/abs/2202.02796v2 )

ライセンス: CC BY 4.0
Jiayang Bai, Shuichang Lai, Haoyu Qin, Jie Guo and Yanwen Guo(参考訳) 本稿では,単眼全方位画像からシーンの濃密な深さ値を予測する学習ベース手法を提案する。 全方位画像は視野の完全な視野を持ち、視点画像よりもシーンの完全な記述を提供する。 しかし、現在のソリューションのほとんどが依存する完全畳み込みネットワークは、パノラマからリッチなグローバルコンテキストを捉えることができない。 この問題とパノラマにおける正方形射影の歪みに対処するために,長距離依存をモデル化し,パノラマから歪みのないグローバルな特徴を抽出できる新しいトランスフォーマアーキテクチャであるCubemap Vision Transformers (CViT)を提案する。 キューブマップの視覚変換器は全段に大域的な受容野を持ち,球面信号に対してグローバルにコヒーレントな予測を行うことができる。 重要なローカル機能を維持するため、パイプライン内の畳み込みベースのブランチ(glpanodepth)をさらに設計し、cubemap vision transformersからグローバル機能を複数のスケールで融合します。 このグローバル・ローカル戦略により、パノラマにおける有用なグローバル・ローカル機能を完全に活用し、パノラマ深度推定における最先端の性能を達成することができる。

In this paper, we propose a learning-based method for predicting dense depth values of a scene from a monocular omnidirectional image. An omnidirectional image has a full field-of-view, providing much more complete descriptions of the scene than perspective images. However, fully-convolutional networks that most current solutions rely on fail to capture rich global contexts from the panorama. To address this issue and also the distortion of equirectangular projection in the panorama, we propose Cubemap Vision Transformers (CViT), a new transformer-based architecture that can model long-range dependencies and extract distortion-free global features from the panorama. We show that cubemap vision transformers have a global receptive field at every stage and can provide globally coherent predictions for spherical signals. To preserve important local features, we further design a convolution-based branch in our pipeline (dubbed GLPanoDepth) and fuse global features from cubemap vision transformers at multiple scales. This global-to-local strategy allows us to fully exploit useful global and local features in the panorama, achieving state-of-the-art performance in panoramic depth estimation.
翻訳日:2022-02-09 13:07:39 公開日:2022-02-08
# (参考訳) 衣服変化を伴う非監督的長期人物再同定

Unsupervised Long-Term Person Re-Identification with Clothes Change ( http://arxiv.org/abs/2202.03087v2 )

ライセンス: CC BY 4.0
Mingkun Li, Peng Xu, Xiatian Zhu, Jun Guo(参考訳) 着替えによる再識別(re-id)は,より実用的なユーザビリティと実世界展開への拡張性を備えた新たな課題である。 既存のre-idメソッドの多くは、すべての人の服を空間と時間にわたって固定していると人工的に仮定している。 この条件は、平均的な人が1日以内に着替えることが多いため、短期的な再識別シナリオにおいてほとんど有効である。 この仮定を緩和するために、近年のいくつかの研究は、衣服の変化に相違のある教師付き学習者識別表現に焦点をあてて、衣料変化面を導入している。 この長期的なre-idの方向性をさらに一歩進めて、短期の人物のre-idデータセットと比較して注釈をつけるのにはるかに高価で退屈な、人物識別ラベルの必要性をさらに排除します。 従来の教師なしの短期的な再識別と比較して、この新たな問題は、同じ人が異なる場所や時間に複数の服を着ることができるのに対して、異なる人が同じ服を持っている場合、非常に困難である。 このような障害を克服するために,クラスタリングの信頼性に応じて教師なしクラスタリング基準を適応的に調整できる,新しいCPC手法を提案する。 長期にわたる3つのre-idデータセットの実験では、我々のCPCはSOTAの教師なしre-idメソッドよりも優れており、教師付きre-idモデルと密接に一致している。

We investigate unsupervised person re-identification (Re-ID) with clothes change, a new challenging problem with more practical usability and scalability to real-world deployment. Most existing re-id methods artificially assume the clothes of every single person to be stationary across space and time. This condition is mostly valid for short-term re-id scenarios since an average person would often change the clothes even within a single day. To alleviate this assumption, several recent works have introduced the clothes change facet to re-id, with a focus on supervised learning person identity discriminative representation with invariance to clothes changes. Taking a step further towards this long-term re-id direction, we further eliminate the requirement of person identity labels, as they are significantly more expensive and more tedious to annotate in comparison to short-term person re-id datasets. Compared to conventional unsupervised short-term re-id, this new problem is drastically more challenging as different people may have similar clothes whilst the same person can wear multiple suites of clothes over different locations and times with very distinct appearance. To overcome such obstacles, we introduce a novel Curriculum Person Clustering (CPC) method that can adaptively regulate the unsupervised clustering criterion according to the clustering confidence. Experiments on three long-term person re-id datasets show that our CPC outperforms SOTA unsupervised re-id methods and even closely matches the supervised re-id models.
翻訳日:2022-02-09 12:51:50 公開日:2022-02-08
# (参考訳) 教師付きグラフ表現学習のための変分エッジ分割モデル

A Variational Edge Partition Model for Supervised Graph Representation Learning ( http://arxiv.org/abs/2202.03233v2 )

ライセンス: CC BY 4.0
Yilin He, Chaojie Wang, Hao Zhang, Bo Chen, Mingyuan Zhou(参考訳) エッジを通じてノードの機能を伝搬し、ラベル管理下で集約された機能を変換する方法を学ぶグラフニューラルネットワーク(gnns)は、ノードレベルの分類タスクとグラフレベルの分類タスクの両方において、教師付き特徴抽出で大きな成功を収めている。 しかし、GNNは通常グラフ構造を与えられたように扱い、エッジがどのように形成されるかを無視します。 本稿では,重複するノード群にノード間相互作用を集約することにより観測されたエッジがどのように生成されるかをモデル化するグラフ生成プロセスを提案する。 この生成モデルに基づいて、各エッジを複数のコミュニティ固有の重み付きエッジの和に分割し、コミュニティ固有のGNNを定義する。 エッジを異なるコミュニティに分割するGNNベースの推論ネットワーク,これらのコミュニティ固有のGNN,およびコミュニティ固有のGNNを最終分類タスクに組み合わせたGNNベースの予測器を共同で学習するために,変分推論フレームワークを提案する。 実世界のグラフデータセットに対する大規模な評価は,ノードレベルとグラフレベルの両方の分類タスクにおける識別表現の学習において,提案手法の有効性を検証した。

Graph neural networks (GNNs), which propagate the node features through the edges and learn how to transform the aggregated features under label supervision, have achieved great success in supervised feature extraction for both node-level and graph-level classification tasks. However, GNNs typically treat the graph structure as given and ignore how the edges are formed. This paper introduces a graph generative process to model how the observed edges are generated by aggregating the node interactions over a set of overlapping node communities, each of which contributes to the edges via a logical OR mechanism. Based on this generative model, we partition each edge into the summation of multiple community-specific weighted edges and use them to define community-specific GNNs. A variational inference framework is proposed to jointly learn a GNN based inference network that partitions the edges into different communities, these community-specific GNNs, and a GNN based predictor that combines community-specific GNNs for the end classification task. Extensive evaluations on real-world graph datasets have verified the effectiveness of the proposed method in learning discriminative representations for both node-level and graph-level classification tasks.
翻訳日:2022-02-09 12:35:44 公開日:2022-02-08
# (参考訳) gmc --幾何多様コントラスト表現学習

GMC -- Geometric Multimodal Contrastive Representation Learning ( http://arxiv.org/abs/2202.03390v2 )

ライセンス: CC BY 4.0
Petra Poklukar, Miguel Vasco, Hang Yin, Francisco S. Melo, Ana Paiva, Danica Kragic(参考訳) テスト時のモダリティの欠如に対して情報的かつ堅牢なマルチモーダルデータの表現を学習することは、異なるチャネルから得られるデータの固有不均一性のため、依然として難しい問題である。 そこで本研究では,2つの主成分からなるGMC(Geometric Multimodal Contrastive)表現学習手法を提案する。 一 任意の数のモダリティを固定次元の中間表現に加工することができるモダリティ固有の基底エンコーダと、中間表現を潜在表現空間にマッピングする共有投影ヘッドとからなる二段階アーキテクチャ 二 学習した表現の幾何学的アライメントを促進するマルチモーダルコントラスト損失関数 我々は,gmc表現が意味的に豊かであり,予測や強化学習タスクを含む3つの異なる学習問題のモダリティ情報を欠いた最先端のパフォーマンスを実現することを実験的に実証する。

Learning representations of multimodal data that are both informative and robust to missing modalities at test time remains a challenging problem due to the inherent heterogeneity of data obtained from different channels. To address it, we present a novel Geometric Multimodal Contrastive (GMC) representation learning method comprised of two main components: i) a two-level architecture consisting of modality-specific base encoder, allowing to process an arbitrary number of modalities to an intermediate representation of fixed dimensionality, and a shared projection head, mapping the intermediate representations to a latent representation space; ii) a multimodal contrastive loss function that encourages the geometric alignment of the learned representations. We experimentally demonstrate that GMC representations are semantically rich and achieve state-of-the-art performance with missing modality information on three different learning problems including prediction and reinforcement learning tasks.
翻訳日:2022-02-09 12:17:05 公開日:2022-02-08
# ゼロショットアスペクトに基づく感性分析

Zero-Shot Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2202.01924v2 )

ライセンス: Link先を確認
Lei Shu, Jiahua Chen, Bing Liu, Hu Xu(参考訳) アスペクトベースの感情分析(ABSA)は通常、教師付きトレーニング/ファインチューニングのためにドメイン内のアノテートデータを必要とする。 ABSAを多くの新しいドメインに拡張することは大きな課題です。 本稿では,新たなドメインに対して注釈付きデータを用いることなく,ゼロショットABSAを実現する統一モデルを訓練することを目的とする。 本稿では,自然言語推論 (CORN) に基づくコントラッシブポストトレーニング手法を提案する。 後にABSAタスクはゼロショット転送のためにNLIにキャストできる。 我々は、アスペクト抽出(AE)、アスペクト感情分類(ASC)、エンド・ツー・エンドのアスペクトベース感情分析(E2E ABSA)など、ABSAタスクにおけるCORNを評価する。

Aspect-based sentiment analysis (ABSA) typically requires in-domain annotated data for supervised training/fine-tuning. It is a big challenge to scale ABSA to a large number of new domains. This paper aims to train a unified model that can perform zero-shot ABSA without using any annotated data for a new domain. We propose a method called contrastive post-training on review Natural Language Inference (CORN). Later ABSA tasks can be cast into NLI for zero-shot transfer. We evaluate CORN on ABSA tasks, ranging from aspect extraction (AE), aspect sentiment classification (ASC), to end-to-end aspect-based sentiment analysis (E2E ABSA), which show ABSA can be conducted without any human annotated ABSA data.
翻訳日:2022-02-09 11:53:11 公開日:2022-02-08
# 個人化フェデレーション学習のための協調形成ゲームアプローチ

A Coalition Formation Game Approach for Personalized Federated Learning ( http://arxiv.org/abs/2202.02502v2 )

ライセンス: Link先を確認
Leijie Wu, Song Guo, Yaohong Ding, Yufeng Zhan, Jie Zhang(参考訳) クライアントのローカルデータ配信における統計的多様性の課題に直面する中、パーソナライズド・フェデレーション・ラーニング(PFL)は研究ホットスポットになりつつある。 モデル類似性に基づくペアワイズコラボレーションによる最先端の手法は有望なパフォーマンスを達成したが、モデル集約は基本的に、クライアント間で複雑なマルチワイズの影響が生じる連立内のコラボレーションプロセスであるという事実を無視している。 本稿では,まず連立ゲーム理論のShapley値(SV)をPFLシナリオに適用する。 パーソナライズされた学習性能に関するクライアントグループ間の多面的なコラボレーションを測定するため,SVは最終結果に対する限界貢献を指標として捉えた。 我々は,新しいパーソナライズされたアルゴリズム,pFedSVを提案する。 1 各クライアントの最適なコラボレータ連立を識別し、 2. SVに基づくパーソナライズされたモデルアグリゲーションを行う。 各種データセット(MNIST, Fashion-MNIST, CIFAR-10)の多種多様な非IIDデータ設定(Pathological, Dirichlet)を用いて実験を行った。 その結果、pFedSVは最先端のベンチマークと比較すると、各クライアントのパーソナライズ精度が優れていることがわかった。

Facing the challenge of statistical diversity in client local data distribution, personalized federated learning (PFL) has become a growing research hotspot. Although the state-of-the-art methods with model similarity-based pairwise collaboration have achieved promising performance, they neglect the fact that model aggregation is essentially a collaboration process within the coalition, where the complex multiwise influences take place among clients. In this paper, we first apply Shapley value (SV) from coalition game theory into the PFL scenario. To measure the multiwise collaboration among a group of clients on the personalized learning performance, SV takes their marginal contribution to the final result as a metric. We propose a novel personalized algorithm: pFedSV, which can 1. identify each client's optimal collaborator coalition and 2. perform personalized model aggregation based on SV. Extensive experiments on various datasets (MNIST, Fashion-MNIST, and CIFAR-10) are conducted with different Non-IID data settings (Pathological and Dirichlet). The results show that pFedSV can achieve superior personalized accuracy for each client, compared to the state-of-the-art benchmarks.
翻訳日:2022-02-09 11:52:37 公開日:2022-02-08
# パラメトリック微分同相写像上のパラメトリックカップリング流れの普遍性

Universality of parametric Coupling Flows over parametric diffeomorphisms ( http://arxiv.org/abs/2202.02906v2 )

ライセンス: Link先を確認
Junlong Lyu, Zhitang Chen, Chang Feng, Wenjing Cun, Shengyu Zhu, Yanhui Geng, Zhijie Xu, Yongwei Chen(参考訳) 結合フローcflowsに基づく可逆ニューラルネットワークは、画像合成やデータ圧縮といった様々な応用がある。 CFlowsの近似普遍性はモデル表現性を保証するために最重要となる。 本稿では,CFlowsがC^k-ノルムの任意の微分同相を近似できることを示す。 具体的には、アフィン結合層と可逆線型変換の合成がこの普遍性を達成することを導出する。 さらに、微分同相がいくつかの余剰パラメータに依存するパラメトリックの場合、パラメトリックカップリングフローに対する対応する近似定理をパラメトリックフローと呼ぶ。 実際に,Para-CFlowsを文脈的ベイズ最適化タスクにおけるニューラルサロゲートモデルとして適用し,最適化性能の点で他のニューラルサロゲートモデルよりも優れていることを示す。

Invertible neural networks based on Coupling Flows CFlows) have various applications such as image synthesis and data compression. The approximation universality for CFlows is of paramount importance to ensure the model expressiveness. In this paper, we prove that CFlows can approximate any diffeomorphism in C^k-norm if its layers can approximate certain single-coordinate transforms. Specifically, we derive that a composition of affine coupling layers and invertible linear transforms achieves this universality. Furthermore, in parametric cases where the diffeomorphism depends on some extra parameters, we prove the corresponding approximation theorems for our proposed parametric coupling flows named Para-CFlows. In practice, we apply Para-CFlows as a neural surrogate model in contextual Bayesian optimization tasks, to demonstrate its superiority over other neural surrogate models in terms of optimization performance.
翻訳日:2022-02-09 11:52:15 公開日:2022-02-08
# 高速リトレーニングのための抑制ネットワークを用いたソフトアクター・クリティカル

Soft Actor-Critic with Inhibitory Networks for Faster Retraining ( http://arxiv.org/abs/2202.02918v2 )

ライセンス: Link先を確認
Jaime S. Ide, Daria Mi\'covi\'c, Michael J. Guarino, Kevin Alcedo, David Rosenbluth, Adrian P. Pope(参考訳) 事前訓練されたモデルの再利用は、新しいエージェントのトレーニングを高速化するために、深層強化学習において重要である。 しかし、目標や制約が以前の学習したスキルと矛盾している場合、新しいスキルを身につける方法が不明である。 さらに、再トレーニング時には、すでに学んできたことの活用と新しいスキルの探求との間には、内在的な葛藤がある。 soft actor-critic (sac) メソッドでは、温度パラメータを動的に調整してアクションエントロピーを重み付け、explore $\times$ exploit トレードオフのバランスをとることができる。 しかし、単一係数の制御は再訓練の文脈において困難であり、さらにゴールが矛盾する場合にも困難である。 本研究は,神経科学研究に触発されて,独立かつ適応的な状態評価と,異なる自動エントロピーチューニングを可能にするために,抑制ネットワークを用いた新しいアプローチを提案する。 最終的に、我々のアプローチは、リスクの少ない、獲得された行動の悪用と、より困難なタスクを克服するための新しい行動の間の競合に対処するための抑制を制御できる。 本手法はOpenAI Gym環境での実験を通して検証する。

Reusing previously trained models is critical in deep reinforcement learning to speed up training of new agents. However, it is unclear how to acquire new skills when objectives and constraints are in conflict with previously learned skills. Moreover, when retraining, there is an intrinsic conflict between exploiting what has already been learned and exploring new skills. In soft actor-critic (SAC) methods, a temperature parameter can be dynamically adjusted to weight the action entropy and balance the explore $\times$ exploit trade-off. However, controlling a single coefficient can be challenging within the context of retraining, even more so when goals are contradictory. In this work, inspired by neuroscience research, we propose a novel approach using inhibitory networks to allow separate and adaptive state value evaluations, as well as distinct automatic entropy tuning. Ultimately, our approach allows for controlling inhibition to handle conflict between exploiting less risky, acquired behaviors and exploring novel ones to overcome more challenging tasks. We validate our method through experiments in OpenAI Gym environments.
翻訳日:2022-02-09 11:52:00 公開日:2022-02-08
# 識別から生成へ:生成トランスによる知識グラフの完成

From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer ( http://arxiv.org/abs/2202.02113v2 )

ライセンス: Link先を確認
Xin Xie, Ningyu Zhang, Zhoubo Li, Shumin Deng, Hui Chen, Feiyu Xiong, Mosha Chen, Huajun Chen(参考訳) 知識グラフ補完は、三重項を欠いたKGの拡張の問題に対処することを目的としている。 本稿では,学習済み言語モデルを用いて知識グラフの完成度を逐次生成タスクに変換する手法であるgenkgcを提案する。 さらに,表現学習と高速推論を改善するために,関係誘導型デモンストレーションとエンティティ認識階層型復号を導入する。 3つのデータセットにおける実験結果から,本手法はベースラインよりも優れた,あるいは同等の性能を得ることができ,事前学習した言語モデルを用いた従来の手法よりも高速な推論速度が得られることが示された。 また、研究目的のために、新しい大規模中国の知識グラフデータセットAliopenKG500をリリースする。 コードとデータセットはhttps://github.com/zjunlp/PromptKGC/tree/main/GenKGCで入手できる。

Knowledge graph completion aims to address the problem of extending a KG with missing triples. In this paper, we provide an approach GenKGC, which converts knowledge graph completion to sequence-to-sequence generation task with the pre-trained language model. We further introduce relation-guided demonstration and entity-aware hierarchical decoding for better representation learning and fast inference. Experimental results on three datasets show that our approach can obtain better or comparable performance than baselines and achieve faster inference speed compared with previous methods with pre-trained language models. We also release a new large-scale Chinese knowledge graph dataset AliopenKG500 for research purpose. Code and datasets are available in https://github.com/zjunlp/PromptKGC/tree/main/GenKGC.
翻訳日:2022-02-09 11:51:39 公開日:2022-02-08
# leapmood: 遺伝的アルゴリズム駆動ハイパーパラメータチューニングによるムード予測のための軽量かつ効率的なアーキテクチャ

LEAPMood: Light and Efficient Architecture to Predict Mood with Genetic Algorithm driven Hyperparameter Tuning ( http://arxiv.org/abs/2202.02522v2 )

ライセンス: Link先を確認
Harichandana B S S and Sumit Kumar(参考訳) 気分の正確な自動検出は、ユーザプロファイリングのようなユースケースのためのビルディングブロックとして機能し、それによって広告やレコメンデーションシステムなどのアプリケーションに電力を供給する。 個人の気分を示す主要な情報源は、テキストデータである。 感情認識に関する研究は盛んに行われているが、気分予測の分野ではほとんど研究されていない。 さらに、オンデバイス参照の分野では、ユーザのプライバシーの観点から非常に重要な作業がほとんど行われていません。 本稿では,テキストデータであるleapmoodから気分を予測するための,デバイス上でのディープラーニングアプローチを初めて提案する。 遺伝的アルゴリズム(ga)に基づくハイパーパラメータチューニングのための,新しいオンデバイス配置指向目的関数を用いて,性能とサイズに関するパラメータを最適化する。 LEAPMood は、最初のビルディングブロックとして Emotion Recognition in Conversion (ERC) で構成され、その後 K-means クラスタリングを用いて気分予測を行う。 本研究では, 文字埋め込み, 音声ハッシュ, 注意の組み合わせと条件付きランダムフィールド(CRF)を併用することにより, モデルサイズ(以上90%)の大幅な削減を図り, 現状の状態-Of-the-Artに匹敵する性能が得られることを示す。 DailyDialogデータセット上のわずか1.67MBのメモリフットプリントで、マイクロF1スコアが62.05%に達する。 さらに、LEAPMoodを用いて、マクロF1スコア72.12%の気分予測を行うためのデータセットをキュレートする。

Accurate and automatic detection of mood serves as a building block for use cases like user profiling which in turn power applications such as advertising, recommendation systems, and many more. One primary source indicative of an individual's mood is textual data. While there has been extensive research on emotion recognition, the field of mood prediction has been barely explored. In addition, very little work is done in the area of on-device inferencing, which is highly important from the user privacy point of view. In this paper, we propose for the first time, an on-device deep learning approach for mood prediction from textual data, LEAPMood. We use a novel on-device deployment-focused objective function for hyperparameter tuning based on the Genetic Algorithm (GA) and optimize the parameters concerning both performance and size. LEAPMood consists of Emotion Recognition in Conversion (ERC) as the first building block followed by mood prediction using K-means clustering. We show that using a combination of character embedding, phonetic hashing, and attention along with Conditional Random Fields (CRF), results in a performance closely comparable to that of the current State-Of-the-Art with a significant reduction in model size (> 90%) for the task of ERC. We achieve a Micro F1 score of 62.05% with a memory footprint of a mere 1.67MB on the DailyDialog dataset. Furthermore, we curate a dataset for the task of mood prediction achieving a Macro F1-score of 72.12% with LEAPMood.
翻訳日:2022-02-09 11:51:27 公開日:2022-02-08
# 別の方法:ワードムーバー距離拡張の探求

Moving Other Way: Exploring Word Mover Distance Extensions ( http://arxiv.org/abs/2202.03119v2 )

ライセンス: Link先を確認
Ilya Smirnov, Ivan P. Yamshchikov(参考訳) モービル距離 (WMD) は、2つのテキストに対する一般的な意味的類似度である。 本論文は, WMDの拡張の可能性について考察する。 重み付け係数としてコーパス内の単語の頻度と単語ベクトル空間の幾何について実験を行った。 6つの文書分類データセット上でWMDの拡張性を検証する。 いくつかの拡張は、WMDよりもk-アネレスト近傍の分類誤差の方が良い結果を示す。

The word mover's distance (WMD) is a popular semantic similarity metric for two texts. This position paper studies several possible extensions of WMD. We experiment with the frequency of words in the corpus as a weighting factor and the geometry of the word vector space. We validate possible extensions of WMD on six document classification datasets. Some proposed extensions show better results in terms of the k-nearest neighbor classification error than WMD.
翻訳日:2022-02-09 11:50:14 公開日:2022-02-08
# 深部単眼体形状の時間的一貫性とポーズ推定

Imposing Temporal Consistency on Deep Monocular Body Shape and Pose Estimation ( http://arxiv.org/abs/2202.03074v2 )

ライセンス: Link先を確認
Alexandra Zimmer, Anna Hilsmann, Wieland Morgenstern, Peter Eisert(参考訳) 人間の身体の正確な時間的一貫したモデリングは、キャラクターアニメーション、人間の社会的振る舞いの理解、AR/VRインターフェースなど、幅広い応用に不可欠である。 単眼画像列から正確に人間の動きを捉えることは依然として困難であり、そのモデリング品質は、捕獲された身体の動きの時間的一貫性に強く影響される。 本研究は, 適合過程における時間制約の統合に対するエレガントな解決法を提案する。 これにより時間的一貫性が向上するだけでなく、最適化時の堅牢性も向上する。 詳しくは、顎のポーズ、表情、指のポーズなど、人の形や動きを表す一連の身体モデルのパラメータを導出する。 これらのパラメータを全体像列上で最適化し, 身体運動に時間的一貫性を付与しながら, 短時間でリニアボディジョイント軌跡を仮定した。 本手法は,表情や手話を含む画像系列からリアルな3次元体モデルの導出を可能にする。 広範にわたる実験では, 身体の形状や動きを正確に推定し, 挑戦的な動きやポーズを呈する。 さらに, 高精度かつ時間的一貫した動きモデリングが不可欠である手話解析の特殊応用に適用し, この種の応用に適していることを示す。

Accurate and temporally consistent modeling of human bodies is essential for a wide range of applications, including character animation, understanding human social behavior and AR/VR interfaces. Capturing human motion accurately from a monocular image sequence is still challenging and the modeling quality is strongly influenced by the temporal consistency of the captured body motion. Our work presents an elegant solution for the integration of temporal constraints in the fitting process. This does not only increase temporal consistency but also robustness during the optimization. In detail, we derive parameters of a sequence of body models, representing shape and motion of a person, including jaw poses, facial expressions, and finger poses. We optimize these parameters over the complete image sequence, fitting one consistent body shape while imposing temporal consistency on the body motion, assuming linear body joint trajectories over a short time. Our approach enables the derivation of realistic 3D body models from image sequences, including facial expression and articulated hands. In extensive experiments, we show that our approach results in accurately estimated body shape and motion, also for challenging movements and poses. Further, we apply it to the special application of sign language analysis, where accurate and temporal consistent motion modelling is essential, and show that the approach is well-suited for this kind of application.
翻訳日:2022-02-09 11:50:07 公開日:2022-02-08
# ほぼ消滅する理想に対する条件勾配

Conditional Gradients for the Approximately Vanishing Ideal ( http://arxiv.org/abs/2202.03349v2 )

ライセンス: Link先を確認
E. Wirth, S. Pokutta(参考訳) 点の集合 $X\subseteq \mathbb{R}^n$ の消滅イデアルは、すべての点 $\mathbf{x} \in X$ 上で$0$ と評価され、ジェネレータと呼ばれる多項式の有限集合による効率的な表現を認める多項式の集合である。 データセットのノイズに対処するため,約消滅するイデアルのジェネレータの集合を構築するために,CGAVI(Conditional Gradients A roughly Vanishing Ideal Algorithm)を導入する。 構築されたジェネレータのセットはデータの多項式構造をキャプチャし、例えば教師付き学習のための線形分類器と組み合わせて使用できる特徴マップを生成する。 CGAVIでは、Pairwise Frank-Wolfeアルゴリズム(PFW)を用いて、(制約付き)凸最適化問題を解くことで、ジェネレータの集合を構築する。 中でも、構築されたジェネレータはLASSO一般化境界を継承し、トレーニングだけでなく、サンプル外のデータにも消滅する。 さらに、CGAVI はスパース係数ベクトルを持つ少数の生成子を構成することで、ほぼ消滅するイデアルのコンパクト表現を認める。

The vanishing ideal of a set of points $X\subseteq \mathbb{R}^n$ is the set of polynomials that evaluate to $0$ over all points $\mathbf{x} \in X$ and admits an efficient representation by a finite set of polynomials called generators. To accommodate the noise in the data set, we introduce the Conditional Gradients Approximately Vanishing Ideal algorithm (CGAVI) for the construction of the set of generators of the approximately vanishing ideal. The constructed set of generators captures polynomial structures in data and gives rise to a feature map that can, for example, be used in combination with a linear classifier for supervised learning. In CGAVI, we construct the set of generators by solving specific instances of (constrained) convex optimization problems with the Pairwise Frank-Wolfe algorithm (PFW). Among other things, the constructed generators inherit the LASSO generalization bound and not only vanish on the training but also on out-sample data. Moreover, CGAVI admits a compact representation of the approximately vanishing ideal by constructing few generators with sparse coefficient vectors.
翻訳日:2022-02-09 11:49:46 公開日:2022-02-08
# PrivPAS: リアルタイムプライバシ保護AIシステムと倫理の適用

PrivPAS: A real time Privacy-Preserving AI System and applied ethics ( http://arxiv.org/abs/2202.02524v2 )

ライセンス: Link先を確認
Harichandana B S S, Vibhav Agarwal, Sourav Ghosh, Gopi Ramena, Sumit Kumar and Barath Raj Kandur Raja(参考訳) 2021年には全世界で38億人のソーシャルメディアユーザーがいて(人口の48%)、毎日30億近い画像が共有されている。 同時に、スマートフォンのカメラが一貫した進化を遂げたことにより、写真の爆発が起こり、新しい写真の85%がスマートフォンで撮影された。 しかし、近年、撮影されている人物が撮影されている写真に気づいていない場合や、共有されている写真について予約している場合、プライバシーに関する懸念が高まりつつある。 こうしたプライバシー侵害は、障害を抱えている人々に対して増幅され、たとえ認識していたとしても、不満を抱くことが難しいと感じるかもしれない。 このような不正なイメージキャプチャは、第三者組織による同情を得るために誤用される可能性があり、プライバシー侵害につながる。 障害を持つ人々に対するプライバシは、これまで、AIコミュニティから比較的少ない注目を集めてきた。 これは、スマートフォンユーザーのviewfinderコンテンツのあらゆる感度に対する意識を高めるために、プライバシーに配慮したヒントを生み出すためのソリューションに取り組みたいというモチベーションを与えます。 この目的のために、センシティブなコンテンツを識別する新しいフレームワークであるPrivPAS(リアルタイムプライバシ保存AIシステム)を導入する。 さらに、アクセシビリティマーカーを特定してローカライズするためにデータセットをキュレートし、アノテートし、障害のある被写体にイメージが敏感かどうかを分類する。 提案する軽量アーキテクチャは,メモリフットプリントがわずか8.49mbで,リソース制約のあるデバイス上で89.52%の高マップを実現する。 さらに、顔匿名化データに基づいてトレーニングされたパイプラインは、f1-scoreを73.1%で達成する。

With 3.78 billion social media users worldwide in 2021 (48% of the human population), almost 3 billion images are shared daily. At the same time, a consistent evolution of smartphone cameras has led to a photography explosion with 85% of all new pictures being captured using smartphones. However, lately, there has been an increased discussion of privacy concerns when a person being photographed is unaware of the picture being taken or has reservations about the same being shared. These privacy violations are amplified for people with disabilities, who may find it challenging to raise dissent even if they are aware. Such unauthorized image captures may also be misused to gain sympathy by third-party organizations, leading to a privacy breach. Privacy for people with disabilities has so far received comparatively less attention from the AI community. This motivates us to work towards a solution to generate privacy-conscious cues for raising awareness in smartphone users of any sensitivity in their viewfinder content. To this end, we introduce PrivPAS (A real time Privacy-Preserving AI System) a novel framework to identify sensitive content. Additionally, we curate and annotate a dataset to identify and localize accessibility markers and classify whether an image is sensitive to a featured subject with a disability. We demonstrate that the proposed lightweight architecture, with a memory footprint of a mere 8.49MB, achieves a high mAP of 89.52% on resource-constrained devices. Furthermore, our pipeline, trained on face anonymized data, achieves an F1-score of 73.1%.
翻訳日:2022-02-09 11:49:24 公開日:2022-02-08
# EMGに基づくジェスチャー同定のための深部残留収縮網

Deep Residual Shrinkage Networks for EMG-based Gesture Identification ( http://arxiv.org/abs/2202.02984v2 )

ライセンス: Link先を確認
Yueying Ma, Chengbo Wang, Chengenze Jiang, Zimo Li(参考訳) 本研究では,高精度なEMGに基づくジェスチャー識別手法を提案する。 新たな深層学習法である深層残留収縮ネットワークを用いてジェスチャ識別を行う。 ジェスチャによるemg信号の特徴に基づき、識別精度を向上させるための最適化を行う。 最後に、EMG信号認識の精度とDRSNの精度を比較するために、3つの異なるアルゴリズムを適用した。 その結果,DRSNは従来のニューラルネットワークよりもEMG認識精度が高いことがわかった。 本稿では,EMG信号の分類やDRSNの適用可能性を探る上で,信頼性の高い方法を提案する。

This work introduces a method for high-accuracy EMG based gesture identification. A newly developed deep learning method, namely, deep residual shrinkage network is applied to perform gesture identification. Based on the feature of EMG signal resulting from gestures, optimizations are made to improve the identification accuracy. Finally, three different algorithms are applied to compare the accuracy of EMG signal recognition with that of DRSN. The result shows that DRSN excel traditional neural networks in terms of EMG recognition accuracy. This paper provides a reliable way to classify EMG signals, as well as exploring possible applications of DRSN.
翻訳日:2022-02-09 11:47:06 公開日:2022-02-08