このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220216となっている論文です。

PDF登録状況(公開日: 20220216)

TitleAuthorsAbstract論文公表日・翻訳日
# 実環境における乳幼児の泣き声検出

Infant Crying Detection in Real-World Environments ( http://arxiv.org/abs/2005.07036v6 )

ライセンス: Link先を確認
Xuewen Yao, Megan Micheletti, Mckensey Johnson, Edison Thomaz, Kaya de Barbaro(参考訳) 既存のcry検出モデルは、制御された設定で収集されたデータでテストされている。 したがって、騒音や生活環境への一般化の程度は不明確である。 本稿では,深層スペクトルと音響特徴を併用したモデルを含むいくつかの確立した機械学習手法を評価する。 このモデルでは、F1スコア0.613(精度:0.672、リコール:0.552)で泣く出来事を認識することができ、日々の現実の環境での涙検出における既存の方法に対する外的妥当性が改善された。 評価の一環として, 乳幼児が自宅で装着したレコーダーを用いて, 780時間以上のラベル付き実世界の音声データから, 乳幼児の泣き声のデータセットを収集, 注釈し, 公開している。 実験結果から,実世界データ(実世界データF1: 0.656,実世界テストF1: 0.236)を提示した場合,実験室内データに基づいてトレーニングした涙検出モデルは,新たなデータセットとモデルの価値を強調した。

Most existing cry detection models have been tested with data collected in controlled settings. Thus, the extent to which they generalize to noisy and lived environments is unclear. In this paper, we evaluate several established machine learning approaches including a model leveraging both deep spectrum and acoustic features. This model was able to recognize crying events with F1 score 0.613 (Precision: 0.672, Recall: 0.552), showing improved external validity over existing methods at cry detection in everyday real-world settings. As part of our evaluation, we collect and annotate a novel dataset of infant crying compiled from over 780 hours of labeled real-world audio data, captured via recorders worn by infants in their homes, which we make publicly available. Our findings confirm that a cry detection model trained on in-lab data underperforms when presented with real-world data (in-lab test F1: 0.656, real-world test F1: 0.236), highlighting the value of our new dataset and model.
翻訳日:2022-12-03 18:40:55 公開日:2022-02-16
# 分布にロバストな$k$-nearestの隣人

Distributionally Robust Weighted $k$-Nearest Neighbors ( http://arxiv.org/abs/2006.04004v5 )

ライセンス: Link先を確認
Shixiang Zhu and Liyan Xie and Minghe Zhang and Rui Gao and Yao Xie(参考訳) 少数のサンプルから堅牢な分類器を学ぶことは、機械学習の重要な課題である。 研究の大きな推進力は、サンプル間の類似性を捉えるメトリック学習と組み合わせて、$k$-nearest(k$-NN)ベースのアルゴリズムの開発に焦点を当てている。 サンプルが限定された場合、分類器の一般化能力を保証するためにロバスト性は特に重要である。 本稿では,重み付き$k$-nearest近傍の最小分布的ロバストな定式化について検討し,特徴の不確実性に対してヘッジする最適重み付き$k$-nn分類器を求める。 我々は,この関数最適化問題を効率的に解くためのアルゴリズムである \texttt{dr.k-nn} を開発し,分類を行う際のサンプルの訓練にミニマックス最適重みを割り当てる特徴について述べる。 これらの重みはクラスに依存し、最も好ましくないシナリオでサンプルの特徴の類似性によって決定される。 不確実集合のサイズが適切に調整されると、ロバスト分類器はバニラ$k$-NNよりも小さなリプシッツノルムを持ち、したがって一般化能力を向上させる。 私たちはまた、ニューラルネットワークベースの機能埋め込みとフレームワークを結合します。 種々の実データ実験による少数のトレーニングサンプル設定において, 最先端のアルゴリズムと比較して, アルゴリズムの競合性能を実証する。

Learning a robust classifier from a few samples remains a key challenge in machine learning. A major thrust of research has been focused on developing $k$-nearest neighbor ($k$-NN) based algorithms combined with metric learning that captures similarities between samples. When the samples are limited, robustness is especially crucial to ensure the generalization capability of the classifier. In this paper, we study a minimax distributionally robust formulation of weighted $k$-nearest neighbors, which aims to find the optimal weighted $k$-NN classifiers that hedge against feature uncertainties. We develop an algorithm, \texttt{Dr.k-NN}, that efficiently solves this functional optimization problem and features in assigning minimax optimal weights to training samples when performing classification. These weights are class-dependent, and are determined by the similarities of sample features under the least favorable scenarios. When the size of the uncertainty set is properly tuned, the robust classifier has a smaller Lipschitz norm than the vanilla $k$-NN, and thus improves the generalization capability. We also couple our framework with neural-network-based feature embedding. We demonstrate the competitive performance of our algorithm compared to the state-of-the-art in the few-training-sample setting with various real-data experiments.
翻訳日:2022-11-24 07:30:21 公開日:2022-02-16
# 分布自由二分分類:予測セット、信頼区間、校正

Distribution-free binary classification: prediction sets, confidence intervals and calibration ( http://arxiv.org/abs/2006.10564v4 )

ライセンス: Link先を確認
Chirag Gupta, Aleksandr Podkopaev, Aaditya Ramdas(参考訳) 本研究では,不確実性定量化(キャリブレーション,信頼区間,予測集合)の3つの概念を,分布自由条件における二項分類について検討する。 校正に焦点をあてて,これら3つの概念をスコアベース分類器に結合する定理の'三脚'を確立する。 直接的な意味は、分布のないキャリブレーションは、レベルが特徴空間を可算個の集合に分割するスコアリング関数を使って、漸近的にのみ可能であるということである。 プラッツスケーリングの変種のようなパラメトリックキャリブレーションスキームはこの要件を満たさないが、ビンニングに基づく非パラメトリックキャリブレーションスキームは満たさない。 ループを閉じるために、固定幅と均一質量の両方の双対確率の分布自由信頼区間を導出する。 我々の「三脚」定理の結果として、双有理確率に対するこれらの信頼区間は分布自由キャリブレーションをもたらす。 また、ストリーミングデータとコ変量シフトによる設定の拡張も導出します。

We study three notions of uncertainty quantification -- calibration, confidence intervals and prediction sets -- for binary classification in the distribution-free setting, that is without making any distributional assumptions on the data. With a focus towards calibration, we establish a 'tripod' of theorems that connect these three notions for score-based classifiers. A direct implication is that distribution-free calibration is only possible, even asymptotically, using a scoring function whose level sets partition the feature space into at most countably many sets. Parametric calibration schemes such as variants of Platt scaling do not satisfy this requirement, while nonparametric schemes based on binning do. To close the loop, we derive distribution-free confidence intervals for binned probabilities for both fixed-width and uniform-mass binning. As a consequence of our 'tripod' theorems, these confidence intervals for binned probabilities lead to distribution-free calibration. We also derive extensions to settings with streaming data and covariate shift.
翻訳日:2022-11-19 09:59:54 公開日:2022-02-16
# バックドア学習: 調査

Backdoor Learning: A Survey ( http://arxiv.org/abs/2007.08745v5 )

ライセンス: Link先を確認
Yiming Li, Yong Jiang, Zhifeng Li, Shu-Tao Xia(参考訳) バックドア攻撃は、隠れたバックドアをディープニューラルネットワーク(DNN)に埋め込むことを目的としており、攻撃されたモデルが良質なサンプルでうまく機能するようにしている。 この脅威は、サードパーティデータセットのトレーニングやサードパーティモデルの採用など、トレーニングプロセスが完全にコントロールされていない場合に起こり、新たな現実的な脅威を引き起こす可能性がある。 バックドア学習は急速に普及している研究分野であるが、体系的なレビューはいまだに空白である。 本稿では,この領域の包括的調査を初めて実施する。 我々は,既存のバックドア攻撃と防御をその特性に基づいて要約し,分類し,中毒性に基づくバックドア攻撃を分析するための統一フレームワークを提供する。 さらに,バックドア攻撃と関連する分野(いわゆる$adversarial attack and data poisoning)の関係を分析し,広く採用されているベンチマークデータセットを要約した。 最後に,レビュー作品に依拠する今後の研究方向について概説する。 バックドア関連のリソースのキュレーションリストは、 \url{https://github.com/thuyimingli/backdoor-learning-resources}でも見ることができる。

Backdoor attack intends to embed hidden backdoor into deep neural networks (DNNs), so that the attacked models perform well on benign samples, whereas their predictions will be maliciously changed if the hidden backdoor is activated by attacker-specified triggers. This threat could happen when the training process is not fully controlled, such as training on third-party datasets or adopting third-party models, which poses a new and realistic threat. Although backdoor learning is an emerging and rapidly growing research area, its systematic review, however, remains blank. In this paper, we present the first comprehensive survey of this realm. We summarize and categorize existing backdoor attacks and defenses based on their characteristics, and provide a unified framework for analyzing poisoning-based backdoor attacks. Besides, we also analyze the relation between backdoor attacks and relevant fields ($i.e.,$ adversarial attacks and data poisoning), and summarize widely adopted benchmark datasets. Finally, we briefly outline certain future research directions relying upon reviewed works. A curated list of backdoor-related resources is also available at \url{https://github.com/THUYimingLi/backdoor-learning-resources}.
翻訳日:2022-11-09 13:29:11 公開日:2022-02-16
# レシピ生成のための構造予測による生成ネットワークの分解

Decomposing Generation Networks with Structure Prediction for Recipe Generation ( http://arxiv.org/abs/2007.13374v2 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao(参考訳) 料理のイメージや食材からのレシピ生成は難しい課題であり、他のモダリティからの情報の解釈を必要とする。 画像キャプションタスクと異なり、キャプションは通常1つの文を含むが、料理の指示には複数の文が含まれ、明らかな構造を持つ。 モデルがレシピ構造を捉え、料理の詳細を欠くのを避けるために、構造予測を伴う生成ネットワーク(dgn)を分解し、より構造化され完全なレシピ生成アウトプットを得るという、新しい枠組みを提案する。 具体的には,各調理指導を複数の段階に分け,各段階に異なるサブジェネレータを割り当てる。 私たちのアプローチには2つの新しいアイデアがあります (i)グローバル構造予測要素を用いてレシピ構造を学ぶこと、及び (ii)予測した構造に基づいてサブジェネレータ出力成分のレシピフェーズを生成する。 大規模レシピ1mデータセットに対する広範囲な実験により,提案モデルの有効性が検証された。

Recipe generation from food images and ingredients is a challenging task, which requires the interpretation of the information from another modality. Different from the image captioning task, where the captions usually have one sentence, cooking instructions contain multiple sentences and have obvious structures. To help the model capture the recipe structure and avoid missing some cooking details, we propose a novel framework: Decomposing Generation Networks (DGN) with structure prediction, to get more structured and complete recipe generation outputs. Specifically, we split each cooking instruction into several phases, and assign different sub-generators to each phase. Our approach includes two novel ideas: (i) learning the recipe structures with the global structure prediction component and (ii) producing recipe phases in the sub-generator output component based on the predicted structure. Extensive experiments on the challenging large-scale Recipe1M dataset validate the effectiveness of our proposed model, which improves the performance over the state-of-the-art results.
翻訳日:2022-11-06 08:36:34 公開日:2022-02-16
# 安全なアクティブダイナミクス学習と制御:シークエンシャル探索-探索フレームワーク

Safe Active Dynamics Learning and Control: A Sequential Exploration-Exploitation Framework ( http://arxiv.org/abs/2008.11700v4 )

ライセンス: Link先を確認
Thomas Lew, Apoorva Sharma, James Harrison, Andrew Bylard, Marco Pavone(参考訳) 多様なシナリオにおける自律ロボットの安全な展開には、制約を満たしながら新しい環境に効率的に適応できるエージェントが必要となる。 本研究では,動的不確実性の存在下での安全性を維持するための実用的かつ理論的に正当なアプローチを提案する。 本手法は最終層適応によるベイズメタラーニングを活用する。 オフラインでトレーニングされたニューラルネットワーク機能の表現力は、効率的な最終層オンライン適応と組み合わせることで、モデルがオンラインに適応するにつれて真のダイナミクスの周りに収縮する厳密な信頼セットの導出を可能にします。 このような信頼性セットを,システムの安全性を保証する軌道計画に活用する。 提案手法は,まずデータ収集と不確実性を低減するために,まずは「textit{exploit}」を用いて,得られた情報を自律的に「textit{exploit}」でタスクを安全に実行する。 合理的な仮定では、我々の枠組みは、全ての制約が常に常に高い確率で満足することを保証している。 この理論解析はまた、信頼セットのサイズを小さくすることで、オンライン適応能力を向上させるラスト層メタラーニングモデルの2つの正規化子を動機付けている。 我々はシミュレーションとハードウェアで我々のアプローチを広く実証している。

Safe deployment of autonomous robots in diverse scenarios requires agents that are capable of efficiently adapting to new environments while satisfying constraints. In this work, we propose a practical and theoretically-justified approach to maintaining safety in the presence of dynamics uncertainty. Our approach leverages Bayesian meta-learning with last-layer adaptation. The expressiveness of neural-network features trained offline, paired with efficient last-layer online adaptation, enables the derivation of tight confidence sets which contract around the true dynamics as the model adapts online. We exploit these confidence sets to plan trajectories that guarantee the safety of the system. Our approach handles problems with high dynamics uncertainty, where reaching the goal safely is potentially initially infeasible, by first \textit{exploring} to gather data and reduce uncertainty, before autonomously \textit{exploiting} the acquired information to safely perform the task. Under reasonable assumptions, we prove that our framework guarantees the high-probability satisfaction of all constraints at all times jointly, i.e. over the total task duration. This theoretical analysis also motivates two regularizers of last-layer meta-learning models that improve online adaptation capabilities as well as performance by reducing the size of the confidence sets. We extensively demonstrate our approach in simulation and on hardware.
翻訳日:2022-10-24 22:32:13 公開日:2022-02-16
# TUTOR:決定ルールをモデル優先としてニューラルネットワークをトレーニングする

TUTOR: Training Neural Networks Using Decision Rules as Model Priors ( http://arxiv.org/abs/2010.05429v3 )

ライセンス: Link先を確認
Shayan Hassantabar, Prerit Terway, and Niraj K. Jha(参考訳) 人間の脳は、限られた経験で新しいタスクを実行する能力を持っている。 事前学習経験を利用して、ソリューション戦略を新しいドメインに適用する。 一方、ディープニューラルネットワーク(DNN)は一般的に、トレーニングに大量のデータと計算リソースを必要とする。 しかし、この要件は多くの設定で満たされていない。 これらの課題に対処するため,TUTOR DNN合成フレームワークを提案する。 TUTORは表形式のデータセットをターゲットとする。 限られた利用可能なデータとメモリ/計算要求を削減した正確なDNNモデルを合成する。 3つのステップからなる。 最初のステップは、合成データの生成、検証、ラベル付けである。 合成データ生成モジュールは分類的特徴と連続的特徴の両方をターゲットにしている。 TUTORは、実データと同じ確率分布から合成データを生成する。 次に、意味整合性分類モジュールを用いて生成された合成データの完全性を検証する。 実際のデータセットから抽出された一連のルールに基づいて合成データをラベル付けする。 次に、TUTORは合成データとトレーニングデータを組み合わせてDNNモデルのパラメータを学習する2つのトレーニングスキームを使用する。 これらの2つのスキームは、モデルパラメータに先立って合成データを導出する2つの異なる方法に焦点を合わせ、実際のデータでトレーニングするためのより良いDNN初期化を提供する。 第3のステップでは、TUTORは、DNNの重みとアーキテクチャの両方を学習し、その精度を確保しながら、モデルサイズを小さくする。 様々なサイズの9つのデータセットに対してTUTORの性能を評価する。 TUTORは、完全連結DNNと比較して、データの必要性を平均5.9倍に減らし、精度を3.4%改善し、パラメータ数(fFLOP)を4.7倍(4.3倍)に減らした。 したがって、TUTORはより少ないデータ、より正確、よりコンパクトなDNN合成を可能にする。

The human brain has the ability to carry out new tasks with limited experience. It utilizes prior learning experiences to adapt the solution strategy to new domains. On the other hand, deep neural networks (DNNs) generally need large amounts of data and computational resources for training. However, this requirement is not met in many settings. To address these challenges, we propose the TUTOR DNN synthesis framework. TUTOR targets tabular datasets. It synthesizes accurate DNN models with limited available data and reduced memory/computational requirements. It consists of three sequential steps. The first step involves generation, verification, and labeling of synthetic data. The synthetic data generation module targets both the categorical and continuous features. TUTOR generates the synthetic data from the same probability distribution as the real data. It then verifies the integrity of the generated synthetic data using a semantic integrity classifier module. It labels the synthetic data based on a set of rules extracted from the real dataset. Next, TUTOR uses two training schemes that combine synthetic and training data to learn the parameters of the DNN model. These two schemes focus on two different ways in which synthetic data can be used to derive a prior on the model parameters and, hence, provide a better DNN initialization for training with real data. In the third step, TUTOR employs a grow-and-prune synthesis paradigm to learn both the weights and the architecture of the DNN to reduce model size while ensuring its accuracy. We evaluate the performance of TUTOR on nine datasets of various sizes. We show that in comparison to fully connected DNNs, TUTOR, on an average, reduces the need for data by 5.9x, improves accuracy by 3.4%, and reduces the number of parameters (fFLOPs) by 4.7x (4.3x). Thus, TUTOR enables a less data-hungry, more accurate, and more compact DNN synthesis.
翻訳日:2022-10-08 05:39:38 公開日:2022-02-16
# 音声感情認識のためのマルチウィンドウデータ拡張手法

Multi-Window Data Augmentation Approach for Speech Emotion Recognition ( http://arxiv.org/abs/2010.09895v4 )

ライセンス: Link先を確認
Sarala Padi, Dinesh Manocha, Ram D.Sriram(参考訳) 音声感情認識のためのMWA-SER(Multi-Window Data Augmentation)アプローチを提案する。 MWA-SERは、音声信号の基本的な感情を認識するための深層学習モデルを構築するという、2つの重要な概念に焦点を当てた一元的アプローチである。 提案手法は,音声特徴抽出プロセスにおいて複数のウィンドウサイズを用いて音声信号から追加のデータサンプルを生成する。 本手法は,ディープラーニングモデルと組み合わせることで,音声感情認識性能が向上することを示す。 提案手法をIEMOCAP, SAVEE, RAVDESSの3つのベンチマークデータセットで評価した。 マルチウィンドウモデルではSERの性能が向上し,シングルウィンドウモデルよりも優れていた。 最高のウィンドウサイズを見つけるという考えは、音声特徴抽出における重要なステップである。 最善のウィンドウ選択を見いだし,サー分析におけるウィンドウ効果を探究するために,広範囲な実験評価を行った。

We present a Multi-Window Data Augmentation (MWA-SER) approach for speech emotion recognition. MWA-SER is a unimodal approach that focuses on two key concepts; designing the speech augmentation method and building the deep learning model to recognize the underlying emotion of an audio signal. Our proposed multi-window augmentation approach generates additional data samples from the speech signal by employing multiple window sizes in the audio feature extraction process. We show that our augmentation method, combined with a deep learning model, improves speech emotion recognition performance. We evaluate the performance of our approach on three benchmark datasets: IEMOCAP, SAVEE, and RAVDESS. We show that the multi-window model improves the SER performance and outperforms a single-window model. The notion of finding the best window size is an essential step in audio feature extraction. We perform extensive experimental evaluations to find the best window choice and explore the windowing effect for SER analysis.
翻訳日:2022-10-05 21:12:29 公開日:2022-02-16
# 無限次元出力空間をもつ正則化最小二乗回帰

Regularised Least-Squares Regression with Infinite-Dimensional Output Space ( http://arxiv.org/abs/2010.10973v7 )

ライセンス: Link先を確認
Junhyunng Park and Krikamol Muandet(参考訳) この短い技術的報告は、ベクトル値再生カーネルヒルベルト空間(RKHS)回帰に関する学習理論の結果を示し、入力空間は非コンパクトであり、出力空間は(おそらく無限次元)ヒルベルト空間である。 提案手法は,非コンパクト作用素に対するスペクトル理論を用いた積分作用素法に基づく。 我々は、できるだけ少ない仮定で結果を得ることに特に重点を置いており、したがってチェビシェフの不等式のみを使用し、最良のレートや定数を得る努力は行われない。

This short technical report presents some learning theory results on vector-valued reproducing kernel Hilbert space (RKHS) regression, where the input space is allowed to be non-compact and the output space is a (possibly infinite-dimensional) Hilbert space. Our approach is based on the integral operator technique using spectral theory for non-compact operators. We place a particular emphasis on obtaining results with as few assumptions as possible; as such we only use Chebyshev's inequality, and no effort is made to obtain the best rates or constants.
翻訳日:2022-10-04 23:05:43 公開日:2022-02-16
# メタラーニングに基づくクロスドメイン検証による識別的対立ドメイン一般化

Discriminative Adversarial Domain Generalization with Meta-learning based Cross-domain Validation ( http://arxiv.org/abs/2011.00444v2 )

ライセンス: Link先を確認
Keyu Chen, Di Zhuang, J. Morris Chang(参考訳) 機械学習モデルの一般化能力は、"見えない"ドメインの知識を1つまたは複数のドメインから学習することで一般化することであり、現実の環境で機械学習アプリケーションを開発、デプロイすることが非常に重要である。 ドメイン一般化(DG)技術は、学習した特徴表現と分類器が一般化と意思決定を改善する2つの重要な要素となる機械学習モデルの一般化能力を高めることを目的としている。 本稿では,メタラーニングに基づくクロスドメイン検証を用いた識別型adversarial domain generalization(dadg)を提案する。 提案フレームワークは、ドメイン一般化DNNモデルを構築するために相乗的に機能する2つの主要コンポーネントを含んでいる。 (i)複数の「seen」ドメイン上の一般化された特徴表現を積極的に学習する判別的逆学習、及び メタラーニングに基づくクロスドメイン検証は、トレーニングプロセスにメタラーニング技術を適用することで、トレーニング/テストドメインシフトをシミュレートする。 実験により,提案手法と既存の3つのベンチマークデータセットとの比較を行った。 その結果、DADGは強力なベースラインであるDeepAllより一貫して優れており、ほとんどの場合、既存のDGアルゴリズムよりも優れていた。

The generalization capability of machine learning models, which refers to generalizing the knowledge for an "unseen" domain via learning from one or multiple seen domain(s), is of great importance to develop and deploy machine learning applications in the real-world conditions. Domain Generalization (DG) techniques aim to enhance such generalization capability of machine learning models, where the learnt feature representation and the classifier are two crucial factors to improve generalization and make decisions. In this paper, we propose Discriminative Adversarial Domain Generalization (DADG) with meta-learning-based cross-domain validation. Our proposed framework contains two main components that work synergistically to build a domain-generalized DNN model: (i) discriminative adversarial learning, which proactively learns a generalized feature representation on multiple "seen" domains, and (ii) meta-learning based cross-domain validation, which simulates train/test domain shift via applying meta-learning techniques in the training process. In the experimental evaluation, a comprehensive comparison has been made among our proposed approach and other existing approaches on three benchmark datasets. The results shown that DADG consistently outperforms a strong baseline DeepAll, and outperforms the other existing DG algorithms in most of the evaluation cases.
翻訳日:2022-09-30 23:40:01 公開日:2022-02-16
# 多元データを用いた転送学習:群分布ロバストモデルに対する高次元推論

Transfer Learning with Multi-source Data: High-dimensional Inference for Group Distributionally Robust Models ( http://arxiv.org/abs/2011.07568v3 )

ライセンス: Link先を確認
Zijian Guo(参考訳) 一般化と伝達可能なモデルの構築は、統計学習の基本的な目標である。 マルチソースデータによる学習は、モデル一般化可能性の向上に寄与し、群分布的ロバストな最適化、極小群フェアネス、最大射影など、多くの重要な統計問題に不可欠なものである。 本稿では,マルチソースデータに対する複数の高次元回帰モデルについて考察する。 共変量シフト最大化効果を群分布安定モデルとして導入する。 このロバストモデルは、マルチソースデータから未競合のターゲット人口へ情報を転送するのに役立ちます。 変量シフト最大値効果の統計的推測は、その点推定器が非標準極限分布を持つため困難である。 我々は,高次元マクシミン効果に対する有効信頼区間を構築するための新しいDenseNetサンプリング手法を考案した。 提案する信頼区間が所望のカバレッジレベルに達し,パラメトリックな長さに達することを示す。 提案手法と関連する理論解析は,他の非正規あるいは非標準推論問題に対処する上で,独立した関心を持つ。 複数の環境下での酵母コロニーの成長に関する大規模シミュレーションと遺伝データを用いて提案手法を実証した。

The construction of generalizable and transferable models is a fundamental goal of statistical learning. Learning with the multi-source data helps improve model generalizability and is integral to many important statistical problems, including group distributionally robust optimization, minimax group fairness, and maximin projection. This paper considers multiple high-dimensional regression models for the multi-source data. We introduce the covariate shift maximin effect as a group distributionally robust model. This robust model helps transfer the information from the multi-source data to the unlabelled target population. Statistical inference for the covariate shift maximin effect is challenging since its point estimator may have a non-standard limiting distribution. We devise a novel {\it DenseNet} sampling method to construct valid confidence intervals for the high-dimensional maximin effect. We show that our proposed confidence interval achieves the desired coverage level and attains a parametric length. Our proposed DenseNet sampling method and the related theoretical analysis are of independent interest in addressing other non-regular or non-standard inference problems. We demonstrate the proposed method over a large-scale simulation and genetic data on yeast colony growth under multiple environments.
翻訳日:2022-09-25 07:40:38 公開日:2022-02-16
# 複素値アイリス認識ネットワーク

Complex-valued Iris Recognition Network ( http://arxiv.org/abs/2011.11198v4 )

ライセンス: Link先を確認
Kien Nguyen, Clinton Fookes, Sridha Sridharan, Arun Ross(参考訳) 本研究では,虹彩認識のタスクのために,完全に複雑な値を持つニューラルネットワークを設計する。 実数値ニューラルネットワークを用いて関連する特徴を抽出する一般的な物体認識問題とは異なり、虹彩認識はその生体的内容をよりよく表現するために、入力虹彩テクスチャから位相情報と大きさ情報の抽出に依存する。 これにより、実数値ニューラルネットワークで効果的に処理できない相情報の抽出と処理が必要とされる。 そこで我々は,アイリステクスチャのマルチスケール,マルチレゾリューション,マルチオリエンテーションフェーズ,振幅特性をよりよく捉えることができる,完全複素数値ニューラルネットワークを設計する。 提案手法は,従来のIrisCodeを生成するために使用されるGaborウェーブレットと,複雑な値付きアイリス認識ネットワークの強い対応性を示すが,提案手法はアイリス認識に適した,複雑な値付き特徴学習の新たな機能を実現する。 我々は,3つのベンチマークデータセットであるND-CrossSensor-2013,CASIA-Iris-Thousand,UBIRIS.v2で実験を行い,アイリス認識のためのネットワークの利点を示す。 本研究では,複雑値ネットワークと標準実数値ネットワークを比較して,アイリステクスチャから根本的に異なる特徴を抽出するための可視化手法を提案する。

In this work, we design a fully complex-valued neural network for the task of iris recognition. Unlike the problem of general object recognition, where real-valued neural networks can be used to extract pertinent features, iris recognition depends on the extraction of both phase and magnitude information from the input iris texture in order to better represent its biometric content. This necessitates the extraction and processing of phase information that cannot be effectively handled by a real-valued neural network. In this regard, we design a fully complex-valued neural network that can better capture the multi-scale, multi-resolution, and multi-orientation phase and amplitude features of the iris texture. We show a strong correspondence of the proposed complex-valued iris recognition network with Gabor wavelets that are used to generate the classical IrisCode; however, the proposed method enables a new capability of automatic complex-valued feature learning that is tailored for iris recognition. We conduct experiments on three benchmark datasets - ND-CrossSensor-2013, CASIA-Iris-Thousand and UBIRIS.v2 - and show the benefit of the proposed network for the task of iris recognition. We exploit visualization schemes to convey how the complex-valued network, when compared to standard real-valued networks, extracts fundamentally different features from the iris texture.
翻訳日:2022-09-22 02:10:31 公開日:2022-02-16
# MSCET: バイオメディカルデータ処理のためのマルチシナリオオフロードスケジュールと,クラウド-エッジ-エッジ-端末協調車両ネットワークにおける解析

MSCET: A Multi-Scenario Offloading Schedule for Biomedical Data Processing and Analysis in Cloud-Edge-Terminal Collaborative Vehicular Networks ( http://arxiv.org/abs/2203.07999v1 )

ライセンス: Link先を確認
Zhichen Ni, Honglong Chen, Zhe Li, Xiaomeng Wang, Na Yan, Weifeng Liu, Feng Xia(参考訳) 人工知能(AI)とIoT(Internet of Things)の急速な発展に伴い、車内で計算集約的あるいは遅延に敏感なバイオメディカルデータ処理と分析タスクが生産され、ドライバーの生体計測監視にますます課題が生じる。 エッジコンピューティングは、リソース制限された車両から道路側ユニット(rsus)のエッジサーバ(ess)にタスクをオフロードすることで、これらの課題を解決する新しいパラダイムである。 しかしながら、従来の車載ネットワークのオフロードスケジュールのほとんどはエッジに集中しているが、ESが処理するには複雑すぎるタスクもある。 そこで本研究では, クラウドとエッジと端末が協調して作業を実現するための協調型車両ネットワークについて考察する。 車両は計算集約的なタスクをクラウドにオフロードすることで、エッジのリソースを節約できる。 複数ESのリソースを複数のRASでカバーできるため,複数のESのリソースを統合する仮想リソースプールをさらに構築する。 本稿では,mscetと呼ばれるクラウド・エッジ・エッジ協調型車両ネットワークにおける生物医学的データ処理と解析のためのマルチスセナリオオフロードスケジュールを提案する。 提案したMSCETのパラメータはシステムの有用性を最大化するために最適化される。 また,提案したMSCETを評価し,MSCETが既存のスケジュールより優れていることを示す。

With the rapid development of Artificial Intelligence (AI) and Internet of Things (IoTs), an increasing number of computation intensive or delay sensitive biomedical data processing and analysis tasks are produced in vehicles, bringing more and more challenges to the biometric monitoring of drivers. Edge computing is a new paradigm to solve these challenges by offloading tasks from the resource-limited vehicles to Edge Servers (ESs) in Road Side Units (RSUs). However, most of the traditional offloading schedules for vehicular networks concentrate on the edge, while some tasks may be too complex for ESs to process. To this end, we consider a collaborative vehicular network in which the cloud, edge and terminal can cooperate with each other to accomplish the tasks. The vehicles can offload the computation intensive tasks to the cloud to save the resource of edge. We further construct the virtual resource pool which can integrate the resource of multiple ESs since some regions may be covered by multiple RSUs. In this paper, we propose a Multi-Scenario offloading schedule for biomedical data processing and analysis in Cloud-Edge-Terminal collaborative vehicular networks called MSCET. The parameters of the proposed MSCET are optimized to maximize the system utility. We also conduct extensive simulations to evaluate the proposed MSCET and the results illustrate that MSCET outperforms other existing schedules.
翻訳日:2022-03-20 23:08:05 公開日:2022-02-16
# 信頼できるデータ: AIは答えか?

Trusted Data Forever: Is AI the Answer? ( http://arxiv.org/abs/2203.03712v1 )

ライセンス: Link先を確認
Emanuele Frontoni, Marina Paolanti, Tracey P. Lauriault, Michael Stiber, Luciana Duranti, Abdul-Mageed Muhammad(参考訳) 世界中のアーカイブ機関やプログラムは、政府、組織、コミュニティ、個人の記録が、将来の世代を文化遺産として、権利の源として、そして過去の責任を負い、未来を知らせるための手段として保存されることを保証するために活動している。 このコミットメントは、あらゆる媒体や形態(テキスト、ビジュアル、オーラル)におけるデジタル資産の長期保存のための戦略的および技術的措置の採用によって保証される。 パブリックアーカイブとプライベートアーカイブは、世界最大かつ小規模のデータプロバイダであり、信頼性の高いデータをまとめてホストし、永久に保存する。 維持と保存、配置と記述、管理と管理、アクセスと使用に関するいくつかの側面は、まだ改善の余地がある。 特に、人工知能(AI)の最近の進歩は、AIが信頼できる公開レコードの継続的な可用性とアクセシビリティをサポートすることができるかどうかに関する議論を開いている。 本稿では,(1)重要な記録やアーカイブの課題に対処するための特定のAI技術を特定し,開発すること,(2)レコードやアーカイブにAI技術を採用することのメリットとリスクを決定すること,(3)アーカイブの概念と原則が責任あるAIの開発に寄与すること,(4)ケーススタディとデモのコングロマリットを通じて成果を検証することを目的とした,InterPARES Trust AI(I Trust AI)国際研究パートナーシップの予備的な成果を示す。

Archival institutions and programs worldwide work to ensure that the records of governments, organizations, communities, and individuals are preserved for future generations as cultural heritage, as sources of rights, and as vehicles for holding the past accountable and to inform the future. This commitment is guaranteed through the adoption of strategic and technical measures for the long-term preservation of digital assets in any medium and form - textual, visual, or aural. Public and private archives are the largest providers of data big and small in the world and collectively host yottabytes of trusted data, to be preserved forever. Several aspects of retention and preservation, arrangement and description, management and administrations, and access and use are still open to improvement. In particular, recent advances in Artificial Intelligence (AI) open the discussion as to whether AI can support the ongoing availability and accessibility of trustworthy public records. This paper presents preliminary results of the InterPARES Trust AI (I Trust AI) international research partnership, which aims to (1) identify and develop specific AI technologies to address critical records and archives challenges; (2) determine the benefits and risks of employing AI technologies on records and archives; (3) ensure that archival concepts and principles inform the development of responsible AI; and (4) validate outcomes through a conglomerate of case studies and demonstrations.
翻訳日:2022-03-13 14:01:45 公開日:2022-02-16
# etextbookを用いた学生インタラクションを用いた教室における生徒パフォーマンス予測モデル

A Predictive Model for Student Performance in Classrooms Using Student Interactions With an eTextbook ( http://arxiv.org/abs/2203.03713v1 )

ライセンス: Link先を確認
Ahmed Abd Elrahman, Taysir Hassan A Soliman, Ahmed I. Taloba, and Mohammed F. Farghally(参考訳) オンラインeテキストブックやmoocs(massive open online courses)の普及に伴い,学生の学習に関連する膨大なデータが収集されている。 このデータを慎重に分析することで、教育者は生徒のパフォーマンスと特定のトピックを学ぶ際の行動について有用な洞察を得ることができる。 本稿では,学生がインタラクティブなオンラインeTextbookとどのように相互作用するかの分析に基づいて,学生のパフォーマンスを予測する新しいモデルを提案する。 授業の早い段階で生徒の成績を予測することで、教育者は生徒のリスクを容易に識別し、適切な介入を行うことができる。 成績の良否の予測と最終試験成績の予測の2つの主課題を検討した。 提案モデルを構築するために,大規模公立大学において提供されるデータ構造とアルゴリズムコース(CS2)のデータに基づいて,最も一般的な分類と回帰アルゴリズムを評価した。 ランダムフォレスト回帰と多重線形回帰が回帰に適用されている。 ロジスティック回帰、決定木、ランダムフォレスト分類器、K近縁地区、サポートベクトルマシンが分類に応用されている。

With the rise of online eTextbooks and Massive Open Online Courses (MOOCs), a huge amount of data has been collected related to students' learning. With the careful analysis of this data, educators can gain useful insights into the performance of their students and their behavior in learning a particular topic. This paper proposes a new model for predicting student performance based on an analysis of how students interact with an interactive online eTextbook. By being able to predict students' performance early in the course, educators can easily identify students at risk and provide a suitable intervention. We considered two main issues the prediction of good/bad performance and the prediction of the final exam grade. To build the proposed model, we evaluated the most popular classification and regression algorithms on data from a data structures and algorithms course (CS2) offered in a large public research university. Random Forest Regression and Multiple Linear Regression have been applied in Regression. While Logistic Regression, decision tree, Random Forest Classifier, K Nearest Neighbors, and Support Vector Machine have been applied in classification.
翻訳日:2022-03-13 14:00:58 公開日:2022-02-16
# 解答文選択のための質問応答文グラフ

Question-Answer Sentence Graph for Joint Modeling Answer Selection ( http://arxiv.org/abs/2203.03549v1 )

ライセンス: Link先を確認
Roshni G. Iyer, Thuy Vu, Alessandro Moschitti, Yizhou Sun(参考訳) 本研究は,検索に基づく質問応答システム構築に不可欠な,回答文選択(AS2)に対するグラフベースのアプローチについて検討する。 質問に対して、我々のモデルはより正確なAS2を実行するために、小規模で関連するトレーニンググラフを作成します。 グラフのノードは質問と回答のペアであり、回答も文である。 質問応答,質問応答,回答応答のペア間のスコアの計算に最先端モデルを訓練し,適用する。 ノード間のエッジを作成するための相関スコアにしきい値を適用する。 最後に、得られたグラフにグラフニューラルネットワークを適用し、AS2タスクを解くための共同学習と推論を行う。 2つの有名な学術ベンチマークと実世界のデータセットの実験は、我々のアプローチが常に最先端のモデルより優れていることを示している。

This research studies graph-based approaches for Answer Sentence Selection (AS2), an essential component for building retrieval-based Question Answering systems. Given a question, our model creates a small-scale relevant training graph to perform more accurate AS2. The nodes of the graphs are question-answer pairs, where the answers are also sentences. We train and apply state-of-the-art models for computing scores between question-question, question-answer, and answer-answer pairs. We apply thresholding to the relevance scores for creating edges between nodes. Finally, we apply Graph Neural Networks to the obtained graph to perform joint learning and inference for solving the AS2 task. The experiments on two well-known academic benchmarks and a real-world dataset show that our approach consistently outperforms state-of-the-art models.
翻訳日:2022-03-13 13:48:40 公開日:2022-02-16
# センサを用いた人間行動認識のための多視点核融合トランス

Multi-View Fusion Transformer for Sensor-Based Human Activity Recognition ( http://arxiv.org/abs/2202.12949v1 )

ライセンス: Link先を確認
Yimu Wang, Kun Yu, Yan Wang, Hui Xue(参考訳) ユビキタスコンピューティングと機械学習の根本的な問題として、センサベースの人間活動認識(HAR)が注目され、近年大きな進歩を遂げている。 harは加速度計やジャイロスコープなどのマルチモーダルセンサから収集された豊富な時系列データに基づいて、人間の活動を認識することを目指している。 しかし、近年の深層学習手法は、時間的視点(temporal view)というデータの1つの視点に焦点を絞っている一方、浅層学習法は、例えば統計的視点(statistic view)のような手工芸的特徴を利用する傾向がある。 本稿では,性能向上のための優れた特徴を抽出するため,新しいアテンション機構とともに,MVFT(Multi-view fusion transformer)と呼ばれる新しい手法を提案する。 まず、MVFTは3つの情報、すなわち時間的、頻繁、統計的なビューをエンコードしてマルチビューの特徴を生成する。 第二に、新しい注意機構は、詳細な関係モデリングのための3つのビュー間の相互相互作用を触媒する内的および横断的な手がかりを明らかにする。 さらに、2つのデータセットに関する広範な実験では、いくつかの最先端の方法よりも優れた方法が示されている。

As a fundamental problem in ubiquitous computing and machine learning, sensor-based human activity recognition (HAR) has drawn extensive attention and made great progress in recent years. HAR aims to recognize human activities based on the availability of rich time-series data collected from multi-modal sensors such as accelerometers and gyroscopes. However, recent deep learning methods are focusing on one view of the data, i.e., the temporal view, while shallow methods tend to utilize the hand-craft features for recognition, e.g., the statistics view. In this paper, to extract a better feature for advancing the performance, we propose a novel method, namely multi-view fusion transformer (MVFT) along with a novel attention mechanism. First, MVFT encodes three views of information, i.e., the temporal, frequent, and statistical views to generate multi-view features. Second, the novel attention mechanism uncovers inner- and cross-view clues to catalyze mutual interactions between three views for detailed relation modeling. Moreover, extensive experiments on two datasets illustrate the superiority of our methods over several state-of-the-art methods.
翻訳日:2022-03-06 13:13:36 公開日:2022-02-16
# (参考訳) 無線ネットワークにおけるオンライン学習アルゴリズムの改良のためのサイド情報公開

Exploiting Side Information for Improved Online Learning Algorithms in Wireless Networks ( http://arxiv.org/abs/2202.11699v1 )

ライセンス: CC BY 4.0
Manjesh K. Hanawal and Sumit J. Darak(参考訳) 無線ネットワークでは、その速度は干渉のレベル、ハードウェアの障害、チャネル利得などの要因に依存する。 多くの場合、これらの要因の瞬時に値を測定することができ、達成した瞬間率に関する有用な情報を提供する。 例えば、高い干渉は低いレートを意味する。 本研究では,サイドインフォメーションとして達成された速度と非ゼロ相関を持つ測定可能な品質を扱い,高いスループット(リワード)を提供するチャネルを迅速に学習する方法について検討する。 側情報の平均値が分かっている場合、制御変数理論を用いて、パラメータの学習に必要なサンプルが少ないアルゴリズムを開発し、側情報を無視した場合と比較して学習率を向上させる。 具体的には,古典的なuper confidence bound(ucb)アルゴリズムにサイド情報を取り込んで,後悔のパフォーマンスで得られた利益を定量化する。 その結果,ゲインは報酬と関連するサイド情報との相関の量に比例することがわかった。 我々は,l-$bandでコグニティブ無線や空対地通信で活用できる様々なサイド情報について詳細に論じる。 また,報奨とサイド情報との相関が強く,その利用によってスループットが著しく向上することを示す。

In wireless networks, the rate achieved depends on factors like level of interference, hardware impairments, and channel gain. Often, instantaneous values of some of these factors can be measured, and they provide useful information about the instantaneous rate achieved. For example, higher interference implies a lower rate. In this work, we treat any such measurable quality that has a non-zero correlation with the rate achieved as side-information and study how it can be exploited to quickly learn the channel that offers higher throughput (reward). When the mean value of the side-information is known, using control variate theory we develop algorithms that require fewer samples to learn the parameters and can improve the learning rate compared to cases where side-information is ignored. Specifically, we incorporate side-information in the classical Upper Confidence Bound (UCB) algorithm and quantify the gain achieved in the regret performance. We show that the gain is proportional to the amount of the correlation between the reward and associated side-information. We discuss in detail various side-information that can be exploited in cognitive radio and air-to-ground communication in $L-$band. We demonstrate that correlation between the reward and side-information is often strong in practice and exploiting it improves the throughput significantly.
翻訳日:2022-02-27 20:34:47 公開日:2022-02-16
# (参考訳) 画像データによる脳疾患のサブタイプ

Subtyping brain diseases from imaging data ( http://arxiv.org/abs/2202.10945v1 )

ライセンス: CC BY 4.0
Junhao Wen, Erdem Varol, Zhijian Yang, Gyujoon Hwang, Dominique Dwyer, Anahita Fathi Kazerooni, Paris Alexandros Lalousis, Christos Davatzikos(参考訳) イメージングコミュニティは、病気の診断、予後、治療に対する反応に関連する個別化された画像署名を提供するために、機械学習(ML)メソッドをますます採用している。 臨床神経科学と癌画像学は、MLが特に約束している2つの領域である。 しかし、多くの神経学的・神経精神医学的疾患は、がんと同様に、臨床症状、神経解剖学的パターン、遺伝的基盤の点で異種であることが多い。 したがって、そのような場合、単一疾患の徴候を求めることは、個別の精度診断を行うのに効果がない可能性がある。 本章では、画像データを用いた疾患サブタイプを求めるml手法、特に半教師付きクラスタリングに焦点を当てる。 アルツハイマー病とその予防段階、精神病、うつ病、自閉症、脳がんの研究について論じる。 私たちの目標は、方法論と臨床応用の観点から、読者に幅広い概要を提供することです。

The imaging community has increasingly adopted machine learning (ML) methods to provide individualized imaging signatures related to disease diagnosis, prognosis, and response to treatment. Clinical neuroscience and cancer imaging have been two areas in which ML has offered particular promise. However, many neurologic and neuropsychiatric diseases, as well as cancer, are often heterogeneous in terms of their clinical manifestations, neuroanatomical patterns or genetic underpinnings. Therefore, in such cases, seeking a single disease signature might be ineffectual in delivering individualized precision diagnostics. The current chapter focuses on ML methods, especially semi-supervised clustering, that seek disease subtypes using imaging data. Work from Alzheimer Disease and its prodromal stages, psychosis, depression, autism, and brain cancer are discussed. Our goal is to provide the readers with a broad overview in terms of methodology and clinical applications.
翻訳日:2022-02-27 20:11:36 公開日:2022-02-16
# (参考訳) 観察的ポストプライスデータを用いたコンテクスト価格の凸損失関数

Convex Loss Functions for Contextual Pricing with Observational Posted-Price Data ( http://arxiv.org/abs/2202.10944v1 )

ライセンス: CC BY 4.0
Max Biggs(参考訳) 本研究は,顧客がこれまで提供していた価格,購入した価格,および販売されている顧客や商品を記述した補助的な特徴のサンプルを,売り手がアクセス可能なオフ・ポリティカル・コンテクスト価格問題について検討する。 これは、顧客の評価(支払い意欲)のサンプルが観察されるよく検討された設定とは対照的である。 我々の設定では、観測されたデータは歴史的価格政策の影響を受けており、顧客が代替価格にどう反応したかは分かっていません。 中間需要関数を見積もる必要なしに、売上保証を期待する効果的な価格設定を、直接最適化することが可能な価格設定に適した損失関数を導入する。 凸損失関数に焦点を当てる。 これは、解釈可能性の理由から線形価格政策が望ましい場合に特に重要であり、扱いやすい凸収益最適化問題を引き起こす。 さらに,条件付き期待値の乗算係数や最適化時の評価分布の特定の量子化率の価格が,評価データが観測されていないにもかかわらず,一般化されたヒンジおよび量子化価格損失関数を提案する。 我々は,評価分布がログコンケーブである場合,これら価格政策の期待収益限界をそれぞれ証明し,有限サンプルケースに対して一般化境界を与える。 最後に、合成データと実世界のデータの両方でシミュレーションを行い、このアプローチがコンテクスト価格において最先端の手法と競合することを実証する。

We study an off-policy contextual pricing problem where the seller has access to samples of prices which customers were previously offered, whether they purchased at that price, and auxiliary features describing the customer and/or item being sold. This is in contrast to the well-studied setting in which samples of the customer's valuation (willingness to pay) are observed. In our setting, the observed data is influenced by the historic pricing policy, and we do not know how customers would have responded to alternative prices. We introduce suitable loss functions for this pricing setting which can be directly optimized to find an effective pricing policy with expected revenue guarantees without the need for estimation of an intermediate demand function. We focus on convex loss functions. This is particularly relevant when linear pricing policies are desired for interpretability reasons, resulting in a tractable convex revenue optimization problem. We further propose generalized hinge and quantile pricing loss functions, which price at a multiplicative factor of the conditional expected value or a particular quantile of the valuation distribution when optimized, despite the valuation data not being observed. We prove expected revenue bounds for these pricing policies respectively when the valuation distribution is log-concave, and provide generalization bounds for the finite sample case. Finally, we conduct simulations on both synthetic and real-world data to demonstrate that this approach is competitive with, and in some settings outperforms, state-of-the-art methods in contextual pricing.
翻訳日:2022-02-27 19:43:25 公開日:2022-02-16
# コンテキスト対応映画レコメンデーションのためのエッジデータに基づくトレーサ開始確率行列分解

Edge Data Based Trailer Inception Probabilistic Matrix Factorization for Context-Aware Movie Recommendation ( http://arxiv.org/abs/2202.10236v1 )

ライセンス: Link先を確認
Honglong Chen, Zhe Li, Zhu Wang, Zhichen Ni, Junjian Li, Ge Xu, Abdul Aziz, Feng Xia(参考訳) ネットワークのエッジにデプロイされるモバイルデバイスやアプリケーションが生成するエッジデータの急速な増加は、情報過負荷の問題を悪化させている。 情報過負荷を軽減する効果的な方法として,視覚情報やテキスト情報などのエッジデバイス上でユーザが生成するアプリケーションデータを疎評価データに基づいて付加することにより,各種サービスの質を向上させることができる。 映画の予告編の視覚情報は、映画のレコメンデーションシステムの重要な部分である。 しかし、視覚情報抽出の複雑さのため、粗い視覚特徴を用いて評価精度を向上させるだけでは、データの空間性が著しく軽減できない。 幸いにも畳み込みニューラルネットワークは、視覚的な特徴を正確に抽出するために使用できる。 そのため、フィルムトレーラーの視覚的特徴を記述したテキスト情報を得るために、エンドツーエンドのニューラルイメージキャプション(NIC)モデルを利用することができる。 本稿では,tic,recurrent convolutional neural network,probabilistic matrix factorizationモデルを評価予測モデルとして組み合わせた,ti-pmfと呼ばれるトレーラインセプション確率行列因子化モデルを提案する。 提案したTi-PMFモデルを実世界の3つのデータセットに対して広範な実験を行い,その有効性を検証した。 実験の結果,提案したTi-PMFは既存のものよりも優れていた。

The rapid growth of edge data generated by mobile devices and applications deployed at the edge of the network has exacerbated the problem of information overload. As an effective way to alleviate information overload, recommender system can improve the quality of various services by adding application data generated by users on edge devices, such as visual and textual information, on the basis of sparse rating data. The visual information in the movie trailer is a significant part of the movie recommender system. However, due to the complexity of visual information extraction, data sparsity cannot be remarkably alleviated by merely using the rough visual features to improve the rating prediction accuracy. Fortunately, the convolutional neural network can be used to extract the visual features precisely. Therefore, the end-to-end neural image caption (NIC) model can be utilized to obtain the textual information describing the visual features of movie trailers. This paper proposes a trailer inception probabilistic matrix factorization model called Ti-PMF, which combines NIC, recurrent convolutional neural network, and probabilistic matrix factorization models as the rating prediction model. We implement the proposed Ti-PMF model with extensive experiments on three real-world datasets to validate its effectiveness. The experimental results illustrate that the proposed Ti-PMF outperforms the existing ones.
翻訳日:2022-02-27 17:42:41 公開日:2022-02-16
# VRConvMF:映画レコメンデーションのためのビジュアルリカレント畳み込み行列分解

VRConvMF: Visual Recurrent Convolutional Matrix Factorization for Movie Recommendation ( http://arxiv.org/abs/2202.10241v1 )

ライセンス: Link先を確認
Zhu Wang, Honglong Chen, Zhe Li, Kai Lin, Nan Jiang, Feng Xia(参考訳) ユーザ毎のレーティングデータのスパーシティは,レコメンデータシステムにおける課題の1つとなり,レコメンデーション性能が著しく低下する。 幸いなことに、コンテキスト対応レコメンデータシステムは、ユーザとアイテムの両方の情報などの補助情報を利用することで、空間問題を緩和することができる。 特に、映画のポスターなどの項目の視覚的情報は、項目記述文書の補足と見なすことができ、より多くの項目の特徴を得るのに役立つ。 本稿では,映画レコメンデータシステムに着目し,記述テキストとポスターから抽出したテキスト的特徴と多レベル視覚特徴をそれぞれ活用した,ビジュアルリカレント畳み込み行列因子化(vrconvmf)と呼ばれる確率的行列因子化に基づくレコメンデーションスキームを提案する。 提案するvrconvmfを実装し,一般的に使用される3つの実世界データセットについて広範な実験を行い,その効果を検証する。 実験の結果,提案したVRConvMFは既存のスキームよりも優れていた。

Sparsity of user-to-item rating data becomes one of challenging issues in the recommender systems, which severely deteriorates the recommendation performance. Fortunately, context-aware recommender systems can alleviate the sparsity problem by making use of some auxiliary information, such as the information of both the users and items. In particular, the visual information of items, such as the movie poster, can be considered as the supplement for item description documents, which helps to obtain more item features. In this paper, we focus on movie recommender system and propose a probabilistic matrix factorization based recommendation scheme called visual recurrent convolutional matrix factorization (VRConvMF), which utilizes the textual and multi-level visual features extracted from the descriptive texts and posters respectively. We implement the proposed VRConvMF and conduct extensive experiments on three commonly used real world datasets to validate its effectiveness. The experimental results illustrate that the proposed VRConvMF outperforms the existing schemes.
翻訳日:2022-02-27 17:42:19 公開日:2022-02-16
# アドホックチームワークに関する調査:定義,方法,オープンな問題

A Survey of Ad Hoc Teamwork: Definitions, Methods, and Open Problems ( http://arxiv.org/abs/2202.10450v1 )

ライセンス: Link先を確認
Reuth Mirsky and Ignacio Carlucho and Arrasy Rahman and Elliot Fosong and William Macke and Mohan Sridharan and Peter Stone and Stefano V. Albrecht(参考訳) アドホックなチームワークは、事前調整なしに新しいチームメイトとコラボレーションできるエージェントを設計する上で、十分に確立された研究課題である。 この調査は2倍の貢献をする。 まず、アドホックなチームワーク問題の異なる側面に関する構造化された記述を提供する。 第二に、これまでこの分野で行われてきた進歩について論じ、アドホックなチームワークの分野で対処する必要がある、即時かつ長期的なオープンな問題を特定します。

Ad hoc teamwork is the well-established research problem of designing agents that can collaborate with new teammates without prior coordination. This survey makes a two-fold contribution. First, it provides a structured description of the different facets of the ad hoc teamwork problem. Second, it discusses the progress that has been made in the field so far, and identifies the immediate and long-term open problems that need to be addressed in the field of ad hoc teamwork.
翻訳日:2022-02-27 17:41:59 公開日:2022-02-16
# レスリートプレーヤーと対戦する

Playing against no-regret players ( http://arxiv.org/abs/2202.09364v1 )

ライセンス: Link先を確認
Maurizio D 'Andrea (ANITI, TSE)(参考訳) 異なる状況下では、人間プレイヤーは意思決定アルゴリズムに従って意思決定を行う人工プレイヤーと対話しなければならない。 人間のプレイヤーは、このアルゴリズムを最大限に活用するにはどうすればよいのか? 1人以上の人工プレイヤーと向き合えば、何か変わりますか? 論文の主な目的は、この2つの質問に答えることである。 人間のプレイヤーオプティマイザ (human player optimizer) と (n -- 1) 人工プレイヤー (artificial players)、学習者 (learningers) と呼ぶ、通常の形式のnプレイヤーゲームが繰り返し繰り返される。 学習者は、オンライン学習や意思決定で広く使われているアルゴリズムのクラスであるノンレグレットアルゴリズムをプレイすると仮定する。 これらのゲームでは、スタックルバーグ均衡の概念を考える。 最近の論文で、deng、schneider、sivanは、2人のプレイヤーゲームにおいて、オプティマイザは、少なくとも1ラウンド当たりのstackelberg値の期待累積効能を常に保証できることを示した。 最初の結果から,オプティマイザが複数のプレイヤーと向き合わなければならない場合,この結果はもはや真実ではないことを示す。 したがって、相関したスタックルバーグ均衡の概念を導入したスタックルバーグ均衡の定義を一般化する。 最後に,主結果として,オプティマイザが少なくとも1ラウンド当たりの相関付きstackelberg値を保証することを証明した。 さらに,大数の強法則のバージョンを用いて,オプティマイザの期待するユーティリティではなく,オプティマイザユーティリティについてもほぼ確実に結果が成り立つことを示す。

In increasingly different contexts, it happens that a human player has to interact with artificial players who make decisions following decision-making algorithms. How should the human player play against these algorithms to maximize his utility? Does anything change if he faces one or more artificial players? The main goal of the paper is to answer these two questions. Consider n-player games in normal form repeated over time, where we call the human player optimizer, and the (n -- 1) artificial players, learners. We assume that learners play no-regret algorithms, a class of algorithms widely used in online learning and decision-making. In these games, we consider the concept of Stackelberg equilibrium. In a recent paper, Deng, Schneider, and Sivan have shown that in a 2-player game the optimizer can always guarantee an expected cumulative utility of at least the Stackelberg value per round. In our first result, we show, with counterexamples, that this result is no longer true if the optimizer has to face more than one player. Therefore, we generalize the definition of Stackelberg equilibrium introducing the concept of correlated Stackelberg equilibrium. Finally, in the main result, we prove that the optimizer can guarantee at least the correlated Stackelberg value per round. Moreover, using a version of the strong law of large numbers, we show that our result is also true almost surely for the optimizer utility instead of the optimizer's expected utility.
翻訳日:2022-02-27 17:41:36 公開日:2022-02-16
# (参考訳) 医用画像解析における臨床説明可能なAIのガイドラインと評価

Guidelines and evaluation for clinical explainable AI on medical image analysis ( http://arxiv.org/abs/2202.10553v1 )

ライセンス: CC BY 4.0
Weina Jin, Xiaoxiao Li, Mostafa Fatehi, Ghassan Hamarneh(参考訳) 説明可能な人工知能(XAI)は、臨床ユーザーがAIから情報提供を受け、エビデンスベースの医療実践に従えるようにするために不可欠である。 臨床環境でのXAIの適用には、説明技法が技術的に健全かつ臨床的に有用であることを保証するための適切な評価基準が必要であるが、この目標を達成するには特定の支援が欠如している。 研究ギャップを埋めるため,我々は臨床xaiを最適化する必要がある5つの基準からなる臨床xaiガイドラインを提案する。 ガイドラインは、ガイドライン1(g1)の理解性とg2の臨床関連性に基づいて説明フォームを選択することを推奨する。 選択された説明形式では、その特定のXAI技術は、G3の真性、G4のインフォーマルな可算性、G5の計算効率に最適化されるべきである。 ガイドラインに従い, 2つの臨床課題を伴い, マルチモーダル医用画像解析の新たな問題点を体系的に評価し, 新しい評価指標を提案した。 評価された16個のヒートマップxai技術は, \textbf{g3} と \textbf{g4} の故障により臨床応用には適していない。 本評価は,臨床応用可能なxaiの設計と評価を支援するための臨床xaiガイドラインの使用を実証した。

Explainable artificial intelligence (XAI) is essential for enabling clinical users to get informed decision support from AI and comply with evidence-based medical practice. Applying XAI in clinical settings requires proper evaluation criteria to ensure the explanation technique is both technically sound and clinically useful, but specific support is lacking to achieve this goal. To bridge the research gap, we propose the Clinical XAI Guidelines that consist of five criteria a clinical XAI needs to be optimized for. The guidelines recommend choosing an explanation form based on Guideline 1 (G1) Understandability and G2 Clinical relevance. For the chosen explanation form, its specific XAI technique should be optimized for G3 Truthfulness, G4 Informative plausibility, and G5 Computational efficiency. Following the guidelines, we conducted a systematic evaluation on a novel problem of multi-modal medical image explanation with two clinical tasks, and proposed new evaluation metrics accordingly. The evaluated 16 commonly-used heatmap XAI techniques were not suitable for clinical use due to their failure in \textbf{G3} and \textbf{G4}. Our evaluation demonstrated the use of Clinical XAI Guidelines to support the design and evaluation for clinically viable XAI.
翻訳日:2022-02-27 17:33:27 公開日:2022-02-16
# 高解像度衛星画像における物体検出のためのアンサンブル学習技術

Ensemble Learning techniques for object detection in high-resolution satellite images ( http://arxiv.org/abs/2202.10554v1 )

ライセンス: Link先を確認
Arthur Vilhelm, Matthieu Limbert, Cl\'ement Audebert, Tugdual Ceillier(参考訳) 組立は個々の検出器を融合させて検出性能を最大化する手法である。 リモートセンシングに適用されたディープラーニングの記事ではほとんど言及されていないが、kaggleのような最近のデータサイエンスのcom-petitionsでハイスコアを達成するためにセンシング手法が広く使われている。 The few remote sensing articles mentioning ensembling mainly focus on mid resolution images and earth observation applications such as land use classification, but never on Very High Resolution (VHR) images for defense-related applications or object detection.This study aims at reviewing the most relevant ensembling techniques to be used for object detection on very high resolution imagery and shows an example of the value of such techniques on a relevant operational use-case (vehicle detection in desert areas).

Ensembling is a method that aims to maximize the detection performance by fusing individual detectors. While rarely mentioned in deep-learning articles applied to remote sensing, ensembling methods have been widely used to achieve high scores in recent data science com-petitions, such as Kaggle. The few remote sensing articles mentioning ensembling mainly focus on mid resolution images and earth observation applications such as land use classification, but never on Very High Resolution (VHR) images for defense-related applications or object detection.This study aims at reviewing the most relevant ensembling techniques to be used for object detection on very high resolution imagery and shows an example of the value of such techniques on a relevant operational use-case (vehicle detection in desert areas).
翻訳日:2022-02-27 17:00:52 公開日:2022-02-16
# (参考訳) 構造経済学における公正制約と機器変数を用いた公正推定への応用

Fairness constraint in Structural Econometrics and Application to fair estimation using Instrumental Variables ( http://arxiv.org/abs/2202.08977v1 )

ライセンス: CC BY 4.0
Samuele Centorrino and Jean-Pierre Florens and Jean-Michel Loubes(参考訳) 教師付き機械学習アルゴリズムは、新しい観測を予測するために使用される学習サンプルからモデルを決定する。 この目的のために、学習サンプルの観察の個々の特性を集約する。 しかし、この情報集約は、観測不能な場合の潜在的な選択や、トレーニングサンプルに含まれる可能性のある状態-キューバイアスは考慮していない。 後者のバイアスは、機械学習アルゴリズムのいわゆる \textit{fairness}、特に不利なグループに対する懸念を提起している。 本章では,未知指数が関数方程式の解であり,内在性の問題が明確に説明される構造的計量学モデルのレンズを通して,機械学習における公平性の問題について検討する。 我々はフェアネスを、厳密な {\it fair} 指数の集合を含むヌル空間を持つ線型作用素としてモデル化する。 この作用素の null 空間に制約のない指数を射影するか、あるいは函数方程式の最も近い解をこの null 空間へ直接見つけ出すことによって、 {\displaystyle {\it fair} 解が得られる。 我々はまた、政策立案者が現状から離れる際にコストが発生する可能性があることを認めている。 学習手順にフェアネスペナルティを導入し、ステータスクオとフルフェアソリューションの間の影響を多かれ少なかれ大きくバランスさせることにより、「textit{approximate fairness}」を得る。

A supervised machine learning algorithm determines a model from a learning sample that will be used to predict new observations. To this end, it aggregates individual characteristics of the observations of the learning sample. But this information aggregation does not consider any potential selection on unobservables and any status-quo biases which may be contained in the training sample. The latter bias has raised concerns around the so-called \textit{fairness} of machine learning algorithms, especially towards disadvantaged groups. In this chapter, we review the issue of fairness in machine learning through the lenses of structural econometrics models in which the unknown index is the solution of a functional equation and issues of endogeneity are explicitly accounted for. We model fairness as a linear operator whose null space contains the set of strictly {\it fair} indexes. A {\it fair} solution is obtained by projecting the unconstrained index into the null space of this operator or by directly finding the closest solution of the functional equation into this null space. We also acknowledge that policymakers may incur a cost when moving away from the status quo. Achieving \textit{approximate fairness} is obtained by introducing a fairness penalty in the learning procedure and balancing more or less heavily the influence between the status quo and a full fair solution.
翻訳日:2022-02-22 02:03:12 公開日:2022-02-16
# (参考訳) Cyclical Focal Loss

Cyclical Focal Loss ( http://arxiv.org/abs/2202.08978v1 )

ライセンス: CC BY 4.0
Leslie N. Smith(参考訳) クロスエントロピーのソフトマックス損失は、ディープニューラルネットワークのトレーニングに使用される一次損失関数である。 一方、焦点損失関数は、長い尾のデータセットのような各クラスにおけるトレーニングサンプルの数に不均衡がある場合に、性能を向上させることが示されている。 本稿では,新しい循環型焦点損失を導入し,クロスエントロピーソフトマックス損失や焦点損失よりも普遍的な損失関数であることを示す。 周期的焦点損失の背景にある直観を述べるとともに,循環的焦点損失がバランスのとれた,不均衡な,あるいはロングテールのデータセットに優れたパフォーマンスをもたらすことを示す。 我々は, CIFAR-10/CIFAR-100, ImageNet, バランスとバランスのとれた4000種類のCIFAR-10/CIFAR-100のトレーニングサンプルバージョンと, Open Long-Tailed Recognition (OLTR)チャレンジからのImageNet-LTおよびPlaces-LTに対して, 多数の実験結果を提供した。 循環的焦点損失関数を実装するには、ほんの数行のコードだけで、トレーニング時間を増やしない。 再現性の精神では、私たちのコードは \url{https://github.com/lnsmith54/CFL} で利用可能です。

The cross-entropy softmax loss is the primary loss function used to train deep neural networks. On the other hand, the focal loss function has been demonstrated to provide improved performance when there is an imbalance in the number of training samples in each class, such as in long-tailed datasets. In this paper, we introduce a novel cyclical focal loss and demonstrate that it is a more universal loss function than cross-entropy softmax loss or focal loss. We describe the intuition behind the cyclical focal loss and our experiments provide evidence that cyclical focal loss provides superior performance for balanced, imbalanced, or long-tailed datasets. We provide numerous experimental results for CIFAR-10/CIFAR-100, ImageNet, balanced and imbalanced 4,000 training sample versions of CIFAR-10/CIFAR-100, and ImageNet-LT and Places-LT from the Open Long-Tailed Recognition (OLTR) challenge. Implementing the cyclical focal loss function requires only a few lines of code and does not increase training time. In the spirit of reproducibility, our code is available at \url{https://github.com/lnsmith54/CFL}.
翻訳日:2022-02-22 01:08:21 公開日:2022-02-16
# 耐故障飛行制御のためのソフトアクター・クリティカル深部強化学習

Soft Actor-Critic Deep Reinforcement Learning for Fault Tolerant Flight Control ( http://arxiv.org/abs/2202.09262v1 )

ライセンス: Link先を確認
Killian Dally, Erik-Jan van Kampen(参考訳) 予期せぬ障害毎にモデルベースのコントローラを開発することは非現実的であり、オンライン学習手法はサンプル効率が低いため、システムの複雑さを制限できる。 本研究では,複数の故障タイプに耐えられるジェット機用モデルフリー結合力学飛行制御装置を提案する。 オフラインで訓練されたソフトアクタ-クリティック深層強化学習コントローラは、正規化平均絶対誤差2.64%の40度バンククライミングターンを含む、高度に結合した操作で成功している。 制御器は、15デグでジャムされた舵、アイレロン効果を70%減少させ、応答が安定してクライミングターンが正常に完了すると、構造的故障、アイシング及び後方c.g.シフトを含む6つの故障事例に対して堅牢である。 また, バイアスセンサノイズ, 大気障害, 初期飛行条件および基準信号形状の変動に対するロバスト性も示された。

Fault-tolerant flight control faces challenges, as developing a model-based controller for each unexpected failure is unrealistic, and online learning methods can handle limited system complexity due to their low sample efficiency. In this research, a model-free coupled-dynamics flight controller for a jet aircraft able to withstand multiple failure types is proposed. An offline trained cascaded Soft Actor-Critic Deep Reinforcement Learning controller is successful on highly coupled maneuvers, including a coordinated 40 degree bank climbing turn with a normalized Mean Absolute Error of 2.64%. The controller is robust to six failure cases, including the rudder jammed at -15 deg, the aileron effectiveness reduced by 70%, a structural failure, icing and a backward c.g. shift as the response is stable and the climbing turn is completed successfully. Robustness to biased sensor noise, atmospheric disturbances, and to varying initial flight conditions and reference signal shapes is also demonstrated.
翻訳日:2022-02-21 14:52:30 公開日:2022-02-16
# 話者認識とBERTモデルからの伝達学習を用いたマルチモーダル感情認識

Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models ( http://arxiv.org/abs/2202.08974v1 )

ライセンス: Link先を確認
Sarala Padi, Seyed Omid Sadjadi, Dinesh Manocha and Ram D. Sriram(参考訳) 自動感情認識は、次世代の人工知能を感情的知性で豊かにする可能性を持つため、コンピュータと人間のインタラクションにおいて重要な役割を果たす。 コールセンター、ゲーム、パーソナルアシスタント、ソーシャルロボットにおける顧客および/または代表的行動分析の応用例をいくつか挙げる。 そのため,様々な感情を分析し認識するためのロバストな自動手法の開発が求められている。 本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。 より具体的には 一 伝達学習を用いた大規模話者認識タスクを訓練した残差ネットワーク(ResNet)モデル及び音声からの感情認識のためのスペクトログラム増強アプローチを適用すること。 二 変換器(BERT)ベースのモデルからの微調整された双方向エンコーダ表現を用いて、テキストから感情を表現し、認識する。 提案システムは,ResNetとBERTをベースとしたモデルスコアを,後期融合戦略を用いて組み合わせ,感情認識性能をさらに向上させる。 提案するマルチモーダルソリューションは、伝達学習、データ拡張、微調整を用いて感情認識におけるデータ不足を解消し、感情認識モデルの一般化性能を向上させる。 本研究では,対話型感情的動的モーションキャプチャー(IEMOCAP)データセットに対するマルチモーダルアプローチの有効性を評価する。 実験結果から, 音声モデルとテキストモデルの両方で感情認識性能が向上し, 提案したマルチモーダル・ソリューションがIEMOCAPベンチマークの最先端結果を達成することが示された。

Automatic emotion recognition plays a key role in computer-human interaction as it has the potential to enrich the next-generation artificial intelligence with emotional intelligence. It finds applications in customer and/or representative behavior analysis in call centers, gaming, personal assistants, and social robots, to mention a few. Therefore, there has been an increasing demand to develop robust automatic methods to analyze and recognize the various emotions. In this paper, we propose a neural network-based emotion recognition framework that uses a late fusion of transfer-learned and fine-tuned models from speech and text modalities. More specifically, we i) adapt a residual network (ResNet) based model trained on a large-scale speaker recognition task using transfer learning along with a spectrogram augmentation approach to recognize emotions from speech, and ii) use a fine-tuned bidirectional encoder representations from transformers (BERT) based model to represent and recognize emotions from the text. The proposed system then combines the ResNet and BERT-based model scores using a late fusion strategy to further improve the emotion recognition performance. The proposed multimodal solution addresses the data scarcity limitation in emotion recognition using transfer learning, data augmentation, and fine-tuning, thereby improving the generalization performance of the emotion recognition models. We evaluate the effectiveness of our proposed multimodal approach on the interactive emotional dyadic motion capture (IEMOCAP) dataset. Experimental results indicate that both audio and text-based models improve the emotion recognition performance and that the proposed multimodal solution achieves state-of-the-art results on the IEMOCAP benchmark.
翻訳日:2022-02-21 14:52:10 公開日:2022-02-16
# AIレコメンデーションにおける人間信頼の定量化のための反応シフトパラダイム

The Response Shift Paradigm to Quantify Human Trust in AI Recommendations ( http://arxiv.org/abs/2202.08979v1 )

ライセンス: Link先を確認
Ali Shafti, Victoria Derks, Hannah Kay, A. Aldo Faisal(参考訳) 説明可能性、解釈可能性、そしてそれらがAIシステムにおける人間の信頼にどの程度影響するかは、究極的には機械学習と同じくらいの人間の認知の問題である。 我々は,AIレコメンデーションが人的決定に与える影響を定量化する汎用のヒューマン・AIインタラクション・パラダイムを開発し,検証した。 我々のパラダイムでは、人間のユーザに対して、最初の応答を尋ね、AIのレコメンデーション(と説明)と向き合う前に、人間のユーザに対して、最終応答を更新するように求めました。 最終応答と第一応答の違いは、AIが人間に推奨する影響の指標として使用する、AI上の信頼を表す人間の決定のシフトまたは揺れを構成する。 私たちはこのパラダイムをamazon mechanical turkを通じて数百人のユーザを対象に評価し、優れた、貧弱な、あるいは説明のできないaiシステムを持つユーザと対決するマルチブランチ実験を実施しました。 我々の実証・実証パラダイムは、急速に成長するXAI/IAIアプローチをエンドユーザーへの影響の観点から定量的に比較し、(機械)学習信頼の可能性を高める。

Explainability, interpretability and how much they affect human trust in AI systems are ultimately problems of human cognition as much as machine learning, yet the effectiveness of AI recommendations and the trust afforded by end-users are typically not evaluated quantitatively. We developed and validated a general purpose Human-AI interaction paradigm which quantifies the impact of AI recommendations on human decisions. In our paradigm we confronted human users with quantitative prediction tasks: asking them for a first response, before confronting them with an AI's recommendations (and explanation), and then asking the human user to provide an updated final response. The difference between final and first responses constitutes the shift or sway in the human decision which we use as metric of the AI's recommendation impact on the human, representing the trust they place on the AI. We evaluated this paradigm on hundreds of users through Amazon Mechanical Turk using a multi-branched experiment confronting users with good/poor AI systems that had good, poor or no explainability. Our proof-of-principle paradigm allows one to quantitatively compare the rapidly growing set of XAI/IAI approaches in terms of their effect on the end-user and opens up the possibility of (machine) learning trust.
翻訳日:2022-02-21 14:36:54 公開日:2022-02-16
# ソースコードの事前学習モデルの提案

Probing Pretrained Models of Source Code ( http://arxiv.org/abs/2202.08975v1 )

ライセンス: Link先を確認
Sergey Troshin and Nadezhda Chirkova(参考訳) ディープラーニングモデルは、コード生成やコード要約など、難しいコード処理タスクを解決するために広く使われている。 伝統的に、特定のモデルアーキテクチャは、特定のコード処理タスクを解決するために慎重に構築されました。 しかし、最近、CodeBERTやCodeT5のような一般的な事前訓練されたモデルは、多くのアプリケーションでタスク固有のモデルより優れていることが示されている。 事前訓練されたモデルは、データから複雑なパターンを学ぶことが知られているが、ソースコードのいくつかの特性を理解できないかもしれない。 コード理解の多様な側面をテストするために、一連の診断タスクを導入する。 事前訓練されたコードのモデルには、コード構文構造と正確性、識別子の概念、データフローと名前空間、自然言語の命名に関する情報が含まれている。 また,コード固有の事前学習目標,モデルサイズの変化,微調整などによって,探索結果がどう影響するかについても検討する。

Deep learning models are widely used for solving challenging code processing tasks, such as code generation or code summarization. Traditionally, a specific model architecture was carefully built to solve a particular code processing task. However, recently general pretrained models such as CodeBERT or CodeT5 have been shown to outperform task-specific models in many applications. While pretrained models are known to learn complex patterns from data, they may fail to understand some properties of source code. To test diverse aspects of code understanding, we introduce a set of diagnosting probing tasks. We show that pretrained models of code indeed contain information about code syntactic structure and correctness, the notions of identifiers, data flow and namespaces, and natural language naming. We also investigate how probing results are affected by using code-specific pretraining objectives, varying the model size, or finetuning.
翻訳日:2022-02-21 13:14:22 公開日:2022-02-16
# (参考訳) 信頼できる自律システム(TAS):カリキュラム設計におけるTAS専門家の育成

Trustworthy Autonomous Systems (TAS): Engaging TAS experts in curriculum design ( http://arxiv.org/abs/2202.07447v2 )

ライセンス: CC BY 4.0
Mohammad Naiseh, Caitlin Bentley, Sarvapali D. Ramchurn(参考訳) 人工知能、特に機械学習の最近の進歩は、社会的、技術的、法的な、倫理的な課題の導入とともに、自律システム産業の強化に積極的に貢献した。 信頼できる自律システム(tas)は確立され成長している研究の方向性であるが、人工知能、人間とコンピュータの相互作用、法、心理学など様々な分野において議論されてきた。 教育カリキュラムに対するTASの影響と今後のTAS技術者に必要なスキルが文献で論じられることはめったにない。 本研究は,TASの急激な台頭に伴うカリキュラム設計の課題と,TASに必要なスキルの可能性を明らかにするために,多数のTAS専門家の集合的洞察をまとめるものである。 我々の分析はTAS教育コミュニティだけでなく、TAS教育の運用に向けた今後の研究の指針を提供する研究者にとっても興味深い。

Recent advances in artificial intelligence, specifically machine learning, contributed positively to enhancing the autonomous systems industry, along with introducing social, technical, legal and ethical challenges to make them trustworthy. Although Trustworthy Autonomous Systems (TAS) is an established and growing research direction that has been discussed in multiple disciplines, e.g., Artificial Intelligence, Human-Computer Interaction, Law, and Psychology. The impact of TAS on education curricula and required skills for future TAS engineers has rarely been discussed in the literature. This study brings together the collective insights from a number of TAS leading experts to highlight significant challenges for curriculum design and potential TAS required skills posed by the rapid emergence of TAS. Our analysis is of interest not only to the TAS education community but also to other researchers, as it offers ways to guide future research toward operationalising TAS education.
翻訳日:2022-02-20 18:01:10 公開日:2022-02-16
# (参考訳) フェデレート脳腫瘍分割における凝集率およびハイパーパラメータ選択法の評価と解析

Evaluation and Analysis of Different Aggregation and Hyperparameter Selection Methods for Federated Brain Tumor Segmentation ( http://arxiv.org/abs/2202.08261v1 )

ライセンス: CC BY 4.0
Ece Isik-Polat, Gorkem Polat, Altan Kocyigit, Alptekin Temizel(参考訳) 大規模で多様な多国籍データセットの可用性は、医用画像領域における効果的な臨床応用AIシステムの開発に不可欠である。 しかし、これらのデータセットを中央に集めてグローバルモデルを形成すると、さまざまなデータプライバシやオーナシップの問題が発生する。 これらの問題を解決するために、近年のいくつかの研究は、分散データのための分散学習アプローチである連合学習パラダイムに焦点を当てている。 連合学習は、協力者のデータを共有したり、中央サーバーで収集したりする必要なしに、利用可能なすべてのデータを活用する。 研究によると、連合学習は従来の中央訓練と競合し、優れた一般化能力を有する。 本研究では,脳腫瘍の分節問題に対するフェデレート学習手法について検討した。 強力な非iidケースでも動作可能な,より高速な収束とパフォーマンス向上のための,さまざまな戦略を探求する。

Availability of large, diverse, and multi-national datasets is crucial for the development of effective and clinically applicable AI systems in the medical imaging domain. However, forming a global model by bringing these datasets together at a central location, comes along with various data privacy and ownership problems. To alleviate these problems, several recent studies focus on the federated learning paradigm, a distributed learning approach for decentralized data. Federated learning leverages all the available data without any need for sharing collaborators' data with each other or collecting them on a central server. Studies show that federated learning can provide competitive performance with conventional central training, while having a good generalization capability. In this work, we have investigated several federated learning approaches on the brain tumor segmentation problem. We explore different strategies for faster convergence and better performance which can also work on strong Non-IID cases.
翻訳日:2022-02-19 07:17:02 公開日:2022-02-16
# (参考訳) OpenKBP-Opt:76の知識に基づく計画パイプラインの国際的かつ再現可能な評価

OpenKBP-Opt: An international and reproducible evaluation of 76 knowledge-based planning pipelines ( http://arxiv.org/abs/2202.08303v1 )

ライセンス: CC BY 4.0
Aaron Babier, Rafid Mahmood, Binghao Zhang, Victor G. L. Alves, Ana Maria Barrag\'an-Montero, Joel Beaudry, Carlos E. Cardenas, Yankui Chang, Zijie Chen, Jaehee Chun, Kelly Diaz, Harold David Eraso, Erik Faustmann, Sibaji Gaj, Skylar Gay, Mary Gronberg, Bingqi Guo, Junjun He, Gerd Heilemann, Sanchit Hira, Yuliang Huang, Fuxin Ji, Dashan Jiang, Jean Carlo Jimenez Giraldo, Hoyeon Lee, Jun Lian, Shuolin Liu, Keng-Chi Liu, Jos\'e Marrugo, Kentaro Miki, Kunio Nakamura, Tucker Netherton, Dan Nguyen, Hamidreza Nourzadeh, Alexander F. I. Osman, Zhao Peng, Jos\'e Dar\'io Quinto Mu\~noz, Christian Ramsl, Dong Joo Rhee, Juan David Rodriguez, Hongming Shan, Jeffrey V. Siebers, Mumtaz H. Soomro, Kay Sun, Andr\'es Usuga Hoyos, Carlos Valderrama, Rob Verbeek, Enpei Wang, Siri Willems, Qi Wu, Xuanang Xu, Sen Yang, Lulin Yuan, Simeng Zhu, Lukas Zimmermann, Kevin L. Moore, Thomas G. Purdie, Andrea L. McNiven, Timothy C. Y. Chan(参考訳) 放射線治療における知識ベース計画(KBP)のための計画最適化モデルを開発するためのオープンフレームワークを確立する。 本フレームワークは, 頭頸部癌100例の基準計画と, OpenKBP Grand Challengeにおいて異なる研究グループによって開発された19KBPモデルからの高次線量予測を含む。 線量予測は4つの最適化モデルに入力され、7600の計画を生成する76個のKBPパイプラインを形成した。 モデルが達成した線量の絶対ボクセル・バイ・ボクセル差の平均値である線量スコア、線量体積ヒストグラム(dvh)基準の偏差、臨床計画基準満足度の頻度である。 また,用量模倣モデルを正当化するための理論的研究も行った。 予測値とkbpパイプラインの間の線量スコアのランクの相関範囲は 0.50 から 0.62 であり、予測値の品質と計画の品質は概ね正の相関関係にあることを示している。 さらに,23DVH基準の18項目において,KBP生成した計画は,入力予測と比較して有意に改善した(P<0.05; 片側ウィルコクソン試験)。 同様に、各最適化モデルは基準計画よりも高い基準を満たす計画を生成する。 最後に, 従来の計画モデルに最適である線量模倣モデルが生成した計画を理論的に検証した。 これはkbp予測と最適化モデルの組み合わせを評価する上で、これまでで最大の国際的取り組みであった。 再現性に関心があるため、私たちのデータとコードはhttps://github.com/ababier/open-kbp-opt.comで自由に利用できます。

We establish an open framework for developing plan optimization models for knowledge-based planning (KBP) in radiotherapy. Our framework includes reference plans for 100 patients with head-and-neck cancer and high-quality dose predictions from 19 KBP models that were developed by different research groups during the OpenKBP Grand Challenge. The dose predictions were input to four optimization models to form 76 unique KBP pipelines that generated 7600 plans. The predictions and plans were compared to the reference plans via: dose score, which is the average mean absolute voxel-by-voxel difference in dose a model achieved; the deviation in dose-volume histogram (DVH) criterion; and the frequency of clinical planning criteria satisfaction. We also performed a theoretical investigation to justify our dose mimicking models. The range in rank order correlation of the dose score between predictions and their KBP pipelines was 0.50 to 0.62, which indicates that the quality of the predictions is generally positively correlated with the quality of the plans. Additionally, compared to the input predictions, the KBP-generated plans performed significantly better (P<0.05; one-sided Wilcoxon test) on 18 of 23 DVH criteria. Similarly, each optimization model generated plans that satisfied a higher percentage of criteria than the reference plans. Lastly, our theoretical investigation demonstrated that the dose mimicking models generated plans that are also optimal for a conventional planning model. This was the largest international effort to date for evaluating the combination of KBP prediction and optimization models. In the interest of reproducibility, our data and code is freely available at https://github.com/ababier/open-kbp-opt.
翻訳日:2022-02-19 07:03:10 公開日:2022-02-16
# (参考訳) 非線形ダイナミクスの単一軌道非パラメトリック学習

Single Trajectory Nonparametric Learning of Nonlinear Dynamics ( http://arxiv.org/abs/2202.08311v1 )

ライセンス: CC BY 4.0
Ingvar Ziemann, Henrik Sandberg, Nikolai Matni(参考訳) 力学系の1つの軌道が与えられた場合、非パラメトリック最小二乗推定器(LSE)の性能を解析する。 より正確には、lse と真の回帰関数の間の非漸近的期待値 $l^2$- distance 界を与える。 我々は最近開発された情報理論手法を利用して、超準ノルム計量エントロピーと準ガウスパラメータを用いて、非パラメトリック仮説クラスに対するLSEの最適性を確立する。 次に、この準ガウスパラメータを力学系理論の概念を用いて基礎プロセスの安定性に関連付ける。 これらの発展が組み合わされると、次数$\delta^{-q}$の計量エントロピー成長を持つ安定なプロセスと仮説クラスに対して、$T^{-1/(2+q)}$としてスケールするレート最適誤差境界が導かれる。 ここで、$T$ は観測軌跡の長さ、$\delta \in \mathbb{R}_+$ はパッケージ粒度、$q\in (0,2)$ は複雑性項である。 最後に、我々は、リプシッツ力学、一般化線形モデル、および再生ケルネルヒルベルト空間(RKHS)のある種のクラスで記述される関数によって記述される力学など、実用上の関心事のシナリオを専門とする。

Given a single trajectory of a dynamical system, we analyze the performance of the nonparametric least squares estimator (LSE). More precisely, we give nonasymptotic expected $l^2$-distance bounds between the LSE and the true regression function, where expectation is evaluated on a fresh, counterfactual, trajectory. We leverage recently developed information-theoretic methods to establish the optimality of the LSE for nonparametric hypotheses classes in terms of supremum norm metric entropy and a subgaussian parameter. Next, we relate this subgaussian parameter to the stability of the underlying process using notions from dynamical systems theory. When combined, these developments lead to rate-optimal error bounds that scale as $T^{-1/(2+q)}$ for suitably stable processes and hypothesis classes with metric entropy growth of order $\delta^{-q}$. Here, $T$ is the length of the observed trajectory, $\delta \in \mathbb{R}_+$ is the packing granularity and $q\in (0,2)$ is a complexity term. Finally, we specialize our results to a number of scenarios of practical interest, such as Lipschitz dynamics, generalized linear models, and dynamics described by functions in certain classes of Reproducing Kernel Hilbert Spaces (RKHS).
翻訳日:2022-02-19 06:36:55 公開日:2022-02-16
# (参考訳) famie:多言語情報抽出のための高速アクティブ学習フレームワーク

FAMIE: A Fast Active Learning Framework for Multilingual Information Extraction ( http://arxiv.org/abs/2202.08316v1 )

ライセンス: CC BY-SA 4.0
Minh Van Nguyen, Nghia Trung Ngo, Bonan Min, Thien Huu Nguyen(参考訳) 本稿では,多言語情報抽出のための総合的かつ効率的な能動学習(AL)ツールキットFAMIEを提案する。 FAMIEは既存のALフレームワークの基本的な問題に対処するために設計されており、アノテーションは、モデルトレーニングの時間を要する性質と、各ALイテレーションにおけるデータ選択のために、アノテーションバッチの間を長く待たなければならない。 これはアノテーションのエンゲージメント、生産性、効率を妨げる。 高速データ選択に小型のプロキシネットワークを使用するという考え方に基づいて,主モデルに対して選択されたアノテーション例の適切性を保証するために,プロキシネットワークと主大型モデル(bertベース)を同期させる新たな知識蒸留機構を導入する。 私たちのALフレームワークは複数の言語をサポートできます。 ALを用いたシーケンスラベリングにおける競合性能と時間効率の観点からFAMIEの利点を実証した。 コード(\url{https://github.com/nlp-uoregon/famie})とデモウェブサイト(\url{http://nlp.uoregon.edu:9000/})を公開しています。 FAMIEのデモビデオは: \url{https://youtu.be/I2i8n_jAyrY} で提供されている。

This paper presents FAMIE, a comprehensive and efficient active learning (AL) toolkit for multilingual information extraction. FAMIE is designed to address a fundamental problem in existing AL frameworks where annotators need to wait for a long time between annotation batches due to the time-consuming nature of model training and data selection at each AL iteration. This hinders the engagement, productivity, and efficiency of annotators. Based on the idea of using a small proxy network for fast data selection, we introduce a novel knowledge distillation mechanism to synchronize the proxy network with the main large model (i.e., BERT-based) to ensure the appropriateness of the selected annotation examples for the main model. Our AL framework can support multiple languages. The experiments demonstrate the advantages of FAMIE in terms of competitive performance and time efficiency for sequence labeling with AL. We publicly release our code (\url{https://github.com/nlp-uoregon/famie}) and demo website (\url{http://nlp.uoregon.edu:9000/}). A demo video for FAMIE is provided at: \url{https://youtu.be/I2i8n_jAyrY}.
翻訳日:2022-02-19 06:35:44 公開日:2022-02-16
# (参考訳) データ提供は数千のサンプルに値する - 分析的拡張サンプルモーメントによる正確な定量化

A Data-Augmentation Is Worth A Thousand Samples: Exact Quantification From Analytical Augmented Sample Moments ( http://arxiv.org/abs/2202.08325v1 )

ライセンス: CC BY 4.0
Randall Balestriero, Ishan Misra, Yann LeCun(参考訳) Data-Augmentation (DA)はタスクやデータセットのパフォーマンスを改善することで知られている。 我々は,daの効果を理論的に解析し,そのdaで符号化された情報を正確に推定するための拡張サンプルはいくつ必要か? 拡張ポリシーはモデルの最終的なパラメータにどのように影響しますか? 我々は、所定のDA分布の下で、画像の期待と分散、損失、モデルの出力など、いくつかのクローズドな形式を導出する。 これらの導出はDAの利点と限界を定量化する新しい道を開く。 例えば、一般的なDAは、与えられた損失を正確に推定し、モデルトレーニングが収束するために数万のサンプルを必要とすることを示す。 daサンプリング下でトレーニング損失が安定であるためには、モデルのサリエンシーマップ(モデルの入力に対する損失の勾配)は、da加算が考慮されるサンプル分散の最小の固有ベクトルと一致しなければならないことを示し、なぜモデルが焦点をエッジからテクスチャにシフトする傾向があるのかを示唆する。

Data-Augmentation (DA) is known to improve performance across tasks and datasets. We propose a method to theoretically analyze the effect of DA and study questions such as: how many augmented samples are needed to correctly estimate the information encoded by that DA? How does the augmentation policy impact the final parameters of a model? We derive several quantities in close-form, such as the expectation and variance of an image, loss, and model's output under a given DA distribution. Those derivations open new avenues to quantify the benefits and limitations of DA. For example, we show that common DAs require tens of thousands of samples for the loss at hand to be correctly estimated and for the model training to converge. We show that for a training loss to be stable under DA sampling, the model's saliency map (gradient of the loss with respect to the model's input) must align with the smallest eigenvector of the sample variance under the considered DA augmentation, hinting at a possible explanation on why models tend to shift their focus from edges to textures.
翻訳日:2022-02-19 06:23:50 公開日:2022-02-16
# (参考訳) フェデレーション学習のためのシングルショットハイパーパラメータ最適化:一般アルゴリズムと解析

Single-shot Hyper-parameter Optimization for Federated Learning: A General Algorithm & Analysis ( http://arxiv.org/abs/2202.08338v1 )

ライセンス: CC BY 4.0
Yi Zhou, Parikshit Ram, Theodoros Salonidis, Nathalie Baracaldo, Horst Samulowitz, Heiko Ludwig(参考訳) フェデレートラーニング(FL-HPO)におけるハイパーパラメータ最適化(HPO)の未探索問題に対処する。 FLoRA(Federated Loss SuRface Aggregation)は、表形式のデータと、勾配促進学習アルゴリズムを含む機械学習(ML)モデルに対処し、FL-HPOの範囲をさらに拡大する一般的なFL-HPOソリューションフレームワークである。 FLoRAは単発FL-HPOを可能にし、単一のFLトレーニングで使用される優れたハイパーパラメータのセットを識別する。 これにより、HPOなしのFLトレーニングと比較して、FL-HPOソリューションを最小限の通信オーバーヘッドで実現できる。 我々は, fl-hpoの最適性ギャップを理論的に特徴付け, flシステムの支配的特性である当事者の局所データ分布の不均一性を考慮した。 7つのOpenMLデータセット上での複数のMLアルゴリズムに対するFLoRAの実証的評価は,ベースラインに対するモデル精度の大幅な向上,FL-HPOトレーニングに関わる参加者の増加に対する堅牢性を示す。

We address the relatively unexplored problem of hyper-parameter optimization (HPO) for federated learning (FL-HPO). We introduce Federated Loss SuRface Aggregation (FLoRA), a general FL-HPO solution framework that can address use cases of tabular data and any Machine Learning (ML) model including gradient boosting training algorithms and therefore further expands the scope of FL-HPO. FLoRA enables single-shot FL-HPO: identifying a single set of good hyper-parameters that are subsequently used in a single FL training. Thus, it enables FL-HPO solutions with minimal additional communication overhead compared to FL training without HPO. We theoretically characterize the optimality gap of FL-HPO, which explicitly accounts for the heterogeneous non-IID nature of the parties' local data distributions, a dominant characteristic of FL systems. Our empirical evaluation of FLoRA for multiple ML algorithms on seven OpenML datasets demonstrates significant model accuracy improvements over the considered baseline, and robustness to increasing number of parties involved in FL-HPO training.
翻訳日:2022-02-19 05:59:59 公開日:2022-02-16
# (参考訳) 機械の形状とテクスチャバイアスの発達的インスパイアによる検討

A Developmentally-Inspired Examination of Shape versus Texture Bias in Machines ( http://arxiv.org/abs/2202.08340v1 )

ライセンス: CC BY 4.0
Alexa R. Tartaglini, Wai Keen Vong, Brenden M. Lake(参考訳) 発達初期の子供たちは、新しいカテゴリーラベルを同じ形状の物体に拡張することを学び、これは形状バイアスと呼ばれる現象である。 これらの発見に触発されて、geirhosら(2019)は、矛盾する形状とテクスチャの手がかりを持つイメージを構築して、ディープニューラルネットワークが形状やテクスチャバイアスを示すかどうかを調査した。 畳み込みニューラルネットワークは、形状ではなく、テクスチャに基づいて親しみやすい物体を分類することが強く望まれており、テクスチャバイアスが示唆されている。 しかし、この研究でテストされたネットワークと、通常テストされた子供のネットワークの間には、多くの違いがある。 本研究は,geirhosら(2019)の刺激と手順を適応させることで,ニューラルネットワークの帰納的バイアスを再検討し,より詳細な発達パラダイムに従い,多種多様な事前学習ニューラルネットワーク上でテストする。 3つの実験で、深層ニューラルネットワークは、発達過程をより密に再現する条件下でテストした場合、テクスチャよりも形状を好むことがわかった。

Early in development, children learn to extend novel category labels to objects with the same shape, a phenomenon known as the shape bias. Inspired by these findings, Geirhos et al. (2019) examined whether deep neural networks show a shape or texture bias by constructing images with conflicting shape and texture cues. They found that convolutional neural networks strongly preferred to classify familiar objects based on texture as opposed to shape, suggesting a texture bias. However, there are a number of differences between how the networks were tested in this study versus how children are typically tested. In this work, we re-examine the inductive biases of neural networks by adapting the stimuli and procedure from Geirhos et al. (2019) to more closely follow the developmental paradigm and test on a wide range of pre-trained neural networks. Across three experiments, we find that deep neural networks exhibit a preference for shape rather than texture when tested under conditions that more closely replicate the developmental procedure.
翻訳日:2022-02-19 05:24:00 公開日:2022-02-16
# (参考訳) 監視のない未修正画像に事前学習する場合、ビジョンモデルはより堅牢で公平である

Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision ( http://arxiv.org/abs/2202.08360v1 )

ライセンス: CC BY 4.0
Priya Goyal, Quentin Duval, Isaac Seessel, Mathilde Caron, Mannat Singh, Ishan Misra, Levent Sagun, Armand Joulin, Piotr Bojanowski(参考訳) 識別的自己教師付き学習は、インターネットイメージの任意のランダムなグループでのトレーニングモデルを可能にし、画像間の区別に役立つサルエント情報を回収する可能性がある。 これはimagenetに適用され、ほとんどのオブジェクト中心のダウンストリームタスクの教師付き機能と同等の性能を持つオブジェクト中心の機能に繋がる。 本研究では,この能力を用いて,世界中から多彩な非有界画像群に存在する有能で代表的な情報を学習できるかを問う。 そのために、データの事前処理や、モデルを学習したいものに関する事前の仮定なしに、何十億ものランダムなイメージでモデルをトレーニングする。 モデルサイズを100億のパラメータにスケールし、大きなデータサイズに過小適合しないようにします。 我々は,公平性,分散シフトに対する堅牢性,地理的多様性,微粒化認識,画像コピー検出,多くの画像分類データセットを含む50以上のベンチマークで,モデル性能を広範囲に研究し,検証した。 得られたモデルは、セマンティックな情報をうまくキャプチャするだけでなく、芸術的スタイルに関する情報も取得し、視覚コンテンツのみに基づいて位置情報や多言語単語の埋め込みなどの有能な情報を学ぶ。 さらに重要なのは、イメージネットのようなオブジェクト中心のデータセットでトレーニングされた教師付きモデルやモデルよりも、そのようなモデルはより堅牢で、公平で、有害ではなく、バイアスが少ないことです。

Discriminative self-supervised learning allows training models on any random group of internet images, and possibly recover salient information that helps differentiate between the images. Applied to ImageNet, this leads to object centric features that perform on par with supervised features on most object-centric downstream tasks. In this work, we question if using this ability, we can learn any salient and more representative information present in diverse unbounded set of images from across the globe. To do so, we train models on billions of random images without any data pre-processing or prior assumptions about what we want the model to learn. We scale our model size to dense 10 billion parameters to avoid underfitting on a large data size. We extensively study and validate our model performance on over 50 benchmarks including fairness, robustness to distribution shift, geographical diversity, fine grained recognition, image copy detection and many image classification datasets. The resulting model, not only captures well semantic information, it also captures information about artistic style and learns salient information such as geolocations and multilingual word embeddings based on visual content only. More importantly, we discover that such model is more robust, more fair, less harmful and less biased than supervised models or models trained on object centric datasets such as ImageNet.
翻訳日:2022-02-19 05:10:16 公開日:2022-02-16
# 確率的拡散モデルを用いたネットワーク上のエピデミックスプレッドの制御

Controlling Epidemic Spread using Probabilistic Diffusion Models on Networks ( http://arxiv.org/abs/2202.08296v1 )

ライセンス: Link先を確認
Amy Babay, Michael Dinitz, Aravind Srinivasan, Leonidas Tsepenekas, Anil Vullikanti(参考訳) 流行の拡散は、しばしばソーシャルネットワークグラフ上のSIRランダムプロセスによってモデル化される。 最適なソーシャルディスタンシングのためのmininf問題は、最大でb$エッジでブレークすることを許された場合、期待される感染数を最小化することであり、同様にmininfnodeの問題は、最大$b$頂点を取り除くことである。 これらは疫学とネットワーク科学の根本的な問題である。 多くのヒューリスティックが検討されているが、これらの問題の複雑さは一般には未解決である。 本稿では,この問題に対する最初の非自明な近似を与えるmininfの2つのbicriteria近似アルゴリズムを提案する。 1つ目は、Karger \cite{karger:mathor99} のカットスカラー化結果に基づいており、送信確率が小さすぎると機能する。 2つ目はサンプル平均近似(SAA)に基づくアルゴリズムで、Chung-Luランダムグラフモデルについて解析する。 MinINFNode問題に取り組むために、いくつかの結果も拡張しています。

The spread of an epidemic is often modeled by an SIR random process on a social network graph. The MinINF problem for optimal social distancing involves minimizing the expected number of infections, when we are allowed to break at most $B$ edges; similarly the MinINFNode problem involves removing at most $B$ vertices. These are fundamental problems in epidemiology and network science. While a number of heuristics have been considered, the complexity of these problems remains generally open. In this paper, we present two bicriteria approximation algorithms for MinINF, which give the first non-trivial approximations for this problem. The first is based on the cut sparsification result of Karger \cite{karger:mathor99}, and works when the transmission probabilities are not too small. The second is a Sample Average Approximation (SAA) based algorithm, which we analyze for the Chung-Lu random graph model. We also extend some of our results to tackle the MinINFNode problem.
翻訳日:2022-02-18 16:41:47 公開日:2022-02-16
# 最適行列分解によるプライベートオンライン事前修正

Private Online Prefix Sums via Optimal Matrix Factorizations ( http://arxiv.org/abs/2202.08312v1 )

ライセンス: Link先を確認
Brendan McMahan, Keith Rush and Abhradeep Guha Thakurta(参考訳) 機械学習モデルやその他の応用の差分プライベート(DP)トレーニングを動機として,DPを用いたオンライン(ストリーミング)設定におけるプレフィックス和の計算問題について検討する。 この問題は以前は手作り推定器を用いた専用ツリーアグリゲーションスキームで解決されてきた。 これらのスキームは全て、行列分解に基づくDP機構の幅広いクラスの特定の例と見なすことができ、実際、このクラスにはより優れたメカニズムが存在することを示す。 特に,オンライン制約下での線形クエリの最適因子分解を特徴とし,オンライン接頭辞和を含む最適機構を効率的に計算できる存在,一意性,明示表現を導出する。 これらのソリューションは、重要な定数係数によって既存の最先端よりも改善され、ツリーデータ構造の使用によって導入されたアーティファクトのいくつかを避ける。

Motivated by differentially-private (DP) training of machine learning models and other applications, we investigate the problem of computing prefix sums in the online (streaming) setting with DP. This problem has previously been addressed by special-purpose tree aggregation schemes with hand-crafted estimators. We show that these previous schemes can all be viewed as specific instances of a broad class of matrix-factorization-based DP mechanisms, and that in fact much better mechanisms exist in this class. In particular, we characterize optimal factorizations of linear queries under online constraints, deriving existence, uniqueness, and explicit expressions that allow us to efficiently compute optimal mechanisms, including for online prefix sums. These solutions improve over the existing state-of-the-art by a significant constant factor, and avoid some of the artifacts introduced by the use of the tree data structure.
翻訳日:2022-02-18 16:41:32 公開日:2022-02-16
# 画像データベースにおける差分プライバシーの文脈化--原理成分分析の逆に基づく軽量画像差分プライバシーアプローチ

Contextualize differential privacy in image database: a lightweight image differential privacy approach based on principle component analysis inverse ( http://arxiv.org/abs/2202.08309v1 )

ライセンス: Link先を確認
Shiliang Zhang, Xuehui Ma, Hui Cao, Tengyuan Zhao, Yajie Yu, Zhuzhu Wang(参考訳) 差分プライバシー(DP)は、データベース内のプライバシーに敏感な情報を保存するためのデファクトスタンダードである。 とはいえ、画像データベースにはDPの明確で説得力のある文脈化が欠如しており、個々の画像の特定の解析への不明瞭な貢献が達成され、DPが実行されたときに観察される。 その結果、差分プライベート画像データベースの文脈において、dpの統合によるプライバシー不正確なトレードオフが不十分に実証される。 本研究は,画像データベースにおけるdpのコンテキスト化を目的とし,概念的微分プライバシーと画像の統合を明示的かつ直感的に示す。 この目的のために,画像データベース全体を民営化するための軽量なアプローチをデザインし,画像データベースの統計的意味を調整可能なレベルに保つとともに,その統計に対する個々の画像の寄与度を識別不能にする。 設計手法では,dpを行う低次元空間に対して,多量の属性を持つ生画像を低減し,感度属性の計算のdp負荷を低減するために,原理成分分析(pca)を利用する。 民営化形式では見えないDP抽出画像データをPCA逆転により可視化し、民営化された画像データベースの分析において、人間と機械検査者が民営化を評価し、プライバシ・正確性トレードオフを定量化する。 そこで本研究では,ディープラーニングモデルに基づく2つのユースケースを用いて,画像内のdpの文脈化を実証し,dpによって誘発される個々の画像の識別不能性と,異なる民営化条件下でのプライバシ正確性トレードオフの定量的解析によって精査された深層学習課題における統計的意味論の民営化画像の保持を示す。

Differential privacy (DP) has been the de-facto standard to preserve privacy-sensitive information in database. Nevertheless, there lacks a clear and convincing contextualization of DP in image database, where individual images' indistinguishable contribution to a certain analysis can be achieved and observed when DP is exerted. As a result, the privacy-accuracy trade-off due to integrating DP is insufficiently demonstrated in the context of differentially-private image database. This work aims at contextualizing DP in image database by an explicit and intuitive demonstration of integrating conceptional differential privacy with images. To this end, we design a lightweight approach dedicating to privatizing image database as a whole and preserving the statistical semantics of the image database to an adjustable level, while making individual images' contribution to such statistics indistinguishable. The designed approach leverages principle component analysis (PCA) to reduce the raw image with large amount of attributes to a lower dimensional space whereby DP is performed, so as to decrease the DP load of calculating sensitivity attribute-by-attribute. The DP-exerted image data, which is not visible in its privatized format, is visualized through PCA inverse such that both a human and machine inspector can evaluate the privatization and quantify the privacy-accuracy trade-off in an analysis on the privatized image database. Using the devised approach, we demonstrate the contextualization of DP in images by two use cases based on deep learning models, where we show the indistinguishability of individual images induced by DP and the privatized images' retention of statistical semantics in deep learning tasks, which is elaborated by quantitative analyses on the privacy-accuracy trade-off under different privatization settings.
翻訳日:2022-02-18 16:38:44 公開日:2022-02-16
# CortexODE: ニューラルネットワークによる皮質表面再構成学習

CortexODE: Learning Cortical Surface Reconstruction by Neural ODEs ( http://arxiv.org/abs/2202.08329v1 )

ライセンス: Link先を確認
Qiang Ma, Liu Li, Emma C. Robinson, Bernhard Kainz, Daniel Rueckert, Amir Alansary(参考訳) 皮質表面再構成のためのディープラーニングフレームワークであるCortexODEを提案する。 CortexODEはニューラル常微分方程式(ODE)を利用して、微分フローを学習することで入力表面をターゲット形状に変形させる。 曲面上の点の軌道は、その座標の微分が学習可能なリプシッツ連続変形ネットワークを介してパラメータ化されるodeとしてモデル化される。 これは、自己切断の防止に関する理論的保証を提供する。 CortexODEは、6秒未満で皮質表面を効率的に再構築する自動学習ベースのパイプラインに統合することができる。 パイプラインは3D U-Netを使用して脳磁気共鳴イメージング(MRI)スキャンから白色物質セグメンテーションを予測し、初期表面を表す符号付き距離関数を生成する。 球面への同相性を保証するために高速位相補正を導入する。 等表面抽出工程の後、2つのCortexODEモデルをトレーニングし、初期表面をそれぞれ白色物質とピアル表面に変形させる。 提案したパイプラインは,新生児(25~45週),若年者(22~36歳),高齢者(55~90歳)など,様々な年齢層における大規模神経画像データセットを用いて評価した。 実験により,従来の処理パイプラインに比べて桁違いに高速でありながら平均幾何誤差が0.2mm未満であることを示す。

We present CortexODE, a deep learning framework for cortical surface reconstruction. CortexODE leverages neural ordinary different equations (ODEs) to deform an input surface into a target shape by learning a diffeomorphic flow. The trajectories of the points on the surface are modeled as ODEs, where the derivatives of their coordinates are parameterized via a learnable Lipschitz-continuous deformation network. This provides theoretical guarantees for the prevention of self-intersections. CortexODE can be integrated to an automatic learning-based pipeline, which reconstructs cortical surfaces efficiently in less than 6 seconds. The pipeline utilizes a 3D U-Net to predict a white matter segmentation from brain Magnetic Resonance Imaging (MRI) scans, and further generates a signed distance function that represents an initial surface. Fast topology correction is introduced to guarantee homeomorphism to a sphere. Following the isosurface extraction step, two CortexODE models are trained to deform the initial surface to white matter and pial surfaces respectively. The proposed pipeline is evaluated on large-scale neuroimage datasets in various age groups including neonates (25-45 weeks), young adults (22-36 years) and elderly subjects (55-90 years). Our experiments demonstrate that the CortexODE-based pipeline can achieve less than 0.2mm average geometric error while being orders of magnitude faster compared to conventional processing pipelines.
翻訳日:2022-02-18 15:53:01 公開日:2022-02-16
# リプシッツ正則化による滑らかな神経機能の学習

Learning Smooth Neural Functions via Lipschitz Regularization ( http://arxiv.org/abs/2202.08345v1 )

ライセンス: Link先を確認
Hsueh-Ti Derek Liu, Francis Williams, Alec Jacobson, Sanja Fidler, Or Litany(参考訳) ニューラル暗黙のフィールドは3次元形状の有用な表現として最近登場した。 これらのフィールドは一般に、潜在記述子と3D座標を暗黙の関数値にマッピングするニューラルネットワークとして表現される。 ニューラルネットワークの潜在記述子は、その表現する3D形状の変形ハンドルとして機能する。 したがって、このディスクリプタに関する滑らかさは、形状編集操作を行う上で最重要となる。 本研究では,ニューラルネットワークにおけるスムーズな潜伏空間を促進するために,場のリプシッツ定数上の上限をペナル化することによって,新しい正規化を導入する。 従来のリプシッツ正規化ネットワークと比較して計算が高速で、4行のコードで実装でき、幾何学的応用には最小限のハイパーパラメータチューニングが必要となる。 提案手法が3次元点雲からの形状補間および外挿および部分形状再構成に有効であることを示し,既存の最先端および非正規化ベースラインに対する質的および定量的な改善を示した。

Neural implicit fields have recently emerged as a useful representation for 3D shapes. These fields are commonly represented as neural networks which map latent descriptors and 3D coordinates to implicit function values. The latent descriptor of a neural field acts as a deformation handle for the 3D shape it represents. Thus, smoothness with respect to this descriptor is paramount for performing shape-editing operations. In this work, we introduce a novel regularization designed to encourage smooth latent spaces in neural fields by penalizing the upper bound on the field's Lipschitz constant. Compared with prior Lipschitz regularized networks, ours is computationally fast, can be implemented in four lines of code, and requires minimal hyperparameter tuning for geometric applications. We demonstrate the effectiveness of our approach on shape interpolation and extrapolation as well as partial shape reconstruction from 3D point clouds, showing both qualitative and quantitative improvements over existing state-of-the-art and non-regularized baselines.
翻訳日:2022-02-18 15:52:36 公開日:2022-02-16
# xai: 予測プロセス監視の文脈で: あまりに多すぎて明らかにできない

XAI in the context of Predictive Process Monitoring: Too much to Reveal ( http://arxiv.org/abs/2202.08265v1 )

ライセンス: Link先を確認
Ghada Elkhawaga, Mervat Abuelkheir, Manfred Reichert(参考訳) 予測プロセスモニタリング(PPM)は、プロセスマイニングツールに付加価値タスクとして統合されている。 PPMは実行中のビジネスプロセスのさらなる実行に関する有用な予測を提供する。 この目的のために、機械学習ベースの技術は、PPMの文脈で広く採用されている。 PPM予測に対する利害関係者の信頼と擁護を得るために、最も効率的な予測モデルの透明性の欠如を補うために、eXplainable Artificial Intelligence (XAI)法が用いられている。 データ、前処理技術、MLモデルに関する同じ設定の下でも、複数のXAIメソッドによって生成された説明は大きく異なる。 説明に決定論的であるXAI特性または基礎条件を区別するために比較が欠落している。 このギャップに対処するために、異なるPPM関連設定とMLモデル関連選択が結果の説明の特性と表現性に与える影響を研究できるフレームワークを提供する。 さらに、異なる説明可能性法が結果の説明を形作り、基礎となるモデル推論プロセスの反映を可能にする方法について比較する。

Predictive Process Monitoring (PPM) has been integrated into process mining tools as a value-adding task. PPM provides useful predictions on the further execution of the running business processes. To this end, machine learning-based techniques are widely employed in the context of PPM. In order to gain stakeholders trust and advocacy of PPM predictions, eXplainable Artificial Intelligence (XAI) methods are employed in order to compensate for the lack of transparency of most efficient predictive models. Even when employed under the same settings regarding data, preprocessing techniques, and ML models, explanations generated by multiple XAI methods differ profoundly. A comparison is missing to distinguish XAI characteristics or underlying conditions that are deterministic to an explanation. To address this gap, we provide a framework to enable studying the effect of different PPM-related settings and ML model-related choices on characteristics and expressiveness of resulting explanations. In addition, we compare how different explainability methods characteristics can shape resulting explanations and enable reflecting underlying model reasoning process
翻訳日:2022-02-18 15:15:36 公開日:2022-02-16
# NNの学習フェーズ: 主要部分のフィットから小部分のフィットまで

The learning phases in NN: From Fitting the Majority to Fitting a Few ( http://arxiv.org/abs/2202.08299v1 )

ライセンス: Link先を確認
Johannes Schneider(参考訳) ディープニューラルネットワークの学習ダイナミクスは議論の対象となっている。 情報ボトルネック(ib)理論を用いることで、フィッティングと圧縮のフェーズが分離されるが、それ以降は議論が続いている。 我々は,学習中のパラメータの進化に基づいて,入力と予測性能の層再構成能力を解析し,学習力学にアプローチする。 本研究は, 復元損失を減少させるプロトタイピング段階と, 復元損失を増大させる少数のサンプルの分類損失が, データに対する軽度な仮定の下で存在することを示す。 単層分類ネットワークの数学的解析を行うだけでなく,resnetやvggといったコンピュータビジョンからの共通データセットやアーキテクチャを用いて行動を評価する。

The learning dynamics of deep neural networks are subject to controversy. Using the information bottleneck (IB) theory separate fitting and compression phases have been put forward but have since been heavily debated. We approach learning dynamics by analyzing a layer's reconstruction ability of the input and prediction performance based on the evolution of parameters during training. We show that a prototyping phase decreasing reconstruction loss initially, followed by reducing classification loss of a few samples, which increases reconstruction loss, exists under mild assumptions on the data. Aside from providing a mathematical analysis of single layer classification networks, we also assess the behavior using common datasets and architectures from computer vision such as ResNet and VGG.
翻訳日:2022-02-18 15:15:18 公開日:2022-02-16
# TorchDrug:ドラッグ発見のための強力で柔軟な機械学習プラットフォーム

TorchDrug: A Powerful and Flexible Machine Learning Platform for Drug Discovery ( http://arxiv.org/abs/2202.08320v1 )

ライセンス: Link先を確認
Zhaocheng Zhu, Chence Shi, Zuobai Zhang, Shengchao Liu, Minghao Xu, Xinyu Yuan, Yangtian Zhang, Junkun Chen, Huiyu Cai, Jiarui Lu, Chang Ma, Runcheng Liu, Louis-Pascal Xhonneux, Meng Qu, Jian Tang(参考訳) 機械学習は、薬物発見の分野に革命をもたらす大きな可能性を秘めており、近年注目を集めている。 しかし、ドメイン知識の欠如(例えば、どのタスクに取り組むべきか)、標準ベンチマーク、データプリプロセッシングパイプラインがこのドメインで働く機械学習研究者にとって大きな障害となる。 薬物発見のための機械学習の進歩を促進するために,PyTorch上に構築された薬物発見のための強力で柔軟な機械学習プラットフォームであるTorchDrugを開発した。 TorchDrugは、分子特性予測、事前訓練された分子表現、de novo分子設計と最適化、再合成予測、生医学知識グラフ推論など、薬物発見における重要なタスクをベンチマークする。 これらの課題に対して,幾何学的深層学習(グラフ機械学習),深層生成モデル,強化学習,知識グラフ推論に基づく最先端技術が実装されている。 TorchDrugは、初心者と専門家の両方からカスタマイズを容易にする階層的なインターフェースを備えている。 チュートリアル、ベンチマーク結果、ドキュメントはhttps://torchdrug.ai.com/で入手できる。 コードはApache License 2.0でリリースされている。

Machine learning has huge potential to revolutionize the field of drug discovery and is attracting increasing attention in recent years. However, lacking domain knowledge (e.g., which tasks to work on), standard benchmarks and data preprocessing pipelines are the main obstacles for machine learning researchers to work in this domain. To facilitate the progress of machine learning for drug discovery, we develop TorchDrug, a powerful and flexible machine learning platform for drug discovery built on top of PyTorch. TorchDrug benchmarks a variety of important tasks in drug discovery, including molecular property prediction, pretrained molecular representations, de novo molecular design and optimization, retrosynthsis prediction, and biomedical knowledge graph reasoning. State-of-the-art techniques based on geometric deep learning (or graph machine learning), deep generative models, reinforcement learning and knowledge graph reasoning are implemented for these tasks. TorchDrug features a hierarchical interface that facilitates customization from both novices and experts in this domain. Tutorials, benchmark results and documentation are available at https://torchdrug.ai. Code is released under Apache License 2.0.
翻訳日:2022-02-18 15:15:05 公開日:2022-02-16
# 潜在グラフ予測による自己教師付き表現学習

Self-Supervised Representation Learning via Latent Graph Prediction ( http://arxiv.org/abs/2202.08333v1 )

ライセンス: Link先を確認
Yaochen Xie, Zhao Xu, Shuiwang Ji(参考訳) グラフニューラルネットワークの自己教師あり学習(ssl)は、ラベルのないデータを活用する有望な方法として登場している。 現在、ほとんどの方法は画像領域から適応したコントラスト学習に基づいており、ビュー生成と十分な数の負のサンプルを必要とする。 対照的に、既存の予測モデルは負のサンプリングを必要としないが、プリテキストトレーニングタスクの設計に関する理論的ガイダンスは欠如している。 本研究では,遅延グラフ予測に基づく理論的根拠付き予測SSLフレームワークであるLaGraphを提案する。 ラグラフの学習対象は、観測されていない潜在グラフを予測する目的に対する自己教師あり上界として導出される。 パフォーマンスの改善に加えて、LaGraphは不変性に基づく目的を含む予測モデルの最近の成功を説明する。 ラグラフを異なる領域における関連する手法と比較する理論的解析を行う。 実験の結果,LaGraphの性能向上と,グラフレベルおよびノードレベルのタスクにおけるトレーニングサンプルサイズ削減に対する堅牢性を示す。

Self-supervised learning (SSL) of graph neural networks is emerging as a promising way of leveraging unlabeled data. Currently, most methods are based on contrastive learning adapted from the image domain, which requires view generation and a sufficient number of negative samples. In contrast, existing predictive models do not require negative sampling, but lack theoretical guidance on the design of pretext training tasks. In this work, we propose the LaGraph, a theoretically grounded predictive SSL framework based on latent graph prediction. Learning objectives of LaGraph are derived as self-supervised upper bounds to objectives for predicting unobserved latent graphs. In addition to its improved performance, LaGraph provides explanations for recent successes of predictive models that include invariance-based objectives. We provide theoretical analysis comparing LaGraph to related methods in different domains. Our experimental results demonstrate the superiority of LaGraph in performance and the robustness to decreasing of training sample size on both graph-level and node-level tasks.
翻訳日:2022-02-18 15:14:45 公開日:2022-02-16
# タスク非依存グラフ記述

Task-Agnostic Graph Explanations ( http://arxiv.org/abs/2202.08335v1 )

ライセンス: Link先を確認
Yaochen Xie, Sumeet Katariya, Xianfeng Tang, Edward Huang, Nikhil Rao, Karthik Subbian, Shuiwang Ji(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データをエンコードする強力なツールとして登場した。 幅広いアプリケーションのために、グラフ構造化データに対してGNNがどのように意思決定を行うかを説明するツールを開発する必要性が高まっている。 既存の学習ベースのGNN説明アプローチは、トレーニングにおいてタスク固有のため、重大な欠点を被る。 具体的には,マルチタスク予測モデルに対する説明を単一説明器で生成することができない。 また、GNNが自己教師型で訓練されている場合や、結果の表現が将来の下流タスクで使用される場合も説明できない。 これらの制約に対処するために、下流タスクの知識のない自己監督下で訓練されたタスク非依存のGNN Explainer (TAGE)を提案する。 TAGEは、下流タスクなしでGNN埋め込みモデルを説明し、マルチタスクモデルの効率的な説明を可能にする。 広範な実験により,tageは,同一モデルを用いて複数の下流タスクの予測を説明することにより,説明効率を大幅に向上させると同時に,現在のgnn説明手法よりも優れた説明品質を実現することができた。

Graph Neural Networks (GNNs) have emerged as powerful tools to encode graph structured data. Due to their broad applications, there is an increasing need to develop tools to explain how GNNs make decisions given graph structured data. Existing learning-based GNN explanation approaches are task-specific in training and hence suffer from crucial drawbacks. Specifically, they are incapable of producing explanations for a multitask prediction model with a single explainer. They are also unable to provide explanations in cases where the GNN is trained in a self-supervised manner, and the resulting representations are used in future downstream tasks. To address these limitations, we propose a Task-Agnostic GNN Explainer (TAGE) trained under self-supervision with no knowledge of downstream tasks. TAGE enables the explanation of GNN embedding models without downstream tasks and allows efficient explanation of multitask models. Our extensive experiments show that TAGE can significantly speed up the explanation efficiency by using the same model to explain predictions for multiple downstream tasks while achieving explanation quality as good as or even better than current state-of-the-art GNN explanation approaches.
翻訳日:2022-02-18 15:14:18 公開日:2022-02-16
# 経済予測のためのキャリア軌道の学習可能表現

Learning Transferrable Representations of Career Trajectories for Economic Prediction ( http://arxiv.org/abs/2202.08370v1 )

ライセンス: Link先を確認
Keyon Vafa, Emil Palikot, Tianyu Du, Ayush Kanodia, Susan Athey, David M. Blei(参考訳) 労働市場を研究する経済学者にとって、個人が労働生活を掌握する仕事の順序を理解することは重要だ。 過去、経済学者は小さな調査に予測モデルを適用することで関連する量を推定してきたが、近年ではオンライン履歴書の大きなデータセットも利用可能になっている。 これらの新しいデータセットは、より多くの個人のジョブシーケンスを提供するが、標準のエコノメトリモデリングには大きすぎて複雑すぎる。 この目的のために,現代言語モデリングのアイデアを大規模ジョブシーケンスデータの解析に適用する。 我々は、個人の仕事履歴の低次元表現を学習するトランスフォーマーベースモデルであるCAREERを開発する。 この表現は、大規模なデータセット上で直接ジョブを予測するために使用することも、より小さくより正確なデータセットでジョブを表現するために"転送"することもできる。 私たちはこのモデルを、数千以上のユニークな職業に関わる2400万人の履歴書の大規模なデータセットに適合させます。 保持されたデータで正確な予測を作り、共通の経済データセットで正確な予測を行うように微調整された有用なキャリア表現を学習する。

Understanding career trajectories -- the sequences of jobs that individuals hold over their working lives -- is important to economists for studying labor markets. In the past, economists have estimated relevant quantities by fitting predictive models to small surveys, but in recent years large datasets of online resumes have also become available. These new datasets provide job sequences of many more individuals, but they are too large and complex for standard econometric modeling. To this end, we adapt ideas from modern language modeling to the analysis of large-scale job sequence data. We develop CAREER, a transformer-based model that learns a low-dimensional representation of an individual's job history. This representation can be used to predict jobs directly on a large dataset, or can be "transferred" to represent jobs in smaller and better-curated datasets. We fit the model to a large dataset of resumes, 24 million people who are involved in more than a thousand unique occupations. It forms accurate predictions on held-out data, and it learns useful career representations that can be fine-tuned to make accurate predictions on common economics datasets.
翻訳日:2022-02-18 15:13:57 公開日:2022-02-16
# 神経報酬機能を用いた拡張強化学習

Open-Ended Reinforcement Learning with Neural Reward Functions ( http://arxiv.org/abs/2202.08266v1 )

ライセンス: Link先を確認
Robert Meier and Asier Mujika(参考訳) コンピュータビジョンと自然言語処理における教師なし学習の大きな成功にインスパイアされた強化学習コミュニティは、最近、教師なし学習のスキルの発見に重点を置き始めた。 DIAYNやDADSといった現在のアプローチは、ある種の相互情報目的を最適化しています。 ニューラルネットワークで符号化された報酬関数を利用する別のアプローチを提案する。 これらはより複雑な行動に報いるために反復的に訓練される。 高次元ロボット環境では、ハーフチェエタのフロントフリップやヒューマノイドの片足ランニングなど、幅広い興味深いスキルを学びます。 ピクセルベースのMontezumaのRevenge環境では、我々の方法は最小限の変更でも機能し、アイテムとのインタラクションや多様な場所の訪問に関わる複雑なスキルを学ぶ。 異なるスキルのアニメーションを示すweb版がhttps://as.inf.ethz.ch/research/open_ended_rl/main.htmlで利用可能である。

Inspired by the great success of unsupervised learning in Computer Vision and Natural Language Processing, the Reinforcement Learning community has recently started to focus more on unsupervised discovery of skills. Most current approaches, like DIAYN or DADS, optimize some form of mutual information objective. We propose a different approach that uses reward functions encoded by neural networks. These are trained iteratively to reward more complex behavior. In high-dimensional robotic environments our approach learns a wide range of interesting skills including front-flips for Half-Cheetah and one-legged running for Humanoid. In the pixel-based Montezuma's Revenge environment our method also works with minimal changes and it learns complex skills that involve interacting with items and visiting diverse locations. A web version of this paper which shows animations for the different skills is available in https://as.inf.ethz.ch/research/open_ended_RL/main.html
翻訳日:2022-02-18 14:56:23 公開日:2022-02-16
# 組合せ型マルチアーマッドバンドによる分散機械学習の効率化

Efficient Distributed Machine Learning via Combinatorial Multi-Armed Bandits ( http://arxiv.org/abs/2202.08302v1 )

ライセンス: Link先を確認
Maximilian Egger, Rawad Bitar, Antonia Wachter-Zeh and Deniz G\"und\"uz(参考訳) 分散確率勾配降下問題において、主ノードは、少なくとも$b \leq n$を並列に使用できる$n$ワーカー間で勾配計算を分散する。 すべてのワーカーにタスクを割り当て、$k$の高速なものだけを待つことで、メインノードはアルゴリズムが進化するにつれて徐々に$k$の増加によって、アルゴリズムのエラーをランタイムとトレードオフすることができる。 しかし、この戦略は適応的kシンクと呼ばれ、遅い作業者の計算作業を無視するため、追加コストを発生させることができる。 我々は、タスクを$k$ワーカーに割り当て、徐々に$k$を増加させるコスト効率の高いスキームを提案する。 使用可能な作業者の応答時間は,主ノードaプライオリに対して未知であるため,階層計算を割り当てながら最も速い作業者について学習し,遅い作業者の影響を最小限に抑えるために,組合せ型マルチアームバンディットモデルを用いる。 労働者の平均応答時間が異なる手段で独立して指数関数的に分配されていると仮定すると、我々の戦略の後悔、すなわち労働者の平均応答時間を学ぶのに費やした余分な時間を経験的および理論的保証を与える。 適応的k同期と比較して,本手法は,速度の点で劣る一方,同じ計算量で誤差を著しく低減する。

We consider the distributed stochastic gradient descent problem, where a main node distributes gradient calculations among $n$ workers from which at most $b \leq n$ can be utilized in parallel. By assigning tasks to all the workers and waiting only for the $k$ fastest ones, the main node can trade-off the error of the algorithm with its runtime by gradually increasing $k$ as the algorithm evolves. However, this strategy, referred to as adaptive k sync, can incur additional costs since it ignores the computational efforts of slow workers. We propose a cost-efficient scheme that assigns tasks only to $k$ workers and gradually increases $k$. As the response times of the available workers are unknown to the main node a priori, we utilize a combinatorial multi-armed bandit model to learn which workers are the fastest while assigning gradient calculations, and to minimize the effect of slow workers. Assuming that the mean response times of the workers are independent and exponentially distributed with different means, we give empirical and theoretical guarantees on the regret of our strategy, i.e., the extra time spent to learn the mean response times of the workers. Compared to adaptive k sync, our scheme achieves significantly lower errors with the same computational efforts while being inferior in terms of speed.
翻訳日:2022-02-18 14:52:09 公開日:2022-02-16
# Anomalib: 異常検出のためのディープラーニングライブラリ

Anomalib: A Deep Learning Library for Anomaly Detection ( http://arxiv.org/abs/2202.08341v1 )

ライセンス: Link先を確認
Samet Akcay, Dick Ameln, Ashwin Vaidya, Barath Lakshmanan, Nilesh Ahuja, Utku Genc(参考訳) 本稿では,非教師付き異常検出および局所化のための新しいライブラリであるAnomalibを紹介する。 再現性とモジュール性を念頭に置いて,このオープンソースライブラリは,文献からのアルゴリズムと,プラグイン・アンド・プレイアプローチによる独自の異常検出アルゴリズムを設計するためのツールセットを提供する。 Anomalibは最先端の異常検出アルゴリズムで構成されており、ベンチマーク上で最高のパフォーマンスを達成し、既定で使用できる。 さらにライブラリは、特定のニーズに合わせてカスタマイズ可能なカスタムアルゴリズムを設計するためのコンポーネントを提供する。 実験トラッカー、ビジュアライザ、ハイパーパラメータオプティマイザなどの追加ツールにより、異常検出モデルの設計と実装が簡単になる。 ライブラリはまた、リアルタイムデプロイメントのためのOpenVINOモデルの最適化と量子化もサポートする。 全体として、anomalibはデータからエッジへの教師なし異常検出モデルの設計、実装、デプロイのための広範なライブラリである。

This paper introduces anomalib, a novel library for unsupervised anomaly detection and localization. With reproducibility and modularity in mind, this open-source library provides algorithms from the literature and a set of tools to design custom anomaly detection algorithms via a plug-and-play approach. Anomalib comprises state-of-the-art anomaly detection algorithms that achieve top performance on the benchmarks and that can be used off-the-shelf. In addition, the library provides components to design custom algorithms that could be tailored towards specific needs. Additional tools, including experiment trackers, visualizers, and hyper-parameter optimizers, make it simple to design and implement anomaly detection models. The library also supports OpenVINO model optimization and quantization for real-time deployment. Overall, anomalib is an extensive library for the design, implementation, and deployment of unsupervised anomaly detection models from data to the edge.
翻訳日:2022-02-18 14:34:27 公開日:2022-02-16
# 最適なセットをどのように満たすか? 無害な多様性をもつ個体群勾配降下

How to Fill the Optimum Set? Population Gradient Descent with Harmless Diversity ( http://arxiv.org/abs/2202.08376v1 )

ライセンス: Link先を確認
Chengyue Gong, Lemeng Wu, Qiang Liu(参考訳) 従来の最適化手法は単一の最適解を見つけることに重点を置いているが、現代の機械学習問題、特にディープラーニングにおける目的関数の多くは、複数のオプティマを持つことが多い。 したがって、目的関数の最適集合における多様な点の集合を求める問題を考えることは有用である。 本研究では,この問題を,主損失関数の最適セット内における多様性スコアを最大化する二段階最適化問題とみなし,主損失関数の最適化を損なわない方法で,点を反復的に更新して多様性スコアを最大化する単純な集団勾配降下フレームワークを用いて解決する。 本手法は,テキスト対画像生成,テキスト対メッシュ生成,分子コンフォーメーション生成,アンサンブルニューラルネットワークトレーニングなど,さまざまなアプリケーションで効率的に多様な解を生成することができることを示す。

Although traditional optimization methods focus on finding a single optimal solution, most objective functions in modern machine learning problems, especially those in deep learning, often have multiple or infinite numbers of optima. Therefore, it is useful to consider the problem of finding a set of diverse points in the optimum set of an objective function. In this work, we frame this problem as a bi-level optimization problem of maximizing a diversity score inside the optimum set of the main loss function, and solve it with a simple population gradient descent framework that iteratively updates the points to maximize the diversity score in a fashion that does not hurt the optimization of the main loss. We demonstrate that our method can efficiently generate diverse solutions on a variety of applications, including text-to-image generation, text-to-mesh generation, molecular conformation generation and ensemble neural network training.
翻訳日:2022-02-18 14:34:13 公開日:2022-02-16
# 自己教師あり学習を用いた平面波us用位相収差ロバストビームフォーマ

Phase Aberration Robust Beamformer for Planewave US Using Self-Supervised Learning ( http://arxiv.org/abs/2202.08262v1 )

ライセンス: Link先を確認
Shujaat Khan, Jaeyoung Huh, Jong Chul Ye(参考訳) 超音波(US)はリアルタイム・非侵襲的な性質により臨床画像の応用に広く用いられている。 しかし, 音速(SoS)の変動に起因する位相収差アーチファクトにより, 多くの応用において病変検出性が制限されることがしばしばある。 そこで本研究では,位相収差堅牢な平面波イメージングを実現する3次元CNNを提案する。 従来の方法でSoS分布を推定する代わりに,音速の変動を確率的にモデル化し,様々な位相収差画像から高品質な画像を生成するために,ネットワークを自己教師型で訓練する手法が特徴的である。 組織微細化ファントムとtextit{in vivo} スキャンの実際の測定結果から, 提案手法は相収差アーティファクトを著しく低減し, 深部スキャンの視覚的品質を向上させることができることを確認した。

Ultrasound (US) is widely used for clinical imaging applications thanks to its real-time and non-invasive nature. However, its lesion detectability is often limited in many applications due to the phase aberration artefact caused by variations in the speed of sound (SoS) within body parts. To address this, here we propose a novel self-supervised 3D CNN that enables phase aberration robust plane-wave imaging. Instead of aiming at estimating the SoS distribution as in conventional methods, our approach is unique in that the network is trained in a self-supervised manner to robustly generate a high-quality image from various phase aberrated images by modeling the variation in the speed of sound as stochastic. Experimental results using real measurements from tissue-mimicking phantom and \textit{in vivo} scans confirmed that the proposed method can significantly reduce the phase aberration artifacts and improve the visual quality of deep scans.
翻訳日:2022-02-18 14:29:55 公開日:2022-02-16
# More to Less (M2L):ウェアラブルセンサのモダリティを低減した野生における健康認識の強化

More to Less (M2L): Enhanced Health Recognition in the Wild with Reduced Modality of Wearable Sensors ( http://arxiv.org/abs/2202.08267v1 )

ライセンス: Link先を確認
Huiyuan Yang, Han Yu, Kusha Sridhar, Thomas Vaessen, Inez Myin-Germeys and Akane Sano(参考訳) ウェアラブルデータから健康関連状態を正確に認識することは、医療結果の改善に不可欠である。 認識精度を向上させるために、複数のセンサからの情報を効果的に融合する方法に様々なアプローチが焦点を当てている。 複数のセンサーを融合することは、多くのアプリケーションで一般的なシナリオであるが、現実のシナリオでは必ずしも実現できない。 例えば、複数のセンサー(胸パッドセンサーと手首ウェアラブルセンサー)からの生体信号の組み合わせは、性能向上に有効であることが証明されているが、複数のデバイスを装着することは、自由生活環境では実用的ではないかもしれない。 課題を解決するために,複数モードの補完情報を活用し,センサの低減によるテスト性能向上を目的とした,より効果的なm2l学習フレームワークを提案する。 より具体的には、異なるセンサーは異なるが補完的な情報を持ち、このモデルは、ポジティブな知識伝達が奨励され、ネガティブな知識伝達が抑制される異なるモダリティ間のコラボレーションを強制するように設計されており、個々のモダリティに対してより良い表現が学習される。 実験の結果,本フレームワークは完全なモダリティと比較して同等の性能が得られることがわかった。 私たちのコードと結果はhttps://github.com/compwell-org/more2less.gitで入手できる。

Accurately recognizing health-related conditions from wearable data is crucial for improved healthcare outcomes. To improve the recognition accuracy, various approaches have focused on how to effectively fuse information from multiple sensors. Fusing multiple sensors is a common scenario in many applications, but may not always be feasible in real-world scenarios. For example, although combining bio-signals from multiple sensors (i.e., a chest pad sensor and a wrist wearable sensor) has been proved effective for improved performance, wearing multiple devices might be impractical in the free-living context. To solve the challenges, we propose an effective more to less (M2L) learning framework to improve testing performance with reduced sensors through leveraging the complementary information of multiple modalities during training. More specifically, different sensors may carry different but complementary information, and our model is designed to enforce collaborations among different modalities, where positive knowledge transfer is encouraged and negative knowledge transfer is suppressed, so that better representation is learned for individual modalities. Our experimental results show that our framework achieves comparable performance when compared with the full modalities. Our code and results will be available at https://github.com/compwell-org/More2Less.git.
翻訳日:2022-02-18 14:24:04 公開日:2022-02-16
# (参考訳) box教師付きビデオセグメンテーション提案ネットワーク

Box Supervised Video Segmentation Proposal Network ( http://arxiv.org/abs/2202.07025v2 )

ライセンス: CC BY 4.0
Tanveer Hannan, Rajat Koner, Jonathan Kobold, Matthias Schubert(参考訳) ビデオオブジェクトセグメンテーション(VOS)は、様々な完全教師付きおよび自己教師型のアプローチが対象となっている。 完全教師あり手法は優れた結果を示すが、ピクセルレベルの基底的真理を用いない自己教師あり方式が注目される。 しかし、自己監督アプローチは大きなパフォーマンスのギャップをもたらす。 ボックスレベルのアノテーションは、ラベル付け作業と画像セグメンテーションの結果品質のバランスのとれた妥協を提供するが、ビデオドメインでは利用されていない。 そこで本研究では,固有ビデオ特性を利用したボックス管理型ビデオオブジェクト分割提案ネットワークを提案する。 まず、双方向時間差と、新しいバウンディングボックス誘導動作補償を用いて、物体の動きを演算する。 第2に,類似した動きと色を共有する場合,ネットワークが正の画素対を予測することを促す,新しい動き認識アフィニティ損失を提案する。 提案手法は,DAVIS および Youtube-VOS データセット上の完全教師付き手法の大部分が,ネットワークアーキテクチャの仕様を課さずに16.4%,6.9% の$\mathcal{J}$および$\mathcal{F}$スコアを達成している。 我々は,データセットの広範なテストとアブレーションを行い,本手法の頑健性を示す。

Video Object Segmentation (VOS) has been targeted by various fully-supervised and self-supervised approaches. While fully-supervised methods demonstrate excellent results, self-supervised ones, which do not use pixel-level ground truth, attract much attention. However, self-supervised approaches pose a significant performance gap. Box-level annotations provide a balanced compromise between labeling effort and result quality for image segmentation but have not been exploited for the video domain. In this work, we propose a box-supervised video object segmentation proposal network, which takes advantage of intrinsic video properties. Our method incorporates object motion in the following way: first, motion is computed using a bidirectional temporal difference and a novel bounding box-guided motion compensation. Second, we introduce a novel motion-aware affinity loss that encourages the network to predict positive pixel pairs if they share similar motion and color. The proposed method outperforms the state-of-the-art self-supervised benchmark by 16.4% and 6.9% $\mathcal{J}$ &$\mathcal{F}$ score and the majority of fully supervised methods on the DAVIS and Youtube-VOS dataset without imposing network architectural specifications. We provide extensive tests and ablations on the datasets, demonstrating the robustness of our method.
翻訳日:2022-02-18 12:49:28 公開日:2022-02-16
# (参考訳) Facebook-Cambridge Analyticaデータ共有後の情報プライバシーに関する地域差

Regional Differences in Information Privacy Concerns After the Facebook-Cambridge Analytica Data Scandal ( http://arxiv.org/abs/2202.07075v2 )

ライセンス: CC BY 4.0
Felipe Gonz\'alez-Pizarro, Andrea Figueroa, Claudia L\'opez, Cecilia Aragon(参考訳) データプライバシに世界的な注目が集まっている一方で、現在の理論的な理解のほとんどは、いくつかの国で実施された研究に基づいている。 以前の研究は、人々の文化的背景がプライバシーの懸念を形作るかもしれないと主張しており、異なる世界地域の人々によって様々な方法でその概念化が期待できる。 我々は、スペイン語と英語の#CambridgeAnalyticaスキャンダルに関する大規模なツイートのデータセットを収集し、分析し、この仮説を探求し始めた。 単語埋め込みと質的分析を用いて、どの情報プライバシー問題が存在するかを特定し、これらの問題に重点を置く言語と地域差を特徴付ける。 この結果から,現行の情報プライバシーフレームワークに規制などの関連概念を付加できることが示唆された。 また、スペイン語よりも英語のデータ収集に重点を置いています。 さらに、北米のデータは、研究対象の他の地域に比べて意識に焦点を絞っている。 弊社の結果は、より多様なデータソースと、世界中のデータプライバシに関する微妙な分析を求めている。

While there is increasing global attention to data privacy, most of their current theoretical understanding is based on research conducted in a few countries. Prior work argues that people's cultural backgrounds might shape their privacy concerns; thus, we could expect people from different world regions to conceptualize them in diverse ways. We collected and analyzed a large-scale dataset of tweets about the #CambridgeAnalytica scandal in Spanish and English to start exploring this hypothesis. We employed word embeddings and qualitative analysis to identify which information privacy concerns are present and characterize language and regional differences in emphasis on these concerns. Our results suggest that related concepts, such as regulations, can be added to current information privacy frameworks. We also observe a greater emphasis on data collection in English than in Spanish. Additionally, data from North America exhibits a narrower focus on awareness compared to other regions under study. Our results call for more diverse sources of data and nuanced analysis of data privacy concerns around the globe.
翻訳日:2022-02-18 12:35:14 公開日:2022-02-16
# (参考訳) 教師なし領域適応による行動による神経集団活動のクロスセッション記録のロバストアライメント

Robust alignment of cross-session recordings of neural population activity by behaviour via unsupervised domain adaptation ( http://arxiv.org/abs/2202.06159v2 )

ライセンス: CC BY 4.0
Justin Jude, Matthew G Perich, Lee E Miller, Matthias H Hennig(参考訳) 多電極アレイを用いて記録されたデータの高次元性にもかかわらず、行動に関する神経集団活動は本質的に低次元であると推定されている。 そのため、潜時変動モデルを用いた場合、神経集団記録からの予測行動が最も効果的であることが示されている。 しかし、時間とともに単一ニューロンの活動がドリフトし、移植された神経プローブの動きによって異なるニューロンが記録される。 つまり、ある日の振る舞いを予測するために訓練されたデコーダは、別の日にテストした場合、さらに悪化する。 一方で、潜伏運動が数ヶ月や数年にわたって安定している可能性が示唆されている。 この考え方に基づき、復号器の校正を必要とせず、同一動物から記録された未確認データから行動関連潜伏動態を推定できるモデルを導入する。 教師なし領域適応と逐次変分オートエンコーダが組み合わさって複数のセッションで訓練され、未把握データに対する良好な一般化を達成し、従来の手法が故障した振る舞いを正確に予測できることを示す。 さらに,行動関連ニューラルダイナミクスは時間とともに低次元で安定し,より効果的で柔軟な脳コンピュータインタフェース技術の利用を可能にするという仮説をさらに支持する。

Neural population activity relating to behaviour is assumed to be inherently low-dimensional despite the observed high dimensionality of data recorded using multi-electrode arrays. Therefore, predicting behaviour from neural population recordings has been shown to be most effective when using latent variable models. Over time however, the activity of single neurons can drift, and different neurons will be recorded due to movement of implanted neural probes. This means that a decoder trained to predict behaviour on one day performs worse when tested on a different day. On the other hand, evidence suggests that the latent dynamics underlying behaviour may be stable even over months and years. Based on this idea, we introduce a model capable of inferring behaviourally relevant latent dynamics from previously unseen data recorded from the same animal, without any need for decoder recalibration. We show that unsupervised domain adaptation combined with a sequential variational autoencoder, trained on several sessions, can achieve good generalisation to unseen data and correctly predict behaviour where conventional methods fail. Our results further support the hypothesis that behaviour-related neural dynamics are low-dimensional and stable over time, and will enable more effective and flexible use of brain computer interface technologies.
翻訳日:2022-02-18 07:05:13 公開日:2022-02-16
# (参考訳) 転送深層学習を用いた低レイテンシリアルタイムシーズーア検出

Low Latency Real-Time Seizure Detection Using Transfer Deep Learning ( http://arxiv.org/abs/2202.07796v1 )

ライセンス: CC BY 4.0
Vahid Khalkhali, Nabila Shawki, Vinit Shah, Meysam Golmohammadi, Iyad Obeid, Joseph Picone(参考訳) スカルプ脳波(EEG)信号は、信号が電気的に伝達される方法によって、本質的に低信号対雑音比を持つ。 発作の正確な検出を達成するためには、時間的および空間的な情報を活用する必要がある。 ディープラーニングを用いた発作検出における最も一般的なアプローチは、この情報を共同でモデル化したり、信号に複数のパスを必要とすることはない。 本稿では,マルチチャネル信号をグレースケール画像に変換すると同時に,転送学習を用いて高い性能を実現する。 提案手法は, 計算処理が軽量で遅延が少ない非常に単純な前処理および後処理操作のみを用いて, エンドツーエンドで訓練され, リアルタイム処理を必要とする臨床応用に寄与する。 テンプル大学病院発作検出コーパスv1.5.2の開発データセットにおいて,24時間に5.78件の誤報が発生し,42.05%の感度が得られた。 1.7GHzで動作するシングルコアCPUでは、システムはリアルタイム(0.58 xRT)よりも高速に動作し、16GBのメモリを使用し、レイテンシは300msecである。

Scalp electroencephalogram (EEG) signals inherently have a low signal-to-noise ratio due to the way the signal is electrically transduced. Temporal and spatial information must be exploited to achieve accurate detection of seizure events. Most popular approaches to seizure detection using deep learning do not jointly model this information or require multiple passes over the signal, which makes the systems inherently non-causal. In this paper, we exploit both simultaneously by converting the multichannel signal to a grayscale image and using transfer learning to achieve high performance. The proposed system is trained end-to-end with only very simple pre- and postprocessing operations which are computationally lightweight and have low latency, making them conducive to clinical applications that require real-time processing. We have achieved a performance of 42.05% sensitivity with 5.78 false alarms per 24 hours on the development dataset of v1.5.2 of the Temple University Hospital Seizure Detection Corpus. On a single-core CPU operating at 1.7 GHz, the system runs faster than real-time (0.58 xRT), uses 16 Gbytes of memory, and has a latency of 300 msec.
翻訳日:2022-02-18 02:55:28 公開日:2022-02-16
# (参考訳) 移動型クラウドセンシングにおける生成的広告ネットワーク駆動型広告タスク検出

Generative Adversarial Network-Driven Detection of Adversarial Tasks in Mobile Crowdsensing ( http://arxiv.org/abs/2202.07802v1 )

ライセンス: CC BY 4.0
Zhiyan Chen and Burak Kantarci(参考訳) モバイルのクラウドセンシングシステムは、不特定かつユビキタスなプロパティの上に構築されるさまざまな攻撃に対して脆弱である。 機械学習(ML)ベースのアプローチは、攻撃検知システムを構築し、MCSシステムのセキュリティを確保するために広く研究されている。 しかし、センシングフロントエンドとMCSバックエンドのクローンを目指す敵はインテリジェントな技術を活用しており、MCSプラットフォームやサービスプロバイダがこれらの攻撃に対して適切な検出フレームワークを開発することは困難である。 generative adversarial network (gans) は、実際のサンプルと非常によく似た合成サンプルを生成するために用いられており、合成サンプルがオリジナルと区別できないような分類器を欺いている。 以前の研究から、ganベースの攻撃は、経験的に設計された攻撃サンプルよりも重大な破壊を示し、mcsプラットフォームでの検知率が低いことが示唆された。 そこで本稿は,GANモデルを統合することにより,知的に設計された不正なセンシングサービス要求を検出することを目的とする。 そこで本研究では,GAN識別器とバイナリ分類器を組み合わせた2段階のカスケード分類器を提案する。 シミュレーションの結果を1段階のバイナリ分類器と比較し,提案手法が敵の攻撃検出率(aadr)を0\%$から97.5\%$ by knn/nb, 45.9\%$から100\%$ by decision tree に引き上げることを示した。 一方、2レベル分類器では、元の攻撃検出レート(OADR)が3つのバイナリ分類器で改善され、NBは26.1\%$から61.5\%$に比較される。

Mobile Crowdsensing systems are vulnerable to various attacks as they build on non-dedicated and ubiquitous properties. Machine learning (ML)-based approaches are widely investigated to build attack detection systems and ensure MCS systems security. However, adversaries that aim to clog the sensing front-end and MCS back-end leverage intelligent techniques, which are challenging for MCS platform and service providers to develop appropriate detection frameworks against these attacks. Generative Adversarial Networks (GANs) have been applied to generate synthetic samples, that are extremely similar to the real ones, deceiving classifiers such that the synthetic samples are indistinguishable from the originals. Previous works suggest that GAN-based attacks exhibit more crucial devastation than empirically designed attack samples, and result in low detection rate at the MCS platform. With this in mind, this paper aims to detect intelligently designed illegitimate sensing service requests by integrating a GAN-based model. To this end, we propose a two-level cascading classifier that combines the GAN discriminator with a binary classifier to prevent adversarial fake tasks. Through simulations, we compare our results to a single-level binary classifier, and the numeric results show that proposed approach raises Adversarial Attack Detection Rate (AADR), from $0\%$ to $97.5\%$ by KNN/NB, from $45.9\%$ to $100\%$ by Decision Tree. Meanwhile, with two-levels classifiers, Original Attack Detection Rate (OADR) improves for the three binary classifiers, with comparison, such as NB from $26.1\%$ to $61.5\%$.
翻訳日:2022-02-18 02:45:47 公開日:2022-02-16
# (参考訳) Reading APIドキュメンテーションによる未知ライブラリのコード生成

Code Generation for Unknown Libraries via Reading API Documentations ( http://arxiv.org/abs/2202.07806v1 )

ライセンス: CC BY 4.0
Koki Washio and Yusuke Miyao(参考訳) オープンドメインのコード生成は、私たちが使っている関数やクラスが頻繁に変更され、プログラミングコミュニティで拡張されるため、難しい問題です。 我々は、追加のトレーニングなしで未知のライブラリのコード生成の課題を考える。 本稿では、未知のライブラリを扱うために、人間プログラマのような関連するAPIドキュメントを参照できるコード生成フレームワークについて検討する。 この方向への第一歩として、自然言語の意図に基づいてAPIドキュメントから関連コードシグネチャを抽出し、抽出したシグネチャからプリミティブをコピーするモデルを実装した。 さらに、未知のライブラリやフレームワークのコード生成を評価するために、既存のオープンドメインコード生成データセットを拡張して再分割することで、評価データはトレーニングデータに現れないライブラリを使用した例のみで構成されます。 我々の新しい分割実験は、ベースラインエンコーダデコーダモデルが期待通りに未知のライブラリのプリミティブを使用してコードを生成することができないことを示している。 対照的に、我々のモデルは新しい分割のベースラインよりも優れており、抽出された符号シグネチャがノイズのないときに未知のプリミティブを適切に生成することができる。

Open-domain code generation is a challenging problem because the set of functions and classes that we use are frequently changed and extended in programming communities. We consider the challenge of code generation for unknown libraries without additional training. In this paper, we explore a framework of code generation that can refer to relevant API documentations like human programmers to handle unknown libraries. As a first step of this direction, we implement a model that can extract relevant code signatures from API documentations based on a natural language intent and copy primitives from the extracted signatures. Moreover, to evaluate code generation for unknown libraries and our framework, we extend an existing dataset of open-domain code generation and resplit it so that the evaluation data consist of only examples using the libraries that do not appear in the training data. Experiments on our new split show that baseline encoder-decoder models cannot generate code using primitives of unknown libraries as expected. In contrast, our model outperforms the baseline on the new split and can properly generate unknown primitives when extracted code signatures are noiseless.
翻訳日:2022-02-18 02:33:41 公開日:2022-02-16
# (参考訳) ランダム化準モンテカルロによる政策学習と評価

Policy Learning and Evaluation with Randomized Quasi-Monte Carlo ( http://arxiv.org/abs/2202.07808v1 )

ライセンス: CC BY 4.0
Sebastien M. R. Arnold, Pierre L'Ecuyer, Liyu Chen, Yi-fan Chen, Fei Sha(参考訳) 強化学習は、政策評価や政策イテレーションにおけるコンピューティングの期待など、ハード積分を常に扱う。 これらの積分は解析的に解くことは滅多になく、典型的なモンテカルロ法(英語版)は政策値や勾配のばらつきを引き起こす。 本研究では,モンテカルロサンプルを低差分点集合に置き換えることを提案する。 ポリシー勾配法とランダム化準モンテカルロ法を組み合わせることで、ポリシー勾配とアクター批判アルゴリズムのばらつきを導出する。 これらの定式化は、標準化された連続制御ベンチマークで最先端のアルゴリズムを上回るため、ポリシー評価やポリシー改善に有効である。 我々の経験的分析はモンテカルロを準モンテカルロに置き換えた直観がより正確な勾配推定をもたらすことを示す。

Reinforcement learning constantly deals with hard integrals, for example when computing expectations in policy evaluation and policy iteration. These integrals are rarely analytically solvable and typically esimated with the Monte Carlo method, which induces high variance in policy values and gradients. In this work, we propose to replace Monte Carlo samples with low-discrepancy point sets. We combine policy gradient methods with Randomized Quasi-Monte Carlo, yielding variance-reduced formulations of policy gradient and actor-critic algorithms. These formulations are effective for policy evaluation and policy improvement, as they outperform state-of-the-art algorithms on standardized continuous control benchmarks. Our empirical analyses validate the intuition that replacing Monte Carlo with Quasi-Monte Carlo yields significantly more accurate gradient estimates.
翻訳日:2022-02-18 02:17:51 公開日:2022-02-16
# (参考訳) 自律走行車のデータ効率と信頼性向上への逆ネットワークの適用

Applying adversarial networks to increase the data efficiency and reliability of Self-Driving Cars ( http://arxiv.org/abs/2202.07815v1 )

ライセンス: CC BY 4.0
Aakash Kumar(参考訳) 畳み込みニューラルネットワーク(CNN)は、小さな摂動が存在する場合、画像の分類ミスに対して脆弱である。 自動運転車におけるCNNの普及に伴い、これらのアルゴリズムが状況認識の失敗による衝突の防止のために堅牢であることを保証することが不可欠である。 Adversarial Self-Driving frameworkでは、GAN(Generative Adversarial Network)が実装され、画像内の現実的な摂動を生成し、分類器CNNがデータを誤分類する。 この摂動データは、さらに分類器CNNを訓練するために使用される。 Adversarial Self-driving framework は画像分類アルゴリズムに適用され、摂動画像の分類精度を改善し、後にシミュレーションで運転する自動運転車の訓練に適用される。 小型の自動運転車もトラックを走り回り、標識を分類するために作られている。 敵対的自動運転フレームワークは、データセットを学習することで摂動画像を生成し、結果として大量のデータをトレーニングする必要がなくなる。 Adversarial Self-driving frameworkは、CNNが摂動に弱い状況を認識し、CNNがトレーニングするこれらの状況の新しい例を生成することを実証している。 Adversarial Self-driving frameworkによって生成された追加データは、CNNが環境に一般化するための十分なデータを提供する。 そのため、摂動に対するCNNの弾力性を高めるための有効なツールである。 特に、現実世界の自動運転車では、Adversarial Self-Drivingフレームワークの適用により精度が18%向上し、シミュレートされた自動運転モデルは30分で衝突することはなかった。

Convolutional Neural Networks (CNNs) are vulnerable to misclassifying images when small perturbations are present. With the increasing prevalence of CNNs in self-driving cars, it is vital to ensure these algorithms are robust to prevent collisions from occurring due to failure in recognizing a situation. In the Adversarial Self-Driving framework, a Generative Adversarial Network (GAN) is implemented to generate realistic perturbations in an image that cause a classifier CNN to misclassify data. This perturbed data is then used to train the classifier CNN further. The Adversarial Self-driving framework is applied to an image classification algorithm to improve the classification accuracy on perturbed images and is later applied to train a self-driving car to drive in a simulation. A small-scale self-driving car is also built to drive around a track and classify signs. The Adversarial Self-driving framework produces perturbed images through learning a dataset, as a result removing the need to train on significant amounts of data. Experiments demonstrate that the Adversarial Self-driving framework identifies situations where CNNs are vulnerable to perturbations and generates new examples of these situations for the CNN to train on. The additional data generated by the Adversarial Self-driving framework provides sufficient data for the CNN to generalize to the environment. Therefore, it is a viable tool to increase the resilience of CNNs to perturbations. Particularly, in the real-world self-driving car, the application of the Adversarial Self-Driving framework resulted in an 18 % increase in accuracy, and the simulated self-driving model had no collisions in 30 minutes of driving.
翻訳日:2022-02-18 01:42:13 公開日:2022-02-16
# (参考訳) コンピュータ支援精子分析による顕微鏡映像の精液品質評価の検討

A Survey of Semen Quality Evaluation in Microscopic Videos Using Computer Assisted Sperm Analysis ( http://arxiv.org/abs/2202.07820v1 )

ライセンス: CC BY 4.0
Wenwei Zhao, Pingli Ma, Chen Li, Xiaoning Bu, Shuojia Zou, Tao Jang, Marcin Grzegorzek(参考訳) CASA(Computer Assisted Sperm Analysis)は、男性生殖健康診断と不妊治療において重要な役割を担っている。 近年,コンピュータ産業の発展に伴い,精度の高いアルゴリズムが提案されている。 これらの新しいアルゴリズムの助けを借りて、CASAはより高速で高品質な結果を得ることができる。 画像処理はcasaの技術的基盤であり、前処理、特徴抽出、ターゲット検出、追跡などを含むため、これらの手法はcasaを扱う上で重要な技術的ステップである。 過去30年間(1988年以降)のコンピュータ・アシスト精子分析手法に関する様々な研究が包括的に紹介され、分析されている。 理解を容易にするために、関連する方法は精子分析の一般的なステップのシーケンスで分析される。 言い換えると、精子検出(局所化)に関連する方法が最初に分析され、その後、精子追跡の方法が分析される。 これとは別に、我々はCASAの現状と将来を分析・予測する。 本研究によれば,本論文で述べた方法の精子顕微鏡映像に適用できる可能性について解説した。 さらに、顕微鏡映像における物体検出と追跡の課題は、この調査に触発されて解決される可能性がある。

The Computer Assisted Sperm Analysis (CASA) plays a crucial role in male reproductive health diagnosis and Infertility treatment. With the development of the computer industry in recent years, a great of accurate algorithms are proposed. With the assistance of those novel algorithms, it is possible for CASA to achieve a faster and higher quality result. Since image processing is the technical basis of CASA, including pre-processing,feature extraction, target detection and tracking, these methods are important technical steps in dealing with CASA. The various works related to Computer Assisted Sperm Analysis methods in the last 30 years (since 1988) are comprehensively introduced and analysed in this survey. To facilitate understanding, the methods involved are analysed in the sequence of general steps in sperm analysis. In other words, the methods related to sperm detection (localization) are first analysed, and then the methods of sperm tracking are analysed. Beside this, we analyse and prospect the present situation and future of CASA. According to our work, the feasible for applying in sperm microscopic video of methods mentioned in this review is explained. Moreover, existing challenges of object detection and tracking in microscope video are potential to be solved inspired by this survey.
翻訳日:2022-02-18 01:35:33 公開日:2022-02-16
# (参考訳) 3D U-Net と Cox Proportional Hazard Neural Network を用いたPET/CT ボリュームにおける頭頸部癌のセグメンテーションとリスクスコア予測

Segmentation and Risk Score Prediction of Head and Neck Cancers in PET/CT Volumes with 3D U-Net and Cox Proportional Hazard Neural Networks ( http://arxiv.org/abs/2202.07823v1 )

ライセンス: CC BY 4.0
Fereshteh Yousefirizi, Ian Janzen, Natalia Dubljevic, Yueh-En Liu, Chloe Hill, Calum MacAulay, Arman Rahmim(参考訳) 頭頸部腫瘍郭清チャルレンジ(HECKTOR)によるPET/CT画像からの腫瘍分画の縮小・励起法(SE)正規化を補足した残層を有する3D nnU-Netモデルを用いて検討した。 提案する損失関数は,分布,領域,境界に基づく損失関数を活用すべく,fo-calとmumford-shahの統一損失を取り入れている。 異なるセンターで行ったアウト・ワン・センター・クロス・バリデーションの結果, セグメンテーション性能は平均Diceスコア(DSC)0.82, 中央Husdorff Distance(HD)3.16で, テストセットでは0.77 DSC, 3.01 HDであった。 病変分割後,MLPニューラルネットバックボーンを用いたケースコントロール型比例ハザード Cox モデルの訓練を提案し,各病変の危険度を推定した。 このハザードリスク予測モデル (CoxCC) は, 多入力PET/CT畳み込みニューラルネットワーク(PET/CT畳み込みニューラルネットワーク)を用いて, 各病変の時間変化を予測するために, セグメント状病変, 患者および病変の層から抽出したPET/CT放射線学的特徴, エンコーダ的特徴を訓練する。 10倍のクロスバリア付きcoxccモデルは、ヘクターチャレンジテストデータセットでc-indexバリデーションスコア0.89、c-indexスコア0.61となった。

We utilized a 3D nnU-Net model with residual layers supplemented by squeeze and excitation (SE) normalization for tumor segmentation from PET/CT images provided by the Head and Neck Tumor segmentation chal-lenge (HECKTOR). Our proposed loss function incorporates the Unified Fo-cal and Mumford-Shah losses to take the advantage of distribution, region, and boundary-based loss functions. The results of leave-one-out-center-cross-validation performed on different centers showed a segmentation performance of 0.82 average Dice score (DSC) and 3.16 median Hausdorff Distance (HD), and our results on the test set achieved 0.77 DSC and 3.01 HD. Following lesion segmentation, we proposed training a case-control proportional hazard Cox model with an MLP neural net backbone to predict the hazard risk score for each discrete lesion. This hazard risk prediction model (CoxCC) was to be trained on a number of PET/CT radiomic features extracted from the segmented lesions, patient and lesion demographics, and encoder features provided from the penultimate layer of a multi-input 2D PET/CT convolutional neural network tasked with predicting time-to-event for each lesion. A 10-fold cross-validated CoxCC model resulted in a c-index validation score of 0.89, and a c-index score of 0.61 on the HECKTOR challenge test dataset.
翻訳日:2022-02-18 01:34:26 公開日:2022-02-16
# (参考訳) CenGCN: スケールフリーグラフのための頂点不均衡を伴う集中型畳み込みネットワーク

CenGCN: Centralized Convolutional Networks with Vertex Imbalance for Scale-Free Graphs ( http://arxiv.org/abs/2202.07826v1 )

ライセンス: CC BY 4.0
Feng Xia, Lei Wang, Tao Tang, Xin Chen, Xiangjie Kong, Giles Oatley, Irwin King(参考訳) Graph Convolutional Networks (GCNs) は様々な分野で優れたパフォーマンスを発揮しており、かなりの注目を集めている。 GCNsの中核となるステップは、隣人から中央頂点への全ての情報が等しく重要であると考える情報パスフレームワークである。 しかし、このような重要性は、ハブ頂点が頂点不均衡によりより支配的な情報を伝播するスケールフリーネットワークでは不十分である。 本稿では,情報の不平等に対処するため,CenGCNという新たな集中型フレームワークを提案する。 この枠組みはハブ頂点のラベル伝播によってハブ頂点とその近傍の類似性を最初に定量化する。 この類似性と中心性指数に基づいて、このフレームワークはハブ頂点を接続するエッジの重みを増減し、頂点に自己接続を加えることによってグラフを変換する。 GCNの各非出力層では、ハブアテンション機構を使用して、ハブ頂点との共通情報に基づいて接続された非ハブ頂点に新たな重み付けを割り当てる。 CenGCN\_D と CenGCN\_E はそれぞれ等級集中度と固有ベクトル中心度に基づく2つの変種を示す。 また,頂点分類,リンク予測,頂点クラスタリング,ネットワーク可視化などの包括的な実験を行う。 その結果、2つの変種は最先端のベースラインを著しく上回ることがわかった。

Graph Convolutional Networks (GCNs) have achieved impressive performance in a wide variety of areas, attracting considerable attention. The core step of GCNs is the information-passing framework that considers all information from neighbors to the central vertex to be equally important. Such equal importance, however, is inadequate for scale-free networks, where hub vertices propagate more dominant information due to vertex imbalance. In this paper, we propose a novel centrality-based framework named CenGCN to address the inequality of information. This framework first quantifies the similarity between hub vertices and their neighbors by label propagation with hub vertices. Based on this similarity and centrality indices, the framework transforms the graph by increasing or decreasing the weights of edges connecting hub vertices and adding self-connections to vertices. In each non-output layer of the GCN, this framework uses a hub attention mechanism to assign new weights to connected non-hub vertices based on their common information with hub vertices. We present two variants CenGCN\_D and CenGCN\_E, based on degree centrality and eigenvector centrality, respectively. We also conduct comprehensive experiments, including vertex classification, link prediction, vertex clustering, and network visualization. The results demonstrate that the two variants significantly outperform state-of-the-art baselines.
翻訳日:2022-02-18 01:24:44 公開日:2022-02-16
# (参考訳) ヘテロジニアスグラフ学習による学術ネットワーク上でのレコメンデーション

Heterogeneous Graph Learning for Explainable Recommendation over Academic Networks ( http://arxiv.org/abs/2202.07832v1 )

ライセンス: CC BY 4.0
Xiangtai Chen, Tao Tang, Jing Ren, Ivan Lee, Honglong Chen, Feng Xia(参考訳) 毎年研究学位を持つ新卒者の爆発的な成長により、早産研究者が適切な機関で職を見つけるという前例のない課題が生じる。 本研究は、学業移行の行動を理解することを目的として、PhD卒業生に適した制度を推薦する。 具体的には、早産研究者のキャリアの動きを予測し、提案する深層学習モデルを設計する。 このデザインは学術的/学術的なネットワークの上に構築され、学者や機関間の科学的な協力に関する豊富な情報を含んでいる。 我々は,キャリア活動の行動の探索と研究機関の推薦を促進するために,異質な学術ネットワークを構築した。 施設推薦のための注意機構と相互情報を集約した「hai(heterogeneous graph attention infomax)」と呼ばれる教師なし学習モデルを開発した。 さらに,複数のメタパス間の隠れた関係を明らかにするために,学術的注意とメタパス的注意を提案する。 これらのメカニズムにより、HAIは説明可能な順序付きレコメンデーションを提供する。 我々は,HAIをベースライン手法に対して実世界のデータセット上で評価する。 実験の結果,本手法の有効性と有効性が検証された。

With the explosive growth of new graduates with research degrees every year, unprecedented challenges arise for early-career researchers to find a job at a suitable institution. This study aims to understand the behavior of academic job transition and hence recommend suitable institutions for PhD graduates. Specifically, we design a deep learning model to predict the career move of early-career researchers and provide suggestions. The design is built on top of scholarly/academic networks, which contains abundant information about scientific collaboration among scholars and institutions. We construct a heterogeneous scholarly network to facilitate the exploring of the behavior of career moves and the recommendation of institutions for scholars. We devise an unsupervised learning model called HAI (Heterogeneous graph Attention InfoMax) which aggregates attention mechanism and mutual information for institution recommendation. Moreover, we propose scholar attention and meta-path attention to discover the hidden relationships between several meta-paths. With these mechanisms, HAI provides ordered recommendations with explainability. We evaluate HAI upon a real-world dataset against baseline methods. Experimental results verify the effectiveness and efficiency of our approach.
翻訳日:2022-02-18 00:57:55 公開日:2022-02-16
# (参考訳) BAT-MCSに基づく長期記憶リカレントニューラルネットワークの2状態ネットワーク近似時間依存信頼性問題への適用

Application of Long Short-Term Memory Recurrent Neural Networks Based on the BAT-MCS for Binary-State Network Approximated Time-Dependent Reliability Problems ( http://arxiv.org/abs/2202.07837v1 )

ライセンス: CC0 1.0
Wei-Chang Yeh(参考訳) 信頼性は、現代のネットワークの性能を評価する重要なツールである。 現在、各コンポーネントの信頼性が固定されると仮定すると、NPハードと#Pハードでバイナリ状態ネットワークの正確な信頼性を計算することができる。 しかし、各コンポーネントの信頼性は常に時間によって異なるため、この仮定は非現実的である。 そこで本研究では,長寿命メモリ(LSTM),モンテカルロシミュレーション(MCS),バイナリ適応木アルゴリズム(BAT)に基づくLSTM-BAT-MCSと呼ばれる新しいアルゴリズムを提案する。 提案したLSTM-BAT-MCSの優位性は、少なくとも10-4平均二乗誤差を持つ3つのベンチマークネットワークの実験結果によって実証された。

Reliability is an important tool for evaluating the performance of modern networks. Currently, it is NP-hard and #P-hard to calculate the exact reliability of a binary-state network when the reliability of each component is assumed to be fixed. However, this assumption is unrealistic because the reliability of each component always varies with time. To meet this practical requirement, we propose a new algorithm called the LSTM-BAT-MCS, based on long short-term memory (LSTM), the Monte Carlo simulation (MCS), and the binary-adaption-tree algorithm (BAT). The superiority of the proposed LSTM-BAT-MCS was demonstrated by experimental results of three benchmark networks with at most 10-4 mean square error.
翻訳日:2022-02-18 00:44:03 公開日:2022-02-16
# (参考訳) ロングランジ変圧器のNLPタスク効果

The NLP Task Effectiveness of Long-Range Transformers ( http://arxiv.org/abs/2202.07856v1 )

ライセンス: CC BY 4.0
Guanghui Qin, Yukun Feng, Benjamin Van Durme(参考訳) トランスフォーマーモデルは、o(n^2)時間と空間の複雑さのため、長いシーケンスに容易にスケールできない。 これによりTransformerの変種はLongformerやPerformerといった計算複雑性を減らそうとしている。 このようなモデルは理論上より効率が良いが、実際のNLPタスクに対する有効性は十分に研究されていない。 5つの難解なnlpタスクと7つのデータセットでトランスフォーマーモデルの7つの変種をベンチマークする。 我々は,事前学習とハイパーパラメータ設定の効果を分離し,長期注意のためのキャパシティに着目した実験をデザインする。 さらに,注意行動を調べるための様々な手法を提案し,測定値以外のモデルの詳細を照らし出す。 長距離トランスフォーマーの注目は,コンテンツ選択やクエリ誘導デコードに優れるが,遠隔トークンに対する注意不足など,これまで認識されていなかった欠点が伴う。

Transformer models cannot easily scale to long sequences due to their O(N^2) time and space complexity. This has led to Transformer variants seeking to lessen computational complexity, such as Longformer and Performer. While such models have theoretically greater efficiency, their effectiveness on real NLP tasks has not been well studied. We benchmark 7 variants of Transformer models on 5 difficult NLP tasks and 7 datasets. We design experiments to isolate the effect of pretraining and hyperparameter settings, to focus on their capacity for long-range attention. Moreover, we present various methods to investigate attention behaviors, to illuminate model details beyond metric scores. We find that attention of long-range transformers has advantages on content selection and query-guided decoding, but they come with previously unrecognized drawbacks such as insufficient attention to distant tokens.
翻訳日:2022-02-18 00:27:48 公開日:2022-02-16
# (参考訳) ITTC @ TREC 2021 臨床試験トラック

ITTC @ TREC 2021 Clinical Trials Track ( http://arxiv.org/abs/2202.07858v1 )

ライセンス: CC BY 4.0
Thinh Hung Truong, Yulia Otmakhova, Rahmad Mahendra, Timothy Baldwin, Jey Han Lau, Trevor Cohn, Lawrence Cavedon, Damiano Spina, Karin Verspoor(参考訳) 本稿では,オーストラリア研究会議産業変革訓練センター(ITTC)の自然言語処理チーム(NLP)のTREC 2021臨床試験トラックへの提出について述べる。 本課題は、患者の入院ノートの要約を構成するトピックに有効な臨床試験を適合させる問題に焦点を当てる。 NLP手法を用いて試行とトピックの表現方法を探索し、共通の検索モデルを用いて各トピックに関連するトライアルのランク付けリストを生成する。 提出されたすべてのテストの結果は、すべてのトピックの中央値を大きく上回っていますが、改善の余地はたくさんあります。

This paper describes the submissions of the Natural Language Processing (NLP) team from the Australian Research Council Industrial Transformation Training Centre (ITTC) for Cognitive Computing in Medical Technologies to the TREC 2021 Clinical Trials Track. The task focuses on the problem of matching eligible clinical trials to topics constituting a summary of a patient's admission notes. We explore different ways of representing trials and topics using NLP techniques, and then use a common retrieval model to generate the ranked list of relevant trials for each topic. The results from all our submitted runs are well above the median scores for all topics, but there is still plenty of scope for improvement.
翻訳日:2022-02-18 00:07:16 公開日:2022-02-16
# (参考訳) 大規模事前学習言語モデルからエンドツーエンド音声認識への知識伝達

Knowledge Transfer from Large-scale Pretrained Language Models to End-to-end Speech Recognizers ( http://arxiv.org/abs/2202.07894v1 )

ライセンス: CC BY 4.0
Yotaro Kubo, Shigeki Karita, Michiel Bacchiani(参考訳) エンドツーエンド音声認識は、音響モデルと言語モデルを単一のニューラルネットワークに統合できるため、コンパクトな自動音声認識(asr)システムを実現する有望な技術である。 しかし、欠点として、エンドツーエンドの音声認識者の訓練には、常に書き起こされた発話が必要である。 エンド・ツー・エンドのモデルはひどいデータ空腹であることが知られているため、この制約は特に、転写された発話の入手にコストがかかり、実用的または不可能な可能性があるため重要である。 本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。 具体的には,大規模言語モデルの埋め込みベクトルから得られた意味知識の伝達を試みる。 埋め込みベクトルは、音声の一部や意図などの言語情報の暗黙的な表現とみなすことができるため、ASRデコーダのモデリングにも有用であることが期待されている。 本稿では,アテンションベースのデコーダとニューラルトランスデューサの2種類のASRデコーダを,埋め込み予測項を含むトレーニング損失関数を変更することで拡張する。 提案システムは,復号フェーズにおいて余分な計算コストを発生させることなく,誤り率低減に有効であることがわかった。

End-to-end speech recognition is a promising technology for enabling compact automatic speech recognition (ASR) systems since it can unify the acoustic and language model into a single neural network. However, as a drawback, training of end-to-end speech recognizers always requires transcribed utterances. Since end-to-end models are also known to be severely data hungry, this constraint is crucial especially because obtaining transcribed utterances is costly and can possibly be impractical or impossible. This paper proposes a method for alleviating this issue by transferring knowledge from a language model neural network that can be pretrained with text-only data. Specifically, this paper attempts to transfer semantic knowledge acquired in embedding vectors of large-scale language models. Since embedding vectors can be assumed as implicit representations of linguistic information such as part-of-speech, intent, and so on, those are also expected to be useful modeling cues for ASR decoders. This paper extends two types of ASR decoders, attention-based decoders and neural transducers, by modifying training loss functions to include embedding prediction terms. The proposed systems were shown to be effective for error rate reduction without incurring extra computational costs in the decoding phase.
翻訳日:2022-02-17 23:57:44 公開日:2022-02-16
# (参考訳) ActionFormer: トランスフォーマーによるアクションのモーメントのローカライズ

ActionFormer: Localizing Moments of Actions with Transformers ( http://arxiv.org/abs/2202.07925v1 )

ライセンス: CC BY 4.0
Chenlin Zhang, Jianxin Wu, Yin Li(参考訳) 自己注意に基づくトランスフォーマーモデルでは,画像分類や物体検出,最近では映像理解において顕著な結果が得られた。 この成功に触発されて、ビデオにおける時間的行動ローカライゼーションのためのTransformer Networkの適用について検討する。 この目的のために、actionformer - アクションの提案や事前定義されたアンカーウィンドウを使わずに、アクションを時間内に識別し、そのカテゴリを1ショットで認識する、シンプルで強力なモデルです。 actionformerは、マルチスケールな特徴表現とローカルなセルフアテンションを組み合わせて、軽量デコーダを使用して、時間内のすべてのモーメントを分類し、対応するアクション境界を推定する。 この設計が事前の作業において大きな改善をもたらすことを示す。 ActionFormer はベルとホイッスルなしで THUMOS14 で tIoU=0.5 で65.6% mAP を獲得し、8.7 の絶対パーセンテージポイントで最高の先行モデルを上回り、初めて 60% mAP を超えた。 さらに、ActionFormerはActivityNet 1.3 (36.0%平均mAP) と、より最近のEPIC-Kitchens 100 (+13.5%平均mAP) で強い結果を示している。 私たちのコードはhttp://github.com/happyharrycn/actionformer_releaseで利用可能です。

Self-attention based Transformer models have demonstrated impressive results for image classification and object detection, and more recently for video understanding. Inspired by this success, we investigate the application of Transformer networks for temporal action localization in videos. To this end, we present ActionFormer -- a simple yet powerful model to identify actions in time and recognize their categories in a single shot, without using action proposals or relying on pre-defined anchor windows. ActionFormer combines a multiscale feature representation with local self-attention, and uses a light-weighted decoder to classify every moment in time and estimate the corresponding action boundaries. We show that this orchestrated design results in major improvements upon prior works. Without bells and whistles, ActionFormer achieves 65.6% mAP at tIoU=0.5 on THUMOS14, outperforming the best prior model by 8.7 absolute percentage points and crossing the 60% mAP for the first time. Further, ActionFormer demonstrates strong results on ActivityNet 1.3 (36.0% average mAP) and the more recent EPIC-Kitchens 100 (+13.5% average mAP over prior works). Our code is available at http://github.com/happyharrycn/actionformer_release
翻訳日:2022-02-17 23:47:17 公開日:2022-02-16
# (参考訳) EdgeFormer: オンデバイスSeq2seq生成のためのパラメータ効率の良い変換器

EdgeFormer: A Parameter-Efficient Transformer for On-Device Seq2seq Generation ( http://arxiv.org/abs/2202.07959v1 )

ライセンス: CC BY 4.0
Tao Ge, Furu Wei(参考訳) 厳密な計算とメモリ制約の下でカスタマイズされた、オンデバイスセク2セック生成のためのエンコーダデコーダアーキテクチャのパラメータ効率変換器であるEdgeFormerを提案する。 edgeformerはコスト効率のよいパラメータ化のための2つの新しい原則を提案し、効率的なレイヤー適応によりモデルをさらに強化する。 機械翻訳と文法誤り訂正という2つの実用的なオンデバイスセク2seqタスクについて広範な実験を行い、EdgeFormerが従来のパラメータ効率のトランスフォーマーベースラインを効果的に上回り、計算とメモリの制約の下で知識蒸留を行うことで非常に競争力のある結果が得られることを示した。

We propose EdgeFormer -- a parameter-efficient Transformer of the encoder-decoder architecture for on-device seq2seq generation, which is customized under the strict computation and memory constraints. EdgeFormer proposes two novel principles for cost-effective parameterization and further enhance the model with efficient layer adaptation. We conduct extensive experiments on two practical on-device seq2seq tasks: Machine Translation and Grammatical Error Correction, and show that EdgeFormer can effectively outperform previous parameter-efficient Transformer baselines and achieve very competitive results with knowledge distillation under both the computation and memory constraints.
翻訳日:2022-02-17 23:19:34 公開日:2022-02-16
# (参考訳) ORBITSによる一貫性のない優先順位付けデータのクエリ:アルゴリズム,実装,実験

Querying Inconsistent Prioritized Data with ORBITS: Algorithms, Implementation, and Experiments ( http://arxiv.org/abs/2202.07980v1 )

ライセンス: CC BY 4.0
Meghyn Bienvenu, Camille Bourgaux(参考訳) 本稿では, 論理理論, 事実の集合, 矛盾する事実の優先順位関係からなる, 優先知識ベースに対する不整合性問合せ応答の実践的アルゴリズムについて検討する。 最適な修復(パレートと完了)という2つの概念に基づいて、よく知られた3つの意味論(AR、IAR、勇敢)を考える。 これらのセマンティクスの下でクエリ応答が保持するかどうかを判断することは、論理理論の大規模クラスのデータ複雑性において(co)np完全であり、優先関係がない場合の修正に基づくセマンティクスのためにsatベースの手順が考案されている。 本稿では,パレートと完了-最適補修のための最初のSATエンコーディングについて紹介し,SATソルバの様々な推論モードを利用して,(最適)補修に基づくセマンティクスに基づく解の計算に既存のおよび新しいエンコーディングを用いる方法を提案する。 実装の包括的実験評価は両者を比較した (i)異なる種類の修理に基づく意味論の採用の影響、 (ii)同一意味論に対する代替手順の相対的性能

We investigate practical algorithms for inconsistency-tolerant query answering over prioritized knowledge bases, which consist of a logical theory, a set of facts, and a priority relation between conflicting facts. We consider three well-known semantics (AR, IAR and brave) based upon two notions of optimal repairs (Pareto and completion). Deciding whether a query answer holds under these semantics is (co)NP-complete in data complexity for a large class of logical theories, and SAT-based procedures have been devised for repair-based semantics when there is no priority relation, or the relation has a special structure. The present paper introduces the first SAT encodings for Pareto- and completion-optimal repairs w.r.t. general priority relations and proposes several ways of employing existing and new encodings to compute answers under (optimal) repair-based semantics, by exploiting different reasoning modes of SAT solvers. The comprehensive experimental evaluation of our implementation compares both (i) the impact of adopting semantics based on different kinds of repairs, and (ii) the relative performances of alternative procedures for the same semantics.
翻訳日:2022-02-17 23:03:09 公開日:2022-02-16
# (参考訳) ADIMA:多言語音声における誤検出

ADIMA: Abuse Detection In Multilingual Audio ( http://arxiv.org/abs/2202.07991v1 )

ライセンス: CC BY 4.0
Vikram Gupta, Rini Sharon, Ramit Sawhney, Debdoot Mukherjee(参考訳) 自動音声認識(asr)を行い、自然言語処理の進歩を活用することで、音声テキストにおける乱用コンテンツ検出に対処することができる。 しかし、ASRモデルはレイテンシを導入し、しばしば、訓練コーパスで表現され、明確にも完全にも話されていないため、不明瞭な単語に対してサブ最適に実行する。 音声領域におけるこの問題の探索は、オーディオデータセットの欠如によってほとんど制限されている。 そこで,本研究では,65時間にわたって話され,6,446人の独特なユーザによって話される10のindic言語における11,775の音声サンプルからなる,言語学的に多様で倫理的根拠を生かした音声データセットであるadimaを提案する。 モノリンガルおよびクロスリンガルのゼロショット設定に関する定量的実験を通じて、Indic言語における音声ベースのコンテンツモデレーションの民主化の第一歩を踏み出し、我々のデータセットを将来の作業に活用する。

Abusive content detection in spoken text can be addressed by performing Automatic Speech Recognition (ASR) and leveraging advancements in natural language processing. However, ASR models introduce latency and often perform sub-optimally for profane words as they are underrepresented in training corpora and not spoken clearly or completely. Exploration of this problem entirely in the audio domain has largely been limited by the lack of audio datasets. Building on these challenges, we propose ADIMA, a novel, linguistically diverse, ethically sourced, expert annotated and well-balanced multilingual profanity detection audio dataset comprising of 11,775 audio samples in 10 Indic languages spanning 65 hours and spoken by 6,446 unique users. Through quantitative experiments across monolingual and cross-lingual zero-shot settings, we take the first step in democratizing audio based content moderation in Indic languages and set forth our dataset to pave future work.
翻訳日:2022-02-17 23:01:26 公開日:2022-02-16
# (参考訳) トップ固有ベクトル近似のためのランダム化svdの解析改善

Improved analysis of randomized SVD for top-eigenvector approximation ( http://arxiv.org/abs/2202.07992v1 )

ライセンス: CC BY 4.0
Ruo-Chun Tzeng, Po-An Wang, Florian Adriaens, Aristides Gionis, Chi-Jen Lu(参考訳) 行列の最上位固有ベクトルの計算は、様々な分野に対する基本的な関心の問題である。 文献の大半は、抽出された固有ベクトルに関連する低ランク行列の再構成誤差の分析に焦点が当てられているが、多くの応用において高いレイリー商を持つベクトルを見つけることに興味がある。 本稿では,トップ固有ベクトルの近似問題について検討する。 最大固有値 $\lambda_1$ を持つ対称行列 $\mathbf{A}$ が与えられたとき、我々のゴールは、R(\hat{\mathbf{u}})=\lambda_1^{-1}{\hat{\mathbf{u}}^T\mathbf{A}\hat{\mathbf{u}}}/{\hat{\mathbf{u}}^T\hat{\mathbf{u}}}$ で測定されるように、高い精度で先頭固有ベクトル $\mathbf{u}_1$ を近似するベクトル \hu を見つけることである。 本稿では,無作為なSVDアルゴリズムである \citet{halko 2011finding} の新たな解析法を提案する。 特に、これは任意の反復数を持つランダム化SVDに対して$R(\hat{\mathbf{u}})$の非自明な境界を与える最初の作品である。 本理論解析は,本手法の効率と精度を検証した徹底的な実験研究を補完するものである。

Computing the top eigenvectors of a matrix is a problem of fundamental interest to various fields. While the majority of the literature has focused on analyzing the reconstruction error of low-rank matrices associated with the retrieved eigenvectors, in many applications one is interested in finding one vector with high Rayleigh quotient. In this paper we study the problem of approximating the top-eigenvector. Given a symmetric matrix $\mathbf{A}$ with largest eigenvalue $\lambda_1$, our goal is to find a vector \hu that approximates the leading eigenvector $\mathbf{u}_1$ with high accuracy, as measured by the ratio $R(\hat{\mathbf{u}})=\lambda_1^{-1}{\hat{\mathbf{u}}^T\mathbf{A}\hat{\mathbf{u}}}/{\hat{\mathbf{u}}^T\hat{\mathbf{u}}}$. We present a novel analysis of the randomized SVD algorithm of \citet{halko2011finding} and derive tight bounds in many cases of interest. Notably, this is the first work that provides non-trivial bounds of $R(\hat{\mathbf{u}})$ for randomized SVD with any number of iterations. Our theoretical analysis is complemented with a thorough experimental study that confirms the efficiency and accuracy of the method.
翻訳日:2022-02-17 22:52:03 公開日:2022-02-16
# (参考訳) 分枝強化学習

Branching Reinforcement Learning ( http://arxiv.org/abs/2202.07995v1 )

ライセンス: CC BY 4.0
Yihan Du, Wei Chen(参考訳) 本稿では,新しい分岐強化学習(ブランチRL)モデルを提案し,レギュレット最小化(RM)とReward-Free Exploration(RFE)の両指標について検討する。 各エピソードの軌跡が1つの$H$-stepパスである標準RLとは異なり、分岐RLはエージェントが複数の後続状態に遷移する状態において複数のベースアクションを取ることができるので、ツリー構造された軌跡を生成する。 このモデルは階層的なレコメンデーションシステムやオンライン広告に重要な応用を見出す。 分岐 RL に対して、新しいベルマン方程式とキー補題、すなわち、全分散の分岐値差補題と分岐法則を確立し、指数関数的に大きい軌道の下では、O(H^2)$ でのみ総分散を束縛する。 RM と RFE のメトリクスに対して,それぞれ分岐VI と分岐RFE を計算効率よく提案し,ほぼ一致する上界と下界を導出する。 結果は指数関数的に大きい軌跡にもかかわらず問題パラメータの多項式のみである。

In this paper, we propose a novel Branching Reinforcement Learning (Branching RL) model, and investigate both Regret Minimization (RM) and Reward-Free Exploration (RFE) metrics for this model. Unlike standard RL where the trajectory of each episode is a single $H$-step path, branching RL allows an agent to take multiple base actions in a state such that transitions branch out to multiple successor states correspondingly, and thus it generates a tree-structured trajectory. This model finds important applications in hierarchical recommendation systems and online advertising. For branching RL, we establish new Bellman equations and key lemmas, i.e., branching value difference lemma and branching law of total variance, and also bound the total variance by only $O(H^2)$ under an exponentially-large trajectory. For RM and RFE metrics, we propose computationally efficient algorithms BranchVI and BranchRFE, respectively, and derive nearly matching upper and lower bounds. Our results are only polynomial in problem parameters despite exponentially-large trajectories.
翻訳日:2022-02-17 22:10:05 公開日:2022-02-16
# (参考訳) 非線形系に対する制御付きディープクープマン演算子

Deep Koopman Operator with Control for Nonlinear Systems ( http://arxiv.org/abs/2202.08004v1 )

ライセンス: CC BY 4.0
Haojie Shi, Max Q.H. Meng(参考訳) 近年、koopman演算子は未知非線形システムのリアルタイム制御を容易にする有望なデータ駆動ツールとなっている。 非線形系を埋め込み空間における等価線型系にマッピングし、リアルタイム線形制御法に備える。 しかし、適切なクープマン埋め込み関数を設計することは難しい課題である。 さらに、多くのkoopmanベースのアルゴリズムは線形制御入力を持つ非線形システムのみを考慮し、システムが制御入力と完全に非線形である場合の予測と制御性能が低くなる。 本研究では,Koopman組込み関数とKoopman Operatorを併用して学習し,その難しさを軽減するためのエンドツーエンドディープラーニングフレームワークを提案する。 まず,埋め込み関数とkoopman演算子をニューラルネットワークでパラメータ化し,kステップ損失関数を用いてエンドツーエンドにトレーニングする。 次に,非線形状態依存制御項を符号化し,制御入力の非線形性をモデル化する補助制御ネットワークを設計する。 線形制御では、この符号化項は代わりに新しい制御変数と見なされ、埋め込み空間の線型性を保証する。 次に、線形埋め込み空間に線形擬似レギュレータ(LQR)を配置し、最適制御ポリシーを導出し、制御ネットから実際の制御入力を復号する。 実験の結果, 振子, カートポール, 7自由度ロボットマニピュレータなどの非線形力学系において, 従来の手法よりも優れており, 桁数による予測誤差を低減し, 制御性能に優れることがわかった。

Recently Koopman operator has become a promising data-driven tool to facilitate real-time control for unknown nonlinear systems. It maps nonlinear systems into equivalent linear systems in embedding space, ready for real-time linear control methods. However, designing an appropriate Koopman embedding function remains a challenging task. Furthermore, most Koopman-based algorithms only consider nonlinear systems with linear control input, resulting in lousy prediction and control performance when the system is fully nonlinear with the control input. In this work, we propose an end-to-end deep learning framework to learn the Koopman embedding function and Koopman Operator together to alleviate such difficulties. We first parameterize the embedding function and Koopman Operator with the neural network and train them end-to-end with the K-steps loss function. We then design an auxiliary control network to encode the nonlinear state-dependent control term to model the nonlinearity in control input. For linear control, this encoded term is considered the new control variable instead, ensuring the linearity of the embedding space. Then we deploy Linear Quadratic Regulator (LQR) on the linear embedding space to derive the optimal control policy and decode the actual control input from the control net. Experimental results demonstrate that our approach outperforms other existing methods, reducing the prediction error by order-of-magnitude and achieving superior control performance in several nonlinear dynamic systems like damping pendulum, CartPole, and 7 Dof robotic manipulator.
翻訳日:2022-02-17 22:08:01 公開日:2022-02-16
# (参考訳) 飛行中の人を検出する学習: ドローンのためのバイオインスパイアされたイベントベースのビジュアルシステム

Learning to Detect People on the Fly: A Bio-inspired Event-based Visual System for Drones ( http://arxiv.org/abs/2202.08023v1 )

ライセンス: CC BY 4.0
Ali Safa, Ilja Ocket, Andr\'e Bourdoux, Hichem Sahli, Francky Catthoor, Georges Gielen(参考訳) 本研究では,SNN(Spike-Timeing-Dependent Plasticity, STDP)学習を応用した生体情報処理型スパイクニューラルネットワーク(SNN)が,網膜に触発されたイベントベースのカメラデータを用いて,飛行中の歩行者を検出することを初めて実証した。 私たちのパイプラインは以下の通り機能します。 まず、飛行中のドローンから歩く人間を捕獲する短時間の出来事データ(<2分)を、畳み込み読み出し(半教師システムを形成する)から教師が吐き出す信号を受信する畳み込みSNNSTDPシステムに示す。 そして、STDP適応を停止し、テストシーケンスに基づいて学習システムを評価する。 我々は,システムにおけるキー機構の効果を調べるためにいくつかの実験を行い,RGBまたはイベントベースのカメラフレームで動作する従来の訓練済みCNNと比較した。

We demonstrate for the first time that a biologicallyplausible spiking neural network (SNN) equipped with Spike- Timing-Dependent Plasticity (STDP) learning can continuously learn to detect walking people on the fly using retina-inspired, event-based camera data. Our pipeline works as follows. First, a short sequence of event data (< 2 minutes), capturing a walking human from a flying drone, is shown to a convolutional SNNSTDP system which also receives teacher spiking signals from a convolutional readout (forming a semi-supervised system). Then, STDP adaptation is stopped and the learned system is assessed on testing sequences. We conduct several experiments to study the effect of key mechanisms in our system and we compare our precision-recall performance to conventionally-trained CNNs working with either RGB or event-based camera frames.
翻訳日:2022-02-17 21:56:19 公開日:2022-02-16
# (参考訳) 文脈認識型コード翻訳に基づくコード検索

Code Search based on Context-aware Code Translation ( http://arxiv.org/abs/2202.08029v1 )

ライセンス: CC BY 4.0
Weisong Sun and Chunrong Fang and Yuchen Chen and Guanhong Tao and Tingxu Han and Quanjun Zhang(参考訳) コード検索はソフトウェア開発において、開発者が広く利用するテクニックである。 大規模なコードコーパスからクエリに基づいて開発者に意味的に類似した実装を提供する。 既存のテクニックは、ディープラーニングモデルを利用して、それぞれコードスニペットとクエリの埋め込み表現を構築する。 抽象構文木、制御フローグラフなどの機能は、コードスニペットのセマンティクスを表現するために一般的に使用される。 しかし、これらの機能の同じ構造は必ずしもコードスニペットの同じ意味を表現しているわけではない。 さらに、これらの技術はクエリワード/コードトークンを埋め込み表現にマッピングする複数の異なるワードマッピング機能を利用する。 これにより、クエリやコードスニペットに同じワード/トークンの分散埋め込みが発生する。 本稿では,コードスニペットを自然言語記述に翻訳する文脈認識型コード翻訳手法を提案する。 コード翻訳は機械命令に基づいて行われ、命令の実行をシミュレートしてコンテキスト情報を収集する。 さらに、1つの語彙を用いて単語の共有マッピング関数を設計し、翻訳とクエリの両方に埋め込みを生成する。 我々は,1000クエリのCodeSearchNetコーパス上で,TranCSと呼ばれる手法の有効性を評価する。 実験の結果、TranCSはMRR(平均的相互ランク)において最先端技術よりも49.31%から66.50%優れていた。

Code search is a widely used technique by developers during software development. It provides semantically similar implementations from a large code corpus to developers based on their queries. Existing techniques leverage deep learning models to construct embedding representations for code snippets and queries, respectively. Features such as abstract syntactic trees, control flow graphs, etc., are commonly employed for representing the semantics of code snippets. However, the same structure of these features does not necessarily denote the same semantics of code snippets, and vice versa. In addition, these techniques utilize multiple different word mapping functions that map query words/code tokens to embedding representations. This causes diverged embeddings of the same word/token in queries and code snippets. We propose a novel context-aware code translation technique that translates code snippets into natural language descriptions (called translations). The code translation is conducted on machine instructions, where the context information is collected by simulating the execution of instructions. We further design a shared word mapping function using one single vocabulary for generating embeddings for both translations and queries. We evaluate the effectiveness of our technique, called TranCS, on the CodeSearchNet corpus with 1,000 queries. Experimental results show that TranCS significantly outperforms state-of-the-art techniques by 49.31% to 66.50% in terms of MRR (mean reciprocal rank).
翻訳日:2022-02-17 21:37:10 公開日:2022-02-16
# (参考訳) サイバーセキュリティのためのトポロジカルデータ分析の展望

A Review of Topological Data Analysis for Cybersecurity ( http://arxiv.org/abs/2202.08037v1 )

ライセンス: CC BY 4.0
Thomas Davies(参考訳) サイバーセキュリティにおいては、悪意または異常な活動は、妥協の弱い指標を多く組み合わせることによってのみ検出され、そのうちのどれかが単独で取られた場合に疑念を起こさない場合が多い。 このような指標が持つ経路も重要である。 これにより、特に、探索的分析と機械学習ワークフローの一部として、代数的トポロジーの技法を用いてデータの高レベル構造を研究する分野であるトポロジカルデータ分析(tda)に適合するサイバーセキュリティデータを解析する問題が解決される。 tdaを導入し、サイバーセキュリティへの応用の成果をレビューすることで、サイバーセキュリティデータサイエンスを改善する強力な可能性を持つ、有望な新しい領域を研究者に示すことを望んでいる。

In cybersecurity it is often the case that malicious or anomalous activity can only be detected by combining many weak indicators of compromise, any one of which may not raise suspicion when taken alone. The path that such indicators take can also be critical. This makes the problem of analysing cybersecurity data particularly well suited to Topological Data Analysis (TDA), a field that studies the high level structure of data using techniques from algebraic topology, both for exploratory analysis and as part of a machine learning workflow. By introducing TDA and reviewing the work done on its application to cybersecurity, we hope to highlight to researchers a promising new area with strong potential to improve cybersecurity data science.
翻訳日:2022-02-17 21:11:17 公開日:2022-02-16
# (参考訳) 単体テストサンプルによるドメイン間の一般化の学習

Learning to Generalize across Domains on Single Test Samples ( http://arxiv.org/abs/2202.08045v1 )

ライセンス: CC BY 4.0
Zehao Xiao, Xiantong Zhen, Ling Shao, Cees G. M. Snoek(参考訳) 我々は、未知のターゲットドメインによく一般化するソースドメインの集合からモデルを学習しようと努力する。 このようなドメインの一般化シナリオの主な課題は、トレーニング中に対象のドメインデータが利用できないことであり、学習されたモデルは目に見えないターゲットのドメインに明示的に適応しない。 単体テストサンプルを用いてドメイン間を一般化する学習を提案する。 メタラーニングパラダイムを利用してモデルを学び、トレーニング時に1つのサンプルで適応する能力を取得し、テスト時に1つのテストサンプルにさらに適応できるようにします。 モデルパラメータの生成に条件としてテストサンプルを組み込んだ変分ベイズ推論問題として,単一試験サンプルへの適応を定式化する。 各テストサンプルへの適応には、未検出領域からの追加データに対する微調整や自己教師付きトレーニングなしで、テスト時にフィードフォワード計算を1つだけ必要とします。 広範なアブレーション研究により,トレーニング中の領域シフトを模倣することで,各サンプルにモデルを適用する能力が得られた。 さらに、このモデルは、ドメインの一般化のために複数のベンチマークで最先端のメソッドよりも、少なくとも同等の(しばしば優れた)パフォーマンスを達成します。

We strive to learn a model from a set of source domains that generalizes well to unseen target domains. The main challenge in such a domain generalization scenario is the unavailability of any target domain data during training, resulting in the learned model not being explicitly adapted to the unseen target domains. We propose learning to generalize across domains on single test samples. We leverage a meta-learning paradigm to learn our model to acquire the ability of adaptation with single samples at training time so as to further adapt itself to each single test sample at test time. We formulate the adaptation to the single test sample as a variational Bayesian inference problem, which incorporates the test sample as a conditional into the generation of model parameters. The adaptation to each test sample requires only one feed-forward computation at test time without any fine-tuning or self-supervised training on additional data from the unseen domains. Extensive ablation studies demonstrate that our model learns the ability to adapt models to each single sample by mimicking domain shifts during training. Further, our model achieves at least comparable -- and often better -- performance than state-of-the-art methods on multiple benchmarks for domain generalization.
翻訳日:2022-02-17 20:58:34 公開日:2022-02-16
# (参考訳) 無関係を分離し、関連性を清める: 特徴的視点からテキスト的スプリアス相関を克服する

Decorrelate Irrelevant, Purify Relevant: Overcome Textual Spurious Correlations from a Feature Perspective ( http://arxiv.org/abs/2202.08048v1 )

ライセンス: CC0 1.0
Shihan Dou, Rui Zheng, Ting Wu, Songyang Gao, Qi Zhang, Yueming Wu, Xuanjing Huang(参考訳) 自然言語理解(NLU)モデルは、分布内データセットでは高い性能を得るが、分布外データセットでは貧弱な性能を達成するために、急激な相関 (\emph{i.e.}, データセットバイアス) に依存する傾向がある。 既存のデバイアス法の多くは、しばしばこれらのサンプルを偏りのある特徴で識別し、弱める("\emph{i.e.}, superficial surface features that caused such spurious correlations")。 しかし、これらのサンプルの重み付けは、サンプルのバイアスのない部分から学習する際のモデルを妨げる。 この課題に対処するため,本稿では,特徴空間の観点から微粒な相関関係を除去することを提案する。 具体的には,ランダムなフーリエ特徴と重み付き再サンプリングを導入することで,特徴間の依存関係を分離し,スプリアス相関を緩和する。 decorrelated featuresを得た後、それらを浄化するための相互情報に基づく手法を更に設計し、よりタスクに関係のある特徴を学習させる。 自然言語推論とFact Verificationを含む2つのよく研究されたNLUタスクに対する広範囲な実験により,本手法が他の比較手法よりも優れていることが示された。

Natural language understanding (NLU) models tend to rely on spurious correlations (\emph{i.e.}, dataset bias) to achieve high performance on in-distribution datasets but poor performance on out-of-distribution ones. Most of the existing debiasing methods often identify and weaken these samples with biased features (\emph{i.e.}, superficial surface features that cause such spurious correlations). However, down-weighting these samples obstructs the model in learning from the non-biased parts of these samples. To tackle this challenge, in this paper, we propose to eliminate spurious correlations in a fine-grained manner from a feature space perspective. Specifically, we introduce Random Fourier Features and weighted re-sampling to decorrelate the dependencies between features to mitigate spurious correlations. After obtaining decorrelated features, we further design a mutual-information-based method to purify them, which forces the model to learn features that are more relevant to tasks. Extensive experiments on two well-studied NLU tasks including Natural Language Inference and Fact Verification demonstrate that our method is superior to other comparative approaches.
翻訳日:2022-02-17 20:29:06 公開日:2022-02-16
# (参考訳) HDC-MiniROCKET:超次元計算を用いた時系列分類における明示的時間符号化

HDC-MiniROCKET: Explicit Time Encoding in Time Series Classification with Hyperdimensional Computing ( http://arxiv.org/abs/2202.08055v1 )

ライセンス: CC BY 4.0
Kenny Schlegel, Peer Neubert, Peter Protzel(参考訳) 時系列データの分類は多くのアプリケーション領域にとって重要なタスクである。 このタスクのための最も優れた方法の1つは、正確性と計算時間の観点から、MiniROCKETである。 本研究では,この手法を拡張し,超次元計算(hdc)機構を用いて,より優れたグローバル時間エンコーディングを実現する。 HDC(Vector Symbolic Architectures、VSA)は、高次元ベクトルで情報を明示的に表現し処理するための一般的な手法である。 これまではディープニューラルネットワークや他の信号処理アルゴリズムと組み合わせてうまく利用されてきた。 我々は、MiniROCKETの内部の高次元表現はHDCの代数で補うのに適していると論じる。 これはより一般的な定式化であるhdc-minirocketにつながり、元のアルゴリズムは特別な場合のみである。 簡単な合成データセット上で,HDC-MiniROCKETがMiniROCKETの破滅的障害を系統的に克服できることを論じ,実証する。 これらの結果は、UCR時系列分類ベンチマークの128データセットで確認された。 HDCの拡張は、推論の計算労力を増大させることなく、時間依存性の高いデータセットに対して、かなり優れた結果が得られる。

Classification of time series data is an important task for many application domains. One of the best existing methods for this task, in terms of accuracy and computation time, is MiniROCKET. In this work, we extend this approach to provide better global temporal encodings using hyperdimensional computing (HDC) mechanisms. HDC (also known as Vector Symbolic Architectures, VSA) is a general method to explicitly represent and process information in high-dimensional vectors. It has previously been used successfully in combination with deep neural networks and other signal processing algorithms. We argue that the internal high-dimensional representation of MiniROCKET is well suited to be complemented by the algebra of HDC. This leads to a more general formulation, HDC-MiniROCKET, where the original algorithm is only a special case. We will discuss and demonstrate that HDC-MiniROCKET can systematically overcome catastrophic failures of MiniROCKET on simple synthetic datasets. These results are confirmed by experiments on the 128 datasets from the UCR time series classification benchmark. The extension with HDC can achieve considerably better results on datasets with high temporal dependence without increasing the computational effort for inference.
翻訳日:2022-02-17 20:28:01 公開日:2022-02-16
# (参考訳) 不注意性促進によるグラフインジェクション攻撃の理解と改善

Understanding and Improving Graph Injection Attack by Promoting Unnoticeability ( http://arxiv.org/abs/2202.08057v1 )

ライセンス: CC BY-SA 4.0
Yongqiang Chen, Han Yang, Yonggang Zhang, Kaili Ma, Tongliang Liu, Bo Han, James Cheng(参考訳) 最近、グラフインジェクションアタック(GIA)がグラフニューラルネットワーク(GNN)の実用的な攻撃シナリオとして登場し、敵は既存のノードやエッジを変更するのではなく、悪意のあるノードをわずかに注入できる。 giaは有望な成果を上げたが、成功の理由と成功の背景にある落とし穴についてはほとんど知られていない。 GIAのパワーをGMAと比較すると,GAAの柔軟性が比較的高いため,GAAはGMAよりも確実に有害であることがわかった。 しかし、高い柔軟性は元のグラフのホモフィリー分布、すなわち近隣のグラフ間の類似性に大きなダメージを与える。 したがって、GAAの脅威は、元のホモフィリーを回復するために設計されたホモフィリーベースの防御によって容易に緩和または予防することができる。 問題を緩和するために,GAAにホモフィリ保存を強制する新たな制約を導入し,そのインスタンス化のためにハーモニアス・アドバイザリアル・オブジェクト(HAO)を提案する。 大規模な実験により、HAOによるGAAは、ホモフィリーベースの防御を破り、以前のGAA攻撃を著しく上回っていることが確認された。 我々はGNNの堅牢性をより信頼性の高い評価に役立てることができると考えている。

Recently Graph Injection Attack (GIA) emerges as a practical attack scenario on Graph Neural Networks (GNNs), where the adversary can merely inject few malicious nodes instead of modifying existing nodes or edges, i.e., Graph Modification Attack (GMA). Although GIA has achieved promising results, little is known about why it is successful and whether there is any pitfall behind the success. To understand the power of GIA, we compare it with GMA and find that GIA can be provably more harmful than GMA due to its relatively high flexibility. However, the high flexibility will also lead to great damage to the homophily distribution of the original graph, i.e., similarity among neighbors. Consequently, the threats of GIA can be easily alleviated or even prevented by homophily-based defenses designed to recover the original homophily. To mitigate the issue, we introduce a novel constraint -- homophily unnoticeability that enforces GIA to preserve the homophily, and propose Harmonious Adversarial Objective (HAO) to instantiate it. Extensive experiments verify that GIA with HAO can break homophily-based defenses and outperform previous GIA attacks by a significant margin. We believe our methods can serve for a more reliable evaluation of the robustness of GNNs.
翻訳日:2022-02-17 20:11:36 公開日:2022-02-16
# (参考訳) 低資源シナリオにおける知識抽出:調査と展望

Knowledge Extraction in Low-Resource Scenarios: Survey and Perspective ( http://arxiv.org/abs/2202.08063v1 )

ライセンス: CC BY-SA 4.0
Shumin Deng, Ningyu Zhang, Hui Chen, Feiyu Xiong, Jeff Z. Pan, Huajun Chen(参考訳) 構造化されていないテキストから構造情報を抽出することを目的とした知識抽出(ke)は、しばしばデータの不足や、特に低リソースシナリオのような、未発見のタイプに苦しむ。 低リソースKEに対する多くのニューラルアプローチが広く研究され、優れた性能を達成している。 本稿では,低リソースシナリオにおけるKEに向けた文献レビューを行い,(1)高リソースデータの利用,(2)より強力なモデルの利用,(3)データとモデルを併用した3つのパラダイムに体系的に分類する。 さらに、将来的な応用について述べ、今後の研究の方向性について概説する。 われわれの調査は、学術と工業の両方のコミュニティが、この分野をより深く理解し、より多くのアイデアを刺激し、幅広い応用を促進するのに役立つことを期待している。

Knowledge Extraction (KE) which aims to extract structural information from unstructured texts often suffers from data scarcity and emerging unseen types, i.e., low-resource scenarios. Many neural approaches on low-resource KE have been widely investigated and achieved impressive performance. In this paper, we present a literature review towards KE in low-resource scenarios, and systematically categorize existing works into three paradigms: (1) exploiting higher-resource data, (2) exploiting stronger models, and (3) exploiting data and models together. In addition, we describe promising applications and outline some potential directions for future research. We hope that our survey can help both the academic and industrial community to better understand this field, inspire more ideas and boost broader applications.
翻訳日:2022-02-17 20:06:35 公開日:2022-02-16
# (参考訳) 認識論的ランダムファジィ集合を用いたファジィと不確かさによる推論:一般枠組みと実用モデル

Reasoning with fuzzy and uncertain evidence using epistemic random fuzzy sets: general framework and practical models ( http://arxiv.org/abs/2202.08081v1 )

ライセンス: CC BY 4.0
Thierry Denoeux(参考訳) 本稿では,ファジィあるいは明快な証拠を用いた推論のための認識論的ランダムファジィ集合の一般理論を提案する。 この枠組みは、信念関数のデンプスター・シェーファー理論と可能性理論の両方を一般化する。 独立てんかん的ランダムなファジィ集合は、デンプスターの信念関数を結合する規則と可能性分布の積共役結合の両方を拡張する一般化された積-断面積則によって結合される。 ガウスランダムファジィ数とその多次元拡張であるガウスランダムファジィベクトルをスカラー量やベクトル量に関する不確かさを定量化する実用的なモデルとして導入する。 ガウス乱ファジィ数とベクトルの組合せ、射影、空拡張に対する閉形式表現が導出される。

We introduce a general theory of epistemic random fuzzy sets for reasoning with fuzzy or crisp evidence. This framework generalizes both the Dempster-Shafer theory of belief functions, and possibility theory. Independent epistemic random fuzzy sets are combined by the generalized product-intersection rule, which extends both Dempster's rule for combining belief functions, and the product conjunctive combination of possibility distributions. We introduce Gaussian random fuzzy numbers and their multi-dimensional extensions, Gaussian random fuzzy vectors, as practical models for quantifying uncertainty about scalar or vector quantities. Closed-form expressions for the combination, projection and vacuous extension of Gaussian random fuzzy numbers and vectors are derived.
翻訳日:2022-02-17 19:48:16 公開日:2022-02-16
# (参考訳) ニューラルネットワークにおける特異なプライベート特徴の意図しない記憶の測定

Measuring Unintended Memorisation of Unique Private Features in Neural Networks ( http://arxiv.org/abs/2202.08099v1 )

ライセンス: CC BY 4.0
John Hartley, Sotirios A. Tsaftaris(参考訳) ニューラルネットワークは、情報を記憶しリークする傾向のため、データのトレーニングにプライバシリスクを負う。 画像分類に焦点をあてて、トレーニングデータに1回だけ発生しても、ニューラルネットワークは意図せず独自の特徴を記憶する。 ユニークな特徴の例としては、トレーニングイメージに誤って現れる人物の名前がある。 訓練されたモデルの入力と出力へのアクセス、トレーニングデータのドメイン、ユニークな特徴の知識を仮定して、修正された分散画像が与えられたモデルの出力分布のkl偏差を比較することにより、モデルの感度をユニークな特徴に推定するスコアを開発する。 この結果から,MNIST,Fashion-MNIST,CIFAR-10などのベンチマークデータセットでトレーニングした多層パーセプトロンと畳み込みニューラルネットワークによって,ユニークな特徴が記憶されていることが示唆された。 オーバーフィッティング(例えば、早期停止、正規化、バッチ正規化)を防ぐ戦略は、ユニークな特徴の記憶を妨げない。 これらの結果は、ニューラルネットワークが、まれに発生するプライベートな情報に対してプライバシリスクをもたらすことを暗示している。 これらのリスクは、トレーニングデータに患者情報があれば、医療アプリケーションでより顕著になる。

Neural networks pose a privacy risk to training data due to their propensity to memorise and leak information. Focusing on image classification, we show that neural networks also unintentionally memorise unique features even when they occur only once in training data. An example of a unique feature is a person's name that is accidentally present on a training image. Assuming access to the inputs and outputs of a trained model, the domain of the training data, and knowledge of unique features, we develop a score estimating the model's sensitivity to a unique feature by comparing the KL divergences of the model's output distributions given modified out-of-distribution images. Our results suggest that unique features are memorised by multi-layer perceptrons and convolutional neural networks trained on benchmark datasets, such as MNIST, Fashion-MNIST and CIFAR-10. We find that strategies to prevent overfitting (e.g.\ early stopping, regularisation, batch normalisation) do not prevent memorisation of unique features. These results imply that neural networks pose a privacy risk to rarely occurring private information. These risks can be more pronounced in healthcare applications if patient information is present in the training data.
翻訳日:2022-02-17 19:47:10 公開日:2022-02-16
# (参考訳) 文書の構造処理:フランスにおける歴史新聞の論理レイアウト分析

Processing the structure of documents: Logical Layout Analysis of historical newspapers in French ( http://arxiv.org/abs/2202.08125v1 )

ライセンス: CC BY 4.0
Nicolas Gutehrl\'e, Iana Atanassova(参考訳) 背景。 近年、図書館や文書館が重要なデジタル化運動を率い、膨大な歴史文書の収集が開かれた。 このような文書はXML ALTO文書としてしばしば利用できるが、それらの論理構造に関する情報は乏しい。 本稿では,フランス語の文献に適用される論理レイアウト解析の問題点に対処する。 本稿では,2つの機械学習モデルであるripperとgradient boostingを評価し,比較するルールベース手法を提案する。 我々のデータセットにはフランスの新聞、定期刊行物、雑誌が含まれており、20世紀前半にフランシュ=コンテ地方で出版された。 結果だ ルールベースのシステムは、ほぼすべての評価において、他の2つのモデルよりも優れています。 Recallの結果は特に優れており、我々のシステムが他の2つのモデルよりも多くの論理ラベルをカバーしていることを示している。 RIPPERとグラディエントブースティングを比較すると、グラディエントブースティングは精度が良いが、RIPPERはリコールスコアが良いことが分かる。 結論だ 評価の結果,本システムは2つの機械学習モデルよりも優れており,リコール率も有意に高いことがわかった。 また,本システムは,論理レイアウト解析のタスクに対して,機械学習やディープラーニングのアプローチを想定するのに十分な大きさのアノテートデータセットを生成するためにも利用できることを確認した。 ルールと機械学習モデルをハイブリッドシステムに組み合わせることで、パフォーマンスはさらに向上する可能性がある。 さらに、歴史文書のレイアウトが急速に進化するにつれて、この問題を克服するための1つの解決策は、異なる出版期間に適応したルールセットをブートストラップするルール学習アルゴリズムを適用することである。

Background. In recent years, libraries and archives led important digitisation campaigns that opened the access to vast collections of historical documents. While such documents are often available as XML ALTO documents, they lack information about their logical structure. In this paper, we address the problem of Logical Layout Analysis applied to historical documents in French. We propose a rule-based method, that we evaluate and compare with two Machine-Learning models, namely RIPPER and Gradient Boosting. Our data set contains French newspapers, periodicals and magazines, published in the first half of the twentieth century in the Franche-Comt\'e Region. Results. Our rule-based system outperforms the two other models in nearly all evaluations. It has especially better Recall results, indicating that our system covers more types of every logical label than the other two models. When comparing RIPPER with Gradient Boosting, we can observe that Gradient Boosting has better Precision scores but RIPPER has better Recall scores. Conclusions. The evaluation shows that our system outperforms the two Machine Learning models, and provides significantly higher Recall. It also confirms that our system can be used to produce annotated data sets that are large enough to envisage Machine Learning or Deep Learning approaches for the task of Logical Layout Analysis. Combining rules and Machine Learning models into hybrid systems could potentially provide even better performances. Furthermore, as the layout in historical documents evolves rapidly, one possible solution to overcome this problem would be to apply Rule Learning algorithms to bootstrap rule sets adapted to different publication periods.
翻訳日:2022-02-17 19:28:50 公開日:2022-02-16
# (参考訳) コンピュータ制御学習のためのデータ駆動型アプローチ

A data-driven approach for learning to control computers ( http://arxiv.org/abs/2202.08137v1 )

ライセンス: CC BY 4.0
Peter C Humphreys, David Raposo, Toby Pohlen, Gregory Thornton, Rachita Chhaparia, Alistair Muldal, Josh Abramson, Petko Georgiev, Alex Goldin, Adam Santoro, Timothy Lillicrap(参考訳) マシンが人間と同じようにコンピュータを使うことは、日常のタスクで私たちを助けるのに役立つだろう。 これは、大規模な専門家によるデモンストレーションや対話的行動の人間の判断を活用できる可能性がある設定であり、これはAIで非常に最近成功した2つの要素である。 本稿では,キーボードとマウスを用いたコンピュータ制御の設定と,自然言語による目標について検討する。 手作りのカリキュラムや特殊アクションスペースに焦点を合わせるのではなく、人間とコンピュータの相互作用によって学習される行動優先とを組み合わせた強化学習を中心としたスケーラブルな手法の開発に焦点をあてた。 我々は、MiniWob++ベンチマークのすべてのタスクにおいて、最先端で人間レベルの平均性能を実現し、コンピュータ制御の問題に挑戦し、クロスタスク転送の強い証拠を見つける。 これらの結果から,コンピュータ使用訓練における統合型ヒューマンエージェントインタフェースの有用性が示された。 我々の結果は、MiniWob++を超えて能力を達成するための公式を示唆し、コンピュータを人間として制御する。

It would be useful for machines to use computers as humans do so that they can aid us in everyday tasks. This is a setting in which there is also the potential to leverage large-scale expert demonstrations and human judgements of interactive behaviour, which are two ingredients that have driven much recent success in AI. Here we investigate the setting of computer control using keyboard and mouse, with goals specified via natural language. Instead of focusing on hand-designed curricula and specialized action spaces, we focus on developing a scalable method centered on reinforcement learning combined with behavioural priors informed by actual human-computer interactions. We achieve state-of-the-art and human-level mean performance across all tasks within the MiniWob++ benchmark, a challenging suite of computer control problems, and find strong evidence of cross-task transfer. These results demonstrate the usefulness of a unified human-agent interface when training machines to use computers. Altogether our results suggest a formula for achieving competency beyond MiniWob++ and towards controlling computers, in general, as a human would.
翻訳日:2022-02-17 19:07:31 公開日:2022-02-16
# (参考訳) いつ起きたのか? vlogにおけるナレーション行動の時間的局在

When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs ( http://arxiv.org/abs/2202.08138v1 )

ライセンス: CC BY 4.0
Oana Ignat, Santiago Castro, Yuhang Zhou, Jiajun Bao, Dandan Shan(参考訳) ライフスタイルのvlogにおける時間的人間行動のローカライゼーションの課題について考察する。 1200本のビデオクリップにおいて,13,000のナレーションアクションの時間的局所化を手作業で記述した新しいデータセットを提案する。 我々は、このデータを広範囲に分析し、ビデオ全体を通して言語と視覚的モダリティがどのように相互作用するかをよりよく理解できるようにする。 提案手法は, 予測時間に基づいて, ナレーション行動の局所化を簡易かつ効果的に行う手法である。 いくつかの実験と分析を通して,本手法は従来の手法と相補的な情報をもたらし,時間的行動の局所化作業における従来の作業よりも改善されることを示す。

We consider the task of temporal human action localization in lifestyle vlogs. We introduce a novel dataset consisting of manual annotations of temporal localization for 13,000 narrated actions in 1,200 video clips. We present an extensive analysis of this data, which allows us to better understand how the language and visual modalities interact throughout the videos. We propose a simple yet effective method to localize the narrated actions based on their expected duration. Through several experiments and analyses, we show that our method brings complementary information with respect to previous methods, and leads to improvements over previous work for the task of temporal action localization.
翻訳日:2022-02-17 18:21:25 公開日:2022-02-16
# (参考訳) FUN-SIS : 外科用機器セグメンテーションのための完全非教師的アプローチ

FUN-SIS: a Fully UNsupervised approach for Surgical Instrument Segmentation ( http://arxiv.org/abs/2202.08141v1 )

ライセンス: CC BY 4.0
Luca Sestini, Benoit Rosa, Elena De Momi, Giancarlo Ferrigno, Nicolas Padoy(参考訳) 内視鏡画像の自動計測装置セグメンテーションは,低侵襲手術のための多くのコンピュータ・アシスト・アプリケーションにおいて重要なビルディングブロックである。 これまでのところ、最先端のアプローチは、手動のアノテーションによって得られる地上の真実の監視信号の可用性に完全に依存しているため、大規模な収集にはコストがかかる。 本稿では,二分法手術器具のセグメンテーションのための完全教師なしアプローチであるfun-sisを提案する。 FUN-SISは、暗黙のモーション情報と楽器の形状にのみ依存することで、フレーム単位のセグメンテーションモデルを、完全に折りたたみのない内視鏡ビデオで訓練する。 形状優先を楽器の現実的なセグメンテーションマスクと定義し、必ずしもビデオと同じデータセット/ドメインから来るとは限らない。 シェーププリアーは、他のデータセットから既存のアノテーションをリサイクルするなど、さまざまな便利な方法で収集することができる。 学習中に光学フロー画像の教師なしセグメンテーションを行えるように,新しい生成-敵アプローチの一部としてそれらを活用する。 そこで我々は,得られた楽器マスクを擬似ラベルとして,フレームごとのセグメンテーションモデルを訓練し,これらの擬似ラベルからクリーンな監視信号を抽出し,その特異なノイズ特性を生かして,ノイズから学習するシステムを開発した。 我々は,MICCAI 2017 EndoVis Robotic Instrument Segmentation Challengeデータセットを含む3つの外科的データセットに対する提案されたコントリビューションを検証する。 手術器具のセグメント化に関する全教師なしの結果は,全監督状態のアプローチとほぼ同等である。 このことは、最小侵襲手術の文脈で生成される大量の未ラベルデータを活用するための提案手法の膨大なポテンシャルを示唆している。

Automatic surgical instrument segmentation of endoscopic images is a crucial building block of many computer-assistance applications for minimally invasive surgery. So far, state-of-the-art approaches completely rely on the availability of a ground-truth supervision signal, obtained via manual annotation, thus expensive to collect at large scale. In this paper, we present FUN-SIS, a Fully-UNsupervised approach for binary Surgical Instrument Segmentation. FUN-SIS trains a per-frame segmentation model on completely unlabelled endoscopic videos, by solely relying on implicit motion information and instrument shape-priors. We define shape-priors as realistic segmentation masks of the instruments, not necessarily coming from the same dataset/domain as the videos. The shape-priors can be collected in various and convenient ways, such as recycling existing annotations from other datasets. We leverage them as part of a novel generative-adversarial approach, allowing to perform unsupervised instrument segmentation of optical-flow images during training. We then use the obtained instrument masks as pseudo-labels in order to train a per-frame segmentation model; to this aim, we develop a learning-from-noisy-labels architecture, designed to extract a clean supervision signal from these pseudo-labels, leveraging their peculiar noise properties. We validate the proposed contributions on three surgical datasets, including the MICCAI 2017 EndoVis Robotic Instrument Segmentation Challenge dataset. The obtained fully-unsupervised results for surgical instrument segmentation are almost on par with the ones of fully-supervised state-of-the-art approaches. This suggests the tremendous potential of the proposed method to leverage the great amount of unlabelled data produced in the context of minimally invasive surgery.
翻訳日:2022-02-17 18:02:37 公開日:2022-02-16
# (参考訳) 自動カラー化におけるバイアス:メトリクスとエラータイプ

Bias in Automated Image Colorization: Metrics and Error Types ( http://arxiv.org/abs/2202.08143v1 )

ライセンス: CC BY-SA 4.0
Frank Stapel, Floris Weers, Doina Bucur(参考訳) 自動GANベースのDeOldifyモデルを用いて,ADE20Kデータセットからカラー化画像に存在する色変化を測定する。 原画像と彩色画像の局所的および局所的なバイアス測定を行い,多くの彩色効果を観察した。 トレーニング平均へのシフト,広汎なブルーシフト,画像カテゴリ間の色シフト,3つのクラスにおけるカラー化誤差の手動分類といった,一般的なデ飽和効果を確認し,新たな観察を提供する。

We measure the color shifts present in colorized images from the ADE20K dataset, when colorized by the automatic GAN-based DeOldify model. We introduce fine-grained local and regional bias measurements between the original and the colorized images, and observe many colorization effects. We confirm a general desaturation effect, and also provide novel observations: a shift towards the training average, a pervasive blue shift, different color shifts among image categories, and a manual categorization of colorization errors in three classes.
翻訳日:2022-02-17 17:21:20 公開日:2022-02-16
# (参考訳) 強化学習によるドメイン適応型偽ニュース検出

Domain Adaptive Fake News Detection via Reinforcement Learning ( http://arxiv.org/abs/2202.08159v1 )

ライセンス: CC BY 4.0
Ahmadreza Mosallanezhad, Mansooreh Karami, Kai Shu, Michelle V. Mancenido, Huan Liu(参考訳) ソーシャルメディアが情報消費の大きな力となり、フェイクニュースの拡散が加速し、プラットフォームが合法ニュースとフェイクニュースを区別する新たな課題が提示された。 効果的な偽ニュース検出は、ニュースドメインの多様さと高価なアノテーションコストのため、非自明な作業である。 本研究では,補助情報(ユーザコメントやユーザ-ニューズインタラクションなど)を,新たな強化学習ベースモデルである \textbf{re}inforced \textbf{a}daptive \textbf{l}earning \textbf{f}ake \textbf{n}ews \textbf{d}etection (real-fnd) に組み込むことで,既存の偽ニュース検出モデルの制限に対処する。 REAL-FNDは、異なるソースドメインでトレーニングされているにもかかわらず、ターゲットドメインで堅牢になるクロスドメインとイントラドメインの知識を活用する。 実世界のデータセットに対する大規模な実験は、特に限定ラベル付きデータが対象領域で利用可能である場合、提案モデルの有効性を示す。

With social media being a major force in information consumption, accelerated propagation of fake news has presented new challenges for platforms to distinguish between legitimate and fake news. Effective fake news detection is a non-trivial task due to the diverse nature of news domains and expensive annotation costs. In this work, we address the limitations of existing automated fake news detection models by incorporating auxiliary information (e.g., user comments and user-news interactions) into a novel reinforcement learning-based model called \textbf{RE}inforced \textbf{A}daptive \textbf{L}earning \textbf{F}ake \textbf{N}ews \textbf{D}etection (REAL-FND). REAL-FND exploits cross-domain and within-domain knowledge that makes it robust in a target domain, despite being trained in a different source domain. Extensive experiments on real-world datasets illustrate the effectiveness of the proposed model, especially when limited labeled data is available in the target domain.
翻訳日:2022-02-17 17:13:49 公開日:2022-02-16
# (参考訳) 高精度かつ効率的な階層的RNNモデルを用いた言語モデリングのための資本化正規化

Capitalization Normalization for Language Modeling with an Accurate and Efficient Hierarchical RNN Model ( http://arxiv.org/abs/2202.08171v1 )

ライセンス: CC BY 4.0
Hao Zhang and You-Chi Cheng and Shankar Kumar and W. Ronny Huang and Mingqing Chen and Rajiv Mathews(参考訳) 資本の正規化(truecasing)は、ノイズの多いテキストの正しいケース(uppercaseまたはlowercase)を復元するタスクである。 本稿では,高速で高精度でコンパクトな2階層型単語と文字に基づくリカレントニューラルネットワークモデルを提案する。 言語モデリングのための連合学習フレームワークでは,truecaserを用いてユーザ生成テキストの正規化を行う。 この正規化テキストでトレーニングされたケースアウェア言語モデルは、金の資本を持つテキストでトレーニングされたモデルと同じパープレキシティを達成する。 実際のユーザA/B実験では、仮想キーボードアプリケーションにおける予測エラー率の低減が示されている。 同様に、ASR言語モデル融合実験では、上段文字誤り率と単語誤り率の低下を示す。

Capitalization normalization (truecasing) is the task of restoring the correct case (uppercase or lowercase) of noisy text. We propose a fast, accurate and compact two-level hierarchical word-and-character-based recurrent neural network model. We use the truecaser to normalize user-generated text in a Federated Learning framework for language modeling. A case-aware language model trained on this normalized text achieves the same perplexity as a model trained on text with gold capitalization. In a real user A/B experiment, we demonstrate that the improvement translates to reduced prediction error rates in a virtual keyboard application. Similarly, in an ASR language model fusion experiment, we show reduction in uppercase character error rate and word error rate.
翻訳日:2022-02-17 16:56:33 公開日:2022-02-16
# (参考訳) 病理画像からのアノテーション効率の高い核セグメンテーションのためのラベル伝播

Label Propagation for Annotation-Efficient Nuclei Segmentation from Pathology Images ( http://arxiv.org/abs/2202.08195v1 )

ライセンス: CC BY 4.0
Yi Lin, Zhiyong Qu, Hao Chen, Zhongke Gao, Yuexiang Li, Lili Xia, Kai Ma, Yefeng Zheng, Kwang-Ting Cheng(参考訳) 核セグメンテーションはデジタル病理学における全スライド画像解析において重要なタスクである。 一般に、完全教師付き学習のセグメンテーション性能は、注釈付きデータの量と品質に大きく依存する。 しかし、プロの病理学者が正確なピクセルレベルの地上真実を提供するのに時間と費用がかかり、ポイントアノテーションのような粗いラベルを得るのは非常に容易である。 本稿では,訓練に点アノテーションのみを必要とする核セグメンテーションのための弱教師付き学習法を提案する。 提案手法は,以下の粗大な方法でラベル伝搬を実現する。 まず、粗いピクセルレベルのラベルは、オーバーフィッティングを避けるために、ボロノイ図とk平均クラスタリング法に基づく点アノテーションから導かれる。 第2に, 指数移動平均法との共同学習戦略は, 粗ラベルの不完全な監視を洗練するように設計されている。 第3に、ヘマトキシリン成分像をH\&E染色画像に変換する病理画像の核分節化のために、自己監督型視覚表現学習法を調整し、核と細胞質の関係をよりよく理解する。 提案手法を2つの公開データセットを用いて総合的に評価する。 視覚的および定量的な結果から,本手法の最先端手法に対する優位性と,完全教師付き手法と比較しての競合性能を示す。 実験を実装するためのソースコードは、受け入れられてからリリースされる。

Nuclei segmentation is a crucial task for whole slide image analysis in digital pathology. Generally, the segmentation performance of fully-supervised learning heavily depends on the amount and quality of the annotated data. However, it is time-consuming and expensive for professional pathologists to provide accurate pixel-level ground truth, while it is much easier to get coarse labels such as point annotations. In this paper, we propose a weakly-supervised learning method for nuclei segmentation that only requires point annotations for training. The proposed method achieves label propagation in a coarse-to-fine manner as follows. First, coarse pixel-level labels are derived from the point annotations based on the Voronoi diagram and the k-means clustering method to avoid overfitting. Second, a co-training strategy with an exponential moving average method is designed to refine the incomplete supervision of the coarse labels. Third, a self-supervised visual representation learning method is tailored for nuclei segmentation of pathology images that transforms the hematoxylin component images into the H\&E stained images to gain better understanding of the relationship between the nuclei and cytoplasm. We comprehensively evaluate the proposed method using two public datasets. Both visual and quantitative results demonstrate the superiority of our method to the state-of-the-art methods, and its competitive performance compared to the fully-supervised methods. The source codes for implementing the experiments will be released after acceptance.
翻訳日:2022-02-17 16:47:35 公開日:2022-02-16
# Aryl: ディープラーニングのためのElastic Cluster Scheduler

Aryl: An Elastic Cluster Scheduler for Deep Learning ( http://arxiv.org/abs/2202.07896v1 )

ライセンス: Link先を確認
Jiamin Li, Hong Xu, Yibo Zhu, Zherui Liu, Chuanxiong Guo, Cong Wang(参考訳) 企業はディープラーニングのために別々のトレーニングと推論GPUクラスタを構築し、それらを管理するために別々のスケジューラを使用する。 推論クラスタは、トラフィックの負荷が低い場合にGPU使用率が低く、トレーニングジョブはリソース不足のために長時間のキューングを経験することが多い。 これらの問題に対処する新しいクラスタスケジューラであるArylを紹介します。 arylはトレーニングジョブ用のアイドル推論gpuサーバにキャパシティローンを導入する。 さらに、トレーニングジョブのgpu割り当てをスケールして、融資されたリソースをより活用するelastic scalingを活用する。 キャパシティローンとエラスティックスケーリングは、クラスタ管理に新たな課題を生み出す。 ローンされたサーバを返さなければならない場合には、ジョブプリエンプションの数を最小化する必要があります。GPUが増えれば、エラスティックなジョブに割り当てて、ジョブ完了時間(JCT)を最小化する必要があります。 アリルはこれらの組合せ問題に原理的ヒューリスティックスを用いて対処する。 サーバのプリエンプションコストの概念を導入して,サーバのリエンプション時にゆるやかに削減する。 さらに、複数の選択knapsack問題としてスケジューリング問題を解くために、各追加作業者ごとに定義されたJCT削減値に依存する。 64-gpuテストベッドのプロトタイプ実装と5万以上のプロダクションジョブの15日間トレースを備えた大規模シミュレーションでは、arylが平均キュー時間とjctで1.53倍と1.50倍の削減を実現し、クラスタスケジューラ上で最大26.9%のクラスタ使用率向上を実現している。

Companies build separate training and inference GPU clusters for deep learning, and use separate schedulers to manage them. This leads to problems for both training and inference: inference clusters have low GPU utilization when the traffic load is low; training jobs often experience long queueing time due to lack of resources. We introduce Aryl, a new cluster scheduler to address these problems. Aryl introduces capacity loaning to loan idle inference GPU servers for training jobs. It further exploits elastic scaling that scales a training job's GPU allocation to better utilize loaned resources. Capacity loaning and elastic scaling create new challenges to cluster management. When the loaned servers need to be returned, we need to minimize the number of job preemptions; when more GPUs become available, we need to allocate them to elastic jobs and minimize the job completion time (JCT). Aryl addresses these combinatorial problems using principled heuristics. It introduces the notion of server preemption cost which it greedily reduces during server reclaiming. It further relies on the JCT reduction value defined for each additional worker for an elastic job to solve the scheduling problem as a multiple-choice knapsack problem. Prototype implementation on a 64-GPU testbed and large-scale simulation with 15-day traces of over 50,000 production jobs show that Aryl brings 1.53x and 1.50x reductions in average queuing time and JCT, and improves cluster usage by up to 26.9% over the cluster scheduler without capacity loaning or elastic scaling.
翻訳日:2022-02-17 16:25:09 公開日:2022-02-16
# DeepTx: チャネル予測を備えたディープラーニングビームフォーミング

DeepTx: Deep Learning Beamforming with Channel Prediction ( http://arxiv.org/abs/2202.07998v1 )

ライセンス: Link先を確認
Janne M.J. Huttunen, Dani Korpi, Mikko~Honkala(参考訳) 近年,無線通信分野における多くの課題に対して機械学習アルゴリズムが検討されている。 これまで我々は、受信処理に深い完全畳み込みニューラルネットワーク(cnn)を使うことを提案し、かなりの性能向上をもたらすことを示した。 本研究では,送信機の機械学習アルゴリズムに着目した。 特に,ビームフォーミングについて検討し,所定のアップリンクチャネル推定を入力として,ビームフォーミングに使用するダウンリンクチャネル情報を出力するcnnを提案する。 cnnは、ue受信機の性能に基づく損失関数を持つアップリンクとダウンリンクの両方の送信を考慮した教師付き方法で訓練される。 ニューラルネットワークの主なタスクは、アップリンクとダウンリンクスロットの間のチャネルの進化を予測することだが、実際のビームフォーミングフェーズを含むチェーン全体の非効率性とエラーを処理することも学べる。 提案した数値実験によりビームフォーミング性能が向上した。

Machine learning algorithms have recently been considered for many tasks in the field of wireless communications. Previously, we have proposed the use of a deep fully convolutional neural network (CNN) for receiver processing and shown it to provide considerable performance gains. In this study, we focus on machine learning algorithms for the transmitter. In particular, we consider beamforming and propose a CNN which, for a given uplink channel estimate as input, outputs downlink channel information to be used for beamforming. The CNN is trained in a supervised manner considering both uplink and downlink transmissions with a loss function that is based on UE receiver performance. The main task of the neural network is to predict the channel evolution between uplink and downlink slots, but it can also learn to handle inefficiencies and errors in the whole chain, including the actual beamforming phase. The provided numerical experiments demonstrate the improved beamforming performance.
翻訳日:2022-02-17 16:24:40 公開日:2022-02-16
# 誰も残っていない:異種デバイスによる包括的連合学習

No One Left Behind: Inclusive Federated Learning over Heterogeneous Devices ( http://arxiv.org/abs/2202.08036v1 )

ライセンス: Link先を確認
Ruixuan Liu, Fangzhao Wu, Chuhan Wu, Yanlin Wang, Lingjuan Lyu, Hong Chen, Xing Xie(参考訳) フェデレートラーニング(FL)は、分散データからプライバシー保護方法でグローバルモデルをトレーニングするための重要なパラダイムである。 既存のflメソッドは通常、グローバルモデルが参加するクライアントでトレーニングできると仮定する。 しかし、実際のアプリケーションでは、クライアントのデバイスは通常異種であり、異なる計算能力を持つ。 BERTのような大きなモデルはAIで大きな成功を収めていますが、弱いクライアントを持つ異種FLに適用することは困難です。 弱いクライアントを削除したり、すべてのクライアントに適合させるために小さなモデルを使用したりするといった簡単なソリューションは、ドロップしたクライアントの表現不足やデータ損失や限定されたモデル表現能力による精度の低下といった問題を引き起こす。 本研究では,この問題に対処するクライアント包摂的フェデレーション学習手法であるInclusiveFLを提案する。 InclusiveFLの中核となる考え方は、異なるコンピューティング能力を持つクライアント、強力なクライアントのためのより大きなモデル、弱いクライアントのための小さなモデルに異なるサイズのモデルを割り当てることである。 また,異なるサイズの複数の局所モデル間で知識を共有する効果的な手法を提案する。 このようにして、すべてのクライアントがflのモデル学習に参加し、最終的なモデルは十分に大きく、強力になります。 また,強力なクライアントの大規模モデルにおける知識を,弱いクライアントの小さなモデルに伝達する運動量知識蒸留法を提案する。 多くの実世界のベンチマークデータセットに対する大規模な実験は、FLフレームワークの下で不均一なデバイスを持つクライアントから正確なモデルを学ぶための提案手法の有効性を示す。

Federated learning (FL) is an important paradigm for training global models from decentralized data in a privacy-preserving way. Existing FL methods usually assume the global model can be trained on any participating client. However, in real applications, the devices of clients are usually heterogeneous, and have different computing power. Although big models like BERT have achieved huge success in AI, it is difficult to apply them to heterogeneous FL with weak clients. The straightforward solutions like removing the weak clients or using a small model to fit all clients will lead to some problems, such as under-representation of dropped clients and inferior accuracy due to data loss or limited model representation ability. In this work, we propose InclusiveFL, a client-inclusive federated learning method to handle this problem. The core idea of InclusiveFL is to assign models of different sizes to clients with different computing capabilities, bigger models for powerful clients and smaller ones for weak clients. We also propose an effective method to share the knowledge among multiple local models with different sizes. In this way, all the clients can participate in the model learning in FL, and the final model can be big and powerful enough. Besides, we propose a momentum knowledge distillation method to better transfer knowledge in big models on powerful clients to the small models on weak clients. Extensive experiments on many real-world benchmark datasets demonstrate the effectiveness of the proposed method in learning accurate models from clients with heterogeneous devices under the FL framework.
翻訳日:2022-02-17 16:24:26 公開日:2022-02-16
# 水中環境におけるバッテリフリー機械学習と推論

Towards Battery-Free Machine Learning and Inference in Underwater Environments ( http://arxiv.org/abs/2202.08174v1 )

ライセンス: Link先を確認
Yuchen Zhao, Sayed Saad Afzal, Waleed Akbar, Osvy Rodriguez, Fan Mo, David Boyle, Fadel Adib, Hamed Haddadi(参考訳) この論文は単純な質問によって動機付けられている: 水中環境で機械学習と推論が可能な電池レスデバイスを設計、構築できるか? この疑問に対する肯定的な回答は、新しい世代の水中センシングおよび環境モニタリング、科学探査、気候・天気予報のためのモニタリングアプリケーションに重大な影響を与える。 この質問に答えるために、バッテリーレスネットワーキングと低消費電力機械学習という2つの分野において、過去10年間のブリッジングの進歩の可能性を探る。 調査の結果,水中環境下では電池不要の推論が可能であることが確認された。 我々は水中の音からエネルギーを回収し、超低消費電力マイクロコントローラとオンボードセンサーを駆動し、軽量のDeep Neural Networkを用いて局所的な計測を行い、バックスキャッターを介して受信機に推論結果を伝える装置を設計した。 このプロトタイプをエミュレートした海洋生物音響アプリケーションでテストし、バッテリーなしで水中の動物の音を認識する可能性を実証しました。 この調査を通じて、水中バッテリーレス推論と機械学習をユビキタスにするための課題と機会を強調した。

This paper is motivated by a simple question: Can we design and build battery-free devices capable of machine learning and inference in underwater environments? An affirmative answer to this question would have significant implications for a new generation of underwater sensing and monitoring applications for environmental monitoring, scientific exploration, and climate/weather prediction. To answer this question, we explore the feasibility of bridging advances from the past decade in two fields: battery-free networking and low-power machine learning. Our exploration demonstrates that it is indeed possible to enable battery-free inference in underwater environments. We designed a device that can harvest energy from underwater sound, power up an ultra-low-power microcontroller and on-board sensor, perform local inference on sensed measurements using a lightweight Deep Neural Network, and communicate the inference result via backscatter to a receiver. We tested our prototype in an emulated marine bioacoustics application, demonstrating the potential to recognize underwater animal sounds without batteries. Through this exploration, we highlight the challenges and opportunities for making underwater battery-free inference and machine learning ubiquitous.
翻訳日:2022-02-17 16:23:42 公開日:2022-02-16
# 量子遅延トレーニング

Quantum Lazy Training ( http://arxiv.org/abs/2202.08232v1 )

ライセンス: Link先を確認
Erfan Abedi, Salman Beigi, Leila Taghavi(参考訳) 勾配降下による過度パラメータ化モデル関数の訓練では、パラメータが大きく変化せず、初期値に近づかないことがある。 この現象は遅延トレーニングと呼ばれ、初期パラメータ周辺のモデル関数の線形近似を考える動機付けとなる。 遅延状態において、この線形近似は、関連するカーネルである接カーネルと呼ばれるパラメータ化関数の挙動を模倣し、モデルのトレーニング性能を規定する。 遅延トレーニングは、幅が大きい(古典的)ニューラルネットワークの場合に発生することが知られている。 本稿では、幾何学的に局所的なパラメータ化された量子回路のトレーニングが、大量の量子ビットの遅延レジームに入ることを示す。 より正確には、トレーニング過程におけるそのような幾何学的局所的なパラメータ化量子回路のパラメータの変化率と、関連する量子モデル関数の線形近似の精度のバウンダリを証明し、これらのバウンダリは、キュービットの数が増加するにつれてゼロになる傾向がある。 我々は数値シミュレーションを用いて解析結果を支持する。

In the training of over-parameterized model functions via gradient descent, sometimes the parameters do not change significantly and remain close to their initial values. This phenomenon is called lazy training, and motivates consideration of the linear approximation of the model function around the initial parameters. In the lazy regime, this linear approximation imitates the behavior of the parameterized function whose associated kernel, called the tangent kernel, specifies the training performance of the model. Lazy training is known to occur in the case of (classical) neural networks with large widths. In this paper, we show that the training of geometrically local parameterized quantum circuits enters the lazy regime for large numbers of qubits. More precisely, we prove bounds on the rate of changes of the parameters of such a geometrically local parameterized quantum circuit in the training process, and on the precision of the linear approximation of the associated quantum model function; both of these bounds tend to zero as the number of qubits grows. We support our analytic results with numerical simulations.
翻訳日:2022-02-17 16:23:22 公開日:2022-02-16
# ブラックボックス分類に関する監査人からの2元フィードバックを用いた潜在性評価モデルの学習と実施について

On Learning and Enforcing Latent Assessment Models using Binary Feedback from Human Auditors Regarding Black-Box Classifiers ( http://arxiv.org/abs/2202.08250v1 )

ライセンス: Link先を確認
Mukund Telukunta, Venkata Sriram Siddhardh Nadendla(参考訳) アルゴリズム的公平性文学は、多くの数学的概念とメトリクスを示し、それらの間のトレードオフを指摘し、それらのいくつかまたはすべてを同時に満足させる。 さらに、公平性の概念の文脈的性質は、様々なアルゴリズムシステムにおいてバイアス評価の自動化を困難にしている。 そこで本稿では,人間の監査者が提供する二元フィードバックを特徴付ける潜在評価モデル(lam)と呼ばれる新しいモデルを提案する。 個人と集団の公平性の概念は、監査人の内在的な判断が本質的にフェアネスの概念を満たしている限り保証され、分類者の評価と比較的類似していることを証明する。 また、lamと従来のフェアネス概念との関係を、3つのよく知られたデータセット(compas, german credit, adult census income dataset)で示している。 さらに,ブラックボックス分類器のram推定のためのpac学習保証を得るために必要な最小フィードバックサンプル数も導出する。 これらの保証は、400人の人間の監査人によるcompasに関する実際のバイナリフィードバックに基づいて、標準的な機械学習アルゴリズムをトレーニングすることで検証される。

Algorithmic fairness literature presents numerous mathematical notions and metrics, and also points to a tradeoff between them while satisficing some or all of them simultaneously. Furthermore, the contextual nature of fairness notions makes it difficult to automate bias evaluation in diverse algorithmic systems. Therefore, in this paper, we propose a novel model called latent assessment model (LAM) to characterize binary feedback provided by human auditors, by assuming that the auditor compares the classifier's output to his or her own intrinsic judgment for each input. We prove that individual and group fairness notions are guaranteed as long as the auditor's intrinsic judgments inherently satisfy the fairness notion at hand, and are relatively similar to the classifier's evaluations. We also demonstrate this relationship between LAM and traditional fairness notions on three well-known datasets, namely COMPAS, German credit and Adult Census Income datasets. Furthermore, we also derive the minimum number of feedback samples needed to obtain PAC learning guarantees to estimate LAM for black-box classifiers. These guarantees are also validated via training standard machine learning algorithms on real binary feedback elicited from 400 human auditors regarding COMPAS.
翻訳日:2022-02-17 16:23:06 公開日:2022-02-16
# グラフの事前学習に関する調査--分類学・方法・応用

A Survey of Pretraining on Graphs: Taxonomy, Methods, and Applications ( http://arxiv.org/abs/2202.07893v1 )

ライセンス: Link先を確認
Jun Xia, Yanqiao Zhu, Yuanqi Du, Stan Z. Li(参考訳) BERTのような事前訓練された言語モデル(PLM)は自然言語処理(NLP)の景観に革命をもたらした。 その増殖に触発されて、事前学習グラフモデル(PGM)に多大な努力が注がれている。 PGMの強力なモデルアーキテクチャのため、大量のラベル付きおよびラベルなしグラフデータからの豊富な知識を捉えることができる。 モデルパラメータに暗黙的にエンコードされた知識は、さまざまな下流タスクの恩恵を受け、グラフ上での学習の基本的な問題を緩和するのに役立ちます。 本稿では,PGMの総合的な調査を初めて実施する。 まず,グラフ表現学習の限界を説明し,グラフ事前学習の動機を紹介する。 そして,4つの異なる観点から,既存のPGMを分類的に分類する。 次に,PGMのソーシャルレコメンデーションおよび薬物発見への応用について述べる。 最後に,今後の研究の指針となる有望な研究の方向性について概説する。

Pretrained Language Models (PLMs) such as BERT have revolutionized the landscape of Natural Language Processing (NLP). Inspired by their proliferation, tremendous efforts have been devoted to Pretrained Graph Models (PGMs). Owing to the powerful model architectures of PGMs, abundant knowledge from massive labeled and unlabeled graph data can be captured. The knowledge implicitly encoded in model parameters can benefit various downstream tasks and help to alleviate several fundamental issues of learning on graphs. In this paper, we provide the first comprehensive survey for PGMs. We firstly present the limitations of graph representation learning and thus introduce the motivation for graph pre-training. Then, we systematically categorize existing PGMs based on a taxonomy from four different perspectives. Next, we present the applications of PGMs in social recommendation and drug discovery. Finally, we outline several promising research directions that can serve as a guideline for future research.
翻訳日:2022-02-17 16:21:12 公開日:2022-02-16
# 歌声タコトロン:終末音声合成のための大域的持続時間制御と動的フィルタ

Singing-Tacotron: Global duration control attention and dynamic filter for End-to-end singing voice synthesis ( http://arxiv.org/abs/2202.07907v1 )

ライセンス: Link先を確認
Tao Wang, Ruibo Fu, Jiangyan Yi, Jianhua Tao, Zhengqi Wen(参考訳) SVS(End-to-end singing voice synthesis)は、事前整列データを避けるため魅力的である。 しかし、歌唱音声と歌詞のアライメントを自動学習することは、楽譜の持続時間情報と一致させることが困難であり、モデル不安定性や音声合成の失敗につながる。 正確なアライメント情報を自動的に学習するために,Singing-TacotronというエンドツーエンドのSVSフレームワークを提案する。 提案手法とタコトロンの主な違いは、音声が楽譜の持続時間情報によって著しく制御できることである。 まず,SVSモデルに対するグローバル持続時間制御アテンション機構を提案する。 注意機構は各音素の持続時間を制御することができる。 第2に、楽譜からグローバルな遷移トークンの集合を学ぶために、持続エンコーダを提案する。 これらの遷移トークンは、注意機構が次の音素に移動するか、各復号ステップに留まるかを決定するのに役立つ。 第3に、モデルの安定性をさらに向上するため、動的フィルタは、モデルがノイズ干渉を克服し、局所的なコンテキスト情報により多くの注意を払うのに役立つように設計されている。 主観的および客観的評価は、その方法の有効性を検証する。 さらに,グローバル遷移トークンの役割と持続時間制御の効果について検討した。 実験の例は https://hairuo55.github.io/SingingTacotron にある。

End-to-end singing voice synthesis (SVS) is attractive due to the avoidance of pre-aligned data. However, the auto learned alignment of singing voice with lyrics is difficult to match the duration information in musical score, which will lead to the model instability or even failure to synthesize voice. To learn accurate alignment information automatically, this paper proposes an end-to-end SVS framework, named Singing-Tacotron. The main difference between the proposed framework and Tacotron is that the speech can be controlled significantly by the musical score's duration information. Firstly, we propose a global duration control attention mechanism for the SVS model. The attention mechanism can control each phoneme's duration. Secondly, a duration encoder is proposed to learn a set of global transition tokens from the musical score. These transition tokens can help the attention mechanism decide whether moving to the next phoneme or staying at each decoding step. Thirdly, to further improve the model's stability, a dynamic filter is designed to help the model overcome noise interference and pay more attention to local context information. Subjective and objective evaluation verify the effectiveness of the method. Furthermore, the role of global transition tokens and the effect of duration control are explored. Examples of experiments can be found at https://hairuo55.github.io/SingingTacotron.
翻訳日:2022-02-17 16:21:00 公開日:2022-02-16
# Few-Shot負荷予測を可能にするクラスタリング

Clustering Enabled Few-Shot Load Forecasting ( http://arxiv.org/abs/2202.07939v1 )

ライセンス: Link先を確認
Qiyuan Wang, Zhihui Chen, Chenye Wu(参考訳) 高度な機械学習アルゴリズムは負荷予測に有効であるが、しばしばデータ利用の低さに悩まされるため、その優れたパフォーマンスは大量のデータセットに依存する。 これは、データ利用を改善する機械学習アルゴリズムの設計を動機付けます。 具体的には、エネルギー消費のわずかなショット(データポイント)を観測することで、システム内の新規利用者の負荷予測を考察する。 限られたサンプルでは,負荷予測に不可欠な時間特性を活用できないため,この課題は困難である。 しかし, 生活習慣が限られているため, 生活負荷の時間的特性がそれほど多くないことが判明した。 そこで本研究では,既存のユーザからの履歴的負荷プロファイルデータを有効クラスタリングに利用し,限られたサンプルによる課題を軽減することを提案する。 具体的には,まず履歴データを分類する特徴抽出クラスタリング手法を考案する。 そして,クラスタリング結果から先行知識を継承し,新たなユーザに対する負荷予測を行うための2相長短期メモリ(LSTM)モデルを提案する。 提案手法は従来のLSTMモデルよりも優れており、特にトレーニングサンプルサイズが全期間(例えばタスクの24時間)をカバーできない場合には特に優れる。 2つの実世界のデータセットと1つの合成データセットに関する広範なケーススタディにより、本手法の有効性と効率が検証された。

While the advanced machine learning algorithms are effective in load forecasting, they often suffer from low data utilization, and hence their superior performance relies on massive datasets. This motivates us to design machine learning algorithms with improved data utilization. Specifically, we consider the load forecasting for a new user in the system by observing only few shots (data points) of its energy consumption. This task is challenging since the limited samples are insufficient to exploit the temporal characteristics, essential for load forecasting. Nonetheless, we notice that there are not too many temporal characteristics for residential loads due to the limited kinds of human lifestyle. Hence, we propose to utilize the historical load profile data from existing users to conduct effective clustering, which mitigates the challenges brought by the limited samples. Specifically, we first design a feature extraction clustering method for categorizing historical data. Then, inheriting the prior knowledge from the clustering results, we propose a two-phase Long Short Term Memory (LSTM) model to conduct load forecasting for new users. The proposed method outperforms the traditional LSTM model, especially when the training sample size fails to cover a whole period (i.e., 24 hours in our task). Extensive case studies on two real-world datasets and one synthetic dataset verify the effectiveness and efficiency of our method.
翻訳日:2022-02-17 16:20:37 公開日:2022-02-16
# 音源分離のための損失関数と評価指標について

On loss functions and evaluation metrics for music source separation ( http://arxiv.org/abs/2202.07968v1 )

ライセンス: Link先を確認
Enric Gus\'o, Jordi Pons, Santiago Pascual, Joan Serr\`a(参考訳) 音源分離のための広範囲な楽曲集合をベンチマークすることで、損失関数がより良い分離を提供するかを検討する。 その目的のために、我々はまず最も代表的な音源分離損失を調査し、その後、制御された実験装置でそれらを一貫してベンチマークした。 また,評価指標などの損失を主観的テストの結果と相互に関連付けることによって検討する。 標準信号対歪比の指標がいくつかのシナリオで誤解を招く可能性があるという観測に基づいて,検討された損失に基づいて,代替評価指標について検討する。

We investigate which loss functions provide better separations via benchmarking an extensive set of those for music source separation. To that end, we first survey the most representative audio source separation losses we identified, to later consistently benchmark them in a controlled experimental setup. We also explore using such losses as evaluation metrics, via cross-correlating them with the results of a subjective test. Based on the observation that the standard signal-to-distortion ratio metric can be misleading in some scenarios, we study alternative evaluation metrics based on the considered losses.
翻訳日:2022-02-17 16:20:16 公開日:2022-02-16
# リフト型マルチカットの多面体解析

A Polyhedral Study of Lifted Multicuts ( http://arxiv.org/abs/2202.08068v1 )

ライセンス: Link先を確認
Bjoern Andres, Silvia Di Gregorio, Jannik Irmai, Jan-Hendrik Lange(参考訳) データ分析における多くの応用の基礎は、グラフの分解、すなわち、ノードセットをコンポーネント誘導サブセットに分割することである。 分解を符号化する1つの方法は、異なるコンポーネントにまたがるエッジのサブセットであるマルチカットである。 最近では、グラフ $G = (V, E)$ から拡張グラフ $\hat G = (V, E \cup F)$ への多重カットの持ち上げが、画像解析の分野で提案されており、グラフ分解のより表現力豊かな特徴づけを得るために、ペアに対して$F \subseteq \tbinom{V}{2} \setminus E$ は、それらが同じまたは異なる成分であるかどうかに関わらず、非隣ノードに対して明示される。 本研究では,その頂点が正確には$g$ から持ち上げられた$\hat g$ の多重カットの標数ベクトルである$\mathbb{r}^{e \cup f}$ のポリトープについて詳細に研究し,特に,クランク分割と多重線形ポリトープに関する先行研究の豊富な体系と接続する。

Fundamental to many applications in data analysis are the decompositions of a graph, i.e. partitions of the node set into component-inducing subsets. One way of encoding decompositions is by multicuts, the subsets of those edges that straddle distinct components. Recently, a lifting of multicuts from a graph $G = (V, E)$ to an augmented graph $\hat G = (V, E \cup F)$ has been proposed in the field of image analysis, with the goal of obtaining a more expressive characterization of graph decompositions in which it is made explicit also for pairs $F \subseteq \tbinom{V}{2} \setminus E$ of non-neighboring nodes whether these are in the same or distinct components. In this work, we study in detail the polytope in $\mathbb{R}^{E \cup F}$ whose vertices are precisely the characteristic vectors of multicuts of $\hat G$ lifted from $G$, connecting it, in particular, to the rich body of prior work on the clique partitioning and multilinear polytope.
翻訳日:2022-02-17 16:18:00 公開日:2022-02-16
# 一般メトリクスに異常値を持つ分散k平均

Distributed k-Means with Outliers in General Metrics ( http://arxiv.org/abs/2202.08173v1 )

ライセンス: Link先を確認
Enrico Dandolo, Andrea Pietracaprina, Geppino Pucci(参考訳) センターベースのクラスタリングは教師なし学習とデータ分析のための重要なプリミティブである。 k-平均問題(k-means problem)は、計量空間からの点のセットが p$ であり、パラメータが $k<|p|$ であるような場合、最も近い中心からの点のすべての二乗距離の和を最小化する部分集合 $s$ of $k$ を決定する必要がある。 ノイズの多いデータセットを扱うために導入された k-means with $z$ outliers と呼ばれるより一般的な定式化では、さらにパラメータ $z$ があり、上記の和を計算するとき、最大 $z$ の $p$ (outliers) が無視される。 本稿では, MapReduce を計算モデルとして, 一般的な距離空間に対する k-means に対する分散コアセットに基づく3ラウンド近似アルゴリズムを提案する。 我々の分散アルゴリズムは、還元器あたりのサブ線形ローカルメモリを必要としており、近似比が$O(\gamma)$であるような解は、最もよく知られた逐次的(おそらくはビクリテリア)アルゴリズムによって達成可能なものから離れたもので、$\gamma$を任意に小さくすることができる。 我々のアルゴリズムの重要な特徴は、距離空間の倍の次元$D$で捉えられたデータセットの本質的な複雑さに鮮明に適応することである。 私たちの知る限りでは、従来の分散アプローチでは、一般的なメトリクスに対して同様の品質とパフォーマンスのトレードオフを達成できなかったのです。

Center-based clustering is a pivotal primitive for unsupervised learning and data analysis. A popular variant is undoubtedly the k-means problem, which, given a set $P$ of points from a metric space and a parameter $k<|P|$, requires to determine a subset $S$ of $k$ centers minimizing the sum of all squared distances of points in $P$ from their closest center. A more general formulation, known as k-means with $z$ outliers, introduced to deal with noisy datasets, features a further parameter $z$ and allows up to $z$ points of $P$ (outliers) to be disregarded when computing the aforementioned sum. We present a distributed coreset-based 3-round approximation algorithm for k-means with $z$ outliers for general metric spaces, using MapReduce as a computational model. Our distributed algorithm requires sublinear local memory per reducer, and yields a solution whose approximation ratio is an additive term $O(\gamma)$ away from the one achievable by the best known sequential (possibly bicriteria) algorithm, where $\gamma$ can be made arbitrarily small. An important feature of our algorithm is that it obliviously adapts to the intrinsic complexity of the dataset, captured by the doubling dimension $D$ of the metric space. To the best of our knowledge, no previous distributed approaches were able to attain similar quality-performance tradeoffs for general metrics.
翻訳日:2022-02-17 16:17:33 公開日:2022-02-16
# (参考訳) GraphNLI: オンライン討論におけるポーラリティ予測のためのグラフベースの自然言語推論モデル

GraphNLI: A Graph-based Natural Language Inference Model for Polarity Prediction in Online Debates ( http://arxiv.org/abs/2202.08175v1 )

ライセンス: CC BY-SA 4.0
Vibhor Agarwal, Sagar Joglekar, Anthony P. Young, Nishanth Sastry(参考訳) ユーザ間の参加型エンゲージメントを可能にするオンラインフォーラムは、重要な問題に関する公開議論に変革をもたらした。 しかし、そのようなフォーラムでの議論は、時には憎しみや誤情報の完全な交換へとエスカレートすることがある。 このような問題を理解し、対処する上で重要なツールは、返信が返信している投稿を支持するか攻撃しているかという議論的関係を推測できることである。 このような極性予測タスクは、応答がポスト以外の外部コンテキストと、極性を予測する応答に基づいているため、難しい。 本稿では,グラフウォーク技術を用いて議論スレッドのより広い文脈を原則的に捉える,新しいグラフベースのディープラーニングアーキテクチャであるgraphnliを提案する。 具体的には、投稿から始まるルート探索グラフウォークを実行し、その周囲のコンテキストをキャプチャして追加の埋め込みを生成する方法を提案する。 次に、これらの埋め込みを使用して、返信と返信するポストの間の極性関係を予測する。 オンライン議論プラットフォームであるKialoのキュレートされた議論データセットを用いて、モデルの性能を評価する。 我々のモデルはS-BERTを含む関連するベースラインを83%の精度で上回ります。

Online forums that allow participatory engagement between users have been transformative for public discussion of important issues. However, debates on such forums can sometimes escalate into full blown exchanges of hate or misinformation. An important tool in understanding and tackling such problems is to be able to infer the argumentative relation of whether a reply is supporting or attacking the post it is replying to. This so called polarity prediction task is difficult because replies may be based on external context beyond a post and the reply whose polarity is being predicted. We propose GraphNLI, a novel graph-based deep learning architecture that uses graph walk techniques to capture the wider context of a discussion thread in a principled fashion. Specifically, we propose methods to perform root-seeking graph walks that start from a post and captures its surrounding context to generate additional embeddings for the post. We then use these embeddings to predict the polarity relation between a reply and the post it is replying to. We evaluate the performance of our models on a curated debate dataset from Kialo, an online debating platform. Our model outperforms relevant baselines, including S-BERT, with an overall accuracy of 83%.
翻訳日:2022-02-17 16:16:13 公開日:2022-02-16
# 光空中および音響水中画像に基づくクロスビューおよびクロスドメイン水中定位

Cross-view and Cross-domain Underwater Localization based on Optical Aerial and Acoustic Underwater Images ( http://arxiv.org/abs/2202.07817v1 )

ライセンス: Link先を確認
Matheus M. Dos Santos, Giovanni G. De Giacomo, Paulo L. J. Drews-Jr, Silvia S. C. Botelho(参考訳) クロスビュー画像マッチングは、ドローンや衛星の空中画像を用いて地上画像のローカライゼーションについて広く研究されてきた。 本研究は、クロスビュー画像マッチングの考え方を拡張し、クロスドメインおよびクロスビューローカライゼーションフレームワークを提案する。 カラー空中画像と水中音響画像との相関関係を同定し、港やマリーナなどの部分的に構成された環境を走行する水中車両の局在性を改善する。 このアプローチは、マリーナの水中車両が取得した実際のデータセット上で検証される。 その結果, 車両の死亡推定値と比較すると, 位置推定精度は向上した。

Cross-view image matches have been widely explored on terrestrial image localization using aerial images from drones or satellites. This study expands the cross-view image match idea and proposes a cross-domain and cross-view localization framework. The method identifies the correlation between color aerial images and underwater acoustic images to improve the localization of underwater vehicles that travel in partially structured environments such as harbors and marinas. The approach is validated on a real dataset acquired by an underwater vehicle in a marina. The results show an improvement in the localization when compared to the dead reckoning of the vehicle.
翻訳日:2022-02-17 15:59:11 公開日:2022-02-16
# ADAM チャレンジ: 眼底画像から加齢に伴う黄斑変性を検出する

ADAM Challenge: Detecting Age-related Macular Degeneration from Fundus Images ( http://arxiv.org/abs/2202.07983v1 )

ライセンス: Link先を確認
Huihui Fang, Fei Li, Huazhu Fu, Xu Sun, Xingxing Cao, Fengbin Lin, Jaemin Son, Sunho Kim, Gwenole Quellec, Sarah Matta, Sharath M Shankaranarayana, Yi-Ting Chen, Chuen-heng Wang, Nisarg A. Shah, Chia-Yen Lee, Chih-Chung Hsu, Hai Xie, Baiying Lei, Ujjwal Baid, Shubham Innani, Kang Dang, Wenxiu Shi, Ravi Kamble, Nitin Singhal, Jos\'e Ignacio Orlando, Hrvoje Bogunovi\'c, Xiulan Zhang, Yanwu Xu(参考訳) 加齢関連黄斑変性症(AMD)は、高齢者の視覚障害の主要な原因である。 AMDの早期検出は、AMDによる視力喪失が不可逆的で永続的であるため、非常に重要である。 カラー眼底撮影は網膜障害のスクリーニングに最も費用対効果の高い画像モダリティである。 近頃、深層学習に基づくいくつかのアルゴリズムが基礎画像解析と自動amd検出のために開発された。 しかし、包括的な注釈付きデータセットと標準評価ベンチマークがまだ欠けている。 この問題に対処するため、ISBI 2020カンファレンスの衛星イベントとして初めて、老化関連黄斑変性症(ADAM)の自動検出課題を設定した。 ADAM課題は、AMDの分類、光ディスクの検出・分節、葉の局在、病変の検出・分節を含む、基礎画像からのAMDの検出における主なトピックをカバーした4つの課題からなる。 ADAMの課題は、1200個の眼窩画像の包括的データセットをAMDのカテゴリラベル、全視ディスクと病変のピクセルワイドセグメンテーションマスク(ドライセン、エウデント、出血、傷など)、および黄斑窩の位置座標と共にリリースした。 異なるモデルの公正な比較を行うために、統一評価フレームワークが構築されている。 ADAMチャレンジでは、オンライン評価のために610の結果が提出され、最終的に11チームがオンサイトチャレンジに参加した。 本稿では,課題,データセット,評価手法を紹介するとともに,各タスクに参加するチームの結果を要約し,分析する。 特に,センシング戦略と臨床事前知識が深層学習モデルの性能を向上できることが観察された。

Age-related macular degeneration (AMD) is the leading cause of visual impairment among elderly in the world. Early detection of AMD is of great importance as the vision loss caused by AMD is irreversible and permanent. Color fundus photography is the most cost-effective imaging modality to screen for retinal disorders. \textcolor{red}{Recently, some algorithms based on deep learning had been developed for fundus image analysis and automatic AMD detection. However, a comprehensive annotated dataset and a standard evaluation benchmark are still missing.} To deal with this issue, we set up the Automatic Detection challenge on Age-related Macular degeneration (ADAM) for the first time, held as a satellite event of the ISBI 2020 conference. The ADAM challenge consisted of four tasks which cover the main topics in detecting AMD from fundus images, including classification of AMD, detection and segmentation of optic disc, localization of fovea, and detection and segmentation of lesions. The ADAM challenge has released a comprehensive dataset of 1200 fundus images with the category labels of AMD, the pixel-wise segmentation masks of the full optic disc and lesions (drusen, exudate, hemorrhage, scar, and other), as well as the location coordinates of the macular fovea. A uniform evaluation framework has been built to make a fair comparison of different models. During the ADAM challenge, 610 results were submitted for online evaluation, and finally, 11 teams participated in the onsite challenge. This paper introduces the challenge, dataset, and evaluation methods, as well as summarizes the methods and analyzes the results of the participating teams of each task. In particular, we observed that ensembling strategy and clinical prior knowledge can better improve the performances of the deep learning models.
翻訳日:2022-02-17 15:59:00 公開日:2022-02-16
# TalkTive: 高齢者の神経認知障害スクリーニングを支援するバックチャネルを用いた会話エージェント

TalkTive: A Conversational Agent Using Backchannels to Engage Older Adults in Neurocognitive Disorders Screening ( http://arxiv.org/abs/2202.08216v1 )

ライセンス: Link先を確認
Zijian Ding, Jiawen Kang, Tinky Oi Ting HO, Ka Ho Wong, Helene H. Fung, Helen Meng, Xiaojuan Ma(参考訳) 会話エージェント (cas) は高齢者の神経認知障害スクリーニングにおける臨床医の負担を軽減する上で大きな可能性を秘めている。 そのため,高齢者の認知能力評価を支援するために,エンゲージメント可能なCAを開発すること,高齢者からの会話音声入力を取り入れることが重要である。 本研究は,まず,話者参加のための言語応答の形で,CAのバックチャネル機能を開発するための研究について述べる。 高齢者と評価者の認知評価に関する246の会話を分析し,反応性バックチャネル(例えば,hmm)と反応性バックチャネル(例えば,"please keep go")のカテゴリを抽出した。 これは、認知評価中のバックチャネルのタイミングと形態の両方を予測できるcaであるtalktiveの開発に使用される。 その結果,36名の高齢者を対象に,バックチャネル機能の評価を行った。 その結果, 反応性バックチャネルよりも, 反応性バックチャネルが有効であることが示唆された。

Conversational agents (CAs) have the great potential in mitigating the clinicians' burden in screening for neurocognitive disorders among older adults. It is important, therefore, to develop CAs that can be engaging, to elicit conversational speech input from older adult participants for supporting assessment of cognitive abilities. As an initial step, this paper presents research in developing the backchanneling ability in CAs in the form of a verbal response to engage the speaker. We analyzed 246 conversations of cognitive assessments between older adults and human assessors, and derived the categories of reactive backchannels (e.g. "hmm") and proactive backchannels (e.g. "please keep going"). This is used in the development of TalkTive, a CA which can predict both timing and form of backchanneling during cognitive assessments. The study then invited 36 older adult participants to evaluate the backchanneling feature. Results show that proactive backchanneling is more appreciated by participants than reactive backchanneling.
翻訳日:2022-02-17 15:56:25 公開日:2022-02-16
# BB-ML:機械学習を用いた基本ブロック性能予測

BB-ML: Basic Block Performance Prediction using Machine Learning Techniques ( http://arxiv.org/abs/2202.07798v1 )

ライセンス: Link先を確認
Shamminuj Aktar, Hamdy Abdelkhalik, Nazmul Haque Turja, Yehia Arafa, Atanu Barai, Nishant Panda, Gopinath Chennupati, Nandakishore Santhi, Abdel-Hameed Badawy and Stephan Eidenbenz(参考訳) 近年では、主に粗いレベルで、大規模アプリケーションのパフォーマンスを予測するために機械学習(ml)技術が採用されている。 対照的に、我々はML技術を用いてパフォーマンス予測をはるかにきめ細かな粒度で行うことを提案し、すなわち、すべてのコンパイラが分析ツールとして使用する単一のエントリ単一出口コードブロックであるベーシックブロック(BB)のレベルにおいて、大きなコードを管理可能なピースに分解する。 mlとbb分析を組み合わせることで、現在の技術を超えたスケーラブルなハードウェアとソフトウェアの共同設計が可能になる。 本稿では、gpuアプリケーションの基本ブロック実行数を、同じアプリケーションのより小さな入力サイズの数から、大きな入力サイズに推定する。 我々は、Poisson Neural Network(PNN)とBayesian Regularization Backpropagation Neural Network(BR-BPNN)の2つのMLモデルを採用する。 基本ブロック数を予測するために,アプリケーションの最下位入力値とランダム入力値を用いて両方のモデルを訓練する。 その結果,16種類のベンチマークアプリケーションのブロック実行回数を正確に予測できた。 PNNモデルとBR-BPNNモデルでは、それぞれ93.5%と95.6%の平均精度を達成し、モデルがより小さな入力セットを用いてトレーニングされた場合、大きな入力セットに対する基本ブロック数を外挿する。 さらに、モデルはそれぞれ97.7%と98.1%の精度を示し、ランダムなインスタンスの基本的なブロック数を予測する。

Recent years have seen the adoption of Machine Learning (ML) techniques to predict the performance of large-scale applications, mostly at a coarse level. In contrast, we propose to use ML techniques for performance prediction at much finer granularity, namely at the levels of Basic Block (BB), which are the single entry-single exit code blocks that are used as analysis tools by all compilers to break down a large code into manageable pieces. Utilizing ML and BB analysis together can enable scalable hardware-software co-design beyond the current state of the art. In this work, we extrapolate the basic block execution counts of GPU applications for large inputs sizes from the counts of smaller input sizes of the same application. We employ two ML models, a Poisson Neural Network (PNN) and a Bayesian Regularization Backpropagation Neural Network (BR-BPNN). We train both models using the lowest input values of the application and random input values to predict basic block counts. Results show that our models accurately predict the basic block execution counts of 16 benchmark applications. For PNN and BR-BPNN models, we achieve an average accuracy of 93.5% and 95.6%, respectively, while extrapolating the basic block counts for large input sets when the model is trained using smaller input sets. Additionally, the models show an average accuracy of 97.7% and 98.1%, respectively, while predicting basic block counts on random instances.
翻訳日:2022-02-17 15:55:54 公開日:2022-02-16
# クラウドとしてのプライバシー保護型グラフニューラルネットワークトレーニングと推論

Privacy-Preserving Graph Neural Network Training and Inference as a Cloud Service ( http://arxiv.org/abs/2202.07835v1 )

ライセンス: Link先を確認
Songlei Wang and Yifeng Zheng and Xiaohua Jia(参考訳) グラフはエンティティ間の複雑な関係をモデル化するために広く使われている。 グラフ分析の強力なツールとして、グラフニューラルネットワーク(GNN)が最近、エンドツーエンドの処理能力のために広く注目を集めている。 クラウドコンピューティングの普及に伴い、その顕著なメリットから、複雑でリソース集約的なモデルトレーニングと推論のサービスをクラウドに展開することがますます人気になっている。 しかし、クラウドにデプロイされた場合、GNNトレーニングと推論サービスは、情報豊かでプロプライエタリなグラフデータ(および結果モデル)に関する重要なプライバシー上の懸念を提起する。 セキュアなニューラルネットワークトレーニングと推論に関する研究はいくつかあるが、いずれも、リッチな構造情報を持つ複雑なグラフデータではなく、画像とテキストを扱う畳み込みニューラルネットワークに焦点を当てている。 本稿では,クラウド上でのプライバシー保護GNNトレーニングおよび推論サービスをサポートする最初のシステムであるSecGNNの設計,実装,評価を行う。 SecGNNは、軽量暗号と機械学習技術に関する洞察の相乗効果から構築されている。 我々は,GNNトレーニングと推論の手順を深く検討し,包括的計算をサポートするための一連のセキュアなプロトコルを考案する。 大規模な実験により、SecGNNは、ほぼ手頃なパフォーマンスで、同等の平文のトレーニングと推論精度を実現している。

Graphs are widely used to model the complex relationships among entities. As a powerful tool for graph analytics, graph neural networks (GNNs) have recently gained wide attention due to its end-to-end processing capabilities. With the proliferation of cloud computing, it is increasingly popular to deploy the services of complex and resource-intensive model training and inference in the cloud due to its prominent benefits. However, GNN training and inference services, if deployed in the cloud, will raise critical privacy concerns about the information-rich and proprietary graph data (and the resulting model). While there has been some work on secure neural network training and inference, they all focus on convolutional neural networks handling images and text rather than complex graph data with rich structural information. In this paper, we design, implement, and evaluate SecGNN, the first system supporting privacy-preserving GNN training and inference services in the cloud. SecGNN is built from a synergy of insights on lightweight cryptography and machine learning techniques. We deeply examine the procedure of GNN training and inference, and devise a series of corresponding secure customized protocols to support the holistic computation. Extensive experiments demonstrate that SecGNN achieves comparable plaintext training and inference accuracy, with practically affordable performance.
翻訳日:2022-02-17 15:55:29 公開日:2022-02-16
# 期待制約を伴うデータ駆動ミニマックス最適化

Data-Driven Minimax Optimization with Expectation Constraints ( http://arxiv.org/abs/2202.07868v1 )

ライセンス: Link先を確認
Shuoguang Yang, Xudong Li, Guanghui Lan(参考訳) 有名な確率的勾配降下法を含むデータ駆動型最適化手法への注目は近年大きくなっているが、データ駆動型制約は、これらのハード制約によって定義される実現可能な集合への射影の計算上の課題のために、ほとんど研究されていない。 本稿では,非スムース凸凸確率的ミニマックスレジームに着目し,データ駆動制約を期待制約として定式化する。 ミニマックス予想問題(minimax expectation constrained problem)は、2プレイヤーゼロサムゲームやデータ駆動ロバスト最適化など、現実世界の幅広い応用を仮定する。 我々は,ミニマックス期待制約問題に取り組むための効率的な原始双対アルゴリズムのクラスを提案し,そのアルゴリズムが$\mathcal{o}(\frac{1}{\sqrt{n}})$の最適速度で収束することを示す。 大規模実世界応用における数値実験を行い,本アルゴリズムの実用性を示す。

Attention to data-driven optimization approaches, including the well-known stochastic gradient descent method, has grown significantly over recent decades, but data-driven constraints have rarely been studied, because of the computational challenges of projections onto the feasible set defined by these hard constraints. In this paper, we focus on the non-smooth convex-concave stochastic minimax regime and formulate the data-driven constraints as expectation constraints. The minimax expectation constrained problem subsumes a broad class of real-world applications, including two-player zero-sum game and data-driven robust optimization. We propose a class of efficient primal-dual algorithms to tackle the minimax expectation-constrained problem, and show that our algorithms converge at the optimal rate of $\mathcal{O}(\frac{1}{\sqrt{N}})$. We demonstrate the practical efficiency of our algorithms by conducting numerical experiments on large-scale real-world applications.
翻訳日:2022-02-17 15:55:10 公開日:2022-02-16
# (参考訳) ディープグラフ学習のためのデータ拡張:調査

Data Augmentation for Deep Graph Learning: A Survey ( http://arxiv.org/abs/2202.08235v1 )

ライセンス: CC BY 4.0
Kaize Ding, Zhe Xu, Hanghang Tong and Huan Liu(参考訳) グラフ構造化データをモデル化する強力なディープラーニングツールであるグラフニューラルネットワークは、多数のグラフ学習タスクにおいて驚くべきパフォーマンスを示している。 近年,深層グラフ学習(DGL)におけるデータノイズとデータ不足問題に対処するため,グラフデータ増大の研究が進められている。 しかし,従来のデータ拡張手法では,マルチモーダルな非ユークリッド空間上で定義されるグラフ構造化データをほとんど扱えない。 本稿では,グラフデータ拡張の問題を公式に定式化し,この分野の代表的手法について検討する。 具体的には、まず、グラフデータ拡張のための分類法を提案し、その拡張情報モダリティに基づいて関連研究を分類し、構造化されたレビューを提供する。 DGLにおける2つの課題(すなわち、最適グラフ学習と低リソースグラフ学習)に焦点を当て、グラフデータ拡張に基づく既存の学習パラダイムについて議論し、レビューする。 最後に,将来的な成果を期待する上で,いくつかの方向性と課題を指摘します。

Graph neural networks, as powerful deep learning tools to model graph-structured data, have demonstrated remarkable performance on numerous graph learning tasks. To counter the data noise and data scarcity issues in deep graph learning (DGL), increasing graph data augmentation research has been conducted lately. However, conventional data augmentation methods can hardly handle graph-structured data which is defined on non-Euclidean space with multi-modality. In this survey, we formally formulate the problem of graph data augmentation and further review the representative techniques in this field. Specifically, we first propose a taxonomy for graph data augmentation and then provide a structured review by categorizing the related work based on the augmented information modalities. Focusing on the two challenging problems in DGL (i.e., optimal graph learning and low-resource graph learning), we also discuss and review the existing learning paradigms which are based on graph data augmentation. Finally, we point out a few directions and challenges on promising future works.
翻訳日:2022-02-17 15:53:10 公開日:2022-02-16
# ノード分類において、スペクトルグラフニューラルネットワークはいつ失敗するのか?

When Does A Spectral Graph Neural Network Fail in Node Classification? ( http://arxiv.org/abs/2202.07902v1 )

ライセンス: Link先を確認
Zhixian Chen, Tengfei Ma and Yang Wang(参考訳) 様々なグラフフィルタを持つスペクトルグラフニューラルネットワーク(GNN)は、グラフ学習問題における有望な性能のため、広く肯定されている。 しかし、GNNは必ずしもうまく機能していないことが知られている。 グラフフィルタはモデル説明の理論的基礎を提供するが、スペクトルGNNがいつ失敗するかは不明である。 本稿では,ノード分類問題に着目し,その予測誤差を調査し,スペクトルGNNの性能に関する理論的解析を行う。 本研究では,グラフ構造,ノードラベル,グラフフィルタの複雑な関係を包括的に理解する手法を提案する。 ラベル差に対する応答効率の低いグラフフィルタは失敗しがちであることを示す。 GNNの性能を向上させるため,データ駆動型フィルタバンクを用いた理論解析から,フィルタ設計のためのより優れた手法を提案し,経験的検証のためのシンプルなモデルを提案する。 実験結果は理論結果と一貫性を示し,戦略を支持する。

Spectral Graph Neural Networks (GNNs) with various graph filters have received extensive affirmation due to their promising performance in graph learning problems. However, it is known that GNNs do not always perform well. Although graph filters provide theoretical foundations for model explanations, it is unclear when a spectral GNN will fail. In this paper, focusing on node classification problems, we conduct a theoretical analysis of spectral GNNs performance by investigating their prediction error. With the aid of graph indicators including homophily degree and response efficiency we proposed, we establish a comprehensive understanding of complex relationships between graph structure, node labels, and graph filters. We indicate that graph filters with low response efficiency on label difference are prone to fail. To enhance GNNs performance, we provide a provably better strategy for filter design from our theoretical analysis - using data-driven filter banks, and propose simple models for empirical validation. Experimental results show consistency with our theoretical results and support our strategy.
翻訳日:2022-02-17 15:36:00 公開日:2022-02-16
# グラフのアウトオブディストリビューション一般化:調査

Out-Of-Distribution Generalization on Graphs: A Survey ( http://arxiv.org/abs/2202.07987v1 )

ライセンス: Link先を確認
Haoyang Li, Xin Wang, Ziwei Zhang, Wenwu Zhu(参考訳) グラフ機械学習は学術と産業の両方で広く研究されている。 膨大な数の新しい手法や技術でブームとなったが、ほとんどの文献はI.I.D.仮説に基づいて構築されている。 しかし、このI.I.D.仮説は、テストとトレーニンググラフデータの間に分散シフトが存在する場合、モデルの性能が著しく低下する多くの実世界のグラフシナリオでは、ほとんど満足できない。 この重要な問題を解決するため、I.I.D.仮説を超えるグラフのアウト・オブ・ディストリビューション(OOD)一般化は大きな進歩を遂げ、研究コミュニティから注目を集めている。 本稿では,グラフ上でのOOD一般化を包括的に調査し,最近の進歩を概観する。 まず、グラフ上のOOD一般化の形式的問題定義を提供する。 第2に,既存の手法を概念的に異なる視点,すなわちグラフ機械学習パイプラインの位置に基づいて,データ,モデル,学習戦略から3つのクラスに分類し,各カテゴリについて詳細な議論を行う。 また,グラフ上のood一般化に関する理論をレビューし,一般的なグラフデータセットを徹底的に評価するために紹介する。 最後に、私たちは将来の研究の方向性について洞察を共有しています。 本稿は,OODのグラフへの一般化の体系的および包括的レビューを,我々の知る限り,初めて行ったものである。

Graph machine learning has been extensively studied in both academia and industry. Although booming with a vast number of emerging methods and techniques, most of the literature is built on the I.I.D. hypothesis, i.e., testing and training graph data are independent and identically distributed. However, this I.I.D. hypothesis can hardly be satisfied in many real-world graph scenarios where the model performance substantially degrades when there exist distribution shifts between testing and training graph data. To solve this critical problem, out-of-distribution (OOD) generalization on graphs, which goes beyond the I.I.D. hypothesis, has made great progress and attracted ever-increasing attention from the research community. In this paper, we comprehensively survey OOD generalization on graphs and present a detailed review of recent advances in this area. First, we provide a formal problem definition of OOD generalization on graphs. Second, we categorize existing methods into three classes from conceptually different perspectives, i.e., data, model, and learning strategy, based on their positions in the graph machine learning pipeline, followed by detailed discussions for each category. We also review the theories related to OOD generalization on graphs and introduce the commonly used graph datasets for thorough evaluations. Last but not least, we share our insights on future research directions. This paper is the first systematic and comprehensive review of OOD generalization on graphs, to the best of our knowledge.
翻訳日:2022-02-17 15:35:46 公開日:2022-02-16
# 深部神経崩壊探索のための拡張非拘束特徴モデル

Extended Unconstrained Features Model for Exploring Deep Neural Collapse ( http://arxiv.org/abs/2202.08087v1 )

ライセンス: Link先を確認
Tom Tirer, Joan Bruna(参考訳) 分類タスクのためにディープニューラルネットワークをトレーニングするための現代的な戦略は、トレーニングエラーが消えてもネットワークの重みを最適化し、トレーニング損失をゼロに推し進めることである。 近年,このトレーニングでは「神経崩壊」と呼ばれる現象が経験的に観察されている。 具体的には, クラス内サンプルの学習された特徴(ペナルティメート層の出力)が平均値に収束し, 異なるクラスによって, 一定のタイトなフレーム構造が示され, 最終層の重みとも一致していることが示されている。 近年の論文では、この構造を持つ最小化器は、正規化されたクロスエントロピー損失を伴う単純化された「制約なし特徴モデル」(UFM)を最適化する際に現れる。 本稿では, ufmをさらに分析し, 拡張する。 まず, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。 これは重量の構造にも影響を及ぼす。 そして,このモデルにReLU非線形性に加えて,他の重みの層を追加してUFMを拡張し,その結果を一般化する。 最後に,実ネットワークで発生するNC現象をモデル化するための非線形拡張UFMの有用性を実証的に示す。

The modern strategy for training deep neural networks for classification tasks includes optimizing the network's weights even after the training error vanishes to further push the training loss toward zero. Recently, a phenomenon termed "neural collapse" (NC) has been empirically observed in this training procedure. Specifically, it has been shown that the learned features (the output of the penultimate layer) of within-class samples converge to their mean, and the means of different classes exhibit a certain tight frame structure, which is also aligned with the last layer's weights. Recent papers have shown that minimizers with this structure emerge when optimizing a simplified "unconstrained features model" (UFM) with a regularized cross-entropy loss. In this paper, we further analyze and extend the UFM. First, we study the UFM for the regularized MSE loss, and show that the minimizers' features can be more structured than in the cross-entropy case. This affects also the structure of the weights. Then, we extend the UFM by adding another layer of weights as well as ReLU nonlinearity to the model and generalize our previous results. Finally, we empirically demonstrate the usefulness of our nonlinear extended UFM in modeling the NC phenomenon that occurs with practical networks.
翻訳日:2022-02-17 15:35:22 公開日:2022-02-16
# prospect pruning: meta-gradients を用いた初期化時のトレーニング可能な重みの探索

Prospect Pruning: Finding Trainable Weights at Initialization using Meta-Gradients ( http://arxiv.org/abs/2202.08132v1 )

ライセンス: Link先を確認
Milad Alizadeh, Shyam A. Tailor, Luisa M Zintgraf, Joost van Amersfoort, Sebastian Farquhar, Nicholas Donald Lane, Yarin Gal(参考訳) ニューラルネットワークを初期化することで、元のネットワークの精度を保ちながら、トレーニングや推論のための計算リソースを少なくするスパースモデルを見つけることが可能になります。 しかし、この最適化を実現するために現在の手法では不十分であり、モデルの性能が大幅に低下する。 本稿では,現在の手法の定式化における基本的な限界,すなわち,ネットワークのトレーサビリティを考慮せずに,トレーニング開始時の単一ステップを評価できることを明らかにする。 反復的かつ段階的に刈り取ることによって刈り取り性能が向上することが示されているが、刈り込みに追従する訓練段階の明示的な考察は、これまでのところサリエンシ基準の計算には欠落している。 既存手法の近視性を克服するために,最適化の最初の数ステップでメタ勾配を用いたプルーニング(prospr)を提案し,プルーニングの重み付けを判定する。 ProsPrは、訓練可能なサブネットワークを識別するための損失と最適化軌道に対するプルーニングの高次効果を推定する。 本手法は,従来のプルーニング・ア・イニシャライズ法に比べて少ないデータと1ショットで,様々な視覚分類タスクにおいて最先端のプルーニング性能を実現する。

Pruning neural networks at initialization would enable us to find sparse models that retain the accuracy of the original network while consuming fewer computational resources for training and inference. However, current methods are insufficient to enable this optimization and lead to a large degradation in model performance. In this paper, we identify a fundamental limitation in the formulation of current methods, namely that their saliency criteria look at a single step at the start of training without taking into account the trainability of the network. While pruning iteratively and gradually has been shown to improve pruning performance, explicit consideration of the training stage that will immediately follow pruning has so far been absent from the computation of the saliency criterion. To overcome the short-sightedness of existing methods, we propose Prospect Pruning (ProsPr), which uses meta-gradients through the first few steps of optimization to determine which weights to prune. ProsPr combines an estimate of the higher-order effects of pruning on the loss and the optimization trajectory to identify the trainable sub-network. Our method achieves state-of-the-art pruning performance on a variety of vision classification tasks, with less data and in a single shot compared to existing pruning-at-initialization methods.
翻訳日:2022-02-17 15:35:00 公開日:2022-02-16
# Singularity: AIワークロードの惑星スケール、プリエンプティブル、Elastic Scheduling

Singularity: Planet-Scale, Preemptible, Elastic Scheduling of AI Workloads ( http://arxiv.org/abs/2202.07848v1 )

ライセンス: Link先を確認
Dharma Shukla, Muthian Sivathanu, Srinidhi Viswanatha, Bhargav Gulavani, Rimma Nehme, Amey Agrawal, Chen Chen, Nipun Kwatra, Ramachandran Ramjee, Pankaj Sharma, Atul Katiyar, Vipul Modi, Vaibhav Sharma, Abhishek Singh, Shreshth Singhal, Kaustubh Welankar, Lu Xun, Ravi Anupindi, Karthik Elangovan, Hasibur Rahman, Zhou Lin, Rahul Seetharaman, Cheng Xu, Eddie Ailijiang, Suresh Krishnappa, Mark Russinovich (Microsoft)(参考訳) ディープラーニングワークロードをまたいだ高利用率の推進によるコスト削減は、クラウドプロバイダにとって重要なレバーである。 私たちは、ディープラーニングトレーニングと推論ワークロードの高効率で信頼性の高い実行のための、Microsoftのグローバルな分散スケジューリングサービスであるSingularityを紹介します。 Singularityの中心にあるのは、新しいワークロード対応スケジューラで、透過的にプリエンプションし、弾力的に拡張することで、AIアクセラレータ(GPUやFPGAなど)のグローバルな群をまたいで、その正確性やパフォーマンスに影響を与えることなく、高い利用率を向上することができる。 特異性のすべてのジョブは、デフォルトではプリエンプティブルで、偏りがあり、動的にリサイズ可能(弾力性)である。 (a) プリエンプションされ、異なるノード、クラスタ、データセンタ、あるいはリージョンに移行し、実行がプリエンプションされた時点から正確に再開され、 (b) 所定の種類の加速器の様々なセットで再サイズ(すなわち弾性スケールアップ/ダウン)を行う。 私たちのメカニズムは透過的で、ユーザはコードの変更を一切必要とせず、柔軟性を制限するカスタムライブラリも必要としない。 さらに,このアプローチは,ディープラーニングワークロードの信頼性を大幅に向上させる。 Singularityによる結果の効率性と信頼性の向上は、定常状態の性能に無視できない影響で達成されることを示す。 最後に、我々の設計アプローチはDNNアーキテクチャに非依存であり、様々な並列性戦略(例えば、データ/パイプライン/モデル並列性)を扱う。

Lowering costs by driving high utilization across deep learning workloads is a crucial lever for cloud providers. We present Singularity, Microsoft's globally distributed scheduling service for highly-efficient and reliable execution of deep learning training and inference workloads. At the heart of Singularity is a novel, workload-aware scheduler that can transparently preempt and elastically scale deep learning workloads to drive high utilization without impacting their correctness or performance, across a global fleet of AI accelerators (e.g., GPUs, FPGAs). All jobs in Singularity are preemptable, migratable, and dynamically resizable (elastic) by default: a live job can be dynamically and transparently (a) preempted and migrated to a different set of nodes, cluster, data center or a region and resumed exactly from the point where the execution was preempted, and (b) resized (i.e., elastically scaled-up/down) on a varying set of accelerators of a given type. Our mechanisms are transparent in that they do not require the user to make any changes to their code or require using any custom libraries that may limit flexibility. Additionally, our approach significantly improves the reliability of deep learning workloads. We show that the resulting efficiency and reliability gains with Singularity are achieved with negligible impact on the steady-state performance. Finally, our design approach is agnostic of DNN architectures and handles a variety of parallelism strategies (e.g., data/pipeline/model parallelism).
翻訳日:2022-02-17 15:33:21 公開日:2022-02-16
# ラベルなしオフラインデータによる因果推定の強化

Enhancing Causal Estimation through Unlabeled Offline Data ( http://arxiv.org/abs/2202.07895v1 )

ライセンス: Link先を確認
Ron Teichner, Ron Meir, Danny Eitan(参考訳) 集中治療室(ICU)に新しい患者が到着し、複数のセンサーで監視される状況を考える。 患者の診断や治療に強い影響を持つ非測定的生理学的変数(心収縮性,出力,血管抵抗性など)について検討したい。 この特定の患者に関する情報は得られていないが、現在の患者(データセットシフトの場合)と部分的に関係している可能性がある以前の患者について広範なオフライン情報が得られる。 この情報は私たちの事前の知識であり、部分的かつ近似的です。 基本的な問題は、この先行知識をオンライン患者データと組み合わせて、現在の患者を最も効果的に診断する方法である。 提案するアプローチは3つの段階からなる。 (i)無防備なオフラインデータを用いて、関連する無測定の生理変数の非因果推定器と因果推定器の両方を作成する。 (ii)非陰影推定器と新しい患者群からの一連の測定に基づいて,この新しい患者群に対する隠れた生理学的変数の予測において高い精度を提供する因果フィルタを構築した。 (iii) icuに到達した新規患者に対しては, 構築フィルタを用いて関連する内部変数を予測する。 この戦略により,新たに来院した患者の因果推定を向上させるため,利用可能なオフラインデータの利用が可能となった。 オフラインデータが新しい観測に部分的にのみ関係している状況において、この手法が(医療的でない)実世界のタスクに対して有効であることを示す。 カルマンフィルタリングと平滑化の線形設定におけるアプローチのメリットを数学的に解析し,その有用性を示す。

Consider a situation where a new patient arrives in the Intensive Care Unit (ICU) and is monitored by multiple sensors. We wish to assess relevant unmeasured physiological variables (e.g., cardiac contractility and output and vascular resistance) that have a strong effect on the patients diagnosis and treatment. We do not have any information about this specific patient, but, extensive offline information is available about previous patients, that may only be partially related to the present patient (a case of dataset shift). This information constitutes our prior knowledge, and is both partial and approximate. The basic question is how to best use this prior knowledge, combined with online patient data, to assist in diagnosing the current patient most effectively. Our proposed approach consists of three stages: (i) Use the abundant offline data in order to create both a non-causal and a causal estimator for the relevant unmeasured physiological variables. (ii) Based on the non-causal estimator constructed, and a set of measurements from a new group of patients, we construct a causal filter that provides higher accuracy in the prediction of the hidden physiological variables for this new set of patients. (iii) For any new patient arriving in the ICU, we use the constructed filter in order to predict relevant internal variables. Overall, this strategy allows us to make use of the abundantly available offline data in order to enhance causal estimation for newly arriving patients. We demonstrate the effectiveness of this methodology on a (non-medical) real-world task, in situations where the offline data is only partially related to the new observations. We provide a mathematical analysis of the merits of the approach in a linear setting of Kalman filtering and smoothing, demonstrating its utility.
翻訳日:2022-02-17 15:32:55 公開日:2022-02-16
# ProsoSpeech: テキストから音声への量子ベクトル事前学習による韻律の強化

ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech ( http://arxiv.org/abs/2202.07816v1 )

ライセンス: Link先を確認
Yi Ren, Ming Lei, Zhiying Huang, Shiliang Zhang, Qian Chen, Zhijie Yan, Zhou Zhao(参考訳) 近年,音声における韻律のモデル化を中心に,表現型音声合成(TTS)が注目されている。 韻律モデリングにはいくつかの課題があります 1) 前述した韻律モデリング作業における抽出ピッチは,必然的に誤りがあり,それが韻律モデリングを損なう。 2) プロソディの異なる特性(例えば、ピッチ、持続時間、エネルギー)は、互いに依存し、自然のプロソディを一緒に生成する。 3) プロソディの多様性が高く, TTSトレーニングにおける高品質なデータ量が少ないため, プロソディの分布は完全には形成できない。 これらの課題に対処するために,大規模で低品質なテキストと音声データに基づいて事前学習した量子化潜在ベクトルを用いて韻律を向上するProsoSpeechを提案する。 具体的には、まず音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)の韻律特性を圧縮する単語レベル韻律エンコーダを導入する。 次に LPV 予測器を導入し,LPV の単語列を予測する。 我々はLPV予測器を大規模テキストと低品質音声データで事前訓練し、高品質のTSデータセットで微調整する。 最後に,予測したlpvを条件とした表現型音声を生成する。 実験の結果,prosospeechは,ベースライン法と比較して,より豊かな韻律を持つ音声を生成できることがわかった。

Expressive text-to-speech (TTS) has become a hot research topic recently, mainly focusing on modeling prosody in speech. Prosody modeling has several challenges: 1) the extracted pitch used in previous prosody modeling works have inevitable errors, which hurts the prosody modeling; 2) different attributes of prosody (e.g., pitch, duration and energy) are dependent on each other and produce the natural prosody together; and 3) due to high variability of prosody and the limited amount of high-quality data for TTS training, the distribution of prosody cannot be fully shaped. To tackle these issues, we propose ProsoSpeech, which enhances the prosody using quantized latent vectors pre-trained on large-scale unpaired and low-quality text and speech data. Specifically, we first introduce a word-level prosody encoder, which quantizes the low-frequency band of the speech and compresses prosody attributes in the latent prosody vector (LPV). Then we introduce an LPV predictor, which predicts LPV given word sequence. We pre-train the LPV predictor on large-scale text and low-quality speech data and fine-tune it on the high-quality TTS dataset. Finally, our model can generate expressive speech conditioned on the predicted LPV. Experimental results show that ProsoSpeech can generate speech with richer prosody compared with baseline methods.
翻訳日:2022-02-17 15:32:08 公開日:2022-02-16
# 会話レベル特性の学習による会話音声認識

Conversational Speech Recognition By Learning Conversation-level Characteristics ( http://arxiv.org/abs/2202.07855v1 )

ライセンス: Link先を確認
Kun Wei, Yike Zhang, Sining Sun, Lei Xie, Long Ma(参考訳) 会話自動音声認識(英: Conversational Automatic Speech Recognition, ASR)は、複数の話者を含む会話音声を認識するタスクである。 文レベルのASRとは異なり、会話型ASRは、役割選好や話題のコヒーレンスといった会話の特徴から自然に利点を生かすことができる。 本稿では,会話レベルの特徴を主成分とする対話型ASRモデルを提案する。 提案するモデルのハイライトは2つだ。 まず、コンバータベースのエンコーダデコーダASRバックボーンに潜時変分モジュール(LVM)をアタッチして、役割選好とトピックコヒーレンスを学ぶ。 第二に、予測されたトピックの単語にデコーダの出力をバイアスするトピックモデルが特に採用されている。 2つのマンダリン会話型ASRタスクの実験により、提案モデルが最大12%の相対的文字誤り率(CER)を減少させることを示した。

Conversational automatic speech recognition (ASR) is a task to recognize conversational speech including multiple speakers. Unlike sentence-level ASR, conversational ASR can naturally take advantages from specific characteristics of conversation, such as role preference and topical coherence. This paper proposes a conversational ASR model which explicitly learns conversation-level characteristics under the prevalent end-to-end neural framework. The highlights of the proposed model are twofold. First, a latent variational module (LVM) is attached to a conformer-based encoder-decoder ASR backbone to learn role preference and topical coherence. Second, a topic model is specifically adopted to bias the outputs of the decoder to words in the predicted topics. Experiments on two Mandarin conversational ASR tasks show that the proposed model achieves a maximum 12% relative character error rate (CER) reduction.
翻訳日:2022-02-17 15:31:43 公開日:2022-02-16
# (参考訳) ディープQネットワークとシステム分割を利用した侵入応答システム

An Intrusion Response System utilizing Deep Q-Networks and System Partitions ( http://arxiv.org/abs/2202.08182v1 )

ライセンス: CC BY 4.0
Valeria Cardellini, Emiliano Casalicchio, Stefano Iannucci, Matteo Lucantonio, Sudip Mittal, Damodar Panigrahi, Andrea Silvi(参考訳) 侵入反応は比較的新しい研究分野である。 侵入応答システム(IRS)の創出に対する最近のアプローチは、現在進行中の攻撃を阻止または緩和するために、適切な対策を最適又はほぼ最適に選択するための第一の手法として強化学習(RL)を使用している。 しかし、それらのほとんどは、システムが時間とともに変化するという事実や、言い換えれば、システムが非定常な振る舞いを示すという事実を考慮していない。 さらに、RLに基づくようなステートフルなアプローチは、保護されたシステムのサイズとともに指数関数的に増加する状態空間のために、次元性の呪いを被る。 本稿では,IRSソフトウェアプロトタイプ irs-partition について紹介する。 保護されたシステムとDeep Q-Networksのパーティショニングを活用し、マルチエージェントの定式化をサポートすることで次元の呪いに対処する。 さらに、転送学習を利用して非定常システムの進化に追随する。

Intrusion Response is a relatively new field of research. Recent approaches for the creation of Intrusion Response Systems (IRSs) use Reinforcement Learning (RL) as a primary technique for the optimal or near-optimal selection of the proper countermeasure to take in order to stop or mitigate an ongoing attack. However, most of them do not consider the fact that systems can change over time or, in other words, that systems exhibit a non-stationary behavior. Furthermore, stateful approaches, such as those based on RL, suffer the curse of dimensionality, due to a state space growing exponentially with the size of the protected system. In this paper, we introduce and develop an IRS software prototype, named irs-partition. It leverages the partitioning of the protected system and Deep Q-Networks to address the curse of dimensionality by supporting a multi-agent formulation. Furthermore, it exploits transfer learning to follow the evolution of non-stationary systems.
翻訳日:2022-02-17 15:29:29 公開日:2022-02-16
# RNGDet:空中画像のトランスによる道路網グラフ検出

RNGDet: Road Network Graph Detection by Transformer in Aerial Images ( http://arxiv.org/abs/2202.07824v1 )

ライセンス: Link先を確認
Zhenhua Xu, Yuxuan Liu, Lu Gan, Yuxiang Sun, Ming Liu and Lujia Wang(参考訳) 道路ネットワークグラフは、ドライビング可能なエリアでの運動計画のような自動運転車アプリケーションにとって重要な情報を提供する。 しかし、手動でアノテートする道路網グラフは非効率的で労働集約的である。 道路ネットワークグラフの自動検出はこの問題を軽減する可能性があるが、既存の研究は、満足なトポロジの正しさを保証できないセグメンテーションベースのアプローチ、あるいは十分な正確な検出結果を提示できないグラフベースのアプローチのいずれかである。 この問題を解決するために,本論文では,rngdet (\underline{r}oad \underline{n}etwork \underline{g}raph \underline{det}ection by transformer) という,トランスフォーマと模倣学習に基づく新しいアプローチを提案する。 近年,高分解能空中画像が世界中に簡単にアクセス可能であることを踏まえ,我々のアプローチで空中画像を利用する。 航空画像の入力として,道路網グラフを頂点単位で反復的に生成する手法を提案する。 提案手法は様々な道路セグメントの複雑な交差点を扱うことができる。 公開データセットに対する我々のアプローチを評価する。 比較実験により,我々のアプローチの優位性を実証した。

Road network graphs provide critical information for autonomous vehicle applications, such as motion planning on drivable areas. However, manually annotating road network graphs is inefficient and labor-intensive. Automatically detecting road network graphs could alleviate this issue, but existing works are either segmentation-based approaches that could not ensure satisfactory topology correctness, or graph-based approaches that could not present precise enough detection results. To provide a solution to these problems, we propose a novel approach based on transformer and imitation learning named RNGDet (\underline{R}oad \underline{N}etwork \underline{G}raph \underline{Det}ection by Transformer) in this paper. In view of that high-resolution aerial images could be easily accessed all over the world nowadays, we make use of aerial images in our approach. Taken as input an aerial image, our approach iteratively generates road network graphs vertex-by-vertex. Our approach can handle complicated intersection points of various numbers of road segments. We evaluate our approach on a publicly available dataset. The superiority of our approach is demonstrated through the comparative experiments.
翻訳日:2022-02-17 15:16:38 公開日:2022-02-16
# pcrp:教師なしポイントクラウドオブジェクト検索とポーズ推定

PCRP: Unsupervised Point Cloud Object Retrieval and Pose Estimation ( http://arxiv.org/abs/2202.07843v1 )

ライセンス: Link先を確認
Pranav Kadam, Qingyang Zhou, Shan Liu, C.-C. Jay Kuo(参考訳) そこで本研究では,PCRPと呼ばれる,教師なしのクラウドオブジェクトの検索とポーズ推定手法を提案する。 所定のポーズ方向情報を持つ点クラウドオブジェクトを含むギャラリーポイントクラウドセットが存在すると仮定される。 pcrpは、未知のポイントクラウドオブジェクトをギャラリーのオブジェクトに登録し、コンテンツベースのオブジェクトの検索とポーズ推定を共同で行おうとする。 ModelNet40データセットの実験は、従来の学習ベースの手法と比較してPCRPの優れた性能を示している。

An unsupervised point cloud object retrieval and pose estimation method, called PCRP, is proposed in this work. It is assumed that there exists a gallery point cloud set that contains point cloud objects with given pose orientation information. PCRP attempts to register the unknown point cloud object with those in the gallery set so as to achieve content-based object retrieval and pose estimation jointly, where the point cloud registration task is built upon an enhanced version of the unsupervised R-PointHop method. Experiments on the ModelNet40 dataset demonstrate the superior performance of PCRP in comparison with traditional and learning based methods.
翻訳日:2022-02-17 15:16:19 公開日:2022-02-16
# 自己教師付き進行データ強化による進化的枠組みにおける統一煙と火災検知

Unified smoke and fire detection in an evolutionary framework with self-supervised progressive data augment ( http://arxiv.org/abs/2202.07954v1 )

ライセンス: Link先を確認
Hang Zhang, Su Yang, Hongyong Wang, zhongyan lu, helin sun(参考訳) 火を伴う煙と炎を同時に検出する研究はほとんど行われておらず、その物理的性質が不確実な流体パターンにつながる。 本研究では,煙と炎を同時に識別するために,多段画像分類問題として再ラベルする大規模画像データセットを収集した。 火災や煙などの不確実な形状の流体物体の検知モデルの一般化能力と,その非コンパクト性,および複雑な背景のばらつきを考慮し,ランダムな画像縫い込みによるデータ拡張手法を提案し, 再現性, 変形性, 位置変化, 背景変化を, 学習者の視界を拡大するために展開する。 さらに,クラスアクティベーションマップを用いて,信頼度の高い領域を,肯定的な例の新しいデータ源として抽出し,データ拡張をさらに強化する自己学習データ拡張手法を提案する。 データ拡張と反復的に実行される検出モデル間の相互強化により、両方のモジュールは進化的に前進する。 提案手法は,煙と火災を同時検出するモデルの一般化性能を効果的に向上できることを示す。

Few researches have studied simultaneous detection of smoke and flame accompanying fires due to their different physical natures that lead to uncertain fluid patterns. In this study, we collect a large image data set to re-label them as a multi-label image classification problem so as to identify smoke and flame simultaneously. In order to solve the generalization ability of the detection model on account of the movable fluid objects with uncertain shapes like fire and smoke, and their not compactible natures as well as the complex backgrounds with high variations, we propose a data augment method by random image stitch to deploy resizing, deforming, position variation, and background altering so as to enlarge the view of the learner. Moreover, we propose a self-learning data augment method by using the class activation map to extract the highly trustable region as new data source of positive examples to further enhance the data augment. By the mutual reinforcement between the data augment and the detection model that are performed iteratively, both modules make progress in an evolutionary manner. Experiments show that the proposed method can effectively improve the generalization performance of the model for concurrent smoke and fire detection.
翻訳日:2022-02-17 15:16:07 公開日:2022-02-16
# 野生における360度深度推定 -Depth360データセットとSegFuseネットワーク-

360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse Network ( http://arxiv.org/abs/2202.08010v1 )

ライセンス: Link先を確認
Qi Feng, Hubert P. H. Shum, Shigeo Morishima(参考訳) 全方位画像からの単視点深度推定は、自動運転やシーン復元といった幅広い応用で人気を集めている。 データ駆動学習に基づく手法はこの分野で大きな可能性を示しているが、訓練データ不足と非効率な360度推定アルゴリズムはまだ2つの重要な制限であり、様々な領域で正確な推定を妨げている。 本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。 これは、全方向シーケンスに固有の情報を活用するテストタイムトレーニング手法を用いて、インターネットから360度ビデオである複数のデータソースを探索することで達成される。 新たな幾何学的・時間的制約により,一貫した深度サンプルを生成し,一視点推定を容易にする。 次に,人間の眼を模倣してデータセットから効果的に学習し,多彩なrgb画像から高品質な深度マップを推定する,エンドツーエンドのマルチタスク学習ネットワークsegfuseを提案する。 深度推定に等方形プロジェクションを用いる周辺枝と,セマンティックセグメンテーションに立方体図プロジェクションを用いる葉分枝を用いて,局所的に鋭い深度を維持しながら一貫した大域深度を予測した。 実験の結果,最先端手法に対して良好な性能を示した。

Single-view depth estimation from omnidirectional images has gained popularity with its wide range of applications such as autonomous driving and scene reconstruction. Although data-driven learning-based methods demonstrate significant potential in this field, scarce training data and ineffective 360 estimation algorithms are still two key limitations hindering accurate estimation across diverse domains. In this work, we first establish a large-scale dataset with varied settings called Depth360 to tackle the training data problem. This is achieved by exploring the use of a plenteous source of data, 360 videos from the internet, using a test-time training method that leverages unique information in each omnidirectional sequence. With novel geometric and temporal constraints, our method generates consistent and convincing depth samples to facilitate single-view estimation. We then propose an end-to-end two-branch multi-task learning network, SegFuse, that mimics the human eye to effectively learn from the dataset and estimate high-quality depth maps from diverse monocular RGB images. With a peripheral branch that uses equirectangular projection for depth estimation and a foveal branch that uses cubemap projection for semantic segmentation, our method predicts consistent global depth while maintaining sharp details at local regions. Experimental results show favorable performance against the state-of-the-art methods.
翻訳日:2022-02-17 15:15:49 公開日:2022-02-16
# 光への適応を学ぶ

Learning to Adapt to Light ( http://arxiv.org/abs/2202.08098v1 )

ライセンス: Link先を確認
Kai-Fu Yang, Cheng Cheng, Shi-Xuan Zhao, Xian-Shi Zhang, Yong-Jie Li(参考訳) 光適応または明るさ補正は、画像のコントラストと視覚的魅力を改善するための重要なステップである。 複数の光関連タスク(例えば、低光度強調と露光補正)があり、以前の研究は主にこれらのタスクを個別に研究している。 しかし,視覚系が外部光に適応することを考えると,これらの光関連タスクが統一モデルで実行可能であるかどうかを考えることは興味深い。 本研究では,光関連画像強調タスクを統合ネットワーク(LA-Net)で処理する生物学的に着想を得た手法を提案する。 まず、周波数ベースの分解モジュールは、光関連タスクの共通および特徴的なサブプロームを2つの経路に分割するように設計されている。 次に、低周波経路における統一光適応を実現するために、生物学的視覚適応にインスパイアされた新しいモジュールを構築する。 また、光レベルに関係なく高周波経路においてノイズ抑制やディテールエンハンスが効果的に実現される。 低照度向上, 露光補正, トーンマッピングの3つの課題に対する広範囲な実験により, 提案手法は, これらの課題に対して設計された手法と比較して, ほぼ最先端の性能が得られることを示した。

Light adaptation or brightness correction is a key step in improving the contrast and visual appeal of an image. There are multiple light-related tasks (for example, low-light enhancement and exposure correction) and previous studies have mainly investigated these tasks individually. However, it is interesting to consider whether these light-related tasks can be executed by a unified model, especially considering that our visual system adapts to external light in such way. In this study, we propose a biologically inspired method to handle light-related image-enhancement tasks with a unified network (called LA-Net). First, a frequency-based decomposition module is designed to decouple the common and characteristic sub-problems of light-related tasks into two pathways. Then, a new module is built inspired by biological visual adaptation to achieve unified light adaptation in the low-frequency pathway. In addition, noise suppression or detail enhancement is achieved effectively in the high-frequency pathway regardless of the light levels. Extensive experiments on three tasks -- low-light enhancement, exposure correction, and tone mapping -- demonstrate that the proposed method almost obtains state-of-the-art performance compared with recent methods designed for these individual tasks.
翻訳日:2022-02-17 15:15:24 公開日:2022-02-16
# flex-modal face anti-spoofing:ベンチマーク

Flexible-Modal Face Anti-Spoofing: A Benchmark ( http://arxiv.org/abs/2202.08192v1 )

ライセンス: Link先を確認
Zitong Yu, Chenxu Zhao, Kevin H. M. Cheng, Xu Cheng, Guoying Zhao(参考訳) 対面防止(FAS)は、提示攻撃から顔認識システムを保護する上で重要な役割を果たす。 成熟したカメラセンサー、シングルモーダル(RGB)、マルチモーダル(例えばRGB+Depth)のFASは、センサー/モダリティの異なる様々なシナリオに適用されている。 既存の単一およびマルチモーダルのFASメソッドは通常、冗長で非効率な各可能なモダリティシナリオのモデルを別々に訓練し、デプロイする。 統一モデルをトレーニングし、様々なモダリティシナリオで柔軟にデプロイできますか? 本稿では,'train one for all'という原理を用いて,最初のフレキシブルモーダルfasベンチマークを確立する。 具体的には、訓練されたマルチモーダル(RGB+Depth+IR)FASモデルを用いて、4つのフレキシブル・モーダル・サブプロトコール(RGB、RGB+Depth、RGB+IR、RGB+Depth+IR)上で、イントラおよびクロスデータセットの試験を行う。 また,フレキシブルモーダルfasにおける一般的な深層モデルと機能融合戦略についても検討した。 この新しいベンチマークが、マルチモーダルfasの将来的な研究を促進することを願っている。 プロトコルとコードはhttps://github.com/ZitongYu/Flex-Modal-FASで公開されている。

Face anti-spoofing (FAS) plays a vital role in securing face recognition systems from presentation attacks. Benefitted from the maturing camera sensors, single-modal (RGB) and multi-modal (e.g., RGB+Depth) FAS has been applied in various scenarios with different configurations of sensors/modalities. Existing single- and multi-modal FAS methods usually separately train and deploy models for each possible modality scenario, which might be redundant and inefficient. Can we train a unified model, and flexibly deploy it under various modality scenarios? In this paper, we establish the first flexible-modal FAS benchmark with the principle `train one for all'. To be specific, with trained multi-modal (RGB+Depth+IR) FAS models, both intra- and cross-dataset testings are conducted on four flexible-modal sub-protocols (RGB, RGB+Depth, RGB+IR, and RGB+Depth+IR). We also investigate prevalent deep models and feature fusion strategies for flexible-modal FAS. We hope this new benchmark will facilitate the future research of the multi-modal FAS. The protocols and codes are available at https://github.com/ZitongYu/Flex-Modal-FAS.
翻訳日:2022-02-17 15:14:20 公開日:2022-02-16
# less is more:timetamp監督による手術段階認識

Less is More: Surgical Phase Recognition from Timestamp Supervision ( http://arxiv.org/abs/2202.08199v1 )

ライセンス: Link先を確認
Zixun Wang, Xinpeng Ding, Wei Zhao, Xiaomeng Li(参考訳) 手術相認識はコンピュータ支援手術システムの基本課題である。 既存の作業の多くは、高価なフレーム単位のアノテーションが必要です。 本稿では,ビデオの各位相に対して,ランダムに1フレームをラベル付けするだけで,外科的位相認識にタイムスタンプを初めて導入する。 タイムスタンプの監督により、現在の自然ビデオの方法は、フルフレームの擬似ラベルを生成することを目的としている。 しかし、曖昧な境界を含む手術ビデオのため、これらの手法は多くのノイズと一貫性のない擬似ラベルを生成し、性能を制限した。 外科的位相認識では, より少ないが差別的な擬似ラベルは, 完全だがあいまいなフレームよりも優れていた。 そこで本研究では,信頼に値する擬似ラベルを生成するための不確実性認識時間拡散法を提案する。 本手法は, 不確実性推定に基づく疑似ラベルの信頼度を評価する。 次に、アノテーション付きフレームをアンカーとして扱い、疑似ラベルを両サイドに拡散させ、アンカーから高精度フレームに停止させる。 このようにして,提案手法は不確かさを排除しつつ,確実な疑似ラベルを生成することができる。 広範な実験により,提案手法はアノテーションのコストを大幅に削減するだけでなく,完全に教師付きメソッドよりも優れていることが示された。 また,提案手法は境界付近のノイズラベルを浄化し,現在の外科的位相認識法の性能を向上させることができる。

Surgical phase recognition is a fundamental task in computer-assisted surgery systems. Most existing works require expensive frame-wise annotations, which is very time-consuming. In this paper, we introduce timestamp supervision to surgical phase recognition for the first time, which only requires randomly labeling one frame for each phase in a video. With timestamp supervision, current methods in natural videos aim to generate pseudo labels of full frames. However, due to the surgical videos containing ambiguous boundaries, these methods would generate many noisy and inconsistent pseudo labels, leading to limited performance. We argue that less is more in surgical phase recognition,~\ie, less but discriminative pseudo labels outperform full but ambiguous frames. To this end, we propose a novel method called uncertainty-aware temporal diffusion to generate trustworthy pseudo labels. Our approach evaluates the confidence of generated pseudo labels based on uncertainty estimation. Then, we treat the annotated frames as anchors and make pseudo labels diffuse to both sides, starting from anchors and stopping at the high-uncertainty frames. In this way, our proposed method can generate contiguous confident pseudo labels while discarding the uncertain ones. Extensive experiments demonstrate that our method not only significantly save annotation cost, but also outperforms fully supervised methods. Moreover, our proposed approach can be used to clean noisy labels near boundaries and improve the performance of the current surgical phase recognition methods.
翻訳日:2022-02-17 15:13:55 公開日:2022-02-16
# m-Nearly k-Universal Words -- Simon Congruence の調査

m-Nearly k-Universal Words -- Investigating Simon Congruence ( http://arxiv.org/abs/2202.07981v1 )

ライセンス: Link先を確認
Pamela Fleischmann and Lukas Haschke and Annika Huch and Annika Mayrock and Dirk Nowotka(参考訳) サイモン合同の指数を決定することは、長い目覚ましい開問題である。 2つの単語 $u$ と $v$ がサイモン合同(Simon congruent) (Simon congruent) と呼ばれるのは、それらが同じ散乱因子の集合を持ち、それが正しい順序で単語の一部であり、必ずしも連続ではない場合である。 分散係数 $k$-universality のアイデアに従い、$m$-nearly $k$-universality、すなわち、$m$ の散乱係数が$k$ が存在しない単語、w.r.t. simon congruence を調査した。 我々は、m=1$ の合同の指標と同様に完全な特徴付けを示す。 m\neq 1$ の場合、$w$ が $(k-1)$-universal であることに加え、異なる $m$ に対するさらなる洞察がある場合、いくつかの結果を示す。

Determining the index of the Simon congruence is a long outstanding open problem. Two words $u$ and $v$ are called Simon congruent if they have the same set of scattered factors, which are parts of the word in the correct order but not necessarily consecutive, e.g., $\mathtt{oath}$ is a scattered factor of $\mathtt{logarithm}$. Following the idea of scattered factor $k$-universality, we investigate $m$-nearly $k$-universality, i.e., words where $m$ scattered factors of length $k$ are absent, w.r.t. Simon congruence. We present a full characterisation as well as the index of the congruence for $m=1$. For $m\neq 1$, we show some results if in addition $w$ is $(k-1)$-universal as well as some further insights for different $m$.
翻訳日:2022-02-17 15:13:35 公開日:2022-02-16
# 自己シャッフル言語について

On the Self Shuffle Language ( http://arxiv.org/abs/2202.07988v1 )

ライセンス: Link先を確認
Pamela Fleischmann and Tero Harju and Lukas Haschke and Jonas H\"ofer and Dirk Nowotka(参考訳) 2つの単語 \(u\) と \(v\) のシャッフル積 \(u\shuffle v\) は、 \(u\) と \(v\) をインターリービングすることで得られるすべての単語の集合である。 restivo (2015) の論文 \emph{the shuffle product: new research directions} に動機づけられ、シャッフル製品の特別なケースを調査した。 この研究では、単語のシャッフル自体を \emph{self shuffle} あるいは \emph{shuffle square} と呼び、まず、自己シャッフル言語と言語のシャッフルが一般に異なる集合であることを示す。 我々は、ある単語の自己シャッフルとして生じる全ての単語の言語が文脈に敏感であるが文脈自由ではないことを証明する。 さらに、自己シャッフル \(w \shuffle w\) が一意に \(w\) を決定することを示す。

The shuffle product \(u\shuffle v\) of two words \(u\) and \(v\) is the set of all words which can be obtained by interleaving \(u\) and \(v\). Motivated by the paper \emph{The Shuffle Product: New Research Directions} by Restivo (2015) we investigate a special case of the shuffle product. In this work we consider the shuffle of a word with itself called the \emph{self shuffle} or \emph{shuffle square}, showing first that the self shuffle language and the shuffle of the language are in general different sets. We prove that the language of all words arising as a self shuffle of some word is context sensitive but not context free. Furthermore, we show that the self shuffle \(w \shuffle w\) uniquely determines \(w\).
翻訳日:2022-02-17 15:13:16 公開日:2022-02-16
# (参考訳) 深層学習を用いた乳房密度推定のマルチ再構成

A multi-reconstruction study of breast density estimation using Deep Learning ( http://arxiv.org/abs/2202.08238v1 )

ライセンス: CC BY 4.0
Vikash Gupta, Mutlu Demirer, Robert W. Maxwell, Richard D. White, Barabaros Selnur Erdal(参考訳) 乳腺密度の推定は、乳がんに先立つ個人を認識する上で重要な課題の1つである。 マンモグラムの脂肪組織背景の低コントラストと変動のため、しばしば困難である。 多くの場合、乳房密度は、放射線学者が乳房画像・報告データシステム(BI-RADS)によって決定される4つの密度カテゴリのうちの1つを、手動で推定する。 乳房密度分類パイプラインの自動化に向けた取り組みが進められている。 乳房密度推定はスクリーニング試験で行う重要な課題の1つである。 濃厚な乳がんは乳がんの影響を受けやすい。 マンモグラムの脂肪組織背景の低コントラストとゆらぎのため, 密度推定は困難である。 伝統的なマンモグラムは、トモシンセシスや他の低放射線量変種(例えばhologicのintelligent 2dとc-view)に置き換えられている。 低用量要件のため、Intelligent 2DビューとC-Viewを優先するスクリーニングセンターが増えている。 乳房密度推定のためのディープラーニング研究は、ニューラルネットワークのトレーニングに単一のモダリティのみを使用する。 しかし、そうすることでデータセット内の画像数が制限される。 本稿では,すべてのモダリティを一度に訓練したニューラルネットワークが,任意のモダリティを訓練したニューラルネットワークよりも優れた性能を示す。 受信者特性曲線の下の領域を用いてこれらの結果について議論する。

Breast density estimation is one of the key tasks in recognizing individuals predisposed to breast cancer. It is often challenging because of low contrast and fluctuations in mammograms' fatty tissue background. Most of the time, the breast density is estimated manually where a radiologist assigns one of the four density categories decided by the Breast Imaging and Reporting Data Systems (BI-RADS). There have been efforts in the direction of automating a breast density classification pipeline. Breast density estimation is one of the key tasks performed during a screening exam. Dense breasts are more susceptible to breast cancer. The density estimation is challenging because of low contrast and fluctuations in mammograms' fatty tissue background. Traditional mammograms are being replaced by tomosynthesis and its other low radiation dose variants (for example Hologic' Intelligent 2D and C-View). Because of the low-dose requirement, increasingly more screening centers are favoring the Intelligent 2D view and C-View. Deep-learning studies for breast density estimation use only a single modality for training a neural network. However, doing so restricts the number of images in the dataset. In this paper, we show that a neural network trained on all the modalities at once performs better than a neural network trained on any single modality. We discuss these results using the area under the receiver operator characteristics curves.
翻訳日:2022-02-17 15:10:56 公開日:2022-02-16
# 人工知能を用いた擬似解剖ディスプレイへの超音波画像変換

Image translation of Ultrasound to Pseudo Anatomical Display Using Artificial Intelligence ( http://arxiv.org/abs/2202.08053v1 )

ライセンス: Link先を確認
Lilach Barkat, Moti Freiman, Haim Azhari(参考訳) 超音波は医療画像で2番目によく使われるモードである。 費用効果があり、危険がなく、携帯性があり、多くの臨床手順で日常的に実施されている。 それでも画質は粒状化、SNRの低下、スペックルノイズが特徴である。 悪性腫瘍に特有で、マージンはぼやけて不明瞭である。 したがって,超音波画像の品質向上には大きなニーズがある。 ニューラルネットワークを用いて、よりリアルな解剖学的ディスプレイに変換することで実現できると仮定する。 この目標を達成するために、ペア化されたイメージのセットを使用することが好ましいアプローチである。 しかし、私たちの場合、これは事実上不可能です。 そのため、CycleGANを使用して各ドメインプロパティを個別に学習し、クロスドメインサイクルの一貫性を強制した。 このモデルのトレーニングに使用された2つのデータセットは、「Breast Ultrasound Images」(BUSI)と、我々の研究室で取得した乳房組織標本の光学画像である。 生成された擬似解剖画像は、より明確な境界定義と明瞭なコントラストで病変の視覚的識別を改善する。 さらに,このアルゴリズムは超音波画像に一般的に現れる音響的影を克服する。 解剖学的特徴の保存性を評価するため,超音波画像中の病変と生成された擬似解剖学的画像が自動的に分割され比較された。 その結果,良性腫瘍では0.78,悪性腫瘍では0.43であった。 良性腫瘍では, 病変中心誤差が2.38%, 悪性腫瘍では8.42%, 良性腫瘍では0.77%, 悪性腫瘍では5.6%であった。 より直感的に提示されるこれらの擬似解剖像は、組織解剖を保存し、診断を簡素化し、臨床結果を改善する可能性がある。

Ultrasound is the second most used modality in medical imaging. It is cost effective, hazardless, portable and implemented routinely in numerous clinical procedures. Nonetheless, image quality is characterized by granulated appearance, poor SNR and speckle noise. Specific for malignant tumors, the margins are blurred and indistinct. Thus, there is a great need for improving ultrasound image quality. We hypothesize that this can be achieved by translation into a more realistic anatomic display, using neural networks. In order to achieve this goal, the preferable approach would be to use a set of paired images. However, this is practically impossible in our case. Therefore, CycleGAN was used, to learn each domain properties separately and enforce cross domain cycle consistency. The two datasets which were used for training the model were "Breast Ultrasound Images" (BUSI) and a set of optic images of poultry breast tissue samples acquired at our lab. The generated pseudo anatomical images provide improved visual discrimination of the lesions with clearer border definition and pronounced contrast. Furthermore, the algorithm manages to overcome the acoustic shadows artifacts commonly appearing in ultrasonic images. In order to evaluate the preservation of the anatomical features, the lesions in the ultrasonic images and the generated pseudo anatomical images were both automatically segmented and compared. This comparison yielded median dice score of 0.78 for the benign tumors and 0.43 for the malignancies. Median lesion center error of 2.38% and 8.42% for the benign and malignancies respectively and median area error index of 0.77% and 5.06% for the benign and malignancies respectively. In conclusion, these generated pseudo anatomical images, which are presented in a more intuitive way, preserve tissue anatomy and can potentially simplify the diagnosis and improve the clinical outcome.
翻訳日:2022-02-17 15:04:32 公開日:2022-02-16
# Ditto: インタラクションによるArticulated Objectのディジタル双対構築

Ditto: Building Digital Twins of Articulated Objects from Interaction ( http://arxiv.org/abs/2202.08227v1 )

ライセンス: Link先を確認
Zhenyu Jiang, Cheng-Chun Hsu, Yuke Zhu(参考訳) 物理的なオブジェクトを仮想世界へデジタル化することは、具体化されたAIと混合現実の新たな研究と応用を解き放つ可能性がある。 本研究は,仮想環境に直接インポート可能な実世界の調音物体の対話的デジタル双生児の再現に焦点をあてる。 本稿では,対話的知覚による調音物体の調音モデル推定と3次元形状再構成の学習にdittoを導入する。 相互作用の前後における関節オブジェクトの対の視覚的観察が与えられたとき、ディットーは部分レベルの幾何学を再構成し、物体の関節モデルの推定を行う。 我々は結合幾何学と調音モデリングに暗黙の神経表現を用いる。 実験の結果,dittoは有関節物体のデジタル双生児をカテゴリに依存しない方法で効果的に構築できることが判明した。 また,実世界の物体にdittoを適用し,再現したデジタル双生児を物理的シミュレーションに展開する。 コードと追加結果はhttps://ut-austin-rpl.github.io/dittoで入手できる。

Digitizing physical objects into the virtual world has the potential to unlock new research and applications in embodied AI and mixed reality. This work focuses on recreating interactive digital twins of real-world articulated objects, which can be directly imported into virtual environments. We introduce Ditto to learn articulation model estimation and 3D geometry reconstruction of an articulated object through interactive perception. Given a pair of visual observations of an articulated object before and after interaction, Ditto reconstructs part-level geometry and estimates the articulation model of the object. We employ implicit neural representations for joint geometry and articulation modeling. Our experiments show that Ditto effectively builds digital twins of articulated objects in a category-agnostic way. We also apply Ditto to real-world objects and deploy the recreated digital twins in physical simulation. Code and additional results are available at https://ut-austin-rpl.github.io/Ditto
翻訳日:2022-02-17 15:04:06 公開日:2022-02-16
# 音声フィルタ:音声変換を後処理モジュールとして用いた音声音声合成

Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module ( http://arxiv.org/abs/2202.08164v1 )

ライセンス: Link先を確認
Adam Gabry\'s, Goeric Huybrechts, Manuel Sam Ribeiro, Chung-Ming Chien, Julian Roth, Giulia Comini, Roberto Barra-Chicote, Bartek Perz, Jaime Lorenzo-Trueba(参考訳) 最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために数時間の音声データを必要とする。 トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされ、低リソースのTSシステムのトレーニングが問題となる。 本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。 既存の高品質 TTS システムに付加された後処理モジュールとして音声変換(VC)を使用し、既存の TTS パラダイムにおける概念シフトをマークし、少数ショット TTS 問題を VC タスクとしてフレーミングする。 さらに,時間制御可能なTSシステムを用いて並列音声コーパスを作成し,VC作業を容易にすることを提案する。 その結果、Voice Filterは、30倍のデータ上に構築されたTSモデルと競合しながら、音声の1分間の客観的および主観的メトリクスの観点から、最先端の複数ショット音声合成技術よりも優れていた。

State-of-the-art text-to-speech (TTS) systems require several hours of recorded speech data to generate high-quality synthetic speech. When using reduced amounts of training data, standard TTS models suffer from speech quality and intelligibility degradations, making training low-resource TTS systems problematic. In this paper, we propose a novel extremely low-resource TTS method called Voice Filter that uses as little as one minute of speech from a target speaker. It uses voice conversion (VC) as a post-processing module appended to a pre-existing high-quality TTS system and marks a conceptual shift in the existing TTS paradigm, framing the few-shot TTS problem as a VC task. Furthermore, we propose to use a duration-controllable TTS system to create a parallel speech corpus to facilitate the VC task. Results show that the Voice Filter outperforms state-of-the-art few-shot speech synthesis techniques in terms of objective and subjective metrics on one minute of speech on a diverse set of voices, while being competitive against a TTS model built on 30 times more data.
翻訳日:2022-02-17 15:03:50 公開日:2022-02-16
# 確率的連続設定における政策評価のための時間差の分散低減補正について

On a Variance Reduction Correction of the Temporal Difference for Policy Evaluation in the Stochastic Continuous Setting ( http://arxiv.org/abs/2202.07960v1 )

ライセンス: Link先を確認
Ziad Kobeissi (SIERRA), Francis Bach (SIERRA, DI-ENS, PSL)(参考訳) 本稿では,確率的条件下での連続時間,状態,動作の最適化問題を,強化学習アルゴリズムを用いて解決し,政策評価プロセスを検討する。 離散化時間差に基づく標準学習アルゴリズムは、確率的な部分のため、時間離散化がゼロになる傾向にある場合に失敗する。 本稿では,時間差の分散還元補正を提案し,時間ステップの消失に対して安定な新しい学習アルゴリズムを提案する。 これにより、連続確率最適化問題の解にアルゴリズムの収束の理論的保証を与えることができる。

This paper deals with solving continuous time, state and action optimization problems in stochastic settings, using reinforcement learning algorithms, and considers the policy evaluation process. We prove that standard learning algorithms based on the discretized temporal difference are doomed to fail when the time discretization tends to zero, because of the stochastic part. We propose a variance-reduction correction of the temporal difference, leading to new learning algorithms that are stable with respect to vanishing time steps. This allows us to give theoretical guarantees of convergence of our algorithms to the solutions of continuous stochastic optimization problems.
翻訳日:2022-02-17 15:03:21 公開日:2022-02-16
# ディフェンシブ蒸留とディバイザリリトレーニングを用いたミリ波ビームフォーミング予測モデルの逆方向セキュリティ軽減

The Adversarial Security Mitigations of mmWave Beamforming Prediction Models using Defensive Distillation and Adversarial Retraining ( http://arxiv.org/abs/2202.08185v1 )

ライセンス: Link先を確認
Murat Kuzlu, Ferhat Ozgur Catak, Umit Cali, Evren Catak, Ozgur Guler(参考訳) 次世代無線ネットワーク(5g、6g以降)ではビームフォーミング予測のためのセキュリティスキームの設計が不可欠である。 しかし,これらのネットワークにおける深層学習アルゴリズムを用いたビームフォーミング予測の保護に関するコンセンサスはない。 本稿では,6G無線ネットワークにおけるディープニューラルネットワーク(DNN)を用いたビームフォーミング予測のための深層学習におけるセキュリティ脆弱性について述べる。 初期DNNモデルは、トレーニングデータの逆方向サンプルの摂動に敏感であるため、FGSM(Fast Gradient Sign Method)、BIM(Basic Iterative Method)、PGD(Projected Gradient Descent)、MIM(Momentum Iterative Method)などの逆方向攻撃に対して脆弱であることが示されている。 本研究は、ミリ波ビームフォーミング予測に使用される人工知能(AI)モデルに対する敵対的攻撃に対して、敵対的トレーニングと防衛的蒸留の2つの緩和手法を提供する。 さらに,本提案手法は,トレーニングデータの逆例によりデータを破損させた場合にも適用可能である。 実験により,次世代無線ネットワークにおける敵攻撃に対して,提案手法が効果的にDNNモデルを保護することを示す。

The design of a security scheme for beamforming prediction is critical for next-generation wireless networks (5G, 6G, and beyond). However, there is no consensus about protecting the beamforming prediction using deep learning algorithms in these networks. This paper presents the security vulnerabilities in deep learning for beamforming prediction using deep neural networks (DNNs) in 6G wireless networks, which treats the beamforming prediction as a multi-output regression problem. It is indicated that the initial DNN model is vulnerable against adversarial attacks, such as Fast Gradient Sign Method (FGSM), Basic Iterative Method (BIM), Projected Gradient Descent (PGD), and Momentum Iterative Method (MIM), because the initial DNN model is sensitive to the perturbations of the adversarial samples of the training data. This study also offers two mitigation methods, such as adversarial training and defensive distillation, for adversarial attacks against artificial intelligence (AI)-based models used in the millimeter-wave (mmWave) beamforming prediction. Furthermore, the proposed scheme can be used in situations where the data are corrupted due to the adversarial examples in the training data. Experimental results show that the proposed methods effectively defend the DNN models against adversarial attacks in next-generation wireless networks.
翻訳日:2022-02-17 15:03:11 公開日:2022-02-16
# 未知時変力学系のオンライン制御

Online Control of Unknown Time-Varying Dynamical Systems ( http://arxiv.org/abs/2202.07890v1 )

ライセンス: Link先を確認
Edgar Minasyan, Paula Gradu, Max Simchowitz, Elad Hazan(参考訳) 非確率制御モデルにおける未知ダイナミクスを持つ時変線形系のオンライン制御について検討した。 高いレベルでは、この設定が未知の時間不変あるいは既知の時間変動力学のそれよりも困難であることが示され、負の結果を線形な後悔が可能である状況におけるアルゴリズム上界で補完する。 より具体的には、一般的な政策のクラスである外乱行動(sls)、外乱応答(youla)、線形フィードバック政策に関する後悔の限界について研究する。 これらの3つのクラスは基本的にLTI系と等価であるが、時間変化系ではこれらの同値性が崩壊することを示す。 系変数の特定の測度が地平線上でサブ線形にスケールしない限り、最初の2つのクラスに対してアルゴリズムがサブ線形後悔を得ることができないことを証明する。 さらに,状態線形フィードバックポリシによるオフライン計画がnpハードであることを示し,オンライン学習問題の難しさを示唆する。 正の面では、上記のシステム変動項まで、外乱応答ポリシーのクラスに拘束されたサブ線形後悔を実現する効率的なアルゴリズムを提供する。 実際、我々のアルゴリズムは、標準的な後悔よりも厳密な測定基準であり、時変システムに適しているsublinear \emph{adaptive} regretboundsを楽しんでいる。 障害行動政策と部分的観察に対する拡張をスケッチし,線形状態フィードバック政策に対する後悔のための非効率的なアルゴリズムを提案する。

We study online control of time-varying linear systems with unknown dynamics in the nonstochastic control model. At a high level, we demonstrate that this setting is \emph{qualitatively harder} than that of either unknown time-invariant or known time-varying dynamics, and complement our negative results with algorithmic upper bounds in regimes where sublinear regret is possible. More specifically, we study regret bounds with respect to common classes of policies: Disturbance Action (SLS), Disturbance Response (Youla), and linear feedback policies. While these three classes are essentially equivalent for LTI systems, we demonstrate that these equivalences break down for time-varying systems. We prove a lower bound that no algorithm can obtain sublinear regret with respect to the first two classes unless a certain measure of system variability also scales sublinearly in the horizon. Furthermore, we show that offline planning over the state linear feedback policies is NP-hard, suggesting hardness of the online learning problem. On the positive side, we give an efficient algorithm that attains a sublinear regret bound against the class of Disturbance Response policies up to the aforementioned system variability term. In fact, our algorithm enjoys sublinear \emph{adaptive} regret bounds, which is a strictly stronger metric than standard regret and is more appropriate for time-varying systems. We sketch extensions to Disturbance Action policies and partial observation, and propose an inefficient algorithm for regret against linear state feedback policies.
翻訳日:2022-02-17 15:01:28 公開日:2022-02-16
# 非単調活性化機能を持つ単一ニューロンの学習

Learning a Single Neuron for Non-monotonic Activation Functions ( http://arxiv.org/abs/2202.08064v1 )

ライセンス: Link先を確認
Lei Wu(参考訳) 我々は、勾配降下(GD)を伴う単一ニューロン $\mathbf{x}\mapsto \sigma(\mathbf{w}^T\mathbf{x})$ の学習問題を研究する。 既存の正の結果はすべて、$\sigma$ が単調である場合に限られる。 しかし、最近、多くの応用において非単調活性化関数が従来の単調関数よりも優れていることが観察された。 このギャップを埋めるために,単調性を仮定せずに学習能力を確立する。 具体的には、入力分布が標準ガウスである場合、$\sigma$(例えば$\sigma$ が支配する線形部分を持つ)の軽度条件が多項式時間と多項式サンプルの学習可能性を保証するのに十分であることを示す。 さらに、活性化関数をより強く仮定することで、入力分布の条件を限界分布の非退化に緩和することができる。 我々は、$\sigma$ の条件は silu/swish や gelu のような実用的な非単調な活性化関数によって満たされると述べた。 また,2層ニューラルネットワークのトレーニングにおいて,既存の負の結果に肯定的な結果がどう関係しているかについても論じる。

We study the problem of learning a single neuron $\mathbf{x}\mapsto \sigma(\mathbf{w}^T\mathbf{x})$ with gradient descent (GD). All the existing positive results are limited to the case where $\sigma$ is monotonic. However, it is recently observed that non-monotonic activation functions outperform the traditional monotonic ones in many applications. To fill this gap, we establish learnability without assuming monotonicity. Specifically, when the input distribution is the standard Gaussian, we show that mild conditions on $\sigma$ (e.g., $\sigma$ has a dominating linear part) are sufficient to guarantee the learnability in polynomial time and polynomial samples. Moreover, with a stronger assumption on the activation function, the condition of input distribution can be relaxed to a non-degeneracy of the marginal distribution. We remark that our conditions on $\sigma$ are satisfied by practical non-monotonic activation functions, such as SiLU/Swish and GELU. We also discuss how our positive results are related to existing negative results on training two-layer neural networks.
翻訳日:2022-02-17 15:01:03 公開日:2022-02-16
# ipd:クラスタ代表による大規模データのためのインクリメンタルプロトタイプベースのdbscan

IPD:An Incremental Prototype based DBSCAN for large-scale data with cluster representatives ( http://arxiv.org/abs/2202.07870v1 )

ライセンス: Link先を確認
Jayasree Saha, Jayanta Mukherjee(参考訳) DBSCANは、クラスタの任意の形状を識別する基本的な密度ベースのクラスタリング技術である。 しかし、ビッグデータを扱う間は不可能になる。 一方,非処理データポイントを最寄りのセントロイドにラベル付けできるため,データセット内のパターンを検出するためには,セントロイドベースのクラスタリングが重要である。 しかし、非球面クラスターは検出できない。 大規模なデータの場合、すべてのサンプルのラベルを保存して計算することは不可能である。 これらは、情報が必要なときに行うことができる。 クラスタリングはクラスタの代表を識別するツールとして機能し、最も近い代表のクラスタラベルを割り当てることでクエリを提供する。 本稿では,大規模データに対して任意の形状のクラスタを識別するインクリメンタルプロトタイプベースDBSCAN (IPD) アルゴリズムを提案する。 さらに、クラスタごとに一連の代表者を選択する。

DBSCAN is a fundamental density-based clustering technique that identifies any arbitrary shape of the clusters. However, it becomes infeasible while handling big data. On the other hand, centroid-based clustering is important for detecting patterns in a dataset since unprocessed data points can be labeled to their nearest centroid. However, it can not detect non-spherical clusters. For a large data, it is not feasible to store and compute labels of every samples. These can be done as and when the information is required. The purpose can be accomplished when clustering act as a tool to identify cluster representatives and query is served by assigning cluster labels of nearest representative. In this paper, we propose an Incremental Prototype-based DBSCAN (IPD) algorithm which is designed to identify arbitrary-shaped clusters for large-scale data. Additionally, it chooses a set of representatives for each cluster.
翻訳日:2022-02-17 15:00:39 公開日:2022-02-16
# 深層学習はモデルベースマルチオブジェクト追跡に適用できるか?

Can Deep Learning be Applied to Model-Based Multi-Object Tracking? ( http://arxiv.org/abs/2202.07909v1 )

ライセンス: Link先を確認
Juliano Pinto, Georg Hess, William Ljungbergh, Yuxuan Xia, Henk Wymeersch, Lennart Svensson(参考訳) マルチオブジェクトトラッキング(MOT)は、ノイズ測定を用いて未知および時間変化の物体の状態を追跡する問題であり、自律運転、動物行動の追跡、防衛システムなどの重要な応用がある。 近年, 深層学習 (DL) がMOTの追跡性能向上に利用されてきているが, 測定精度が高次元であり, 測定精度や物体の動的特性のモデルが存在しない状況では, 主に利用できない。 モデルベースの設定はそれほど注目されていないが、dl法が伝統的なモデルベースのベイズ法よりも優れているかどうかは、この文脈においてsota(state of the art)である。 本稿では,Transformer を用いた DL トラッカーを提案し,その性能をモデルベース設定で評価し,様々なタスクにおいて SOTA モデルベースのベイズ手法と比較する。 提案手法は,データ結合の複雑さが増すか,あるいは環境モデルのより強固な非線形性によって,タスクが複雑になる場合よりもパフォーマンスが向上すると同時に,単純なタスクでモデルベース手法の性能に適合することを示す。

Multi-object tracking (MOT) is the problem of tracking the state of an unknown and time-varying number of objects using noisy measurements, with important applications such as autonomous driving, tracking animal behavior, defense systems, and others. In recent years, deep learning (DL) has been increasingly used in MOT for improving tracking performance, but mostly in settings where the measurements are high-dimensional and there are no available models of the measurement likelihood and the object dynamics. The model-based setting instead has not attracted as much attention, and it is still unclear if DL methods can outperform traditional model-based Bayesian methods, which are the state of the art (SOTA) in this context. In this paper, we propose a Transformer-based DL tracker and evaluate its performance in the model-based setting, comparing it to SOTA model-based Bayesian methods in a variety of different tasks. Our results show that the proposed DL method can match the performance of the model-based methods in simple tasks, while outperforming them when the task gets more complicated, either due to an increase in the data association complexity, or to stronger nonlinearities of the models of the environment.
翻訳日:2022-02-17 15:00:25 公開日:2022-02-16
# 射影エンタングルペア状態による生成モデリング

Generative modeling with projected entangled-pair states ( http://arxiv.org/abs/2202.08177v1 )

ライセンス: Link先を確認
Tom Vieijra, Laurens Vanderstraeten, Frank Verstraete(参考訳) 画像のような本質的な2次元構造を持つデータセットの生成モデル作成作業において, 射影アンタングルペア状態 (PEPS) が行列積状態より有意に優れていることを論じ, 実証する。 提案手法は,最近導入したpepサンプリングアルゴリズムに基づいて,分布の効率的な最適化とサンプリングを可能にする。

We argue and demonstrate that projected entangled-pair states (PEPS) outperform matrix product states significantly for the task of generative modeling of datasets with an intrinsic two-dimensional structure such as images. Our approach builds on a recently introduced algorithm for sampling PEPS, which allows for the efficient optimization and sampling of the distributions.
翻訳日:2022-02-17 15:00:04 公開日:2022-02-16
# 小型運動モデル作成のための機械学習技術開発に向けて

Toward Development of Machine Learned Techniques for Production of Compact Kinetic Models ( http://arxiv.org/abs/2202.08021v1 )

ライセンス: Link先を確認
Mark Kelly, Mark Fortune, Gilles Bourque, Stephen Dooley(参考訳) 化学動力学モデルは、計算流体力学(CFD)のような多次元シミュレーションとの結合による燃焼装置の開発と最適化に欠かせない要素である。 現実に忠実さを保った低次元の運動モデルは必要であり、生産にはかなりの人的時間的コストと専門家の知識が必要である。 本稿では,計算量削減と最適化による化学動力学モデルを構築するための新しい計算量拡大手法を提案する。 このアルゴリズムはMLOCK(Machine Learned Optimisation of Chemical Kinetics)と呼ばれ、化学力学モデルの4つのサブモデルのそれぞれを体系的に摂動させ、用語の組み合わせが良いモデルをもたらすかを発見する。 まず,n種からなる仮想反応ネットワークを,従来の機構還元を用いて求めた。 モデル性能の低下に対処するため、仮想反応ネットワークの各ノード(種)間の重要な接続(仮想反応)の重み(仮想反応速度定数)を数値的に最適化し、4つの逐次フェーズで選択された計算を複製する。 MLOCKの最初のバージョン(MLOCK1.0)は、重要な接続に対する3つの仮想アレニウス反応速度定数パラメータを同時に摂動させ、客観的な誤差関数を通して新しいパラメータの適合性を評価する。 MLOCK1.0はメタン空気燃焼のアーキティパルケースのコンパクトモデルを作成することで実証される。 2,789種からなるnugmech 1.0詳細なモデルは15種 (ノード) に確実にコンパクト化され, 全体の忠実度は87%程度であり, 先行研究よりも高い値を示した。

Chemical kinetic models are an essential component in the development and optimisation of combustion devices through their coupling to multi-dimensional simulations such as computational fluid dynamics (CFD). Low-dimensional kinetic models which retain good fidelity to the reality are needed, the production of which requires considerable human-time cost and expert knowledge. Here, we present a novel automated compute intensification methodology to produce overly-reduced and optimised (compact) chemical kinetic models. This algorithm, termed Machine Learned Optimisation of Chemical Kinetics (MLOCK), systematically perturbs each of the four sub-models of a chemical kinetic model to discover what combinations of terms results in a good model. A virtual reaction network comprised of n species is first obtained using conventional mechanism reduction. To counteract the imposed decrease in model performance, the weights (virtual reaction rate constants) of important connections (virtual reactions) between each node (species) of the virtual reaction network are numerically optimised to replicate selected calculations across four sequential phases. The first version of MLOCK, (MLOCK1.0) simultaneously perturbs all three virtual Arrhenius reaction rate constant parameters for important connections and assesses the suitability of the new parameters through objective error functions, which quantify the error in each compact model candidate's calculation of the optimisation targets, which may be comprised of detailed model calculations and/or experimental data. MLOCK1.0 is demonstrated by creating compact models for the archetypal case of methane air combustion. It is shown that the NUGMECH1.0 detailed model comprised of 2,789 species is reliably compacted to 15 species (nodes), whilst retaining an overall fidelity of ~87% to the detailed model calculations, outperforming the prior state-of-art.
翻訳日:2022-02-17 14:59:58 公開日:2022-02-16
# CIS2: ストーリーテキストのための簡易なコモンセンス推論評価

CIS2: A Simplified Commonsense Inference Evaluation for Story Prose ( http://arxiv.org/abs/2202.07880v1 )

ライセンス: Link先を確認
Bryan Li, Lara J. Martin, and Chris Callison-Burch(参考訳) トランスフォーマーは様々なタスクで人間に近いパフォーマンスを示しているが、制限がないわけではない。 複数のタスクを同時に行うように指示された変換器の融合結果の問題について議論する。 特に,コンテキスト・コモンセンス推論(cci)と呼ばれる,ストーリー・プロスにおけるコモンセンス推論の領域に注目した。 我々はGLUCOSE(Mostafazadeh et al 2020)データセットとストーリー文間の暗黙のコモンセンス推論を予測するタスクについて検討する。 GLUCOSEタスクは同時に文を生成し、CCI関係を予測するので、結果に矛盾がある。 モデルは本当にCCIを測定しているのか、それとも結果を運ぶ文法テキストを生成する能力があるのか? 本稿では,文選択におけるタスクコンテキスト・コモンセンス推論(cis$^2$)について紹介する。 本研究は,対象とするnlpタスクから言語生成を分離する今後の作業の必要性を強調する。

Transformers have been showing near-human performance on a variety of tasks, but they are not without their limitations. We discuss the issue of conflating results of transformers that are instructed to do multiple tasks simultaneously. In particular, we focus on the domain of commonsense reasoning within story prose, which we call contextual commonsense inference (CCI). We look at the GLUCOSE (Mostafazadeh et al 2020) dataset and task for predicting implicit commonsense inferences between story sentences. Since the GLUCOSE task simultaneously generates sentences and predicts the CCI relation, there is a conflation in the results. Is the model really measuring CCI or is its ability to generate grammatical text carrying the results? In this paper, we introduce the task contextual commonsense inference in sentence selection (CIS$^2$), a simplified task that avoids conflation by eliminating language generation altogether. Our findings emphasize the necessity of future work to disentangle language generation from the desired NLP tasks at hand.
翻訳日:2022-02-17 14:57:35 公開日:2022-02-16
# パラメータ効率のチューニングの再検討: 本当にまだあるのか?

Revisiting Parameter-Efficient Tuning: Are We Really There Yet? ( http://arxiv.org/abs/2202.07962v1 )

ライセンス: Link先を確認
Guanzheng Chen, Fangyu Liu, Zaiqiao Meng, Shangsong Liang(参考訳) パラメータ効率のよいチューニング(ペテンニング)メソッドは、プリトレーニング言語モデル(plm)を使用するための新しいパラダイムとして多くの人に検討されている。 フルモデルの微調整と比較したパラメータのほんの一部だけをチューニングすることで、ペチュニングメソッドは、微チューニングと同等かそれ以上のパフォーマンスを達成したと主張している。 本研究は,PETuning法について,PETuning法の訓練と評価に関する総合的研究を行い,PETuning法を再検討するものである。 最近の研究では、ペチュニング法の不安定性に伴う問題のある検証とテストのプラクティスが、信頼性の低い結論につながったことが分かりました。 真に公正な評価プロトコルで比較される場合、ペチュニングは、中・高リソース環境では最高のパフォーマンスを保ちながら、一貫した競合性能を得ることができない。 我々は不安定性の原因を深く掘り下げ、モデルサイズが現象を説明するのではなく、トレーニングイテレーションが安定性と正の相関関係にあることを観察した。

Parameter-efficient tuning (PETuning) methods have been deemed by many as the new paradigm for using pretrained language models (PLMs). By tuning just a fraction amount of parameters comparing to full model finetuning, PETuning methods claim to have achieved performance on par with or even better than finetuning. In this work, we take a step back and re-examine these PETuning methods by conducting the first comprehensive investigation into the training and evaluation of PETuning methods. We found the problematic validation and testing practice in current studies, when accompanied by the instability nature of PETuning methods, has led to unreliable conclusions. When being compared under a truly fair evaluation protocol, PETuning cannot yield consistently competitive performance while finetuning remains to be the best-performing method in medium- and high-resource settings. We delve deeper into the cause of the instability and observed that model size does not explain the phenomenon but training iteration positively correlates with the stability.
翻訳日:2022-02-17 14:57:16 公開日:2022-02-16
# 対話システムにおける社会的バイアスの特定に向けて:フレーム,データセット,ベンチマーク

Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks ( http://arxiv.org/abs/2202.08011v1 )

ライセンス: Link先を確認
Jingyan Zhou, Jiawen Deng, Fei Mi, Yitong Li, Yasheng Wang, Minlie Huang, Xin Jiang, Qun Liu, Helen Meng(参考訳) オープンドメイン対話システムの研究は、大規模コーパスで訓練された神経モデルによって大いに繁栄してきたが、そのようなコーパスは、実際にはダイアログシステムの導入を著しく阻害する様々な安全性問題(攻撃的言語、バイアス、有害な行動など)をしばしば導入している。 これらの安全でない問題の中で、社会バイアスへの対処はより複雑であり、限界人口に対するネガティブな影響は通常暗黙的に表現されるため、規範的な推論と厳格な分析を必要とする。 本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。 まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。 提案した枠組みに基づいて,私たちの知る限り,中国初の社会バイアスダイアログデータセットであるCDail-Bias Datasetを紹介する。 さらに,異なるラベルの粒度と入力型(発話レベル,文脈レベル)で複数のダイアログバイアス検出ベンチマークを構築した。 提案手法は,ダイアルバイアスフレームのベンチマークとともに,バイアス検出タスクに不可欠であり,実際に安全なダイアログシステムを構築する上で有用であることを示す。

The research of open-domain dialog systems has been greatly prospered by neural models trained on large-scale corpora, however, such corpora often introduce various safety problems (e.g., offensive languages, biases, and toxic behaviors) that significantly hinder the deployment of dialog systems in practice. Among all these unsafe issues, addressing social bias is more complex as its negative impact on marginalized populations is usually expressed implicitly, thus requiring normative reasoning and rigorous analysis. In this paper, we focus our investigation on social bias detection of dialog safety problems. We first propose a novel Dial-Bias Frame for analyzing the social bias in conversations pragmatically, which considers more comprehensive bias-related analyses rather than simple dichotomy annotations. Based on the proposed framework, we further introduce CDail-Bias Dataset that, to our knowledge, is the first well-annotated Chinese social bias dialog dataset. In addition, we establish several dialog bias detection benchmarks at different label granularities and input types (utterance-level and context-level). We show that the proposed in-depth analyses together with these benchmarks in our Dial-Bias Frame are necessary and essential to bias detection tasks and can benefit building safe dialog systems in practice.
翻訳日:2022-02-17 14:56:59 公開日:2022-02-16
# XFBoost: 制御可能なデコーダによるテキスト生成の改善

XFBoost: Improving Text Generation with Controllable Decoders ( http://arxiv.org/abs/2202.08124v1 )

ライセンス: Link先を確認
Xiangyu Peng, Michael Sollami(参考訳) 変換器に基づく自然言語モデルにおけるマルチモーダル条件は、製品記述生成のタスクにおいて最先端の性能を示す。 近年のアプローチでは、1つ以上の画像やその他のテキストメタデータに言語モデルを適用して、eコマースストアの製品を記述するためのほぼ人間に近いパフォーマンスを実現する。 しかし、生成された記述は、与えられた積の入力に対して不正確または矛盾するクレームの程度を示すことができる。 本稿では,不正確な低品質推論の問題に対処する,Extract-Finetune-Boost (XFBoost) と呼ばれる制御可能な言語生成フレームワークを提案する。 XFBoostフレームワークは,生成プロセスの復号段階における制約として視覚的セマンティック属性を使用し,言語モデルをポリシー勾配の手法で微調整することにより,画像の関連性を高め,ベースラインを上回り,事実的に不正確な記述の頻度を低くする。 さらに,オンライン学習へのXFBoostの適用を実証し,アクティブなフィードバックによる言語モデルの改善について論じる。

Multimodal conditionality in transformer-based natural language models has demonstrated state-of-the-art performance in the task of product description generation. Recent approaches condition a language model on one or more images and other textual metadata to achieve near-human performance for describing products from e-commerce stores. However, generated descriptions may exhibit degrees of inaccuracy or even contradictory claims relative to the inputs of a given product. In this paper, we propose a controllable language generation framework called Extract-Finetune-Boost (XFBoost), which addresses the problem of inaccurate low-quality inference. By using visual semantic attributes as constraints at the decoding stage of the generation process and finetuning the language model with policy gradient techniques, the XFBoost framework is found to produce significantly more descriptive text with higher image relevancy, outperforming baselines and lowering the frequency of factually inaccurate descriptions. We further demonstrate the application of XFBoost to online learning wherein human-in-the-loop critics improve language models with active feedback.
翻訳日:2022-02-17 14:56:38 公開日:2022-02-16
# HousE: 世帯パラメータを組み込んだ知識グラフ

HousE: Knowledge Graph Embedding with Householder Parameterization ( http://arxiv.org/abs/2202.07919v1 )

ライセンス: Link先を確認
Rui Li, Jianan Zhao, Chaozhuo Li, Di He, Yiqi Wang, Yuming Liu, Hao Sun, Senzhang Wang, Weiwei Deng, Yanming Shen, Xing Xie, Qi Zhang(参考訳) 知識グラフ埋め込み(KGE)の有効性は、固有関係パターンとマッピング特性をモデル化する能力に大きく依存する。 しかし、既存のアプローチはモデリング能力に乏しいものしか捕捉できない。 本研究では,より強力なkgeフレームワークであるhouseを提案する。これは2種類の家計変換に基づく新しいパラメータ化を伴い,(1)家計回転によるモデリング能力の向上,(2)家計投影による洗練された関係マッピング特性の処理を提案する。 理論的には、HousEは重要な関係パターンとマッピング特性を同時にモデル化することができる。 さらに、HousEは、回転を高次元空間に拡張しながら、既存の回転ベースのモデルの一般化である。 経験上、houseは5つのベンチマークデータセットで最先端のパフォーマンスを達成している。 私たちのコードはhttps://github.com/anrep/houseで利用可能です。

The effectiveness of knowledge graph embedding (KGE) largely depends on the ability to model intrinsic relation patterns and mapping properties. However, existing approaches can only capture some of them with insufficient modeling capacity. In this work, we propose a more powerful KGE framework named HousE, which involves a novel parameterization based on two kinds of Householder transformations: (1) Householder rotations to achieve superior capacity of modeling relation patterns; (2) Householder projections to handle sophisticated relation mapping properties. Theoretically, HousE is capable of modeling crucial relation patterns and mapping properties simultaneously. Besides, HousE is a generalization of existing rotation-based models while extending the rotations to high-dimensional spaces. Empirically, HousE achieves new state-of-the-art performance on five benchmark datasets. Our code is available at https://github.com/anrep/HousE.
翻訳日:2022-02-17 14:56:19 公開日:2022-02-16
# (参考訳) 近似推論のためのランダム逐次メッセージパッシングアルゴリズムの解析

Analysis of Random Sequential Message Passing Algorithms for Approximate Inference ( http://arxiv.org/abs/2202.08198v1 )

ライセンス: CC0 1.0
Burak \c{C}akmak, Yue M. Lu and Manfred Opper(参考訳) 学生・教師シナリオにおける大規模ガウス型潜在変数モデルを用いた近似推論のためのランダムシーケンシャルメッセージパッシングアルゴリズムのダイナミクス解析を行った。 潜伏変数間の非自明な依存関係をモデル化するために、回転不変アンサンブルから引き出されたランダムな共分散行列を仮定する。 さらに,教師モデルと生徒が使用するモデルが異なる場合のミスマッチ設定についても検討する。 動的関数的アプローチにより、推論アルゴリズムのダイナミクスを特徴づける厳密な動的平均場方程式を得る。 また、逐次アルゴリズムが収束しないモデルパラメータの範囲も導出する。 このパラメータ範囲の境界は、静的確率モデルに対するレプリカ対称アンサッツのデ・アルメイダ・トゥーレス(AT)安定性条件と一致する。

We analyze the dynamics of a random sequential message passing algorithm for approximate inference with large Gaussian latent variable models in a student-teacher scenario. To model nontrivial dependencies between the latent variables, we assume random covariance matrices drawn from rotation invariant ensembles. Moreover, we consider a model mismatching setting, where the teacher model and the one used by the student may be different. By means of dynamical functional approach, we obtain exact dynamical mean-field equations characterizing the dynamics of the inference algorithm. We also derive a range of model parameters for which the sequential algorithm does not converge. The boundary of this parameter range coincides with the de Almeida Thouless (AT) stability condition of the replica symmetric ansatz for the static probabilistic model.
翻訳日:2022-02-17 14:54:11 公開日:2022-02-16
# GUIアプリケーション実装による意図的双方向Gated Recurrent Neural Networkを用いたWi-Fiチャネルデータからの人間と人間のインタラクション認識

A Prospective Approach for Human-to-Human Interaction Recognition from Wi-Fi Channel Data using Attention Bidirectional Gated Recurrent Neural Network with GUI Application Implementation ( http://arxiv.org/abs/2202.08146v1 )

ライセンス: Link先を確認
Md. Mohi Uddin Khan, Abdullah Bin Shams and Md. Mohsin Sarker Raihan(参考訳) 近年の多分野のヒューマンアクティビティ認識技術の進歩により、現代の人工知能中心の屋内監視・監視システムを打破するために、人間と人間の相互インタラクション認識のための効率的で経済的かつプライバシーに優しいアプローチを見つけることが避けられなくなった。 この研究は、当初、すでに提案されている人間の活動認識機構に目をつけようと試み、Wi-Fiチャネル情報から相互の相互作用認識に空白を見出した。 そして、無線ローカルエリアネットワークガジェットの対応するコンポーネントとチャネル特性、および信号とチャネルの摂動の根本的な原因について解明した。 提案する双方向ゲート型リカレントニューラルネットワーク深層学習モデルを用いて,時間的特徴抽出による時系列データ分類において,現在出現していると認識される3つの相互インタラクション認識実験を行った。 シングルペア相互インタラクション認識実験は最大94%のテストベンチマークを達成し、10名の被験者ペアによる実験では88%のベンチマークが達成され、インタラクション遷移領域の分類が改善された。 PyQt5 pythonモジュールを用いて設計したグラフィカルユーザインタフェース実行可能ソフトウェアのデモは、その後、全体的な相互相互作用認識手順を描写し、最終的に、クロステスト実験で観察された補正をもたらすハンディキャップの解決策に関する簡単な談話で締めくくった。

With the recent advances in multi-disciplinary human activity recognition techniques, it has become inevitable to find an efficient, economical & privacy-friendly approach for human-to-human mutual interaction recognition in order to breakthrough the modern artificial intelligence centric indoor monitoring & surveillance system. This study initially attempted to set its sights on the already proposed human activity recognition mechanisms and found a void in mutual interaction recognition from Wi-Fi channel information which is convenient & affordable to be utilized. Then it elucidated on the corresponding components of wireless local area network gadgets along with the channel properties, and notable underlying causes of signal & channel perturbation. Thenceforth the study conducted three experiments on human-to-human mutual interaction recognition using the proposed Self-Attention furnished Bidirectional Gated Recurrent Neural Network deep learning model which is perceived to become emergent nowadays for time-series data classification through automated temporal feature extraction. Single pair mutual interaction recognition experiment achieved a maximum of 94% test benchmark while the experiment involving ten subject-pairs secured 88% benchmark with improved classification around interaction-transition region. Demonstration of a graphical user interface executable software designed using PyQt5 python module subsequently portrayed the overall mutual human-interaction recognition procedure, and finally the study concluded with a brief discourse regarding the possible solutions to the handicaps that resulted in curtailments observed in the case of cross-test experiment.
翻訳日:2022-02-17 14:35:13 公開日:2022-02-16
# 自律走行知覚における過信予測の低減

Reducing Overconfidence Predictions for Autonomous Driving Perception ( http://arxiv.org/abs/2202.07825v1 )

ライセンス: Link先を確認
Gledson Melotti, Cristiano Premebida, Jordan J. Bird, Diego R. Faria, Nuno Gon\c{c}alves(参考訳) オブジェクト認識のための最先端のディープラーニングでは、ソフトマックス関数とsgmoid関数が最も一般的に使用される。 このような層はしばしば、適切な確率的スコアではなく、自信過剰な予測を生じるため、自動運転やロボティクスに適用される「批判的」な知覚システムの意思決定を損なう可能性がある。 そこで本研究では,事前学習したネットワークのロジット層スコアから計算した分布に基づく確率的アプローチを提案する。 また,最大度 (ml) と最大 a-posteriori (map) 関数は,オブジェクト認識のためのsoftmaxやsgmoidベースの予測よりも確率論的解釈に適していることを示す。 我々は、通常のSoftMax層やSigmoid層と比較して有望な性能を示すKITTIとLyft Level-5データセットから、RGBイメージとLiDAR(RV: Range-view)データを通じて、センサの異なるモダリティを探索し、解釈可能な確率的予測を可能にする。 本稿で導入されたアプローチのもう1つの利点は、既存のトレーニングネットワークでMLとMAP関数を実装できること、すなわち、事前訓練されたネットワークのLogit層の出力から得られるアプローチの利点である。 したがって、MLとMAP関数がテスト/予測フェーズで使用されるため、新たなトレーニングフェーズを実行する必要はない。

In state-of-the-art deep learning for object recognition, SoftMax and Sigmoid functions are most commonly employed as the predictor outputs. Such layers often produce overconfident predictions rather than proper probabilistic scores, which can thus harm the decision-making of `critical' perception systems applied in autonomous driving and robotics. Given this, the experiments in this work propose a probabilistic approach based on distributions calculated out of the Logit layer scores of pre-trained networks. We demonstrate that Maximum Likelihood (ML) and Maximum a-Posteriori (MAP) functions are more suitable for probabilistic interpretations than SoftMax and Sigmoid-based predictions for object recognition. We explore distinct sensor modalities via RGB images and LiDARs (RV: range-view) data from the KITTI and Lyft Level-5 datasets, where our approach shows promising performance compared to the usual SoftMax and Sigmoid layers, with the benefit of enabling interpretable probabilistic predictions. Another advantage of the approach introduced in this paper is that the ML and MAP functions can be implemented in existing trained networks, that is, the approach benefits from the output of the Logit layer of pre-trained networks. Thus, there is no need to carry out a new training phase since the ML and MAP functions are used in the test/prediction phase.
翻訳日:2022-02-17 14:34:47 公開日:2022-02-16
# 最小体積信頼集合の幾何学

Geometry of the Minimum Volume Confidence Sets ( http://arxiv.org/abs/2202.08180v1 )

ライセンス: Link先を確認
Heguang Lin, Mengze Li, Daniel Pimentel-Alarc\'on, Matthew Malloy(参考訳) 信頼性セットの計算は、データサイエンスと機械学習の中心であり、a/bテストの成果であり、強化学習アルゴリズムの運用と分析の基盤となっている。 本稿では,多項パラメータに対する最小体積信頼集合の幾何について検討する。 より標準的な信頼セットと境界と漸近近似に基づく間隔の代わりに使用される場合、学習アルゴリズムはサンプルの複雑さを改善することができる。 先行研究では、最小体積信頼集合は正確な p-値によって定義される不連続関数のレベル集合であることを示した。 信頼セットは最小平均体積を持つという点で最適であるが、集合内の単一点のメンバシップの計算は、控えめなサイズの問題では難しい。 信頼集合は不連続函数のレベル集合であるため、その幾何学についてはほとんど明らかでない。 本稿では, p-値関数の連続領域を列挙し, 被覆することにより, 最小体積信頼集合の幾何について検討する。 これはA/Bテストにおける根本的な問題に対処する: 2つの多重項結果が与えられたとき、対応する最小体積信頼集合が非結合であるかどうかをどうやって決定できるのか? 私たちはこの質問を限定的に答える。

Computation of confidence sets is central to data science and machine learning, serving as the workhorse of A/B testing and underpinning the operation and analysis of reinforcement learning algorithms. This paper studies the geometry of the minimum-volume confidence sets for the multinomial parameter. When used in place of more standard confidence sets and intervals based on bounds and asymptotic approximation, learning algorithms can exhibit improved sample complexity. Prior work showed the minimum-volume confidence sets are the level-sets of a discontinuous function defined by an exact p-value. While the confidence sets are optimal in that they have minimum average volume, computation of membership of a single point in the set is challenging for problems of modest size. Since the confidence sets are level-sets of discontinuous functions, little is apparent about their geometry. This paper studies the geometry of the minimum volume confidence sets by enumerating and covering the continuous regions of the exact p-value function. This addresses a fundamental question in A/B testing: given two multinomial outcomes, how can one determine if their corresponding minimum volume confidence sets are disjoint? We answer this question in a restricted setting.
翻訳日:2022-02-17 14:34:06 公開日:2022-02-16
# ZeroGen:データセット生成による効率的なゼロショット学習

ZeroGen: Efficient Zero-shot Learning via Dataset Generation ( http://arxiv.org/abs/2202.07922v1 )

ライセンス: Link先を確認
Jiacheng Ye, Jiahui Gao, Qintong Li, Hang Xu, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong(参考訳) 近年,大規模事前学習言語モデル(PLM)の優れた生成能力のため,データセット生成への関心が高まっている。 本稿では,フレキシブルで効率的なゼロショート学習法であるzerogenについて検討する。 ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。 そして、合成データセットの監督の下で、小さなタスクモデル(LSTMなど)を訓練する。 このアプローチは、最終タスクモデルが PLM (GPT2-XL) と比較して桁違いに少ないパラメータしか持たないため、非常に効率的な推論を可能にする。 アノテーションフリーかつ効率的であることとは別に、zerogenはデータフリーなモデル非依存な知識蒸留、および参照されていないテキスト生成評価の観点から有用な洞察を提供することができると論じている。 テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。

There is a growing interest in dataset generation recently due to the superior generative capacity of large pre-trained language models (PLMs). In this paper, we study a flexible and efficient zero-short learning method, ZeroGen. Given a zero-shot task, we first generate a dataset from scratch using PLMs in an unsupervised manner. Then, we train a tiny task model (e.g., LSTM) under the supervision of the synthesized dataset. This approach allows highly efficient inference as the final task model only has orders of magnitude fewer parameters comparing to PLMs (e.g., GPT2-XL). Apart from being annotation-free and efficient, we argue that ZeroGen can also provide useful insights from the perspective of data-free model-agnostic knowledge distillation, and unreferenced text generation evaluation. Experiments and analysis on different NLP tasks, namely, text classification, question answering, and natural language inference), show the effectiveness of ZeroGen.
翻訳日:2022-02-17 14:33:32 公開日:2022-02-16
# Tiny Setsによる実践的ネットワーク高速化

Practical Network Acceleration with Tiny Sets ( http://arxiv.org/abs/2202.07861v1 )

ライセンス: Link先を確認
Guo-Hua Wang, Jianxin Wu(参考訳) ネットワーク圧縮は、ディープニューラルネットワークの推論を加速するのに有効であるが、精度損失から回復するためには、トレーニングデータをすべて微調整する必要があることが多い。 しかし、データプライバシの問題や圧縮時間予算の制約のため、いくつかのアプリケーションでは実用的ではない。 上記の問題に対処するために, PRACTISE という手法を提案し, トレーニング画像の小さなセットでネットワークを高速化する。 圧縮モデルの刈り取られた部分と未刈り取られた部分の両方を考慮すると、PRACTISEは従来の方法の主な欠点であるレイヤワイドエラーの蓄積を緩和する。 さらに、既存の手法は圧縮方式に制限され、レイテンシの点で制限されたスピードアップを持ち、不安定である。 対照的に、PRACTISEは安定しており、訓練が速く、様々な圧縮スキームを扱うために汎用性があり、低レイテンシを実現する。 また、トレーニングデータの小さなセットしか利用できない場合、既存の圧縮方式よりもブロック全体をドロップする方がよいと提案する。 広範な実験により、practiseは最先端の手法よりもずっと高い精度とより安定したモデルを達成できることが示されている。

Network compression is effective in accelerating the inference of deep neural networks, but often requires finetuning with all the training data to recover from the accuracy loss. It is impractical in some applications, however, due to data privacy issues or constraints in compression time budget. To deal with the above issues, we propose a method named PRACTISE to accelerate the network with tiny sets of training images. By considering both the pruned part and the unpruned part of a compressed model, PRACTISE alleviates layer-wise error accumulation, which is the main drawback of previous methods. Furthermore, existing methods are confined to few compression schemes, have limited speedup in terms of latency, and are unstable. In contrast, PRACTISE is stable, fast to train, versatile to handle various compression schemes, and achieves low latency. We also propose that dropping entire blocks is a better way than existing compression schemes when only tiny sets of training data are available. Extensive experiments demonstrate that PRACTISE achieves much higher accuracy and more stable models than state-of-the-art methods.
翻訳日:2022-02-17 14:33:20 公開日:2022-02-16
# 15%のマスキング言語モデリングを隠すべきだろうか?

Should You Mask 15% in Masked Language Modeling? ( http://arxiv.org/abs/2202.08005v1 )

ライセンス: Link先を確認
Alexander Wettig, Tianyu Gao, Zexuan Zhong, Danqi Chen(参考訳) マスク言語モデルは、よりマスキングが良い表現を学ぶのに不十分な文脈を提供し、マスキングが少なければトレーニングが高価すぎるという信念から、従来は15%のマスキング率を使用している。 驚くべきことに、入力トークンの最大40%のマスクは15%のベースラインを上回り、80%のマスクでさえ、下流タスクの微調整によって測定されるように、ほとんどのパフォーマンスを維持できる。 マスキング率の増大には,(1) 入力トークンのより大きな割合が破損し,コンテキストサイズが小さくなり,タスクが困難になる,(2) モデルがより多くの予測を実行し,トレーニングの恩恵を受ける,という2つの異なる効果がある。 より大規模なモデルでは、より困難なタスクを実行する能力が高いため、マスキング率の向上が望まれる。 また,スパンマスキングやPMIマスキングなどの高度なマスキング手法や,BERTの興味深い80-10-10の汚職戦略と組み合わせて,[MASK]置換による単純な均一マスキングが,より高いマスキング速度で競争可能であることを発見した。 本研究は,マスク言語モデリングの理解を深め,効率的な事前学習のための新しい方法を提案する。

Masked language models conventionally use a masking rate of 15% due to the belief that more masking would provide insufficient context to learn good representations, and less masking would make training too expensive. Surprisingly, we find that masking up to 40% of input tokens can outperform the 15% baseline, and even masking 80% can preserve most of the performance, as measured by fine-tuning on downstream tasks. Increasing the masking rates has two distinct effects, which we investigate through careful ablations: (1) A larger proportion of input tokens are corrupted, reducing the context size and creating a harder task, and (2) models perform more predictions, which benefits training. We observe that larger models in particular favor higher masking rates, as they have more capacity to perform the harder task. We also connect our findings to sophisticated masking schemes such as span masking and PMI masking, as well as BERT's curious 80-10-10 corruption strategy, and find that simple uniform masking with [MASK] replacements can be competitive at higher masking rates. Our results contribute to a better understanding of masked language modeling and point to new avenues for efficient pre-training.
翻訳日:2022-02-17 14:32:19 公開日:2022-02-16
# 構造ヘルスモニタリングおよび損傷検出のための無損傷ドメイン翻訳用サイクガン

CycleGAN for Undamaged-to-Damaged Domain Translation for Structural Health Monitoring and Damage Detection ( http://arxiv.org/abs/2202.07831v1 )

ライセンス: Link先を確認
Furkan Luleci, F. Necati Catbas, Onur Avci(参考訳) 過去数十年におけるデータサイエンス分野の急速な進歩は、構造健康モニタリング(SHM)を含む多くの分野に恩恵をもたらした。 特に、機械学習(ML)や深層学習(DL)といった人工知能(AI)を土木構造物の振動による損傷診断に応用することは、データからの学習における最高のパフォーマンスの性質から大きな関心を集めている。 診断と共に、損傷の予後は、土木構造物の残りの有用寿命を推定するなど、極めて重要な特徴を持つ。 現在使用されているAIベースの損傷診断と予後診断のためのデータ駆動手法は、構造物の歴史的データを中心にしており、予測モデルを直接形成するために大量のデータを必要とする。 これらの手法の一部は生成モデルであるが、データの分布を学習した後、分類、回帰、クラスタリングなどのMLまたはDLタスクを実行するために使用される。 本研究では、GAN(Generative Adversarial Networks)の変種であるCycle-Consistent Wasserstein Deep Convolutional GAN with Gradient Penalty (CycleWDCGAN-GP)モデルを用いて、SHMにおけるいくつかの重要な疑問に答える。 本研究の結果から, 本モデルでは, 将来の損傷条件に対する構造の将来的な応答を正確に生成できることが示唆された。 言い換えれば、提案手法により、ステークホルダーは、構造がまだ健全な(損傷のない)状態にある間、構造物の損傷状態を理解することができる。 このツールにより、構造体のライフサイクルパフォーマンスをより積極的に監視し、有用な生命予測の維持を支援することができる。

The accelerated advancements in the data science field in the last few decades has benefitted many other fields including Structural Health Monitoring (SHM). Particularly, the employment of Artificial Intelligence (AI) such as Machine Learning (ML) and Deep Learning (DL) methods towards vibration-based damage diagnostics of civil structures have seen a great interest due to their nature of supreme performance in learning from data. Along with diagnostics, damage prognostics also hold a vital prominence, such as estimating the remaining useful life of civil structures. Currently used AI-based data-driven methods for damage diagnostics and prognostics are centered on historical data of the structures and require a substantial amount of data to directly form the prediction models. Although some of these methods are generative-based models, after learning the distribution of the data, they are used to perform ML or DL tasks such as classification, regression, clustering, etc. In this study, a variant of Generative Adversarial Networks (GAN), Cycle-Consistent Wasserstein Deep Convolutional GAN with Gradient Penalty (CycleWDCGAN-GP) model is used to answer some of the most important questions in SHM: "How does the dynamic signature of a structure transition from undamaged to damaged conditions?" and "What is the nature of such transition?". The outcomes of this study demonstrate that the proposed model can accurately generate the possible future responses of a structure for potential future damaged conditions. In other words, with the proposed methodology, the stakeholders will be able to understand the damaged condition of structures while the structures are still in healthy (undamaged) conditions. This tool will enable them to be more proactive in overseeing the life cycle performance of structures as well as assist in remaining useful life predictions.
翻訳日:2022-02-17 14:31:30 公開日:2022-02-16
# TimeREISE: 入力サンプル説明を伴う時系列ランダム化

TimeREISE: Time-series Randomized Evolving Input Sample Explanation ( http://arxiv.org/abs/2202.07952v1 )

ライセンス: Link先を確認
Dominique Mercier, Andreas Dengel, Sheraz Ahmed(参考訳) ディープニューラルネットワークは、異なるドメインにまたがる最も成功した分類器の1つである。 しかしながら、解釈可能性に関する制限のため、安全クリティカルな文脈での使用は制限されている。 説明可能な人工知能の研究分野はこの問題に対処する。 しかし,ほとんどの解釈可能性法は画像のモダリティに適応している。 本稿では時系列分類の文脈において、特に成功に対応するモデル非依存属性法であるTimeREISEを紹介する。 本手法は, 従来の測定方法と比較して, 優れた性能を示す。 TimeREISEは任意の時系列分類ネットワークに適用でき、そのランタイムは入力形態に関して線形にスケールせず、事前のデータ知識に依存しない。

Deep neural networks are one of the most successful classifiers across different domains. However, due to their limitations concerning interpretability their use is limited in safety critical context. The research field of explainable artificial intelligence addresses this problem. However, most of the interpretability methods are aligned to the image modality by design. The paper introduces TimeREISE a model agnostic attribution method specifically aligned to success in the context of time series classification. The method shows superior performance compared to existing approaches concerning different well-established measurements. TimeREISE is applicable to any time series classification network, its runtime does not scale in a linear manner concerning the input shape and it does not rely on prior data knowledge.
翻訳日:2022-02-17 14:30:54 公開日:2022-02-16
# 予測プロセス監視結果の説明可能性: 私のデータ問題が分かるか?

Explainability of Predictive Process Monitoring Results: Can You See My Data Issues? ( http://arxiv.org/abs/2202.08041v1 )

ライセンス: Link先を確認
Ghada Elkhawaga, Mervat Abuelkheir, Manfred Reichert(参考訳) 予測ビジネスプロセス監視(PPM)は、プロセスマイニングのユースケースとして、数年前から存在しています。 PPMは、実行中のプロセスインスタンスの終了方法、関連するパフォーマンス指標、その他の予測可能な側面に関する関連情報を予測することで、ビジネスプロセスの将来を予見することを可能にする。 PPMアプローチの大部分では、予測タスク、特にプロセス対応のPPMアプローチに対処するために、機械学習(ML)技術を採用している。 その結果、PPMはMLアプローチが直面する課題を継承する。 これらの課題の1つは、生成された予測に対するユーザの信頼を得る必要性に関するものだ。 説明可能な人工知能(XAI)の分野はこの問題に対処する。 しかし, MLモデルの特徴に加えて, PPMタスクにおける選択やテクニックが, 結果の説明に影響を及ぼす。 生成した説明に対する異なる設定の影響の比較は欠落している。 このギャップに対処するため、MLモデルに入力されたデータに対する異なるPPM設定の影響について検討し、XAI手法を提案する。 結果から得られた説明の相違は、基礎となるデータにおけるいくつかの問題を示す可能性がある。 我々は,PPMの各段階の異なる設定を含む実験のためのフレームワークを構築し,XAIを基本部分として統合する。 実験の結果,データ特性(およびこれらのデータに対する期待値),クエリ結果としてMLモデルが使用する重要なデータ,調査対象のMLモデルの予測に関する説明との間には,いくつかの矛盾点や一致点が明らかになった。

Predictive business process monitoring (PPM) has been around for several years as a use case of process mining. PPM enables foreseeing the future of a business process through predicting relevant information about how a running process instance might end, related performance indicators, and other predictable aspects. A big share of PPM approaches adopts a Machine Learning (ML) technique to address a prediction task, especially non-process-aware PPM approaches. Consequently, PPM inherits the challenges faced by ML approaches. One of these challenges concerns the need to gain user trust in the predictions generated. The field of explainable artificial intelligence (XAI) addresses this issue. However, the choices made, and the techniques employed in a PPM task, in addition to ML model characteristics, influence resulting explanations. A comparison of the influence of different settings on the generated explanations is missing. To address this gap, we investigate the effect of different PPM settings on resulting data fed into an ML model and consequently to a XAI method. We study how differences in resulting explanations may indicate several issues in underlying data. We construct a framework for our experiments including different settings at each stage of PPM with XAI integrated as a fundamental part. Our experiments reveal several inconsistencies, as well as agreements, between data characteristics (and hence expectations about these data), important data used by the ML model as a result of querying it, and explanations of predictions of the investigated ML model.
翻訳日:2022-02-17 14:30:45 公開日:2022-02-16
# 汚染データを用いた異常検出のための潜時露光

Latent Outlier Exposure for Anomaly Detection with Contaminated Data ( http://arxiv.org/abs/2202.08088v1 )

ライセンス: Link先を確認
Chen Qiu, Aodong Li, Marius Kloft, Maja Rudolph, Stephan Mandt(参考訳) 異常検出は、ラベルなしデータセットの大多数のデータから体系的なずれを示すデータポイントを特定することを目的としている。 一般的な前提は、クリーンなトレーニングデータ(異常のない)が利用可能であり、実際にはしばしば違反する。 そこで本研究では,多種多様なモデルに適合するラベルなし異常の存在下で異常検知器を訓練する手法を提案する。 そのアイデアは、モデルパラメータを更新しながら、バイナリラベルを各datum(正規対異常)に同時推論することである。 人工的に生成されたラベル付き異常を考慮に入れたアウトリー露光(Hendrycks et al., 2018)にインスパイアされた我々は、パラメータを共有する2つの損失(通常の場合と異常データの場合)の組み合わせを利用する。 次に、パラメータと最も可能性の高い(相対的な)ラベルのブロック座標更新を反復的に進めます。 3つの画像データセット、30の表付きデータセット、ビデオ異常検出ベンチマークのバックボーンモデルによる実験により、ベースラインに対する一貫性と顕著な改善が示された。

Anomaly detection aims at identifying data points that show systematic deviations from the majority of data in an unlabeled dataset. A common assumption is that clean training data (free of anomalies) is available, which is often violated in practice. We propose a strategy for training an anomaly detector in the presence of unlabeled anomalies that is compatible with a broad class of models. The idea is to jointly infer binary labels to each datum (normal vs. anomalous) while updating the model parameters. Inspired by outlier exposure (Hendrycks et al., 2018) that considers synthetically created, labeled anomalies, we thereby use a combination of two losses that share parameters: one for the normal and one for the anomalous data. We then iteratively proceed with block coordinate updates on the parameters and the most likely (latent) labels. Our experiments with several backbone models on three image datasets, 30 tabular data sets, and a video anomaly detection benchmark showed consistent and significant improvements over the baselines.
翻訳日:2022-02-17 14:28:57 公開日:2022-02-16
# 機械学習モデルにおけるバイアスと不公平:体系的文献レビュー

Bias and unfairness in machine learning models: a systematic literature review ( http://arxiv.org/abs/2202.08176v1 )

ライセンス: Link先を確認
Tiago Palma Pagano, Rafael Bessa Loureiro, Maira Matos Araujo, Fernanda Vitoria Nascimento Lisboa, Rodrigo Matos Peixoto, Guilherme Aragao de Sousa Guimaraes, Lucas Lisboa dos Santos, Gustavo Oliveira Ramos Cruz, Ewerton Lopes Silva de Oliveira, Marco Cruz, Ingrid Winkler, Erick Giovani Sperandio Nascimento(参考訳) 人工知能の難しさの1つは、モデル決定が公平でバイアスのないことを保証することである。 研究では、アルゴリズムの不公平さと偏見を検出し緩和するためにデータセット、メトリクス、テクニック、ツールが適用される。 本研究では,機械学習モデルにおけるバイアスと不公平性に関する既存の知識,緩和方法,公平度指標,支援ツールについて検討することを目的とした。 The Systematic Literature Reviewによると、2017年から2022年にかけて、Scoops、IEEE Xplore、Web of Science、Google Scholarの知識ベースで40の論文が出版された。 その結果,ML技術のバイアスや不公平検出,緩和アプローチが多数存在し,文献で明確に定義された指標と,さまざまな指標が強調できることがわかった。 我々は、機械学習モデルの公平性を標準化し、確実にするために、各ケースで採用すべきテクニックとメトリクスを定義するために、さらなる研究を推奨する。

One of the difficulties of artificial intelligence is to ensure that model decisions are fair and free of bias. In research, datasets, metrics, techniques, and tools are applied to detect and mitigate algorithmic unfairness and bias. This study aims to examine existing knowledge on bias and unfairness in Machine Learning models, identifying mitigation methods, fairness metrics, and supporting tools. A Systematic Literature Review found 40 eligible articles published between 2017 and 2022 in the Scopus, IEEE Xplore, Web of Science, and Google Scholar knowledge bases. The results show numerous bias and unfairness detection and mitigation approaches for ML technologies, with clearly defined metrics in the literature, and varied metrics can be highlighted. We recommend further research to define the techniques and metrics that should be employed in each case to standardize and ensure the impartiality of the machine learning model, thus, allowing the most appropriate metric to detect bias and unfairness in a given context.
翻訳日:2022-02-17 14:28:38 公開日:2022-02-16
# 意思決定と学習課題におけるプライバシーの相違と公平性:調査

Differential Privacy and Fairness in Decisions and Learning Tasks: A Survey ( http://arxiv.org/abs/2202.08187v1 )

ライセンス: Link先を確認
Ferdinando Fioretto, Cuong Tran, Pascal Van Hentenryck, Keyu Zhu(参考訳) 本稿では,差分プライバシ(DP)と公正性の交差に関する最近の研究について調査する。 プライバシと公正が目標に整合した、あるいは対比した条件をレビューし、意思決定問題や学習課題における偏見と不公平性をどのように悪化させるかを分析し、DPシステムで発生する公平性問題に対する緩和措置について説明する。 この調査は、プライバシ保護機械学習や意思決定タスクを公正レンズの下で展開する際の主な課題と潜在的なリスクについて、統一された理解を提供する。

This paper surveys recent work in the intersection of differential privacy (DP) and fairness. It reviews the conditions under which privacy and fairness may have aligned or contrasting goals, analyzes how and why DP may exacerbate bias and unfairness in decision problems and learning tasks, and describes available mitigation measures for the fairness issues arising in DP systems. The survey provides a unified understanding of the main challenges and potential risks arising when deploying privacy-preserving machine-learning or decisions-making tasks under a fairness lens.
翻訳日:2022-02-17 14:28:23 公開日:2022-02-16
# 複数時系列の異常検出のためのグラフ強化正規化流れ

Graph-Augmented Normalizing Flows for Anomaly Detection of Multiple Time Series ( http://arxiv.org/abs/2202.07857v1 )

ライセンス: Link先を確認
Enyan Dai, Jie Chen(参考訳) 異常検出(anomaly detection)は、さまざまなデータタイプに対して広く研究されているタスクであり、電力グリッドやトラヒックネットワークなど、アプリケーションで複数の時系列が頻繁に現れる。 しかし、複数の時系列の異常を検出することは、構成系列間の複雑な相互依存性のため、難しい課題である。 分布の低密度領域に異常が発生することを仮定し,非教師なし異常検出における正規化流の利用を考察する。 さらに,構成系列間のベイズネットワークを具体化して,新しい流れモデルを提案する。 ベイズネットワーク(英: Bayesian network)は、因果関係をモデル化する有向非巡回グラフ(DAG)である。 このようなグラフを正規化フローアプローチganfと呼び,dagとフローパラメータの同時推定を提案する。 我々は,実世界のデータセットを広範囲に実験し,ganfの密度推定,異常検出,時系列分布ドリフトの同定に有効であることを示す。

Anomaly detection is a widely studied task for a broad variety of data types; among them, multiple time series appear frequently in applications, including for example, power grids and traffic networks. Detecting anomalies for multiple time series, however, is a challenging subject, owing to the intricate interdependencies among the constituent series. We hypothesize that anomalies occur in low density regions of a distribution and explore the use of normalizing flows for unsupervised anomaly detection, because of their superior quality in density estimation. Moreover, we propose a novel flow model by imposing a Bayesian network among constituent series. A Bayesian network is a directed acyclic graph (DAG) that models causal relationships; it factorizes the joint probability of the series into the product of easy-to-evaluate conditional probabilities. We call such a graph-augmented normalizing flow approach GANF and propose joint estimation of the DAG with flow parameters. We conduct extensive experiments on real-world datasets and demonstrate the effectiveness of GANF for density estimation, anomaly detection, and identification of time series distribution drift.
翻訳日:2022-02-17 14:27:46 公開日:2022-02-16
# Backtest-based Bootstrap と Adaptive Residual Selection を用いたロバスト非パラメトリック分布予測

Robust Nonparametric Distribution Forecast with Backtest-based Bootstrap and Adaptive Residual Selection ( http://arxiv.org/abs/2202.07955v1 )

ライセンス: Link先を確認
Longshaokan Wang, Lingda Wang, Mina Georgieva, Paulo Machado, Abinaya Ulagappa, Safwan Ahmed, Yan Lu, Arjun Bakshi, Farhad Ghassemi(参考訳) 分布予測は予測の不確かさを定量化し、予測確率に応じて様々な予測シナリオを提供する。 正確な流通予測は、例えば生産能力や在庫割り当ての決定を行う際に、計画に不可欠である。 本稿では,バックテストベースのブートストラップと適応的残差選択に依存する,実用的で堅牢な分布予測フレームワークを提案する。 提案手法は,入力共変量に関する不確実性を考慮した予測モデルの選択に頑健であり,残差と共変量との独立性を緩和する。 従来のブートストラップのアプローチと比較して、絶対カバレッジエラーを63%以上削減し、自社製品販売データやm4時間毎の競合データに対する最先端のディープラーニングアプローチと比較して2%から32%削減している。

Distribution forecast can quantify forecast uncertainty and provide various forecast scenarios with their corresponding estimated probabilities. Accurate distribution forecast is crucial for planning - for example when making production capacity or inventory allocation decisions. We propose a practical and robust distribution forecast framework that relies on backtest-based bootstrap and adaptive residual selection. The proposed approach is robust to the choice of the underlying forecasting model, accounts for uncertainty around the input covariates, and relaxes the independence between residuals and covariates assumption. It reduces the Absolute Coverage Error by more than 63% compared to the classic bootstrap approaches and by 2% - 32% compared to a variety of State-of-the-Art deep learning approaches on in-house product sales data and M4-hourly competition data.
翻訳日:2022-02-17 14:27:28 公開日:2022-02-16
# リプシッツ最適輸送マップのGAN推定

GAN Estimation of Lipschitz Optimal Transport Maps ( http://arxiv.org/abs/2202.07965v1 )

ライセンス: Link先を確認
Alberto Gonz\'alez-Sanz (IMT), Lucas de Lara (IMT), Louis B\'ethune (IRIT), Jean-Michel Loubes (IMT)(参考訳) 本稿では,ニューラルネットワークに基づく2つの確率分布間の最適輸送マップの統計的に一貫した最初の推定手法を提案する。 リプシッツニューラルネットワークの理論的および実践的な進歩に基づいて、二次輸送コストで計算されたリプシッツ制約付き生成対向ネットワークを定義する。 次に、正規性仮定の下で得られた生成器は、サンプルサイズが無限大になるにつれて最適な輸送写像に一様収束することを示す。 さらに,学習マッピングが有望な性能を持つことを示す数値実験を多数実施した。 統計的保証や実用性に対処する以前の作業とは対照的に、漸近的な振る舞いを証明しなければならない最適な輸送アプリケーションに道を開く表現的で実現可能な推定器を提供する。

This paper introduces the first statistically consistent estimator of the optimal transport map between two probability distributions, based on neural networks. Building on theoretical and practical advances in the field of Lipschitz neural networks, we define a Lipschitz-constrained generative adversarial network penalized by the quadratic transportation cost. Then, we demonstrate that, under regularity assumptions, the obtained generator converges uniformly to the optimal transport map as the sample size increases to infinity. Furthermore, we show through a number of numerical experiments that the learnt mapping has promising performances. In contrast to previous work tackling either statistical guarantees or practicality, we provide an expressive and feasible estimator which paves way for optimal transport applications where the asymptotic behaviour must be certified.
翻訳日:2022-02-17 14:27:11 公開日:2022-02-16
# ニューラルネットワークにおける余剰容量の測定について

On Measuring Excess Capacity in Neural Networks ( http://arxiv.org/abs/2202.08070v1 )

ライセンス: Link先を確認
Florian Graf, Sebastian Zeng, Marc Niethammer, Roland Kwitt(参考訳) 教師付き分類の文脈におけるディープネットワークの過剰容量について検討する。 つまり、基礎となる仮説クラス(我々の場合、Rademacher複雑性)のキャパシティーを考慮に入れれば、制約のない設定に匹敵する経験的エラーを維持しながら、このクラスをどの程度(a-priori)制約することができるのか。 近代建築における余剰能力を評価するため、我々はまず、関数の構成と加算、および畳み込みの特定の構造に対応するために、既存の一般化を拡張した。 これにより、付随容量測定器のレンズを通して残留ネットワークの研究が容易になる。 この測度を駆動する主要な量は、層のリプシッツ定数と(2,1)群のノルム距離と畳み込み重みの初期化である。 これらの量(1)を驚くほど小さく抑えることができ、(2)過剰な容量はタスクの難易度によって予期しないほど増加するため、不必要に大量の訓練されていないモデルの容量に向ける。

We study the excess capacity of deep networks in the context of supervised classification. That is, given a capacity measure of the underlying hypothesis class -- in our case, Rademacher complexity -- how much can we (a-priori) constrain this class while maintaining an empirical error comparable to the unconstrained setting. To assess excess capacity in modern architectures, we first extend an existing generalization bound to accommodate function composition and addition, as well as the specific structure of convolutions. This then facilitates studying residual networks through the lens of the accompanying capacity measure. The key quantities driving this measure are the Lipschitz constants of the layers and the (2,1) group norm distance to the initializations of the convolution weights. We show that these quantities (1) can be kept surprisingly small and, (2) since excess capacity unexpectedly increases with task difficulty, this points towards an unnecessarily large capacity of unconstrained models.
翻訳日:2022-02-17 14:26:59 公開日:2022-02-16
# 左グラム行列を用いた高次元データのクラスタリング

Using the left Gram matrix to cluster high dimensional data ( http://arxiv.org/abs/2202.08236v1 )

ライセンス: Link先を確認
Shahina Rahman, Valen E. Johnson and Suhasini Subba Rao(参考訳) N オブジェクト (P >> N) の P 特徴が NxP 行列 X で表現される高次元データに対して、正規化左文法行列 G = XX'/P に基づくクラスタリングアルゴリズムを記述する。 ある正則性条件の下では、同一クラスタ内のオブジェクトに対応するGの行は同じ平均ベクトルに収束する。 ロウ手段でクラスタリングすることで、アルゴリズムは次元縮小や特徴選択技術による前処理を必要とせず、チューニングやハイパーパラメータの仕様も必要としない。 nxn行列gに基づいており、特徴行列xのクラスタリングに基づく多くの方法よりも計算コストが低く、ベンチマークされた32のマイクロアレイデータセットに適用される他の14のクラスタリングアルゴリズムと比較すると、提案アルゴリズムは最も正確なクラスタ構成の推定を最も近い競合相手の2倍以上提供した。

For high dimensional data, where P features for N objects (P >> N) are represented in an NxP matrix X, we describe a clustering algorithm based on the normalized left Gram matrix, G = XX'/P. Under certain regularity conditions, the rows in G that correspond to objects in the same cluster converge to the same mean vector. By clustering on the row means, the algorithm does not require preprocessing by dimension reduction or feature selection techniques and does not require specification of tuning or hyperparameter values. Because it is based on the NxN matrix G, it has a lower computational cost than many methods based on clustering the feature matrix X. When compared to 14 other clustering algorithms applied to 32 benchmarked microarray datasets, the proposed algorithm provided the most accurate estimate of the underlying cluster configuration more than twice as often as its closest competitors.
翻訳日:2022-02-17 14:26:18 公開日:2022-02-16
# すべてのパッチが必要なわけではない:トークンの再編成によるビジョントランスフォーマーの迅速化

Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations ( http://arxiv.org/abs/2202.07800v1 )

ライセンス: Link先を確認
Youwei Liang, Chongjian Ge, Zhan Tong, Yibing Song, Jue Wang, Pengtao Xie(参考訳) ViT(Vision Transformer)は、すべてのイメージパッチをトークンとして取り、MHSA(Multi-head Self-attention)を構築する。 これらの画像トークンの完全活用は、すべてのトークンがMHSAで注意深いわけではないため、冗長な計算をもたらす。 例えば、意味的に意味のない画像背景を含むトークンは、ViT予測に肯定的に寄与しない。 本研究では,ViTモデルのフィードフォワードプロセス中に画像トークンを再編成し,トレーニング中にViTに統合する手法を提案する。 各前方推論において,MHSAとFFN(フィードフォワードネットワーク)モジュール間の注意的画像トークンを識別し,対応するクラストークンの注意を導出する。 次に,注意トークンを保存して画像トークンを再編成し,不注意トークンを用いて後続のmhsaおよびffn計算を高速化する。 この目的のために、EViTは2つの視点からViTを改善する。 まず,入力画像トークンの量と同じで,MHSAとFFNの計算を削減し,効率的な推論を行う。 例えば、画像ネット分類において、DeiT-Sの推論速度は50%向上する一方、認識精度は0.3%低下する。 第2に,同じ計算コストを維持することにより,高解像度画像からの画像トークンの認識精度向上のための入力として,より多くの画像トークンを取ることができる。 例えば、画像ネット分類において、バニラDeiT-Sと同じ計算コストでDeiT-Sの認識精度を1%向上する。 一方,本手法はvitsにより多くのパラメータを導入することはない。 標準ベンチマーク実験では,本手法の有効性を示す。 コードはhttps://github.com/youweiliang/evitで入手できる。

Vision Transformers (ViTs) take all the image patches as tokens and construct multi-head self-attention (MHSA) among them. Complete leverage of these image tokens brings redundant computations since not all the tokens are attentive in MHSA. Examples include that tokens containing semantically meaningless or distractive image backgrounds do not positively contribute to the ViT predictions. In this work, we propose to reorganize image tokens during the feed-forward process of ViT models, which is integrated into ViT during training. For each forward inference, we identify the attentive image tokens between MHSA and FFN (i.e., feed-forward network) modules, which is guided by the corresponding class token attention. Then, we reorganize image tokens by preserving attentive image tokens and fusing inattentive ones to expedite subsequent MHSA and FFN computations. To this end, our method EViT improves ViTs from two perspectives. First, under the same amount of input image tokens, our method reduces MHSA and FFN computation for efficient inference. For instance, the inference speed of DeiT-S is increased by 50% while its recognition accuracy is decreased by only 0.3% for ImageNet classification. Second, by maintaining the same computational cost, our method empowers ViTs to take more image tokens as input for recognition accuracy improvement, where the image tokens are from higher resolution images. An example is that we improve the recognition accuracy of DeiT-S by 1% for ImageNet classification at the same computational cost of a vanilla DeiT-S. Meanwhile, our method does not introduce more parameters to ViTs. Experiments on the standard benchmarks show the effectiveness of our method. The code is available at https://github.com/youweiliang/evit
翻訳日:2022-02-17 14:26:02 公開日:2022-02-16
# 空間変圧器k-means

Spatial Transformer K-Means ( http://arxiv.org/abs/2202.07829v1 )

ライセンス: Link先を確認
Romain Cosentino, Randall Balestriero, Yanis Bahroun, Anirvan Sengupta, Richard Baraniuk, Behnaam Aazhang(参考訳) k-meansは、データ埋め込みに関連付けられたパフォーマンスを持つ、最も使われているcentroidベースのクラスタリングアルゴリズムの1つを定義している。 複雑なデータ埋め込みは、理論的な保証と結果の解釈可能性を減らすコストで、k$-meansのパフォーマンスをプッシュするように設計されている。 代わりに、本質的なデータ空間を保存し、K平均を非剛体変換に不変な類似度尺度で拡張することを提案する。 これにより (i)データに関連する内在的迷惑の低減、クラスタリングタスクの複雑さの低減、パフォーマンスの向上、最先端の成果の創出。 (ii)データの入力空間におけるクラスタリングにより、完全に解釈可能なクラスタリングアルゴリズムが実現し、 三 収束保証の利益

K-means defines one of the most employed centroid-based clustering algorithms with performances tied to the data's embedding. Intricate data embeddings have been designed to push $K$-means performances at the cost of reduced theoretical guarantees and interpretability of the results. Instead, we propose preserving the intrinsic data space and augment K-means with a similarity measure invariant to non-rigid transformations. This enables (i) the reduction of intrinsic nuisances associated with the data, reducing the complexity of the clustering task and increasing performances and producing state-of-the-art results, (ii) clustering in the input space of the data, leading to a fully interpretable clustering algorithm, and (iii) the benefit of convergence guarantees.
翻訳日:2022-02-17 14:25:36 公開日:2022-02-16
# 知識蒸留の高度化

Deeply-Supervised Knowledge Distillation ( http://arxiv.org/abs/2202.07846v1 )

ライセンス: Link先を確認
Shiya Luo, Defang Chen, Can Wang(参考訳) 知識蒸留は,教師モデルの知識を生かして,軽量な学生モデルの性能を高めることを目的としている。 しかし, 従来の知識蒸留では, 教師の予測は, 生徒モデルの最終層に対する監督信号を提供するためにのみ用いられており, 浅い生徒層では, 層別バック伝播の正確な訓練指導が得られず, 効果的な知識伝達が阻害される可能性がある。 この問題に対処するために,教師モデルのクラス予測と特徴マップをフル活用して,浅層学習者のトレーニングを監督する,Deeply-Supervised Knowledge Distillation (DSKD)を提案する。 DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。 総合的な実験により,DSKD は様々な教師学生モデルにおける最先端の手法を一貫して上回り,提案手法の有効性を確認した。

Knowledge distillation aims to enhance the performance of a lightweight student model by exploiting the knowledge from a pre-trained cumbersome teacher model. However, in the traditional knowledge distillation, teacher predictions are only used to provide the supervisory signal for the last layer of the student model, which may result in those shallow student layers lacking accurate training guidance in the layer-by-layer back propagation and thus hinders effective knowledge transfer. To address this issue, we propose Deeply-Supervised Knowledge Distillation (DSKD), which fully utilizes class predictions and feature maps of the teacher model to supervise the training of shallow student layers. A loss-based weight allocation strategy is developed in DSKD to adaptively balance the learning process of each shallow layer, so as to further improve the student performance. Extensive experiments show that the performance of DSKD consistently exceeds state-of-the-art methods on various teacher-student models, confirming the effectiveness of our proposed method.
翻訳日:2022-02-17 14:25:25 公開日:2022-02-16
# トリプルトロス関数を用いたクロスモーダル共通表現学習

Cross-Modal Common Representation Learning with Triplet Loss Functions ( http://arxiv.org/abs/2202.07901v1 )

ライセンス: Link先を確認
Felix Ott and David R\"ugamer and Lucas Heublein and Bernd Bischl and Christopher Mutschler(参考訳) 共通表現学習(CRL)は、2つ以上のモダリティ間の共有埋め込みを学習し、モダリティの1つしか使用せず、与えられたタスクを改善する。 画像や時系列データ(例えば音声やテキストデータ)などの異なるデータ型からのCRLは、モダリティ埋め込み間の距離を最小化する深層学習損失を必要とする。 本稿では,画像と時系列間のCRLに対して,正と負の同一性を用いて異なるラベルを持つサンプルペアを生成する三重項損失を提案する。 CRLのトリプルト損失を適用することで、補助的(画像分類)タスクの追加情報を活用することにより、メイン(時系列分類)タスクの高精度化を実現することができる。 センサ付ペンの合成データと手書き認識データを用いた実験により, 分類精度の向上, 収束の高速化, 一般化性の向上が示された。

Common representation learning (CRL) learns a shared embedding between two or more modalities to improve in a given task over using only one of the modalities. CRL from different data types such as images and time-series data (e.g., audio or text data) requires a deep metric learning loss that minimizes the distance between the modality embeddings. In this paper, we propose to use the triplet loss, which uses positive and negative identities to create sample pairs with different labels, for CRL between image and time-series modalities. By adapting the triplet loss for CRL, higher accuracy in the main (time-series classification) task can be achieved by exploiting additional information of the auxiliary (image classification) task. Our experiments on synthetic data and handwriting recognition data from sensor-enhanced pens show an improved classification accuracy, faster convergence, and a better generalizability.
翻訳日:2022-02-17 14:25:06 公開日:2022-02-16
# メタ知識蒸留

Meta Knowledge Distillation ( http://arxiv.org/abs/2202.07940v1 )

ライセンス: Link先を確認
Jihao Liu and Boxiao Liu and Hongsheng Li and Yu Liu(参考訳) 近年の研究では、知識蒸留(KD)は教師と生徒のギャップと強力なデータ拡張との相容れない2つの劣化問題に悩まされていることが指摘されており、高度な強化で訓練された最先端モデルのトレーニングには適用できない。 しかし,教師モデルと生徒モデルの双方の確率を発生させるソフトマックス関数の温度は,従来の手法ではほとんど見過ごされていなかった。 温度調整を適切に行うと、KDの劣化問題は大幅に軽減される。 しかし, 伝達性に乏しいナイーブなグリッド探索に頼る代わりに, 学習可能なメタ温度パラメータを用いて蒸留をメタ学習するメタ知識蒸留 (mkd) を提案する。 メタパラメータは学習対象の勾配に応じてトレーニング中に適応的に調整される。 MKDは異なるデータセットスケール、異なる教師/学生アーキテクチャ、異なる種類のデータ拡張に対して堅牢であることを示す。 MKDでは,ImageNet-1Kのみをトレーニングデータとして用い,小型モデルから大規模モデルまで,一般的なViTアーキテクチャで最高の性能を実現している。 ViT-Lでは、600エポックのトレーニングで86.5%、1600エポックのトレーニングで1,650エポックのMAEより0.6%良くなった。

Recent studies pointed out that knowledge distillation (KD) suffers from two degradation problems, the teacher-student gap and the incompatibility with strong data augmentations, making it not applicable to training state-of-the-art models, which are trained with advanced augmentations. However, we observe that a key factor, i.e., the temperatures in the softmax functions for generating probabilities of both the teacher and student models, was mostly overlooked in previous methods. With properly tuned temperatures, such degradation problems of KD can be much mitigated. However, instead of relying on a naive grid search, which shows poor transferability, we propose Meta Knowledge Distillation (MKD) to meta-learn the distillation with learnable meta temperature parameters. The meta parameters are adaptively adjusted during training according to the gradients of the learning objective. We validate that MKD is robust to different dataset scales, different teacher/student architectures, and different types of data augmentation. With MKD, we achieve the best performance with popular ViT architectures among compared methods that use only ImageNet-1K as training data, ranging from tiny to large models. With ViT-L, we achieve 86.5% with 600 epochs of training, 0.6% better than MAE that trains for 1,650 epochs.
翻訳日:2022-02-17 14:24:50 公開日:2022-02-16
# プランクアンジッタ:自己監督型視覚表現の色質の向上

Planckian jitter: enhancing the color quality of self-supervised visual representations ( http://arxiv.org/abs/2202.07993v1 )

ライセンス: Link先を確認
Simone Zini, Marco Buzzelli, Bart{\l}omiej Twardowski and Joost van de Weijer(参考訳) 自己教師付き学習に関する最近の研究は、同じ画像の異なる拡張を同じ特徴表現にマッピングすることで訓練されている。 使用済みデータの増大は、学習した特徴表現の品質にとって非常に重要である。 従来の色ジッタが学習した特徴表現における色特徴の質に悪影響を及ぼすかを分析する。 この問題に対処するために,本モジュールは,色彩の現実的な変化を生じさせ,実生活でよく見られる輝度変化に頑健なモデルを生成し,色情報に基づく画像内容の判別能力を維持しながら,物理ベースの色拡張(planckian jitter)に置き換える。 我々は、色感受性と非色感受性の遅延空間の組み合わせにより、性能をさらに向上する。 これらの組み合わせは、Flowers-102 (+15%)、Cube200 (+11%)、VegFru (+15%)、T1K+ (+12%)など、カラー分類タスクのデフォルトデータ拡張よりも絶対的なパフォーマンス向上をもたらす。 最後に,異なるトレーニング方法がモデルニューロンに与える影響を文書化するために色感度解析を行い,学習した特徴量の性能が照度変化に対して頑健であることを示す。

Several recent works on self-supervised learning are trained by mapping different augmentations of the same image to the same feature representation. The set of used data augmentations is of crucial importance for the quality of the learned feature representation. We analyze how the traditionally used color jitter negatively impacts the quality of the color features in the learned feature representation. To address this problem, we replace this module with physics-based color augmentation, called Planckian jitter, which creates realistic variations in chromaticity, producing a model robust to llumination changes that can be commonly observed in real life, while maintaining the ability to discriminate the image content based on color information. We further improve the performance by introducing a latent space combination of color-sensitive and non-color-sensitive features. These are found to be complementary and the combination leads to large absolute performance gains over the default data augmentation on color classification tasks, including on Flowers-102 (+15%), Cub200 (+11%), VegFru (+15%), and T1K+ (+12%). Finally, we present a color sensitivity analysis to document the impact of different training methods on the model neurons and we show that the performance of the learned features is robust with respect to illuminant variations.
翻訳日:2022-02-17 14:24:27 公開日:2022-02-16
# 授業増分学習におけるバッチ正規化の診断

Diagnosing Batch Normalization in Class Incremental Learning ( http://arxiv.org/abs/2202.08025v1 )

ライセンス: Link先を確認
Minghao Zhou, Quanziang Wang, Jun Shu, Qian Zhao, Deyu Meng(参考訳) 広範な研究がクラスインクリメンタル学習(class-il)にディープニューラルネットワーク(dnn)を適用している。 DNNのビルディングブロックとして、バッチ正規化(BN)は中間特徴写像を標準化し、訓練安定性と収束性を改善するために広く検証されている。 しかし、クラス-ILモデルにおける標準BNの直接使用は、表現学習と分類器訓練の両方に有害であり、破滅的な忘れを悪化させる。 本稿では,クラス-ILモデルに対するBNの影響について検討する。 さらに,分類バイアスを排除しつつ,より優れた特徴抽出器を訓練することでこの問題に対処するBN Tricksを提案する。 余分なハイパーパラメーターを使わずに、BN Tricksを3つのベースラインリハーサルベースのメソッド、ER、DER++、iCaRLに適用する。 seq-cifar-10,seq-cifar-100およびseq-tiny-imagenetのベンチマークデータセットで行った包括的な実験を通じて、bnトリックが採用されているすべてのベースラインに大幅なパフォーマンス向上をもたらすことを示し、この研究ラインに沿った潜在的な汎用性を明らかにする。

Extensive researches have applied deep neural networks (DNNs) in class incremental learning (Class-IL). As building blocks of DNNs, batch normalization (BN) standardizes intermediate feature maps and has been widely validated to improve training stability and convergence. However, we claim that the direct use of standard BN in Class-IL models is harmful to both the representation learning and the classifier training, thus exacerbating catastrophic forgetting. In this paper we investigate the influence of BN on Class-IL models by illustrating such BN dilemma. We further propose BN Tricks to address the issue by training a better feature extractor while eliminating classification bias. Without inviting extra hyperparameters, we apply BN Tricks to three baseline rehearsal-based methods, ER, DER++ and iCaRL. Through comprehensive experiments conducted on benchmark datasets of Seq-CIFAR-10, Seq-CIFAR-100 and Seq-Tiny-ImageNet, we show that BN Tricks can bring significant performance gains to all adopted baselines, revealing its potential generality along this line of research.
翻訳日:2022-02-17 14:24:04 公開日:2022-02-16
# (参考訳) 逆転勝利チケットを保存したダイナミクスの発見

Finding Dynamics Preserving Adversarial Winning Tickets ( http://arxiv.org/abs/2202.06488v2 )

ライセンス: CC BY 4.0
Xupeng Shi, Pengfei Zheng, A. Adam Ding, Yuan Gao, Weizhong Zhang(参考訳) 現代のディープニューラルネットワーク(DNN)は、敵の攻撃に対して脆弱であり、敵の訓練は、DNNの敵の堅牢性を改善するための有望な方法であることが示されている。 プランニング法は, モデルキャパシティを低減し, 同時に対向ロバスト性を向上させるために, 対向文脈において検討されてきた。 既存の敵対的プルーニング法は、一般的には3段階の「訓練-プルーニング-微調整」パイプラインに従う自然訓練のための古典的なプルーニング法を模倣している。 このようなプルーニング手法は, 高密度ネットワークのダイナミクスを必ずしも保持するものではなく, プルーニングの精度劣化を補うための微調整が困難であると考えられる。 近年の <textit{Neural Tangent Kernel} (NTK) の成果に基づいて, 対向学習の力学を体系的に研究し, 初期化時に訓練可能なスパースサブネットワークの存在を証明し, ゼロから対向的ロバストに訓練することができる。 理論的には, 逆向きの文脈で \textit{lottery ticket hypothesis} を検証し, このようなサブネットワーク構造を \textit{Adversarial Winning Ticket} (AWT) と呼ぶ。 また,AWTは対人訓練の力学を保ち,対人訓練と同等の性能を発揮するという実証的証拠を示す。

Modern deep neural networks (DNNs) are vulnerable to adversarial attacks and adversarial training has been shown to be a promising method for improving the adversarial robustness of DNNs. Pruning methods have been considered in adversarial context to reduce model capacity and improve adversarial robustness simultaneously in training. Existing adversarial pruning methods generally mimic the classical pruning methods for natural training, which follow the three-stage 'training-pruning-fine-tuning' pipelines. We observe that such pruning methods do not necessarily preserve the dynamics of dense networks, making it potentially hard to be fine-tuned to compensate the accuracy degradation in pruning. Based on recent works of \textit{Neural Tangent Kernel} (NTK), we systematically study the dynamics of adversarial training and prove the existence of trainable sparse sub-network at initialization which can be trained to be adversarial robust from scratch. This theoretically verifies the \textit{lottery ticket hypothesis} in adversarial context and we refer such sub-network structure as \textit{Adversarial Winning Ticket} (AWT). We also show empirical evidences that AWT preserves the dynamics of adversarial training and achieve equal performance as dense adversarial training.
翻訳日:2022-02-17 14:23:01 公開日:2022-02-16
# (参考訳) OLIVE:信頼された実行環境におけるオープンで差別的なフェデレーション学習

OLIVE: Oblivious and Differentially Private Federated Learning on Trusted Execution Environment ( http://arxiv.org/abs/2202.07165v2 )

ライセンス: CC BY 4.0
Fumiyuki Kato, Yang Cao, Masatoshi Yoshikawa(参考訳) 個別連合学習(dp-fl)は,連合学習におけるプライバシリスクの軽減に注目が集まっている。 DP-FLの異なるスキームが提案されているが、まだ実用的ギャップがある。 FL(CDP-FL)に中心的な微分プライバシーを採用することで、プライバシとモデルユーティリティのバランスが良くなりますが、信頼できるサーバが必要です。 LDP-FL(Local Differential Privacy for FL)を使用する場合、信頼できるサーバは必要ありません。 最近提案されたシャッフルDPベースのFLは、信頼できるサーバを使わずに、CDP-FLとLCP-FLのギャップを埋める可能性を持っているが、モデルパラメータの数が大きくなると、実用上のギャップがある。 本稿では,信頼された実行環境(TEE)を活用することで,CDP-FLとLDP-FLのメリットを組み合わせたOLIVEを提案する。 主な技術的貢献は、OLIVEにおけるTEEの脆弱性の分析と対策です。 まず,オリーブのメモリアクセスパターンの漏洩を理論的に解析し,flに共通するスパース化勾配のリスクがあることを見出した。 次に,メモリアクセスパターンとトレーニングデータとの関係を理解するために,推論攻撃を設計する。 第3に,OLIVEにおけるメモリアクセスパターンのリークを防止するアルゴリズムを提案する。 実世界のデータを用いた実験により,数十万のパラメータを持つモデルのトレーニングを行う場合においてもOLIVEは効率的であり,TEEに対するサイドチャネル攻撃に対して有効であることが示された。

Differentially private federated learning (DP-FL) has received increasing attention to mitigate the privacy risk in federated learning. Although different schemes for DP-FL have been proposed, there is still a utility gap. Employing central Differential Privacy in FL (CDP-FL) can provide a good balance between the privacy and model utility, but requires a trusted server. Using Local Differential Privacy for FL (LDP-FL) does not require a trusted server, but suffers from lousy privacy-utility trade-off. Recently proposed shuffle DP based FL has the potential to bridge the gap between CDP-FL and LDP-FL without a trusted server; however, there is still a utility gap when the number of model parameters is large. In this work, we propose OLIVE, a system that combines the merits from CDP-FL and LDP-FL by leveraging Trusted Execution Environment (TEE). Our main technical contributions are the analysis and countermeasures against the vulnerability of TEE in OLIVE. Firstly, we theoretically analyze the memory access pattern leakage of OLIVE and find that there is a risk for sparsified gradients, which is common in FL. Secondly, we design an inference attack to understand how the memory access pattern could be linked to the training data. Thirdly, we propose oblivious yet efficient algorithms to prevent the memory access pattern leakage in OLIVE. Our experiments on real-world data demonstrate that OLIVE is efficient even when training a model with hundreds of thousands of parameters and effective against side-channel attacks on TEE.
翻訳日:2022-02-17 13:53:56 公開日:2022-02-16
# (参考訳) 非IIDグラフデータの公正性:文献レビュー

Fairness Amidst Non-IID Graph Data: A Literature Review ( http://arxiv.org/abs/2202.07170v2 )

ライセンス: CC0 1.0
Wenbin Zhang, Jeremy C. Weiss, Shuigeng Zhou and Toby Walsh(参考訳) 機械学習(ML)の公正さは、アルゴリズムバイアスを理解し、修正するプロセスであり、多くの文献が実行され、基礎となるデータが独立で同一の分散(IID)であると仮定されるようになり、注目を集めている。 一方でグラフは、個々のユニット間の接続をキャプチャするユビキタスなデータ構造であり、本質的には非iidである。 したがって、IIDデータとユビキタスな非IIDグラフ表現に基づいて設計された伝統的な公正な文献を、MLシステムのバイアスに対処するために橋渡しすることが非常に重要である。 本研究では,非IIDグラフデータにおける公平性の最近の進歩を概観し,今後の研究で利用可能なデータセットと評価指標を同定する。 既存の作業の限界や将来的な方向性についても指摘しています。

Fairness in machine learning (ML), the process to understand and correct algorithmic bias, has gained increasing attention with numerous literature being carried out, commonly assume the underlying data is independent and identically distributed (IID). On the other hand, graphs are a ubiquitous data structure to capture connections among individual units and is non-IID by nature. It is therefore of great importance to bridge the traditional fairness literature designed on IID data and ubiquitous non-IID graph representations to tackle bias in ML systems. In this survey, we review such recent advance in fairness amidst non-IID graph data and identify datasets and evaluation metrics available for future research. We also point out the limitations of existing work as well as promising future directions.
翻訳日:2022-02-17 13:23:17 公開日:2022-02-16
# (参考訳) ロングテールカメラトラップ認識のためのドメインエキスパートのバランス

Balancing Domain Experts for Long-Tailed Camera-Trap Recognition ( http://arxiv.org/abs/2202.07215v2 )

ライセンス: CC BY 4.0
Byeongjun Park, Jeongsoo Kim, Seungju Cho, Heeseon Kim, Changick Kim(参考訳) カメラトラップ画像のラベル分布は高度に不均衡で長い尾を持つため、ニューラルネットワークは頻繁に現れるヘッドクラスに偏りがちである。 ロングテール学習はデータの不均衡に対処するために非常に研究されてきたが、マルチドメインやマルチフレームなどのカメラトラップ特性を検討する研究はほとんど行われていない。 本稿では,統合フレームワークを提案し,ロングテールカメラトラップ認識のための2つのデータセットを提案する。 まずドメインエキスパートを設計し、各専門家がデータ不均衡に起因する不完全な決定境界のバランスをとることを学び、互いに補完してドメインバランス決定境界を生成する。 また,複数フレームのクラスアクティベーションマップが入力画像のオプティカルフローマップと一致することを期待して,移動物体に着目したフロー一貫性ロスを提案する。 さらに,WCS-LTとDMZ-LTの2つの長尾カメラトラップデータセットを導入し,本手法の有効性を検証した。 実験の結果,本手法の有効性が示され,提案手法は先行手法よりも優れていた。

Label distributions in camera-trap images are highly imbalanced and long-tailed, resulting in neural networks tending to be biased towards head-classes that appear frequently. Although long-tail learning has been extremely explored to address data imbalances, few studies have been conducted to consider camera-trap characteristics, such as multi-domain and multi-frame setup. Here, we propose a unified framework and introduce two datasets for long-tailed camera-trap recognition. We first design domain experts, where each expert learns to balance imperfect decision boundaries caused by data imbalances and complement each other to generate domain-balanced decision boundaries. Also, we propose a flow consistency loss to focus on moving objects, expecting class activation maps of multi-frame matches the flow with optical flow maps for input images. Moreover, two long-tailed camera-trap datasets, WCS-LT and DMZ-LT, are introduced to validate our methods. Experimental results show the effectiveness of our framework, and proposed methods outperform previous methods on recessive domain samples.
翻訳日:2022-02-17 13:09:20 公開日:2022-02-16
# (参考訳) 幾何学的に等価なグラフニューラルネットワーク:サーベイ

Geometrically Equivariant Graph Neural Networks: A Survey ( http://arxiv.org/abs/2202.07230v2 )

ライセンス: CC BY 4.0
Jiaqi Han, Yu Rong, Tingyang Xu, Wenbing Huang(参考訳) 多くの科学的問題は幾何学グラフの形でデータを処理する必要がある。 一般的なグラフデータとは異なり、幾何学グラフは変換、回転および/または反射の対称性を示す。 研究者はそのような帰納的バイアスを利用し、幾何学的同変グラフニューラルネットワーク(gnns)を開発し、幾何学的グラフの幾何学的およびトポロジーをよりよく特徴付ける。 実りある成果にもかかわらず、同変GNNの進展を示すための調査がまだ欠けているため、同変GNNのさらなる発展を妨げている。 この目的のために,必要ではあるが簡潔な数学的予備条件に基づいて,gnnにおけるメッセージパッシングとアグリゲーションの表現方法に関して,既存の手法を3つのグループに分析,分類する。 また、ベンチマークと関連するデータセットを要約し、方法論開発と実験評価の後の研究を促進する。 将来的な方向性の見通しも提供される。

Many scientific problems require to process data in the form of geometric graphs. Unlike generic graph data, geometric graphs exhibit symmetries of translations, rotations, and/or reflections. Researchers have leveraged such inductive bias and developed geometrically equivariant Graph Neural Networks (GNNs) to better characterize the geometry and topology of geometric graphs. Despite fruitful achievements, it still lacks a survey to depict how equivariant GNNs are progressed, which in turn hinders the further development of equivariant GNNs. To this end, based on the necessary but concise mathematical preliminaries, we analyze and classify existing methods into three groups regarding how the message passing and aggregation in GNNs are represented. We also summarize the benchmarks as well as the related datasets to facilitate later researches for methodology development and experimental evaluation. The prospect for future potential directions is also provided.
翻訳日:2022-02-17 12:57:38 公開日:2022-02-16
# 微分検索指標としてのトランスフォーマーメモリ

Transformer Memory as a Differentiable Search Index ( http://arxiv.org/abs/2202.06991v2 )

ライセンス: Link先を確認
Yi Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuster, William W. Cohen, Donald Metzler(参考訳) 本稿では,コーパスに関するすべての情報をモデルパラメータにエンコードした単一のトランスを用いて,情報検索を行うことができることを示す。 そこで本研究では,文字列クエリを関連するドシデントに直接マッピングするテキスト・ツー・テキストモデルを学習する新たなパラダイムである差分検索インデックス(DSI)を紹介し,DSIモデルがパラメータのみを使用してクエリに応答し,検索プロセス全体を劇的に単純化する。 文書とその識別子の表現方法,トレーニング手順のバリエーション,モデルとコーパスサイズ間の相互作用について検討した。 実験により、適切な設計選択が与えられた場合、DSIはデュアルエンコーダモデルのような強力なベースラインを著しく上回ることを示した。 さらに、dsiは強力な一般化能力を示し、ゼロショット設定のbm25ベースラインよりも優れている。

In this paper, we demonstrate that information retrieval can be accomplished with a single Transformer, in which all information about the corpus is encoded in the parameters of the model. To this end, we introduce the Differentiable Search Index (DSI), a new paradigm that learns a text-to-text model that maps string queries directly to relevant docids; in other words, a DSI model answers queries directly using only its parameters, dramatically simplifying the whole retrieval process. We study variations in how documents and their identifiers are represented, variations in training procedures, and the interplay between models and corpus sizes. Experiments demonstrate that given appropriate design choices, DSI significantly outperforms strong baselines such as dual encoder models. Moreover, DSI demonstrates strong generalization capabilities, outperforming a BM25 baseline in a zero-shot setup.
翻訳日:2022-02-17 12:38:19 公開日:2022-02-16
# G-Mixup:グラフ分類のためのグラフデータ拡張

G-Mixup: Graph Data Augmentation for Graph Classification ( http://arxiv.org/abs/2202.07179v2 )

ライセンス: Link先を確認
Xiaotian Han, Zhimeng Jiang, Ninghao Liu, Xia Hu(参考訳) この研究はグラフデータのための \emph{mixup を開発する。 Mixupは、2つのランダムサンプル間の特徴とラベルを補間することにより、ニューラルネットワークの一般化とロバスト性を改善する上で優位性を示している。 従来、Mixupは画像や表データなどの正規データ、グリッドデータ、ユークリッドデータを扱うことができる。 しかし、グラフデータを追加するためにmixupを直接採用するのは困難である。 1) ノードの数が異なる。 2) 容易に一致しない,及び 3) 非ユークリッド空間において特異な型付けを持つ。 この目的のために、グラフの異なるクラスの生成元(すなわち、グラフ)を補間することによりグラフ分類のための拡張グラフに対する$\mathcal{G}$-Mixupを提案する。 具体的には、まず同じクラス内のグラフを使ってgraphonを推定します。 次に、グラフを直接操作するのではなく、ユークリッド空間内の異なるクラスのグラフを補間して混合グラフを得る。 拡張実験により、$\mathcal{G}$-Mixup は GNN の一般化とロバスト性を大幅に改善することが示された。

This work develops \emph{mixup for graph data}. Mixup has shown superiority in improving the generalization and robustness of neural networks by interpolating features and labels between two random samples. Traditionally, Mixup can work on regular, grid-like, and Euclidean data such as image or tabular data. However, it is challenging to directly adopt Mixup to augment graph data because different graphs typically: 1) have different numbers of nodes; 2) are not readily aligned; and 3) have unique typologies in non-Euclidean space. To this end, we propose $\mathcal{G}$-Mixup to augment graphs for graph classification by interpolating the generator (i.e., graphon) of different classes of graphs. Specifically, we first use graphs within the same class to estimate a graphon. Then, instead of directly manipulating graphs, we interpolate graphons of different classes in the Euclidean space to get mixed graphons, where the synthetic graphs are generated through sampling based on the mixed graphons. Extensive experiments show that $\mathcal{G}$-Mixup substantially improves the generalization and robustness of GNNs.
翻訳日:2022-02-17 12:38:06 公開日:2022-02-16
# バイオケミカル回帰ドメイン適応のためのメトリック学習による最適輸送

Metric Learning-enhanced Optimal Transport for Biochemical Regression Domain Adaptation ( http://arxiv.org/abs/2202.06208v2 )

ライセンス: Link先を確認
Fang Wu, Nicolas Courty, Zhang Qiang, jiyu Cui, Ziqing Li(参考訳) ソースドメインを超えて知識を一般化することは、薬物設計や分子特性予測のような多くの生物医学的応用において重要な前提条件である。 この課題に対処するために、研究者は最適なトランスポート(OT)を使用して、ソースとターゲットドメイン間の表現アライメントを実行した。 しかし、既存のOTアルゴリズムは主に分類タスク用に設計されている。 そこで本論文では,非教師なしおよび半教師なし設定における回帰タスクについて検討する。 連続ラベルを利用するために, 領域距離を測定するための新しい指標を提案し, 輸送計画に後方分散正則化器を導入する。 さらに、計算上魅力的である一方で、otは曖昧な決定バウンダリと、ミニバッチトレーニングによってもたらされた偏ったローカルデータ分散に苦しむ。 これらの問題に対処するため、我々は、OTとメトリックラーニングを組み合わせて、より堅牢な境界を導き、バイアスを減らすことを提案する。 具体的には,クラスタセントロイドを逐次繰り返し調整するグローバルデータ分布を記述するために,動的階層的三重項損失を提案する。 生化学における教師なしと半教師なしの両方の学習課題について,本手法の評価を行った。 実験により, 提案手法は, 小分子および材料結晶の様々なベンチマークデータセットにおいて, 最先端のベースラインを著しく上回ることを示した。

Generalizing knowledge beyond source domains is a crucial prerequisite for many biomedical applications such as drug design and molecular property prediction. To meet this challenge, researchers have used optimal transport (OT) to perform representation alignment between the source and target domains. Yet existing OT algorithms are mainly designed for classification tasks. Accordingly, we consider regression tasks in the unsupervised and semi-supervised settings in this paper. To exploit continuous labels, we propose novel metrics to measure domain distances and introduce a posterior variance regularizer on the transport plan. Further, while computationally appealing, OT suffers from ambiguous decision boundaries and biased local data distributions brought by the mini-batch training. To address those issues, we propose to couple OT with metric learning to yield more robust boundaries and reduce bias. Specifically, we present a dynamic hierarchical triplet loss to describe the global data distribution, where the cluster centroids are progressively adjusted among consecutive iterations. We evaluate our method on both unsupervised and semi-supervised learning tasks in biochemistry. Experiments show the proposed method significantly outperforms state-of-the-art baselines across various benchmark datasets of small molecules and material crystals.
翻訳日:2022-02-17 12:37:47 公開日:2022-02-16
# 制御可能な音声合成のための教師なし単語レベルの韻律タグ付け

Unsupervised word-level prosody tagging for controllable speech synthesis ( http://arxiv.org/abs/2202.07200v2 )

ライセンス: Link先を確認
Yiwei Guo, Chenpeng Du, Kai Yu(参考訳) ニューラルテキスト音声合成(TTS)における単語レベルの韻律モデリングは,近年,多様な音声合成において研究されているが,特定の参照なしに手動で音声合成を制御することは依然として困難である。 これは主に単語レベルの韻律タグがないためである。 本稿では,2つの段階からなる教師なし単語レベルの韻律タグ作成のための新しいアプローチを提案する。まず,単語を音声内容に応じた決定木で異なる型に分類し,その後,各単語の型にgmmを用いて韻律を分類する。 この設計は、長い単語や短い単語など、異なる種類の単語の韻律を異なるラベルセットでタグ付けするべきであるという仮定に基づいている。 さらに、単語レベルの韻律タグを抽出したTSシステムは、制御可能な音声合成のために訓練される。 ljspeechの実験によれば、単語レベルの韻律タグで訓練されたttsモデルは、通常のfastspeech2モデルよりも自然性が向上するだけでなく、単語レベルの韻律を操作する能力も得る。

Although word-level prosody modeling in neural text-to-speech (TTS) has been investigated in recent research for diverse speech synthesis, it is still challenging to control speech synthesis manually without a specific reference. This is largely due to lack of word-level prosody tags. In this work, we propose a novel approach for unsupervised word-level prosody tagging with two stages, where we first group the words into different types with a decision tree according to their phonetic content and then cluster the prosodies using GMM within each type of words separately. This design is based on the assumption that the prosodies of different type of words, such as long or short words, should be tagged with different label sets. Furthermore, a TTS system with the derived word-level prosody tags is trained for controllable speech synthesis. Experiments on LJSpeech show that the TTS model trained with word-level prosody tags not only achieves better naturalness than a typical FastSpeech2 model, but also gains the ability to manipulate word-level prosody.
翻訳日:2022-02-17 12:37:28 公開日:2022-02-16
# EvoKG: 時系列知識グラフを用いた推論のためのイベント時間とネットワーク構造を併用したモデリング

EvoKG: Jointly Modeling Event Time and Network Structure for Reasoning over Temporal Knowledge Graphs ( http://arxiv.org/abs/2202.07648v2 )

ライセンス: Link先を確認
Namyong Park, Fuchen Liu, Purvanshi Mehta, Dana Cristofor, Christos Faloutsos, Yuxiao Dong(参考訳) 時間的知識グラフ(TKG)上で知識推論をどのように行うか。 TKGは実体とその関係に関する事実を表し、それぞれの事実はタイムスタンプと関連付けられている。 時間進化するKGから新たな事実を推測するTKGに対する推論は、インテリジェントなサービスを提供する多くのアプリケーションにとって不可欠である。 しかし、TKGとして表現できる実世界のデータが普及しているにもかかわらず、ほとんどの手法は静的知識グラフの推論に焦点を当てている。 本稿では,TKGに対する効果的な推論,すなわちイベント時間と進化するネットワーク構造をモデル化するために対処すべき2つの主要な問題を統一する問題定式化を提案する。 提案手法は,tkgにおける構造的および時間的ダイナミクスを反復的イベントモデリングによって捉え,時間的近傍集約フレームワークに基づくエンティティ間の相互作用をモデル化する効果的な枠組みで,両タスクを協調的にモデル化する。 さらに、evokgは、神経密度推定に基づく柔軟で効率的なメカニズムを用いて、イベントタイムの正確なモデリングを実現する。 実験により、EvoKGは既存の手法よりも有効性(最大77%、より正確な時間とリンク予測の116%)と効率性が高いことが示された。

How can we perform knowledge reasoning over temporal knowledge graphs (TKGs)? TKGs represent facts about entities and their relations, where each fact is associated with a timestamp. Reasoning over TKGs, i.e., inferring new facts from time-evolving KGs, is crucial for many applications to provide intelligent services. However, despite the prevalence of real-world data that can be represented as TKGs, most methods focus on reasoning over static knowledge graphs, or cannot predict future events. In this paper, we present a problem formulation that unifies the two major problems that need to be addressed for an effective reasoning over TKGs, namely, modeling the event time and the evolving network structure. Our proposed method EvoKG jointly models both tasks in an effective framework, which captures the ever-changing structural and temporal dynamics in TKGs via recurrent event modeling, and models the interactions between entities based on the temporal neighborhood aggregation framework. Further, EvoKG achieves an accurate modeling of event time, using flexible and efficient mechanisms based on neural density estimation. Experiments show that EvoKG outperforms existing methods in terms of effectiveness (up to 77% and 116% more accurate time and link prediction) and efficiency.
翻訳日:2022-02-17 12:37:05 公開日:2022-02-16
# GAMMAチャレンジ:Glaucoma grAding from Multi-Modality imAges

GAMMA Challenge:Glaucoma grAding from Multi-Modality imAges ( http://arxiv.org/abs/2202.06511v2 )

ライセンス: Link先を確認
Junde Wu, Huihui Fang, Fei Li, Huazhu Fu, Fengbin Lin, Jiongcheng Li, Lexing Huang, Qinji Yu, Sifan Song, Xingxing Xu, Yanyu Xu, Wensai Wang, Lingxiao Wang, Shuai Lu, Huiqi Li, Shihua Huang, Zhichao Lu, Chubin Ou, Xifei Wei, Bingyuan Liu, Riadh Kobbi, Xiaoying Tang, Li Lin, Qiang Zhou, Qiang Hu, Hrvoje Bogunovic, Jos\'e Ignacio Orlando, Xiulan Zhang, Yanwu Xu(参考訳) color fundus photography and optical coherence tomography (oct) は緑内障スクリーニングに最も費用対効果の高いツールである。 両画像とも緑内障の疑いを示す顕著なバイオマーカーを有する。 臨床的には、より正確で信頼できる診断のために両方のスクリーニングを受けることが推奨される。 しかし,コンピュータ支援診断において,眼底画像やoctボリュームに基づくアルゴリズムが多数提案されているが,緑内障評価において両者のモダリティを活用できる手法は少ない。 我々は以前に開催した網膜緑内障チャレンジ(REFUGE)の成功に触発されて,眼底緑内障のグレーディングを促進すべく,Glaucoma grAding from Multi-Modality imAges (GAMMA) Challengeを設置した。 この課題の主な課題は,2次元眼底画像と3D OCTスキャンボリュームから緑内障を診断することである。 GAMMAの一部として2次元眼底色写真と3D OCTボリュームを併用した緑内障注釈データセットを公表した。 また、提案するメソッドのパフォーマンスを評価するための評価フレームワークも確立されている。 チャレンジでは1272の結果が提出され、最終的にトップ10チームが最終ステージに選ばれた。 結果を分析し,その方法を論文にまとめる。 これらすべてのチームがその課題にソースコードを提出したため、提案された特定のモジュールの有効性を検証するための詳細なアブレーション調査も実施されている。 緑内障の臨床診断には,多くの方法が有用である。 fundus \& oct multi-modality glaucoma gradingの最初の詳細な研究として、私たちはgamma challengeが将来の研究の出発点となると信じています。

Color fundus photography and Optical Coherence Tomography (OCT) are the two most cost-effective tools for glaucoma screening. Both two modalities of images have prominent biomarkers to indicate glaucoma suspected. Clinically, it is often recommended to take both of the screenings for a more accurate and reliable diagnosis. However, although numerous algorithms are proposed based on fundus images or OCT volumes in computer-aided diagnosis, there are still few methods leveraging both of the modalities for the glaucoma assessment. Inspired by the success of Retinal Fundus Glaucoma Challenge (REFUGE) we held previously, we set up the Glaucoma grAding from Multi-Modality imAges (GAMMA) Challenge to encourage the development of fundus \& OCT-based glaucoma grading. The primary task of the challenge is to grade glaucoma from both the 2D fundus images and 3D OCT scanning volumes. As part of GAMMA, we have publicly released a glaucoma annotated dataset with both 2D fundus color photography and 3D OCT volumes, which is the first multi-modality dataset for glaucoma grading. In addition, an evaluation framework is also established to evaluate the performance of the submitted methods. During the challenge, 1272 results were submitted, and finally, top-10 teams were selected to the final stage. We analysis their results and summarize their methods in the paper. Since all these teams submitted their source code in the challenge, a detailed ablation study is also conducted to verify the effectiveness of the particular modules proposed. We find many of the proposed techniques are practical for the clinical diagnosis of glaucoma. As the first in-depth study of fundus \& OCT multi-modality glaucoma grading, we believe the GAMMA Challenge will be an essential starting point for future research.
翻訳日:2022-02-17 12:36:44 公開日:2022-02-16
# クロスモダリティ脳画像合成に関する調査研究

A Survey of Cross-Modality Brain Image Synthesis ( http://arxiv.org/abs/2202.06997v2 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Yawen Huang, Yefeng Zheng, Feng Zheng, Yaochu Jin(参考訳) 完全に整列した対のマルチモーダル神経画像データの存在は、脳疾患の診断に有効であることが証明されている。 しかしながら、適切なアラインメントとペアのデータの収集は、コストの高騰、長時間の取得、画像の破損、プライバシーの問題などを含むため、現実的あるいは豪華なものではありません。 現実的な解決策は、教師なしの学習または半教師なしの学習を探索して、欠落した神経画像データを合成することである。 本稿では,マルチモダリティ脳画像合成タスクに対して,監督のレベル,モダリティ合成の範囲,合成に基づくダウンストリームタスクなど,さまざまな観点からアプローチする傾向を示す。 特に,脳のクロスモダリティ画像合成が様々な下流タスクのパフォーマンスを改善する方法について,詳細な分析を行う。 最後に,課題を評価し,コミュニティに対してオープンな方向性をいくつか提示する。 すべてのリソースはhttps://github.com/M-3LAB/awesome-multimodal-brain-image-systhesisで利用可能である。

The existence of completely aligned and paired multi-modal neuroimaging data has proved its effectiveness in diagnosis of brain diseases. However, collecting the full set of well-aligned and paired data is impractical or even luxurious, since the practical difficulties may include high cost, long time acquisition, image corruption, and privacy issues. A realistic solution is to explore either an unsupervised learning or a semi-supervised learning to synthesize the absent neuroimaging data. In this paper, we tend to approach multi-modality brain image synthesis task from different perspectives, which include the level of supervision, the range of modality synthesis, and the synthesis-based downstream tasks. Particularly, we provide in-depth analysis on how cross-modality brain image synthesis can improve the performance of different downstream tasks. Finally, we evaluate the challenges and provide several open directions for this community. All resources are available at https://github.com/M-3LAB/awesome-multimodal-brain-image-systhesis
翻訳日:2022-02-17 12:36:12 公開日:2022-02-16
# 3Dポイントクラウド攻撃のためのグラフスペクトル領域における悪魔の探索

Exploring the Devil in Graph Spectral Domain for 3D Point Cloud Attacks ( http://arxiv.org/abs/2202.07261v2 )

ライセンス: Link先を確認
Qianjiang Hu, Daizong Liu, Wei Hu(参考訳) 3d動的ポイントクラウドは、没入型テレプレゼンス、自律運転、監視、 \textit{etc} で広く使われている実世界の物体やシーンの離散表現を提供する。 しかし、センサから取得した点雲は通常ノイズによって摂動し、表面再構成や解析などの下流タスクに影響する。 静的ポイントクラウドデノージングには多くの取り組みがなされているが、動的ポイントクラウドデノージングを扱う作品はほとんどない。 本稿では, 勾配場推定のための時間対応を利用して, 動的点群処理と解析の基本的な問題である, 新しい勾配型動的点群分解法を提案する。 勾配場はノイズ点雲の対数確率関数の勾配であり、各点を下層の清浄面に収束させるために勾配上昇を行う。 古典力学における剛体運動を利用して時間対応パッチを探索する時間対応を利用して,各表面パッチの勾配を推定する。 特に、各パッチを剛体として扱い、隣り合うフレームの勾配場を力で移動する、すなわち、パッチ上の勾配の和が0に達するときのバランス状態に達する。 点が下面に近づくと勾配が小さくなるので、バランスの取れたパッチは下面によく適合し、時間的対応をもたらす。 最後に、隣接するフレームにおける対応するパッチから平均される勾配方向に沿ってパッチの各点の位置を更新する。 実験結果から,提案モデルが最先端手法より優れていることが示された。

3D dynamic point clouds provide a discrete representation of real-world objects or scenes in motion, which have been widely applied in immersive telepresence, autonomous driving, surveillance, \textit{etc}. However, point clouds acquired from sensors are usually perturbed by noise, which affects downstream tasks such as surface reconstruction and analysis. Although many efforts have been made for static point cloud denoising, few works address dynamic point cloud denoising. In this paper, we propose a novel gradient-based dynamic point cloud denoising method, exploiting the temporal correspondence for the estimation of gradient fields -- also a fundamental problem in dynamic point cloud processing and analysis. The gradient field is the gradient of the log-probability function of the noisy point cloud, based on which we perform gradient ascent so as to converge each point to the underlying clean surface. We estimate the gradient of each surface patch by exploiting the temporal correspondence, where the temporally corresponding patches are searched leveraging on rigid motion in classical mechanics. In particular, we treat each patch as a rigid object, which moves in the gradient field of an adjacent frame via force until reaching a balanced state, i.e., when the sum of gradients over the patch reaches 0. Since the gradient would be smaller when the point is closer to the underlying surface, the balanced patch would fit the underlying surface well, thus leading to the temporal correspondence. Finally, the position of each point in the patch is updated along the direction of the gradient averaged from corresponding patches in adjacent frames. Experimental results demonstrate that the proposed model outperforms state-of-the-art methods.
翻訳日:2022-02-17 12:35:56 公開日:2022-02-16
# 逆強化学習とモンテカルロ木探索を用いた協調軌道計画のための学習報酬モデル

Learning Reward Models for Cooperative Trajectory Planning with Inverse Reinforcement Learning and Monte Carlo Tree Search ( http://arxiv.org/abs/2202.06443v2 )

ライセンス: Link先を確認
Karl Kurzer, Matthias Bitzer, J. Marius Z\"ollner(参考訳) 自動運転車の協調軌道計画手法は、交通参加者間の高度な協力を必要とする交通シナリオを解決することができる。 協調システムが人間中心の交通に統合されるためには、自動化されたシステムが人間のように振る舞うことが重要であり、人間がシステムの決定を予測できる。 強化学習は意思決定部分の解決において著しい進歩を遂げているが、予測可能な行動をもたらす報酬モデルをパラメータ化するのは自明ではない。 本研究は,モンテカルロ木探索を併用した特徴量に基づく最大エントロピー逆強化学習を用いて,マルチエージェント協調学習の確率を最大化する報奨モデルを学習する。 評価の結果,提案手法は専門家を模倣し,手動で調整したベースライン報酬モデルと類似した,合理的な報酬モデルを取り戻すことができることが示された。

Cooperative trajectory planning methods for automated vehicles, are capable to solve traffic scenarios that require a high degree of cooperation between traffic participants. In order for cooperative systems to integrate in human-centered traffic, it is important that the automated systems behave human-like, so that humans can anticipate the system's decisions. While Reinforcement Learning has made remarkable progress in solving the decision making part, it is non-trivial to parameterize a reward model that yields predictable actions. This work employs feature-based Maximum Entropy Inverse Reinforcement Learning in combination with Monte Carlo Tree Search to learn reward models that maximizes the likelihood of recorded multi-agent cooperative expert trajectories. The evaluation demonstrates that the approach is capable of recovering a reasonable reward model that mimics the expert and performs similar to a manually tuned baseline reward model.
翻訳日:2022-02-17 12:34:57 公開日:2022-02-16
# 情報フローと接続コストの最適なバランスを持つニューラルネットワークの進化

Evolving Neural Networks with Optimal Balance between Information Flow and Connections Cost ( http://arxiv.org/abs/2202.06163v2 )

ライセンス: Link先を確認
Abdullah Khalili, Abdelhamid Bouchachia(参考訳) Evolving Neural Networks (NN)は、最近、もっと成功するかもしれない代替パスとして関心が高まっている。 NNのアーキテクチャを学ぶなど、他のアプローチと比べて多くの利点がある。 しかし、非常に大きな探索空間と多くの複雑な相互作用部分の存在は依然として大きな障害である。 近年,アルゴリズムのガイドと大規模検索空間の削減のために,多くの基準が検討されている。 近年,NNの設計を改善するためにネットワーク科学から洞察を得る研究が増えている。 本稿では,実世界のネットワークにおいて最も基本的な特性を持つnnsアーキテクチャ,すなわち接続コストと情報フローの最適バランスについて検討する。 このバランスを表わすさまざまな指標の性能を評価し,このバランスにより多くの選択圧力をかける精度の向上を3つのデータセットで示す。

Evolving Neural Networks (NNs) has recently seen an increasing interest as an alternative path that might be more successful. It has many advantages compared to other approaches, such as learning the architecture of the NNs. However, the extremely large search space and the existence of many complex interacting parts still represent a major obstacle. Many criteria were recently investigated to help guide the algorithm and to cut down the large search space. Recently there has been growing research bringing insights from network science to improve the design of NNs. In this paper, we investigate evolving NNs architectures that have one of the most fundamental characteristics of real-world networks, namely the optimal balance between connections cost and information flow. The performance of different metrics that represent this balance is evaluated and the improvement in the accuracy of putting more selection pressure toward this balance is demonstrated on three datasets.
翻訳日:2022-02-17 12:34:42 公開日:2022-02-16
# 入力雑音下におけるロバスト多目的ベイズ最適化

Robust Multi-Objective Bayesian Optimization Under Input Noise ( http://arxiv.org/abs/2202.07549v2 )

ライセンス: Link先を確認
Samuel Daulton, Sait Cakmak, Maximilian Balandat, Michael A. Osborne, Enlu Zhou, Eytan Bakshy(参考訳) ベイズ最適化(bayesian optimization、bo)は、設計パラメータをチューニングし、高価なブラックボックスのパフォーマンスメトリクスを最適化するサンプル効率の高い手法である。 多くの製造プロセスにおいて、設計パラメータはランダムな入力ノイズにさらされ、結果としてしばしば期待よりも性能の低い製品となる。 入力雑音下で1つの目的を最適化するためにBO法が提案されているが、入力摂動に敏感な複数の目的が存在する現実的なシナリオに対処する手法は存在しない。 本研究では,入力雑音に対してロバストな最初の多目的bo法を提案する。 我々は,不確実な目標のリスク尺度である多変量値リスク(MVaR)の最適化を目標とする。 MVaRを直接最適化することは、多くの設定で計算不可能であるため、ランダムなスカラー化を用いてMVaRを最適化するためのスケーラブルで理論的なアプローチを提案する。 実験により,本手法は代替手法を著しく上回り,複数のメトリクスの仕様を満たす最適なロバストな設計を高い確率で効率的に同定する。

Bayesian optimization (BO) is a sample-efficient approach for tuning design parameters to optimize expensive-to-evaluate, black-box performance metrics. In many manufacturing processes, the design parameters are subject to random input noise, resulting in a product that is often less performant than expected. Although BO methods have been proposed for optimizing a single objective under input noise, no existing method addresses the practical scenario where there are multiple objectives that are sensitive to input perturbations. In this work, we propose the first multi-objective BO method that is robust to input noise. We formalize our goal as optimizing the multivariate value-at-risk (MVaR), a risk measure of the uncertain objectives. Since directly optimizing MVaR is computationally infeasible in many settings, we propose a scalable, theoretically-grounded approach for optimizing MVaR using random scalarizations. Empirically, we find that our approach significantly outperforms alternative methods and efficiently identifies optimal robust designs that will satisfy specifications across multiple metrics with high probability.
翻訳日:2022-02-17 12:34:30 公開日:2022-02-16
# SAUTE RL: 状態拡張によるほぼ確実に安全な強化学習

SAUTE RL: Almost Surely Safe Reinforcement Learning Using State Augmentation ( http://arxiv.org/abs/2202.06558v2 )

ライセンス: Link先を確認
Aivar Sootla, Alexander I. Cowen-Rivers, Taher Jafferjee, Ziyan Wang, David Mguni, Jun Wang, Haitham Bou-Ammar(参考訳) 安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。 例えば、飛行機の着陸と離陸は確率1で理想的に起こる。 そこで我々は,安全性強化(saute)マルコフ決定プロセス(mdps)を導入することでこの問題に対処し,安全性制約をステートスペースに拡張し,目標を再構築することで排除する。 我々は,saute mdpがベルマン方程式を満たし,制約をほぼ確実に満たした安全なrlの解決に近づいたことを示す。 Saute MDP は Safe RL 問題を異なる視点から見ることができ、新しい機能を実現することができると我々は主張する。 例えば、我々のアプローチはプラグ・アンド・プレイの性質があり、すなわち任意のRLアルゴリズムを「サンプリング」することができる。 さらに、状態拡張により、安全制約をまたいだポリシーの一般化が可能になる。 最後に、制約満足度が高い場合に、Saute RLアルゴリズムが最先端のアルゴリズムより優れていることを示す。

Satisfying safety constraints almost surely (or with probability one) can be critical for deployment of Reinforcement Learning (RL) in real-life applications. For example, plane landing and take-off should ideally occur with probability one. We address the problem by introducing Safety Augmented (Saute) Markov Decision Processes (MDPs), where the safety constraints are eliminated by augmenting them into the state-space and reshaping the objective. We show that Saute MDP satisfies the Bellman equation and moves us closer to solving Safe RL with constraints satisfied almost surely. We argue that Saute MDP allows to view Safe RL problem from a different perspective enabling new features. For instance, our approach has a plug-and-play nature, i.e., any RL algorithm can be "sauteed". Additionally, state augmentation allows for policy generalization across safety constraints. We finally show that Saute RL algorithms can outperform their state-of-the-art counterparts when constraint satisfaction is of high importance.
翻訳日:2022-02-17 12:34:10 公開日:2022-02-16
# トレーニングデータの重複が言語モデルのプライバシーリスクを軽減する

Deduplicating Training Data Mitigates Privacy Risks in Language Models ( http://arxiv.org/abs/2202.06539v2 )

ライセンス: Link先を確認
Nikhil Kandpal, Eric Wallace, Colin Raffel(参考訳) 過去の研究によると、大きな言語モデルはプライバシー攻撃の影響を受けやすく、敵は訓練されたモデルからシーケンスを生成し、トレーニングセットからどのシーケンスが記憶されているかを検出する。 本研究では,これらの攻撃の成功は,一般的に使用される web 階層トレーニングセットの重複によるものであることを実証する。 まず,言語モデルがトレーニングシーケンスを再生成する速度は,トレーニングセット内のシーケンス数と超線形関係にあることを示す。 例えば、トレーニングデータに10回存在するシーケンスは、平均で1回しか存在しないシーケンスよりも1000倍近い頻度で生成される。 次に,既存の暗記シーケンス検出手法は,非重複学習シーケンスに対してほぼ精度が高いことを示す。 最後に、トレーニングデータの重複解消にメソッドを適用すると、この種のプライバシ攻撃に対して、言語モデルの方がはるかに安全であることが分かりました。 その結果、プライバシーに敏感なアプリケーションの重複解消と、既存のプライバシー攻撃の実用性の再評価に焦点が当てられた。

Past work has shown that large language models are susceptible to privacy attacks, where adversaries generate sequences from a trained model and detect which sequences are memorized from the training set. In this work, we show that the success of these attacks is largely due to duplication in commonly used web-scraped training sets. We first show that the rate at which language models regenerate training sequences is superlinearly related to a sequence's count in the training set. For instance, a sequence that is present 10 times in the training data is on average generated ~1000 times more often than a sequence that is present only once. We next show that existing methods for detecting memorized sequences have near-chance accuracy on non-duplicated training sequences. Finally, we find that after applying methods to deduplicate training data, language models are considerably more secure against these types of privacy attacks. Taken together, our results motivate an increased focus on deduplication in privacy-sensitive applications and a reevaluation of the practicality of existing privacy attacks.
翻訳日:2022-02-17 12:33:57 公開日:2022-02-16
# 入力領域からのニューラルネットワークトロイの木馬解析と緩和

Neural Network Trojans Analysis and Mitigation from the Input Domain ( http://arxiv.org/abs/2202.06382v2 )

ライセンス: Link先を確認
Zhenting Wang, Hailun Ding, Juan Zhai, Shiqing Ma(参考訳) Deep Neural Networks(DNN)は、良性または有毒なデータからトロイの木馬(あるいはバックドア)を学ぶことができる。 そのようなトロイの木を利用して、敵は任意の入力に固定された入力空間摂動を加え、特定の出力(すなわちターゲットラベル)を予測するモデルを誤解させる。 本稿では、DNNにおけるそのような入力空間であるトロイの木馬を解析し、モデルの決定領域とトロイの木馬の関係を説明する理論を提案する。 この理論の正式な証明を提供し、理論とその緩和を支持する実証的な証拠を提供する。 本分析に基づいて,有毒なデータセットであってもトロイの木馬を除去する新たな訓練方法を設計し,そのプロトタイプを5つのデータセットと5つの異なる攻撃で評価する。 その結果,提案手法は既存のソリューションよりも優れていることがわかった。 コード: \url{https://anonymous.4open.science/r/NOLE-84C3}

Deep Neural Networks (DNNs) can learn Trojans (or backdoors) from benign or poisoned data, which raises security concerns of using them. By exploiting such Trojans, the adversary can add a fixed input space perturbation to any given input to mislead the model predicting certain outputs (i.e., target labels). In this paper, we analyze such input space Trojans in DNNs, and propose a theory to explain the relationship of a model's decision regions and Trojans: a complete and accurate Trojan corresponds to a hyperplane decision region in the input domain. We provide a formal proof of this theory, and provide empirical evidence to support the theory and its relaxations. Based on our analysis, we design a novel training method that removes Trojans during training even on poisoned datasets, and evaluate our prototype on five datasets and five different attacks. Results show that our method outperforms existing solutions. Code: \url{https://anonymous.4open.science/r/NOLE-84C3}.
翻訳日:2022-02-17 12:33:41 公開日:2022-02-16
# 確率的マルチレベル合成最適化のための最適アルゴリズム

Optimal Algorithms for Stochastic Multi-Level Compositional Optimization ( http://arxiv.org/abs/2202.07530v2 )

ライセンス: Link先を確認
Wei Jiang, Bokun Wang, Yibo Wang, Lijun Zhang, Tianbao Yang(参考訳) 本稿では,目的関数が複数の滑らかだが非凸関数の合成である確率的多値合成最適化の問題について検討する。 この問題を解決する既存の方法は、最適なサンプルの複雑さに苦しむか、巨大なバッチサイズを必要とする。 この制限に対処するため,Stochastic Multi-level Variance Reduction法 (SMVR) を提案し,非凸対象に対する$\epsilon$-stationary point を求めるために$\mathcal{O}\left(1 / \epsilon^{3}\right)$の最適なサンプル複雑性を実現する。 さらに,目的関数が凸性あるいはポリak-{\l}ojasiewicz (pl) 条件を満たす場合,smvr の段階的変種を提案し,凸関数に対して $\mathcal{o}\left(1 / \epsilon^{2}\right)$ または$\mathcal{o}\left(1 /(\mu\epsilon)\right)$ で$\mu$-pl 条件を満たす非凸関数に対して$\mathcal{o}\left(1 /(\mu\epsilon)\right)$ に拡張する。 後者の結果は$\mu$-strongly convex関数の複雑さを示している。 また,適応学習率を利用するために,適応型smvrを開発した。 すべての複雑性は、$\epsilon$の点でだけでなく、各イテレーションで大きなバッチサイズを使わずに$\mu$(plまたは強凸関数)の点でも下限に一致します。

In this paper, we investigate the problem of stochastic multi-level compositional optimization, where the objective function is a composition of multiple smooth but possibly non-convex functions. Existing methods for solving this problem either suffer from sub-optimal sample complexities or need a huge batch size. To address this limitation, we propose a Stochastic Multi-level Variance Reduction method (SMVR), which achieves the optimal sample complexity of $\mathcal{O}\left(1 / \epsilon^{3}\right)$ to find an $\epsilon$-stationary point for non-convex objectives. Furthermore, when the objective function satisfies the convexity or Polyak-{\L}ojasiewicz (PL) condition, we propose a stage-wise variant of SMVR and improve the sample complexity to $\mathcal{O}\left(1 / \epsilon^{2}\right)$ for convex functions or $\mathcal{O}\left(1 /(\mu\epsilon)\right)$ for non-convex functions satisfying the $\mu$-PL condition. The latter result implies the same complexity for $\mu$-strongly convex functions. To make use of adaptive learning rates, we also develop Adaptive SMVR, which achieves the same optimal complexities but converges faster in practice. All our complexities match the lower bounds not only in terms of $\epsilon$ but also in terms of $\mu$ (for PL or strongly convex functions), without using a large batch size in each iteration.
翻訳日:2022-02-17 12:33:24 公開日:2022-02-16
# 衛星統合型コミュニティネットワークにおけるマネジメントギャップの閉鎖--自己維持への階層的アプローチ

Closing the Management Gap for Satellite-Integrated Community Networks: A Hierarchical Approach to Self-Maintenance ( http://arxiv.org/abs/2202.07532v2 )

ライセンス: Link先を確認
Peng Hu(参考訳) コミュニティネットワーク(CN)は、世界中の未保存地域や未保存地域において、重要なインターネット接続を提供する重要なパラダイムとなっている。 しかし、CNにとって必須の部分はネットワーク管理であり、レスポンシブで自律的なメンテナンスがとても必要である。 通信ネットワークの技術的進歩により、従来の衛星依存CNは衛星統合CN(SICN)に変換され、ネットワーク管理において大きな自律性、知性、拡張性をもたらすことが期待されている。 本稿では、SICNの自律的自己維持を可能にする機械学習(ML)に基づく階層的アプローチについて論じる。 このアプローチは異常識別と異常緩和フェーズに分割され、関連するMLメソッド、データ収集手段、デプロイメントオプション、緩和スキームが提示される。 ケーススタディでは、衛星と固定接続をバックホールオプションとして用いる典型的なシナリオについて論じ、繰り返しニューラルネットワークとアンサンブル法による提案手法の有効性と性能改善を示す。

Community networks (CNs) have become an important paradigm for providing essential Internet connectivity in unserved and underserved areas across the world. However, an indispensable part for CNs is network management, where responsive and autonomous maintenance is much needed. With the technological advancement in telecommunications networks, a classical satellite-dependent CN is envisioned to be transformed into a satellite-integrated CN (SICN), which will embrace significant autonomy, intelligence, and scalability in network management. This article discusses the machine-learning (ML) based hierarchical approach to enabling autonomous self-maintenance for SICNs. The approach is split into the anomaly identification and anomaly mitigation phases, where the related ML methods, data collection means, deployment options, and mitigation schemes are presented. With the case study, we discuss a typical scenario using satellite and fixed connections as backhaul options and show the effectiveness and performance improvements of the proposed approach with recurrent neural network and ensemble methods
翻訳日:2022-02-17 12:31:37 公開日:2022-02-16