このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210721となっている論文です。

PDF登録状況(公開日: 20210721)

TitleAuthorsAbstract論文公表日・翻訳日
# 不確実性向上に向けて:マルチタスク感情認識のための効率的なネットワークの反復学習

Towards Better Uncertainty: Iterative Training of Efficient Networks for Multitask Emotion Recognition ( http://arxiv.org/abs/2108.04228v1 )

ライセンス: Link先を確認
Didan Deng, Liang Wu, Bertram E. Shi(参考訳) 感情を認識するとき、感情の微妙なニュアンスはしばしば感情知覚の曖昧さや不確実性を引き起こす。 残念ながら、曖昧さや不確実性はハードな感情ラベルには反映できない。 不確実性を伴う感情予測はリスクコントロールに有用であるが、現在の感情認識の深層モデルでは比較的少ない。 この問題に対処するために,多世代自己蒸留アルゴリズムを感情認識タスクに適用し,不確実性推定性能を向上させることを提案する。 まずディープアンサンブルを用いて不確実性を捉え、ベイズ法を近似する。 第二に、deep ensembleは学生モデルにソフトラベルを提供し、学生モデルはソフトラベルに埋め込まれた不確実性から学ぶことができる。 第3に,深いアンサンブルを反復的に訓練し,感情認識と不確実性評価のさらなる向上を図る。 最後に、アルゴリズムは、ドメイン内不確かさを推定できる単一の学生モデルと、ドメイン外サンプルを検出できる学生アンサンブルを生成する。 aff-wild2データセット上で効率的なマルチタスク感情ネットワーク(emenet)をトレーニングし,感情認識と不確実性推定に関する広範な実験を行った。 本アルゴリズムは,温度スケールやモンテキャロルドロップアウトよりも信頼性の高い不確実性推定を行う。

When recognizing emotions, subtle nuances of emotion displays often cause ambiguity or uncertainty in emotion perception. Unfortunately, the ambiguity or uncertainty cannot be reflected in hard emotion labels. Emotion predictions with uncertainty can be useful for risk controlling, but they are relatively scarce in current deep models for emotion recognition. To address this issue, we propose to apply the multi-generational self-distillation algorithm to emotion recognition task towards better uncertainty estimation performance. We firstly use deep ensembles to capture uncertainty, as an approximation to Bayesian methods. Secondly, the deep ensemble provides soft labels to its student models, while the student models can learn from the uncertainty embedded in those soft labels. Thirdly, we iteratively train deep ensembles to further improve the performance of emotion recognition and uncertainty estimation. In the end, our algorithm results in a single student model that can estimate in-domain uncertainty and a student ensemble that can detect out-of-domain samples. We trained our Efficient Multitask Emotion Networks (EMENet) on the Aff-wild2 dataset, and conducted extensive experiments on emotion recognition and uncertainty estimation. Our algorithm gives more reliable uncertainty estimates than Temperature Scaling and Monte Carol Dropout.
翻訳日:2021-08-15 11:30:05 公開日:2021-07-21
# サインを探す - 連続ビデオで孤立したサインインスタンスを識別する

Looking for the Signs: Identifying Isolated Sign Instances in Continuous Video Footage ( http://arxiv.org/abs/2108.04229v1 )

ライセンス: Link先を確認
Tao Jiang, Necati Cihan Camgoz, Richard Bowden(参考訳) 本稿では,ワンショットサインスポッティングの課題,すなわち,課題に焦点を当てる。 孤立した記号(クエリ)の例が与えられると、この記号が連続した共言語手話ビデオ(target)に現れるかどうかを識別したい。 この目的を達成するために、SignLookupと呼ばれるトランスフォーマーベースのネットワークを提案する。 ビデオクリップから時空間表現を抽出するために3次元畳み込みニューラルネットワーク(CNN)を用いる。 問合せと対象ビデオの時間スケールの相違を解決するために,異なるフレームレベルのストライドを用いて,単一のビデオクリップから複数のクエリを構築する。 これらのクエリクリップに自己注意を適用して、連続的なスケール空間をシミュレートする。 また,ターゲットビデオ上の別のセルフアテンションモジュールを使用して,シーケンス内のコンテキストを学習する。 最後に、相互アテンションを使用して時間スケールを一致させ、クエリをターゲットシーケンス内でローカライズする。 広範な実験により,提案手法は,シグナーの出現によらず,連続映像中の孤立した記号を確実に識別できるだけでなく,異なるシグナー言語に一般化できることが示された。 本モデルでは,注意機構と適応的特徴を生かして,難解なベンチマークデータセットの精度を96%まで向上させ,他の手法を著しく上回っている。

In this paper, we focus on the task of one-shot sign spotting, i.e. given an example of an isolated sign (query), we want to identify whether/where this sign appears in a continuous, co-articulated sign language video (target). To achieve this goal, we propose a transformer-based network, called SignLookup. We employ 3D Convolutional Neural Networks (CNNs) to extract spatio-temporal representations from video clips. To solve the temporal scale discrepancies between the query and the target videos, we construct multiple queries from a single video clip using different frame-level strides. Self-attention is applied across these query clips to simulate a continuous scale space. We also utilize another self-attention module on the target video to learn the contextual within the sequence. Finally a mutual-attention is used to match the temporal scales to localize the query within the target sequence. Extensive experiments demonstrate that the proposed approach can not only reliably identify isolated signs in continuous videos, regardless of the signers' appearance, but can also generalize to different sign languages. By taking advantage of the attention mechanism and the adaptive features, our model achieves state-of-the-art performance on the sign spotting task with accuracy as high as 96% on challenging benchmark datasets and significantly outperforming other approaches.
翻訳日:2021-08-15 11:29:45 公開日:2021-07-21
# GAN法による夜間の合成気象衛星可視光画像の作成

Creating synthetic meteorology satellite visible light images during night based on GAN method ( http://arxiv.org/abs/2108.04330v1 )

ライセンス: Link先を確認
CHENG Wencong (1) ((1) Beijing Aviation Meteorological Institute)(参考訳) 気象衛星可視光画像は気象支援と予測に不可欠である。 しかし、夜間にはそのようなデータは存在しない。 そこで本研究では,夜間に合成衛星可視光画像を作成するための深層学習に基づく手法を提案する。 具体的には、より現実的な製品を製造するために、GANモデルを訓練し、対応する衛星赤外線画像と数値気象予測(NWP)製品から可視光画像を生成する。 赤外線データとNWP生成物から可視光画像への非線形関係をモデル化するために,SEBlockなどのチャネルワイドアテンション機構を用いて入力チャネルを定量的に重み付けする手法を提案する。 ecmwf nwp製品とfy-4a気象衛星可視光と赤外線チャネルを用いた実験は、提案手法が夜間に合成衛星可視光画像を作成するのに有効であることを示した。

Meteorology satellite visible light images is critical for meteorology support and forecast. However, there is no such kind of data during night time. To overcome this, we propose a method based on deep learning to create synthetic satellite visible light images during night. Specifically, to produce more realistic products, we train a Generative Adversarial Networks (GAN) model to generate visible light images given the corresponding satellite infrared images and numerical weather prediction(NWP) products. To better model the nonlinear relationship from infrared data and NWP products to visible light images, we propose to use the channel-wise attention mechanics, e.g., SEBlock to quantitative weight the input channels. The experiments based on the ECMWF NWP products and FY-4A meteorology satellite visible light and infrared channels date show that the proposed methods can be effective to create realistic synthetic satellite visible light images during night.
翻訳日:2021-08-15 11:28:58 公開日:2021-07-21
# (参考訳) ラフセットに基づくスパンニングセットを用いた意思決定システム [全文訳有]

Decision Making Using Rough Set based Spanning Sets for a Decision System ( http://arxiv.org/abs/2107.12477v1 )

ライセンス: CC BY 4.0
Nidhika Yadav(参考訳) ラフセットに基づくスパンとスパンニングセットの概念は、データの不確実性を扱うために最近提案された。 本稿では,決定表にRough Setをベースとしたスパンを用いた一般的な意思決定プロセスの新しい概念を提案する。 人工知能における問題の多くは意思決定に対処する。 本稿では,決定表に対するラフセットに基づくスパンの実際の応用について述べる。 ここでは, 洪水救助と救助隊の任務の実例を例に, 決定表のためのスパンという新しい概念を提案する。 その用途、応用、特性を探求する。 論文の主な貢献は主に、事前の作業における情報システムに対して、決定表にRough SetベースのSpanを用いた意思決定を研究することである。 ここでの主な貢献は、決定クラスが特定の問題に対してラフセットベースのスパンのテクニックによって自動的に学習され、意思決定プロセスが自動化されることである。 spanに基づくこれらの意思決定ツールは、厳しい状況と時間的な状況における意思決定の専門家を導くことができる。

Rough Set based concepts of Span and Spanning Sets were recently proposed to deal with uncertainties in data. Here, this paper, presents novel concepts for generic decision-making process using Rough Set based span for a decision table. Majority of problems in Artificial Intelligence deal with decision making. This paper provides real life applications of proposed Rough Set based span for decision tables. Here, novel concept of span for a decision table is proposed, illustrated with real life example of flood relief and rescue team assignment. Its uses, applications and properties are explored. The key contribution of paper is primarily to study decision making using Rough Set based Span for a decision tables, as against an information system in prior works. Here, the main contribution is that decision classes are automatically learned by the technique of Rough Set based span, for a particular problem, hence automating the decision-making process. These decision-making tools based on span can guide an expert in taking decisions in tough and time-bound situations.
翻訳日:2021-08-01 12:24:03 公開日:2021-07-21
# ガラス基板上のポリスチレン薄膜厚みの最適化のための脳インスパイアコンピューティングアプローチ

Brain Inspired Computing Approach for the Optimization of the Thin Film Thickness of Polystyrene on the Glass Substrates ( http://arxiv.org/abs/2107.12156v1 )

ライセンス: Link先を確認
Akshansh Mishra and Devarrishi Dixit(参考訳) 機械学習の出現は、マテリアルサイエンスの分野を含むさまざまな分野に大きな影響を与えている。 本稿では, 多項式回帰, 決定木回帰アルゴリズム, ランダムフォレストアルゴリズム, 支持ベクトル回帰アルゴリズム, 人工ニューラルネットワークアルゴリズムなどの教師付き機械学習回帰アルゴリズムを適用し, ガラス基板上のポリスチレンの薄膜厚を決定する。 その結果,多項式回帰機械学習アルゴリズムは0.96の判定係数と平均2乗誤差0.04の判定係数をそれぞれ与え,他の機械学習モデルよりも優れていた。

Advent in machine learning is leaving a deep impact on various sectors including the material science domain. The present paper highlights the application of various supervised machine learning regression algorithms such as polynomial regression, decision tree regression algorithm, random forest algorithm, support vector regression algorithm, and artificial neural network algorithm to determine the thin film thickness of Polystyrene on the glass substrates. The results showed that the polynomial regression machine learning algorithm outperforms all other machine learning models by yielding the coefficient of determination of 0.96 approximately and mean square error of 0.04 respectively.
翻訳日:2021-08-01 11:06:19 公開日:2021-07-21
# ディープニューラルネットワークを用いた経済活動予測

Economic Recession Prediction Using Deep Neural Network ( http://arxiv.org/abs/2107.10980v1 )

ライセンス: Link先を確認
Zihao Wang, Kun Li, Steve Q. Xia, Hongfu Liu(参考訳) 異なる機械学習手法による経済サイクル予測の有効性について検討する。 我々は,米国における景気後退の開始と終了を予測するための最も正確なモデルとして,Bi-LSTMとAutoencoderのディープラーニング手法を同定する。 予測変数とモデル係数が時間とともに変化する場合,提案モデルは柔軟かつ動的である。 過去2回の景気後退と、新型コロナウイルス(COVID-19)の景気後退について早期に警告した。

We investigate the effectiveness of different machine learning methodologies in predicting economic cycles. We identify the deep learning methodology of Bi-LSTM with Autoencoder as the most accurate model to forecast the beginning and end of economic recessions in the U.S. We adopt commonly-available macro and market-condition features to compare the ability of different machine learning models to generate good predictions both in-sample and out-of-sample. The proposed model is flexible and dynamic when both predictive variables and model coefficients vary over time. It provided good out-of-sample predictions for the past two recessions and early warning about the COVID-19 recession.
翻訳日:2021-07-26 14:12:42 公開日:2021-07-21
# (参考訳) 音声映像感情認識のためのマルチモーダル残留パーセプトロンネットワーク [全文訳有]

Multi-modal Residual Perceptron Network for Audio-Video Emotion Recognition ( http://arxiv.org/abs/2107.10742v1 )

ライセンス: CC BY 4.0
Xin Chang and W{\l}adys{\l}aw Skarbek(参考訳) 感情認識はヒューマン・コンピュータ・インタラクション(HCI)にとって重要な研究分野である。 AVER(Audio-Video Emotion Recognition)は現在、Deep Neural Network (DNN)モデリングツールで攻撃されている。 出版論文では、原則として、著者らは、オーディオのみまたはビデオのみのモダリティよりも、複数のモダリティが優れているケースのみを示す。 しかし、単一モダリティにおいて優位なケースもある。 本研究では,感情事象のファジィカテゴリに対して,一方のモダリティのノイズが高ければ高いほど,モデリングニューラルネットワークのパラメータに間接的に表される第2のモダリティの低ノイズが増幅する,という仮説を定式化する。 このようなクロスモーダルな情報干渉を避けるために、ノイズを低減した深い特徴表現を生成するマルチモーダルネットワークブランチから学習するMRPN(Multi-modal Residual Perceptron Network)を定義する。 提案するmrpnモデルとストリーミングされたデジタル映画の平均認識率は,ryerson audio-visual database of emotional speech and song(ravdess)データセットの91.4%,クラウドソース感情多モーダルアクタデータセット(crema-d)の83.15%に向上した。 さらに、mrpnの概念は、光学的および音響的タイプだけでなく、信号源を扱うマルチモーダル分類器にその可能性を示す。

Emotion recognition is an important research field for Human-Computer Interaction(HCI). Audio-Video Emotion Recognition (AVER) is now attacked with Deep Neural Network (DNN) modeling tools. In published papers, as a rule, the authors show only cases of the superiority of multi modalities over audio-only or video-only modalities. However, there are cases superiority in single modality can be found. In our research, we hypothesize that for fuzzy categories of emotional events, the higher noise of one modality can amplify the lower noise of the second modality represented indirectly in the parameters of the modeling neural network. To avoid such cross-modal information interference we define a multi-modal Residual Perceptron Network (MRPN) which learns from multi-modal network branches creating deep feature representation with reduced noise. For the proposed MRPN model and the novel time augmentation for streamed digital movies, the state-of-art average recognition rate was improved to 91.4% for The Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS) dataset and to 83.15% for Crowd-sourced Emotional multi-modal Actors Dataset(Crema-d). Moreover, the MRPN concept shows its potential for multi-modal classifiers dealing with signal sources not only of optical and acoustical type.
翻訳日:2021-07-24 01:20:38 公開日:2021-07-21
# (参考訳) Fed-ensemble:フェデレーション学習におけるモデル構成による一般化の改善 [全文訳有]

Fed-ensemble: Improving Generalization through Model Ensembling in Federated Learning ( http://arxiv.org/abs/2107.10663v1 )

ライセンス: CC BY 4.0
Naichen Shi, Fan Lai, Raed Al Kontar, Mosharaf Chowdhury(参考訳) 本稿では,federated learning(fl)にモデルセンスリングをもたらす単純な手法であるfederated-ensembleを提案する。 単一のグローバルモデルを更新するためにローカルモデルを集約する代わりに、feed-ensembleはランダムな置換を使ってkモデルのグループを更新し、モデル平均化によって予測を得る。 fed-ensembleは確立されたflメソッド内で容易に利用することができ、各通信ラウンド毎にクライアントに送信されるkモデルの1つだけを必要とするため、計算オーバーヘッドを課さない。 理論的には、全てのkモデルからのnewdataの予測は、神経接核系下で同じ予測後続分布に属する。 この結果、モデル平均化の一般化の利点に光を当てる。 また、Fed-ensembleはエレガントなベイズ解釈を持つ。 実験結果から,本モデルは複数のFLアルゴリズムよりも優れた性能を示し,様々なデータセットにおいて,FLアプリケーションでしばしば発生する不均一な設定において優れることがわかった。

In this paper we propose Fed-ensemble: a simple approach that bringsmodel ensembling to federated learning (FL). Instead of aggregating localmodels to update a single global model, Fed-ensemble uses random permutations to update a group of K models and then obtains predictions through model averaging. Fed-ensemble can be readily utilized within established FL methods and does not impose a computational overhead as it only requires one of the K models to be sent to a client in each communication round. Theoretically, we show that predictions on newdata from all K models belong to the same predictive posterior distribution under a neural tangent kernel regime. This result in turn sheds light onthe generalization advantages of model averaging. We also illustrate thatFed-ensemble has an elegant Bayesian interpretation. Empirical results show that our model has superior performance over several FL algorithms,on a wide range of data sets, and excels in heterogeneous settings often encountered in FL applications.
翻訳日:2021-07-24 01:01:40 公開日:2021-07-21
# (参考訳) 機械学習アルゴリズムによる極端条件下でのパワーエレクトロニクスデバイスの信頼性予測 [全文訳有]

Predicting Power Electronics Device Reliability under Extreme Conditions with Machine Learning Algorithms ( http://arxiv.org/abs/2107.10292v1 )

ライセンス: CC BY 4.0
Carlos Olivares, Raziur Rahman, Christopher Stankus, Jade Hampton, Andrew Zedwick, Moinuddin Ahmed(参考訳) 電力デバイスの信頼性は極端な環境下での運用において大きな関心事であり、これにより電力システムやセンシングインフラストラクチャの運用寿命が削減される。 システム障害の可能性があるため、デバイスは実装前に実験的に検証されなければならない。 本稿では,機械学習アルゴリズムを用いてデバイスの信頼性を予測し,実験を行う必要性を著しく低減した。 モデルを訓練するために、我々は10の異なるメーカーの224の電源デバイスをテストした。 まず,モデリングのためにデータを処理する方法について述べる。 社内試験データに基づいて各種MLモデルを実装し,グラディエントブースティングやLSTMエンコーダデコーダネットワークなどの計算モデルにより,高精度で電源装置故障を予測できることを示した。

Power device reliability is a major concern during operation under extreme environments, as doing so reduces the operational lifetime of any power system or sensing infrastructure. Due to a potential for system failure, devices must be experimentally validated before implementation, which is expensive and time-consuming. In this paper, we have utilized machine learning algorithms to predict device reliability, significantly reducing the need for conducting experiments. To train the models, we have tested 224 power devices from 10 different manufacturers. First, we describe a method to process the data for modeling purposes. Based on the in-house testing data, we implemented various ML models and observed that computational models such as Gradient Boosting and LSTM encoder-decoder networks can predict power device failure with high accuracy.
翻訳日:2021-07-24 00:14:44 公開日:2021-07-21
# (参考訳) mmPose-NLP:mmWaveレーダを用いた精密骨格電位推定のための自然言語処理手法 [全文訳有]

mmPose-NLP: A Natural Language Processing Approach to Precise Skeletal Pose Estimation using mmWave Radars ( http://arxiv.org/abs/2107.10327v1 )

ライセンス: CC BY 4.0
Arindam Sengupta and Siyang Cao(参考訳) 本稿では,ミリ波(mmwave)レーダデータを用いた,新たな自然言語処理(nlp)を応用した,骨格キーポイント推定器mmpose-nlpを提案する。 著者の知る限りでは、これはmmWaveレーダーデータだけで25個の骨格キーポイントを正確に推定する最初の方法である。 骨格のポーズ推定は、自動運転車、交通監視、患者モニタリング、歩行分析、防衛セキュリティ法医学、予防的かつ行動可能な意思決定の支援など、いくつかのアプリケーションにおいて重要である。 この作業にmmWaveレーダーを用いることは、従来の光学センサーよりも多くの利点をもたらし、主に照明の運用上の堅牢さと、光学センサーの性能が著しく低下する悪天候条件に寄与する。 提案したmmPose-NLPアーキテクチャでは、25個の骨格キーポイント(NLPのキーワード抽出に類似)のボクセル指標を予測し、まず、mWaveレーダポイントクラウド(PCL)データを最初にボクセル化(NLPのトークン化と類似)し、このボクセル化レーダデータのN$フレーム(NLPのテキスト段落と類似)を推定する。 ボクセルインデックスは、トークン化プロセスで使用されるボクセル辞書を用いて実世界の3次元座標に変換される。 平均絶対誤差 (MAE) 測定値を用いて, 提案手法の精度を実測し, 提案したmmPose-NLPは深さ, 水平軸, 垂直軸に<3cmの局所誤差を与える。 n = {1,2,..,10} に対して,入力フレーム数とパフォーマンス/精度の影響も検討した。 本論文では,包括的な方法論,結果,議論,限界について述べる。 ソースコードと結果はすべてGitHubで公開されており、mWaveレーダを使用した骨格キーポイント推定という重要な領域の研究と開発が進められている。

In this paper we presented mmPose-NLP, a novel Natural Language Processing (NLP) inspired Sequence-to-Sequence (Seq2Seq) skeletal key-point estimator using millimeter-wave (mmWave) radar data. To the best of the author's knowledge, this is the first method to precisely estimate upto 25 skeletal key-points using mmWave radar data alone. Skeletal pose estimation is critical in several applications ranging from autonomous vehicles, traffic monitoring, patient monitoring, gait analysis, to defense security forensics, and aid both preventative and actionable decision making. The use of mmWave radars for this task, over traditionally employed optical sensors, provide several advantages, primarily its operational robustness to scene lighting and adverse weather conditions, where optical sensor performance degrade significantly. The mmWave radar point-cloud (PCL) data is first voxelized (analogous to tokenization in NLP) and $N$ frames of the voxelized radar data (analogous to a text paragraph in NLP) is subjected to the proposed mmPose-NLP architecture, where the voxel indices of the 25 skeletal key-points (analogous to keyword extraction in NLP) are predicted. The voxel indices are converted back to real world 3-D coordinates using the voxel dictionary used during the tokenization process. Mean Absolute Error (MAE) metrics were used to measure the accuracy of the proposed system against the ground truth, with the proposed mmPose-NLP offering <3 cm localization errors in the depth, horizontal and vertical axes. The effect of the number of input frames vs performance/accuracy was also studied for N = {1,2,..,10}. A comprehensive methodology, results, discussions and limitations are presented in this paper. All the source codes and results are made available on GitHub for furthering research and development in this critical yet emerging domain of skeletal key-point estimation using mmWave radars.
翻訳日:2021-07-24 00:02:42 公開日:2021-07-21
# (参考訳) マルチストリームトランス [全文訳有]

Multi-Stream Transformers ( http://arxiv.org/abs/2107.10342v1 )

ライセンス: CC BY 4.0
Mikhail Burtsev and Anna Rumshisky(参考訳) トランスフォーマーベースのエンコーダデコーダモデルは、各エンコーダ層の後、融合トークン単位の表現を生成する。 本稿では,エンコーダが符号化プロセスの最後に組み合わされた代替仮説の保存と探索を可能にする効果について検討する。 そこで我々は、$\textit{Multi-stream Transformer}$アーキテクチャの設計と検討を行い、Transformerエンコーダを複数のエンコーダストリームに分割し、複数の表現仮説をマージできるようにすることで性能が向上し、第1層と最終エンコーダ層の間にスキップ接続を追加することでさらなる改善が得られた。

Transformer-based encoder-decoder models produce a fused token-wise representation after every encoder layer. We investigate the effects of allowing the encoder to preserve and explore alternative hypotheses, combined at the end of the encoding process. To that end, we design and examine a $\textit{Multi-stream Transformer}$ architecture and find that splitting the Transformer encoder into multiple encoder streams and allowing the model to merge multiple representational hypotheses improves performance, with further improvement obtained by adding a skip connection between the first and the final encoder layer.
翻訳日:2021-07-23 23:42:02 公開日:2021-07-21
# (参考訳) 読み人種:aiは医療画像で患者の人種的アイデンティティを認識する

Reading Race: AI Recognises Patient's Racial Identity In Medical Images ( http://arxiv.org/abs/2107.10356v1 )

ライセンス: CC BY 4.0
Imon Banerjee, Ananth Reddy Bhimireddy, John L. Burns, Leo Anthony Celi, Li-Ching Chen, Ramon Correa, Natalie Dullerud, Marzyeh Ghassemi, Shih-Cheng Huang, Po-Chih Kuo, Matthew P Lungren, Lyle Palmer, Brandon J Price, Saptarshi Purkayastha, Ayis Pyrros, Luke Oakden-Rayner, Chima Okechukwu, Laleh Seyyed-Kalantari, Hari Trivedi, Ryan Wang, Zachary Zaiman, Haoran Zhang, Judy W Gichoya(参考訳) 背景: 医学画像学では、先行研究では、人種ごとにAIのパフォーマンスが異なることが示されているが、画像を理解する人間の専門家にとって明らかな、医療画像の人種に関する相関関係は知られていない。 Methods: Using private and public datasets we evaluate: A) performance quantification of deep learning models to detect race from medical images, including the ability of these models to generalize to external environments and across multiple imaging modalities, B) assessment of possible confounding anatomic and phenotype population features, such as disease distribution and body habitus as predictors of race, and C) investigation into the underlying mechanism by which AI models can recognize race. 結果: 標準的なディープラーニングモデルは、複数の画像モードにまたがる高いパフォーマンスを持つ医療画像から人種を予測するように訓練することができる。 臨床的に動機づけられたタスクの実行にモデルが最適化された場合と同様に, 外部の検証条件下でも有効である。 この検出は, 疾患の分布など, 自明なプロキシや画像関連サロゲート共変体によるものではないことを実証する。 最後に, 画像の解剖学的領域および周波数スペクトルについて, 緩和努力は困難であり, さらなる研究が必要であることを示す。 解釈: 自己報告された人種を予測するモデル能力は、それ自体が重要ではないことを強調する。 しかし、臨床の専門家ができないような環境では、AIが自己申告された人種 ― 腐敗、収穫、ノイズのある医療画像からでも -- を自覚的に予測できるという私たちの発見は、医療画像におけるすべてのモデル展開に対して巨大なリスクを生じさせます。

Background: In medical imaging, prior studies have demonstrated disparate AI performance by race, yet there is no known correlation for race on medical imaging that would be obvious to the human expert interpreting the images. Methods: Using private and public datasets we evaluate: A) performance quantification of deep learning models to detect race from medical images, including the ability of these models to generalize to external environments and across multiple imaging modalities, B) assessment of possible confounding anatomic and phenotype population features, such as disease distribution and body habitus as predictors of race, and C) investigation into the underlying mechanism by which AI models can recognize race. Findings: Standard deep learning models can be trained to predict race from medical images with high performance across multiple imaging modalities. Our findings hold under external validation conditions, as well as when models are optimized to perform clinically motivated tasks. We demonstrate this detection is not due to trivial proxies or imaging-related surrogate covariates for race, such as underlying disease distribution. Finally, we show that performance persists over all anatomical regions and frequency spectrum of the images suggesting that mitigation efforts will be challenging and demand further study. Interpretation: We emphasize that model ability to predict self-reported race is itself not the issue of importance. However, our findings that AI can trivially predict self-reported race -- even from corrupted, cropped, and noised medical images -- in a setting where clinical experts cannot, creates an enormous risk for all model deployments in medical imaging: if an AI model secretly used its knowledge of self-reported race to misclassify all Black patients, radiologists would not be able to tell using the same data the model has access to.
翻訳日:2021-07-23 23:35:29 公開日:2021-07-21
# (参考訳) アンサンブルに基づく不確実性定量化:ベイジアン対クレダル推論 [全文訳有]

Ensemble-based Uncertainty Quantification: Bayesian versus Credal Inference ( http://arxiv.org/abs/2107.10384v1 )

ライセンス: CC BY 4.0
Mohammad Hossein Shaker and Eyke H\"ullermeier(参考訳) 2つの重要な不確実性を区別し、定量化するアイデアは、しばしばアレタリック(aleatoric)とてんかん( epistemic)と呼ばれ、ここ数年で機械学習の研究で注目を集めている。 本稿では,不確実性定量化に対するアンサンブルに基づくアプローチを検討する。 異なるタイプの不確実性認識学習アルゴリズムを区別するため,我々はベイズ的手法と,いわゆるクレダル集合に基づくアプローチに着目し,自然にアンサンブル学習の観点から自らを示唆する。 どちらのアプローチも、アラート性およびてんかん性不確実性をどのように定量化するかという問題に対処する。 拒否オプションを用いた分類に関する実証的研究において, 対応する尺度の有効性を評価し, 比較した。

The idea to distinguish and quantify two important types of uncertainty, often referred to as aleatoric and epistemic, has received increasing attention in machine learning research in the last couple of years. In this paper, we consider ensemble-based approaches to uncertainty quantification. Distinguishing between different types of uncertainty-aware learning algorithms, we specifically focus on Bayesian methods and approaches based on so-called credal sets, which naturally suggest themselves from an ensemble learning point of view. For both approaches, we address the question of how to quantify aleatoric and epistemic uncertainty. The effectiveness of corresponding measures is evaluated and compared in an empirical study on classification with a reject option.
翻訳日:2021-07-23 23:34:14 公開日:2021-07-21
# 不確実性を考慮した分散自律ロボットのタスク割り当て

Uncertainty-Aware Task Allocation for Distributed Autonomous Robots ( http://arxiv.org/abs/2107.10350v1 )

ライセンス: Link先を確認
Liang Sun and Leonardo Escamilla(参考訳) 本稿では,分散自律ロボット(DAR)の状況認識における不確実性を伴うタスク配置問題に対処する。 タスク割り当てプロセス上の不確実性伝搬は、Sigma-Pointサンプリング機構を用いたUnscented変換を用いて行われる。 状況認識の不確実性を考慮することなく開発されている既存のタスクアロケーション法を変更する必要がないという意味で、汎用的なタスクアロケーションスキームに採用される可能性は非常に大きい。 提案したフレームワークは,複数の移動体飛行ロボットに割り当てられた複数の位置を,既知の平均と共分散のランダムな変数として最適に割り当てる必要がある,というシミュレーション環境でテストされた。 シミュレーションの結果,提案手法は不確実性を考慮せずに,全体のコストを30%削減した割当を生成することがわかった。

This paper addresses task-allocation problems with uncertainty in situational awareness for distributed autonomous robots (DARs). The uncertainty propagation over a task-allocation process is done by using the Unscented transform that uses the Sigma-Point sampling mechanism. It has great potential to be employed for generic task-allocation schemes, in the sense that there is no need to modify an existing task-allocation method that has been developed without considering the uncertainty in the situational awareness. The proposed framework was tested in a simulated environment where the decision-maker needs to determine an optimal allocation of multiple locations assigned to multiple mobile flying robots whose locations come as random variables of known mean and covariance. The simulation result shows that the proposed stochastic task allocation approach generates an assignment with 30% less overall cost than the one without considering the uncertainty.
翻訳日:2021-07-23 15:25:21 公開日:2021-07-21
# 電子顕微鏡データのFew-Shot Machine Learning分類のためのグラフィカルユーザインタフェースの設計

Design of a Graphical User Interface for Few-Shot Machine Learning Classification of Electron Microscopy Data ( http://arxiv.org/abs/2107.10387v1 )

ライセンス: Link先を確認
Christina Doty, Shaun Gallagher, Wenqi Cui, Wenya Chen, Shweta Bhushan, Marjolein Oostrom, Sarah Akers, Steven R. Spurgeon(参考訳) 最近の電子顕微鏡によるデータ量の増加は、画像のセグメンテーションと分析に迅速でスケーラブルで柔軟なアプローチを必要とする。 少数のユーザが提供する例から画像をリッチに分類できる、ショットの少ない機械学習は、ハイスループット分析への有望な道のりだ。 しかし、このようなアプローチの現在のコマンドライン実装は、効果的に分類を行うのに必要なリアルタイムのフィードバックが欠如しているため、使用が遅くて直感的です。 本稿では,Python ベースのグラフィカルユーザインタフェースの開発について報告する。 このインターフェースは軽量で、ローカルまたはweb上でホストすることができ、再現性のある分析、共有、クラウドソースのマイナショット分析の機会を提供する。

The recent growth in data volumes produced by modern electron microscopes requires rapid, scalable, and flexible approaches to image segmentation and analysis. Few-shot machine learning, which can richly classify images from a handful of user-provided examples, is a promising route to high-throughput analysis. However, current command-line implementations of such approaches can be slow and unintuitive to use, lacking the real-time feedback necessary to perform effective classification. Here we report on the development of a Python-based graphical user interface that enables end users to easily conduct and visualize the output of few-shot learning models. This interface is lightweight and can be hosted locally or on the web, providing the opportunity to reproducibly conduct, share, and crowd-source few-shot analyses.
翻訳日:2021-07-23 15:24:45 公開日:2021-07-21
# 特徴選択アルゴリズムを用いた教育データマイニングの精度解析

Accuracy analysis of Educational Data Mining using Feature Selection Algorithm ( http://arxiv.org/abs/2107.10669v1 )

ライセンス: Link先を確認
Ali Almalki, Pawel Wocjan(参考訳) 要約 - 学生の学業進捗を予測するために関連する情報を集めるのは面倒な作業です。 不正確な結果を提供するデータベースに存在する大量の無関係なデータのために。 現在、データには無関係な属性や特徴が多すぎるため、学生データを正確に測定し分析することは不可能である。 教育データマイニング(EDM)の助けを借りて、情報の質を向上させることができる。 本研究は、EDMが関連する属性と機械学習アルゴリズムを用いてデータの精度を測定する方法を示す。 EDMでは、元のデータを変更することなく、無関係な機能は削除される。 本研究で使用したデータセットはkaggle.comから取得した。 その結果,学生データの正確性を確認するために,リコール,精度,f-測定に基づいて比較した。 この研究の重要性は、研究者により正確な結果を提供することで、教育研究の質を向上させることである。

Abstract - Gathering relevant information to predict student academic progress is a tedious task. Due to the large amount of irrelevant data present in databases which provides inaccurate results. Currently, it is not possible to accurately measure and analyze student data because there are too many irrelevant attributes and features in the data. With the help of Educational Data Mining (EDM), the quality of information can be improved. This research demonstrates how EDM helps to measure the accuracy of data using relevant attributes and machine learning algorithms performed. With EDM, irrelevant features are removed without changing the original data. The data set used in this study was taken from Kaggle.com. The results compared on the basis of recall, precision and f-measure to check the accuracy of the student data. The importance of this research is to help improve the quality of educational research by providing more accurate results for researchers.
翻訳日:2021-07-23 15:22:11 公開日:2021-07-21
# 早期出力パラダイムによる不確かさによる高周波脳波アーチファクト検出

High Frequency EEG Artifact Detection with Uncertainty via Early Exit Paradigm ( http://arxiv.org/abs/2107.10746v1 )

ライセンス: Link先を確認
Lorena Qendro, Alexander Campbell, Pietro Li\`o, Cecilia Mascolo(参考訳) 脳波検査(EEG)は脳疾患のモニタリングと診断に重要である。 しかし、脳波信号は、その効果を制限する非ケレブラルアーティファクトによって引き起こされる摂動に苦しむ。 現在のアーティファクト検出パイプラインはリソース不足であり、手作りの機能に大きく依存している。 さらに、これらのパイプラインは本質的に決定論的であり、予測の不確実性を捉えることができない。 高周波脳波アーチファクト検出のためのディープラーニングフレームワークであるE4Gを提案する。 我々のフレームワークは初期の出口パラダイムを利用して、不確実性を捉えることのできるモデルの暗黙のアンサンブルを構築します。 我々は,テンプル大学病院脳波アーティファクトコーパス(v2.0)へのアプローチを評価し,最先端の分類結果を得た。 さらに、E4Gはモンテカルロのドロップアウトのようなサンプリングテクニックに匹敵する、十分な校正された不確実性指標を提供する。 E4Gは、臨床医のためのループフレームワークをサポートする不確実性を認識したアーティファクト検出への扉を開く。

Electroencephalograp hy (EEG) is crucial for the monitoring and diagnosis of brain disorders. However, EEG signals suffer from perturbations caused by non-cerebral artifacts limiting their efficacy. Current artifact detection pipelines are resource-hungry and rely heavily on hand-crafted features. Moreover, these pipelines are deterministic in nature, making them unable to capture predictive uncertainty. We propose E4G, a deep learning framework for high frequency EEG artifact detection. Our framework exploits the early exit paradigm, building an implicit ensemble of models capable of capturing uncertainty. We evaluate our approach on the Temple University Hospital EEG Artifact Corpus (v2.0) achieving state-of-the-art classification results. In addition, E4G provides well-calibrated uncertainty metrics comparable to sampling techniques like Monte Carlo dropout in just a single forward pass. E4G opens the door to uncertainty-aware artifact detection supporting clinicians-in-the-lo op frameworks.
翻訳日:2021-07-23 15:21:43 公開日:2021-07-21
# スパルシティーアルゴリズムと企業信用格付けへの応用

A Sparsity Algorithm with Applications to Corporate Credit Rating ( http://arxiv.org/abs/2107.10306v1 )

ライセンス: Link先を確認
Dan Wang, Zhi Chen, Ionut Florescu(参考訳) 人工知能では、しばしばブラックボックスと呼ばれる機械学習技術の結果を解釈することは難しい課題である。 特定の「ブラックボックス」の反事実的な説明は、元のもの以外の特定の出力に予測を変更する入力値の最小の変更を見つけようとするものである。 本研究では,最適化問題として反事実的説明を求める問題を定式化する。 最適化問題を解く新しい「スパーシティアルゴリズム」を提案し,反事実説明のスパーシティを最大化する。 本アルゴリズムは、公開企業に対して、信用格付けを改善するための簡単な提案を行うために適用される。 我々は、合成データセットを用いてスパーシリティアルゴリズムを検証し、さらに米国の金融、医療、IT分野の企業からの四半期毎の財務報告に適用する。 評価が改善した今四半期から翌四半期に変化した実話の特徴を,反実的な説明で捉えることができることを示す。 実証的な結果は、企業の格付けが高ければ高いほど、信用格付けをさらに向上させるために必要な「努力」が大きくなることを示している。

In Artificial Intelligence, interpreting the results of a Machine Learning technique often termed as a black box is a difficult task. A counterfactual explanation of a particular "black box" attempts to find the smallest change to the input values that modifies the prediction to a particular output, other than the original one. In this work we formulate the problem of finding a counterfactual explanation as an optimization problem. We propose a new "sparsity algorithm" which solves the optimization problem, while also maximizing the sparsity of the counterfactual explanation. We apply the sparsity algorithm to provide a simple suggestion to publicly traded companies in order to improve their credit ratings. We validate the sparsity algorithm with a synthetically generated dataset and we further apply it to quarterly financial statements from companies in financial, healthcare and IT sectors of the US market. We provide evidence that the counterfactual explanation can capture the nature of the real statement features that changed between the current quarter and the following quarter when ratings improved. The empirical results show that the higher the rating of a company the greater the "effort" required to further improve credit rating.
翻訳日:2021-07-23 15:21:16 公開日:2021-07-21
# 2層ReLUニューラルネットワークにおけるスプリアスミニマの家族解析

Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2107.10370v1 )

ライセンス: Link先を確認
Yossi Arjevani, Michael Field(参考訳) ターゲットネットワークによってラベルが生成される2層ReLUニューラルネットワークの2乗損失に関する最適化問題について検討する。 我々は,スプリアスミニマの家族を研究するための新しいツールセットを開発するために,リッチ対称性構造を利用する。 制限レシエーションを運用する既存のアプローチとは対照的に、我々の手法は有限個の入力に対して$d$とニューロン$k$の非凸ロスランドスケープを直接処理し、ヒューリスティックな情報よりも解析的な情報を提供する。 特に、異なるミニマでの損失に関する解析的推定を導出し、モジュラー $o(d^{-1/2})$-項が小さな正の定数の近くに集中することを証明し、ただし$\theta(d)$ の固有値を除いて、−$d$ で線形に成長する。 さらに、大域的および散発的ミニマにおけるヘッセンスペクトルは、o(d^{-1/2})$-order と一致することを示し、局所曲率による統計的一般化について議論する能力に挑戦する。 最後に、我々の手法は、臨界点の族がサドルからスプリアスミニマへと変化する正確な 'emph{fractional} 次元性を提供する。 これにより、等変分岐理論の強力なツールを用いて、スプリアスミニマの生成と消滅の研究が可能になる。

We study the optimization problem associated with fitting two-layer ReLU neural networks with respect to the squared loss, where labels are generated by a target network. We make use of the rich symmetry structure to develop a novel set of tools for studying families of spurious minima. In contrast to existing approaches which operate in limiting regimes, our technique directly addresses the nonconvex loss landscape for a finite number of inputs $d$ and neurons $k$, and provides analytic, rather than heuristic, information. In particular, we derive analytic estimates for the loss at different minima, and prove that modulo $O(d^{-1/2})$-terms the Hessian spectrum concentrates near small positive constants, with the exception of $\Theta(d)$ eigenvalues which grow linearly with~$d$. We further show that the Hessian spectrum at global and spurious minima coincide to $O(d^{-1/2})$-order, thus challenging our ability to argue about statistical generalization through local curvature. Lastly, our technique provides the exact \emph{fractional} dimensionality at which families of critical points turn from saddles into spurious minima. This makes possible the study of the creation and the annihilation of spurious minima using powerful tools from equivariant bifurcation theory.
翻訳日:2021-07-23 15:20:57 公開日:2021-07-21
# モデル自由制御のためのオンライン学習型ディープニューロ適応動的インバージョン制御

Online-Learning Deep Neuro-Adaptive Dynamic Inversion Controller for Model Free Control ( http://arxiv.org/abs/2107.10383v1 )

ライセンス: Link先を確認
Nathan Lutes and K. Krishnamurthy and Venkata Sriram Siddhardh Nadendla and S. N. Balakrishnan(参考訳) 適応的手法は、モデリングの領域で提供される柔軟性と許しのために制御文学の中で人気がある。 ニューラルネットワーク適応制御は、未知の関数を近似する機械学習アルゴリズムの強力な性質と、従来の適応制御における特定の制約を緩和する能力に特に好ましい。 ディープニューラルネットワークは、浅いフレームワークに比べて近似特性が非常に優れている大規模なフレームワークネットワークである。 しかし,深層ニューラルネットワークの実装は,学習中の勾配の消失・爆発などの複雑度が大きいため困難である。 本稿では,新しい重み更新法に基づいて訓練された深層ニューラルネットワークを特徴とするニューロ適応制御器を実装し,勾配の符号のみを組み込むことで,消失・爆発勾配問題から逃れる。 設計したコントローラのタイプは、二次推定ループの修正状態オブザーバを利用してネットワークをトレーニングする適応動的インバージョンコントローラである。 ディープニューラルネットワークは、植物モデル全体をオンラインで学習し、完全にモデルフリーのコントローラを作成する。 コントローラの設計は、2リンクの平面ロボットアームでシミュレーションでテストされる。 コントローラは非線形植物を素早く学習でき、トラッキング制御問題において優れた性能を示す。

Adaptive methods are popular within the control literature due to the flexibility and forgiveness they offer in the area of modelling. Neural network adaptive control is favorable specifically for the powerful nature of the machine learning algorithm to approximate unknown functions and for the ability to relax certain constraints within traditional adaptive control. Deep neural networks are large framework networks with vastly superior approximation characteristics than their shallow counterparts. However, implementing a deep neural network can be difficult due to size specific complications such as vanishing/exploding gradients in training. In this paper, a neuro-adaptive controller is implemented featuring a deep neural network trained on a new weight update law that escapes the vanishing/exploding gradient problem by only incorporating the sign of the gradient. The type of controller designed is an adaptive dynamic inversion controller utilizing a modified state observer in a secondary estimation loop to train the network. The deep neural network learns the entire plant model on-line, creating a controller that is completely model free. The controller design is tested in simulation on a 2 link planar robot arm. The controller is able to learn the nonlinear plant quickly and displays good performance in the tracking control problem.
翻訳日:2021-07-23 15:20:29 公開日:2021-07-21
# starganv2-vc:自然音声変換のための多様な教師なし非並列フレームワーク

StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion ( http://arxiv.org/abs/2107.10394v1 )

ライセンス: Link先を確認
Yinghao Aaron Li, Ali Zare, Nima Mesgarani(参考訳) 本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた非並列多人数音声変換手法を提案する。 逆方向のソース分類器の損失と知覚的損失の組み合わせにより、我々のモデルは従来のVCモデルよりも大幅に優れていた。 我々のモデルは、20人の英語話者でしか訓練されていないが、任意の対多、多言語、歌唱変換など、様々な音声変換タスクに一般化されている。 また, スタイルエンコーダを用いて, 平易な読み上げ音声を, 情緒的, 虚偽的音声などのスタイリスティックな音声に変換する。 非並列多言語音声変換タスクの主観的および客観的評価実験により,テキストラベルを必要とせずに,TTSに基づく音声変換手法の音質に近い自然な音声を生成できることが明らかになった。 さらに,本モデルは完全に畳み込み型であり,Parallel WaveGANのような高速なボコーダでリアルタイム音声変換を行うことができる。

We present an unsupervised non-parallel many-to-many voice conversion (VC) method using a generative adversarial network (GAN) called StarGAN v2. Using a combination of adversarial source classifier loss and perceptual loss, our model significantly outperforms previous VC models. Although our model is trained only with 20 English speakers, it generalizes to a variety of voice conversion tasks, such as any-to-many, cross-lingual, and singing conversion. Using a style encoder, our framework can also convert plain reading speech into stylistic speech, such as emotional and falsetto speech. Subjective and objective evaluation experiments on a non-parallel many-to-many voice conversion task revealed that our model produces natural sounding voices, close to the sound quality of state-of-the-art text-to-speech (TTS) based voice conversion methods without the need for text labels. Moreover, our model is completely convolutional and with a faster-than-real-tim e vocoder such as Parallel WaveGAN can perform real-time voice conversion.
翻訳日:2021-07-23 15:20:09 公開日:2021-07-21
# digital einstein experience: 会話型aiのための高速テキスト合成

Digital Einstein Experience: Fast Text-to-Speech for Conversational AI ( http://arxiv.org/abs/2107.10658v1 )

ライセンス: Link先を確認
Joanna Rownicka, Kilian Sprenkamp, Antonio Tripiana, Volodymyr Gromoglasov, Timo P Kunz(参考訳) 会話型aiユースケースのためのカスタム音声の作成と提供のアプローチについて説明する。 より具体的には、デジタル会話体験の中で人間とコンピュータのインタラクションを可能にするデジタルアインシュタインキャラクタの音声を提供する。 文脈によく適合する音声を作成するために,まず音声キャラクタをデザインし,所望の音声属性に対応する録音を生成する。 声をモデル化します 本稿では,Fastspeech 2を用いて音素とパラレルウェーブGANからのメログラムのログスケール予測を行い,波形を生成する。 このシステムは、文字入力をサポートし、出力に音声波形を与える。 適切な発音を保証するために、選択した単語のカスタム辞書を使用します。 提案したクラウドアーキテクチャは,高速な音声配信を可能にするため,Albert Einsteinのディジタルバージョンとリアルタイムに通信することができる。

We describe our approach to create and deliver a custom voice for a conversational AI use-case. More specifically, we provide a voice for a Digital Einstein character, to enable human-computer interaction within the digital conversation experience. To create the voice which fits the context well, we first design a voice character and we produce the recordings which correspond to the desired speech attributes. We then model the voice. Our solution utilizes Fastspeech 2 for log-scaled mel-spectrogram prediction from phonemes and Parallel WaveGAN to generate the waveforms. The system supports a character input and gives a speech waveform at the output. We use a custom dictionary for selected words to ensure their proper pronunciation. Our proposed cloud architecture enables for fast voice delivery, making it possible to talk to the digital version of Albert Einstein in real-time.
翻訳日:2021-07-23 13:01:33 公開日:2021-07-21
# Small-text: Pythonのテキスト分類のためのアクティブラーニング

Small-text: Active Learning for Text Classification in Python ( http://arxiv.org/abs/2107.10314v1 )

ライセンス: Link先を確認
Christopher Schr\"oder, Lydia M\"uller, Andreas Niekler, Martin Potthast(参考訳) 我々は,Pythonのテキスト分類にプールベースのアクティブラーニングを提供する,シンプルなモジュール型アクティブラーニングライブラリであるSmall-textを紹介する。 GPUを活用できるものなど、さまざまな実装済みの最先端クエリ戦略を備えている。 明確に定義されたインターフェースは、複数のクエリ戦略を異なる分類器と組み合わせることで、迅速な混合とマッチングを容易にし、アクティブな学習実験とアプリケーションの両方の迅速な開発を可能にする。 さまざまな分類器を一貫した方法でアクセスできるようにするため、Scikit-learn、PyTorch、Huggingface transformerなど、よく知られた機械学習ライブラリを統合している。 このライブラリはMIT Licenseのhttps://github.com/w ebis-de/small-textで入手できる。

We present small-text, a simple modular active learning library, which offers pool-based active learning for text classification in Python. It comes with various pre-implemented state-of-the-art query strategies, including some which can leverage the GPU. Clearly defined interfaces allow to combine a multitude of such query strategies with different classifiers, thereby facilitating a quick mix and match, and enabling a rapid development of both active learning experiments and applications. To make various classifiers accessible in a consistent way, it integrates several well-known machine learning libraries, namely, scikit-learn, PyTorch, and huggingface transformers -- for which the latter integrations are available as optionally installable extensions. The library is available under the MIT License at https://github.com/w ebis-de/small-text.
翻訳日:2021-07-23 13:00:29 公開日:2021-07-21
# cofee:オンラインアノテーションツールによるテキストからのイベント抽出のための包括的なオントロジー

COfEE: A Comprehensive Ontology for Event Extraction from text, with an online annotation tool ( http://arxiv.org/abs/2107.10326v1 )

ライセンス: Link先を確認
Ali Balali, Masoud Asadpour, Seyed Hossein Jafari(参考訳) データは時間とともに膨大な量でweb上に公開されるが、データの大部分は構造化されていないため、理解が難しく、解釈が難しい。 情報抽出(ie)法は、構造化されていないデータから構造化情報を抽出する。 IEの課題のひとつは、特定のインシデントとそのアクターに関する情報をテキストから導き出そうとするイベント抽出(EE)である。 EEは知識ベースの構築、情報検索、要約、オンライン監視システムなど、多くの領域で有用である。 過去数十年間、ACE、CAMEO、ICEWSのようなイベントオントロジーは、テキストで観察されるイベントの形式、アクター、次元を定義するために開発された。 これらのイベントオントロジーには、政治イベントや議論の役割の定義における柔軟性のない構造、分析的な次元の欠如、イベントサブタイプを選択する際の複雑さなど、いくつかのトピックのみをカバーする、いくつかの欠点がある。 これらの問題に対処するために、専門家のドメイン知識、以前のオントロジー、およびテキストからイベントを識別するためのデータ駆動アプローチの両方を組み込んだイベントオントロジー、すなわち、COfEEを提案する。 COfEEは2つの階層レベル(イベントタイプとイベントサブタイプ)から構成されており、環境問題、サイバースペース、犯罪活動、自然災害に関連する新しいカテゴリーがすぐに監視される必要がある。 また、イベントサブタイプごとに動的ロールを定義し、イベントのさまざまな次元をキャプチャする。 追従実験において,提案したオントロジーはウィキペディアのイベント上で評価され,総合的かつ包括的であることが示されている。 また、イベント抽出のためのゴールドスタンダードデータの作成を容易にするため、COfEEに基づく言語に依存しないオンラインツールを提示する。

Data is published on the web over time in great volumes, but majority of the data is unstructured, making it hard to understand and difficult to interpret. Information Extraction (IE) methods extract structured information from unstructured data. One of the challenging IE tasks is Event Extraction (EE) which seeks to derive information about specific incidents and their actors from the text. EE is useful in many domains such as building a knowledge base, information retrieval, summarization and online monitoring systems. In the past decades, some event ontologies like ACE, CAMEO and ICEWS were developed to define event forms, actors and dimensions of events observed in the text. These event ontologies still have some shortcomings such as covering only a few topics like political events, having inflexible structure in defining argument roles, lack of analytical dimensions, and complexity in choosing event sub-types. To address these concerns, we propose an event ontology, namely COfEE, that incorporates both expert domain knowledge, previous ontologies and a data-driven approach for identifying events from text. COfEE consists of two hierarchy levels (event types and event sub-types) that include new categories relating to environmental issues, cyberspace, criminal activity and natural disasters which need to be monitored instantly. Also, dynamic roles according to each event sub-type are defined to capture various dimensions of events. In a follow-up experiment, the proposed ontology is evaluated on Wikipedia events, and it is shown to be general and comprehensive. Moreover, in order to facilitate the preparation of gold-standard data for event extraction, a language-independent online tool is presented based on COfEE.
翻訳日:2021-07-23 13:00:13 公開日:2021-07-21
# SO(3)-等変不等形状表現による対応自由点雲の登録

Correspondence-Free Point Cloud Registration with SO(3)-Equivariant Implicit Shape Representations ( http://arxiv.org/abs/2107.10296v1 )

ライセンス: Link先を確認
Minghan Zhu, Maani Ghaffari, Huei Peng(参考訳) 本稿では,点雲回転登録のための対応のない手法を提案する。 我々は,SO(3)-等分散性を保持する特徴空間における各点雲の埋め込みを学習し,近年の同変ニューラルネットワークの発展によって実現された。 提案手法は,同変特徴学習と暗黙的形状モデルを組み合わせた3つの長所を実現する。 まず、PointNetに似たネットワークアーキテクチャにおける置換不変性のため、データアソシエーションの必要性を除去する。 第二に、特徴空間の登録はSO(3)-等分散性によりホルン法を用いて閉形式で解くことができる。 第三に、登録は暗黙の形状学習のため、点雲のノイズに対して堅牢である。 実験の結果,既存の対応なし深層登録法と比較して優れた性能を示した。

This paper proposes a correspondence-free method for point cloud rotational registration. We learn an embedding for each point cloud in a feature space that preserves the SO(3)-equivariance property, enabled by recent developments in equivariant neural networks. The proposed shape registration method achieves three major advantages through combining equivariant feature learning with implicit shape models. First, the necessity of data association is removed because of the permutation-invarian t property in network architectures similar to PointNet. Second, the registration in feature space can be solved in closed-form using Horn's method due to the SO(3)-equivariance property. Third, the registration is robust to noise in the point cloud because of implicit shape learning. The experimental results show superior performance compared with existing correspondence-free deep registration methods.
翻訳日:2021-07-23 12:58:31 公開日:2021-07-21
# 私たちが知っているディープニューラルネットワークをどう伝えるか

How to Tell Deep Neural Networks What We Know ( http://arxiv.org/abs/2107.10295v1 )

ライセンス: Link先を確認
Tirtharaj Dash, Sharad Chitlangia, Aditya Ahuja, Ashwin Srinivasan(参考訳) 本稿では,ニューラルネットワークを用いたモデル構築において,既存の科学的知識を含める方法について簡単な調査を行う。 ドメイン知識の導入は、科学的アシスタントの構築だけでなく、人間と機械の協調によるデータの理解に関わる多くの分野にも特に関心がある。 多くの場合、マシンベースのモデル構築は、十分に正確な形式で符号化されたドメインの人間知識を提供することで、大きな恩恵を受けることができる。 本稿では、入力、損失関数、深層ネットワークのアーキテクチャの変更によるドメイン知識の包含について検討する。 分類は公開の容易さのためのもので、実際にはこのような変更の組み合わせが採用されることを期待しています。 各カテゴリにおいて,ネットワーク性能に大きな変化をもたらすことを示す技術について述べる。

We present a short survey of ways in which existing scientific knowledge are included when constructing models with neural networks. The inclusion of domain-knowledge is of special interest not just to constructing scientific assistants, but also, many other areas that involve understanding data using human-machine collaboration. In many such instances, machine-based model construction may benefit significantly from being provided with human-knowledge of the domain encoded in a sufficiently precise form. This paper examines the inclusion of domain-knowledge by means of changes to: the input, the loss-function, and the architecture of deep networks. The categorisation is for ease of exposition: in practice we expect a combination of such changes will be employed. In each category, we describe techniques that have been shown to yield significant changes in network performance.
翻訳日:2021-07-23 12:57:47 公開日:2021-07-21
# 振動分光法による癌患者由来細胞外小胞の機械学習解析

Machine Learning Characterization of Cancer Patients-Derived Extracellular Vesicles using Vibrational Spectroscopies ( http://arxiv.org/abs/2107.10332v1 )

ライセンス: Link先を確認
Abicumaran Uthamacumaran, Samir Elouatik, Mohamed Abdouh, Michael Berteau-Rainville, Zhu- Hua Gao, and Goffredo Arena(参考訳) 癌の早期発見は医学において難しい問題である。 がん患者の血液の血清には、異種な分泌脂質結合型細胞外小胞(evs)が富まれており、それらは、その起源細胞を表す情報とバイオマーカーの複雑なレパートリーを示し、液体生検およびがんスクリーニングの分野で現在研究されている。 振動分光法は、複雑な生体試料の構造と生体物性の評価に非侵襲的なアプローチを提供する。 本研究では,4種類の癌サブタイプ(大腸癌,肝細胞癌,乳癌,膵癌)と5種類の健常患者(対照群)からなる9例の血液血清から抽出したEVを用いて,複数のラマン分光測定を行った。 FTIR(Fourier Transform Infrared)測定はRaman解析の相補的アプローチとして4種類の癌サブタイプのうち2種類を用いて行った。 AdaBoost Random Forest Classifier, Decision Trees, and Support Vector Machines (SVM) は、がんEVのベースライン修正ラマンスペクトルを、1800~1940 inverse cmのスペクトル周波数範囲に減少すると90%以上の分類精度で識別し、0.5のトレーニング/テスト分割を受けた。 14スペクトルのFTIR分類精度は80%であった。 以上の結果から, 基礎的機械学習アルゴリズムは, がん患者EVと健常患者EVの複雑な振動スペクトルを識別する強力なツールであることがわかった。 これらの実験方法は、マシンインテリジェンスによる早期がん検診における有効かつ効率的な液体生検である。

The early detection of cancer is a challenging problem in medicine. The blood sera of cancer patients are enriched with heterogeneous secretory lipid bound extracellular vesicles (EVs), which present a complex repertoire of information and biomarkers, representing their cell of origin, that are being currently studied in the field of liquid biopsy and cancer screening. Vibrational spectroscopies provide non-invasive approaches for the assessment of structural and biophysical properties in complex biological samples. In this study, multiple Raman spectroscopy measurements were performed on the EVs extracted from the blood sera of 9 patients consisting of four different cancer subtypes (colorectal cancer, hepatocellular carcinoma, breast cancer and pancreatic cancer) and five healthy patients (controls). FTIR(Fourier Transform Infrared) spectroscopy measurements were performed as a complementary approach to Raman analysis, on two of the four cancer subtypes. The AdaBoost Random Forest Classifier, Decision Trees, and Support Vector Machines (SVM) distinguished the baseline corrected Raman spectra of cancer EVs from those of healthy controls (18 spectra) with a classification accuracy of greater than 90% when reduced to a spectral frequency range of 1800 to 1940 inverse cm, and subjected to a 0.5 training/testing split. FTIR classification accuracy on 14 spectra showed an 80% classification accuracy. Our findings demonstrate that basic machine learning algorithms are powerful tools to distinguish the complex vibrational spectra of cancer patient EVs from those of healthy patients. These experimental methods hold promise as valid and efficient liquid biopsy for machine intelligence-assiste d early cancer screening.
翻訳日:2021-07-23 12:57:33 公開日:2021-07-21
# 構造認識型インタラクティブグラフニューラルネットワークによるタンパク質結合親和性予測

Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligand Binding Affinity ( http://arxiv.org/abs/2107.10670v1 )

ライセンス: Link先を確認
Shuangli Li, Jingbo Zhou, Tong Xu, Liang Huang, Fan Wang, Haoyi Xiong, Weili Huang, Dejing Dou, Hui Xiong(参考訳) 創薬はしばしばタンパク質リガンド結合親和性の予測に依拠する。 近年の進歩は、タンパク質-リガンド複合体の表現を学習することで、グラフニューラルネットワーク(GNN)をより良い親和性予測に応用する大きな可能性を示している。 しかし、既存の溶液は通常タンパク質-リガンド複合体をトポロジカルグラフデータとして扱うため、生体分子構造情報は十分に利用されていない。 原子間の重要な長距離相互作用もGNNモデルでは無視される。 そこで本研究では,極性グラフ注意層 (PGAL) と相互対話型プール (PiPool) の2つのコンポーネントから構成される構造対応グラフニューラルネットワーク (SIGN) を提案する。 具体的には、PGALは、原子間の距離と角度情報を保存しながら、ノードとエッジの埋め込みを更新するノードエッジ集約プロセスを反復的に実行する。 次に、PiPoolを使用して対話的なエッジを収集し、その後の再構築損失を処理して、グローバルなインタラクションを反映する。 SIGNの優位性を検証した2つのベンチマークに関する実験的研究。

Drug discovery often relies on the successful prediction of protein-ligand binding affinity. Recent advances have shown great promise in applying graph neural networks (GNNs) for better affinity prediction by learning the representations of protein-ligand complexes. However, existing solutions usually treat protein-ligand complexes as topological graph data, thus the biomolecular structural information is not fully utilized. The essential long-range interactions among atoms are also neglected in GNN models. To this end, we propose a structure-aware interactive graph neural network (SIGN) which consists of two components: polar-inspired graph attention layers (PGAL) and pairwise interactive pooling (PiPool). Specifically, PGAL iteratively performs the node-edge aggregation process to update embeddings of nodes and edges while preserving the distance and angle information among atoms. Then, PiPool is adopted to gather interactive edges with a subsequent reconstruction loss to reflect the global interactions. Exhaustive experimental study on two benchmarks verifies the superiority of SIGN.
翻訳日:2021-07-23 12:57:00 公開日:2021-07-21
# 軌道予測評価の再考

Rethinking Trajectory Forecasting Evaluation ( http://arxiv.org/abs/2107.10297v1 )

ライセンス: Link先を確認
Boris Ivanovic and Marco Pavone(参考訳) 他のエージェントの振る舞いを予測することは、特に自律運転のような人間とロボットの相互作用を伴う安全クリティカルなシナリオにおいて、現代ロボット自律スタックの不可欠な部分である。 結果として、軌道予測に対するかなりの関心と研究が行われ、様々なアプローチが生み出された。 しかし、すべての作業に共通しているのは、変位誤差やログライクな状態など、精度に基づいた測定基準がほとんどないことだ。 これらの指標は情報的であるが、それらはタスクに依存しず、等しく評価される予測は、下流の計画や意思決定など、非常に異なる結果をもたらす。 本研究では,現在の軌道予測指標を一歩引いて批判的に評価し,予測がデプロイされているシステムの性能の指標としてタスク対応メトリクスを提案する。 さらに、既存の軌道予測メトリクスに計画認識機能を組み込んだメトリクスの例も提示する。

Forecasting the behavior of other agents is an integral part of the modern robotic autonomy stack, especially in safety-critical scenarios with human-robot interaction, such as autonomous driving. In turn, there has been a significant amount of interest and research in trajectory forecasting, resulting in a wide variety of approaches. Common to all works, however, is the use of the same few accuracy-based evaluation metrics, e.g., displacement error and log-likelihood. While these metrics are informative, they are task-agnostic and predictions that are evaluated as equal can lead to vastly different outcomes, e.g., in downstream planning and decision making. In this work, we take a step back and critically evaluate current trajectory forecasting metrics, proposing task-aware metrics as a better measure of performance in systems where prediction is being deployed. We additionally present one example of such a metric, incorporating planning-awareness within existing trajectory forecasting metrics.
翻訳日:2021-07-23 12:56:25 公開日:2021-07-21
# 実世界の課題を目標とした強化学習エージェントトレーニング

Reinforcement Learning Agent Training with Goals for Real World Tasks ( http://arxiv.org/abs/2107.10390v1 )

ライセンス: Link先を確認
Xuan Zhao and Marcos Campos(参考訳) 強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。 しかし、複雑なタスク(例えば、複数の目的と安全性の制約がある)に対する報酬関数の設計は、ほとんどのユーザにとって困難であり、通常、複数の高価なトライアル(リワード関数ハッキング)を必要とする。 本稿では,複雑な制御タスクと最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。 フレームワークの中核となる要素は、(i)高レベル言語を制御および最適化タスクに適した述語時間論理にマッピングすること、(ii)RLアルゴリズムの駆動に使用できる新しいオートマトン誘導密度の報酬生成を行うこと、(iii)システムの動作を評価するためのパフォーマンス指標のセットであることである。 提案手法が幅広い実世界のタスクを特定するのに非常に便利であることを示す実験のセットと、生成された報酬が、特定の目標を達成するためのポリシートレーニングを駆動できることを示す実験を含む。

Reinforcement Learning (RL) is a promising approach for solving various control, optimization, and sequential decision making tasks. However, designing reward functions for complex tasks (e.g., with multiple objectives and safety constraints) can be challenging for most users and usually requires multiple expensive trials (reward function hacking). In this paper we propose a specification language (Inkling Goal Specification) for complex control and optimization tasks, which is very close to natural language and allows a practitioner to focus on problem specification instead of reward function hacking. The core elements of our framework are: (i) mapping the high level language to a predicate temporal logic tailored to control and optimization tasks, (ii) a novel automaton-guided dense reward generation that can be used to drive RL algorithms, and (iii) a set of performance metrics to assess the behavior of the system. We include a set of experiments showing that the proposed method provides great ease of use to specify a wide range of real world tasks; and that the reward generated is able to drive the policy training to achieve the specified goal.
翻訳日:2021-07-23 12:55:40 公開日:2021-07-21
# 手書き回路図画像のための公開基底データセット

A Public Ground-Truth Dataset for Handwritten Circuit Diagram Images ( http://arxiv.org/abs/2107.10373v1 )

ライセンス: Link先を確認
Felix Thoma, Johannes Bayer, Yakun Li(参考訳) 線画(特に電気工学の分野で)のデジタル化手法の開発は、公開されているトレーニングや評価データの利用可能性に依存している。 本稿ではアノテーションとともにそのようなイメージを提示する。 データセットは、12の起草者による144の回路の1152の画像と48の563のアノテーションで構成されている。 これらの画像はそれぞれ、照明条件や視点の異なる消費者グレードカメラによって撮影された電気回路図を描いている。 様々な種類の鉛筆や表面材料が使用されている。 各画像に対して、個々の電気部品にはバウンディングボックスと45種類のラベルのうちの1つがアノテートされる。 グラフ抽出プロセスを単純化するために、接合点やクロスオーバーといった異なるヘルパーシンボルが導入され、テキストも注釈付けされる。 この課題から生じる幾何学的・分類学的問題や、クラス自体や外観の統計が述べられている。 データセット上での標準のFaster RCNNのパフォーマンスは、オブジェクト検出ベースラインとして提供される。

The development of digitization methods for line drawings (especially in the area of electrical engineering) relies on the availability of publicly available training and evaluation data. This paper presents such an image set along with annotations. The dataset consists of 1152 images of 144 circuits by 12 drafters and 48 563 annotations. Each of these images depicts an electrical circuit diagram, taken by consumer grade cameras under varying lighting conditions and perspectives. A variety of different pencil types and surface materials has been used. For each image, all individual electrical components are annotated with bounding boxes and one out of 45 class labels. In order to simplify a graph extraction process, different helper symbols like junction points and crossovers are introduced, while texts are annotated as well. The geometric and taxonomic problems arising from this task as well as the classes themselves and statistics of their appearances are stated. The performance of a standard Faster RCNN on the dataset is provided as an object detection baseline.
翻訳日:2021-07-23 12:54:45 公開日:2021-07-21
# 超スペクトルイメージングデータの規則に基づく分類

Rule-Based Classification of Hyperspectral Imaging Data ( http://arxiv.org/abs/2107.10638v1 )

ライセンス: Link先を確認
Songuel Polat, Alain Tremeau, Frank Boochs(参考訳) 空間的およびスペクトル的な情報量が高いため、ハイパースペクトルイメージングは様々なアプリケーションでデータやシーンをよりよく理解するための新たな可能性を開く。 この理解過程の重要な部分は分類部分である。 本稿ではスペクトルシグネチャの形状に基づく一般的な分類手法を提案する。 古典的な分類アプローチとは対照的に(例えば) svm, knn), 反射率値だけでなく, 曲率点, 曲率値, スペクトルシグネチャの曲率挙動などのパラメータも考慮し, if-thenクエリを用いた規則ベースの手順による分類に使用するために, 形状記述規則を開発する。 方法論の柔軟性と効率性は、2つの異なるアプリケーションフィールドのデータセットを使用して実証され、優れたパフォーマンスで結果を説得する。

Due to its high spatial and spectral information content, hyperspectral imaging opens up new possibilities for a better understanding of data and scenes in a wide variety of applications. An essential part of this process of understanding is the classification part. In this article we present a general classification approach based on the shape of spectral signatures. In contrast to classical classification approaches (e.g. SVM, KNN), not only reflectance values are considered, but also parameters such as curvature points, curvature values, and the curvature behavior of spectral signatures are used to develop shape-describing rules in order to use them for classification by a rule-based procedure using IF-THEN queries. The flexibility and efficiency of the methodology is demonstrated using datasets from two different application fields and leads to convincing results with good performance.
翻訳日:2021-07-23 12:53:11 公開日:2021-07-21
# 顧客評価に基づくホスピタリティ部門におけるサービス品質評価のための機械学習

Machine learning for assessing quality of service in the hospitality sector based on customer reviews ( http://arxiv.org/abs/2107.10328v1 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on, Andreina Moros Ochoa, Gilmer Yovani Castro Nieto and Jorge E. Camargo(参考訳) オンラインホスピタリティプラットフォームの利用の増加は、ホテルサービスの改善とサービス認知の質向上に不可欠な、クライアントの好みに関する直接情報を提供する。 カスタマーレビューは、ホスピタリティクライアントのサービス品質の最も関連性の高い側面を自動的に抽出するために使用できます。 本稿では,自然言語処理と機械学習による顧客レビューの活用に基づく,ホスピタリティ部門におけるサービス品質評価の枠組みを提案する。 提案フレームワークは,ホテル顧客に関連するサービス品質を自動的に検出する。 Bogot\'a と Madrid のホテルレビューは Booking.com から自動的に削除される。 意味情報は潜在ディリクレ割当とfasttextによって推測され、テキストレビューをベクトルとして表現することができる。 大量の顧客レビューを可視化し,解釈するために,次元還元手法を適用した。 サービス側面の最も重要な品質の可視化が生成され、サービス品質を質的に定量的に評価することができる。 結果から,大規模な顧客レビューデータセットから,顧客が認識するサービス面の主品質を自動的に抽出できることが示唆された。 これらの発見は、ホスピタリティマネージャが顧客をよりよく理解し、サービスの質を改善するために利用することができる。

The increasing use of online hospitality platforms provides firsthand information about clients preferences, which are essential to improve hotel services and increase the quality of service perception. Customer reviews can be used to automatically extract the most relevant aspects of the quality of service for hospitality clientele. This paper proposes a framework for the assessment of the quality of service in the hospitality sector based on the exploitation of customer reviews through natural language processing and machine learning methods. The proposed framework automatically discovers the quality of service aspects relevant to hotel customers. Hotel reviews from Bogot\'a and Madrid are automatically scrapped from Booking.com. Semantic information is inferred through Latent Dirichlet Allocation and FastText, which allow representing text reviews as vectors. A dimensionality reduction technique is applied to visualise and interpret large amounts of customer reviews. Visualisations of the most important quality of service aspects are generated, allowing to qualitatively and quantitatively assess the quality of service. Results show that it is possible to automatically extract the main quality of service aspects perceived by customers from large customer review datasets. These findings could be used by hospitality managers to understand clients better and to improve the quality of service.
翻訳日:2021-07-23 12:51:46 公開日:2021-07-21
# (参考訳) Bayesian Controller Fusion:ロボットの深部強化学習における制御の活用 [全文訳有]

Bayesian Controller Fusion: Leveraging Control Priors in Deep Reinforcement Learning for Robotics ( http://arxiv.org/abs/2107.09822v1 )

ライセンス: CC BY 4.0
Krishan Rana, Vibhavari Dasagi, Jesse Haviland, Ben Talbot, Michael Milford and Niko S\"underhauf(参考訳) 本稿では,従来の手作りコントローラの強みとモデルフリー深部強化学習(RL)を組み合わせたハイブリッド制御戦略であるBayesian Controller Fusion(BCF)を紹介する。 BCFはロボティクス領域で成長し、多くのタスクに対して信頼性はあるが最適でない制御が優先されるが、スクラッチからのRLは安全でデータ非効率である。 各システムからの不確実性を認識した分布出力を融合することにより、BCFはそれらの間の制御を調停し、それぞれの強みを利用する。 我々は,広大かつ長期にわたる環境下でのナビゲーションと,マニピュラビリティの最大化を伴う複雑な到達タスクの2つの実世界のロボティクスタスクについてBCFを研究する。 どちらの領域においても、手持ちのタスクをリスク回避的な方法で解くことができる単純な手作りのコントローラが存在するが、必ずしも分析モデリングやコントローラのミスキャリブレーション、タスクのばらつきといった制限が与えられた最適解を示すわけではない。 訓練の初期段階における事前の指導が自然に行われるため、BCFは学習を加速し、政策がより経験を積むにつれて、事前の制御性能よりも大幅に改善する。 さらに重要なことは、コントロールの事前のリスクの多様性を考えると、BCFはセキュアな探索 \emph{and} デプロイメントを保証する。 また,BCF のゼロショット sim-to-real 設定への適用性と,実世界の分布外状態を扱う能力についても述べる。 BCFは、深いRLと従来のロボット制御の相補的な強みを組み合わせるための、有望なアプローチである。 コードと追加ビデオは \url{https://krishanrana. github.io/bcf} で公開されている。

We present Bayesian Controller Fusion (BCF): a hybrid control strategy that combines the strengths of traditional hand-crafted controllers and model-free deep reinforcement learning (RL). BCF thrives in the robotics domain, where reliable but suboptimal control priors exist for many tasks, but RL from scratch remains unsafe and data-inefficient. By fusing uncertainty-aware distributional outputs from each system, BCF arbitrates control between them, exploiting their respective strengths. We study BCF on two real-world robotics tasks involving navigation in a vast and long-horizon environment, and a complex reaching task that involves manipulability maximisation. For both these domains, there exist simple handcrafted controllers that can solve the task at hand in a risk-averse manner but do not necessarily exhibit the optimal solution given limitations in analytical modelling, controller miscalibration and task variation. As exploration is naturally guided by the prior in the early stages of training, BCF accelerates learning, while substantially improving beyond the performance of the control prior, as the policy gains more experience. More importantly, given the risk-aversity of the control prior, BCF ensures safe exploration \emph{and} deployment, where the control prior naturally dominates the action distribution in states unknown to the policy. We additionally show BCF's applicability to the zero-shot sim-to-real setting and its ability to deal with out-of-distribution states in the real-world. BCF is a promising approach for combining the complementary strengths of deep RL and traditional robotic control, surpassing what either can achieve independently. The code and supplementary video material are made publicly available at \url{https://krishanrana. github.io/bcf}.
翻訳日:2021-07-22 22:13:56 公開日:2021-07-21
# (参考訳) 原因と効果の誘導 [全文訳有]

Guided Generation of Cause and Effect ( http://arxiv.org/abs/2107.09846v1 )

ライセンス: CC BY 4.0
Zhongyang Li, Xiao Ding, Ting Liu, J. Edward Hu, Benjamin Van Durme(参考訳) 本稿では,原因や影響のセンテンシャル表現を提示する条件付きテキスト生成フレームワークを提案する。 このフレームワークは、この作業の過程で私たちが開発した2つの新しいリソースに依存しています。因果パターンを表現した非常に大規模な英文の集合と、大きな語彙因果知識グラフの構築に関する以前の作業に対する改良です。 さらに,解離正の制約をサポートするために,語彙制約付き復号法における先行作業を延長する。 人間の評価は、我々のアプローチが高品質で多様なアウトプットをもたらすことを確認します。 最後に、CausalBankを使用して、最近の因果推論の最先端モデルをサポートするエンコーダの継続的なトレーニングを行い、モデルアーキテクチャの変更なしにCOPAチャレンジセットを3ポイント改善しました。

We present a conditional text generation framework that posits sentential expressions of possible causes and effects. This framework depends on two novel resources we develop in the course of this work: a very large-scale collection of English sentences expressing causal patterns CausalBank; and a refinement over previous work on constructing large lexical causal knowledge graphs Cause Effect Graph. Further, we extend prior work in lexically-constraine d decoding to support disjunctive positive constraints. Human assessment confirms that our approach gives high-quality and diverse outputs. Finally, we use CausalBank to perform continued training of an encoder supporting a recent state-of-the-art model for causal reasoning, leading to a 3-point improvement on the COPA challenge set, with no change in model architecture.
翻訳日:2021-07-22 21:42:23 公開日:2021-07-21
# (参考訳) CausalBERT:最小限のスーパービジョンを持つ事前学習モデルに因果知識を注入する [全文訳有]

CausalBERT: Injecting Causal Knowledge Into Pre-trained Models with Minimal Supervision ( http://arxiv.org/abs/2107.09852v1 )

ライセンス: CC BY 4.0
Zhongyang Li, Xiao Ding, Kuo Liao, Ting Liu, Bing Qin(参考訳) 最近の研究は、NLPシステムを改善するためにBERTのような事前訓練されたモデルを導入することに成功している。 しかし、既存の訓練済みモデルには、今日のNLPシステムが人間のように考えるのを防ぐ因果知識がない。 本稿では,事前学習モデルに因果知識を注入する問題について検討する。 1)非構造化テキストから大規模因果的資源の収集方法,2)事前学習されたモデルに因果的知識を効果的に注入する方法。 これらの問題に対処するため、我々は因果関係の正確なパターンと因果関係の埋め込み技術を用いて、最大規模の因果関係資源を収集するCausalBERTを提案する。 さらに,すでに習得済みの知識を余分な正規化項で保存し,因果的知識を注入する正規化ベース手法を採用する。 4つの因果ペア分類タスク、2つの因果QAタスク、1つの因果推論タスクを含む7つのデータセットに対する大規模な実験は、CausalBERTが豊富な因果知識をキャプチャし、事前訓練されたモデルに基づくすべての最先端メソッドを上回り、新しい因果推論ベンチマークを達成することを実証している。

Recent work has shown success in incorporating pre-trained models like BERT to improve NLP systems. However, existing pre-trained models lack of causal knowledge which prevents today's NLP systems from thinking like humans. In this paper, we investigate the problem of injecting causal knowledge into pre-trained models. There are two fundamental problems: 1) how to collect a large-scale causal resource from unstructured texts; 2) how to effectively inject causal knowledge into pre-trained models. To address these issues, we propose CausalBERT, which collects the largest scale of causal resource using precise causal patterns and causal embedding techniques. In addition, we adopt a regularization-based method to preserve the already learned knowledge with an extra regularization term while injecting causal knowledge. Extensive experiments on 7 datasets, including four causal pair classification tasks, two causal QA tasks and a causal inference task, demonstrate that CausalBERT captures rich causal knowledge and outperforms all pre-trained models-based state-of-the-art methods, achieving a new causal inference benchmark.
翻訳日:2021-07-22 21:26:50 公開日:2021-07-21
# (参考訳) 重み付き対合(wIoU):画像分割のための新しい評価基準 [全文訳有]

Weighted Intersection over Union (wIoU): A New Evaluation Metric for Image Segmentation ( http://arxiv.org/abs/2107.09858v1 )

ライセンス: CC BY 4.0
Yeong-Jun Cho(参考訳) 本稿では,セマンティックセグメンテーションの性能評価のための新しい評価指標を提案する。 近年,大規模画像データセット上でピクセルレベルの分類器を訓練し,正確なセマンティクスセグメンテーションを行う研究が数多く行われている。 セマンティックセグメンテーションの目的は、シーンの各ピクセルのクラスラベルを割り当てることである。 コンピュータビジョンの分野では、オブジェクト検出、分類、シーン理解など、さまざまな潜在的な応用がある。 提案したwIoU評価指標を検証するために,提案したwIoU指標に基づいて,公開ベンチマークデータセット(KITTIなど)上で,従来の評価指標と比較した。

In this paper, we propose a novel evaluation metric for performance evaluation of semantic segmentation. In recent years, many studies have tried to train pixel-level classifiers on large-scale image datasets to perform accurate semantic segmentation. The goal of semantic segmentation is to assign a class label of each pixel in the scene. It has various potential applications in computer vision fields e.g., object detection, classification, scene understanding and Etc. To validate the proposed wIoU evaluation metric, we tested state-of-the art methods on public benchmark datasets (e.g., KITTI) based on the proposed wIoU metric and compared with other conventional evaluation metrics.
翻訳日:2021-07-22 21:08:15 公開日:2021-07-21
# (参考訳) マルチモーダル融合を用いた心電図心拍分類 [全文訳有]

ECG Heartbeat Classification Using Multimodal Fusion ( http://arxiv.org/abs/2107.09869v1 )

ライセンス: CC BY 4.0
Zeeshan Ahmad, Anika Tabassum, Ling Guan, Naimul Khan(参考訳) 心電図(ECG)は、不整脈や心筋梗塞(MI)などの重症心血管症候群を診断し、治療するための権威源である。 現在の機械学習技術は、手動で抽出した特徴や、1d ecg信号を直接利用する大規模で複雑なディープラーニングネットワークに依存する。 そこで本稿では,心電図の拍動分類のための2つの計算効率の良いマルチモーダル融合フレームワークであるMultimodal Image Fusion (MIF)とMultimodal Feature Fusion (MFF)を提案する。 これらのフレームワークの入力では、生のecgデータをグラミアン角場(gaf)、再帰プロット(rp)、マルコフ遷移場(mtf)を用いて3つの異なる画像に変換する。 mifでは,3つのイメージモダリティを組み合わせて,畳み込みニューラルネットワーク(cnn)への入力となる1つのイメージモダリティを生成することにより,画像融合を行う。 MFFでは,CNNの垂直層から特徴を抽出し,識別器の性能向上に必要なユニークかつ相互依存的な情報を得る。 これらの情報機能は、心電図の心拍分類のためのSVM(Support Vector Machine)分類器のトレーニングに最終的に使用される。 我々は、AAMI EC57プロトコルと整合した5つの不整脈条件と、心筋梗塞(MI)分類のためのPTB診断データセットに対して、PhyloNets MIT-BIHデータセットを用いて実験を行うことにより、提案した融合モデルの優位性を示す。 不整脈とmi分類において,99.7%,99.2%の分類精度が得られた。

Electrocardiogram (ECG) is an authoritative source to diagnose and counter critical cardiovascular syndromes such as arrhythmia and myocardial infarction (MI). Current machine learning techniques either depend on manually extracted features or large and complex deep learning networks which merely utilize the 1D ECG signal directly. Since intelligent multimodal fusion can perform at the stateof-the-art level with an efficient deep network, therefore, in this paper, we propose two computationally efficient multimodal fusion frameworks for ECG heart beat classification called Multimodal Image Fusion (MIF) and Multimodal Feature Fusion (MFF). At the input of these frameworks, we convert the raw ECG data into three different images using Gramian Angular Field (GAF), Recurrence Plot (RP) and Markov Transition Field (MTF). In MIF, we first perform image fusion by combining three imaging modalities to create a single image modality which serves as input to the Convolutional Neural Network (CNN). In MFF, we extracted features from penultimate layer of CNNs and fused them to get unique and interdependent information necessary for better performance of classifier. These informational features are finally used to train a Support Vector Machine (SVM) classifier for ECG heart-beat classification. We demonstrate the superiority of the proposed fusion models by performing experiments on PhysioNets MIT-BIH dataset for five distinct conditions of arrhythmias which are consistent with the AAMI EC57 protocols and on PTB diagnostics dataset for Myocardial Infarction (MI) classification. We achieved classification accuracy of 99.7% and 99.2% on arrhythmia and MI classification, respectively.
翻訳日:2021-07-22 21:04:12 公開日:2021-07-21
# (参考訳) Pedophilesはどうやってつぶやくのか? フィリピンにおける児童サイバーセックストラッカーの書き方とオンラインペルソナに関する研究 [全文訳有]

How Do Pedophiles Tweet? Investigating the Writing Styles and Online Personas of Child Cybersex Traffickers in the Philippines ( http://arxiv.org/abs/2107.09881v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial(参考訳) すべての個人の最も重要な人道的責任の1つは、子供の未来を守ることである。 これは身体的福祉の保護だけでなく、性的強制や虐待などの子どもの精神的健康に影響を及ぼす可能性のある出来事も伴うが、最悪の場合、生涯の外傷につながる可能性がある。 本研究では,児童性愛者が違法なポルノコンテンツを拡散し,自然言語処理技術を用いてフィリピンのtwitter上で未成年者を対象とする予備調査を行った。 調査の結果,児童ポルノの拡散に寄与する4つの主な役割だけでなく,人身売買者がコンテンツの拡散に使用する単語が多用され,共起していることが明らかとなった。

One of the most important humanitarian responsibility of every individual is to protect the future of our children. This entails not only protection of physical welfare but also from ill events that can potentially affect the mental well-being of a child such as sexual coercion and abuse which, in worst-case scenarios, can result to lifelong trauma. In this study, we perform a preliminary investigation of how child sex peddlers spread illegal pornographic content and target minors for sexual activities on Twitter in the Philippines using Natural Language Processing techniques. Results of our studies show frequently used and co-occurring words that traffickers use to spread content as well as four main roles played by these entities that contribute to the proliferation of child pornography in the country.
翻訳日:2021-07-22 20:41:24 公開日:2021-07-21
# (参考訳) 物理に基づく不確実性を考慮したマルチモーダル学習を用いた低線量PETに向けて

Towards Lower-Dose PET using Physics-Based Uncertainty-Aware Multimodal Learning with Robustness to Out-of-Distribution Data ( http://arxiv.org/abs/2107.09892v1 )

ライセンス: CC BY 4.0
Viswanath P. Sudarshan, Uddeshya Upadhyay, Gary F. Egan, Zhaolin Chen, Suyash P. Awate(参考訳) ポジトロン・エミッション・トモグラフィ(pet)における放射線被曝は、放射線に敏感な集団(例えば、妊婦、子供、および縦方向イメージングを必要とする成人)の研究における使用を制限する。 PET線量や取得時間を減らすことで光子数が少なくなり、画質が低下する。 近年のディープ・ニューラル・ネットワーク(DNN)を用いた画像・画像間の翻訳手法により、低品質PET画像(実質的に低線量で取得される)とそれに関連するMRI画像の高画質PET画像へのマッピングが可能となった。 しかし、これらのDNN手法は、トレーニングデータの統計的特性に非常によく適合するテストデータを含むアプリケーションに焦点を合わせ、新しいアウト・オブ・ディストリビューション(OOD)取得によるこれらのDNNの性能評価にはほとんど注意を払わない。 そこで本研究では, PET 画像のシノグラムに基づく物理をモデルとした新しい DNN の定式化と, (ii) 予測された基準画像と高品質な基準画像間の残差のボクセル単位のヘテロセシスティック性による DNN 出力の不確かさをモデル化する。 我々のシングラムに基づく不確実性を考慮したDNNフレームワークであるSuDNNは、(i)低線量/低線数PET画像と(ii)対応するマルチコントラストMRI画像の形式で、マルチモーダル入力を用いた標準線量PET画像を推定し、SuDNNのOOD取得に対する堅牢性を向上させる。 In vivo PET-MRIおよびPET-MRIにおける様々なOODデータの結果は, 定量的, 定性的に, 現状のSuDNNの利点を示している。

Radiation exposure in positron emission tomography (PET) imaging limits its usage in the studies of radiation-sensitive populations, e.g., pregnant women, children, and adults that require longitudinal imaging. Reducing the PET radiotracer dose or acquisition time reduces photon counts, which can deteriorate image quality. Recent deep-neural-network (DNN) based methods for image-to-image translation enable the mapping of low-quality PET images (acquired using substantially reduced dose), coupled with the associated magnetic resonance imaging (MRI) images, to high-quality PET images. However, such DNN methods focus on applications involving test data that match the statistical characteristics of the training data very closely and give little attention to evaluating the performance of these DNNs on new out-of-distribution (OOD) acquisitions. We propose a novel DNN formulation that models the (i) underlying sinogram-based physics of the PET imaging system and (ii) the uncertainty in the DNN output through the per-voxel heteroscedasticity of the residuals between the predicted and the high-quality reference images. Our sinogram-based uncertainty-aware DNN framework, namely, suDNN, estimates a standard-dose PET image using multimodal input in the form of (i) a low-dose/low-count PET image and (ii) the corresponding multi-contrast MRI images, leading to improved robustness of suDNN to OOD acquisitions. Results on in vivo simultaneous PET-MRI, and various forms of OOD data in PET-MRI, show the benefits of suDNN over the current state of the art, quantitatively and qualitatively.
翻訳日:2021-07-22 20:33:32 公開日:2021-07-21
# (参考訳) 自己組織化マップによる異常検出 [全文訳有]

Anomaly Detection via Self-organizing Map ( http://arxiv.org/abs/2107.09903v1 )

ライセンス: CC BY 4.0
Ning Li, Kaitao Jiang, Zhiheng Ma, Xing Wei, Xiaopeng Hong, Yihong Gong(参考訳) 異常検出は製品品質管理のための工業生産において重要な役割を果たす。 従来の異常検出方法は、限定的な一般化能力を持つルールベースである。 教師付きディープラーニングに基づく最近の手法はより強力だが、訓練には大規模な注釈付きデータセットが必要である。 実際、異常な生成物は稀であり、完全に監督された方法で深層モデルを訓練することは極めて困難である。 本稿では,自己組織化マップ(SOM)に基づく新しい教師なし異常検出手法を提案する。 提案手法は,マルチスケール特徴量に基づくトポロジカルメモリを用いて,異常検出のための自己組織化マップ(SOMAD)の正常な特性を維持する。 SOMADはMVTecデータセット上の教師なし異常検出とローカライゼーションの最先端性能を達成する。

Anomaly detection plays a key role in industrial manufacturing for product quality control. Traditional methods for anomaly detection are rule-based with limited generalization ability. Recent methods based on supervised deep learning are more powerful but require large-scale annotated datasets for training. In practice, abnormal products are rare thus it is very difficult to train a deep model in a fully supervised way. In this paper, we propose a novel unsupervised anomaly detection approach based on Self-organizing Map (SOM). Our method, Self-organizing Map for Anomaly Detection (SOMAD) maintains normal characteristics by using topological memory based on multi-scale features. SOMAD achieves state-of the-art performance on unsupervised anomaly detection and localization on the MVTec dataset.
翻訳日:2021-07-22 20:32:08 公開日:2021-07-21
# (参考訳) コード切り換え自然言語理解における中間タスク学習の有効性 [全文訳有]

The Effectiveness of Intermediate-Task Training for Code-Switched Natural Language Understanding ( http://arxiv.org/abs/2107.09931v1 )

ライセンス: CC BY-SA 4.0
Archiki Prasad, Mohammad Ali Rehan, Shreya Pathak, Preethi Jyothi(参考訳) 最近のベンチマークでは、事前訓練された多言語言語モデルの多言語タスクへの一般化に関する多くの新しい研究が進められているが、コード変更の自然言語理解タスクを改善する技術は、あまり研究されていない。 本研究では,コードスイッチトテキストを用いた3つの異なるNLPタスクに対して,大規模かつ一貫した性能向上を導出する信頼性の高い手法としてバイリンガル中間訓練を提案する。 ヒンディー語・英語の自然言語推論(NLI)、質問回答(QA)タスク、スペイン語の感性分析(SA)に対して、平均精度が7.87%、20.15%、F1スコアが10.99%向上した。 SAの4つの言語ペア(ヒンディー語、スペイン語、タミル語、マラヤラム語)において、一貫したパフォーマンス向上を示す。 また,実コード切替テキストを用いた標準的なMLM事前学習と比較して,一貫したSAの恩恵を受けるコード切替マスク言語モデリング(MLM)について述べる。

While recent benchmarks have spurred a lot of new work on improving the generalization of pretrained multilingual language models on multilingual tasks, techniques to improve code-switched natural language understanding tasks have been far less explored. In this work, we propose the use of bilingual intermediate pretraining as a reliable technique to derive large and consistent performance gains on three different NLP tasks using code-switched text. We achieve substantial absolute improvements of 7.87%, 20.15%, and 10.99%, on the mean accuracies and F1 scores over previous state-of-the-art systems for Hindi-English Natural Language Inference (NLI), Question Answering (QA) tasks, and Spanish-English Sentiment Analysis (SA) respectively. We show consistent performance gains on four different code-switched language-pairs (Hindi-English, Spanish-English, Tamil-English and Malayalam-English) for SA. We also present a code-switched masked language modelling (MLM) pretraining technique that consistently benefits SA compared to standard MLM pretraining using real code-switched text.
翻訳日:2021-07-22 20:24:25 公開日:2021-07-21
# (参考訳) 単語ランク進化の統計的モデル

A Statistical Model of Word Rank Evolution ( http://arxiv.org/abs/2107.09948v1 )

ライセンス: CC BY 4.0
Alex John Quijano, Rick Dale, and Suzanne Sindi(参考訳) 大規模な言語データセットが利用できることで、言語変化を研究するためのデータ駆動アプローチが可能になる。 本研究は,Google Books corpus unigram frequency data を用いて,8言語における単語ランクのダイナミクスについて検討する。 1900年から2008年にかけてのユニグラムの階数変化を観察し、分析のために開発したライト・フィッシャーモデルと比較した。 このモデルは、消失する単語を持たないことの制限により、中立的な進化過程をシミュレートする。 この研究は、多項遷移確率を持つマルコフ連鎖として記述されたモデルの数学的枠組みを説明し、単語の頻度が時間とともにどのように変化するかを示す。 データとモデルでの観察から,単語ランクの安定性は,(1)ランクの上昇・減少が単調であること,あるいは(2)平均階数が同じであること,の2つの特徴を示す。 本モデルでは,高ランク語は安定性が高く,低ランク語は揮発性が高い傾向にある。 a)小さな増加/減少の累積による階数の変化と(b)階数の増加/減少の衝撃による階数の変化である。 ストップワードとスワデシュ語の単語のほとんどは、8つの言語で安定している。 これらの署名は、すべての言語のユニグラム周波数が純粋に中立な進化過程と矛盾する方法で変化したことを示唆している。

The availability of large linguistic data sets enables data-driven approaches to study linguistic change. This work explores the word rank dynamics of eight languages by investigating the Google Books corpus unigram frequency data set. We observed the rank changes of the unigrams from 1900 to 2008 and compared it to a Wright-Fisher inspired model that we developed for our analysis. The model simulates a neutral evolutionary process with the restriction of having no disappearing words. This work explains the mathematical framework of the model - written as a Markov Chain with multinomial transition probabilities - to show how frequencies of words change in time. From our observations in the data and our model, word rank stability shows two types of characteristics: (1) the increase/decrease in ranks are monotonic, or (2) the average rank stays the same. Based on our model, high-ranked words tend to be more stable while low-ranked words tend to be more volatile. Some words change in ranks in two ways: (a) by an accumulation of small increasing/decreasin g rank changes in time and (b) by shocks of increase/decrease in ranks. Most of the stopwords and Swadesh words are observed to be stable in ranks across eight languages. These signatures suggest unigram frequencies in all languages have changed in a manner inconsistent with a purely neutral evolutionary process.
翻訳日:2021-07-22 20:03:14 公開日:2021-07-21
# (参考訳) モバイルヘルスのためのオンライン構造カーネル選択 [全文訳有]

Online structural kernel selection for mobile health ( http://arxiv.org/abs/2107.09949v1 )

ライセンス: CC BY 4.0
Eura Shin, Pedja Klasnja, Susan Murphy, Finale Doshi-Velez(参考訳) モバイルヘルスにおける効率的でパーソナライズされた学習の必要性から,マルチタスク環境におけるガウス過程回帰のオンラインカーネル選択の問題を検討した。 この目的のために,カーネル構成に関する新しい生成過程を提案する。 本手法は,カーネル進化の軌跡をユーザ間で伝達して学習を改善するとともに,カーネル自体がmHealth予測目標に意味があることを実証する。

Motivated by the need for efficient and personalized learning in mobile health, we investigate the problem of online kernel selection for Gaussian Process regression in the multi-task setting. We propose a novel generative process on the kernel composition for this purpose. Our method demonstrates that trajectories of kernel evolutions can be transferred between users to improve learning and that the kernels themselves are meaningful for an mHealth prediction goal.
翻訳日:2021-07-22 20:02:00 公開日:2021-07-21
# (参考訳) 配電支援発電機(BDSG)の境界:境界のサンプル生成 [全文訳有]

Boundary of Distribution Support Generator (BDSG): Sample Generation on the Boundary ( http://arxiv.org/abs/2107.09950v1 )

ライセンス: CC BY 4.0
Nikolaos Dionelis(参考訳) GAN(Generative Adversarial Networks)のような生成モデルは、教師なしの異常検出に使用されている。 性能は改善され続けているが、いくつかの制限は特にマルチモーダルサポートの取得が困難であることや、基礎となる分布をテールに近づける能力に起因している。 流通支援の境界線です 本稿では,このような欠点を緩和するアプローチを提案する。 本稿では,BDSG(Bundary of Distribution Support Generator)モデルを提案する。 GANは一般に確率分布の存在を保証せず,最近開発されたInvertible Residual Network (IResNet) とResidual Flow (ResFlow) を用いて密度推定を行う。 これらのモデルはまだ異常検出に使われていない。 We leverage IResNet and ResFlow for Out-of-Distribution (OoD) sample detection and for sample generation on the boundary using a compound loss function that the sample to lie on the boundary。 BDSGは非凸サポート、解離コンポーネント、マルチモーダル分布に対処する。 MNIST や CIFAR-10 などのマルチモーダル分布からの合成データとデータの結果は,文献の手法と比較して競合性能を示した。

Generative models, such as Generative Adversarial Networks (GANs), have been used for unsupervised anomaly detection. While performance keeps improving, several limitations exist particularly attributed to difficulties at capturing multimodal supports and to the ability to approximate the underlying distribution closer to the tails, i.e. the boundary of the distribution's support. This paper proposes an approach that attempts to alleviate such shortcomings. We propose an invertible-residual- network-based model, the Boundary of Distribution Support Generator (BDSG). GANs generally do not guarantee the existence of a probability distribution and here, we use the recently developed Invertible Residual Network (IResNet) and Residual Flow (ResFlow), for density estimation. These models have not yet been used for anomaly detection. We leverage IResNet and ResFlow for Out-of-Distribution (OoD) sample detection and for sample generation on the boundary using a compound loss function that forces the samples to lie on the boundary. The BDSG addresses non-convex support, disjoint components, and multimodal distributions. Results on synthetic data and data from multimodal distributions, such as MNIST and CIFAR-10, demonstrate competitive performance compared to methods from the literature.
翻訳日:2021-07-22 19:45:12 公開日:2021-07-21
# (参考訳) 電子健康記録における時間データ表現のための深層学習:課題と方法論の体系的考察

Deep learning for temporal data representation in electronic health records: A systematic review of challenges and methodologies ( http://arxiv.org/abs/2107.09951v1 )

ライセンス: CC BY 4.0
Feng Xie, Han Yuan, Yilin Ning, Marcus Eng Hock Ong, Mengling Feng, Wynne Hsu, Bibhas Chakraborty, Nan Liu(参考訳) 目的: 時間的電子健康記録(EHR)は、臨床イベント予測や慢性疾患管理など、二次的使用のための豊富な情報である。 しかし、時間的データ表現には課題がある。 そこで我々は,これらの課題を特定し,深層学習ソリューションの体系的検証を通じて課題に取り組むための新しい手法を評価することを試みた。 方法: 5つのデータベース(pubmed, embase, the institute of electrical and electronics engineers [ieee] xplore digital library, the association for computing machinery [acm] digital library, and web of science)を検索し,いくつかの著名なコンピュータサイエンス会議の議事録で手書き検索を行った。 我々は,2010年1月1日から2020年8月30日までに,構造化EHRデータにおける時間的データ表現に関する深層学習手法を報告した論文を求めた。 時系列の性質,方法論,モデル実装という3つの視点から,選択した記事の要約と分析を行った。 結果: 深層学習を用いた時間データ表現に関する98の論文を収録した。 データ不規則性、データ不均一性、データの分散性、モデル不透明性を含む4つの大きな課題が特定された。 そして、これらの課題にどのように深層学習技術を適用したかを研究した。 最後に,ディープラーニングから生じるオープンな課題について論じる。 結論: 時間的EHRデータは, 臨床予測モデルとデータ利用におけるいくつかの大きな課題を提示する。 ある程度は、現在のディープラーニングソリューションはこれらの課題に対処できる。 将来の研究は包括的で統合されたソリューションの設計を考えることができる。 さらに, 臨床領域の知識を研究設計に取り入れ, モデルの解釈可能性を高め, 臨床実践における実装を促進することが必要である。

Objective: Temporal electronic health records (EHRs) can be a wealth of information for secondary uses, such as clinical events prediction or chronic disease management. However, challenges exist for temporal data representation. We therefore sought to identify these challenges and evaluate novel methodologies for addressing them through a systematic examination of deep learning solutions. Methods: We searched five databases (PubMed, EMBASE, the Institute of Electrical and Electronics Engineers [IEEE] Xplore Digital Library, the Association for Computing Machinery [ACM] digital library, and Web of Science) complemented with hand-searching in several prestigious computer science conference proceedings. We sought articles that reported deep learning methodologies on temporal data representation in structured EHR data from January 1, 2010, to August 30, 2020. We summarized and analyzed the selected articles from three perspectives: nature of time series, methodology, and model implementation. Results: We included 98 articles related to temporal data representation using deep learning. Four major challenges were identified, including data irregularity, data heterogeneity, data sparsity, and model opacity. We then studied how deep learning techniques were applied to address these challenges. Finally, we discuss some open challenges arising from deep learning. Conclusion: Temporal EHR data present several major challenges for clinical prediction modeling and data utilization. To some extent, current deep learning solutions can address these challenges. Future studies can consider designing comprehensive and integrated solutions. Moreover, researchers should incorporate additional clinical domain knowledge into study designs and enhance the interpretability of the model to facilitate its implementation in clinical practice.
翻訳日:2021-07-22 19:36:41 公開日:2021-07-21
# (参考訳) ファサード画像におけるウィンドウ検出:Mask R-CNNを用いた深層学習手法 [全文訳有]

Window Detection In Facade Imagery: A Deep Learning Approach Using Mask R-CNN ( http://arxiv.org/abs/2107.10006v1 )

ライセンス: CC BY 4.0
Nils Nordmark and Mola Ayenew(参考訳) ファサード建築における窓のパーシングは、コンピュータビジョンにおいて長年望まれてきたが難しい課題である。 都市分析、セマンティック再構築、ライフサイクル分析、デジタル双生児、および高品質なセマンティックデータを必要とする他の建物関連タスクのシーン解析に不可欠である。 本稿では、ファサード画像入力のウィンドウ検出に使用するマスクR-CNNフレームワークについて検討する。 我々はトランスファーラーニングを利用してCOCO重みに関する提案手法を、ファサードのストリートビュー画像の収集データセットを用いて学習し、新しいウィンドウクラスのインスタンスセグメンテーションを作成する。 実験の結果, 比較的小さなデータセットを用いた提案手法は, 移動学習と拡張のみでネットワークを訓練し, 従来の最先端ウィンドウ検出手法と同等の結果が得られることがわかった。

The parsing of windows in building facades is a long-desired but challenging task in computer vision. It is crucial to urban analysis, semantic reconstruction, lifecycle analysis, digital twins, and scene parsing amongst other building-related tasks that require high-quality semantic data. This article investigates the usage of the mask R-CNN framework to be used for window detection of facade imagery input. We utilize transfer learning to train our proposed method on COCO weights with our own collected dataset of street view images of facades to produce instance segmentations of our new window class. Experimental results show that our suggested approach with a relatively small dataset trains the network only with transfer learning and augmentation achieves results on par with prior state-of-the-art window detection approaches, even without post-optimization techniques.
翻訳日:2021-07-22 19:35:14 公開日:2021-07-21
# (参考訳) Delving Into Deep Walkers: ランダムウォークに基づく頂点埋め込みの収束解析 [全文訳有]

Delving Into Deep Walkers: A Convergence Analysis of Random-Walk-Based Vertex Embeddings ( http://arxiv.org/abs/2107.10014v1 )

ライセンス: CC BY 4.0
Dominik Kloepfer, Angelica I. Aviles-Rivero, Daniel Heydecker(参考訳) ランダムウォークに基づくグラフ頂点埋め込みは近年ますます影響力を増しており、関連する情報を保存しながら、グラフを効率的に計算的に消化可能な形式に変換することにより、いくつかのタスクで優れたパフォーマンスを示している。 しかし、そのようなアルゴリズムの理論的性質、特にハイパーパラメータとグラフ構造が収束挙動に与える影響は、今のところ十分に理解されていない。 本研究では,ランダムウォークに基づく埋め込み手法に関する理論的解析を行う。 まず、いくつかの弱い仮定の下で、ランダムウォークに由来する頂点埋め込みは、ランダムウォークの数の唯一の極限である$n \to \infty$と、$n$と各ランダムウォークの2倍の極限である$l\to\infty$の両方に収束する。 第二に、単一および二重極限に対するコーパスの収束率を定量化する濃度境界を導出する。 第3に、これらの結果を用いて超パラメータを$N$と$L$を選択するヒューリスティックを導出する。 実世界のアプリケーションから抽出したいくつかのグラフについて,数値的および視覚的実験を行い,本研究の実用的重要性を検証・実証した。

Graph vertex embeddings based on random walks have become increasingly influential in recent years, showing good performance in several tasks as they efficiently transform a graph into a more computationally digestible format while preserving relevant information. However, the theoretical properties of such algorithms, in particular the influence of hyperparameters and of the graph structure on their convergence behaviour, have so far not been well-understood. In this work, we provide a theoretical analysis for random-walks based embeddings techniques. Firstly, we prove that, under some weak assumptions, vertex embeddings derived from random walks do indeed converge both in the single limit of the number of random walks $N \to \infty$ and in the double limit of both $N$ and the length of each random walk $L\to\infty$. Secondly, we derive concentration bounds quantifying the converge rate of the corpora for the single and double limits. Thirdly, we use these results to derive a heuristic for choosing the hyperparameters $N$ and $L$. We validate and illustrate the practical importance of our findings with a range of numerical and visual experiments on several graphs drawn from real-world applications.
翻訳日:2021-07-22 19:21:40 公開日:2021-07-21
# (参考訳) リレーショナルグラフの畳み込み型ネットワーク [全文訳有]

Relational Graph Convolutional Networks: A Closer Look ( http://arxiv.org/abs/2107.10015v1 )

ライセンス: CC BY 4.0
Thiviyan Thanapalasingam, Lucas van Berkel, Peter Bloem, Paul Groth(参考訳) 本稿では,rgcn(relational graph convolutional network)の再現について述べる。 再現を用いて、モデルの背後にある直感を説明する。 その結果,ノード分類とリンク予測タスクにおけるベンチマークナレッジグラフデータセットを用いて,実装の正確性を実証的に検証した。 我々の説明は、RGCNアプローチを拡張したユーザと研究者の両方に対して、RGCNの異なるコンポーネントについて友好的な理解を提供する。 さらに,よりパラメータ効率の良いrscnの2つの新しい構成を導入する。 コードとデータセットはhttps://github.com/t hiviyant/torch-rgcnで入手できる。

In this paper, we describe a reproduction of the Relational Graph Convolutional Network (RGCN). Using our reproduction, we explain the intuition behind the model. Our reproduction results empirically validate the correctness of our implementations using benchmark Knowledge Graph datasets on node classification and link prediction tasks. Our explanation provides a friendly understanding of the different components of the RGCN for both users and researchers extending the RGCN approach. Furthermore, we introduce two new configurations of the RGCN that are more parameter efficient. The code and datasets are available at https://github.com/t hiviyanT/torch-rgcn.
翻訳日:2021-07-22 18:52:59 公開日:2021-07-21
# (参考訳) 神経放射線学における情報抽出のための人工知能自然言語処理パイプライン [全文訳有]

An artificial intelligence natural language processing pipeline for information extraction in neuroradiology ( http://arxiv.org/abs/2107.10021v1 )

ライセンス: CC BY 4.0
Henry Watkins, Robert Gray, Ashwani Jha, Parashkev Nachev(参考訳) 医療研究における電子健康記録の利用は、非構造化フォーマットのため困難である。 レポート内の情報抽出と患者のプレゼンテーションの要約は,ダウンストリーム分析に適した方法で行うことは,手術研究や臨床研究に非常に有益である。 本稿では,神経学における放射線情報抽出のための自然言語処理パイプラインを提案する。 当社のパイプラインでは、ルールベースと人工知能モデルのハイブリッドシーケンスを使用して、神経学的レポートの抽出と要約を高精度に行います。 われわれは, ロンドン・MRIの国立神経外科・神経外科病院からの150万件の放射線学的報告に基づいて, カスタム言語モデルを訓練し, 評価した。 また、ドメイン固有の神経放射線学データセット上での標準NLPタスクの結果も提示する。 これらの報告から臨床的に関連のある情報を確実に抽出し,報告の下流モデル化と,これまでにない規模の画像化を可能にした。

The use of electronic health records in medical research is difficult because of the unstructured format. Extracting information within reports and summarising patient presentations in a way amenable to downstream analysis would be enormously beneficial for operational and clinical research. In this work we present a natural language processing pipeline for information extraction of radiological reports in neurology. Our pipeline uses a hybrid sequence of rule-based and artificial intelligence models to accurately extract and summarise neurological reports. We train and evaluate a custom language model on a corpus of 150000 radiological reports from National Hospital for Neurology and Neurosurgery, London MRI imaging. We also present results for standard NLP tasks on domain-specific neuroradiology datasets. We show our pipeline, called `neuroNLP', can reliably extract clinically relevant information from these reports, enabling downstream modelling of reports and associated imaging on a heretofore unprecedented scale.
翻訳日:2021-07-22 18:29:53 公開日:2021-07-21
# (参考訳) 学習定理証明成分 [全文訳有]

Learning Theorem Proving Components ( http://arxiv.org/abs/2107.10034v1 )

ライセンス: CC BY 4.0
Karel Chvalovsk\'y, Jan Jakub\r{u}v, Miroslav Ol\v{s}\'ak, Josef Urban(参考訳) 与えられた節手続きに基づく飽和型自動定理プロバー(atp)は、古典一階述語論理の最も一般的な推論器である。 しかしながら、そのようなシステムにおける節選択ヒューリスティックスは、しばしば独立した節を評価し、他の節を無視している。 これは、最近E/ENIGMAシステムにグラフニューラルネットワーク(GNN)を装備し、前述した節の文脈での評価に基づいて次の節を選択することで変化している。 本稿では,enigmaを用いたいくつかのアルゴリズムと実験について述べるとともに,節のグラフの重要な要素の学習に基づく文脈評価のアイデアを前進させる。

Saturation-style automated theorem provers (ATPs) based on the given clause procedure are today the strongest general reasoners for classical first-order logic. The clause selection heuristics in such systems are, however, often evaluating clauses in isolation, ignoring other clauses. This has changed recently by equipping the E/ENIGMA system with a graph neural network (GNN) that chooses the next given clause based on its evaluation in the context of previously selected clauses. In this work, we describe several algorithms and experiments with ENIGMA, advancing the idea of contextual evaluation based on learning important components of the graph of clauses.
翻訳日:2021-07-22 18:16:42 公開日:2021-07-21
# (参考訳) You Better Look Twice: 少ない計算で正確な検出器を設計するための新しい視点 [全文訳有]

You Better Look Twice: a new perspective for designing accurate detectors with reduced computations ( http://arxiv.org/abs/2107.10050v1 )

ライセンス: CC BY 4.0
Alexandra Dana, Maor Shutman, Yotam Perlitz, Ran Vitek, Tomer Peleg, Roy Jevnisek(参考訳) 一般的な物体検出器は強力なバックボーンを使用して画像から特徴を均一に抽出し、膨大な種類の物体を検出する。 しかし、特定のオブジェクトタイプ向けに開発されたオブジェクト検出アプリケーションにおけるそのようなバックボーンの利用は、必要以上に大量のバックグラウンドを過剰に処理することができる。 さらに、オブジェクトスケールに依存しないため、同じ解像度ですべての画像領域を冗長に処理する。 本研究では,BLT-netという低計算の2段階オブジェクト検出アーキテクチャを導入し,画像の背景とオブジェクトを可変スケールで処理する。 blt-netは、非常にライトな第一段階を使ってオブジェクトを背景から分離することで、計算を減らす。 BLT-netは、処理されたバックグラウンドをさらに減らし、その解像度を動的に減らして計算を最小化する提案を効率よくマージする。 結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。 我々は,物体が異なるサイズで,画像が高解像度で,オブジェクト検出がリアルタイムに必要となる歩行者検出問題のアーキテクチャを実証する。 本設計では,少ない精度で精度の劣化を考慮し,Citypersons と Caltech のデータセットの x4-x7 で計算を削減できることが示されている。 この手法は,背景や物体の大きさの異なるシーンにおける他の物体検出アプリケーションにも適用でき,計算量を削減することができる。

General object detectors use powerful backbones that uniformly extract features from images for enabling detection of a vast amount of object types. However, utilization of such backbones in object detection applications developed for specific object types can unnecessarily over-process an extensive amount of background. In addition, they are agnostic to object scales, thus redundantly process all image regions at the same resolution. In this work we introduce BLT-net, a new low-computation two-stage object detection architecture designed to process images with a significant amount of background and objects of variate scales. BLT-net reduces computations by separating objects from background using a very lite first-stage. BLT-net then efficiently merges obtained proposals to further decrease processed background and then dynamically reduces their resolution to minimize computations. Resulting image proposals are then processed in the second-stage by a highly accurate model. We demonstrate our architecture on the pedestrian detection problem, where objects are of different sizes, images are of high resolution and object detection is required to run in real-time. We show that our design reduces computations by a factor of x4-x7 on the Citypersons and Caltech datasets with respect to leading pedestrian detectors, on account of a small accuracy degradation. This method can be applied on other object detection applications in scenes with a considerable amount of background and variate object sizes to reduce computations.
翻訳日:2021-07-22 18:01:48 公開日:2021-07-21
# (参考訳) 低リソース手書き文字認識のためのプログレッシブなFew Shot Learningアプローチ [全文訳有]

Few Shots Is All You Need: A Progressive Few Shot Learning Approach for Low Resource Handwriting Recognition ( http://arxiv.org/abs/2107.10064v1 )

ライセンス: CC BY 4.0
Mohamed Ali Souibgui, Alicia Forn\'es, Yousri Kessentini, Be\'ata Megyesi(参考訳) 希少なアルファベットの写本のような低資源シナリオにおける手書き文字認識は難しい問題である。 主な難しさは、わずかな注釈付きデータと限られた言語情報(例)から生じる。 辞書と言語モデル)。 そこで本研究では,人為的作業のアノテーション処理を大幅に削減し,アルファベット記号の少ない画像のみを必要とする,数ショットの学習に基づく手書き文字認識手法を提案する。 まず,与えられたアルファベットのすべての記号をテキストライン画像で検出し,符号化ステップで記号類似度スコアを書き起こされた記号の最終列にマップする。 我々のモデルは、ターゲット領域と異なるが、まず任意のアルファベットから生成された合成線画像に基づいて事前訓練される。 次に、第2のトレーニングステップを適用して、ソースとターゲットデータのギャップを小さくする。 このリトレーニングには,数千の手書き記号と境界ボックスのアノテーションが必要であるため,非注釈データに擬似ラベルを自動的に割り当てる教師なしのプログレッシブラーニングアプローチによる人的作業を回避することを提案する。 異なる写本データセットに対する評価は、我々のモデルが人間の労力を大幅に削減することで競争結果をもたらすことを示している。

Handwritten text recognition in low resource scenarios, such as manuscripts with rare alphabets, is a challenging problem. The main difficulty comes from the very few annotated data and the limited linguistic information (e.g. dictionaries and language models). Thus, we propose a few-shot learning-based handwriting recognition approach that significantly reduces the human labor annotation process, requiring only few images of each alphabet symbol. First, our model detects all symbols of a given alphabet in a textline image, then a decoding step maps the symbol similarity scores to the final sequence of transcribed symbols. Our model is first pretrained on synthetic line images generated from any alphabet, even though different from the target domain. A second training step is then applied to diminish the gap between the source and target data. Since this retraining would require annotation of thousands of handwritten symbols together with their bounding boxes, we propose to avoid such human effort through an unsupervised progressive learning approach that automatically assigns pseudo-labels to the non-annotated data. The evaluation on different manuscript datasets show that our model can lead to competitive results with a significant reduction in human effort.
翻訳日:2021-07-22 17:44:37 公開日:2021-07-21
# (参考訳) ガウス過程に対する適応誘導点選択 [全文訳有]

Adaptive Inducing Points Selection For Gaussian Processes ( http://arxiv.org/abs/2107.10066v1 )

ライセンス: CC BY 4.0
Th\'eo Galy-Fajou, Manfred Opper(参考訳) ガウス過程 (Gaussian Processes) は、強い確率論的解釈を持つフレキシブルな非パラメトリックモデルである。 時系列で推論を行うための標準的な選択肢であるが、GPにはストリーミング環境で動作させる技術がほとんどない。 \cite{bui2017streaming}は、スパーシティ技術を用いてオンラインgpsをトレーニングするための効率的な変分法を開発した。 IPの数と位置は、アルゴリズムの性能に大きな影響を与えるだろう。 位置の最適化に加えて,GPの特性とデータ構造に基づいて,新たな点を適応的に追加することを提案する。

Gaussian Processes (\textbf{GPs}) are flexible non-parametric models with strong probabilistic interpretation. While being a standard choice for performing inference on time series, GPs have few techniques to work in a streaming setting. \cite{bui2017streaming} developed an efficient variational approach to train online GPs by using sparsity techniques: The whole set of observations is approximated by a smaller set of inducing points (\textbf{IPs}) and moved around with new data. Both the number and the locations of the IPs will affect greatly the performance of the algorithm. In addition to optimizing their locations, we propose to adaptively add new points, based on the properties of the GP and the structure of the data.
翻訳日:2021-07-22 17:32:03 公開日:2021-07-21
# (参考訳) 機構スパーシティによる潜在因果変数の発見:非線形icaの新しい原理 [全文訳有]

Discovering Latent Causal Variables via Mechanism Sparsity: A New Principle for Nonlinear ICA ( http://arxiv.org/abs/2107.10098v1 )

ライセンス: CC BY 4.0
S\'ebastien Lachapelle, Pau Rodr\'iguez L\'opez, R\'emi Le Priol, Alexandre Lacoste, Simon Lacoste-Julien(参考訳) 潜在的に高次元現象の解釈可能な低次元表現を見つけることは、科学的な企業の中心であると主張することができる。 ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。 本研究は, 観測された補助変数および/または過去の潜在因子に依存しない潜時因子が非線形icaを実現するための新しい原理として, 機構スパーシティ正規化を提案する。 そこで本研究では,潜伏変数がスパースに正規化され,データ生成プロセスによってグラフィカルな基準が満たされる場合,変分まで回復可能であることを示す。 特殊な場合として、我々のフレームワークは、潜伏要因の未知の介入を利用してそれらを解き放つ方法を示し、ICAと因果関係をさらに深める。 おもちゃの実験で理論結果を検証した。

It can be argued that finding an interpretable low-dimensional representation of a potentially high-dimensional phenomenon is central to the scientific enterprise. Independent component analysis (ICA) refers to an ensemble of methods which formalize this goal and provide estimation procedure for practical application. This work proposes mechanism sparsity regularization as a new principle to achieve nonlinear ICA when latent factors depend sparsely on observed auxiliary variables and/or past latent factors. We show that the latent variables can be recovered up to a permutation if one regularizes the latent mechanisms to be sparse and if some graphical criterion is satisfied by the data generating process. As a special case, our framework shows how one can leverage unknown-target interventions on the latent factors to disentangle them, thus drawing further connections between ICA and causality. We validate our theoretical results with toy experiments.
翻訳日:2021-07-22 17:18:57 公開日:2021-07-21
# (参考訳) 事前誘導ゼロ次最適化アルゴリズムの収束について

On the Convergence of Prior-Guided Zeroth-Order Optimization Algorithms ( http://arxiv.org/abs/2107.10110v1 )

ライセンス: CC BY 4.0
Shuyu Cheng, Guoqiang Wu, Jun Zhu(参考訳) zeroth-order (zo)最適化は、クエリベースのブラックボックス攻撃や強化学習など、難しいタスクを処理するために広く使われている。 有限差分に基づく勾配推定手法に事前情報を統合する様々な試みが行われ、有望な実験結果が得られた。 しかし、それらの収束性はよく分かっていない。 本稿では,様々な勾配推定器を用いて,先行誘導ZOアルゴリズムの収束度を分析し,このギャップを埋める試みを行う。 我々は,事前誘導型ランダム勾配フリー(PRGF)アルゴリズムに対する収束保証を提供する。 さらに,グリーディ降下法をさらに高速化するために,先行情報と収束解析を組み込んだ新しい高速化ランダムサーチ(ARS)アルゴリズムを提案する。 最後に,いくつかの数値ベンチマークおよび敵攻撃実験により理論的結果を確認した。

Zeroth-order (ZO) optimization is widely used to handle challenging tasks, such as query-based black-box adversarial attacks and reinforcement learning. Various attempts have been made to integrate prior information into the gradient estimation procedure based on finite differences, with promising empirical results. However, their convergence properties are not well understood. This paper makes an attempt to fill this gap by analyzing the convergence of prior-guided ZO algorithms under a greedy descent framework with various gradient estimators. We provide a convergence guarantee for the prior-guided random gradient-free (PRGF) algorithms. Moreover, to further accelerate over greedy descent methods, we present a new accelerated random search (ARS) algorithm that incorporates prior information, together with a convergence analysis. Finally, our theoretical results are confirmed by experiments on several numerical benchmarks as well as adversarial attacks.
翻訳日:2021-07-22 16:42:37 公開日:2021-07-21
# (参考訳) コントラスト型adversarial trainingによるテキスト分類の改善 [全文訳有]

Improved Text Classification via Contrastive Adversarial Training ( http://arxiv.org/abs/2107.10137v1 )

ライセンス: CC BY 4.0
Lin Pan, Chung-Wei Hang, Avirup Sil, Saloni Potdar, Mo Yu(参考訳) 本稿では,テキスト分類タスクのためのトランスコーダの微調整を簡易かつ汎用的に行う手法を提案する。 具体的には,ノイズ不変表現の学習をモデルに教えるために,モデルの単語埋め込みを摂動させ,クリーンな例と反対の例の対比学習を行うことで,その逆の例を生成する。 クリーンな例と逆向きな例を同時にトレーニングすることにより、クリーンな例の標準的な微調整よりも一貫した改善を観察する。 いくつかのGLUEベンチマークタスクでは、調整済みのBERT LargeモデルはBERT Largeベースラインを平均1.7%上回り、調整済みのRoBERTa LargeはRoBERTa Largeベースラインを1.3%上回る。 さらに3つの意図分類データセットを用いて,本手法を異なる領域で検証し,RoBERTa Largeの細調整によるベースライン平均1-2%の精度でRoBERTa Largeを性能良くする。

We propose a simple and general method to regularize the fine-tuning of Transformer-based encoders for text classification tasks. Specifically, during fine-tuning we generate adversarial examples by perturbing the word embeddings of the model and perform contrastive learning on clean and adversarial examples in order to teach the model to learn noise-invariant representations. By training on both clean and adversarial examples along with the additional contrastive objective, we observe consistent improvement over standard fine-tuning on clean examples. On several GLUE benchmark tasks, our fine-tuned BERT Large model outperforms BERT Large baseline by 1.7% on average, and our fine-tuned RoBERTa Large improves over RoBERTa Large baseline by 1.3%. We additionally validate our method in different domains using three intent classification datasets, where our fine-tuned RoBERTa Large outperforms RoBERTa Large baseline by 1-2% on average.
翻訳日:2021-07-22 16:41:27 公開日:2021-07-21
# (参考訳) s4t: 自己教師付き選択的自己学習による意味セグメンテーションのためのソースフリードメイン適応 [全文訳有]

S4T: Source-free domain adaptation for semantic segmentation via self-supervised selective self-training ( http://arxiv.org/abs/2107.10140v1 )

ライセンス: CC BY 4.0
Viraj Prabhu, Shivam Khare, Deeksha Kartik, Judy Hoffman(参考訳) ドメイン適応セマンティックセグメンテーションの現代的なアプローチのほとんどは、適応中のソースデータへの継続的なアクセスに依存しているが、計算やプライバシの制約のために実現不可能である。 我々は、意味セグメンテーションのためのソースフリーなドメイン適応にフォーカスし、ソースモデルはラベルなしのターゲットデータのみを与えられた新しいターゲットドメインに適応しなければならない。 まず,各対象画像の多様なビューにまたがる画素レベルの予測一貫性と,モデル信頼度を用いて,信頼度または信頼性の低い画素予測を分類する,ソースフリー適応アルゴリズムであるs4tを提案する。 次に、モデルが自己学習され、予測された擬似ラベルを用いて信頼できる予測と、信頼できないものに対する選択的補間戦略によって推定される疑似ラベルを用いる。 S4Tは、単一の適応のエポック内でセマンティックセグメンテーションのための3つの標準ベンチマークに対して、ソースフリー適応の最先端を一致または改善する。

Most modern approaches for domain adaptive semantic segmentation rely on continued access to source data during adaptation, which may be infeasible due to computational or privacy constraints. We focus on source-free domain adaptation for semantic segmentation, wherein a source model must adapt itself to a new target domain given only unlabeled target data. We propose Self-Supervised Selective Self-Training (S4T), a source-free adaptation algorithm that first uses the model's pixel-level predictive consistency across diverse views of each target image along with model confidence to classify pixel predictions as either reliable or unreliable. Next, the model is self-trained, using predicted pseudolabels for reliable predictions and pseudolabels inferred via a selective interpolation strategy for unreliable ones. S4T matches or improves upon the state-of-the-art in source-free adaptation on 3 standard benchmarks for semantic segmentation within a single epoch of adaptation.
翻訳日:2021-07-22 16:27:48 公開日:2021-07-21
# (参考訳) JEFL:形式証明ライブラリの共同埋め込み [全文訳有]

JEFL: Joint Embedding of Formal Proof Libraries ( http://arxiv.org/abs/2107.10188v1 )

ライセンス: CC BY 4.0
Qingxiang Wang, Cezary Kaliszyk(参考訳) 異なる対話型証明アシスタントライブラリで使用される論理的基盤の異質性は、類似した数学的概念の発見を困難にしている。 本稿では,従来提案されていたライブラリ間の概念マッチングアルゴリズムと,類似概念の検索を支援する非教師なし埋め込み手法を比較した。 我々のアプローチは、Word2Vecの高速テキスト実装に基づいており、その上にツリートラバーサルモジュールを追加して、そのアルゴリズムをデータエクスポートパイプラインの表現形式に適応させる。 我々は、アプローチの説明可能性、カスタマイズ性、オンライン可観測性を比較し、ニューラル埋め込みアプローチは、対話型証明アシスタントに統合される可能性が高いと主張している。

The heterogeneous nature of the logical foundations used in different interactive proof assistant libraries has rendered discovery of similar mathematical concepts among them difficult. In this paper, we compare a previously proposed algorithm for matching concepts across libraries with our unsupervised embedding approach that can help us retrieve similar concepts. Our approach is based on the fasttext implementation of Word2Vec, on top of which a tree traversal module is added to adapt its algorithm to the representation format of our data export pipeline. We compare the explainability, customizability, and online-servability of the approaches and argue that the neural embedding approach has more potential to be integrated into an interactive proof assistant.
翻訳日:2021-07-22 15:58:59 公開日:2021-07-21
# (参考訳) 分類マージンの分布:すべてのデータが等しいか? [全文訳有]

Distribution of Classification Margins: Are All Data Equal? ( http://arxiv.org/abs/2107.10199v1 )

ライセンス: CC BY 4.0
Andrzej Banburski, Fernanda De La Torre, Nishka Pant, Ishana Shastri, Tomaso Poggio(参考訳) 最近の理論的結果は、指数損失関数の下でのディープニューラルネットワークの勾配降下が局所的に分類マージンを最大化することを示しており、これはマージン制約の下で重み行列のノルムを最小化するのと同値である。 しかし、この解の性質は一般化性能を完全に特徴づけるものではない。 我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを示す。 次に、データ分離が達成されれば、パフォーマンスを著しく損なうことなく、トレーニングセットを99%以上動的に削減できることを示す。 興味深いことに、"高容量"特徴のサブセットは、異なるトレーニング実行間で一貫性がなく、すべてのトレーニングポイントはsgd下で同じ漸近的なマージンに収束し、バッチ正規化と重量減少の両方が存在するべきであるという理論的な主張と一致している。

Recent theoretical results show that gradient descent on deep neural networks under exponential loss functions locally maximizes classification margin, which is equivalent to minimizing the norm of the weight matrices under margin constraints. This property of the solution however does not fully characterize the generalization performance. We motivate theoretically and show empirically that the area under the curve of the margin distribution on the training set is in fact a good measure of generalization. We then show that, after data separation is achieved, it is possible to dynamically reduce the training set by more than 99% without significant loss of performance. Interestingly, the resulting subset of "high capacity" features is not consistent across different training runs, which is consistent with the theoretical claim that all training points should converge to the same asymptotic margin under SGD and in the presence of both batch normalization and weight decay.
翻訳日:2021-07-22 15:44:42 公開日:2021-07-21
# (参考訳) 一般ReLU活性化を用いた深度2ニューラルネットの学習アルゴリズム

Efficient Algorithms for Learning Depth-2 Neural Networks with General ReLU Activations ( http://arxiv.org/abs/2107.10209v1 )

ライセンス: CC BY 4.0
Pranjal Awasthi, Alex Tang, Aravindan Vijayaraghavan(参考訳) 一般のReLUアクティベーションを持つ未知の深さ2フィードフォワードニューラルネットワークを,軽度の非退化仮定の下で学習するための多項式時間とサンプル効率的なアルゴリズムを提案する。 特に、$x$ がガウス分布から引き出される$f(x) = {a}^{\mathsf{t}}\sigma({w}^\mathsf{t}x+b)$、$\sigma(t) := \max(t,0)$ という形の未知のネットワークを学習することを考える。 reluアクティベーションを持つ学習ネットワークに対する事前の作業は、バイアス$b$がゼロであると仮定する。 バイアス項の存在に対処するために,提案アルゴリズムは,関数 $f(x)$ のエルミート展開から生じる複数の高次テンソルをロバストに分解する。 これらの概念を用いて,ネットワークパラメータの最小仮定下での識別性を確立する。

We present polynomial time and sample efficient algorithms for learning an unknown depth-2 feedforward neural network with general ReLU activations, under mild non-degeneracy assumptions. In particular, we consider learning an unknown network of the form $f(x) = {a}^{\mathsf{T}}\sigma({W}^\mathsf{T}x+b)$, where $x$ is drawn from the Gaussian distribution, and $\sigma(t) := \max(t,0)$ is the ReLU activation. Prior works for learning networks with ReLU activations assume that the bias $b$ is zero. In order to deal with the presence of the bias terms, our proposed algorithm consists of robustly decomposing multiple higher order tensors arising from the Hermite expansion of the function $f(x)$. Using these ideas we also establish identifiability of the network parameters under minimal assumptions.
翻訳日:2021-07-22 15:21:55 公開日:2021-07-21
# (参考訳) 単語埋め込みからバイアスを除去する逆行性デバイアス [全文訳有]

Using Adversarial Debiasing to Remove Bias from Word Embeddings ( http://arxiv.org/abs/2107.10251v1 )

ライセンス: CC BY-SA 4.0
Dana Kenna(参考訳) 単語埋め込みは、元のコーパスに存在する社会的バイアスを含むことが示されており、この問題に対処する既存の方法は、表面的バイアスを除去するだけである。 Themethod of Adversarial Debiasingwas も同様に表面的であると推定されるが、これは以前の作品では確認されていない。 他の方法での浅い除去を実証した実験から、逆脱バイアスは偏見の除去により効果的であり、従って逆脱バイアスの有用性を動機づける。

Word Embeddings have been shown to contain the societal biases present in the original corpora.Existing methods to deal with this problem have been shown to only remove superficial biases. Themethod ofAdversarial Debiasingwas presumed to be similarly superficial, but this is was not verifiedin previous works. Using the experiments that demonstrated the shallow removal in other methods, Ishow results that suggestAdversarial Debiasingis more effective at removing bias and thus motivatefurther investigation on the utility ofAdversarial Debiasing.
翻訳日:2021-07-22 15:20:35 公開日:2021-07-21
# (参考訳) 学習スキルを用いた実演指導強化学習 [全文訳有]

Demonstration-Guided Reinforcement Learning with Learned Skills ( http://arxiv.org/abs/2107.10253v1 )

ライセンス: CC BY 4.0
Karl Pertsch, Youngwoon Lee, Yue Wu, Joseph J. Lim(参考訳) デモンストレーションガイド強化学習(rl)は、報酬フィードバックと目的とするタスクのデモンストレーションの両方を活用することで、複雑な行動を学ぶための有望なアプローチである。 デモガイドされたrlの以前のアプローチは、すべての新しいタスクを独立した学習問題として扱い、デモ参加者の正確な筋肉の動きに従うことによって、完全に見えない行動を模倣しようとする人間に似た、提供されたデモを段階的に追おうとするものだ。 当然、そのような学習は遅くなりますが、新しい行動は完全には見えません。 本研究では,この共有サブタスク構造を利用して実演誘導RLの効率を向上させることを目的とする。 私たちはまず、多くのタスクにまたがって収集された以前の経験の大規模なオフラインデータセットから再利用可能なスキルセットを学びます。 そこで本研究では,実演指導rlのアルゴリズムであるskill-based learning with demonstrations(skild )を提案する。 本研究では,長期迷路ナビゲーションと複雑なロボット操作タスクにおけるアプローチの有効性を検証する。

Demonstration-guided reinforcement learning (RL) is a promising approach for learning complex behaviors by leveraging both reward feedback and a set of target task demonstrations. Prior approaches for demonstration-guided RL treat every new task as an independent learning problem and attempt to follow the provided demonstrations step-by-step, akin to a human trying to imitate a completely unseen behavior by following the demonstrator's exact muscle movements. Naturally, such learning will be slow, but often new behaviors are not completely unseen: they share subtasks with behaviors we have previously learned. In this work, we aim to exploit this shared subtask structure to increase the efficiency of demonstration-guided RL. We first learn a set of reusable skills from large offline datasets of prior experience collected across many tasks. We then propose Skill-based Learning with Demonstrations (SkiLD), an algorithm for demonstration-guided RL that efficiently leverages the provided demonstrations by following the demonstrated skills instead of the primitive actions, resulting in substantial performance improvements over prior demonstration-guided RL approaches. We validate the effectiveness of our approach on long-horizon maze navigation and complex robot manipulation tasks.
翻訳日:2021-07-22 15:10:01 公開日:2021-07-21
# ディープニューラルネットワークにおける記憶:損失関数は重要か?

Memorization in Deep Neural Networks: Does the Loss Function matter? ( http://arxiv.org/abs/2107.09957v1 )

ライセンス: Link先を確認
Deep Patel and P.S. Sastry(参考訳) 深部ニューラルネットワークは、しばしば過パラメータ化のため、ランダムにラベル付けされたデータを正確に記憶することができる。 実証的な研究により、標準正規化技術はいずれも過剰適合を緩和するものではないことが示されている。 損失関数の選択がこの記憶に影響を及ぼすかどうかを検討する。 ベンチマークデータセット mnist と cifar-10 では、クロスエントロピーあるいは二乗誤差損失とは対照的に対称損失関数が、ネットワークがそのような過剰適合に抵抗する能力を大幅に改善することを示した。 次に,記憶に対するロバスト性に関する形式的定義と,対称損失がこのロバスト性をもたらす理由に関する理論的説明を与える。 本研究の結果から, この記憶現象において, 損失関数のみが果たす役割が明らかとなった。

Deep Neural Networks, often owing to the overparameterization , are shown to be capable of exactly memorizing even randomly labelled data. Empirical studies have also shown that none of the standard regularization techniques mitigate such overfitting. We investigate whether the choice of the loss function can affect this memorization. We empirically show, with benchmark data sets MNIST and CIFAR-10, that a symmetric loss function, as opposed to either cross-entropy or squared error loss, results in significant improvement in the ability of the network to resist such overfitting. We then provide a formal definition for robustness to memorization and provide a theoretical explanation as to why the symmetric losses provide this robustness. Our results clearly bring out the role loss functions alone can play in this phenomenon of memorization.
翻訳日:2021-07-22 14:24:57 公開日:2021-07-21
# CogME:ビデオ理解インテリジェンスのための新しい評価基準

CogME: A Novel Evaluation Metric for Video Understanding Intelligence ( http://arxiv.org/abs/2107.09847v1 )

ライセンス: Link先を確認
Minjung Shin (1), Jeonghoon Kim (1 and 2), Seongho Choi (3), Yu-Jung Heo (3), Donghyun Kim (1 and 4), Minsu Lee (3 and 5), Byoung-Tak Zhang (3 and 5) and Jeh-Kwang Ryu (1 and 4) ((1) Laboratory for Natural and Artificial Kin\"asthese, Convergence Research Center for Artificial Intelligence (CRC4AI), Dongguk University, Seoul, South Korea, (2) Department of Artificial Intelligence, Dongguk University, Seoul, South Korea, (3) Biointelligence Laboratory, Department of Computer Science and Engineering, Seoul National University, Seoul, South Korea, (4) Department of Physical Education, College of Education, Dongguk University, Seoul, South Korea, (5) AI Institute of Seoul National University (AIIS), Seoul, South Korea)(参考訳) 映像理解インテリジェンスの開発は、自然言語処理、時間依存、推論に基づく画像、スクリプト、音声の総合的な統合を必要とするため、非常に難しい。 近年,大規模に質問応答(qa)を伴う複数のビデオデータセットにおいて,相当な試みがなされている。 しかし,ビデオ質問応答(VideoQA)の既存の評価基準は,有意義な分析を提供していない。 進歩させるためには、人間が理解する方法で確立された優れたフレームワークは、詳細な理解のパフォーマンスを説明し、評価する必要があると論じる。 次に,人間とストーリー要素の認知過程に基づくビデオqaのためのトップダウン評価システム,cognitive modules for evaluation (cogme)を提案する。 CogMEは、ターゲット、内容、思考の3つの認知モジュールで構成されている。 理解手続きにおけるモジュール間の相互作用は,「THINKINGを通じてTARGETの内容を理解する」という文で表すことができる。 各モジュールはストーリー要素から派生したサブコンポーネントを持つ。 サブコンポーネントを個別の質問にアノテートすることで、必要な理解の側面を特定できる。 CogMEは、VideoQAデータセットの詳細な仕様のためのフレームワークを提供する。 映像理解インテリジェンスを検証するためのVideoQAデータセットの適合性を検討するために,CogMEを適用してDramaQAデータセットのベースラインモデルを評価した。 評価の結果、ストーリー要素が既存のデータセットに不均一に反映されていることが明らかとなり、データセットに基づくモデルはバイアス付き予測を引き起こす可能性がある。 この研究は限られた範囲のストーリーしか把握できなかったが、人間とAIの映像理解における人間の認知過程を考えるための第一歩になると期待している。

Developing video understanding intelligence is quite challenging because it requires holistic integration of images, scripts, and sounds based on natural language processing, temporal dependency, and reasoning. Recently, substantial attempts have been made on several video datasets with associated question answering (QA) on a large scale. However, existing evaluation metrics for video question answering (VideoQA) do not provide meaningful analysis. To make progress, we argue that a well-made framework, established on the way humans understand, is required to explain and evaluate the performance of understanding in detail. Then we propose a top-down evaluation system for VideoQA, based on the cognitive process of humans and story elements: Cognitive Modules for Evaluation (CogME). CogME is composed of three cognitive modules: targets, contents, and thinking. The interaction among the modules in the understanding procedure can be expressed in one sentence as follows: "I understand the CONTENT of the TARGET through a way of THINKING." Each module has sub-components derived from the story elements. We can specify the required aspects of understanding by annotating the sub-components to individual questions. CogME thus provides a framework for an elaborated specification of VideoQA datasets. To examine the suitability of a VideoQA dataset for validating video understanding intelligence, we evaluated the baseline model of the DramaQA dataset by applying CogME. The evaluation reveals that story elements are unevenly reflected in the existing dataset, and the model based on the dataset may cause biased predictions. Although this study has only been able to grasp a narrow range of stories, we expect that it offers the first step in considering the cognitive process of humans on the video understanding intelligence of humans and AI.
翻訳日:2021-07-22 14:24:46 公開日:2021-07-21
# 模倣学習による電気自動車充電制御装置の訓練

Training Electric Vehicle Charging Controllers with Imitation Learning ( http://arxiv.org/abs/2107.10111v1 )

ライセンス: Link先を確認
Martin Pil\'at(参考訳) 電気自動車の充電調整の問題は、そのような車両の数が増加するにつれてより重要になる。 本稿では,ev充電のコーディネーションのための制御器のトレーニング手法を提案する。 このトピックに関するほとんどの既存の作業とは対照的に、私たちはコントローラにユーザのプライバシーを守るよう要求するので、コントローラからサードパーティへの通信は許可しません。 コントローラの学習には,まず2次最適化を用いて緩和された問題の最適解を見つけ,次に,この解を模倣するようにコントローラを訓練する。 また,最適解の正規化が制御器の性能に及ぼす影響についても検討する。 この手法は現実的なデータに基づいて評価され、進化的アルゴリズムを用いて訓練された類似のコントローラと比較して、パフォーマンスとトレーニング速度が向上する。

The problem of coordinating the charging of electric vehicles gains more importance as the number of such vehicles grows. In this paper, we develop a method for the training of controllers for the coordination of EV charging. In contrast to most existing works on this topic, we require the controllers to preserve the privacy of the users, therefore we do not allow any communication from the controller to any third party. In order to train the controllers, we use the idea of imitation learning -- we first find an optimum solution for a relaxed version of the problem using quadratic optimization and then train the controllers to imitate this solution. We also investigate the effects of regularization of the optimum solution on the performance of the controllers. The method is evaluated on realistic data and shows improved performance and training speed compared to similar controllers trained using evolutionary algorithms.
翻訳日:2021-07-22 14:23:53 公開日:2021-07-21
# 公平な交通信号制御のための深層強化学習手法

A Deep Reinforcement Learning Approach for Fair Traffic Signal Control ( http://arxiv.org/abs/2107.10146v1 )

ライセンス: Link先を確認
Majid Raeis and Alberto Leon-Garcia(参考訳) 交通信号制御は都市部における交通管理の最も効果的な方法の1つである。 近年,従来の手作り手法ではよく使われていないリアルタイムの交通データを活用できることから,深層強化学習(DRL)に基づく交通制御手法が注目されている。 最近のDRL方式では、車両の平均走行時間の最大化や最小化に重点を置いているが、信号制御装置の公正性はしばしば無視されている。 これは特に重要であり、公平さを怠ると、一部の車両が待ち時間が極端に長い場合や、交差点で衝突する別の流れの変動によって、特定の交通の流れのスループットに大きな影響を受ける場合に繋がる可能性がある。 これらの問題に対処するために,上記の2つの問題に対応する遅延ベースとスループットベースのフェアネスという2つのフェアネス概念を導入する。 さらに,これらのフェアネスの概念を実装するために,DRLに基づく2つの信号制御手法を提案する。 提案手法の性能を3つのトラフィック到着分布を用いて評価し,本手法がテストシナリオのベースラインより優れていることを示す。

Traffic signal control is one of the most effective methods of traffic management in urban areas. In recent years, traffic control methods based on deep reinforcement learning (DRL) have gained attention due to their ability to exploit real-time traffic data, which is often poorly used by the traditional hand-crafted methods. While most recent DRL-based methods have focused on maximizing the throughput or minimizing the average travel time of the vehicles, the fairness of the traffic signal controllers has often been neglected. This is particularly important as neglecting fairness can lead to situations where some vehicles experience extreme waiting times, or where the throughput of a particular traffic flow is highly impacted by the fluctuations of another conflicting flow at the intersection. In order to address these issues, we introduce two notions of fairness: delay-based and throughput-based fairness, which correspond to the two issues mentioned above. Furthermore, we propose two DRL-based traffic signal control methods for implementing these fairness notions, that can achieve a high throughput as well. We evaluate the performance of our proposed methods using three traffic arrival distributions, and find that our methods outperform the baselines in the tested scenarios.
翻訳日:2021-07-22 14:23:44 公開日:2021-07-21
# 空間領域とスペクトル領域の間のギャップを埋める:グラフニューラルネットワークの理論的枠組み

Bridging the Gap between Spatial and Spectral Domains: A Theoretical Framework for Graph Neural Networks ( http://arxiv.org/abs/2107.10234v1 )

ライセンス: Link先を確認
Zhiqian Chen, Fanglan Chen, Lei Zhang, Taoran Ji, Kaiqun Fu, Liang Zhao, Feng Chen, Lingfei Wu, Charu Aggarwal and Chang-Tien Lu(参考訳) 過去10年間、ディープラーニングのパフォーマンスは、画像分類、音声認識、自然言語理解など、さまざまな機械学習タスクで広く認識されてきた。 グラフニューラルネットワーク(GNN)は、従来のディープラーニング技術では解決が難しいグラフ構造化データを用いて、非ユークリッド問題を扱うために設計されたディープラーニングの一種である。 GNNの大部分はランダムウォーク、PageRank、グラフ畳み込み、熱拡散など、さまざまなプロセスを使用して作成されており、直接比較は不可能である。 これまでの研究は主に、現在のモデルを異なるカテゴリに分類することに焦点を当ててきたが、その内部関係についてはほとんど研究されていない。 本研究は,既存のGNNを我々のフレームワークに方法論的に統合できる統一理論フレームワークと新たな視点を提案する。 既存のGNNモデルを空間領域とスペクトル領域に分類し,各領域内のサブカテゴリ間のリンクを示す。 さらなる調査により、これらの領域の空間的、スペクトル的、および部分群の間の強い関係が明らかになる。

During the past decade, deep learning's performance has been widely recognized in a variety of machine learning tasks, ranging from image classification, speech recognition to natural language understanding. Graph neural networks (GNN) are a type of deep learning that is designed to handle non-Euclidean issues using graph-structured data that are difficult to solve with traditional deep learning techniques. The majority of GNNs were created using a variety of processes, including random walk, PageRank, graph convolution, and heat diffusion, making direct comparisons impossible. Previous studies have primarily focused on classifying current models into distinct categories, with little investigation of their internal relationships. This research proposes a unified theoretical framework and a novel perspective that can methodologically integrate existing GNN into our framework. We survey and categorize existing GNN models into spatial and spectral domains, as well as show linkages between subcategories within each domain. Further investigation reveals a strong relationship between the spatial, spectral, and subgroups of these domains.
翻訳日:2021-07-22 14:23:26 公開日:2021-07-21
# 確率的文脈線形バンディット実験の設計

Design of Experiments for Stochastic Contextual Linear Bandits ( http://arxiv.org/abs/2107.09912v1 )

ライセンス: Link先を確認
Andrea Zanette, Kefan Dong, Jonathan Lee, Emma Brunskill(参考訳) 確率線形文脈帯域設定では、取得されたデータに反応するポリシーで探索するためのいくつかのミニマックス手順が存在する。 実際には、これらのアルゴリズムをデプロイする上で、特にデータセットが分散形式で収集された場合や、異なるポリシーを実装するためにループ内の人間が必要な場合には、大きなエンジニアリングオーバーヘッドが発生する可能性がある。 このような場合、単一の非反応ポリシーで探索することは有益である。 いくつかのバッチコンテキストが利用可能であると仮定すると、我々は、最適に近いポリシーを抽出できる優れたデータセットを収集するための単一の確率的ポリシーを設計する。 合成および実世界の両方のデータセットに関する数値実験と同様に理論的解析を行う。

In the stochastic linear contextual bandit setting there exist several minimax procedures for exploration with policies that are reactive to the data being acquired. In practice, there can be a significant engineering overhead to deploy these algorithms, especially when the dataset is collected in a distributed fashion or when a human in the loop is needed to implement a different policy. Exploring with a single non-reactive policy is beneficial in such cases. Assuming some batch contexts are available, we design a single stochastic policy to collect a good dataset from which a near-optimal policy can be extracted. We present a theoretical analysis as well as numerical experiments on both synthetic and real-world datasets.
翻訳日:2021-07-22 14:23:10 公開日:2021-07-21
# 正規化フローを用いた拡散スコアマッチングの解釈

Interpreting diffusion score matching using normalizing flow ( http://arxiv.org/abs/2107.10072v1 )

ライセンス: Link先を確認
Wenbo Gong, Yingzhen Li(参考訳) Scoring matching (SM) とそれに関連する Stein discrepancy (SD) は、モデルトレーニングと評価において大きな成功を収めた。 しかし、近年の研究は特定の種類の分布を扱う際の限界を示している。 1つの可能な修正は、元のスコアマッチング(またはスタインの差分)を拡散行列に組み込むことであり、これは拡散スコアマッチング(DSM)と呼ばれる(あるいは拡散スタインの差分(DSD)と呼ばれる)。 しかし、拡散の解釈の欠如は、単純な分布と手動で選択された行列内での使用を制限する。 本研究では,拡散行列を正規化フローを用いて解釈することで,このギャップを埋める計画である。 具体的には、拡散行列がフローのヤコビ行列の逆行列である正規化フローによって定義される変換空間で評価されたDSM(またはDSD)が元のスコアマッチング(またはスタイン差分)と等価であることを理論的に証明する。 さらに、リーマン多様体への接続を構築し、それをさらに連続的な流れへと拡張し、dsmの変化は ode によって特徴づけられる。

Scoring matching (SM), and its related counterpart, Stein discrepancy (SD) have achieved great success in model training and evaluations. However, recent research shows their limitations when dealing with certain types of distributions. One possible fix is incorporating the original score matching (or Stein discrepancy) with a diffusion matrix, which is called diffusion score matching (DSM) (or diffusion Stein discrepancy (DSD)). However, the lack of interpretation of the diffusion limits its usage within simple distributions and manually chosen matrix. In this work, we plan to fill this gap by interpreting the diffusion matrix using normalizing flows. Specifically, we theoretically prove that DSM (or DSD) is equivalent to the original score matching (or Stein discrepancy) evaluated in the transformed space defined by the normalizing flow, where the diffusion matrix is the inverse of the flow's Jacobian matrix. In addition, we also build its connection to Riemannian manifolds and further extend it to continuous flows, where the change of DSM is characterized by an ODE.
翻訳日:2021-07-22 14:23:01 公開日:2021-07-21
# 深部ウィッシュアート過程における変分近似後方法

A variational approximate posterior for the deep Wishart process ( http://arxiv.org/abs/2107.10125v1 )

ライセンス: Link先を確認
Sebastian W. Ober, Laurence Aitchison(参考訳) 最近の研究は、NNの完全なカーネルベースの代替としてディープカーネルプロセスを導入した(Aitchison et al)。 2020). 深いカーネルプロセスは、正の半定値行列上の分布からカーネルを交互にサンプリングし、非線形変換を行うことで、優れたトップ層表現を柔軟に学習する。 特定の深いカーネルプロセスであるディープ・ウィッシュアート・プロセス(dwp)は、その前処理がディープ・ガウス・プロセス(dgp)前処理と等価であるため、特に興味深い。 しかし、正の半定値行列上の十分柔軟な分布が欠如しているため、DWPの推論はまだ不可能である。 本稿では、ウィッシュアート確率密度のバーレット分解を一般化し、正の半定値行列上の柔軟な分布を得るための新しいアプローチを提案する。 この新たな分布を用いて、層間依存性を含むDWPの近似後部を構築する。 本研究では,DWPの2つの確率的インジェクションポイント推論手法を開発し,DWPの推論がDGPの推論よりも優れた性能を示すことを示す。

Recent work introduced deep kernel processes as an entirely kernel-based alternative to NNs (Aitchison et al. 2020). Deep kernel processes flexibly learn good top-layer representations by alternately sampling the kernel from a distribution over positive semi-definite matrices and performing nonlinear transformations. A particular deep kernel process, the deep Wishart process (DWP), is of particular interest because its prior is equivalent to deep Gaussian process (DGP) priors. However, inference in DWPs has not yet been possible due to the lack of sufficiently flexible distributions over positive semi-definite matrices. Here, we give a novel approach to obtaining flexible distributions over positive semi-definite matrices by generalising the Bartlett decomposition of the Wishart probability density. We use this new distribution to develop an approximate posterior for the DWP that includes dependency across layers. We develop a doubly-stochastic inducing-point inference scheme for the DWP and show experimentally that inference in the DWP gives improved performance over doing inference in a DGP with the equivalent prior.
翻訳日:2021-07-22 14:22:45 公開日:2021-07-21
# コントラスト学習の記憶特性について

On the Memorization Properties of Contrastive Learning ( http://arxiv.org/abs/2107.10143v1 )

ライセンス: Link先を確認
Ildus Sadrtdinov, Nadezhda Chirkova, Ekaterina Lobacheva(参考訳) ディープニューラルネットワーク(DNN)の記憶研究は、DNNがどのようなパターンとどのように学習するかを理解し、DNNトレーニングアプローチの改善を動機付ける。 本研究では,コントラスト型自己教師型学習手法であるSimCLRの記憶特性について検討し,教師付き学習とランダムラベル学習の記憶特性と比較する。 トレーニングオブジェクトと拡張の両方が、SimCLRがそれらをどのように学習するかという意味で、異なる複雑さを持つことが分かりました。 さらに,SimCLRはトレーニング対象の複雑さの分布の観点から,ランダムラベルのトレーニングに似ていることを示す。

Memorization studies of deep neural networks (DNNs) help to understand what patterns and how do DNNs learn, and motivate improvements to DNN training approaches. In this work, we investigate the memorization properties of SimCLR, a widely used contrastive self-supervised learning approach, and compare them to the memorization of supervised learning and random labels training. We find that both training objects and augmentations may have different complexity in the sense of how SimCLR learns them. Moreover, we show that SimCLR is similar to random labels training in terms of the distribution of training objects complexity.
翻訳日:2021-07-22 14:22:26 公開日:2021-07-21
# 微分可能なアニール化重要度サンプリングと勾配雑音のペリル

Differentiable Annealed Importance Sampling and the Perils of Gradient Noise ( http://arxiv.org/abs/2107.10211v1 )

ライセンス: Link先を確認
Guodong Zhang, Kyle Hsu, Jianing Li, Chelsea Finn, Roger Grosse(参考訳) annealed importance sampling (ais) と関連するアルゴリズムは、限界確率推定に非常に効果的なツールであるが、メトロポリス・ハスティング (mh) の補正ステップによって完全には区別できない。 微分可能性(英: differentiability)は、勾配に基づく手法を用いて、目標として限界可能性を最適化する可能性を認めるため、望ましい性質である。 そこで本研究では,MH ステップを廃止した微分可能なAISアルゴリズムを提案し,さらにミニバッチ計算を解き放つ。 ベイズ線形回帰の詳細な収束解析を,非完全遷移を明示的に計算することにより,従来の解析を超越する。 この分析により,本アルゴリズムは全バッチ設定で一貫したものであり,線形収束率が得られることを示す。 しかし,このアルゴリズムは,後段へのラストイテレート収束の目標とパスワイズ確率誤差の除去との間に根本的な不整合があるため,ミニバッチ勾配を用いると矛盾することを示した。 この結果は、我々の確率的最適化と確率的勾配ランジュバンダイナミクスの経験とは全く対照的で、グラデーションノイズの影響はより小さなサイズのステップを踏むことで洗い流すことができる。 我々の負の結果は、定常分布への収束の明示的な考察に大きく依存しており、ミニバッチ勾配を利用する実用的なAISライクなアルゴリズムを開発することの難しさを説明するのに役立ちます。

Annealed importance sampling (AIS) and related algorithms are highly effective tools for marginal likelihood estimation, but are not fully differentiable due to the use of Metropolis-Hastings (MH) correction steps. Differentiability is a desirable property as it would admit the possibility of optimizing marginal likelihood as an objective using gradient-based methods. To this end, we propose a differentiable AIS algorithm by abandoning MH steps, which further unlocks mini-batch computation. We provide a detailed convergence analysis for Bayesian linear regression which goes beyond previous analyses by explicitly accounting for non-perfect transitions. Using this analysis, we prove that our algorithm is consistent in the full-batch setting and provide a sublinear convergence rate. However, we show that the algorithm is inconsistent when mini-batch gradients are used due to a fundamental incompatibility between the goals of last-iterate convergence to the posterior and elimination of the pathwise stochastic error. This result is in stark contrast to our experience with stochastic optimization and stochastic gradient Langevin dynamics, where the effects of gradient noise can be washed out by taking more steps of a smaller size. Our negative result relies crucially on our explicit consideration of convergence to the stationary distribution, and it helps explain the difficulty of developing practically effective AIS-like algorithms that exploit mini-batch gradients.
翻訳日:2021-07-22 14:22:16 公開日:2021-07-21
# 不確実性下における電力貯蔵システムの最適運用:戦略サンプリングを用いたシナリオベース手法

Optimal Operation of Power Systems with Energy Storage under Uncertainty: A Scenario-based Method with Strategic Sampling ( http://arxiv.org/abs/2107.10013v1 )

ライセンス: Link先を確認
Ren Hu and Qifeng Li(参考訳) エネルギー貯蔵(ES)、断続再生可能エネルギー、制御不能電力負荷の多周期ダイナミクスは、電力系統運用(PSO)の最適化を困難にしている。 不確実性下での多周期最適PSOは、非線形エネルギー貯蔵と交流電力フローモデルを含む確率制約最適化(CCO)モデルパラダイムを用いて定式化される。 本稿では, 既知確率分布関数に依存しない新たなシナリオ最適化手法を考案し, この問題に対する新しい解法を提案する。 提案手法は,主に2つの理由から有効である。 まず、最初の交流電力フロー制約は、一般化された最小絶対収縮選択演算子に基づく学習支援二次凸不等式によって近似される。 第2に,データの物理的パターンと学習に基づくサンプリングの動機を考慮し,異なるサンプリング戦略によって要求されるシナリオ数を著しく削減する戦略サンプリング手法を開発した。 IEEE標準システムのシミュレーション結果から,1) 提案した戦略サンプリングは, 確率制約付き最適PSO問題の解法におけるシナリオベースアプローチの計算効率を著しく向上し, 2) 電力フローのデータ駆動凸近似は非線形および非凸交流流の代替となる可能性が示唆された。

The multi-period dynamics of energy storage (ES), intermittent renewable generation and uncontrollable power loads, make the optimization of power system operation (PSO) challenging. A multi-period optimal PSO under uncertainty is formulated using the chance-constrained optimization (CCO) modeling paradigm, where the constraints include the nonlinear energy storage and AC power flow models. Based on the emerging scenario optimization method which does not rely on pre-known probability distribution functions, this paper develops a novel solution method for this challenging CCO problem. The proposed meth-od is computationally effective for mainly two reasons. First, the original AC power flow constraints are approximated by a set of learning-assisted quadratic convex inequalities based on a generalized least absolute shrinkage and selection operator. Second, considering the physical patterns of data and motived by learning-based sampling, the strategic sampling method is developed to significantly reduce the required number of scenarios through different sampling strategies. The simulation results on IEEE standard systems indicate that 1) the proposed strategic sampling significantly improves the computational efficiency of the scenario-based approach for solving the chance-constrained optimal PSO problem, 2) the data-driven convex approximation of power flow can be promising alternatives of nonlinear and nonconvex AC power flow.
翻訳日:2021-07-22 14:21:50 公開日:2021-07-21
# 補助識別分類器付きCGAN

CGANs with Auxiliary Discriminative Classifier ( http://arxiv.org/abs/2107.10060v1 )

ライセンス: Link先を確認
Liang Hou, Qi Cao, Huawei Shen, Xueqi Cheng(参考訳) 条件付き生成モデルの目的は、データとラベルの結合分布を学習し、条件付き生成を実現することである。 それらのうち, 補助的分類器生成敵ネットワーク (ac-gan) は広く用いられてきたが, 生成試料におけるクラス内多様性の低さに苦しめられている。 本稿では,AC-GANの分類器がジェネレータに依存しないため,対象の関節分布を推定するための情報的ガイダンスが得られず,条件エントロピーの最小化によるクラス内多様性の低下を招いたことを指摘する。 そこで本研究では,AC-GANの問題に対処するために,ADC-GANを用いた新しいcGANを提案する。 具体的には、ラベルを認識しながら実データと偽データとを区別することにより、補助判別分類器が生成者対応となる。 次に, 副分類器と原判別器を併用した生成器を最適化し, 生成した試料と実試料との結合分布と辺縁分布を一致させる。 提案したADC-GANが競合するcGANよりも優れていることを示すために,合成および実世界のデータセットに関する理論的解析および実証的証拠を提供する。

Conditional generative models aim to learn the underlying joint distribution of data and labels, and thus realize conditional generation. Among them, auxiliary classifier generative adversarial networks (AC-GAN) have been widely used, but suffer from the issue of low intra-class diversity on generated samples. In this paper, we point out that the fundamental reason is that the classifier of AC-GAN is generator-agnostic, and thus cannot provide informative guidance to the generator to approximate the target joint distribution, leading to a minimization of conditional entropy that decreases the intra-class diversity. Based on this finding, we propose novel cGANs with auxiliary discriminative classifier (ADC-GAN) to address the issue of AC-GAN. Specifically, the auxiliary discriminative classifier becomes generator-aware by distinguishing between the real and fake data while recognizing their labels. We then optimize the generator based on the auxiliary classifier along with the original discriminator to match the joint and marginal distributions of the generated samples with those of the real samples. We provide theoretical analysis and empirical evidence on synthetic and real-world datasets to demonstrate the superiority of the proposed ADC-GAN compared to competitive cGANs.
翻訳日:2021-07-22 14:21:25 公開日:2021-07-21
# MarsExplorer:Deep Reinforcement LearningとProcedurally Generated Environmentによる未知地探査

MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement Learning and Procedurally Generated Environments ( http://arxiv.org/abs/2107.09996v1 )

ライセンス: Link先を確認
Dimitrios I. Koutras, Athanasios Ch. Kapoutsis, Angelos A. Amanatiadis, Elias B. Kosmatopoulos(参考訳) 本論文は,強大な深層強化学習手法と未知の地形の探索・探索問題とのギャップを埋めるための最初の試みである。 この範囲内では、未知の領域の探索/探索に適したopenai-gym互換環境であるmarsexplorerが紹介されている。 MarsExplorerは、オリジナルのロボティクス問題をReinforcement Learning(強化学習)のセットアップに翻訳する。 学習方針は、ロボットのダイナミクスの精巧なシミュレーションモデルなしで、ロボットプラットフォームに直接適用でき、異なる学習/適応フェーズを適用することができる。 その中核となる特徴の1つは制御可能な多次元地形の手続き的生成であり、これは強力な一般化能力を持つポリシーを作成する鍵である。 A3C, PPO, Rainbow, SACの4種類のRLアルゴリズムをMarsExplorer環境で訓練し, 平均的な人間レベルの性能と比較して, 結果の適切な評価を行った。 追従実験分析では,PPOの学習能力に及ぼす多次元的難易度設定の影響を解析した。 マイルストーンの成果は、ヒルベルト曲線に従う探索ポリシーの生成であり、この情報を環境に提供したり、直接的あるいは間接的にヒルベルト曲線のような軌道に報酬を与えることはない。 PPO学習政策結果とフロンティアに基づく広域地形探査コンテキストを比較して, 実験解析を行った。 ソースコードはhttps://github.com/d imikout3/generalexpl orationpolicyにある。

This paper is an initial endeavor to bridge the gap between powerful Deep Reinforcement Learning methodologies and the problem of exploration/coverage of unknown terrains. Within this scope, MarsExplorer, an openai-gym compatible environment tailored to exploration/coverage of unknown areas, is presented. MarsExplorer translates the original robotics problem into a Reinforcement Learning setup that various off-the-shelf algorithms can tackle. Any learned policy can be straightforwardly applied to a robotic platform without an elaborate simulation model of the robot's dynamics to apply a different learning/adaptation phase. One of its core features is the controllable multi-dimensional procedural generation of terrains, which is the key for producing policies with strong generalization capabilities. Four different state-of-the-art RL algorithms (A3C, PPO, Rainbow, and SAC) are trained on the MarsExplorer environment, and a proper evaluation of their results compared to the average human-level performance is reported. In the follow-up experimental analysis, the effect of the multi-dimensional difficulty setting on the learning capabilities of the best-performing algorithm (PPO) is analyzed. A milestone result is the generation of an exploration policy that follows the Hilbert curve without providing this information to the environment or rewarding directly or indirectly Hilbert-curve-like trajectories. The experimental analysis is concluded by comparing PPO learned policy results with frontier-based exploration context for extended terrain sizes. The source code can be found at: https://github.com/d imikout3/GeneralExpl orationPolicy.
翻訳日:2021-07-22 14:20:49 公開日:2021-07-21
# 対実的介入に関する推論プログラムと分類のための責任スコア

Answer-Set Programs for Reasoning about Counterfactual Interventions and Responsibility Scores for Classification ( http://arxiv.org/abs/2107.10159v1 )

ライセンス: Link先を確認
Leopoldo Bertossi and Gabriela Reyes(参考訳) 分類対象のエンティティに対する反事実的介入を宣言的に特定し,その原因を解明するために,回答セットプログラムをどのように利用できるかを説明する。 特に、分類モデルからの結果の帰結に基づく説明として責任スコアを定義し計算するのに使うことができる。 このアプローチはドメイン知識の導入を可能にし、クエリ応答をサポートする。 Naive-Bayes分類器の詳細な例を示す。

We describe how answer-set programs can be used to declaratively specify counterfactual interventions on entities under classification, and reason about them. In particular, they can be used to define and compute responsibility scores as attribution-based explanations for outcomes from classification models. The approach allows for the inclusion of domain knowledge and supports query answering. A detailed example with a naive-Bayes classifier is presented.
翻訳日:2021-07-22 14:20:22 公開日:2021-07-21
# 凸最適化のためのニューラル固定点加速

Neural Fixed-Point Acceleration for Convex Optimization ( http://arxiv.org/abs/2107.10254v1 )

ライセンス: Link先を確認
Shobha Venkataraman, Brandon Amos(参考訳) 固定点反復は数値計算の中心であり、しばしばリアルタイムアプリケーションにおける計算ボトルネックであり、代わりに適度な精度の高速解を必要とする。 固定点問題に対する古典的な加速法は、任意の固定点問題に適用可能な理論的保証を持つアルゴリズムの設計に焦点を当てる。 本稿では,分布から引き出される凸不動点問題を,メタラーニングや古典的加速度アルゴリズムのアイデアを用いて自動的に学習するフレームワークであるneural fixed-point accelerationを提案する。 我々は,convex coneプログラミングの最先端解法であるscsと設計モデルと損失関数に適用し,未熟な最適化と高速化の不安定性よりも学習の課題を克服した。 我々の研究は、CVXPYで表現可能な最適化問題に神経加速度をもたらす。 この論文のソースコードはhttps://github.com/f acebookresearch/neur al-scsで入手できる。

Fixed-point iterations are at the heart of numerical computing and are often a computational bottleneck in real-time applications, which typically instead need a fast solution of moderate accuracy. Classical acceleration methods for fixed-point problems focus on designing algorithms with theoretical guarantees that apply to any fixed-point problem. We present neural fixed-point acceleration, a framework to automatically learn to accelerate convex fixed-point problems that are drawn from a distribution, using ideas from meta-learning and classical acceleration algorithms. We apply our framework to SCS, the state-of-the-art solver for convex cone programming, and design models and loss functions to overcome the challenges of learning over unrolled optimization and acceleration instabilities. Our work brings neural acceleration into any optimization problem expressible with CVXPY. The source code behind this paper is available at https://github.com/f acebookresearch/neur al-scs
翻訳日:2021-07-22 14:20:15 公開日:2021-07-21
# スケール混合確率生成モデルを用いたベイズ推論によるEMGパターン認識

EMG Pattern Recognition via Bayesian Inference with Scale Mixture-Based Stochastic Generative Models ( http://arxiv.org/abs/2107.09853v1 )

ライセンス: Link先を確認
Akira Furui, Takuya Igaue, Toshio Tsuji(参考訳) 筋電図(EMG)は、人間の動きの意図を反映する能力により、義手や情報機器の信号のインタフェースに利用されてきた。 様々なemg分類法がemg制御系に導入されているが、emg信号の確率的特性を完全に考慮していない。 本稿では,大規模混合モデルを用いたEMGパターン分類手法を提案する。 スケール混合モデルは、emg分散を確率変数と見なす確率的emgモデルであり、分散における不確かさを表現することができる。 本研究では,このモデルを拡張し,EMGパターン分類に利用した。 提案手法は変分ベイズ学習を用いて学習し,モデル複雑性の自動決定を可能にする。 さらに,提案手法のハイパーパラメータを部分的判別手法で最適化するために,相互情報に基づく決定法を提案する。 シミュレーションおよびemg解析実験により,提案手法のハイパーパラメータと分類精度の関係および提案手法の有効性が実証された。 公開EMGデータセットを用いて比較した結果,提案手法は従来の分類器よりも優れていた。 これらの結果は,提案手法の有効性とEMG制御システムへの適用性を示した。 EMGパターン認識において、EMG信号の確率特性を反映した生成モデルに基づく分類器は、従来の汎用分類器よりも優れている。

Electromyogram (EMG) has been utilized to interface signals for prosthetic hands and information devices owing to its ability to reflect human motion intentions. Although various EMG classification methods have been introduced into EMG-based control systems, they do not fully consider the stochastic characteristics of EMG signals. This paper proposes an EMG pattern classification method incorporating a scale mixture-based generative model. A scale mixture model is a stochastic EMG model in which the EMG variance is considered as a random variable, enabling the representation of uncertainty in the variance. This model is extended in this study and utilized for EMG pattern classification. The proposed method is trained by variational Bayesian learning, thereby allowing the automatic determination of the model complexity. Furthermore, to optimize the hyperparameters of the proposed method with a partial discriminative approach, a mutual information-based determination method is introduced. Simulation and EMG analysis experiments demonstrated the relationship between the hyperparameters and classification accuracy of the proposed method as well as the validity of the proposed method. The comparison using public EMG datasets revealed that the proposed method outperformed the various conventional classifiers. These results indicated the validity of the proposed method and its applicability to EMG-based control systems. In EMG pattern recognition, a classifier based on a generative model that reflects the stochastic characteristics of EMG signals can outperform the conventional general-purpose classifier.
翻訳日:2021-07-22 14:19:42 公開日:2021-07-21
# 微分可能特徴選択 -再パラメータ化アプローチ-

Differentiable Feature Selection, a Reparameterization Approach ( http://arxiv.org/abs/2107.10030v1 )

ライセンス: Link先を確認
J\'er\'emie Dona (MLIA), Patrick Gallinari (MLIA)(参考訳) データインスタンス全体を再構築できる機能の小さなサブセットを選択することからなる、リストラのための機能選択のタスクについて検討する。 これは、コストのかかる物理的測定、センサー配置、情報圧縮など、いくつかの文脈において特に重要である。 この問題の本質的組合せの性質を破るために,我々は,正確な再構成を可能にするバイナリマスク分布を最適化するタスクを定式化する。 そして、2つの大きな課題に直面します。 1つはバイナリ分布による微分可能性の問題である。 第2の方法は、二分分布の共分散をモデル化する必要のある相関した方法で変数を選択することで冗長情報の排除に対応する。 本稿では,ロジットNormal分布の再パラメータ化による問題を緩和することで,両問題に対処する。 本研究では,提案手法が効率的な探索手法を提供し,高次元画像ベンチマークの評価により,効率的な特徴選択を実現することを示す。 本手法は,データの内在的な形状を活用し,再構成を容易にすることを示す。

We consider the task of feature selection for reconstruction which consists in choosing a small subset of features from which whole data instances can be reconstructed. This is of particular importance in several contexts involving for example costly physical measurements, sensor placement or information compression. To break the intrinsic combinatorial nature of this problem, we formulate the task as optimizing a binary mask distribution enabling an accurate reconstruction. We then face two main challenges. One concerns differentiability issues due to the binary distribution. The second one corresponds to the elimination of redundant information by selecting variables in a correlated fashion which requires modeling the covariance of the binary distribution. We address both issues by introducing a relaxation of the problem via a novel reparameterization of the logitNormal distribution. We demonstrate that the proposed method provides an effective exploration scheme and leads to efficient feature selection for reconstruction through evaluation on several high dimensional image benchmarks. We show that the method leverages the intrinsic geometry of the data, facilitating reconstruction.
翻訳日:2021-07-22 14:19:24 公開日:2021-07-21
# KalmanNet:部分的に知られたダイナミクスのためのニューラルネットワーク支援Kalman Filtering

KalmanNet: Neural Network Aided Kalman Filtering for Partially Known Dynamics ( http://arxiv.org/abs/2107.10043v1 )

ライセンス: Link先を確認
Guy Revach, Nir Shlezinger, Xiaoyong Ni, Adria Lopez Escoriza, Ruud J. G. van Sloun, and Yonina C. Eldar(参考訳) 動的システムのリアルタイム状態推定は信号処理と制御の基本的なタスクである。 完全に既知の線型ガウス状態空間 (SS) モデルでよく表現される系では、有名なカルマンフィルタ (KF) は低複雑性の最適解である。 しかし、基礎となるSSモデルの線形性とそれに関する正確な知識は、実際は遭遇しないことが多い。 本稿では,データから学習し,部分的情報を含む非線形ダイナミクス下でkalmanフィルタを実行するリアルタイム状態推定器であるkalmannetを提案する。 構造SSモデルと専用リカレントニューラルネットワークモジュールをKFの流れに組み込むことで、データから複雑な力学を暗黙的に学習しながら、古典的アルゴリズムのデータ効率と解釈可能性を維持する。 我々は、KalmanNetが非線形性とモデルミスマッチを克服し、ミスマッチと正確なドメイン知識の両方で動作する古典的なフィルタリング手法より優れていることを数値的に示す。

Real-time state estimation of dynamical systems is a fundamental task in signal processing and control. For systems that are well-represented by a fully known linear Gaussian state space (SS) model, the celebrated Kalman filter (KF) is a low complexity optimal solution. However, both linearity of the underlying SS model and accurate knowledge of it are often not encountered in practice. Here, we present KalmanNet, a real-time state estimator that learns from data to carry out Kalman filtering under non-linear dynamics with partial information. By incorporating the structural SS model with a dedicated recurrent neural network module in the flow of the KF, we retain data efficiency and interpretability of the classic algorithm while implicitly learning complex dynamics from data. We numerically demonstrate that KalmanNet overcomes nonlinearities and model mismatch, outperforming classic filtering methods operating with both mismatched and accurate domain knowledge.
翻訳日:2021-07-22 14:19:10 公開日:2021-07-21
# 高分解能骨盤MRI : 意図と周期的損失を伴い, 生成的対向ネットワークを用いた再建

High-Resolution Pelvic MRI Reconstruction Using a Generative Adversarial Network with Attention and Cyclic Loss ( http://arxiv.org/abs/2107.09989v1 )

ライセンス: Link先を確認
Guangyuan Li, Jun Lv, Xiangrong Tong, Chengyan Wang, Guang Yang(参考訳) 磁気共鳴画像(MRI)は重要な医用画像のモダリティであるが、その取得速度は生理的限界のため非常に遅い。 近年,超解像法はMRIの高速化に優れた性能を示している。 スキャン時間が長い場合でも高解像度画像を得るのは難しい場合もある。 そこで我々は,低分解能MR画像から高分解能MR画像を生成するために,周期的損失と注意機構を有するGAN(Generative Adversarial Network)を用いた新しい超解像法を提案した。 健康な被験者の骨盤像をトレーニング・検証データとして実装し, 患者からのデータを検査に使用した。 MRデータセットは,T2,T2W SPAIR,mDIXON-Wを含む異なる画像系列を用いて得られた。 提案手法の性能評価のための計算指標として,構造的類似性,ピーク信号と雑音比,根平均二乗誤差,分散インフレーション係数を用いた。 様々な実験結果から,mr画像の高分解能化が他の手法と比較して良好に再現できることが得られた。 さらに、再構成された高分解能mr画像は、腫瘍患者の病変のテクスチャが向上し、臨床診断に使用されることが期待される。

Magnetic resonance imaging (MRI) is an important medical imaging modality, but its acquisition speed is quite slow due to the physiological limitations. Recently, super-resolution methods have shown excellent performance in accelerating MRI. In some circumstances, it is difficult to obtain high-resolution images even with prolonged scan time. Therefore, we proposed a novel super-resolution method that uses a generative adversarial network (GAN) with cyclic loss and attention mechanism to generate high-resolution MR images from low-resolution MR images by a factor of 2. We implemented our model on pelvic images from healthy subjects as training and validation data, while those data from patients were used for testing. The MR dataset was obtained using different imaging sequences, including T2, T2W SPAIR, and mDIXON-W. Four methods, i.e., BICUBIC, SRCNN, SRGAN, and EDSR were used for comparison. Structural similarity, peak signal to noise ratio, root mean square error, and variance inflation factor were used as calculation indicators to evaluate the performances of the proposed method. Various experimental results showed that our method can better restore the details of the high-resolution MR image as compared to the other methods. In addition, the reconstructed high-resolution MR image can provide better lesion textures in the tumor patients, which is promising to be used in clinical diagnosis.
翻訳日:2021-07-22 14:18:31 公開日:2021-07-21
# 深部反復2D/3Dレジストレーション

Deep Iterative 2D/3D Registration ( http://arxiv.org/abs/2107.10004v1 )

ライセンス: Link先を確認
Srikrishna Jaganathan, Jian Wang, Anja Borsdorf, Karthik Shetty, Andreas Maier(参考訳) 深層学習に基づく2d/3d登録法は非常に堅牢であるが、臨床応用に必要な登録精度を欠くことが多い。 古典的最適化に基づく2d/3d登録法と深層学習に基づく手法を組み合わせることで、必要な精度が得られる。 しかし、ランタイムも増加します。 本研究では,新たなDeep Learningによる2D/3D登録フレームワークを提案する。 我々は2D/3D登録フレームワークの更新ステップをPoint-to-Plane 対応を用いて学習する。 更新ステップは、既知演算子として埋め込まれたPoint-to-Plane対応解決器と組み合わせて、繰り返し残差補正に基づく光フロー推定を用いて学習する。 提案手法は,平均8秒間隔,平均再投射距離誤差0.60$\pm$ 0.40mm,成功率97パーセント,捕獲範囲60mmという平均ランタイムを実現する。 高い登録精度、高い堅牢性、高速なランタイムの組み合わせは、私たちのソリューションを臨床アプリケーションにとって理想的なものにします。

Deep Learning-based 2D/3D registration methods are highly robust but often lack the necessary registration accuracy for clinical application. A refinement step using the classical optimization-based 2D/3D registration method applied in combination with Deep Learning-based techniques can provide the required accuracy. However, it also increases the runtime. In this work, we propose a novel Deep Learning driven 2D/3D registration framework that can be used end-to-end for iterative registration tasks without relying on any further refinement step. We accomplish this by learning the update step of the 2D/3D registration framework using Point-to-Plane Correspondences. The update step is learned using iterative residual refinement-based optical flow estimation, in combination with the Point-to-Plane correspondence solver embedded as a known operator. Our proposed method achieves an average runtime of around 8s, a mean re-projection distance error of 0.60 $\pm$ 0.40 mm with a success ratio of 97 percent and a capture range of 60 mm. The combination of high registration accuracy, high robustness, and fast runtime makes our solution ideal for clinical applications.
翻訳日:2021-07-22 14:18:08 公開日:2021-07-21
# ゼロショット言語間伝達のためのメタラーニングによる軟層選択

Soft Layer Selection with Meta-Learning for Zero-Shot Cross-Lingual Transfer ( http://arxiv.org/abs/2107.09840v1 )

ライセンス: Link先を確認
Weijia Xu, Batool Haider, Jason Krone and Saab Mansour(参考訳) 多言語事前学習された文脈埋め込みモデル(devlin et al., 2019)は、ゼロショットの言語間転送タスクで印象的なパフォーマンスを達成している。 ゼロショット言語にうまく移行できるように、これらのモデルを高リソース言語で微調整する最も効果的な微調整戦略を見つけることは、非自明な作業です。 本稿では,事前学習したモデルの層を微調整時に凍結させるソフト選択のための新しいメタ最適化器を提案する。 我々はゼロショット転送シナリオをシミュレートしてメタ最適化を訓練する。 言語横断的自然言語推論の結果,単純な微調整ベースラインとx-maml(nooralahzadeh et al., 2020)よりも改善が見られた。

Multilingual pre-trained contextual embedding models (Devlin et al., 2019) have achieved impressive performance on zero-shot cross-lingual transfer tasks. Finding the most effective fine-tuning strategy to fine-tune these models on high-resource languages so that it transfers well to the zero-shot languages is a non-trivial task. In this paper, we propose a novel meta-optimizer to soft-select which layers of the pre-trained model to freeze during fine-tuning. We train the meta-optimizer by simulating the zero-shot transfer scenario. Results on cross-lingual natural language inference show that our approach improves over the simple fine-tuning baseline and X-MAML (Nooralahzadeh et al., 2020).
翻訳日:2021-07-22 14:17:31 公開日:2021-07-21
# テキスト分類タスクにおけるチェコ語トランスフォーマーの比較

Comparison of Czech Transformers on Text Classification Tasks ( http://arxiv.org/abs/2107.10042v1 )

ライセンス: Link先を確認
Jan Lehe\v{c}ka, Jan \v{S}vec(参考訳) 本稿では,チェコ語用モノリンガルトランスフォーマーの事前学習の進捗について述べるとともに,我々のモデルを公開して研究コミュニティに貢献する。 このようなモデルの必要性は、言語固有のタスクにTransformerを使うという我々の取り組みから生まれましたが、公開された多言語モデルの性能は非常に限られていることに気付きました。 多言語モデルは通常100以上の言語から事前学習されているため、チェコ語を含むほとんどの低ソース言語はこれらのモデルでは過小評価されている。 同時に、common crawlのようなwebアーカイブで利用可能な、大量の単言語トレーニングデータが存在している。 チェコ語トランスフォーマー2台を事前訓練して公開し、チェコ語用に訓練された(少なくとも一部は)関連する公開モデルと比較した。 本稿では,トランスフォーマーの事前学習手法と,テキスト分類タスクにおける事前学習モデルの比較について述べる。

In this paper, we present our progress in pre-training monolingual Transformers for Czech and contribute to the research community by releasing our models for public. The need for such models emerged from our effort to employ Transformers in our language-specific tasks, but we found the performance of the published multilingual models to be very limited. Since the multilingual models are usually pre-trained from 100+ languages, most of low-resourced languages (including Czech) are under-represented in these models. At the same time, there is a huge amount of monolingual training data available in web archives like Common Crawl. We have pre-trained and publicly released two monolingual Czech Transformers and compared them with relevant public models, trained (at least partially) for Czech. The paper presents the Transformers pre-training procedure as well as a comparison of pre-trained models on text classification task from various domains.
翻訳日:2021-07-22 14:17:18 公開日:2021-07-21
# 多言語単語埋め込みの嫌悪:3つのインド語を事例として

Debiasing Multilingual Word Embeddings: A Case Study of Three Indian Languages ( http://arxiv.org/abs/2107.10181v1 )

ライセンス: Link先を確認
Srijan Bansal, Vishal Garimella, Ayush Suhane, Animesh Mukherjee(参考訳) 本稿では, 単言語単語の埋め込みを, 多言語環境でうまく一般化するために, 最先端の手法を推し進める。 単言語および多言語設定に対する偏りと偏りの異なるアプローチの定量化について検討する。 下流NLPアプリケーションにおけるバイアス緩和手法の重要性を示す。 提案手法は,ヒンディー語,ベンガル語,テルグ語に加えて,ヒンディー語,ベンガル語,テルグ語という3つの言語に対する多言語埋め込みを嫌悪する手法である。 私たちは、使用した単語の埋め込みの品質に本質的に依存する、非バイアスのない下流のNLPアプリケーションを構築する新たな機会を、我々の作業が開くと信じています。

In this paper, we advance the current state-of-the-art method for debiasing monolingual word embeddings so as to generalize well in a multilingual setting. We consider different methods to quantify bias and different debiasing approaches for monolingual as well as multilingual settings. We demonstrate the significance of our bias-mitigation approach on downstream NLP applications. Our proposed methods establish the state-of-the-art performance for debiasing multilingual embeddings for three Indian languages - Hindi, Bengali, and Telugu in addition to English. We believe that our work will open up new opportunities in building unbiased downstream NLP applications that are inherently dependent on the quality of the word embeddings used.
翻訳日:2021-07-22 14:17:05 公開日:2021-07-21
# situationCO v1.2 の用語、特性、関係、公理 -- 部分的および属的状況の中核オントロジー

SituationCO v1.2's Terms, Properties, Relationships and Axioms -- A Core Ontology for Particular and Generic Situations ( http://arxiv.org/abs/2107.10083v1 )

ライセンス: Link先を確認
Luis Olsina, Guido Tebes, Pablo Becker(参考訳) 現在のプレプリントは、新しいバージョン1.2を表すCourseCO v1.1(Situation Core Ontology)のアップデートである。 これは、FCD-OntoArch(Foundat ional, Core, and Domain Ontological Architecture for Sciences)と呼ばれる4層オントロジーアーキテクチャ(英語版)の文脈において、中核に置かれる特定のおよび一般的な状況に対するオントロジーであり、CourseCO v1.2のすべての用語、性質、関係、公理を定義し、定義する。 これは4層のオントロジーアーキテクチャであり、基礎、コア、ドメイン、インスタンスレベルを考慮に入れている。 ドメインレベルは、トップドメインとロードメインのオントロジレベルという2つのサブレベルに分割される。 実際、私たちはこれを5層アーキテクチャと考えることができます。 同じレベルのオントロジーは、ThingFO(Thing Foundational Ontology)のみが見つかる基礎レベルを除いて、相互に関連付けられる。 さらに、より低いレベルのオントロジの用語と関係は、上位レベルのオントロジの用語と関係によって意味的に富むことができる。 matterco、processcoなどのコアレベルの thingfo と ontologie の両方がドメインに依存しないことに注意してください。 situationCOの用語と関係は主にThingFOに特化している。 また、主にProcessCO、ProjectCO、GoalCOオントロジーから用語を完全に再利用している。 ステレオタイプは状況語を豊かにするために使われるメカニズムである。 この文書の最後には、状況コ対モノフォ非分類学的関係検証行列について論じる。

The current preprint is an update to SituationCO v1.1 (Situation Core Ontology), which represents its new version 1.2. It specifies and defines all the terms, properties, relationships and axioms of SituationCO v1.2, being an ontology for particular and generic Situations placed at the core level in the context of a four-layered ontological architecture called FCD-OntoArch (Foundational, Core, and Domain Ontological Architecture for Sciences). This is a four-layered ontological architecture, which considers Foundational, Core, Domain and Instance levels. In turn, the domain level is split down in two sub-levels, namely: Top-domain and Low-domain ontological levels. So in fact, we can consider it to be a five-tier architecture. Ontologies at the same level can be related to each other, except for the foundational level where only ThingFO (Thing Foundational Ontology) is found. In addition, ontologies' terms and relationships at lower levels can be semantically enriched by ontologies' terms and relationships from the higher levels. Note that both ThingFO and ontologies at the core level such as SituationCO, ProcessCO, among others, are domain independent. SituationCO's terms and relationships are specialized primarily from ThingFO. It also completely reuses terms primarily from ProcessCO, ProjectCO and GoalCO ontologies. Stereotypes are the used mechanism for enriching SituationCO terms. Note that in the end of this document, we address the SituationCO vs. ThingFO non-taxonomic relationship verification matrix.
翻訳日:2021-07-22 14:16:53 公開日:2021-07-21
# tumorCP: 腫瘍分離のための単純だが効果的なオブジェクトレベルデータ拡張

TumorCP: A Simple but Effective Object-Level Data Augmentation for Tumor Segmentation ( http://arxiv.org/abs/2107.09843v1 )

ライセンス: Link先を確認
Jiawei Yang, Yao Zhang, Yuan Liang, Yang Zhang, Lei He, and Zhiqiang He(参考訳) ディープラーニングモデルは、データ不足で有名だ。 したがって、医用画像分析におけるデータ効率のよい技術の必要性が高まっており、十分な注釈付きデータは費用がかかり、収集に要する時間がかかる。 最近復活した "Copy-Paste" 拡張を契機に,腫瘍のセグメンテーションに適した簡便かつ効果的なオブジェクトレベルのデータ拡張法である tumorCP を提案する。 tumorcpはオンラインかつ確率的であり、腫瘍の被検者、場所、外観、形態について無制限に拡張できる。 腎腫瘍セグメンテーションタスクの実験では、腫瘍CPが強いベースラインを7.12%の差で越えていることが示されている。 さらに、画像レベルのデータ拡張と合わせて、腫瘍のダイスで現在の最先端を2.32%上回っている。 腫瘍CPの有効性を検証するための包括的アブレーション研究を行った。 一方,腫瘍CPは極めて低データ状態において顕著な改善をもたらす可能性が示唆された。 10%のラベル付きデータで評価すると、腫瘍CPは腫瘍のDiceを21.87%増加させる。 私たちの知る限りでは、医療画像領域における「コピー・ペースト」デザインの探求と拡張はこれが初めてです。 コードは、https://github.com/Y aoZhang93/TumorCPで入手できる。

Deep learning models are notoriously data-hungry. Thus, there is an urging need for data-efficient techniques in medical image analysis, where well-annotated data are costly and time consuming to collect. Motivated by the recently revived "Copy-Paste" augmentation, we propose TumorCP, a simple but effective object-level data augmentation method tailored for tumor segmentation. TumorCP is online and stochastic, providing unlimited augmentation possibilities for tumors' subjects, locations, appearances, as well as morphologies. Experiments on kidney tumor segmentation task demonstrate that TumorCP surpasses the strong baseline by a remarkable margin of 7.12% on tumor Dice. Moreover, together with image-level data augmentation, it beats the current state-of-the-art by 2.32% on tumor Dice. Comprehensive ablation studies are performed to validate the effectiveness of TumorCP. Meanwhile, we show that TumorCP can lead to striking improvements in extremely low-data regimes. Evaluated with only 10% labeled data, TumorCP significantly boosts tumor Dice by 21.87%. To the best of our knowledge, this is the very first work exploring and extending the "Copy-Paste" design in medical imaging domain. Code is available at: https://github.com/Y aoZhang93/TumorCP.
翻訳日:2021-07-22 14:15:44 公開日:2021-07-21
# 混合増補法と増補戦略の概観

An overview of mixing augmentation methods and augmentation strategies ( http://arxiv.org/abs/2107.09887v1 )

ライセンス: Link先を確認
Dominik Lewy and Jacek Ma\'ndziuk(参考訳) 深層畳み込みニューラルネットワークは多くのコンピュータビジョンタスクで驚くべき進歩を遂げた。 しかし、この進歩は多くの場合、過度な適合を防ぐために必要な大量のトレーニングデータの可用性に依存しており、多くのドメインでは手動データラベリングのかなりのコストがかかる。 別のアプローチとして、データ拡張(da)技術の適用があり、利用可能なデータから追加の観察を作成することによって、モデル正規化を目標としている。 この調査は、イメージ混合と拡張戦略の自動選択という2つのda研究ストリームに焦点を当てている。 まず,提案手法を簡潔に記述し,その重要特性について質的に比較する。 近年のDA文献で報告された結果から,様々な定量的比較も含んでいる。 このレビューは、主に2017-2021年の上位会議や主要ジャーナルの資料に掲載されている手法を取り上げている。

Deep Convolutional Neural Networks have made an incredible progress in many Computer Vision tasks. This progress, however, often relies on the availability of large amounts of the training data, required to prevent over-fitting, which in many domains entails significant cost of manual data labeling. An alternative approach is application of data augmentation (DA) techniques that aim at model regularization by creating additional observations from the available ones. This survey focuses on two DA research streams: image mixing and automated selection of augmentation strategies. First, the presented methods are briefly described, and then qualitatively compared with respect to their key characteristics. Various quantitative comparisons are also included based on the results reported in recent DA literature. This review mainly covers the methods published in the materials of top-tier conferences and in leading journals in the years 2017-2021.
翻訳日:2021-07-22 14:15:25 公開日:2021-07-21
# 3次元ケパロメトリランドマーク検出のための構造対応長期記憶ネットワーク

Structure-Aware Long Short-Term Memory Network for 3D Cephalometric Landmark Detection ( http://arxiv.org/abs/2107.09899v1 )

ライセンス: Link先を確認
Runnan Chen, Yuexin Ma, Nenglun Chen, Lingjie Liu, Zhiming Cui, Yanhong Lin, Wenping Wang(参考訳) コーンビームCT(CBCT)における3Dランドマークの検出は,3次元脳波解析における解剖学的異常の評価と定量化に重要である。 しかし、現在の手法は時間がかかり、ランドマークの局在に大きなバイアスを被り、信頼性の低い診断結果をもたらす。 本研究では,効率的な3次元ランドマーク検出のための構造対応長短期記憶フレームワーク(SA-LSTM)を提案する。 計算負担を軽減するため、SA-LSTMは2段階設計されている。 まず、ダウンサンプリングされたCBCTボリュームのヒートマップレグレッションを用いて粗いランドマークを発見、次に高解像度のトリミングパッチを用いて、注意深いオフセットレグレッションによってランドマークを徐々に洗練する。 精度を高めるため、SA-LSTMは自己注意によって収穫パッチのグローバルな局所的依存を捉える。 具体的には、グラフアテンションモジュールがランドマークのグローバル構造を暗黙的にエンコードして予測位置を合理化する。 さらに,新たなアテンションゲートモジュールは,無関係な局所的特徴を再帰的にフィルタリングし,最終結果を集約するための高信頼な局所的予測を維持する。 実験の結果,本手法は内部データセットと公開データセットの効率と精度において,それぞれ1.64mm,2.37mmの平均誤差を達成し,CBCT全体の解像度768*768*576を0.5秒で推定できることがわかった。 さらに、予測された全てのランドマークは8mm以内の誤差であり、許容される脳波分析に不可欠である。

Detecting 3D landmarks on cone-beam computed tomography (CBCT) is crucial to assessing and quantifying the anatomical abnormalities in 3D cephalometric analysis. However, the current methods are time-consuming and suffer from large biases in landmark localization, leading to unreliable diagnosis results. In this work, we propose a novel Structure-Aware Long Short-Term Memory framework (SA-LSTM) for efficient and accurate 3D landmark detection. To reduce the computational burden, SA-LSTM is designed in two stages. It first locates the coarse landmarks via heatmap regression on a down-sampled CBCT volume and then progressively refines landmarks by attentive offset regression using high-resolution cropped patches. To boost accuracy, SA-LSTM captures global-local dependence among the cropping patches via self-attention. Specifically, a graph attention module implicitly encodes the landmark's global structure to rationalize the predicted position. Furthermore, a novel attention-gated module recursively filters irrelevant local features and maintains high-confident local predictions for aggregating the final result. Experiments show that our method significantly outperforms state-of-the-art methods in terms of efficiency and accuracy on an in-house dataset and a public dataset, achieving 1.64 mm and 2.37 mm average errors, respectively, and using only 0.5 seconds for inferring the whole CBCT volume of resolution 768*768*576. Moreover, all predicted landmarks are within 8 mm error, which is vital for acceptable cephalometric analysis.
翻訳日:2021-07-22 14:15:13 公開日:2021-07-21
# DRDF:デュアルルータ動的フレームワークによる異なるマルチモーダル情報の重要性の決定

DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework ( http://arxiv.org/abs/2107.09909v1 )

ライセンス: Link先を確認
Haiwen Hong, Xuan Jin, Yin Zhang, Yunqing Hu, Jingfeng Zhang, Yuan He, Hui Xue(参考訳) マルチモーダルタスクでは,テキストと画像のモーダル情報の重要性が入力ケースによって異なることが判明し,このモチベーションのために,デュアルルータ,mwf層,エキスパート,エキスパート融合ユニットからなる高性能かつ高汎用なデュアルルータ動的フレームワーク(drdf)を提案する。 Dual-Routerのテキストルータと画像ルータは、テキストモーダル情報と画像モーダル情報を受け入れ、MWF-Layerを用いてモーダル情報の重要性を決定する。 決定の結果に基づき、MWF-Layerは専門家の融合のために融合重量を生成する。 エキスパートは現在のタスクにマッチするモデルバックボーンです。 DRDFは高い性能と汎用性を持ち、マルチモーダルデータセットHateful Memes上のVisual BERT、非モーダルデータセットCIFAR10、CIFAR100、TinyImagenetなどの12のバックボーンをテストした。 私たちのDRDFはすべてのベースラインを上回ります。 また,DRDF の設計の理由と考え方を整理して,DRDF の構成要素を詳細に検証した。

In multimodal tasks, we find that the importance of text and image modal information is different for different input cases, and for this motivation, we propose a high-performance and highly general Dual-Router Dynamic Framework (DRDF), consisting of Dual-Router, MWF-Layer, experts and expert fusion unit. The text router and image router in Dual-Router accept text modal information and image modal information, and use MWF-Layer to determine the importance of modal information. Based on the result of the determination, MWF-Layer generates fused weights for the fusion of experts. Experts are model backbones that match the current task. DRDF has high performance and high generality, and we have tested 12 backbones such as Visual BERT on multimodal dataset Hateful memes, unimodal dataset CIFAR10, CIFAR100, and TinyImagenet. Our DRDF outperforms all the baselines. We also verified the components of DRDF in detail by ablations, compared and discussed the reasons and ideas of DRDF design.
翻訳日:2021-07-22 14:14:45 公開日:2021-07-21
# 早期アルツハイマー病予測のためのマルチモーダル表現学習と逆行性ハイパーグラフ融合

Multimodal Representations Learning and Adversarial Hypergraph Fusion for Early Alzheimer's Disease Prediction ( http://arxiv.org/abs/2107.09928v1 )

ライセンス: Link先を確認
Qiankun Zuo, Baiying Lei, Yanyan Shen, Yong Liu, Zhiguang Feng, Shuqiang Wang(参考訳) マルチモーダルニューロイメージは認知症に関する補完的な情報を提供するが、完全なマルチモーダルデータのサイズは表現学習の能力を制限する。 さらに、異なるモダリティからのデータ分散の不整合は、非効率的な融合につながる可能性があり、モダリティ内およびモダリティ間相互作用を十分に探求できず、疾患診断性能を損なう。 そこで本研究では, アルツハイマー病の診断にmrl-ahf(multimodal representation learning and adversarial hypergraph fusion)フレームワークを提案する。 まず,マルチモーダルデータから潜在表現を抽出するMRLに,逆戦略と事前学習モデルを組み込む。 次に、潜在表現から2つのハイパーグラフを構築し、グラフ畳み込みに基づく逆ネットワークを用いてハイパーエッジ特徴の分布差を狭める。 最後に、ハイパーエッジ不変機能はハイパーエッジ畳み込みによる疾患予測のために融合される。 adni(public alzheimer's disease neuroimaging initiative)データベースを用いた実験により,本モデルがアルツハイマー病の検出において,他の関連モデルと比較して優れた性能を発揮することを示し,異常脳結合の分析による障害進行の根本的メカニズムの理解を可能にする。

Multimodal neuroimage can provide complementary information about the dementia, but small size of complete multimodal data limits the ability in representation learning. Moreover, the data distribution inconsistency from different modalities may lead to ineffective fusion, which fails to sufficiently explore the intra-modal and inter-modal interactions and compromises the disease diagnosis performance. To solve these problems, we proposed a novel multimodal representation learning and adversarial hypergraph fusion (MRL-AHF) framework for Alzheimer's disease diagnosis using complete trimodal images. First, adversarial strategy and pre-trained model are incorporated into the MRL to extract latent representations from multimodal data. Then two hypergraphs are constructed from the latent representations and the adversarial network based on graph convolution is employed to narrow the distribution difference of hyperedge features. Finally, the hyperedge-invariant features are fused for disease prediction by hyperedge convolution. Experiments on the public Alzheimer's Disease Neuroimaging Initiative(ADNI) database demonstrate that our model achieves superior performance on Alzheimer's disease detection compared with other related models and provides a possible way to understand the underlying mechanisms of disorder's progression by analyzing the abnormal brain connections.
翻訳日:2021-07-22 14:14:22 公開日:2021-07-21
# アルツハイマー病解析のためのハイパーグラフganによる脳ネットワークのマルチモーダル接続の解析

Characterization Multimodal Connectivity of Brain Network by Hypergraph GAN for Alzheimer's Disease Analysis ( http://arxiv.org/abs/2107.09953v1 )

ライセンス: Link先を確認
Junren Pan, Baiying Lei, Yanyan Shen, Yong Liu, Zhiguang Feng, Shuqiang Wang(参考訳) マルチモーダルニューロイメージングデータを使用して脳ネットワークを特徴付けることは、現在アルツハイマー病(ad)分析のための高度な技術である。 近年では、血液酸素レベル依存性(BOLD)シグナルと白質繊維トラクトグラフィー由来の拡散テンソルイメージング(DTI)から得られる静止状態機能型磁気共鳴画像(rs-fMRI)の研究が著しく進展している。 しかし、BOLD信号とファイバートラクトグラフィーの不均一性と複雑さのため、既存のマルチモーダルデータ融合アルゴリズムは、rs-fMRIとDTIの相補的な情報を十分に活用できない。 この問題を解決するために,対話型ハイパーエッジニューロンモジュール(IHEN)と最適ハイパーグラフホモモルフィズムアルゴリズム(OHGH)を用いて,rs-fMRIとDTIを組み合わせることで,Brain Networkのマルチモーダル接続を生成する新しいHypergraph Generative Adversarial Networks(HGGAN)を提案する。 このモデルの性能を評価するために,adniデータベースから公開されているデータを用いて,adの識別的脳領域を識別できるだけでなく,分類性能を効果的に向上できることを示す。

Using multimodal neuroimaging data to characterize brain network is currently an advanced technique for Alzheimer's disease(AD) Analysis. Over recent years the neuroimaging community has made tremendous progress in the study of resting-state functional magnetic resonance imaging (rs-fMRI) derived from blood-oxygen-level-d ependent (BOLD) signals and Diffusion Tensor Imaging (DTI) derived from white matter fiber tractography. However, Due to the heterogeneity and complexity between BOLD signals and fiber tractography, Most existing multimodal data fusion algorithms can not sufficiently take advantage of the complementary information between rs-fMRI and DTI. To overcome this problem, a novel Hypergraph Generative Adversarial Networks(HGGAN) is proposed in this paper, which utilizes Interactive Hyperedge Neurons module (IHEN) and Optimal Hypergraph Homomorphism algorithm(OHGH) to generate multimodal connectivity of Brain Network from rs-fMRI combination with DTI. To evaluate the performance of this model, We use publicly available data from the ADNI database to demonstrate that the proposed model not only can identify discriminative brain regions of AD but also can effectively improve classification performance.
翻訳日:2021-07-22 14:13:58 公開日:2021-07-21
# 単一から複数へ:ビデオ予測にマルチレベル予測空間を活用する

From Single to Multiple: Leveraging Multi-level Prediction Spaces for Video Forecasting ( http://arxiv.org/abs/2107.10068v1 )

ライセンス: Link先を確認
Mengcheng Lan, Shuliang Ning, Yanran Li, Qian Chen, Xunlai Chen, Xiaoguang Han, Shuguang Cui(参考訳) 近年、ビデオ予測は広く話題となっているが、既存の研究の主流は、単一の予測空間でモデルを制限するが、複数の予測空間でモデルを活用する方法を完全に無視している。 この仕事はこのギャップを埋める。 我々は,複数の予測空間でビデオ予測を行い,それらの結果を融合して性能を向上させるための多くの戦略を初めて深く研究した。 ピクセル空間での予測は、通常、ビデオの意味的および構造的内容を保存する能力が欠けているが、高レベル特徴空間での予測は、縮小および回復過程においてエラーを発生させる可能性が高い。 そこで我々は,異なる特徴空間間の繰り返し接続を構築し,その世代をアップサンプリングプロセスに組み込む。 意外なことに、この単純なアイデアはPhyDNetよりもはるかにパフォーマンスが向上した(MNIST-2データセットでは32.1%、KTHデータセットでは21.4%)。 4つのデータセットの質的および定量的評価は、我々のアプローチの一般化能力と有効性を示す。 本モデルでは, 難解な歪みやぼやけたアーチファクトを著しく低減し, 長期ビデオ予測における精度を著しく向上することを示す。 コードはまもなくリリースされる。

Despite video forecasting has been a widely explored topic in recent years, the mainstream of the existing work still limits their models with a single prediction space but completely neglects the way to leverage their model with multi-prediction spaces. This work fills this gap. For the first time, we deeply study numerous strategies to perform video forecasting in multi-prediction spaces and fuse their results together to boost performance. The prediction in the pixel space usually lacks the ability to preserve the semantic and structure content of the video however the prediction in the high-level feature space is prone to generate errors in the reduction and recovering process. Therefore, we build a recurrent connection between different feature spaces and incorporate their generations in the upsampling process. Rather surprisingly, this simple idea yields a much more significant performance boost than PhyDNet (performance improved by 32.1% MAE on MNIST-2 dataset, and 21.4% MAE on KTH dataset). Both qualitative and quantitative evaluations on four datasets demonstrate the generalization ability and effectiveness of our approach. We show that our model significantly reduces the troublesome distortions and blurry artifacts and brings remarkable improvements to the accuracy in long term video prediction. The code will be released soon.
翻訳日:2021-07-22 14:13:33 公開日:2021-07-21
# 医用画像セグメンテーションのための雑音ラベルからのスーパーピクセル誘導反復学習

Superpixel-guided Iterative Learning from Noisy Labels for Medical Image Segmentation ( http://arxiv.org/abs/2107.10100v1 )

ライセンス: Link先を確認
Shuailin Li, Zhitong Gao, Xuming He(参考訳) ノイズラベルからのセグメンテーションは,高品質なアノテーションの取得が困難であるため,医用画像解析において重要な課題である。 既存のほとんどの手法は、セグメンテーションにおける画素相関と構造的先行を無視し、しばしばオブジェクト境界に関するノイズの多い予測を生成する。 そこで我々は,スーパーピクセル表現を採用し,セグメンテーションネットワークの雑音認識学習と,スーパーピクセルが指導するノイズラベル改善を組み合わせた,堅牢な反復学習戦略を開発した。 この設計により、セグメンテーションラベルの構造的制約を活用でき、学習におけるラベルノイズの影響を効果的に軽減できる。 2つのベンチマーク実験の結果,本手法は最近の最先端手法よりも優れており,幅広いラベル雑音において優れたロバスト性を実現する。 コードはhttps://github.com/g aozhitong/SP_guided_ Noisy_Label_Segで公開されている。

Learning segmentation from noisy labels is an important task for medical image analysis due to the difficulty in acquiring highquality annotations. Most existing methods neglect the pixel correlation and structural prior in segmentation, often producing noisy predictions around object boundaries. To address this, we adopt a superpixel representation and develop a robust iterative learning strategy that combines noise-aware training of segmentation network and noisy label refinement, both guided by the superpixels. This design enables us to exploit the structural constraints in segmentation labels and effectively mitigate the impact of label noise in learning. Experiments on two benchmarks show that our method outperforms recent state-of-the-art approaches, and achieves superior robustness in a wide range of label noises. Code is available at https://github.com/g aozhitong/SP_guided_ Noisy_Label_Seg.
翻訳日:2021-07-22 14:13:12 公開日:2021-07-21
# オープンセット行動認識のための証拠深層学習

Evidential Deep Learning for Open Set Action Recognition ( http://arxiv.org/abs/2107.10161v1 )

ライセンス: Link先を確認
Wentao Bao, Qi Yu, Yu Kong(参考訳) 現実のシナリオでは、人間のアクションはトレーニングデータから分布外であり、既知のアクションを認識し、未知のアクションを拒否するモデルを必要とする。 画像データと異なり、不確実な時間的ダイナミクスと人間の行動の静的バイアスにより、ビデオアクションはオープンな設定で認識することがより困難である。 本稿では,オープンテストセットにおける行動認識のためのdear(deep obviousial action recognition)手法を提案する。 具体的には、顕在的深層学習(EDL)の観点から行動認識問題を定式化し、EDLトレーニングを正規化するための新しいモデル校正法を提案する。 また,映像表現の静的バイアスを軽減するために,コントラスト学習による学習表現の偏りを解消するプラグ・アンド・プレイモジュールを提案する。 実験の結果,複数のメインストリーム行動認識モデルとベンチマークで一貫した性能向上が得られた。 コードと事前訓練された重量は、受理時に利用可能になる。

In a real-world scenario, human actions are typically out of the distribution from training data, which requires a model to both recognize the known actions and reject the unknown. Different from image data, video actions are more challenging to be recognized in an open-set setting due to the uncertain temporal dynamics and static bias of human actions. In this paper, we propose a Deep Evidential Action Recognition (DEAR) method to recognize actions in an open testing set. Specifically, we formulate the action recognition problem from the evidential deep learning (EDL) perspective and propose a novel model calibration method to regularize the EDL training. Besides, to mitigate the static bias of video representation, we propose a plug-and-play module to debias the learned representation through contrastive learning. Experimental results show that our DEAR method achieves consistent performance gain on multiple mainstream action recognition models and benchmarks. Codes and pre-trained weights will be made available upon paper acceptance.
翻訳日:2021-07-22 14:12:58 公開日:2021-07-21
# DRIVE:視覚的説明による深い強化された事故予測

DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation ( http://arxiv.org/abs/2107.10189v1 )

ライセンス: Link先を確認
Wentao Bao, Qi Yu, Yu Kong(参考訳) 交通事故予知は、自動運転システムにとって必須のdashcamビデオから、将来の事故の発生を正確かつ迅速に予測することを目的としている。 早期かつ正確な意思決定を促進するために、既存のアプローチは、将来の事故が起こる前に空間的および時間的文脈の手がかりを捉えることに重点を置いている。 しかし、その決定は視覚的な説明に欠け、環境との動的相互作用を無視している。 本稿では,DRIVE と命名された視覚表現を用いた深部強化事故予測手法を提案する。 ダッシュカム観察環境におけるボトムアップとトップダウンの両方の視覚注意機構をシミュレートし、提案する確率的マルチタスクエージェントからの判断を注意領域で視覚的に説明できるようにする。 また,強化学習アルゴリズムを改良したドライブモデルの学習には,提案する密集型予測報酬とスパース固定報酬が有効である。 実験結果から,DRIVEモデルが複数の実世界の交通事故データセットに対して最先端の性能を達成することが示された。 コードと事前トレーニングされたモデルは、紙の受け入れ時に利用可能になる。

Traffic accident anticipation aims to accurately and promptly predict the occurrence of a future accident from dashcam videos, which is vital for a safety-guaranteed self-driving system. To encourage an early and accurate decision, existing approaches typically focus on capturing the cues of spatial and temporal context before a future accident occurs. However, their decision-making lacks visual explanation and ignores the dynamic interaction with the environment. In this paper, we propose Deep ReInforced accident anticipation with Visual Explanation, named DRIVE. The method simulates both the bottom-up and top-down visual attention mechanism in a dashcam observation environment so that the decision from the proposed stochastic multi-task agent can be visually explained by attentive regions. Moreover, the proposed dense anticipation reward and sparse fixation reward are effective in training the DRIVE model with our improved reinforcement learning algorithm. Experimental results show that the DRIVE model achieves state-of-the-art performance on multiple real-world traffic accident datasets. The code and pre-trained model will be available upon paper acceptance.
翻訳日:2021-07-22 14:12:43 公開日:2021-07-21
# CycleMLP: ディエンス予測のためのMLPライクなアーキテクチャ

CycleMLP: A MLP-like Architecture for Dense Prediction ( http://arxiv.org/abs/2107.10224v1 )

ライセンス: Link先を確認
Shoufa Chen, Enze Xie, Chongjian Ge, Ding Liang, Ping Luo(参考訳) 本稿では,MLP-Mixer,ResMLP,gM LPなどの最新のMLPアーキテクチャとは異なり,視覚認識や高密度な予測のための汎用バックボーンであるCycleMLPを提案する。 CycleMLPは、現代的なアプローチに比べて2つの利点がある。 1)様々な画像サイズに対応できる。 2)局所窓を用いた画像サイズに対する線形計算複雑性を実現する。 対照的に、以前のMLPは空間的接続が完全であるために二次計算をしていた。 我々は既存のMLPを超えるモデル群を構築し、ImageNet-1K分類の精度(83.2%)をSwin Transformer(83.3%)のような最先端のトランスフォーマーと比較するが、パラメータやFLOPは少ない。 我々は、MDPのようなモデルの適用性を拡大し、高密度予測タスクのための汎用的なバックボーンとなる。 CycleMLPは、MLPモデルのオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。 特に、CycleMLPはADE20K val上で45.1 mIoUを達成し、Swin (45.2 mIOU)に匹敵する。 コードは \url{https://github.com/s houfachen/cyclemlp} で入手できる。

This paper presents a simple MLP-like architecture, CycleMLP, which is a versatile backbone for visual recognition and dense predictions, unlike modern MLP architectures, e.g., MLP-Mixer, ResMLP, and gMLP, whose architectures are correlated to image size and thus are infeasible in object detection and segmentation. CycleMLP has two advantages compared to modern approaches. (1) It can cope with various image sizes. (2) It achieves linear computational complexity to image size by using local windows. In contrast, previous MLPs have quadratic computations because of their fully spatial connections. We build a family of models that surpass existing MLPs and achieve a comparable accuracy (83.2%) on ImageNet-1K classification compared to the state-of-the-art Transformer such as Swin Transformer (83.3%) but using fewer parameters and FLOPs. We expand the MLP-like models' applicability, making them a versatile backbone for dense prediction tasks. CycleMLP aims to provide a competitive baseline on object detection, instance segmentation, and semantic segmentation for MLP models. In particular, CycleMLP achieves 45.1 mIoU on ADE20K val, comparable to Swin (45.2 mIOU). Code is available at \url{https://github.com/S houfaChen/CycleMLP}.
翻訳日:2021-07-22 14:12:26 公開日:2021-07-21
# Recursive Neural Tensor Networks を用いた自然言語要求からの細粒度因果抽出

Fine-Grained Causality Extraction From Natural Language Requirements Using Recursive Neural Tensor Networks ( http://arxiv.org/abs/2107.09980v1 )

ライセンス: Link先を確認
Jannik Fischbach, Tobias Springer, Julian Frattini, Henning Femmer, Andreas Vogelsang, and Daniel Mendez(参考訳) [コンテキスト:] 因果関係(例えば、A ならば B)は、機能的要求において一般的である。 AI4REの様々な応用、例えば、適切なテストケースを要件から自動的に導出し、そのような因果的ステートメントを自動的に抽出することが基本的な必要性である。 [problem:] きめ細かな形で自然言語要件から因果関係を抽出することのできるアプローチに欠けています。 具体的には、既存のアプローチは原因と効果の組合せを考慮していない。 また、原因や効果をより粒度の細かいテキスト断片(変数や条件など)に分割することはできず、抽出された関係は自動テストケースの導出には適さない。 目的とコントリビューション:] この研究ギャップに対処し、以下の貢献をする。 まず、完全なラベル付きバイナリパースツリーの最初のコーパスであるCausality Treebankを紹介します。 次に,再帰型ニューラルテンソルネットワークに基づく微粒化因果抽出器を提案する。 提案手法は,自然言語で記述した因果文の合成を復元し,因果木バンクの評価においてF1スコアが74 %に達する。 第3に,オープンデータセットとコードを公開し,reコミュニティにおける因果関係の自動抽出に関する議論を促進する。

[Context:] Causal relations (e.g., If A, then B) are prevalent in functional requirements. For various applications of AI4RE, e.g., the automatic derivation of suitable test cases from requirements, automatically extracting such causal statements are a basic necessity. [Problem:] We lack an approach that is able to extract causal relations from natural language requirements in fine-grained form. Specifically, existing approaches do not consider the combinatorics between causes and effects. They also do not allow to split causes and effects into more granular text fragments (e.g., variable and condition), making the extracted relations unsuitable for automatic test case derivation. [Objective & Contributions:] We address this research gap and make the following contributions: First, we present the Causality Treebank, which is the first corpus of fully labeled binary parse trees representing the composition of 1,571 causal requirements. Second, we propose a fine-grained causality extractor based on Recursive Neural Tensor Networks. Our approach is capable of recovering the composition of causal statements written in natural language and achieves a F1 score of 74 % in the evaluation on the Causality Treebank. Third, we disclose our open data sets as well as our code to foster the discourse on the automatic extraction of causality in the RE community.
翻訳日:2021-07-22 14:12:01 公開日:2021-07-21
# CATE: 自然言語要求からの因果木エクストラクタ

CATE: CAusality Tree Extractor from Natural Language Requirements ( http://arxiv.org/abs/2107.10023v1 )

ライセンス: Link先を確認
Noah Jadallah, Jannik Fischbach, Julian Frattini, and Andreas Vogelsang(参考訳) 因果関係(A ならば B)は要求アーティファクトでよく見られる。 要件から因果関係を自動的に抽出することは、様々なRE活動(例えば、適切なテストケースの自動導出)において大きな可能性を秘めている。 しかし,自然言語からの因果関係を合理的な性能で抽出できる手法が欠如している。 本稿では,木構造としての因果関係の構成を解析できるツールCATE(CAusality Tree Extractor)を提案する。 CATEは、文における原因と効果の概要を提供するだけでなく、因果関係を二分木に翻訳することで意味的一貫性を明らかにする。 私たちは同僚の研究者や実践者が https://causalitytre eextractor.com/ で CATE を使用するように勧めています。

Causal relations (If A, then B) are prevalent in requirements artifacts. Automatically extracting causal relations from requirements holds great potential for various RE activities (e.g., automatic derivation of suitable test cases). However, we lack an approach capable of extracting causal relations from natural language with reasonable performance. In this paper, we present our tool CATE (CAusality Tree Extractor), which is able to parse the composition of a causal relation as a tree structure. CATE does not only provide an overview of causes and effects in a sentence, but also reveals their semantic coherence by translating the causal relation into a binary tree. We encourage fellow researchers and practitioners to use CATE at https://causalitytre eextractor.com/
翻訳日:2021-07-22 14:11:38 公開日:2021-07-21
# マルチラベル分類のためのオートエンコーダと機能的リンクニューラルネットワークの統合

Integration of Autoencoder and Functional Link Artificial Neural Network for Multi-label Classification ( http://arxiv.org/abs/2107.09904v1 )

ライセンス: Link先を確認
Anwesha Law and Ashish Ghosh(参考訳) マルチラベル(ml)分類は、現在活発に研究されているトピックであり、特定のデータインスタンスで複数のラベルがアクティブであるため発生する、畳み込みと重なり合う境界を扱う。 複雑な決定境界を扱うために,基礎となる特徴を抽出し,データに非線形性を導入することができる分類器を提案する。 入力特徴を多ラベル機能リンク人工ニューラルネットワークとオートエンコーダの2つの変換に適応させる新しいニューラルネットワークモデルが開発されている。 まず、基本機能を用いて、元の機能の機能拡張を行う。 この後、オートエンコーダによる変換と拡張機能の削減が行われる。 このネットワークは、2層変換によるマルチラベルデータの分離性を向上し、拡張された特徴空間をより管理可能な量に削減することができる。 これは、限られた量のデータであってもより良い分類性能をもたらす入力次元のバランスをとる。 提案したネットワークは、5つのMLデータセットで検証され、6つの確立されたML分類器と比較して優れた性能を示している。 さらに,提案ネットワークの単一ラベル変動も同時に定式化され,既存の3つの分類器に対して4つの関連するデータセットで検証され,その有効性が確認されている。

Multi-label (ML) classification is an actively researched topic currently, which deals with convoluted and overlapping boundaries that arise due to several labels being active for a particular data instance. We propose a classifier capable of extracting underlying features and introducing non-linearity to the data to handle the complex decision boundaries. A novel neural network model has been developed where the input features are subjected to two transformations adapted from multi-label functional link artificial neural network and autoencoders. First, a functional expansion of the original features are made using basis functions. This is followed by an autoencoder-aided transformation and reduction on the expanded features. This network is capable of improving separability for the multi-label data owing to the two-layer transformation while reducing the expanded feature space to a more manageable amount. This balances the input dimension which leads to a better classification performance even for a limited amount of data. The proposed network has been validated on five ML datasets which shows its superior performance in comparison with six well-established ML classifiers. Furthermore, a single-label variation of the proposed network has also been formulated simultaneously and tested on four relevant datasets against three existing classifiers to establish its effectiveness.
翻訳日:2021-07-22 14:11:07 公開日:2021-07-21
# glime: 解釈可能なモデル非依存な説明のための新しいグラフィカル方法論

GLIME: A new graphical methodology for interpretable model-agnostic explanations ( http://arxiv.org/abs/2107.09927v1 )

ライセンス: Link先を確認
Zoumpolia Dikopoulou, Serafeim Moustakidis, Patrik Karlsson(参考訳) 説明可能な人工知能(XAI)は、プロセスとツールのセットが、ブラックボックスモデルによって生成された決定をよりよく理解できるようにする、新たなドメインである。 しかしながら、利用可能なXAIツールのほとんどは、主にモデルの出力に対する個々の特徴の影響を定量化する単純な説明に限られることが多い。 したがって、人間のユーザは、機能がどのように相互に関連しているかを理解して予測できないが、トレーニングされたモデルの内部動作は隠されている。 本稿では,モデルの重要な特徴を示すだけでなく,特徴間の条件付き関係や,特徴の直接的および間接的影響をモデル決定に反映する推論も示す,新しいグラフィカルな説明可能性ツールの開発に寄与する。 gLIMEと呼ばれる提案されたXAI方法論は、グローバル(データセット全体)またはローカルスケール(特定のデータポイント)でグラフィカルなモデルに依存しない説明を提供する。 局所的な解釈可能なモデルに依存しない説明(LIME)と、非直交ガウス図形モデルを生成する最小絶対縮小と選択演算子(GLASSO)の組み合わせに依存している。 正規化は、小さな部分相関係数をゼロに縮小することで、スパーザーとより解釈可能なグラフィカルな説明を提供する。 2つのよく知られた分類データセット(BIOPSYとOAI)が選択され、複数の置換に対する堅牢性と一貫性の両方の観点から、LIMEに対するgLIMEの優位性が確認された。 特に、gLIMEは機能の重要性に関して2つのデータセットの安定性を向上した(LIMEを使用する52%-77%に比べて76%~96%)。 gLIMEは、ブラックボックスをアンロックできる情報的な説明を提供することで、XAIにおける現在の最先端の機能を拡張するユニークな可能性を示している。

Explainable artificial intelligence (XAI) is an emerging new domain in which a set of processes and tools allow humans to better comprehend the decisions generated by black box models. However, most of the available XAI tools are often limited to simple explanations mainly quantifying the impact of individual features to the models' output. Therefore, human users are not able to understand how the features are related to each other to make predictions, whereas the inner workings of the trained models remain hidden. This paper contributes to the development of a novel graphical explainability tool that not only indicates the significant features of the model but also reveals the conditional relationships between features and the inference capturing both the direct and indirect impact of features to the models' decision. The proposed XAI methodology, termed as gLIME, provides graphical model-agnostic explanations either at the global (for the entire dataset) or the local scale (for specific data points). It relies on a combination of local interpretable model-agnostic explanations (LIME) with graphical least absolute shrinkage and selection operator (GLASSO) producing undirected Gaussian graphical models. Regularization is adopted to shrink small partial correlation coefficients to zero providing sparser and more interpretable graphical explanations. Two well-known classification datasets (BIOPSY and OAI) were selected to confirm the superiority of gLIME over LIME in terms of both robustness and consistency over multiple permutations. Specifically, gLIME accomplished increased stability over the two datasets with respect to features' importance (76%-96% compared to 52%-77% using LIME). gLIME demonstrates a unique potential to extend the functionality of the current state-of-the-art in XAI by providing informative graphically given explanations that could unlock black boxes.
翻訳日:2021-07-22 14:10:48 公開日:2021-07-21
# モデル転送を伴わない教師なし領域適応のためのブラックボックスプローブ

Black-box Probe for Unsupervised Domain Adaptation without Model Transferring ( http://arxiv.org/abs/2107.10174v1 )

ライセンス: Link先を確認
Kunhong Wu, Yucheng Shi, Yahong Han, Yunfeng Shao, Bingshuai Li(参考訳) 近年、ディープラーニングモデルによるデータセキュリティとプライバシへの脅威、特にドメイン適応の分野では、研究者はますます注意を払っている。 既存のunsupervised domain adaptation (uda)メソッドは、ソースドメインからターゲットドメインにデータを転送することなく、有望なパフォーマンスを達成できる。 しかし、表現アライメントや自己教師付き擬似ラベルを持つUDAは、転送元モデルに依存している。 多くのデータクリティカルなシナリオでは、モデル転送に基づくメソッドはメンバーシップ推論攻撃に苦しめられ、プライベートデータを公開する。 本稿では,ソースモデルがクエリ可能であるだけでなく,対象ドメインに転送できないような,新たな課題を克服することを目的とする。 我々は、サードパーティのデータセットを用いてソースモデルからの情報を探索・精査するためのクエリ機構を採用したブラックボックスプローブドメイン適応(BPDA)を提案する。 より情報的なクエリ結果を得るためには、さらにDAT(Distributally Adversarial Training)を提案し、サードパーティデータの分布とターゲットデータの分布を整合させる。 BPDAは、ソースドメインとターゲットドメインの間の情報キャリアとして、DATに基づく公開サードパーティデータセットと敵の例を使用し、ソースデータやモデルを転送する必要がない。 Digit-Five、Office-Caltech、Office-31、Office-Home、DomainNetのベンチマーク実験の結果、BPDAはモデル転送なしで実現可能であることが示された。

In recent years, researchers have been paying increasing attention to the threats brought by deep learning models to data security and privacy, especially in the field of domain adaptation. Existing unsupervised domain adaptation (UDA) methods can achieve promising performance without transferring data from source domain to target domain. However, UDA with representation alignment or self-supervised pseudo-labeling relies on the transferred source models. In many data-critical scenarios, methods based on model transferring may suffer from membership inference attacks and expose private data. In this paper, we aim to overcome a challenging new setting where the source models are only queryable but cannot be transferred to the target domain. We propose Black-box Probe Domain Adaptation (BPDA), which adopts query mechanism to probe and refine information from source model using third-party dataset. In order to gain more informative query results, we further propose Distributionally Adversarial Training (DAT) to align the distribution of third-party data with that of target data. BPDA uses public third-party dataset and adversarial examples based on DAT as the information carrier between source and target domains, dispensing with transferring source data or model. Experimental results on benchmarks of Digit-Five, Office-Caltech, Office-31, Office-Home, and DomainNet demonstrate the feasibility of BPDA without model transferring.
翻訳日:2021-07-22 14:10:20 公開日:2021-07-21
# オンライン陰謀論コミュニティにおける社会的想像力と不協和音の自己開示

Characterizing Social Imaginaries and Self-Disclosures of Dissonance in Online Conspiracy Discussion Communities ( http://arxiv.org/abs/2107.10204v1 )

ライセンス: Link先を確認
Shruti Phadke, Mattia Samory, Tanushree Mitra(参考訳) オンライン議論プラットフォームは、誤報陰謀説の信条を強化し、広めるためのフォーラムを提供している。 しかし、彼らは陰謀論者に対して、彼らの疑念や認知的不協和の経験を表現する道筋を提供する。 このような不協和の表現は、誰が誤った信念を捨てるか、どのような状況下なのかに光を当てることができる。 本稿では, 謎の指導者Qの陰謀論であるQAnonに関する不協和の自己開示を特徴とする。 共謀コミュニティにおける不協和と不信感を理解するために、我々はまず彼らの社会的想像を特徴づけ、人々が彼らの社会的存在をどのように想像するかを広く理解する。 4chanと8chanの2つのイメージボードからの2Kポストと、QAnon専用の12のサブレディットからの1.2Mコメントと投稿に注目して、QAnonコミュニティのムーブメント、期待、プラクティス、ヒーロー、フェースを表す象徴的言語を明らかにするための混合手法を採用した。 我々はこれらのソーシャル・イマジナリーを用いて、QAnonに関する一般的な議論から信念と不協和を区別する計算フレームワークを作成する。 さらに,QAnon陰謀未遂者のユーザエンゲージメントを分析したところ,不協和の自己開示は,ユーザの貢献が著しく減少し,最終的にはコミュニティからの離脱と相関していることがわかった。 我々は、不協和音の自己開示を識別し、不協和音を取り巻くユーザの関与の変化を測定するための計算フレームワークを提供する。 我々の研究は、不協和に基づく介入の設計に関する洞察を与え、オンライン陰謀論のコミュニティから共謀者を遠ざける可能性がある。

Online discussion platforms offer a forum to strengthen and propagate belief in misinformed conspiracy theories. Yet, they also offer avenues for conspiracy theorists to express their doubts and experiences of cognitive dissonance. Such expressions of dissonance may shed light on who abandons misguided beliefs and under which circumstances. This paper characterizes self-disclosures of dissonance about QAnon, a conspiracy theory initiated by a mysterious leader Q and popularized by their followers, anons in conspiracy theory subreddits. To understand what dissonance and disbelief mean within conspiracy communities, we first characterize their social imaginaries, a broad understanding of how people collectively imagine their social existence. Focusing on 2K posts from two image boards, 4chan and 8chan, and 1.2 M comments and posts from 12 subreddits dedicated to QAnon, we adopt a mixed methods approach to uncover the symbolic language representing the movement, expectations, practices, heroes and foes of the QAnon community. We use these social imaginaries to create a computational framework for distinguishing belief and dissonance from general discussion about QAnon. Further, analyzing user engagement with QAnon conspiracy subreddits, we find that self-disclosures of dissonance correlate with a significant decrease in user contributions and ultimately with their departure from the community. We contribute a computational framework for identifying dissonance self-disclosures and measuring the changes in user engagement surrounding dissonance. Our work can provide insights into designing dissonance-based interventions that can potentially dissuade conspiracists from online conspiracy discussion communities.
翻訳日:2021-07-22 14:09:48 公開日:2021-07-21
# マルチモーダル医用画像分割のためのモダリティ・アウェア相互学習

Modality-aware Mutual Learning for Multi-modal Medical Image Segmentation ( http://arxiv.org/abs/2107.09842v1 )

ライセンス: Link先を確認
Yao Zhang, Jiawei Yang, Jiang Tian, Zhongchao Shi, Cheng Zhong, Yang Zhang, and Zhiqiang He(参考訳) 肝臓がんは世界中で最も多いがんの1つである。 肝腫瘍の異常なテクスチャー変化のため,造影CTが肝癌の診断に有用である。 本稿では,マルチモーダルCT画像の統合による肝腫瘍切除の自動化に焦点をあてる。 そこで本研究では,マルチモーダル肝腫瘍セグメンテーションのための新たな相互学習(ML)戦略を提案する。 異なるモダリティから情報を単一のモデルで融合する既存のマルチモーダル法とは異なり、MLでは、モダリティ固有のモデルのアンサンブルが協調的に学習し、異なるモダリティの高レベル表現間の特性と共通性の両方を融合させるように互いに教える。 提案したMLは,マルチモーダル学習の優位性を実現するだけでなく,既存のモーダルから欠落したモーダルへ知識を伝達することで,欠落したモーダルを扱える。 さらに,モダリティ固有モデルとアダプティブ情報交換のための注意重み付けを相互に結合して調整するモダリティ認識(ma)モジュールを提案する。 提案手法は, 大規模臨床データセットを用いた肝腫瘍セグメンテーションにおいて有望な結果が得られた。 さらに,肝腫瘍および公共脳腫瘍(BRATS 2018)データセットの欠如に対するMAMLの有効性とロバスト性を示した。 私たちのコードはhttps://github.com/Y aoZhang93/MAMLで利用可能です。

Liver cancer is one of the most common cancers worldwide. Due to inconspicuous texture changes of liver tumor, contrast-enhanced computed tomography (CT) imaging is effective for the diagnosis of liver cancer. In this paper, we focus on improving automated liver tumor segmentation by integrating multi-modal CT images. To this end, we propose a novel mutual learning (ML) strategy for effective and robust multi-modal liver tumor segmentation. Different from existing multi-modal methods that fuse information from different modalities by a single model, with ML, an ensemble of modality-specific models learn collaboratively and teach each other to distill both the characteristics and the commonality between high-level representations of different modalities. The proposed ML not only enables the superiority for multi-modal learning but can also handle missing modalities by transferring knowledge from existing modalities to missing ones. Additionally, we present a modality-aware (MA) module, where the modality-specific models are interconnected and calibrated with attention weights for adaptive information exchange. The proposed modality-aware mutual learning (MAML) method achieves promising results for liver tumor segmentation on a large-scale clinical dataset. Moreover, we show the efficacy and robustness of MAML for handling missing modalities on both the liver tumor and public brain tumor (BRATS 2018) datasets. Our code is available at https://github.com/Y aoZhang93/MAML.
翻訳日:2021-07-22 14:09:17 公開日:2021-07-21
# 3次元脳形状再構成のための木構造グラフ畳み込みによる点雲生成モデル

A Point Cloud Generative Model via Tree-Structured Graph Convolutions for 3D Brain Shape Reconstruction ( http://arxiv.org/abs/2107.09923v1 )

ライセンス: Link先を確認
Bowen Hu, Baiying Lei, Yanyan Shen, Yong Liu, Shuqiang Wang(参考訳) 医用画像とそれに対応する3次元形状表現は、補完的な情報と微細構造の詳細を提供し、脳外科手術の手術性能と精度を向上させる。 しかし,実際の画像データと比較すると,特に低侵襲手術やロボット誘導手術において,センサスキャンなどの物理的手法を用いて術中3次元形状情報を得ることはほとんど不可能である。 本稿では, グラフ畳み込みネットワークに基づくgan(general generative adversarial network)アーキテクチャを提案し, 1つの2次元画像を用いて脳の3次元点雲(pcs)を再構成し, 手術中の3次元形状データ獲得の限界を緩和する。 具体的には、木構造生成機構を構築し、潜伏ベクトルを効果的に利用し、隠蔽層間の特徴を正確に伝達する。 提案する生成モデルにより,自然画像からpcへの変換がリアルタイムに完了する。 本モデルでは, 比較定性的, 定量的な実験結果を得た。 複数の評価手法において、提案モデルは別の共通点クラウド生成モデルであるPointOutNetより優れている。

Fusing medical images and the corresponding 3D shape representation can provide complementary information and microstructure details to improve the operational performance and accuracy in brain surgery. However, compared to the substantial image data, it is almost impossible to obtain the intraoperative 3D shape information by using physical methods such as sensor scanning, especially in minimally invasive surgery and robot-guided surgery. In this paper, a general generative adversarial network (GAN) architecture based on graph convolutional networks is proposed to reconstruct the 3D point clouds (PCs) of brains by using one single 2D image, thus relieving the limitation of acquiring 3D shape data during surgery. Specifically, a tree-structured generative mechanism is constructed to use the latent vector effectively and transfer features between hidden layers accurately. With the proposed generative model, a spontaneous image-to-PC conversion is finished in real-time. Competitive qualitative and quantitative experimental results have been achieved on our model. In multiple evaluation methods, the proposed model outperforms another common point cloud generative model PointOutNet.
翻訳日:2021-07-22 14:08:52 公開日:2021-07-21
# カーポエント製造におけるリバースエンジニアリング

Fabrication-Aware Reverse Engineering for Carpentry ( http://arxiv.org/abs/2107.09965v1 )

ライセンス: Link先を確認
James Noeckel, Haisen Zhao, Brian Curless, Adriana Schulz(参考訳) 本稿では,大工品の画像から創製青写真を生成する新しい手法を提案する。 画像からの3d再構成はよく研究されている問題であるが、典型的な手法はコンピュータ支援の設計や製造に不向きな表現を生成する。 我々の重要な洞察は、造形プロセスが大工オブジェクトの設計空間を定義し、制約し、新しい再構築手法を開発するために活用できるということである。 本手法では,画像ベースと幾何最適化の組み合わせを用いて,有効形状だけでなく,部品の意味的に妥当な集合を復元する。 様々な木製物や家具について本手法を実演し, 容易に編集でき, 正確な真理を再現できるデザインを自動で得ることができることを示した。 さらに本手法は,cadソフトウェアで再構成されたモデルを直接編集することで生成可能なカスタマイズされたバージョンだけでなく,キャプチャしたオブジェクトの物理的レプリカの作成にも利用できることを示す。

We propose a novel method to generate fabrication blueprints from images of carpentered items. While 3D reconstruction from images is a well-studied problem, typical approaches produce representations that are ill-suited for computer-aided design and fabrication applications. Our key insight is that fabrication processes define and constrain the design space for carpentered objects, and can be leveraged to develop novel reconstruction methods. Our method makes use of domain-specific constraints to recover not just valid geometry, but a semantically valid assembly of parts, using a combination of image-based and geometric optimization techniques. We demonstrate our method on a variety of wooden objects and furniture, and show that we can automatically obtain designs that are both easy to edit and accurate recreations of the ground truth. We further illustrate how our method can be used to fabricate a physical replica of the captured object as well as a customized version, which can be produced by directly editing the reconstructed model in CAD software.
翻訳日:2021-07-22 14:08:34 公開日:2021-07-21
# HistoCartography: デジタル病理におけるグラフ解析のためのツールキット

HistoCartography: A Toolkit for Graph Analytics in Digital Pathology ( http://arxiv.org/abs/2107.10073v1 )

ライセンス: Link先を確認
Guillaume Jaume, Pushpak Pati, Valentin Anklin, Antonio Foncubierta, Maria Gabrani(参考訳) 組織病理画像のエンティティグラフに基づく解析の進歩は、組織構成を記述し、組織構造と機能の関係を学ぶ新しいパラダイムをもたらした。 エンティティグラフは、組織組織を特徴付けるために柔軟でスケーラブルな表現を提供し、また、事前の病理学知識を組み込むことにより、モデルの解釈可能性と説明可能性をさらに支援できる。 しかし、エンティティグラフ分析には、画像からグラフへの翻訳と、グラフ構造データに適用される最先端機械学習アルゴリズムの知識の前提条件が必要である。 本研究では, 計算病理学におけるグラフ解析を容易にするために, 必要な前処理, 機械学習, 説明ツールを備えた標準python api であるhistocartography を開発した。 さらに,様々な撮像型と病理組織学タスクにまたがる複数のデータセットの計算時間と性能をベンチマークし,計算病理ワークフロー構築のためのapiの適用性を強調した。

Advances in entity-graph based analysis of histopathology images have brought in a new paradigm to describe tissue composition, and learn the tissue structure-to-functio n relationship. Entity-graphs offer flexible and scalable representations to characterize tissue organization, while allowing the incorporation of prior pathological knowledge to further support model interpretability and explainability. However, entity-graph analysis requires prerequisites for image-to-graph translation and knowledge of state-of-the-art machine learning algorithms applied to graph-structured data, which can potentially hinder their adoption. In this work, we aim to alleviate these issues by developing HistoCartography, a standardized python API with necessary preprocessing, machine learning and explainability tools to facilitate graph-analytics in computational pathology. Further, we have benchmarked the computational time and performance on multiple datasets across different imaging types and histopathology tasks to highlight the applicability of the API for building computational pathology workflows.
翻訳日:2021-07-22 14:08:19 公開日:2021-07-21
# セグメンテーションとベンチマークのための3次元蛍光顕微鏡データ合成

3D fluorescence microscopy data synthesis for segmentation and benchmarking ( http://arxiv.org/abs/2107.10180v1 )

ライセンス: Link先を確認
Dennis Eschweiler, Malte Rethwisch, Mareike Jarchow, Simon Koppers, Johannes Stegmaier(参考訳) 多くのバイオメディカル実験には自動画像処理アプローチが不可欠であり、高速かつ再現可能な方法で顕微鏡画像データの増大に対応するのに役立つ。 特に最先端のディープラーニングベースのアプローチでは、正確で汎用的なアウトプットを生成するために大量のアノテートトレーニングデータを必要とすることが多いが、これらのアノテートデータセットの一般的な欠如によって、しばしば妥協される。 本研究では,3次元セル構造のアノテーションマスクから3次元蛍光顕微鏡の現実的な画像データを生成するために,条件付き生成対向ネットワークを利用する方法を提案する。 マスクシミュレーション手法と組み合わせて、トレーニングやベンチマークのために公開している完全アノテーション付き3D顕微鏡データセットを実演する。 セル構造のさらなる位置コンディショニングにより、位置依存的な強度特性の再構成が可能となり、品質レベルの異なる画像データを生成することができる。 パッチワイド動作原理とその後のフルサイズ再組み立て戦略を用いて、任意のサイズと異なる生物の画像データを生成する。 これは、手動アノテーションの必要性を軽減するために、最低限の手動操作しか必要としない完全アノテーション付きトレーニングデータセットの自動生成のための概念実証として提示する。

Automated image processing approaches are indispensable for many biomedical experiments and help to cope with the increasing amount of microscopy image data in a fast and reproducible way. Especially state-of-the-art deep learning-based approaches most often require large amounts of annotated training data to produce accurate and generalist outputs, but they are often compromised by the general lack of those annotated data sets. In this work, we propose how conditional generative adversarial networks can be utilized to generate realistic image data for 3D fluorescence microscopy from annotation masks of 3D cellular structures. In combination with mask simulation approaches, we demonstrate the generation of fully-annotated 3D microscopy data sets that we make publicly available for training or benchmarking. An additional positional conditioning of the cellular structures enables the reconstruction of position-dependent intensity characteristics and allows to generate image data of different quality levels. A patch-wise working principle and a subsequent full-size reassemble strategy is used to generate image data of arbitrary size and different organisms. We present this as a proof-of-concept for the automated generation of fully-annotated training data sets requiring only a minimum of manual interaction to alleviate the need of manual annotations.
翻訳日:2021-07-22 14:07:52 公開日:2021-07-21
# ビデオコーデック比較における客観的映像品質指標の適用:主観的品質推定のためのベストの選択

Objective video quality metrics application to video codecs comparisons: choosing the best for subjective quality estimation ( http://arxiv.org/abs/2107.10220v1 )

ライセンス: Link先を確認
Anastasia Antsiferova, Alexander Yakovenko, Nickolay Safonov, Dmitriy Kulikov, Alexander Gushin, and Dmitriy Vatolin(参考訳) 画質評価はビデオ圧縮アルゴリズムの作成と比較において重要な役割を果たす。 品質評価のための多くの新しい手法の開発にもかかわらず、一般に受け入れられ、よく知られたコーデック比較は主にPSNR、SSIM、新しいVMAFといった古典的な手法を使用している。 これらの手法は、異なるフレーム・バイ・フレーム平均化技術または異なるカラー成分の和を用いることができる。 本稿では,コーデック比較に使用される映像品質指標の最も重要かつ推奨されるバージョンを見出すために,一般に受け入れられる指標の各種バージョンについて基礎的な比較を行う。 比較のために、さまざまな標準のビデオコーデックでエンコードされたビデオセットと、2018年から2021年までのストリームの視覚的品質スコアを使用した。

Quality assessment plays a key role in creating and comparing video compression algorithms. Despite the development of a large number of new methods for assessing quality, generally accepted and well-known codecs comparisons mainly use the classical methods like PSNR, SSIM and new method VMAF. These methods can be calculated following different rules: they can use different frame-by-frame averaging techniques or different summation of color components. In this paper, a fundamental comparison of various versions of generally accepted metrics is carried out to find the most relevant and recommended versions of video quality metrics to be used in codecs comparisons. For comparison, we used a set of videos encoded with video codecs of different standards, and visual quality scores collected for the resulting set of streams since 2018 until 2021
翻訳日:2021-07-22 14:07:32 公開日:2021-07-21
# CL4AC:オーディオキャプションのコントラスト損失

CL4AC: A Contrastive Loss for Audio Captioning ( http://arxiv.org/abs/2107.09990v1 )

ライセンス: Link先を確認
Xubo Liu, Qiushi Huang, Xinhao Mei, Tom Ko, H Lilian Tang, Mark D. Plumbley and Wenwu Wang(参考訳) 自動音声キャプション (Automated Audio Casting, AAC) は、音声クリップの内容を自然言語で記述することを目的としたクロスモーダル翻訳タスクである。 dcase 2021チャレンジのタスク6で受け取った提案に示されているように、この問題はコミュニティの関心を集めている。 既存のAACシステムは通常、エンコーダ・デコーダアーキテクチャに基づいており、そこでは音声信号が潜在表現に符号化され、対応するテキスト記述と一致し、デコーダを使用してキャプションを生成する。 しかし、AACシステムのトレーニングはデータ不足の問題にしばしば遭遇し、不正確な表現や音声テキストのアライメントにつながる可能性がある。 この問題に対処するため,CL4AC (Contrastive Loss for Audio Captioning) と呼ばれる新しいエンコーダデコーダフレームワークを提案する。 CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、サンプルを対比することで音声とテキストの対応を利用して、限られたデータで訓練しながら、潜時表現の質と音声とテキストのアライメントを改善することができる。 提案手法の有効性を示すため,布地データセット上で実験を行った。

Automated Audio captioning (AAC) is a cross-modal translation task that aims to use natural language to describe the content of an audio clip. As shown in the submissions received for Task 6 of the DCASE 2021 Challenges, this problem has received increasing interest in the community. The existing AAC systems are usually based on an encoder-decoder architecture, where the audio signal is encoded into a latent representation, and aligned with its corresponding text descriptions, then a decoder is used to generate the captions. However, training of an AAC system often encounters the problem of data scarcity, which may lead to inaccurate representation and audio-text alignment. To address this problem, we propose a novel encoder-decoder framework called Contrastive Loss for Audio Captioning (CL4AC). In CL4AC, the self-supervision signals derived from the original audio-text paired data are used to exploit the correspondences between audio and texts by contrasting samples, which can improve the quality of latent representation and the alignment between audio and texts, while trained with limited data. Experiments are performed on the Clotho dataset to show the effectiveness of our proposed approach.
翻訳日:2021-07-22 14:06:32 公開日:2021-07-21
# ニューラル離散時間周波数表現学習を用いた条件音生成

Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning ( http://arxiv.org/abs/2107.09998v1 )

ライセンス: Link先を確認
Xubo Liu, Turab Iqbal, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang(参考訳) 深層生成モデルは近年,音声合成と音楽生成において顕著な性能を達成している。 しかし、それらドメイン固有の音の生成と比較すると、一般的な音(カーホーン、犬の鳴き声、銃声など)の生成は、幅広い応用可能性にもかかわらず、あまり注目されていない。 前回の研究では、SampleRNNを使用して時間領域で音が生成される。 しかし、この方法では録音中の長距離依存性を捉えることは困難である。 本研究では,ニューラル離散時間周波数表現学習を用いて,音のクラスに調和した音を生成することを提案する。 これにより、長距離依存性のモデル化や、サウンドクリップ内の局所的なきめ細かな構造保持にメリットがある。 本研究では,提案手法であるurbansound8kデータセットを,sampernnベースラインと比較し,生成音の質と多様性を計測する性能指標を用いて評価した。 実験の結果,提案手法はベースライン法と比較して,多様性と品質の同等の性能が有意に向上することがわかった。

Deep generative models have recently achieved impressive performance in speech synthesis and music generation. However, compared to the generation of those domain-specific sounds, the generation of general sounds (such as car horn, dog barking, and gun shot) has received less attention, despite their wide potential applications. In our previous work, sounds are generated in the time domain using SampleRNN. However, it is difficult to capture long-range dependencies within sound recordings using this method. In this work, we propose to generate sounds conditioned on sound classes via neural discrete time-frequency representation learning. This offers an advantage in modelling long-range dependencies and retaining local fine-grained structure within a sound clip. We evaluate our proposed approach on the UrbanSound8K dataset, as compared to a SampleRNN baseline, with the performance metrics measuring the quality and diversity of the generated sound samples. Experimental results show that our proposed method offers significantly better performance in diversity and comparable performance in quality, as compared to the baseline method.
翻訳日:2021-07-22 14:06:09 公開日:2021-07-21
# 雑音評価によるピアセレクション

Peer Selection with Noisy Assessments ( http://arxiv.org/abs/2107.10121v1 )

ライセンス: Link先を確認
Omer Lev, Nicholas Mattei, Paolo Turrini, Stanislav Zhydkov(参考訳) ピア選択問題では、エージェントのグループは自身のサブセットを、例えばピアレビューされた賞や賞の勝者として選ばなければならない。 ここでは,この集約問題に対するコンドルチェットの見解,すなわちエージェントに対する根本的な秩序があり,仲間の騒々しい評価を受けながら,最高のエージェントを選択することを望んでいる。 このモデルを考えると、一部のエージェントは信頼できないかもしれないが、他のエージェントは自己関心を持ち、彼らの好む結果に影響を与えようとする。 本稿では,これまで最も正確なピアレビューアルゴリズムであるpeernominationを,ノイズや不正確なエージェントを処理可能な重み付きpeernominationに拡張する。 これを実現するために,我々は評価者の信頼度重み付けを,戦略保証性に違反しない方法で明示的に定式化し,この情報を用いてスコアの重み付けを行う。 重み付け方式が選択の全体的な精度を大幅に向上できることを分析的に示す。 最後に,重み付け手法の例をいくつか実装し,ノイズ評価に対してロバストな手法であることを実証的に示す。

In the peer selection problem a group of agents must select a subset of themselves as winners for, e.g., peer-reviewed grants or prizes. Here, we take a Condorcet view of this aggregation problem, i.e., that there is a ground-truth ordering over the agents and we wish to select the best set of agents, subject to the noisy assessments of the peers. Given this model, some agents may be unreliable, while others might be self-interested, attempting to influence the outcome in their favour. In this paper we extend PeerNomination, the most accurate peer reviewing algorithm to date, into WeightedPeerNominati on, which is able to handle noisy and inaccurate agents. To do this, we explicitly formulate assessors' reliability weights in a way that does not violate strategyproofness, and use this information to reweight their scores. We show analytically that a weighting scheme can improve the overall accuracy of the selection significantly. Finally, we implement several instances of reweighting methods and show empirically that our methods are robust in the face of noisy assessments.
翻訳日:2021-07-22 14:05:52 公開日:2021-07-21
# オープン量子認知モデルドライバーにおけるエージェント不注意の戦略的緩和

Strategic Mitigation of Agent Inattention in Drivers with Open-Quantum Cognition Models ( http://arxiv.org/abs/2107.09888v1 )

ライセンス: Link先を確認
Qizi Zhang and Venkata Sriram Siddhardh Nadendla and S. N. Balakrishnan and Jerome Busemeyer(参考訳) 最先端の運転支援システムは、ドライバーの不注意を効果的に軽減することができず、成長を続ける道路事故の数(例)に最小限の影響しか与えていない。 運転者の不注意につながる様々な要因による事故による生命喪失、身体的な怪我。 これは、従来の人間と機械の相互作用設定が、2つのユーティリティ最大化エージェントまたは人間の意思決定者間の戦略的相互作用を技術的に特徴付けるのに適した古典的および行動論的領域でモデル化されているためである。 そこで,ドライバ・アシストシステムの説得力を高めるために,ドライバーの精神状態や選択行動に適応した,新しい戦略的でパーソナライズされたドライバ・アシストシステムを開発した。 まず,人間のシステム間相互作用ゲームにおいて,システムが期待する実用性と人的決定を最大化し,任意の一般的な決定モデルを用いて特徴付けることのできる新しい均衡概念を提案する。 そして、この新たな均衡概念を用いて、より安全な運転決定に向けてドライバーを操る説得力のある推奨を与える戦略的なドライバーと車両の相互作用ゲームを調査する。 ドライバは、人間の意思決定の複雑な側面を捉えたオープン量子システム認知モデルを採用しており、それは、情報の特定の精神的表現の古典的法則や不適合性に違反していると仮定する。 我々は,プレイヤー同士の戦略に対する最終応答に対する閉形式表現を提示することにより,純粋および混合平衡を数値的に計算できる。 両種類の平衡を示すために数値的な結果が示される。

State-of-the-art driver-assist systems have failed to effectively mitigate driver inattention and had minimal impacts on the ever-growing number of road mishaps (e.g. life loss, physical injuries due to accidents caused by various factors that lead to driver inattention). This is because traditional human-machine interaction settings are modeled in classical and behavioral game-theoretic domains which are technically appropriate to characterize strategic interaction between either two utility maximizing agents, or human decision makers. Therefore, in an attempt to improve the persuasive effectiveness of driver-assist systems, we develop a novel strategic and personalized driver-assist system which adapts to the driver's mental state and choice behavior. First, we propose a novel equilibrium notion in human-system interaction games, where the system maximizes its expected utility and human decisions can be characterized using any general decision model. Then we use this novel equilibrium notion to investigate the strategic driver-vehicle interaction game where the car presents a persuasive recommendation to steer the driver towards safer driving decisions. We assume that the driver employs an open-quantum system cognition model, which captures complex aspects of human decision making such as violations to classical law of total probability and incompatibility of certain mental representations of information. We present closed-form expressions for players' final responses to each other's strategies so that we can numerically compute both pure and mixed equilibria. Numerical results are presented to illustrate both kinds of equilibria.
翻訳日:2021-07-22 14:05:34 公開日:2021-07-21
# 非ガウス確率力学系のサンプルパスデータから法則を抽出する

Extracting Governing Laws from Sample Path Data of Non-Gaussian Stochastic Dynamical Systems ( http://arxiv.org/abs/2107.10127v1 )

ライセンス: Link先を確認
Yang Li and Jinqiao Duan(参考訳) データサイエンスの進歩は、実験データと観測データを持つシステムの複雑なダイナミクスの分析と理解に新たな進歩をもたらしている。 バースト、飛行、ホッピング、断続的な特徴を示す多くの物理現象があるが、非ガウス型l\'evyノイズを持つ確率微分方程式はこれらの系をモデル化するのに適している。 したがって、利用可能なデータからそのような方程式を推測し、動的挙動を合理的に予測することが望ましい。 本研究では,非ガウシアン非対称な(対称な)l\'evy過程やガウシアンブラウン運動を持つ確率力学系を抽出するためのデータ駆動法を考える。 理論的枠組みを確立し,非対称なL\'evyジャンプ測度,ドリフト,拡散(非局所クラマース・モヤル式)を計算する数値アルゴリズムを設計し,ノイズデータから確率的支配則を得る。 いくつかの原型例に対する数値実験により,本手法の有効性と精度が確認できた。 この方法は、利用可能なデータセットから規制法則を発見し、複雑なランダム現象のメカニズムを理解するのに有効なツールとなる。

Advances in data science are leading to new progresses in the analysis and understanding of complex dynamics for systems with experimental and observational data. With numerous physical phenomena exhibiting bursting, flights, hopping, and intermittent features, stochastic differential equations with non-Gaussian L\'evy noise are suitable to model these systems. Thus it is desirable and essential to infer such equations from available data to reasonably predict dynamical behaviors. In this work, we consider a data-driven method to extract stochastic dynamical systems with non-Gaussian asymmetric (rather than the symmetric) L\'evy process, as well as Gaussian Brownian motion. We establish a theoretical framework and design a numerical algorithm to compute the asymmetric L\'evy jump measure, drift and diffusion (i.e., nonlocal Kramers-Moyal formulas), hence obtaining the stochastic governing law, from noisy data. Numerical experiments on several prototypical examples confirm the efficacy and accuracy of this method. This method will become an effective tool in discovering the governing laws from available data sets and in understanding the mechanisms underlying complex random phenomena.
翻訳日:2021-07-22 14:05:07 公開日:2021-07-21
# 因子グラフに基づく車両側面スリップ角推定法

A Factor Graph-based approach to vehicle sideslip angle estimation ( http://arxiv.org/abs/2107.09815v1 )

ライセンス: Link先を確認
Antonio Leanza, Giulio Reina and Jose-Luis Blanco-Claraco(参考訳) サイドスリップ角は車両のダイナミクスを理解し監視するための重要な変数であるが、安価な直接測定方法が欠けている。 したがって、通常はカルマンフィルタのファミリーのフィルタ法を用いて、慣性や他のプロバイオセプティブセンサーから推定される。 新たな方法として,オフライン処理のデータセットバッチ最適化やオンライン操作の固定ラグスムーズ化など,さまざまな手法を用いて最適化可能なグラフィカルモデル(ファクタグラフ)として,この問題を直接モデル化することを提案する。 実車用データセットによる実験結果から,提案手法を推定値と実際のサイドリップ角度とで良好な一致で検証し,最新技術と同等の性能を示し,フレキシブルな数学的枠組みによる将来の拡張の可能性を示した。

Sideslip angle is an important variable for understanding and monitoring vehicle dynamics but it lacks an inexpensive method for direct measurement. Therefore, it is typically estimated from inertial and other proprioceptive sensors onboard using filtering methods from the family of the Kalman Filter. As a novel alternative, this work proposes modelling the problem directly as a graphical model (factor graph), which can then be optimized using a variety of methods, such as whole dataset batch optimization for offline processing or fixed-lag smoother for on-line operation. Experimental results on real vehicle datasets validate the proposal with a good agreement between estimated and actual sideslip angle, showing similar performance than the state-of-the-art with a great potential for future extensions due to the flexible mathematical framework.
翻訳日:2021-07-22 14:04:48 公開日:2021-07-21
# mg-net: 擬似画像を用いたマルチモーダルメタジェノミー解析

MG-NET: Leveraging Pseudo-Imaging for Multi-Modal Metagenome Analysis ( http://arxiv.org/abs/2107.09883v1 )

ライセンス: Link先を確認
Sathyanarayanan N. Aakur, Sai Narayanan, Vineela Indla, Arunkumar Bagavathi, Vishalini Laguduva Ramnath, Akhilesh Ramachandran(参考訳) SARS-CoV-2のような新規病原体や動物病原体の出現は、少量のラベル付きデータから迅速に学習できる新しい診断と介入パイプラインを開発する必要性を低くしている。 次世代シークエンシングの技術進歩と相まって、メタゲノームベースの診断ツールは迅速なケアポイント・オブ・ケアの診断に革命を起こすという大きな約束を持っている。 しかし、このようなアプローチを開発する上で重要な課題は、ラベル付きデータが非常に少ない新規な病原体シグネチャを検出できる自己教師付き表現を学習することにある。 近縁な病原体がゲノム構造の90%以上を共有できることを考えると、これは特に難しい課題である。 本研究では,臨床メタジェノム配列から得られた擬似画像データを用いて,マルチモーダルコンテキストを活用する自己教師付き表現学習フレームワークMG-Netを提案する。 提案手法はラベルなしデータからロバスト表現を学習し,ラベル付きデータへのアクセスが制限されたメタジェノムシーケンス分類などの下流タスクに使用できることを示す。 大規模な実験により、学習された特徴は、クラス当たり1000のサンプルしか与えられず、現在のベースラインメタジェノム表現より優れていることが示された。

The emergence of novel pathogens and zoonotic diseases like the SARS-CoV-2 have underlined the need for developing novel diagnosis and intervention pipelines that can learn rapidly from small amounts of labeled data. Combined with technological advances in next-generation sequencing, metagenome-based diagnostic tools hold much promise to revolutionize rapid point-of-care diagnosis. However, there are significant challenges in developing such an approach, the chief among which is to learn self-supervised representations that can help detect novel pathogen signatures with very low amounts of labeled data. This is particularly a difficult task given that closely related pathogens can share more than 90% of their genome structure. In this work, we address these challenges by proposing MG-Net, a self-supervised representation learning framework that leverages multi-modal context using pseudo-imaging data derived from clinical metagenome sequences. We show that the proposed framework can learn robust representations from unlabeled data that can be used for downstream tasks such as metagenome sequence classification with limited access to labeled data. Extensive experiments show that the learned features outperform current baseline metagenome representations, given only 1000 samples per class.
翻訳日:2021-07-22 14:04:33 公開日:2021-07-21
# 垂直連合学習における再構築攻撃に対する防御

Defending against Reconstruction Attack in Vertical Federated Learning ( http://arxiv.org/abs/2107.09898v1 )

ライセンス: Link先を確認
Jiankai Sun and Yuanshun Yao and Weihao Gao and Junyuan Xie and Chong Wang(参考訳) 近年、悪意ある者が共有勾配からユーザが提供するセンシティブなトレーニング入力を再構築できるフェデレートラーニング(FL)における入力リーク問題の研究が行われている。 入力リークはFLを使用するプライバシー保護の意図と矛盾するため、FLに関する懸念を提起する。 水平flにおける入力再構成の防御と攻撃に関する比較的豊かな文献にもかかわらず、垂直flにおける入力リークと保護は近年研究者の注目を集め始めている。 本稿では,垂直FLにおける入力漏洩攻撃の防御方法について検討する。 我々は,3つのモジュールを含む,敵対的トレーニングに基づくフレームワークをデザインする。 これらのモジュールは個別に使用できるだけでなく、互いに独立しているため、一緒に適用することもできる。 大規模産業向けオンライン広告データセットの広範な実験を通じて、我々のフレームワークはモデルユーティリティを維持しながら入力プライバシーを保護するのに有効であることを示す。

Recently researchers have studied input leakage problems in Federated Learning (FL) where a malicious party can reconstruct sensitive training inputs provided by users from shared gradient. It raises concerns about FL since input leakage contradicts the privacy-preserving intention of using FL. Despite a relatively rich literature on attacks and defenses of input reconstruction in Horizontal FL, input leakage and protection in vertical FL starts to draw researcher's attention recently. In this paper, we study how to defend against input leakage attacks in Vertical FL. We design an adversarial training-based framework that contains three modules: adversarial reconstruction, noise regularization, and distance correlation minimization. Those modules can not only be employed individually but also applied together since they are independent to each other. Through extensive experiments on a large-scale industrial online advertising dataset, we show our framework is effective in protecting input privacy while retaining the model utility.
翻訳日:2021-07-22 14:04:10 公開日:2021-07-21
# GitHubのイシュータイプ予測

Predicting Issue Types on GitHub ( http://arxiv.org/abs/2107.09936v1 )

ライセンス: Link先を確認
Rafael Kallis, Andrea Di Sorbo, Gerardo Canfora, Sebastiano Panichella(参考訳) ソフトウェアのメンテナンスと進化は、ソフトウェアプロジェクトの成功のために重要な活動を伴う。 このようなアクティビティをサポートし、コードを最新かつエラーフリーに保つために、ソフトウェアコミュニティは、イシュートラッカ、すなわち、ソフトウェアシステムで発生した問題をシグナリング、ハンドリング、対処するためのツールを利用する。 しかし、人気のあるプロジェクトでは、毎日数十、数百の発行レポートが提出される。 この文脈では、提出された各レポートのタイプ(例えば、バグレポート、機能要求など)を識別する。 対処すべき課題の管理と優先順位付けを容易にするのです 本稿では,課題ハンドリング活動を支援するために,GitHubで発行されたレポートのタイプを自動的に認識し,各課題にラベルを割り当てる,機械学習技術を用いて課題タイトルと説明を分析するGitHubアプリTicket Taggerを提案する。 私たちは、約30,000のGitHubイシューに対して、ツールの予測パフォーマンスを実証的に評価しました。 その結果,チケットタガーはgithubイシューにアサインする正しいラベルを適度に高い効率で識別できることがわかった。 これらの結果と、ツールがGitHubのイシュー管理プロセスに簡単に統合できるように設計されているという事実を考えると、Ticket Taggerは開発者にとって便利なソリューションである。

Software maintenance and evolution involves critical activities for the success of software projects. To support such activities and keep code up-to-date and error-free, software communities make use of issue trackers, i.e., tools for signaling, handling, and addressing the issues occurring in software systems. However, in popular projects, tens or hundreds of issue reports are daily submitted. In this context, identifying the type of each submitted report (e.g., bug report, feature request, etc.) would facilitate the management and the prioritization of the issues to address. To support issue handling activities, in this paper, we propose Ticket Tagger, a GitHub app analyzing the issue title and description through machine learning techniques to automatically recognize the types of reports submitted on GitHub and assign labels to each issue accordingly. We empirically evaluated the tool's prediction performance on about 30,000 GitHub issues. Our results show that the Ticket Tagger can identify the correct labels to assign to GitHub issues with reasonably high effectiveness. Considering these results and the fact that the tool is designed to be easily integrated in the GitHub issue management process, Ticket Tagger consists in a useful solution for developers.
翻訳日:2021-07-22 14:03:54 公開日:2021-07-21
# 二重確率勾配によるカーネルSVMの高速かつスケーラブルな学習

Fast and Scalable Adversarial Training of Kernel SVM via Doubly Stochastic Gradients ( http://arxiv.org/abs/2107.09937v1 )

ライセンス: Link先を確認
Huimin Wu and Zhengmian Hu and Bin Gu(参考訳) 自然例とほとんど区別できない例を生成することで敵攻撃は、学習モデルに深刻な脅威をもたらす。 敵攻撃に対する防御は、信頼できる学習システムにとって重要な要素である。 サポートベクトルマシン(SVM)は、現在のディープラーニング時代においても、古典的ながら重要な学習アルゴリズムである。 近年、学習モデルの敵対的堅牢性を改善するために、幅広い研究が行われてきたが、その多くはディープニューラルネットワーク(DNN)に限られており、カーネルSVMの研究はいまだに空いている。 本稿では,カーネルSVMを目標とし,最も有望な防御技術である敵の訓練を通じて,敵の堅牢性を改善するためにadv-SVMを提案する。 私たちの知る限りでは、これはカーネルSVMの高速でスケーラブルな対角トレーニングに傾注した最初の作品です。 具体的には、最初に、元の空間とカーネル空間の間のサンプルの摂動の接続を構築し、その接続に基づいてカーネルSVMの対角的トレーニングの縮小と等価な定式化を与える。 次に、2つの偏りのない確率近似(つまり、訓練点に1つ、ランダム特徴にもう1つ)に基づく二重確率勾配(dsg)を適用し、目的関数の解を更新する。 最後に、DSGにより最適化されたアルゴリズムが、定数と減少段数の下でO(1/t)の速度で最適解に収束することを証明した。 総合的な実験結果から,我々の対戦学習アルゴリズムは様々な攻撃に対して頑健であり,一方,従来のDSGアルゴリズムと同様の効率性とスケーラビリティを有することが示された。

Adversarial attacks by generating examples which are almost indistinguishable from natural examples, pose a serious threat to learning models. Defending against adversarial attacks is a critical element for a reliable learning system. Support vector machine (SVM) is a classical yet still important learning algorithm even in the current deep learning era. Although a wide range of researches have been done in recent years to improve the adversarial robustness of learning models, but most of them are limited to deep neural networks (DNNs) and the work for kernel SVM is still vacant. In this paper, we aim at kernel SVM and propose adv-SVM to improve its adversarial robustness via adversarial training, which has been demonstrated to be the most promising defense techniques. To the best of our knowledge, this is the first work that devotes to the fast and scalable adversarial training of kernel SVM. Specifically, we first build connection of perturbations of samples between original and kernel spaces, and then give a reduced and equivalent formulation of adversarial training of kernel SVM based on the connection. Next, doubly stochastic gradients (DSG) based on two unbiased stochastic approximations (i.e., one is on training points and another is on random features) are applied to update the solution of our objective function. Finally, we prove that our algorithm optimized by DSG converges to the optimal solution at the rate of O(1/t) under the constant and diminishing stepsizes. Comprehensive experimental results show that our adversarial training algorithm enjoys robustness against various attacks and meanwhile has the similar efficiency and scalability with classical DSG algorithm.
翻訳日:2021-07-22 14:03:34 公開日:2021-07-21
# アルゴリズム機器によるコンプライアンスのインセンティブ化

Incentivizing Compliance with Algorithmic Instruments ( http://arxiv.org/abs/2107.10093v1 )

ライセンス: Link先を確認
Daniel Ngo, Logan Stapleton, Vasilis Syrgkanis, Zhiwei Steven Wu(参考訳) ランダム化実験は、参加者による潜在的非コンプライアンスによる選択バイアスの影響を受けやすい。 既存の研究の多くは静的な振る舞いとしてコンプライアンスを研究してきたが、時間とともに変化する動的な振る舞いとしてコンプライアンスを研究するゲーム理論モデルを提案する。 ラウンドでは、社会的プランナーが不均一なエージェントの連続と相互作用し、未観測のプライベートタイプが、アクション(例えば、制御と治療)とベースラインの報酬の両方を、治療を受けずに決定する。 プランナーは各エージェントに、信念と行動選択を変える可能性のあるランダムな推奨を与える。 提案手法は,エージェントの行動選択にのみ影響するが,観察された報酬には影響しない機器変数(IV)の形式として,プランナーの推薦を反映する。 我々は、プランナーと前のエージェント間のインタラクションである履歴をランダムなレコメンデーションに慎重にマッピングすることで、そのようなIVを構築する。 初期薬品が完全に非適合であるとしても、この機構は経時的にコンプライアンスをインセンティブ化し、各治療の処置効果を推定し、最適な治療の特定を目標とするプランナーの累積的後悔を最小化することができる。

Randomized experiments can be susceptible to selection bias due to potential non-compliance by the participants. While much of the existing work has studied compliance as a static behavior, we propose a game-theoretic model to study compliance as dynamic behavior that may change over time. In rounds, a social planner interacts with a sequence of heterogeneous agents who arrive with their unobserved private type that determines both their prior preferences across the actions (e.g., control and treatment) and their baseline rewards without taking any treatment. The planner provides each agent with a randomized recommendation that may alter their beliefs and their action selection. We develop a novel recommendation mechanism that views the planner's recommendation as a form of instrumental variable (IV) that only affects an agents' action selection, but not the observed rewards. We construct such IVs by carefully mapping the history -- the interactions between the planner and the previous agents -- to a random recommendation. Even though the initial agents may be completely non-compliant, our mechanism can incentivize compliance over time, thereby enabling the estimation of the treatment effect of each treatment, and minimizing the cumulative regret of the planner whose goal is to identify the optimal treatment.
翻訳日:2021-07-22 14:03:06 公開日:2021-07-21
# Leave-one-out Unfairness

Leave-one-out Unfairness ( http://arxiv.org/abs/2107.10171v1 )

ライセンス: Link先を確認
Emily Black, Matt Fredrikson(参考訳) モデルのトレーニングデータに,他者が1人含まれたり取り除かれたりすることで,個人に対するモデルの予測がどの程度変化するかを特徴とする,一対一の不公平性を導入する。 公平な決定は任意のものではなく、訓練データに誰かの参加の機会イベントに基づいてはならない、という考え方に不公平さは訴える。 残される不公平さはアルゴリズムの安定性と密接に関連しているが、集約されたモデルのエラーではなく、トレーニングデータに対する単位変化に対する個々の点の予測結果の一貫性に焦点を当てている。 残欠不公平を定式化するだけでなく、一般化誤差が小さい場合を含む実データに対して、深いモデルが残欠不公平に振る舞う程度を特徴付ける。 さらに, 学習とランダム化平滑化手法は, 頑健性, 記憶力, 個々人の公平性, および深層モデルにおける個々人の公平性との関係に光を当てている。 最後に,不公平な離脱によって負の影響を受ける可能性のある健全な実践的応用について論じる。

We introduce leave-one-out unfairness, which characterizes how likely a model's prediction for an individual will change due to the inclusion or removal of a single other person in the model's training data. Leave-one-out unfairness appeals to the idea that fair decisions are not arbitrary: they should not be based on the chance event of any one person's inclusion in the training data. Leave-one-out unfairness is closely related to algorithmic stability, but it focuses on the consistency of an individual point's prediction outcome over unit changes to the training data, rather than the error of the model in aggregate. Beyond formalizing leave-one-out unfairness, we characterize the extent to which deep models behave leave-one-out unfairly on real data, including in cases where the generalization error is small. Further, we demonstrate that adversarial training and randomized smoothing techniques have opposite effects on leave-one-out fairness, which sheds light on the relationships between robustness, memorization, individual fairness, and leave-one-out fairness in deep models. Finally, we discuss salient practical applications that may be negatively affected by leave-one-out unfairness.
翻訳日:2021-07-22 14:02:42 公開日:2021-07-21
# 混合整数プログラムのための大規模近傍探索アルゴリズムの学習

Learning a Large Neighborhood Search Algorithm for Mixed Integer Programs ( http://arxiv.org/abs/2107.10201v1 )

ライセンス: Link先を確認
Nicolas Sonnerat, Pengming Wang, Ira Ktena, Sergey Bartunov, Vinod Nair(参考訳) large neighborhood search (lns) は組合せ最適化ヒューリスティックであり、最適化される変数の値の割り当てから始まり、現在の割り当ての周りに大きな近傍を探索することで反復的に改善する。 本稿では、混合整数プログラム(MIP)に対する学習に基づくLSSアプローチを検討する。 我々は、既存のMIPソルバとともに初期割り当てを生成する代入よりも確率分布を表現するために、ニューラルダイビングモデルを訓練する。 その後の探索ステップをマルコフ決定プロセスとして定式化し、神経近傍選択ポリシーを訓練し、各ステップで探索近傍を選択し、mipソルバを用いて探索して次の課題を見つける。 政策ネットワークは模倣学習を用いて訓練される。 我々は,十分な計算資源が与えられた場合,任意の大きさの近傍に対して,最適な次の割り当てを含む近傍を選択することを保証した,模倣のためのターゲットポリシーを提案する。 当社のアプローチは,Googleの2つの実運用アプリケーションを含む,さまざまなアプリケーションからの大規模インスタンスを備えた,5つの実世界のMIPデータセットのベースラインをすべて一致あるいは上回るものです。 大規模な実行時には、データセットの3つの最良ベースラインよりも平均的プリミティブギャップが2ドルから37.8ドルに向上する。

Large Neighborhood Search (LNS) is a combinatorial optimization heuristic that starts with an assignment of values for the variables to be optimized, and iteratively improves it by searching a large neighborhood around the current assignment. In this paper we consider a learning-based LNS approach for mixed integer programs (MIPs). We train a Neural Diving model to represent a probability distribution over assignments, which, together with an existing MIP solver, generates an initial assignment. Formulating the subsequent search steps as a Markov Decision Process, we train a Neural Neighborhood Selection policy to select a search neighborhood at each step, which is searched using a MIP solver to find the next assignment. The policy network is trained using imitation learning. We propose a target policy for imitation that, given enough compute resources, is guaranteed to select the neighborhood containing the optimal next assignment across all possible choices for the neighborhood of a specified size. Our approach matches or outperforms all the baselines on five real-world MIP datasets with large-scale instances from diverse applications, including two production applications at Google. At large running times it achieves $2\times$ to $37.8\times$ better average primal gap than the best baseline on three of the datasets.
翻訳日:2021-07-22 14:02:21 公開日:2021-07-21
# 多様体学習に基づく高次元サロゲートモデルに対する多項式カオス展開

Manifold learning-based polynomial chaos expansions for high-dimensional surrogate models ( http://arxiv.org/abs/2107.09814v1 )

ライセンス: Link先を確認
Katiana Kontolati, Dimitrios Loukrezis, Ketson R. M. dos Santos, Dimitrios G. Giovanis, Michael D. Shields(参考訳) 本研究では,複素時空間過程を記述するシステムにおいて,多様体学習に基づく不確実性定量化法(uq)を提案する。 最初の目的は、計算モデルや解析モデルの興味の量を表す高次元データの集合の埋め込みを特定することである。 本研究では,2段階の非線形次元縮小手法であるグラスマン拡散写像を用いて,データの次元性を低減し,有意義な幾何学的記述を包括的かつ安価に識別する。 多項式カオス展開は、確率的入力パラメータと還元空間の拡散座標の間の写像を構築するために使われる。 適応的クラスタリング手法は、潜在空間内の点の最適な数のクラスタを特定するために提案される。 点の類似性によって幾何調和エミュレータが構築され、最終的に安価な事前学習モデルのセットとして利用され、周囲の空間への潜在特徴の実現の逆マップを実行し、正確なサンプル外予測を行うことができる。 そこで,提案手法はエンコーダ・デコーダシステムとして機能し,超高次元データを自動的に処理し,同時に小型データ方式で動作させる。 この方法は2つのベンチマーク問題および2つの種間の1次化学反応をモデル化した対流拡散反応方程式の系上で実証される。 すべてのテストケースにおいて,提案手法は高精度な近似を達成でき,UQタスクの大幅な高速化につながる。

In this work we introduce a manifold learning-based method for uncertainty quantification (UQ) in systems describing complex spatiotemporal processes. Our first objective is to identify the embedding of a set of high-dimensional data representing quantities of interest of the computational or analytical model. For this purpose, we employ Grassmannian diffusion maps, a two-step nonlinear dimension reduction technique which allows us to reduce the dimensionality of the data and identify meaningful geometric descriptions in a parsimonious and inexpensive manner. Polynomial chaos expansion is then used to construct a mapping between the stochastic input parameters and the diffusion coordinates of the reduced space. An adaptive clustering technique is proposed to identify an optimal number of clusters of points in the latent space. The similarity of points allows us to construct a number of geometric harmonic emulators which are finally utilized as a set of inexpensive pre-trained models to perform an inverse map of realizations of latent features to the ambient space and thus perform accurate out-of-sample predictions. Thus, the proposed method acts as an encoder-decoder system which is able to automatically handle very high-dimensional data while simultaneously operating successfully in the small-data regime. The method is demonstrated on two benchmark problems and on a system of advection-diffusion- reaction equations which model a first-order chemical reaction between two species. In all test cases, the proposed method is able to achieve highly accurate approximations which ultimately lead to the significant acceleration of UQ tasks.
翻訳日:2021-07-22 14:02:00 公開日:2021-07-21
# オーディオキャプション変換器

Audio Captioning Transformer ( http://arxiv.org/abs/2107.09817v1 )

ライセンス: Link先を確認
Xinhao Mei, Xubo Liu, Qiushi Huang, Mark D. Plumbley and Wenwu Wang(参考訳) 音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。 ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。 畳み込みニューラルネットワーク(CNN)と繰り返しニューラルネットワーク(RNN)は、しばしばオーディオエンコーダとして使用される。 しかし、CNNは音声信号の時間フレーム間の時間的関係をモデル化する場合に限られ、RNNは時間フレーム間の長距離依存性をモデル化する場合に限られる。 本稿では,エンコーダ・デコーダアーキテクチャに基づく完全トランスフォーマネットワークであるオーディオキャプショントランスフォーマ(act)を提案する。 提案手法は,音声信号内のグローバル情報をモデル化し,音声イベント間の時間的関係を捉えることができる。 音声キャプションデータセットとしては最大規模であるaudiocapsについて評価を行った。 我々のモデルは、他の最先端のアプローチと比較して競争性能を示している。

Audio captioning aims to automatically generate a natural language description of an audio clip. Most captioning models follow an encoder-decoder architecture, where the decoder predicts words based on the audio features extracted by the encoder. Convolutional neural networks (CNNs) and recurrent neural networks (RNNs) are often used as the audio encoder. However, CNNs can be limited in modelling temporal relationships among the time frames in an audio signal, while RNNs can be limited in modelling the long-range dependencies among the time frames. In this paper, we propose an Audio Captioning Transformer (ACT), which is a full Transformer network based on an encoder-decoder architecture and is totally convolution-free. The proposed method has a better ability to model the global information within an audio signal as well as capture temporal relationships between audio events. We evaluate our model on AudioCaps, which is the largest audio captioning dataset publicly available. Our model shows competitive performance compared to other state-of-the-art approaches.
翻訳日:2021-07-22 14:01:35 公開日:2021-07-21
# 機械学習バイオマーカーの破壊からデータセットシフトの防止

Preventing dataset shift from breaking machine-learning biomarkers ( http://arxiv.org/abs/2107.09947v1 )

ライセンス: Link先を確認
J\'ero\^ome Dock\`es, Ga\"el Varoquaux (PARIETAL), Jean-Baptiste Poline(参考訳) 機械学習は、豊富なバイオメディカル測定でコホートから抽出された新しいバイオマーカーを見つけるという希望をもたらす。 良いバイオマーカーは、対応する条件を確実に検出するものである。 しかし、バイオマーカーはしばしば標的個体群とは異なるコホートから抽出される。 このようなミスマッチはデータセットシフトと呼ばれ、新しい個人へのバイオマーカーの適用を損なう可能性がある。 データセットシフトは、例えば、生物医学研究において頻繁に発生する。 採用バイアスのせいでした データセットのシフトが発生すると、標準的な機械学習技術はバイオマーカーの抽出と検証に十分ではない。 この記事では、データセットが機械学習で抽出されたバイオマーカーを壊す時期と方法の概要と、検出と修正戦略について説明する。

Machine learning brings the hope of finding new biomarkers extracted from cohorts with rich biomedical measurements. A good biomarker is one that gives reliable detection of the corresponding condition. However, biomarkers are often extracted from a cohort that differs from the target population. Such a mismatch, known as a dataset shift, can undermine the application of the biomarker to new individuals. Dataset shifts are frequent in biomedical research, e.g. because of recruitment biases. When a dataset shift occurs, standard machine-learning techniques do not suffice to extract and validate biomarkers. This article provides an overview of when and how dataset shifts breaks machine-learning extracted biomarkers, as well as detection and correction strategies.
翻訳日:2021-07-22 14:01:20 公開日:2021-07-21
# 機械学習不変多様体による軌道挙動予測

Predicting trajectory behaviour via machine-learned invariant manifolds ( http://arxiv.org/abs/2107.10154v1 )

ライセンス: Link先を確認
Vladim\'ir Kraj\v{n}\'ak, Shibabrat Naik, Stephen Wiggins(参考訳) 本稿では,支援ベクトルマシン(SVM)を用いて,異なる反応経路を区別できる位相空間構造を発見するための機械学習フレームワークを開発する。 機械学習モデルはハミルトン方程式の軌跡からのデータを用いて訓練されるが、分子動力学シミュレーションでの使用に役立てられる。 このフレームワークは、システムのダイナミクスに関する最小限の事前知識を必要とするように設計されている。 我々は、Chesnavich によるイオンと分子の反応のモデルであるハミルトニアンと、$\text{CH}_3^{+}$イオンを表す硬く対称なトップと、移動体 $\text{H}$原子の2つの部分からなるモデルを用いて、我々のアプローチをベンチマークした。 トラジェクタから始めて,異なるトラジェクタクラスに対応する初期条件間の境界を決定するためにサポートベクタマシンを使用する。 その結果, 軌跡の異なるクラス間の境界が, チェスナビッチモデルの初期解析で観測された同タイプの不変位相空間構造に近似することを示した。 当社のアプローチは,高次元アプリケーションの拡張を念頭に置いて設計されています。 SVMは少量のデータでもうまく機能することが知られており, トラジェクトリの統合が高価である既存の高次元システムやシステムよりも計算に適している。

In this paper we use support vector machines (SVM) to develop a machine learning framework to discover the phase space structure that can distinguish between distinct reaction pathways. The machine learning model is trained using data from trajectories of Hamilton's equations but lends itself for use in molecular dynamics simulation. The framework is specifically designed to require minimal a priori knowledge of the dynamics in a system. We benchmark our approach with a model Hamiltonian for the reaction of an ion and a molecule due to Chesnavich consisting of two parts: a rigid, symmetric top representing the $\text{CH}_3^{+}$ ion, and a mobile $\text{H}$ atom. We begin with trajectories and use support vector machines to determine the boundaries between initial conditions corresponding to different classes of trajectories. We then show that these boundaries between different classes of trajectories approximate invariant phase space structures of the same type observed in earlier analyses of Chesnavich's model. Our approach is designed with extensions to higher-dimensional applications in mind. SVM is known to work well even with small amounts of data, therefore our approach is computationally better suited than existing methods for high-dimensional systems and systems where integrating trajectories is expensive.
翻訳日:2021-07-22 14:01:11 公開日:2021-07-21
# (参考訳) megaverse: 身体的なエージェントを毎秒100万の経験でシミュレートする [全文訳有]

Megaverse: Simulating Embodied Agents at One Million Experiences per Second ( http://arxiv.org/abs/2107.08170v2 )

ライセンス: CC BY 4.0
Aleksei Petrenko, Erik Wijmans, Brennan Shacklett, Vladlen Koltun(参考訳) 強化学習と具体化されたai研究のための新しい3dシミュレーションプラットフォームであるmegaverseを提案する。 本エンジンの効率的な設計により,1つの8GPUノード上での1秒あたり1,000,000アクション以上の高次元自我中心観測による物理シミュレーションが可能となった。 megaverseはdeepmind labより最大で70倍高速で、インタラクティブなオブジェクトで完全にシェードされた3dシーンだ。 この高いシミュレーション性能をバッチシミュレーションを利用して実現し,最新のgpuの大規模並列処理を最大限に活用する。 私たちはMegaverseを使って、さまざまな認知課題をカバーする複数の単一エージェントとマルチエージェントタスクからなる新しいベンチマークを構築します。 このベンチマークでモデルフリーRLを評価し、ベースラインを提供し、将来の研究を促進する。 ソースコードはhttps://www.megavers e.infoで入手できる。

We present Megaverse, a new 3D simulation platform for reinforcement learning and embodied AI research. The efficient design of our engine enables physics-based simulation with high-dimensional egocentric observations at more than 1,000,000 actions per second on a single 8-GPU node. Megaverse is up to 70x faster than DeepMind Lab in fully-shaded 3D scenes with interactive objects. We achieve this high simulation performance by leveraging batched simulation, thereby taking full advantage of the massive parallelism of modern GPUs. We use Megaverse to build a new benchmark that consists of several single-agent and multi-agent tasks covering a variety of cognitive challenges. We evaluate model-free RL on this benchmark to provide baselines and facilitate future research. The source code is available at https://www.megavers e.info
翻訳日:2021-07-22 11:57:25 公開日:2021-07-21
# (参考訳) 多領域海馬セグメンテーションのための相反連続学習 [全文訳有]

Adversarial Continual Learning for Multi-Domain Hippocampal Segmentation ( http://arxiv.org/abs/2107.08751v3 )

ライセンス: CC BY 4.0
Marius Memmel, Camila Gonzalez, Anirban Mukhopadhyay(参考訳) 医学画像のディープラーニングは、時間的およびプライバシーに関連したデータ可用性の制限に苦しむ。 まだ実行可能なモデルを得るために、連続学習は、データが利用可能でいつ、連続的にトレーニングすることを目的としている。 連続学習法が直面する主な課題は、破滅的な忘れ、すなわち、先に遭遇したデータの性能低下を防ぐことである。 この問題により,医療用セグメンテーションモデルの継続的トレーニングが極めて困難になる。 しかし、多くの場合、ドメイン固有の情報を無視した方法でモデルをトレーニングするために、少なくとも2つの異なるドメインからのデータが利用可能です。 本稿では,2つ以上のデータセットを同時利用して,コンテンツとドメインの絡み合いを対角的に学習するアーキテクチャを提案する。 ドメイン不変のコンテンツ表現は、連続的なセマンティックセグメンテーションの基盤を置く。 提案手法は,脳MRIにおける海馬セグメンテーションの連続学習と,ドメイン適応からインスピレーションを得たものである。 本手法は破滅的な忘れ込みを減らし,最先端の継続的学習方法より優れていることを示す。

Deep learning for medical imaging suffers from temporal and privacy-related restrictions on data availability. To still obtain viable models, continual learning aims to train in sequential order, as and when data is available. The main challenge that continual learning methods face is to prevent catastrophic forgetting, i.e., a decrease in performance on the data encountered earlier. This issue makes continuous training of segmentation models for medical applications extremely difficult. Yet, often, data from at least two different domains is available which we can exploit to train the model in a way that it disregards domain-specific information. We propose an architecture that leverages the simultaneous availability of two or more datasets to learn a disentanglement between the content and domain in an adversarial fashion. The domain-invariant content representation then lays the base for continual semantic segmentation. Our approach takes inspiration from domain adaptation and combines it with continual learning for hippocampal segmentation in brain MRI. We showcase that our method reduces catastrophic forgetting and outperforms state-of-the-art continual learning methods.
翻訳日:2021-07-22 11:35:52 公開日:2021-07-21
# (参考訳) 小空間における学習表検索と静的指数:実験による方法論的・実践的考察

Learned Sorted Table Search and Static Indexes in Small Space: Methodological and Practical Insights via an Experimental Study ( http://arxiv.org/abs/2107.09480v2 )

ライセンス: CC BY 4.0
Domenico Amato and Raffaele Giancarlo and Giosu\`e Lo Bosco(参考訳) Sorted Table Search proceduresは、検索エンジン(Google Chrome)など、非常に有用なクエリー回答ツールである。 検索されるテーブルに関して、小さな追加スペースでそれらをスピードアップすることは、依然として非常に大きな成果です。 静的学習インデックスはこのようなスピードアップを達成するのに非常に成功していますが、大きな疑問が残っています。 学習指標に関する最近のベンチマーク研究の実験方法論を一般化することにより、2つのシナリオを考慮し、この問題に光を当てた。 第一は、非常に初歩的な、すなわち教科書のコードで、第二は高度な学習インデックスアルゴリズムと高度なソフトウェアプラットフォームを使用する。 どちらの場合も肯定的な答えを期待するが、その達成は見かけほど単純ではない。 実際、我々の広範な実験のセットは、クエリ時間とモデル空間の間の複雑な関係を明らかにする。 この関係に関する知見と、それに対応するメモリレベルの定量的推定は、アルゴリズム設計者や実践者にとっても興味深いものである。 私たちの研究の重要な部分として、独自の関心を持つ2つの新しいモデルを紹介します。 1つは定数空間モデルであり、$k$-ary searchの一般化と見なすことができ、もう1つはシントロピック {\bf RMI} であり、モデル空間の使用を制御できる。

Sorted Table Search Procedures are the quintessential query-answering tool, still very useful, e.g, Search Engines (Google Chrome). Speeding them up, in small additional space with respect to the table being searched into, is still a quite significant achievement. Static Learned Indexes have been very successful in achieving such a speed-up, but leave open a major question: To what extent one can enjoy the speed-up of Learned Indexes while using constant or nearly constant additional space. By generalizing the experimental methodology of a recent benchmarking study on Learned Indexes, we shed light on this question, by considering two scenarios. The first, quite elementary, i.e., textbook code, and the second using advanced Learned Indexing algorithms and the supporting sophisticated software platforms. Although in both cases one would expect a positive answer, its achievement is not as simple as it seems. Indeed, our extensive set of experiments reveal a complex relationship between query time and model space. The findings regarding this relationship and the corresponding quantitative estimates, across memory levels, can be of interest to algorithm designers and of use to practitioners as well. As an essential part of our research, we introduce two new models that are of interest in their own right. The first is a constant space model that can be seen as a generalization of $k$-ary search, while the second is a synoptic {\bf RMI}, in which we can control model space usage.
翻訳日:2021-07-22 11:21:39 公開日:2021-07-21
# テキストベース自然言語を通してコミュニケーションする協調強化学習エージェントを目指して

Toward Collaborative Reinforcement Learning Agents that Communicate Through Text-Based Natural Language ( http://arxiv.org/abs/2107.09356v2 )

ライセンス: Link先を確認
Kevin Eloff, Herman A. Engelbrecht(参考訳) 協調的なマルチエージェント設定におけるエージェント間の通信は一般的に暗黙的あるいは直接データストリームである。 本稿では,テキストベースの自然言語を,強化学習で訓練された複数のエージェント間のコミュニケーションの新たな形態とみなす。 これは、限られた命令セットや人間とロボットの自然な協調を定義することなく、真に自律的なコミュニケーションへの第一歩と考えることができる。 ブラインドリードのゲームに触発されて,あるエージェントが自然言語命令を使って,別のエージェントを迷路で案内する環境を提案する。 強化学習エージェントが個別の単語レベルのシンボルを通して効果的にコミュニケーションできることをテストし、限られた語彙で自然言語を介して十分にコミュニケーションできることを示す。 コミュニケーションは常に完璧であるとは限らないが、エージェントは迷路をナビゲートすることができる。 BLEUスコアは0.85で、100%迷路完了率を維持しつつランダムに生成されたシーケンスよりも0.61向上している。 これは、基準セットを用いたランダムベースラインのパフォーマンスの3.5倍です。

Communication between agents in collaborative multi-agent settings is in general implicit or a direct data stream. This paper considers text-based natural language as a novel form of communication between multiple agents trained with reinforcement learning. This could be considered first steps toward a truly autonomous communication without the need to define a limited set of instructions, and natural collaboration between humans and robots. Inspired by the game of Blind Leads, we propose an environment where one agent uses natural language instructions to guide another through a maze. We test the ability of reinforcement learning agents to effectively communicate through discrete word-level symbols and show that the agents are able to sufficiently communicate through natural language with a limited vocabulary. Although the communication is not always perfect English, the agents are still able to navigate the maze. We achieve a BLEU score of 0.85, which is an improvement of 0.61 over randomly generated sequences while maintaining a 100% maze completion rate. This is a 3.5 times the performance of the random baseline using our reference set.
翻訳日:2021-07-22 11:18:50 公開日:2021-07-21
# MIMO:医療表象学習のための患者ガイドと医療オントロジーの相互統合

MIMO: Mutual Integration of Patient Journey and Medical Ontology for Healthcare Representation Learning ( http://arxiv.org/abs/2107.09288v2 )

ライセンス: Link先を確認
Xueping Peng and Guodong Long and Tao Shen and Sen Wang and Zhendong Niu and Chengqi Zhang(参考訳) EHR(Electronic Health Record)における医療表現学習は、医療分野における予測分析に不可欠であると考えられている。 word2vec, RNN, self-attention などの自然言語処理技術は階層的および時間的にスタンプされた EHR データに適応しているが、汎用データやタスク固有のデータがない場合には失敗する。 そのため、医療オントロジー(a.k.a.)を取り入れて医療表現を訓練する最近の作品もある。 ナレッジグラフ)は, 診断予測などの自己監督タスクにより, (1) 小規模単調なオントロジーは頑健な学習には不十分であり, (2) 患者旅行の基礎となる重要な文脈や依存関係は, オントロジー学習を強化するために利用されない。 そこで本研究では,医療表現学習と予測分析のためのエンドツーエンドのロバストなトランスフォーマーソリューション,患者旅行と医療オントロジー(mimo)の相互統合を提案する。 具体的には、タスク固有の表現学習と、患者旅行と医療オントロジーの両方を対話的に学習するグラフ埋め込みモジュールから構成される。 これにより、医療表現学習と医療オントロジー埋め込みの両方に利益をもたらす相互統合が生まれます。 さらに,2つのモジュールの融合埋め込みに基づいて,タスク固有の予測型とオントロジーに基づく疾患タイピングタスクを共同でトレーニングすることで,そのような統合を実現する。 2つの実世界の診断予測データセットを用いて行った実験により、我々の医療表現モデルMIMOは、十分なトレーニングデータや不十分なトレーニングデータにかかわらず、過去の最先端アプローチよりも優れた予測結果を得るだけでなく、診断の解釈可能な埋め込みも導き出すことが示された。

Healthcare representation learning on the Electronic Health Record (EHR) is seen as crucial for predictive analytics in the medical field. Many natural language processing techniques, such as word2vec, RNN and self-attention, have been adapted for use in hierarchical and time stamped EHR data, but fail when they lack either general or task-specific data. Hence, some recent works train healthcare representations by incorporating medical ontology (a.k.a. knowledge graph), by self-supervised tasks like diagnosis prediction, but (1) the small-scale, monotonous ontology is insufficient for robust learning, and (2) critical contexts or dependencies underlying patient journeys are never exploited to enhance ontology learning. To address this, we propose an end-to-end robust Transformer-based solution, Mutual Integration of patient journey and Medical Ontology (MIMO) for healthcare representation learning and predictive analytics. Specifically, it consists of task-specific representation learning and graph-embedding modules to learn both patient journey and medical ontology interactively. Consequently, this creates a mutual integration to benefit both healthcare representation learning and medical ontology embedding. Moreover, such integration is achieved by a joint training of both task-specific predictive and ontology-based disease typing tasks based on fused embeddings of the two modules. Experiments conducted on two real-world diagnosis prediction datasets show that, our healthcare representation model MIMO not only achieves better predictive results than previous state-of-the-art approaches regardless of sufficient or insufficient training data, but also derives more interpretable embeddings of diagnoses.
翻訳日:2021-07-22 11:18:34 公開日:2021-07-21
# P分類を用いた擬似ラベル選択による不完全アノテーションからの細胞検出

Cell Detection from Imperfect Annotation by Pseudo Label Selection Using P-classification ( http://arxiv.org/abs/2107.09289v2 )

ライセンス: Link先を確認
Kazuma Fujii, Daiki Suehiro, Kazuya Nishimura, Ryoma Bise(参考訳) 細胞検出は細胞画像解析において重要な課題である。 近年のディープラーニングに基づく検出手法は非常に有望な成果を上げている。 一般に、これらの方法は全画像中の細胞に徹底的にアノテートする必要がある。 細胞の一部に注釈が付かない場合(不完全アノテーション)、ノイズラベルによる検出性能は著しく低下する。 これはしばしば生物学者と実際のコラボレーションや、公開データセットでも発生する。 提案手法は,不完全なアノテートデータからの細胞検出に擬似ラベリング手法を用いる。 このようなラベル付きデータを用いてトレーニングされた検出畳み込みニューラルネットワーク(CNN)は、しばしば過剰検出を生成する。 部分標識細胞を正の試料とし, 検出された位置を未標識細胞として処理した。 次に,最近の機械学習手法であるp-unlabeled(pu)学習とp-classificationを用いて,ラベルなしデータから信頼できる擬似ラベルを選択する。 5つの異なる条件における顕微鏡画像を用いた実験により,提案手法の有効性が示された。

Cell detection is an essential task in cell image analysis. Recent deep learning-based detection methods have achieved very promising results. In general, these methods require exhaustively annotating the cells in an entire image. If some of the cells are not annotated (imperfect annotation), the detection performance significantly degrades due to noisy labels. This often occurs in real collaborations with biologists and even in public data-sets. Our proposed method takes a pseudo labeling approach for cell detection from imperfect annotated data. A detection convolutional neural network (CNN) trained using such missing labeled data often produces over-detection. We treat partially labeled cells as positive samples and the detected positions except for the labeled cell as unlabeled samples. Then we select reliable pseudo labels from unlabeled data using recent machine learning techniques; positive-and-unlabel ed (PU) learning and P-classification. Experiments using microscopy images for five different conditions demonstrate the effectiveness of the proposed method.
翻訳日:2021-07-22 11:18:04 公開日:2021-07-21
# 野生の瞬間的ストレス検出におけるモダリティ融合ネットワークとパーソナライズされた注意

Modality Fusion Network and Personalized Attention in Momentary Stress Detection in the Wild ( http://arxiv.org/abs/2107.09510v2 )

ライセンス: Link先を確認
Han Yu, Thomas Vaessen, Inez Myin-Germeys, Akane Sano(参考訳) 日常生活におけるマルチモーダルウェアラブルの生理データは、自己報告されたストレスラベルの推定に使われている。 しかしながら、データ収集におけるデータモダリティの欠如は、収集されたすべてのサンプルを活用するのを難しくする。 さらに、個人間の異種センサデータやラベルは、堅牢なストレス検出モデルを構築する上での課題をもたらす。 本稿では,完全・不完全両条件下でモデルと自己申告された2値応力ラベルを推定するためのモーダリティ融合ネットワーク(MFN)を提案する。 さらに、パーソナライズされた注目(PA)戦略を適用し、パーソナライズされた表現と一般化されたワンサイズフィットオールモデルを適用した。 本手法を,GSR (Galvanic skin response) と心電図 (ECG) を含むマルチモーダルウェアラブルセンサデータセット (N=41) を用いて評価した。 完全なモダリティを持つ試料を用いたベースライン法と比較して、MFNの性能はf1スコアで1.6%向上した。 一方,提案するpa戦略では,ストレス検出f1-scoreが2.3%高く,パーソナライズされたモデルパラメータサイズ(9.1mb)が約70%削減された。

Multimodal wearable physiological data in daily life have been used to estimate self-reported stress labels. However, missing data modalities in data collection makes it challenging to leverage all the collected samples. Besides, heterogeneous sensor data and labels among individuals add challenges in building robust stress detection models. In this paper, we proposed a modality fusion network (MFN) to train models and infer self-reported binary stress labels under both complete and incomplete modality conditions. In addition, we applied personalized attention (PA) strategy to leverage personalized representation along with the generalized one-size-fits-all model. We evaluated our methods on a multimodal wearable sensor dataset (N=41) including galvanic skin response (GSR) and electrocardiogram (ECG). Compared to the baseline method using the samples with complete modalities, the performance of the MFN improved by 1.6% in f1-scores. On the other hand, the proposed PA strategy showed a 2.3% higher stress detection f1-score and approximately up to 70% reduction in personalized model parameter size (9.1 MB) compared to the previous state-of-the-art transfer learning strategy (29.3 MB).
翻訳日:2021-07-22 11:17:53 公開日:2021-07-21