このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210903となっている論文です。

PDF登録状況(公開日: 20210903)

TitleAuthorsAbstract論文公表日・翻訳日
# 脳年齢推定のためのグローバルローカルトランス

Global-Local Transformer for Brain Age Estimation ( http://arxiv.org/abs/2109.01663v1 )

ライセンス: Link先を確認
Sheng He, P. Ellen Grant, Yangming Ou(参考訳) 深層学習は、脳磁気共鳴画像(MRI)に基づく迅速な脳年齢推定を提供する。 しかし、ほとんどの研究は1つのニューラルネットワークを使用して入力画像全体からグローバル情報を抽出し、局所的な細部の詳細を無視している。 本稿では,全入力画像からグローバルコンテキスト情報を抽出するグローバルパスと,ローカルパッチから局所的な微細な詳細情報を抽出するローカルパスとからなるグローバルローカルトランスフォーマーを提案する。 局所パッチからのきめ細かい情報は、脳年齢を推定するために、トランスフォーマーにインスパイアされた注意機構によってグローバルコンテキスト情報と融合される。 0~97歳以下の健常脳MRI8,379例を対象に,提案手法の評価を行った。 クロスバリデーションには6つのデータセット,一般性評価には2つのデータセットが使用されている。 他の最先端の方法と比較して、提案手法は推定年齢の平均絶対誤差を2.70歳に減らし、推定年齢と時系列年齢の相関係数を0.9853に引き上げる。 また,提案手法は,脳年齢推定において局所パッチが最も有用な地域情報を提供する。 ソースコードは \url{https://github.com/s hengfly/global-local -transformer} で利用可能です。

Deep learning can provide rapid brain age estimation based on brain magnetic resonance imaging (MRI). However, most studies use one neural network to extract the global information from the whole input image, ignoring the local fine-grained details. In this paper, we propose a global-local transformer, which consists of a global-pathway to extract the global-context information from the whole input image and a local-pathway to extract the local fine-grained details from local patches. The fine-grained information from the local patches are fused with the global-context information by the attention mechanism, inspired by the transformer, to estimate the brain age. We evaluate the proposed method on 8 public datasets with 8,379 healthy brain MRIs with the age range of 0-97 years. 6 datasets are used for cross-validation and 2 datasets are used for evaluating the generality. Comparing with other state-of-the-art methods, the proposed global-local transformer reduces the mean absolute error of the estimated ages to 2.70 years and increases the correlation coefficient of the estimated age and the chronological age to 0.9853. In addition, our proposed method provides regional information of which local patches are most informative for brain age estimation. Our source code is available on: \url{https://github.com/s hengfly/global-local -transformer}.
翻訳日:2021-09-19 13:44:04 公開日:2021-09-03
# (参考訳) IMG2SMI:分子構造画像から分子インプットラインエントリーシステムへの変換 [全文訳有]

IMG2SMI: Translating Molecular Structure Images to Simplified Molecular-input Line-entry System ( http://arxiv.org/abs/2109.04202v1 )

ライセンス: CC0 1.0
Daniel Campos, Heng Ji(参考訳) 多くの科学分野と同様に、新しい化学文献は停滞するペースで成長し、毎月何千もの論文が発行されている。 化学文学の大部分は新しい分子と分子間の反応に焦点を当てている。 ほとんどの重要な情報は分子の2次元イメージを通して伝達され、基礎となる分子や反応を表す。 再現性と機械可読性の分子表現を保証するため、SMILESやSELFIESのようなテキストベースの分子記述子が作成された。 これらのテキストベースの分子表現は分子生成を提供するが、残念ながら出版文献にはほとんど存在しない。 分子ディスクリプタが存在しない場合、文献に存在する2次元画像から分子ディスクリプタを生成することは化学文献を大規模に理解するには必要である。 光学構造認識アプリケーション (OSRA) やケムスケマティックリゾルバー (ChemSchematicResolv er) は化学論文中の分子構造の位置を抽出し、分子の記述や反応を推測することができる。 有効ではあるが、既存のシステムは化学者が出力を補正することを期待しており、教師なしの大規模データマイニングには適さない。 本稿では,DeCIMER が導入した画像キャプションのタスク定式化を活用し,画像特徴抽出にDeep Residual Networks を,分子記述生成に Encoder-Decoder Transformer 層を利用するモデル IMG2SMI を導入する。 IMG2SMIは従来のニューラルネットワークベースのシステムとは異なり、分子記述生成のタスクを中心に構築されており、IMG2SMIは分子MACCSフィンガープリント・タニモト類似性によって測定された分子類似性予測において、OSRAベースのシステムよりも163%向上する。 さらに,この課題のさらなる研究を促進するために,分子予測データセットを新たにリリースする。 分子記述生成のための 8100万の分子を含む

Like many scientific fields, new chemistry literature has grown at a staggering pace, with thousands of papers released every month. A large portion of chemistry literature focuses on new molecules and reactions between molecules. Most vital information is conveyed through 2-D images of molecules, representing the underlying molecules or reactions described. In order to ensure reproducible and machine-readable molecule representations, text-based molecule descriptors like SMILES and SELFIES were created. These text-based molecule representations provide molecule generation but are unfortunately rarely present in published literature. In the absence of molecule descriptors, the generation of molecule descriptors from the 2-D images present in the literature is necessary to understand chemistry literature at scale. Successful methods such as Optical Structure Recognition Application (OSRA), and ChemSchematicResolve r are able to extract the locations of molecules structures in chemistry papers and infer molecular descriptions and reactions. While effective, existing systems expect chemists to correct outputs, making them unsuitable for unsupervised large-scale data mining. Leveraging the task formulation of image captioning introduced by DECIMER, we introduce IMG2SMI, a model which leverages Deep Residual Networks for image feature extraction and an encoder-decoder Transformer layers for molecule description generation. Unlike previous Neural Network-based systems, IMG2SMI builds around the task of molecule description generation, which enables IMG2SMI to outperform OSRA-based systems by 163% in molecule similarity prediction as measured by the molecular MACCS Fingerprint Tanimoto Similarity. Additionally, to facilitate further research on this task, we release a new molecule prediction dataset. including 81 million molecules for molecule description generation
翻訳日:2021-09-12 11:17:33 公開日:2021-09-03
# ネットワークデータからのプロセス名予測

Predicting Process Name from Network Data ( http://arxiv.org/abs/2109.03328v1 )

ライセンス: Link先を確認
Justin Allen, David Knapp, Kristine Monteith(参考訳) 生成するネットワークデータに基づいてアプリケーションを特定することは、サイバー防衛にとって貴重なツールになる。 本稿では,netflowライクな機能を用いてトラフィックを発生させるアプリケーションを予測する機械学習手法について報告する。 実験では,大規模企業環境に展開するホスト型センサから得られた地中ラベルを用いて,ブラウザ対非ブラウザ識別,ブラウザフィンガープリント,プロセス名予測のタスクにランダムフォレストと多層パーセプトロンを適用した。 それぞれのタスクに対して,ネットフローのような特徴のみをベースとして,機械学習モデルが高い分類精度を実現する方法を示す。

The ability to identify applications based on the network data they generate could be a valuable tool for cyber defense. We report on a machine learning technique capable of using netflow-like features to predict the application that generated the traffic. In our experiments, we used ground-truth labels obtained from host-based sensors deployed in a large enterprise environment; we applied random forests and multilayer perceptrons to the tasks of browser vs. non-browser identification, browser fingerprinting, and process name prediction. For each of these tasks, we demonstrate how machine learning models can achieve high classification accuracy using only netflow-like features as the basis for classification.
翻訳日:2021-09-12 10:56:47 公開日:2021-09-03
# U-FNO - 多相流のための強化フーリエニューラル演算子に基づく深層学習モデル

U-FNO -- an enhanced Fourier neural operator based-deep learning model for multiphase flow ( http://arxiv.org/abs/2109.03697v1 )

ライセンス: Link先を確認
Gege Wen, Zongyi Li, Kamyar Azizzadenesheli, Anima Anandkumar, Sally M. Benson(参考訳) 多孔質媒質中の多相流の数値シミュレーションは多くの地球科学応用に不可欠である。 しかしながら、マルチ物理、非線形、マルチスケールの問題の性質から、これらのシミュレーションは望ましいグリッド解像度において非常に高価であり、計算コストはしばしば厳密な工学的意思決定を妨げる。 機械学習は、数値シミュレーションデータマッピングを用いてニューラルネットワークモデルをトレーニングすることで、従来のシミュレータよりも高速な代替手段を提供する。 従来の畳み込みニューラルネットワーク(CNN)ベースのモデルは正確だがデータ集約的であり、過度に適合する傾向がある。 本稿では,多相流問題を解くための拡張フーリエニューラル演算子であるU-FNOを提案する。 U-FNOはフーリエ空間の積分核を学ぶフーリエ神経作用素(FNO)に基づいて設計されている。 cnnベンチマークとco2地中貯留におけるco2-水多相問題における3種類のfno変動を系統的に比較した結果,u-fnoアーキテクチャは従来のcnnとオリジナルfnoの両方のアドバンテージを有しており,従来よりも精度と効率性が向上した。 訓練されたU-FNOは、従来の数値シミュレータと比較して1万倍の速度でガス飽和と圧力上昇を予測する。

Numerical simulation of multiphase flow in porous media is essential for many geoscience applications. However, due to the multi-physics, non-linear, and multi-scale problem nature, these simulations are very expensive at desirable grid resolutions, and the computational cost often impedes rigorous engineering decision-making. Machine learning methods provide faster alternatives to traditional simulators by training neural network models with numerical simulation data mappings. Traditional convolutional neural network (CNN)-based models are accurate yet data-intensive and are prone to overfitting. Here we present a new architecture, U-FNO, an enhanced Fourier neural operator for solving the multiphase flow problem. The U-FNO is designed based on the Fourier neural operator (FNO) that learns an integral kernel in the Fourier space. Through a systematic comparison among a CNN benchmark and three types of FNO variations on a CO2-water multiphase problem in the context of CO2 geological storage, we show that the U-FNO architecture has the advantages of both traditional CNN and original FNO, providing significantly more accurate and efficient performance than previous architectures. The trained U-FNO provides gas saturation and pressure buildup predictions with a 10,000 times speedup compared to traditional numerical simulators while maintaining similar accuracy.
翻訳日:2021-09-12 10:56:09 公開日:2021-09-03
# (参考訳) マルチコントラストMR画像超解像のための分離型注意探索 [全文訳有]

Exploring Separable Attention for Multi-Contrast MR Image Super-Resolution ( http://arxiv.org/abs/2109.01664v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng, Yunlu Yan, Chengliang Liu, Huazhu Fu, Yong Xu, Ling Shao(参考訳) 対応する補助コントラストの指導の下でターゲットコントラストの磁気共鳴(mr)像を超解くことは、さらに解剖学的情報を提供し、高速mrイメージングの新しい有効な解決策である。 しかし、現在のマルチコントラスト・スーパーレゾリューション(SR)法は、異なるコントラストを直接結合し、それらの関係を異なる手がかりである \eg を前景と背景に無視する傾向がある。 本稿では,前景優先注意と背景分離注意を組み合わせた,分離可能な注意ネットワークであるsanetを提案する。 提案手法は,前後方向の前景と背景領域を補助コントラストの助けを借りて探索し,ターゲットコントラストMR画像のSRに対して,より明確な解剖学的構造とエッジ情報を学習することができる。 サネットは、(1)補助コントラストを用いて前景と背景領域を予測し、これらの領域間の不確定な詳細を精査し、再構成された結果の細かい領域を補正する分離可能な注意機構を探求する最初のモデルである。 2)多段階統合モジュールは,異なる段階における複数コントラスト融合の応答を学習し,融合した特徴間の依存性を取得し,その表現能力を向上させる。 3) 高速MRIおよび臨床用 \textit{in vivo} データセットを用いた各種マルチコントラストSR法による拡張実験により,本モデルの有用性が示された。

Super-resolving the Magnetic Resonance (MR) image of a target contrast under the guidance of the corresponding auxiliary contrast, which provides additional anatomical information, is a new and effective solution for fast MR imaging. However, current multi-contrast super-resolution (SR) methods tend to concatenate different contrasts directly, ignoring their relationships in different clues, \eg, in the foreground and background. In this paper, we propose a separable attention network (comprising a foreground priority attention and background separation attention), named SANet. Our method can explore the foreground and background areas in the forward and reverse directions with the help of the auxiliary contrast, enabling it to learn clearer anatomical structures and edge information for the SR of a target-contrast MR image. SANet provides three appealing benefits: (1) It is the first model to explore a separable attention mechanism that uses the auxiliary contrast to predict the foreground and background regions, diverting more attention to refining any uncertain details between these regions and correcting the fine areas in the reconstructed results. (2) A multi-stage integration module is proposed to learn the response of multi-contrast fusion at different stages, obtain the dependency between the fused features, and improve their representation ability. (3) Extensive experiments with various state-of-the-art multi-contrast SR methods on fastMRI and clinical \textit{in vivo} datasets demonstrate the superiority of our model.
翻訳日:2021-09-09 05:10:53 公開日:2021-09-03
# (参考訳) 補足校正:協調蒸留と自己監督による総合連続学習の促進 [全文訳有]

Complementary Calibration: Boosting General Continual Learning with Collaborative Distillation and Self-Supervision ( http://arxiv.org/abs/2109.02426v1 )

ライセンス: CC BY 4.0
Zhong Ji, Jin Li, Qiang Wang, Zhongfei Zhang(参考訳) General Continual Learning(GCL)は、トレーニングとテストの段階でタスク境界に依存しない古いタスクを壊滅的に忘れることなく、非独立および同一の分散ストリームデータから学習することを目的としています。 その結果, 関係偏差は知識蒸留におけるすべてのクラス間の関係の欠如, 特徴偏差は識別的特徴表現の欠如を示す。 この目的のために,補完モデルの出力と特徴をマイニングすることで,GCLのプロセスにおける2つの偏差を緩和する補足校正(CoCa)フレームワークを提案する。 具体的には,関係の偏りに対処する新しい共同蒸留手法を提案する。 新モデルのアウトプットとリザーブドアウトプットのアンサンブルダーク知識を利用してモデルのアウトプットを蒸留し、古いタスクのパフォーマンスを維持し、すべてのクラス間の関係のバランスをとる。 さらに,すべてのクラスで完全かつ判別的な特徴を学習することで,前文課題を活用し,特徴偏差問題に対処するためのコントラスト学習を行うための協調的自己スーパービジョンアイデアを探求する。 一般的な4つのデータセットに対する大規模な実験は、CoCaフレームワークが最先端の手法に対して優れたパフォーマンスを達成することを示している。

General Continual Learning (GCL) aims at learning from non independent and identically distributed stream data without catastrophic forgetting of the old tasks that don't rely on task boundaries during both training and testing stages. We reveal that the relation and feature deviations are crucial problems for catastrophic forgetting, in which relation deviation refers to the deficiency of the relationship among all classes in knowledge distillation, and feature deviation refers to indiscriminative feature representations. To this end, we propose a Complementary Calibration (CoCa) framework by mining the complementary model's outputs and features to alleviate the two deviations in the process of GCL. Specifically, we propose a new collaborative distillation approach for addressing the relation deviation. It distills model's outputs by utilizing ensemble dark knowledge of new model's outputs and reserved outputs, which maintains the performance of old tasks as well as balancing the relationship among all classes. Furthermore, we explore a collaborative self-supervision idea to leverage pretext tasks and supervised contrastive learning for addressing the feature deviation problem by learning complete and discriminative features for all classes. Extensive experiments on four popular datasets show that our CoCa framework achieves superior performance against state-of-the-art methods.
翻訳日:2021-09-09 04:52:02 公開日:2021-09-03
# (参考訳) 膵分節のための階層的3次元特徴学習 [全文訳有]

Hierarchical 3D Feature Learning for Pancreas Segmentation ( http://arxiv.org/abs/2109.01667v1 )

ライセンス: CC BY 4.0
Federica Proietto Salanitri, Giovanni Bellitto, Ismail Irmakci, Simone Palazzo, Ulas Bagci, Concetto Spampinato(参考訳) MRIとCTの両方から膵分画を自動化する3D完全畳み込み型深層ネットワークを提案する。 より具体的には、提案モデルは、異なるスケールでボリューム特徴を抽出することを学ぶ3Dエンコーダで構成されており、エンコーダ階層の異なるポイントで取られた特徴は、中間セグメンテーションマップを個別に予測する複数の3Dデコーダに送られる。 最後に、すべてのセグメンテーションマップを結合して、ユニークな詳細なセグメンテーションマスクを得る。 我々は,画像データとMRI画像データの両方を用いて,NIH Pancreas-CTデータセット(82個の造影CTからなる)とプライベートMRIデータセット(40個のMRIスキャンからなる)を検証した。 実験の結果,ct膵臓セグメンテーションの既存手法を上回り,平均88%のdiceスコアを得て,非常に困難なmriデータセット(平均diceスコア約77%)において有望なセグメンテーション性能が得られることがわかった。 さらなる制御実験により、達成された性能は、我々の3次元完全畳み込み深層ネットワークと階層的表現復号化の組み合わせによるものであることが示され、アーキテクチャ設計の裏付けとなる。

We propose a novel 3D fully convolutional deep network for automated pancreas segmentation from both MRI and CT scans. More specifically, the proposed model consists of a 3D encoder that learns to extract volume features at different scales; features taken at different points of the encoder hierarchy are then sent to multiple 3D decoders that individually predict intermediate segmentation maps. Finally, all segmentation maps are combined to obtain a unique detailed segmentation mask. We test our model on both CT and MRI imaging data: the publicly available NIH Pancreas-CT dataset (consisting of 82 contrast-enhanced CTs) and a private MRI dataset (consisting of 40 MRI scans). Experimental results show that our model outperforms existing methods on CT pancreas segmentation, obtaining an average Dice score of about 88%, and yields promising segmentation performance on a very challenging MRI data set (average Dice score is about 77%). Additional control experiments demonstrate that the achieved performance is due to the combination of our 3D fully-convolutional deep network and the hierarchical representation decoding, thus substantiating our architectural design.
翻訳日:2021-09-09 04:31:59 公開日:2021-09-03
# (参考訳) 医用画像セグメンテーションにおけるアウト・オブ・ディストリビューション一般化手法の信頼性 [全文訳有]

How Reliable Are Out-of-Distribution Generalization Methods for Medical Image Segmentation? ( http://arxiv.org/abs/2109.01668v1 )

ライセンス: CC BY 4.0
Antoine Sanner, Camila Gonzalez, Anirban Mukhopadhyay(参考訳) ディープラーニングの最近の成果は、トレーニングデータと分布が似ているテストデータに依存している。 理想のケースでは、ディープラーニングモデルが分散(ood)一般化を実現する。 確実に分散データの予測を行う。 しかし実際には、モデルは通常、分布の変化に直面するとうまく一般化できない。 これにより、正規化またはドメイン述語に基づくスキームを通じてモデルによって学習される機能のロバスト性を改善するために、いくつかの方法が設計された。 神経精神疾患の診断と治療には, 海馬MRIなどの医用画像の分離が不可欠である。 しかし、これらの脳画像は、患者の年齢や臓器の形状に影響を及ぼす様々な病態によって、しばしば分布の変化に悩まされる。 本研究では,完全教師付き訓練と半教師付き訓練の両方を用いて,mrデータにおける海馬分節問題に対するood一般化解を評価する。 すべての実験で確実に実施できる手法は見当たらない。 V-RExの損失は、チューニングが簡単で、ほとんどの場合標準のU-Netよりも優れています。

The recent achievements of Deep Learning rely on the test data being similar in distribution to the training data. In an ideal case, Deep Learning models would achieve Out-of-Distribution (OoD) Generalization, i.e. reliably make predictions on out-of-distribution data. Yet in practice, models usually fail to generalize well when facing a shift in distribution. Several methods were thereby designed to improve the robustness of the features learned by a model through Regularization- or Domain-Prediction-ba sed schemes. Segmenting medical images such as MRIs of the hippocampus is essential for the diagnosis and treatment of neuropsychiatric disorders. But these brain images often suffer from distribution shift due to the patient's age and various pathologies affecting the shape of the organ. In this work, we evaluate OoD Generalization solutions for the problem of hippocampus segmentation in MR data using both fully- and semi-supervised training. We find that no method performs reliably in all experiments. Only the V-REx loss stands out as it remains easy to tune, while it outperforms a standard U-Net in most cases.
翻訳日:2021-09-09 04:22:15 公開日:2021-09-03
# (参考訳) 深層学習と確率に基づくモードの重み付けによるCOVID-19症状のマルチモーダル検出 [全文訳有]

Multimodal Detection of COVID-19 Symptoms using Deep Learning & Probability-based Weighting of Modes ( http://arxiv.org/abs/2109.01669v1 )

ライセンス: CC BY 4.0
Meysam Effati, Yu-Chen Sun, Hani E. Naguib, Goldie Nejat(参考訳) 新型コロナウイルスのパンデミックは21世紀で最も困難な医療危機の1つだ。 ウイルスが世界的な規模で拡大を続ける中、多くの努力はワクチンの開発と大衆の大量免疫に向けられている。 毎日のケース数は減少傾向にあるが、新しいウイルス変異や変異の出現は依然として重大な脅威となっている。 経済が回復し始め、社会が人々がオフィスビル、学校、モールに戻るにつれて、新型コロナウイルス(covid-19)の感染拡大を検知し、最小化する能力が必要です。 新型コロナウイルス(COVID-19)の患者は、痛み、発熱、息の短さなど、複数の症状を示すことがある。 既存の検出技術の多くは、同じ重要性の症状に焦点を当てている。 しかし、いくつかの症状は他の症状よりも多いことが示されている。 本稿では、畳み込みニューラルネットワークを用いた既存のディープラーニング分類器と、各症状の頻度を考慮した新しい確率に基づく重み付け機能を組み合わせることで、COVID-19を予測するマルチモーダル手法を提案する。 実験は既存のデータセットで行われ、これら3つの方法が検討され、発熱、呼吸の短さが報告された。 その結果,同量の重み付け機能と比較して,重み付け機能を用いた新型コロナウイルス検出の精度が向上した。

The COVID-19 pandemic is one of the most challenging healthcare crises during the 21st century. As the virus continues to spread on a global scale, the majority of efforts have been on the development of vaccines and the mass immunization of the public. While the daily case numbers were following a decreasing trend, the emergent of new virus mutations and variants still pose a significant threat. As economies start recovering and societies start opening up with people going back into office buildings, schools, and malls, we still need to have the ability to detect and minimize the spread of COVID-19. Individuals with COVID-19 may show multiple symptoms such as cough, fever, and shortness of breath. Many of the existing detection techniques focus on symptoms having the same equal importance. However, it has been shown that some symptoms are more prevalent than others. In this paper, we present a multimodal method to predict COVID-19 by incorporating existing deep learning classifiers using convolutional neural networks and our novel probability-based weighting function that considers the prevalence of each symptom. The experiments were performed on an existing dataset with respect to the three considered modes of coughs, fever, and shortness of breath. The results show considerable improvements in the detection of COVID-19 using our weighting function when compared to an equal weighting function.
翻訳日:2021-09-09 04:09:57 公開日:2021-09-03
# (参考訳) PEEK:教育ビデオによる学習者のエンゲージメントの大規模データセット [全文訳有]

PEEK: A Large Dataset of Learner Engagement with Educational Videos ( http://arxiv.org/abs/2109.03154v1 )

ライセンス: CC BY 4.0
Sahan Bulathwela, Maria Perez-Ortiz, Erik Novak, Emine Yilmaz, John Shawe-Taylor(参考訳) 教育推薦者はeコマースやエンターテイメント関連リコメンデーターに比べてはるかに少ない関心を集めている。 この研究の方向性を進める上での大きな課題の1つは、大規模な公開データセットの不足である。 本研究は,教育ビデオに携わる学習者の大規模かつ新しいデータセットをリリースする。 personalized educational engagement with knowledge topics peekと名付けられたこのデータセットは、この性質の最初の一般公開データセットである。 ビデオ講義は講義の内容に関連するウィキペディアの概念と関連付けられており、人間の直感的な分類を提供する。 我々は、学習者のエンゲージメント信号がリッチコンテンツ表現と一致して、教育や情報レコメンデーションシステムに革命をもたらす強力なパーソナライズアルゴリズムを構築するための道を開くと信じている。 この目標に向けて,1)人気ビデオ講義リポジトリから新しいデータセットを構築し,2)エンゲージメントをモデル化するためのベンチマークアルゴリズムのセットを特定し,3)PEEKデータセット上で広範な実験を行い,その価値を実証する。 データセットを用いた実験では,強力な情報レコメンデータシステムの構築が期待できる。 データセットとサポートコードは公開されています。

Educational recommenders have received much less attention in comparison to e-commerce and entertainment-relate d recommenders, even though efficient intelligent tutors have great potential to improve learning gains. One of the main challenges in advancing this research direction is the scarcity of large, publicly available datasets. In this work, we release a large, novel dataset of learners engaging with educational videos in-the-wild. The dataset, named Personalised Educational Engagement with Knowledge Topics PEEK, is the first publicly available dataset of this nature. The video lectures have been associated with Wikipedia concepts related to the material of the lecture, thus providing a humanly intuitive taxonomy. We believe that granular learner engagement signals in unison with rich content representations will pave the way to building powerful personalization algorithms that will revolutionise educational and informational recommendation systems. Towards this goal, we 1) construct a novel dataset from a popular video lecture repository, 2) identify a set of benchmark algorithms to model engagement, and 3) run extensive experimentation on the PEEK dataset to demonstrate its value. Our experiments with the dataset show promise in building powerful informational recommender systems. The dataset and the support code is available publicly.
翻訳日:2021-09-09 03:58:42 公開日:2021-09-03
# (参考訳) 深部ニューラルネットワークとXGBoostを用いた胸部X線画像からのCOVID-19患者の自動検出 [全文訳有]

Automated detection of COVID-19 cases from chest X-ray images using deep neural network and XGBoost ( http://arxiv.org/abs/2109.02428v1 )

ライセンス: CC BY 4.0
Hamid Nasiri, Sharif Hasani(参考訳) 新型コロナウイルス(COVID-19)の世界的なパンデミックの後、多くの研究者や研究者が新型コロナウイルスの感染者を検出する方法を提供しようとしている。 そこで本研究では,胸部X線画像から新型コロナウイルスの症例を特定することに焦点を当てた。 本稿では,X線画像から新型コロナウイルスを診断するための新しいアプローチを提案する。 提案手法では, 患者の胸部から撮影されたx線画像の特徴を抽出するために, densenet169 deep neural networkを用い, 抽出した特徴をextreme gradient boosting (xgboost) アルゴリズムの入力として与えた。 提案手法の評価と近年の手法との比較により,提案手法は既存の方法よりも正確かつ高速であり,X線画像からCOVID-19感染者の検出に許容できる性能を示した。

In late 2019 and after COVID-19 pandemic in the world, many researchers and scholars have tried to provide methods for detection of COVID-19 cases. Accordingly, this study focused on identifying COVID-19 cases from chest X-ray images. In this paper, a novel approach to diagnosing coronavirus disease from X-ray images was proposed. In the proposed method, DenseNet169 deep neural network was used to extract the features of X-ray images taken from the patients' chest and the extracted features were then given as input to the Extreme Gradient Boosting (XGBoost) algorithm so that it could perform the classification task. Evaluation of the proposed approach and its comparison with the methods presented in recent years revealed that the proposed method was more accurate and faster than the existing ones and had an acceptable performance in detection of COVID-19 cases from X-ray images.
翻訳日:2021-09-09 03:45:29 公開日:2021-09-03
# 脳癌生存予測のためのmriバイオマーカーの解析

Analysis of MRI Biomarkers for Brain Cancer Survival Prediction ( http://arxiv.org/abs/2109.02785v1 )

ライセンス: Link先を確認
Subhashis Banerjee and Sushmita Mitra and Lawrence O. Hall(参考訳) マルチモーダルMRIによる脳がん患者の総合生存率(OS)の予測は、研究の難しい分野である。 生存予測に関する既存の文献のほとんどは、非生物学的要因や患者の機能的神経学的地位を考慮しない放射線学的特徴に基づいている。 さらに、生存のための適切なカットオフの選択と検閲されたデータの存在がさらなる問題を引き起こす。 os予測へのディープラーニングモデルの適用は、大規模なアノテーション付き公開データセットの欠如によって制限されている。 このシナリオでは、脳のパーセレーションアトラスと空間的生息地から抽出された2つの新しい神経画像特徴群と、古典的放射能と幾何学的特徴を解析し、それらの組み合わせによる全体的な生存の予測能力について検討する。 グリッド探索を用いたクロス検証戦略を提案し,その予測力に基づいて最も予測的な特徴部分集合を同時選択し,評価する。 Cox Proportional Hazard(CoxPH)モデルが一変量の特徴選択に使用され、続いて3つの多変量パシモニクスモデルvizによる患者固有の生存機能の予測が行われる。 コックスネット、ランダムサバイバル森林(RSF)、サバイバルSVM(SSVM)。 この研究に使用された脳腫瘍MRIデータは、The Cancer Imaging Archive (TCIA)から入手できるTGA-GBMとTGA-LGGの2つのオープンアクセスコレクションから得られた。 各患者の生存データをThe Cancer Genome Atlas (TCGA)からダウンロードした。 高いクロス検証$c-index$スコア$0.82\pm.10$がrsfを使って達成され、ベストな24ドルのフィーチャが選択された。 年齢は最も重要な生物学的予測因子であった。 それぞれparcellation、habitat、radiomic、およびリージョンベースの機能グループから選択された9ドル、6ドル、6ドル、2ドルの機能があった。

Prediction of Overall Survival (OS) of brain cancer patients from multi-modal MRI is a challenging field of research. Most of the existing literature on survival prediction is based on Radiomic features, which does not consider either non-biological factors or the functional neurological status of the patient(s). Besides, the selection of an appropriate cut-off for survival and the presence of censored data create further problems. Application of deep learning models for OS prediction is also limited due to the lack of large annotated publicly available datasets. In this scenario we analyse the potential of two novel neuroimaging feature families, extracted from brain parcellation atlases and spatial habitats, along with classical radiomic and geometric features; to study their combined predictive power for analysing overall survival. A cross validation strategy with grid search is proposed to simultaneously select and evaluate the most predictive feature subset based on its predictive power. A Cox Proportional Hazard (CoxPH) model is employed for univariate feature selection, followed by the prediction of patient-specific survival functions by three multivariate parsimonious models viz. Coxnet, Random survival forests (RSF) and Survival SVM (SSVM). The brain cancer MRI data used for this research was taken from two open-access collections TCGA-GBM and TCGA-LGG available from The Cancer Imaging Archive (TCIA). Corresponding survival data for each patient was downloaded from The Cancer Genome Atlas (TCGA). A high cross validation $C-index$ score of $0.82\pm.10$ was achieved using RSF with the best $24$ selected features. Age was found to be the most important biological predictor. There were $9$, $6$, $6$ and $2$ features selected from the parcellation, habitat, radiomic and region-based feature groups respectively.
翻訳日:2021-09-08 14:44:27 公開日:2021-09-03
# (参考訳) マルチモーダルプログラム推論:事前学習言語モデルとコンポーネントベース合成の結婚 [全文訳有]

Multi-modal Program Inference: a Marriage of Pre-trainedLanguage Models and Component-based Synthesis ( http://arxiv.org/abs/2109.02445v1 )

ライセンス: CC BY 4.0
Kia Rahmani, Mohammad Raza, Sumit Gulwani, Vu Le, Daniel Morris, Arjun Radhakrishna, Gustavo Soares, Ashish Tiwari(参考訳) マルチモーダルプログラム合成(multi-modal program synthesis)は、自然言語と例の組み合わせなど、異なる形式で与えられた仕様からプログラム(コード)を合成するタスクである。 例は正確だが不完全な仕様を提供し、自然言語は曖昧だがより「完全」なタスク記述を提供する。 機械学習型事前学習モデル(PTM)はあいまいな自然言語を扱うには適しているが、構文的かつ意味論的に正確なコードを生成するのに苦労している。 プログラム合成技術は、例えば、不完全だが正確な仕様からでさえも、正しいコードを生成することができるが、自然言語の曖昧さを扱うことができない。 我々は、ptmとコンポーネントベース合成(cbs: component-based synthesis)を組み合わせたアプローチを提案する。 ptmはタスクの自然言語記述から候補プログラムを生成するために使用され、cbsプロシージャで正確な例ベースの仕様にマッチするプログラムを見つけるためのガイドとして使用される。 我々は、正規表現の領域とCSSセレクタの領域という2つのプログラミング領域のマルチモーダル合成システムのインスタンス化に、我々の組み合わせアプローチを利用する。 本評価は,最先端の特殊システムと比較して,我々のドメインに依存しないアプローチの有効性と,自然言語からのマルチモーダルプログラム合成と異なるプログラミング領域の例を提供するためのアプローチの汎用性を示す。

Multi-modal program synthesis refers to the task of synthesizing programs (code) from their specification given in different forms, such as a combination of natural language and examples. Examples provide a precise but incomplete specification, and natural language provides an ambiguous but more "complete" task description. Machine-learned pre-trained models (PTMs) are adept at handling ambiguous natural language, but struggle with generating syntactically and semantically precise code. Program synthesis techniques can generate correct code, often even from incomplete but precise specifications, such as examples, but they are unable to work with the ambiguity of natural languages. We present an approach that combines PTMs with component-based synthesis (CBS): PTMs are used to generate candidates programs from the natural language description of the task, which are then used to guide the CBS procedure to find the program that matches the precise examples-based specification. We use our combination approach to instantiate multi-modal synthesis systems for two programming domains: the domain of regular expressions and the domain of CSS selectors. Our evaluation demonstrates the effectiveness of our domain-agnostic approach in comparison to a state-of-the-art specialized system, and the generality of our approach in providing multi-modal program synthesis from natural language and examples in different programming domains.
翻訳日:2021-09-08 14:08:28 公開日:2021-09-03
# (参考訳) ALLWAS:WASserstein空間における言語モデルのアクティブラーニング [全文訳有]

ALLWAS: Active Learning on Language models in WASserstein space ( http://arxiv.org/abs/2109.01691v1 )

ライセンス: CC BY 4.0
Anson Bastos, Manohar Kaul(参考訳) 医療領域など,ラベル付きトレーニングデータが少ない地域では,アクティブラーニングが標準的パラダイムとして現れている。 言語モデルは、これらのモデルによって提供されるパフォーマンス向上のために、いくつかの自然言語タスクの一般的な選択として現れています。 しかし、医学などのいくつかの分野では、ラベル付きトレーニングデータの不足が問題となっている。 また、これらのモデルは、クラス不均衡が一般的である場合にはうまく機能しない。 アクティブな学習は、ラベルの予算が限られている場合、パフォーマンスを高めるのに役立ちます。 そこで本研究では,言語モデルのアクティブラーニングのためのサブモジュラー最適化と最適トランスポートに基づくサンプリング手法であるallwasを提案する。 勾配領域における設計対象のサブモジュラー最適化に基づくサンプリング戦略を構築する。 さらに,少数のサンプルからの学習を可能にするために,wasserstein barycentersからサンプリングする新しい手法を提案する。 テキスト分類のための標準ベンチマークデータセットに対する実証的な評価は、既存の言語モデルにおけるアクティブラーニング手法に比べて、我々の手法が大幅に向上していることを示している。

Active learning has emerged as a standard paradigm in areas with scarcity of labeled training data, such as in the medical domain. Language models have emerged as the prevalent choice of several natural language tasks due to the performance boost offered by these models. However, in several domains, such as medicine, the scarcity of labeled training data is a common issue. Also, these models may not work well in cases where class imbalance is prevalent. Active learning may prove helpful in these cases to boost the performance with a limited label budget. To this end, we propose a novel method using sampling techniques based on submodular optimization and optimal transport for active learning in language models, dubbed ALLWAS. We construct a sampling strategy based on submodular optimization of the designed objective in the gradient domain. Furthermore, to enable learning from few samples, we propose a novel strategy for sampling from the Wasserstein barycenters. Our empirical evaluations on standard benchmark datasets for text classification show that our methods perform significantly better (>20% relative increase in some cases) than existing approaches for active learning on language models.
翻訳日:2021-09-08 13:18:36 公開日:2021-09-03
# (参考訳) メタラーニングによるファウショットセグメンテーションの監視 [全文訳有]

Weakly Supervised Few-Shot Segmentation Via Meta-Learning ( http://arxiv.org/abs/2109.01693v1 )

ライセンス: CC BY-SA 4.0
Pedro H. T. Gama, Hugo Oliveira, Jos\'e Marcato Junior, Jefersson A. dos Santos(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、医療用およびリモートセンシング画像分析を含む、複数のアプリケーションを持つ古典的なコンピュータビジョンタスクである。 近年の深層アプローチの進歩にもかかわらず、トレーニングモデルのサンプル(ピクセル)のラベル付けは困難であり、場合によっては不可能である。 本稿では,スパースアノテーションを用いたセマンティックセグメンテーションタスクにおいて,WeaSeL と ProtoSeg という2つの新しいメタ学習手法を提案する。 医療画像と農業リモートセンシングにおいて,提案手法を異なる用途(12データセット)で広範囲に評価した。 その結果,本手法の有効性を実証し,全密度アノテーションと比較し,コーヒー・オレンジ栽培と人体の解剖学的部分の分画に適した結果を得た。

Semantic segmentation is a classic computer vision task with multiple applications, which includes medical and remote sensing image analysis. Despite recent advances with deep-based approaches, labeling samples (pixels) for training models is laborious and, in some cases, unfeasible. In this paper, we present two novel meta learning methods, named WeaSeL and ProtoSeg, for the few-shot semantic segmentation task with sparse annotations. We conducted extensive evaluation of the proposed methods in different applications (12 datasets) in medical imaging and agricultural remote sensing, which are very distinct fields of knowledge and usually subject to data scarcity. The results demonstrated the potential of our method, achieving suitable results for segmenting both coffee/orange crops and anatomical parts of the human body in comparison with full dense annotation.
翻訳日:2021-09-08 13:02:45 公開日:2021-09-03
# (参考訳) 映像認識のための3次元ResNetの再検討 [全文訳有]

Revisiting 3D ResNets for Video Recognition ( http://arxiv.org/abs/2109.01696v1 )

ライセンス: CC BY 4.0
Xianzhi Du, Yeqing Li, Yin Cui, Rui Qian, Jing Li, Irwan Bello(参考訳) Bello氏の最近の研究は、トレーニングとスケーリング戦略が視覚認識のためのモデルアーキテクチャよりも重要であることを示している。 本稿では,ビデオ認識モデルの効果的なトレーニングとスケーリング戦略について述べる。 本研究では,3dリネットのための簡易なスケーリング戦略を提案する。 結果は3D ResNet-RSと呼ばれ、キネティクス400で81.0、キネティクス600で83.8の競争性能を達成した。 大規模webビデオテキストデータセットで事前トレーニングすると、kinetics-400とkinetics-600で83.5と84.3を達成した。 提案するスケーリングルールは,コントラスト学習を用いて自己教師あり設定でさらに評価され,性能が向上した。 https://github.com/t ensorflow/models/tre e/master/official。

A recent work from Bello shows that training and scaling strategies may be more significant than model architectures for visual recognition. This short note studies effective training and scaling strategies for video recognition models. We propose a simple scaling strategy for 3D ResNets, in combination with improved training strategies and minor architectural changes. The resulting models, termed 3D ResNet-RS, attain competitive performance of 81.0 on Kinetics-400 and 83.8 on Kinetics-600 without pre-training. When pre-trained on a large Web Video Text dataset, our best model achieves 83.5 and 84.3 on Kinetics-400 and Kinetics-600. The proposed scaling rule is further evaluated in a self-supervised setup using contrastive learning, demonstrating improved performance. Code is available at: https://github.com/t ensorflow/models/tre e/master/official.
翻訳日:2021-09-08 12:57:01 公開日:2021-09-03
# (参考訳) ボットはサプライチェーンを乗っ取るだろうか? エージェントによるサプライチェーン自動化の見直し

Will bots take over the supply chain? Revisiting Agent-based supply chain automation ( http://arxiv.org/abs/2109.01703v1 )

ライセンス: CC BY 4.0
Liming Xu, Stephen Mak and Alexandra Brintrup(参考訳) エージェントベースのシステムは、多くの分散ソースから情報を融合し、より良い計画を作成することができる。 この機能は、サプライチェーン管理(SCM)の課題に対処するために、エージェントベースのシステムを自然に適合させる。 エージェントベースのサプライチェーンシステムは2000年初頭から提案されているが、産業的な普及は遅れている。 引用されている理由は、技術の未成熟、サプライチェーン情報システムとの相互運用性の欠如、人工知能(AI)への信頼の欠如である。 本稿では,エージェントベースのサプライチェーンを再検討し,技術の現状を概観する。 エージェントベースの技術は成熟しており、サプライチェーンを貫通する他のサポート技術はギャップを埋めており、概念はより幅広い機能に適用できる。 例えば、IoTテクノロジのユビキティは、エージェントがサプライチェーンの状態を“理解”し、自動化のための新たな可能性を開くのに役立つ。 ディジタル台帳は、ERP(Enterprise Resource Planning)システムを統合することなく、サードパーティ間でデータを安全に転送し、エージェントベースの情報共有を可能にする。 エージェントの機能を学習することで、エージェントは自動化を越えて自律性に進むことができる。 この収束効果は,エージェントベースのサプライチェーンフレームワークの概念化,コンポーネントのレビュー,今後の課題に対処すべき研究課題を浮き彫りにする。

Agent-based systems have the capability to fuse information from many distributed sources and create better plans faster. This feature makes agent-based systems naturally suitable to address the challenges in Supply Chain Management (SCM). Although agent-based supply chains systems have been proposed since early 2000; industrial uptake of them has been lagging. The reasons quoted include the immaturity of the technology, a lack of interoperability with supply chain information systems, and a lack of trust in Artificial Intelligence (AI). In this paper, we revisit the agent-based supply chain and review the state of the art. We find that agent-based technology has matured, and other supporting technologies that are penetrating supply chains; are filling in gaps, leaving the concept applicable to a wider range of functions. For example, the ubiquity of IoT technology helps agents "sense" the state of affairs in a supply chain and opens up new possibilities for automation. Digital ledgers help securely transfer data between third parties, making agent-based information sharing possible, without the need to integrate Enterprise Resource Planning (ERP) systems. Learning functionality in agents enables agents to move beyond automation and towards autonomy. We note this convergence effect through conceptualising an agent-based supply chain framework, reviewing its components, and highlighting research challenges that need to be addressed in moving forward.
翻訳日:2021-09-08 12:47:49 公開日:2021-09-03
# (参考訳) リアルタイム3次元ハンドメッシュ再構築における正確なアライメントに向けて [全文訳有]

Towards Accurate Alignment in Real-time 3D Hand-Mesh Reconstruction ( http://arxiv.org/abs/2109.01723v1 )

ライセンス: CC BY 4.0
Xiao Tang, Tianyu Wang, Chi-Wing Fu(参考訳) RGB画像からの3Dハンドメッシュ再構成は、拡張現実(AR)を含む多くのアプリケーションに役立つ。 しかし、これはリアルタイムのスピードと正確な手ポーズと形状だけでなく、メッシュイメージのアライメントも必要である。 既存の作業はすでに有望な成果を上げていますが,3つの要件をすべて満たすことは非常に難しいのです。 本稿では,手指再建作業を手指関節とセグメンテーションを予測するジョイントステージ,粗い手指メッシュを予測するためのメッシュステージ,メッシュ画像アライメントのためのオフセットメッシュでそれを微調整する洗練されたステージの3段階に分割することで,新しいパイプラインを提案する。 ネットワーク構造と損失関数に注意深く設計することで、高品質な指レベルのメッシュ画像アライメントを促進し、モデルを組み合わせてリアルタイムな予測を実現することができる。 ベンチマークデータセットの大規模定量および定性的な結果からは,手作業の精度と手作業のアライメントにおいて,結果の品質が最先端の手法よりも優れていることが示されている。 最後に、いくつかのリアルタイムarシナリオも紹介します。

3D hand-mesh reconstruction from RGB images facilitates many applications, including augmented reality (AR). However, this requires not only real-time speed and accurate hand pose and shape but also plausible mesh-image alignment. While existing works already achieve promising results, meeting all three requirements is very challenging. This paper presents a novel pipeline by decoupling the hand-mesh reconstruction task into three stages: a joint stage to predict hand joints and segmentation; a mesh stage to predict a rough hand mesh; and a refine stage to fine-tune it with an offset mesh for mesh-image alignment. With careful design in the network structure and in the loss functions, we can promote high-quality finger-level mesh-image alignment and drive the models together to deliver real-time predictions. Extensive quantitative and qualitative results on benchmark datasets demonstrate that the quality of our results outperforms the state-of-the-art methods on hand-mesh/pose precision and hand-image alignment. In the end, we also showcase several real-time AR scenarios.
翻訳日:2021-09-08 12:46:44 公開日:2021-09-03
# (参考訳) Mise-en-Pageをナビゲートする:多段階の視覚的レイアウトに対する解釈型機械学習アプローチ [全文訳有]

Navigating the Mise-en-Page: Interpretive Machine Learning Approaches to the Visual Layouts of Multi-Ethnic Periodicals ( http://arxiv.org/abs/2109.01732v1 )

ライセンス: CC BY 4.0
Benjamin Charles Germain Lee, Joshua Ortiz Baco, Sarah H. Salter, Jim Casey(参考訳) 本稿では,19世紀後半から20世紀初頭にかけての多民族新聞の視覚的レイアウトを地図化するために,機械学習,図書館科学,文学から抽出した分析手法を提案する。 この作品は、個々のテキストコンテンツと視覚コンテンツに焦点を当てた新聞への以前のアプローチから逸脱している。 本手法は,アメリカのmarcデータと新聞ナビゲータ機械学習データセットを併用し,新聞ページレイアウトの視覚的パターンを識別する。 高次元の視覚的類似性を解析することにより、編集者が論文のレイアウトを通してどのように話し、抗議するかをよりよく理解することを目指している。

This paper presents a computational method of analysis that draws from machine learning, library science, and literary studies to map the visual layouts of multi-ethnic newspapers from the late 19th and early 20th century United States. This work departs from prior approaches to newspapers that focus on individual pieces of textual and visual content. Our method combines Chronicling America's MARC data and the Newspaper Navigator machine learning dataset to identify the visual patterns of newspaper page layouts. By analyzing high-dimensional visual similarity, we aim to better understand how editors spoke and protested through the layout of their papers.
翻訳日:2021-09-08 10:40:58 公開日:2021-09-03
# (参考訳) CodeNeRF:オブジェクトカテゴリのための遠方性ニューラルラジアンスフィールド

CodeNeRF: Disentangled Neural Radiance Fields for Object Categories ( http://arxiv.org/abs/2109.01750v1 )

ライセンス: CC BY 4.0
Wonbong Jang, Lourdes Agapito(参考訳) CodeNeRFは暗黙の3Dニューラル表現で、カテゴリ全体にわたるオブジェクトの形状やテクスチャの変化を学習し、ポーズ画像のセットからトレーニングして、目に見えないオブジェクトの新しいビューを合成することができる。 シーン固有のオリジナルのNeRFとは異なり、CodeNeRFは別々の埋め込みを学習することで形状とテクスチャを歪めることを学ぶ。 テスト時には、未確認物体の1つの未表示画像が与えられた場合、CodeNeRFはカメラの視点と形状と外観を最適化することで共同で推定する。 見えないオブジェクトは1つのイメージから再構築でき、新しい視点やその形状やテクスチャから、潜在コードを変えて編集することができる。 我々は、SRNベンチマークで実験を行い、CodeNeRFは未確認オブジェクトによく一般化し、テスト時に既知のカメラのポーズを必要とするメソッドでオンパー性能を達成することを示す。 実世界の画像による結果から,codenerfがsim対実のギャップを橋渡しできることが分かる。 プロジェクトページ: \url{https://github.com/w ayne1123/code-nerf}

CodeNeRF is an implicit 3D neural representation that learns the variation of object shapes and textures across a category and can be trained, from a set of posed images, to synthesize novel views of unseen objects. Unlike the original NeRF, which is scene specific, CodeNeRF learns to disentangle shape and texture by learning separate embeddings. At test time, given a single unposed image of an unseen object, CodeNeRF jointly estimates camera viewpoint, and shape and appearance codes via optimization. Unseen objects can be reconstructed from a single image, and then rendered from new viewpoints or their shape and texture edited by varying the latent codes. We conduct experiments on the SRN benchmark, which show that CodeNeRF generalises well to unseen objects and achieves on-par performance with methods that require known camera pose at test time. Our results on real-world images demonstrate that CodeNeRF can bridge the sim-to-real gap. Project page: \url{https://github.com/w ayne1123/code-nerf}
翻訳日:2021-09-08 10:15:38 公開日:2021-09-03
# 量子アニーリングハードウェアを用いた高品位熱ギブスサンプリング

High-quality Thermal Gibbs Sampling with Quantum Annealing Hardware ( http://arxiv.org/abs/2109.01690v1 )

ライセンス: Link先を確認
Jon Nelson, Marc Vuffray, Andrey Y. Lokhov, Tameem Albash, Carleton Coffrin(参考訳) 量子アニーリング(QA)はもともと、Isingモデルのような自然なエンコーディングを持つ組合せ最適化タスクのソリューションを加速することを目的としていた。 しかし、最近のQAハードウェアプラットフォームに関する実験では、弱い相互作用に対応する動作状態において、QAハードウェアはハードウェア固有の有効温度でノイズの多いギブスサンプリング器のように振る舞うことが示されている。 この研究はこれらの知見に基づいており、ノイズ効果に頑健な小さなハードウェアネイティブイジングモデルクラスを特定し、gibbsサンプリング性能を最大化するqaハードウェア上でこれらのモデルを実行するための新しい手順を提案する。 実験結果から,提案プロトコルはハードウェア固有の有効温度から高品質のgibbsサンプルを得ることができ,qaアニーリング時間を出力分布の有効温度調整に利用できることがわかった。 本研究で提案する手法は,機械学習および物理シミュレーションへの応用の可能性を示すIsingモデルサンプリングにQAハードウェアを使用するための新しいアプローチを提供する。

Quantum Annealing (QA) was originally intended for accelerating the solution of combinatorial optimization tasks that have natural encodings as Ising models. However, recent experiments on QA hardware platforms have demonstrated that, in the operating regime corresponding to weak interactions, the QA hardware behaves like a noisy Gibbs sampler at a hardware-specific effective temperature. This work builds on those insights and identifies a class of small hardware-native Ising models that are robust to noise effects and proposes a novel procedure for executing these models on QA hardware to maximize Gibbs sampling performance. Experimental results indicate that the proposed protocol results in high-quality Gibbs samples from a hardware-specific effective temperature and that the QA annealing time can be used to adjust the effective temperature of the output distribution. The procedure proposed in this work provides a new approach to using QA hardware for Ising model sampling presenting potential new opportunities for applications in machine learning and physics simulation.
翻訳日:2021-09-07 17:29:46 公開日:2021-09-03
# 2つの新しいマスク顔認識データセットに適用したマスク顔生成の現実的アプローチ

A realistic approach to generate masked faces applied on two novel masked face recognition data sets ( http://arxiv.org/abs/2109.01745v1 )

ライセンス: Link先を確認
Tudor Mare, Georgian Duta, Mariana-Iuliana Georgescu, Adrian Sandru, Bogdan Alexe, Marius Popescu, Radu Tudor Ionescu(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、鼻や口を覆うために手術用マスクを着用する、新しい現実に顔認識システムを適用するという問題を提起している。 これらのシステムのトレーニングに使用される伝統的なデータセット(例:celeba、casia-webface)は、パンデミック前にリリースされていたため、マスクを着用している人の例が不足しているために不適当に思われる。 マスクのない顔を含むデータセットを合成マスクを作成し,元の画像の顔に重ね合わせることによって拡張する手法を提案する。 この方法は、instagramのフェイスフィルターを作成するためにfacebookが開発した開発者プログラムであるspark ar studioに依存しています。 アプローチでは、異なる色、形状、ファブリックの9つのマスクを使用します。 我々は,CASIA-WebFaceデータセットのマスクの445,446 (90%) とCelebAデータセットのマスク196,254 (96.8%) を生成し,https://github.com/ securifai/masked_fac esでマスク画像を公開する。 提案手法は,同じタスク用に設計された他の手法やデータセットと質的に比較するようにボランティアに依頼することで,顔にオーバーレイしたマスクのより現実的なトレーニング例を生成する。 また,提案手法の有効性を,拡張データセット上で訓練された最先端の顔認識システム(FaceNet, VGG-face, ArcFace)を評価し,テストベンチマークにマスク付き顔が含まれている場合,元のデータセットで訓練された同等のシステム(マスクなし顔を含む)より優れていることを示す。

The COVID-19 pandemic raises the problem of adapting face recognition systems to the new reality, where people may wear surgical masks to cover their noses and mouths. Traditional data sets (e.g., CelebA, CASIA-WebFace) used for training these systems were released before the pandemic, so they now seem unsuited due to the lack of examples of people wearing masks. We propose a method for enhancing data sets containing faces without masks by creating synthetic masks and overlaying them on faces in the original images. Our method relies on Spark AR Studio, a developer program made by Facebook that is used to create Instagram face filters. In our approach, we use 9 masks of different colors, shapes and fabrics. We employ our method to generate a number of 445,446 (90%) samples of masks for the CASIA-WebFace data set and 196,254 (96.8%) masks for the CelebA data set, releasing the mask images at https://github.com/s ecurifai/masked_face s. We show that our method produces significantly more realistic training examples of masks overlaid on faces by asking volunteers to qualitatively compare it to other methods or data sets designed for the same task. We also demonstrate the usefulness of our method by evaluating state-of-the-art face recognition systems (FaceNet, VGG-face, ArcFace) trained on the enhanced data sets and showing that they outperform equivalent systems trained on the original data sets (containing faces without masks), when the test benchmark contains masked faces.
翻訳日:2021-09-07 16:52:57 公開日:2021-09-03
# 深部oct解析による網膜疾患の解釈可能な自動診断

Interpretable Automated Diagnosis of Retinal Disease using Deep OCT Analysis ( http://arxiv.org/abs/2109.02436v1 )

ライセンス: Link先を確認
Evan Wen, Max Ehrlich(参考訳) オプティカル・コヒーレンス・トモグラフィ(oct)の検査は毎年3000万回行われ、様々な網膜疾患を診断するが、octスキャンの正確な診断には、まだ誤分類に苦しむ眼科医が必要となる。 診断システムの改善により、網膜疾患による視力喪失の多くの症例は完全に避けられる。 本研究では, CNV, DME, Drusen, Normal OCTスキャンの正確な分類のためのCNNモデルを開発した。 さらに、モデルの判断に関する質的および定量的な説明の両方を作成することに注力した。 クラス重み付けの efficientnet b2 分類モデルは 99.79% の精度で実行した。 次に,OCTが対象とするモデルをスキャンした場所のヒートマップを作成し,解析した。 熱マップを作成した後、私たちはモデルが焦点を絞った特定の網膜層の分解を作成しました。 従来より高精度なモデルが開発されてきたが,本研究はモデル決定の詳細な説明を行った最初の事例である。 本研究における正確性と解釈性の組み合わせは, 患者のケア改善に臨床応用できる。 将来の作業では、より大きく多様なデータセットの分類に同様のモデルを使用することができる。

30 million Optical Coherence Tomography (OCT) imaging tests are issued every year to diagnose various retinal diseases, but accurate diagnosis of OCT scans requires trained ophthalmologists who are still prone to making misclassifications. With better systems for diagnosis, many cases of vision loss caused by retinal disease could be entirely avoided. In this work, we developed a CNN-based model for accurate classification of CNV, DME, Drusen, and Normal OCT scans. Furthermore, we placed an emphasis on producing both qualitative and quantitative explanations of the model's decisions. Our class-weighted EfficientNet B2 classification model performed at 99.79% accuracy. We then produced and analyzed heatmaps of where in the OCT scan the model focused. After producing the heatmaps, we created breakdowns of the specific retinal layers the model focused on. While highly accurate models have been previously developed, our work is the first to produce detailed explanations of the model's decisions. The combination of accuracy and interpretability in our work can be clinically applied for better patient care. Future work can use a similar model for classification on larger and more diverse data sets.
翻訳日:2021-09-07 16:46:20 公開日:2021-09-03
# 分散型医療ネットワークのためのコミュニケーション効率の良いテンソル因子化

Communication Efficient Tensor Factorization for Decentralized Healthcare Networks ( http://arxiv.org/abs/2109.01718v1 )

ライセンス: Link先を確認
Jing Ma, Qiuchen Zhang, Jian Lou, Li Xiong, Sivasubramanium Bhavani, Joyce C. Ho(参考訳) テンソル因子分解は、医療処置、医薬品、診断、検査などの患者歴を持つ高次元電子健康記録(ehrs)が有意義で解釈可能な医療概念に変換される、健康データ分析のための効率的な教師なし学習アプローチとして証明されている。 フェデレートテンソル因子化は、テンソル計算を中央サーバの調整の下で複数のワーカーに分散し、患者情報のプライバシーを維持しながら複数の病院間で表現型を共同学習することを可能にする。 しかし、既存のフェデレーションテンソル分解アルゴリズムは、外部攻撃に簡単に晒されるだけでなく、アップリンク帯域の制限下でサーバと情報を共有するクライアントの数を制限する中央サーバの関与によって、単一ポイントフェール問題に遭遇する。 本稿では,多種類の損失関数を持つ異なるテンソル分布をモデル化する柔軟性を有する一般化テンソル因子化のために設計された4レベル通信削減戦略を活用することで,アップリンク通信コストを削減する通信効率の高い分散テンソル因子化であるCiderTFを提案する。 2つの実世界のEHRデータセットの実験は、CiderTFが99.99%の通信削減で同等の収束を達成することを示した。

Tensor factorization has been proved as an efficient unsupervised learning approach for health data analysis, especially for computational phenotyping, where the high-dimensional Electronic Health Records (EHRs) with patients history of medical procedures, medications, diagnosis, lab tests, etc., are converted to meaningful and interpretable medical concepts. Federated tensor factorization distributes the tensor computation to multiple workers under the coordination of a central server, which enables jointly learning the phenotypes across multiple hospitals while preserving the privacy of the patient information. However, existing federated tensor factorization algorithms encounter the single-point-failure issue with the involvement of the central server, which is not only easily exposed to external attacks, but also limits the number of clients sharing information with the server under restricted uplink bandwidth. In this paper, we propose CiderTF, a communication-effici ent decentralized generalized tensor factorization, which reduces the uplink communication cost by leveraging a four-level communication reduction strategy designed for a generalized tensor factorization, which has the flexibility of modeling different tensor distribution with multiple kinds of loss functions. Experiments on two real-world EHR datasets demonstrate that CiderTF achieves comparable convergence with the communication reduction up to 99.99%.
翻訳日:2021-09-07 16:32:04 公開日:2021-09-03
# カナダにおける若年者における大麻使用に伴うコホート特性と要因

Cohort Characteristics and Factors Associated with Cannabis Use among Adolescents in Canada Using Pattern Discovery and Disentanglement Method ( http://arxiv.org/abs/2109.01739v1 )

ライセンス: Link先を確認
Peiyuan Zhou, Andrew K.C. Wong, Yang Yang, Scott T. Leatherdale, Kate Battista, Zahid A. Butt, George Michalopoulos, Helen Chen(参考訳) コンパックス(CompASS)は、カナダ全土の高校に通っている学生から毎年収集されるデータである。 本研究の目的は,大麻使用に関連するカナダ青年の行動要因の有意な頻繁/希少な関連を明らかにすることである。 コンパスデータセットのサブセットを使用して,9年生から12年生までの学生18,761レコードと,生活習慣から学業成績まで,さまざまな特徴を含む31の特徴(属性)を収録した。 その後、データセットから強くて稀な(統計的に重要な)関連を検出するために開発したPattern Discovery and Disentanglement (PDD)アルゴリズムを使用した。 PDDは、散らばった統計空間(RARV(Re-projected Adjusted-Standardize d Residual Vector Spaces)として知られる)に由来する基準を使用した。 他の基準(すなわち)を用いた手法よりも優れていた。 支持と信頼) 文献で報告されているように人気がある。 i) クラスターにおける簡潔で重要な関連性、(i) 頻繁で希少であるが、人口健康に関する研究によって支持されるパターン、(iii) 極めて不均衡なグループ(多数派: マイノリティクラス = 88.3%: 11.7%)のデータセットからのパターン。

COMPASS is a longitudinal, prospective cohort study collecting data annually from students attending high school in jurisdictions across Canada. We aimed to discover significant frequent/rare associations of behavioral factors among Canadian adolescents related to cannabis use. We use a subset of COMPASS dataset which contains 18,761 records of students in grades 9 to 12 with 31 selected features (attributes) involving various characteristics, from living habits to academic performance. We then used the Pattern Discovery and Disentanglement (PDD) algorithm that we have developed to detect strong and rare (yet statistically significant) associations from the dataset. PDD used the criteria derived from disentangled statistical spaces (known as Re-projected Adjusted-Standardize d Residual Vector Spaces, notated as RARV). It outperformed methods using other criteria (i.e. support and confidence) popular as reported in the literature. Association results showed that PDD can discover: i) a smaller set of succinct significant associations in clusters; ii) frequent and rare, yet significant, patterns supported by population health relevant study; iii) patterns from a dataset with extremely imbalanced groups (majority class: minority class = 88.3%: 11.7%).
翻訳日:2021-09-07 16:31:41 公開日:2021-09-03
# f3s:フリーフローフィーバースクリーニング

F3S: Free Flow Fever Screening ( http://arxiv.org/abs/2109.01733v1 )

ライセンス: Link先を確認
Kunal Rao, Giuseppe Coviello, Min Feng, Biplob Debnath, Wang-Pin Hsiung, Murugan Sankaradas, Yi Yang, Oliver Po, Utsav Drolia and Srimat Chakradhar(参考訳) 体温が上昇している人の識別は、新型コロナウイルスなどの感染症の拡散を減少または劇的に遅らせる可能性がある。 本稿では,最先端の機械学習技術を用いて,複数個体のコア体温を自由流量で正確に測定する新しいフィーバースクリーニングシステムf3sを提案する。 F3S performs real-time sensor fusion of visual camera with thermal camera data streams to detect elevated body temperature, and it has several unique features: (a) visual and thermal streams represent very different modalities, and we dynamically associate semantically-equival ent regions across visual and thermal frames by using a new, dynamic alignment technique that analyzes content and context in real-time, (b) we track people through occlusions, identify the eye (inner canthus), forehead, face and head regions where possible, and provide an accurate temperature reading by using a prioritized refinement algorithm, and (c) we robustly detect elevated body temperature even in the presence of personal protective equipment like masks, or sunglasses or hats, all of which can be affected by hot weather and lead to spurious temperature readings. f3sは数十以上の大規模商業施設に展開されており、屋内や屋外の何千もの従業員や顧客に対して、コンタクトレス、フリーフロー、リアルタイムのフィーバースクリーニングを提供している。

Identification of people with elevated body temperature can reduce or dramatically slow down the spread of infectious diseases like COVID-19. We present a novel fever-screening system, F3S, that uses edge machine learning techniques to accurately measure core body temperatures of multiple individuals in a free-flow setting. F3S performs real-time sensor fusion of visual camera with thermal camera data streams to detect elevated body temperature, and it has several unique features: (a) visual and thermal streams represent very different modalities, and we dynamically associate semantically-equival ent regions across visual and thermal frames by using a new, dynamic alignment technique that analyzes content and context in real-time, (b) we track people through occlusions, identify the eye (inner canthus), forehead, face and head regions where possible, and provide an accurate temperature reading by using a prioritized refinement algorithm, and (c) we robustly detect elevated body temperature even in the presence of personal protective equipment like masks, or sunglasses or hats, all of which can be affected by hot weather and lead to spurious temperature readings. F3S has been deployed at over a dozen large commercial establishments, providing contact-less, free-flow, real-time fever screening for thousands of employees and customers in indoors and outdoor settings.
翻訳日:2021-09-07 16:23:37 公開日:2021-09-03
# (参考訳) 胸部x線疾患対応画像編集に向けて [全文訳有]

Towards disease-aware image editing of chest X-rays ( http://arxiv.org/abs/2109.01071v2 )

ライセンス: CC BY-SA 4.0
Aakash Saboo, Sai Niranjan Ramachandran, Kai Dierkes, Hacer Yalim Keles(参考訳) GAN(Generative Adversarial Network)による疾患対応画像編集は、医療分野におけるAIの利用を促進するための有望な道となっている。 ここでは、この概念の実証について述べる。 GANベースの技術は自然画像の生成と操作に成功しているが、医療分野への応用はまだ初期段階にある。 CheXpertデータセットを用いて、StyleGANは現実的な胸部X線を生成することができることを示す。 サイクリックリバースジェネレータ(CRG)フレームワークにインスパイアされた私たちは,合成X線で生成体を忠実に反転させるエンコーダを訓練し,実物の臓器レベルの再構築を行う。 潜在コードの誘導的な操作を用いて、健康な患者からの実際のx線に心電図(心臓サイズの増加)の医療状態を推定する。 この研究は、カナダのバンクーバーで開催された34th Conference on Neural Information Processing Systems (NeurIPS 2020)の一部として開催された、メディカルイメージングミート・ニューリプス・ワークショップ2020で発表された。

Disease-aware image editing by means of generative adversarial networks (GANs) constitutes a promising avenue for advancing the use of AI in the healthcare sector. Here, we present a proof of concept of this idea. While GAN-based techniques have been successful in generating and manipulating natural images, their application to the medical domain, however, is still in its infancy. Working with the CheXpert data set, we show that StyleGAN can be trained to generate realistic chest X-rays. Inspired by the Cyclic Reverse Generator (CRG) framework, we train an encoder that allows for faithfully inverting the generator on synthetic X-rays and provides organ-level reconstructions of real ones. Employing a guided manipulation of latent codes, we confer the medical condition of cardiomegaly (increased heart size) onto real X-rays from healthy patients. This work was presented in the Medical Imaging meets Neurips Workshop 2020, which was held as part of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020) in Vancouver, Canada
翻訳日:2021-09-07 13:05:37 公開日:2021-09-03
# (参考訳) 経時的3次元心エコー図法における左室容積分割のための新しい半自動アルゴリズム [全文訳有]

A New Semi-Automated Algorithm for Volumetric Segmentation of the Left Ventricle in Temporal 3D Echocardiography Sequences ( http://arxiv.org/abs/2109.01132v2 )

ライセンス: CC BY 4.0
Deepa Krishnaswamy, Abhilash R. Hareendranathan, Tan Suwatanaviroj, Pierre Boulanger, Harald Becher, Michelle Noga, Kumaradevan Punithakumar(参考訳) 目的: 心エコー検査は心機能評価のための非侵襲的イメージングツールとして一般的に用いられる。 しかし,左室のデライン化はスペックルノイズの存在や低信号対雑音比などの超音波画像の特徴から困難である。 方法: 経時的3次元心エコー法による左心室の描出のための半自動セグメンテーションアルゴリズムを提案する。 この方法は、ユーザインタラクションを最小にし、二相性登録アプローチに依存する。 この手法の利点は、事前の幾何学的情報、トレーニングデータ、アトラスからの登録に依存しない。 結果: カナダのエドモントンにあるマザンコフスキー・アルバータ・ハート研究所(Mazankowski Alberta Heart Institute)の18例の3次元超音波スキャンを用いて, 専門医と4例の登録アルゴリズムによる手動記述と比較した。 セグメンテーション法では, 平均絶対差1.01mm(0.21)mm, ハウスドルフ距離4.41mm(1.43)mm, Diceオーバーラップスコア0.93(0.02)が心循環で得られた。 結論: この手法は他の4つの登録アルゴリズムと比較して良好に動作した。

Purpose: Echocardiography is commonly used as a non-invasive imaging tool in clinical practice for the assessment of cardiac function. However, delineation of the left ventricle is challenging due to the inherent properties of ultrasound imaging, such as the presence of speckle noise and the low signal-to-noise ratio. Methods: We propose a semi-automated segmentation algorithm for the delineation of the left ventricle in temporal 3D echocardiography sequences. The method requires minimal user interaction and relies on a diffeomorphic registration approach. Advantages of the method include no dependence on prior geometrical information, training data, or registration from an atlas. Results: The method was evaluated using three-dimensional ultrasound scan sequences from 18 patients from the Mazankowski Alberta Heart Institute, Edmonton, Canada, and compared to manual delineations provided by an expert cardiologist and four other registration algorithms. The segmentation approach yielded the following results over the cardiac cycle: a mean absolute difference of 1.01 (0.21) mm, a Hausdorff distance of 4.41 (1.43) mm, and a Dice overlap score of 0.93 (0.02). Conclusions: The method performed well compared to the four other registration algorithms.
翻訳日:2021-09-07 12:54:19 公開日:2021-09-03
# (参考訳) アナログニューラルネットワーク推論加速器の精度について [全文訳有]

On the Accuracy of Analog Neural Network Inference Accelerators ( http://arxiv.org/abs/2109.01262v1 )

ライセンス: CC BY 4.0
T. Patrick Xiao, Ben Feinberg, Christopher H. Bennett, Venkatraman Prabhakar, Prashant Saxena, Vineet Agrawal, Sapan Agarwal, Matthew J. Marinella(参考訳) 専用アクセラレータは最近、ニューラルネットワーク推論の消費電力を減らす方法として注目を集めている。 アクセルの有望なカテゴリは、不揮発性メモリアレイを使用して重みを格納し、配列内で$\textit{in situ}$アナログ計算を実行する。 アナログ加速器の設計空間を探索し、性能とエネルギー効率を最適化する一方で、これらの加速器の精度を厳密に評価することはめったにない。 この研究は、特にニューラルネットワークパラメータをアナログメモリセルにマッピングする際のアーキテクチャ設計の決定が、推論精度にどのように影響するかを示す。 imagenet上でresnet50を用いて評価すると、セルプログラミングエラー、アナログ-デジタル変換器解像度、配列寄生抵抗などのアナログ非理想性に対するシステムのレジリエンスが向上し、ハードウェア内のアナログ量をネットワークの重みに比例させる。 さらに、先行研究の前提とは対照的に、重みを複数のデバイスにまたがる重みをビットスライシングと呼ぶのではなく、アナログ量として完全に保存することで、細胞インプレシションに対するほぼ同等の弾力性を達成することができる。 比例性を利用することで、アナログシステムの設計者は、同等のデジタルアクセラレータとして中間結果において同じレベルの精度を保証するのではなく、ハードウェアの精度をアルゴリズムのニーズに合わせる自由を得ることができる。 この結果、アナログ加速器はより正確で、アナログ誤差に対してより堅牢で、エネルギー効率が良い。

Specialized accelerators have recently garnered attention as a method to reduce the power consumption of neural network inference. A promising category of accelerators utilizes nonvolatile memory arrays to both store weights and perform $\textit{in situ}$ analog computation inside the array. While prior work has explored the design space of analog accelerators to optimize performance and energy efficiency, there is seldom a rigorous evaluation of the accuracy of these accelerators. This work shows how architectural design decisions, particularly in mapping neural network parameters to analog memory cells, influence inference accuracy. When evaluated using ResNet50 on ImageNet, the resilience of the system to analog non-idealities - cell programming errors, analog-to-digital converter resolution, and array parasitic resistances - all improve when analog quantities in the hardware are made proportional to the weights in the network. Moreover, contrary to the assumptions of prior work, nearly equivalent resilience to cell imprecision can be achieved by fully storing weights as analog quantities, rather than spreading weight bits across multiple devices, often referred to as bit slicing. By exploiting proportionality, analog system designers have the freedom to match the precision of the hardware to the needs of the algorithm, rather than attempting to guarantee the same level of precision in the intermediate results as an equivalent digital accelerator. This ultimately results in an analog accelerator that is more accurate, more robust to analog errors, and more energy-efficient.
翻訳日:2021-09-06 22:30:21 公開日:2021-09-03
# (参考訳) マルチターン対話行為検出のためのコンテキスト対応階層型BERT融合ネットワーク [全文訳有]

A Context-Aware Hierarchical BERT Fusion Network for Multi-turn Dialog Act Detection ( http://arxiv.org/abs/2109.01267v1 )

ライセンス: CC BY 4.0
Ting-Wei Wu, Ruolin Su, Biing-Hwang Juang(参考訳) 対話型ダイアログシステムの成功は、通常音声言語理解タスク(SLU)の質と関連付けられ、それぞれのターンの対応するダイアログの動作とスロット値を主に識別する。 発話を単独で処理することで、ほとんどのSLUシステムは、ダイアログの振る舞いが期待される意味的コンテキストを見落としてしまう。 ターン間のact依存性は自明ではないが、正しい意味表現の識別には不可欠である。 コンテキスト認識が限定された以前の研究は、ターン遷移中に自然に変化する多目的ユーザ意図の複雑さに対処する不適切さを露呈している。 本研究では,マルチターンダイアログにおけるSLUを強化し,コンテキスト認識型階層型BERT融合ネットワーク(CaBERT-SLU)を用いて,対話内のコンテキスト情報を識別するだけでなく,発話毎に複数のダイアログやスロットを共同で識別する手法を提案する。 実験の結果,提案手法は2つの複雑なマルチターン対話データセットにおいて新たな最先端(sota)性能に到達し,複数の意図とスロット充填のための単一発話のみを考慮した従来の手法に比べて相当な改善が得られた。

The success of interactive dialog systems is usually associated with the quality of the spoken language understanding (SLU) task, which mainly identifies the corresponding dialog acts and slot values in each turn. By treating utterances in isolation, most SLU systems often overlook the semantic context in which a dialog act is expected. The act dependency between turns is non-trivial and yet critical to the identification of the correct semantic representations. Previous works with limited context awareness have exposed the inadequacy of dealing with complexity in multiproned user intents, which are subject to spontaneous change during turn transitions. In this work, we propose to enhance SLU in multi-turn dialogs, employing a context-aware hierarchical BERT fusion Network (CaBERT-SLU) to not only discern context information within a dialog but also jointly identify multiple dialog acts and slots in each utterance. Experimental results show that our approach reaches new state-of-the-art (SOTA) performances in two complicated multi-turn dialogue datasets with considerable improvements compared with previous methods, which only consider single utterances for multiple intents and slot filling.
翻訳日:2021-09-06 21:33:09 公開日:2021-09-03
# (参考訳) 情報対称性に関する問題 : マイラル・アルテネート・プロパゲーション・ネットワークによるマイラルショット学習 [全文訳有]

Information Symmetry Matters: A Modal-Alternating Propagation Network for Few-Shot Learning ( http://arxiv.org/abs/2109.01295v1 )

ライセンス: CC BY 4.0
Zhong Ji, Zhishen Hou, Xiyao Liu, Yanwei Pang, Jungong Han(参考訳) セマンティック情報は、Few-Shot Learning (FSL)で採用されている視覚概念以外のクラス内一貫性とクラス間識別性を提供する。 しかし、意味情報はラベル付きサンプルのみに利用できるが、ラベル付きサンプルには存在せず、ラベル付きサンプルを意味論的に導いて一方的に修正する。 したがって、意味誘導されたサンプルと非意味誘導されたサンプルの間に相互に偏りをもたらすことは避けられない。 この問題を解決するために,未ラベルサンプルの欠落した意味情報を補うモダル交互伝搬ネットワーク (MAP-Net) を提案する。 具体的には、MAP-Netは、グラフ伝搬により隣接情報を転送し、完了した視覚的関係によってガイドされた未ラベルサンプルの擬似セマンティックを生成し、特徴埋め込みを補正する。 また,視覚的モダリティと意味的モダリティの相違が大きいため,意味論的手法を用いて視覚的関係ベクトルを誘導するRG(Relation Guidance)戦略を設計し,より有益な情報を提供する。 カリフォルニア工科大学UCSD-Birds 200-2011, SUN Attribute Database, およびOxford 102 Flowerの3つのセマンティックラベル付きデータセットに対する大規模な実験結果から, 提案手法が有望な性能を達成し, 情報対称性の必要性を示す最新手法よりも優れていることを示した。

Semantic information provides intra-class consistency and inter-class discriminability beyond visual concepts, which has been employed in Few-Shot Learning (FSL) to achieve further gains. However, semantic information is only available for labeled samples but absent for unlabeled samples, in which the embeddings are rectified unilaterally by guiding the few labeled samples with semantics. Therefore, it is inevitable to bring a cross-modal bias between semantic-guided samples and nonsemantic-guided samples, which results in an information asymmetry problem. To address this problem, we propose a Modal-Alternating Propagation Network (MAP-Net) to supplement the absent semantic information of unlabeled samples, which builds information symmetry among all samples in both visual and semantic modalities. Specifically, the MAP-Net transfers the neighbor information by the graph propagation to generate the pseudo-semantics for unlabeled samples guided by the completed visual relationships and rectify the feature embeddings. In addition, due to the large discrepancy between visual and semantic modalities, we design a Relation Guidance (RG) strategy to guide the visual relation vectors via semantics so that the propagated information is more beneficial. Extensive experimental results on three semantic-labeled datasets, i.e., Caltech-UCSD-Birds 200-2011, SUN Attribute Database, and Oxford 102 Flower, have demonstrated that our proposed method achieves promising performance and outperforms the state-of-the-art approaches, which indicates the necessity of information symmetry.
翻訳日:2021-09-06 21:22:00 公開日:2021-09-03
# (参考訳) 弱教師付き物体位置定位とタスク分割による自己学習型クロスドメインFew-Shot学習 [全文訳有]

Self-Taught Cross-Domain Few-Shot Learning with Weakly Supervised Object Localization and Task-Decomposition ( http://arxiv.org/abs/2109.01302v1 )

ライセンス: CC BY 4.0
Xiyao Liu, Zhong Ji, Yanwei Pang, Zhongfei Zhang(参考訳) ソースとターゲットドメイン間のドメインシフトは、CD-FSL(Cross-Domain Few-Shot Learning)の主要な課題である。 しかし、ターゲットドメインは、ソースドメインのトレーニング中に全く不明であり、結果として、ターゲットタスクへの指示が欠けている。 対象ドメインには類似した背景があるため、事前タスクとして自己ラベル付きサンプルを適用して、目標タスクに知識を伝達することができる。 そこで本研究では,タスク指向距離空間の構築による非目標誘導の問題を軽減する,自己学習(ST)アプローチと呼ばれるCD-FSLのタスク拡張分解フレームワークを提案する。 具体的には、Wakly Supervised Object Localization (WSOL) と自己監督技術を用いて、より豊富なタスクセットを生成する識別領域を交換、回転させることにより、タスク指向のサンプルを濃縮する。 その後、これらのタスクはいくつかのタスクに分解され、少数ショット認識と回転分類のタスクを終える。 ソースの知識を対象のタスクに転送し、識別領域に集中するのに役立つ。 CUB, Cars, Places, Plantae, CropDieases, EuroSAT, ISIC, ChestX の8つのドメインを含むクロスドメイン環境下で広範な実験を行った。 実験の結果,提案手法は様々な計量モデルに適用可能であることが示され,CD-FSLの改良が期待できる。

The domain shift between the source and target domain is the main challenge in Cross-Domain Few-Shot Learning (CD-FSL). However, the target domain is absolutely unknown during the training on the source domain, which results in lacking directed guidance for target tasks. We observe that since there are similar backgrounds in target domains, it can apply self-labeled samples as prior tasks to transfer knowledge onto target tasks. To this end, we propose a task-expansion-decom position framework for CD-FSL, called Self-Taught (ST) approach, which alleviates the problem of non-target guidance by constructing task-oriented metric spaces. Specifically, Weakly Supervised Object Localization (WSOL) and self-supervised technologies are employed to enrich task-oriented samples by exchanging and rotating the discriminative regions, which generates a more abundant task set. Then these tasks are decomposed into several tasks to finish the task of few-shot recognition and rotation classification. It helps to transfer the source knowledge onto the target tasks and focus on discriminative regions. We conduct extensive experiments under the cross-domain setting including 8 target domains: CUB, Cars, Places, Plantae, CropDieases, EuroSAT, ISIC, and ChestX. Experimental results demonstrate that the proposed ST approach is applicable to various metric-based models, and provides promising improvements in CD-FSL.
翻訳日:2021-09-06 21:03:14 公開日:2021-09-03
# (参考訳) j-score:クラスタリング精度のロバストな測定 [全文訳有]

J-Score: A Robust Measure of Clustering Accuracy ( http://arxiv.org/abs/2109.01306v1 )

ライセンス: CC BY-SA 4.0
Navid Ahmadinejad, Li Liu(参考訳) 背景。 クラスタ分析は、データセット内の隠れた構造を分離したクラスタに分割することで発見する。 クラスタリング結果の良否を評価するロバストな精度測定は,アルゴリズム開発とモデル診断に不可欠である。 現在のクラスタリング精度測定の一般的な問題は、不一致のクラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、そして難しい解釈である。 本研究では,これらの問題に対処する新しい精度尺度 J-score を提案する。 方法。 既知のクラスラベルを持つデータセットが与えられた場合、Jスコアはクラスタリング分析によって生成された仮説的クラスタが真のクラスをいかに回復するかを定量化する。 これは双方向の集合マッチングから始まり、ジャカード指数に基づいて真クラスと仮説クラスタの対応を識別する。 次にクラスからクラスタへの再結合を測定するjaccardインデックスの重み付き和を2つ計算し、その逆を行う。 最後のJスコアは、2つの重み付き和の調和平均である。 結果。 シミュレーション研究により,Jスコアの性能評価を行い,既存の測定値と比較した。 以上の結果から,Jスコアは未整合クラスタのみが異なるパーティション構造を識別し,クラス数の正しい推論に報いるとともに,過剰クラスタに対するバイアスに対処し,比較的安定したベースラインを持つことが示唆された。 その計算の単純さは解釈を簡単にする。 他の精度測定と相補的な貴重なツールである。 我々はアルゴリズムを実装したR/jScoreパッケージをリリースした。

Background. Clustering analysis discovers hidden structures in a data set by partitioning them into disjoint clusters. Robust accuracy measures that evaluate the goodness of clustering results are critical for algorithm development and model diagnosis. Common problems of current clustering accuracy measures include overlooking unmatched clusters, biases towards excessive clusters, unstable baselines, and difficult interpretation. In this study, we presented a novel accuracy measure, J-score, that addresses these issues. Methods. Given a data set with known class labels, J-score quantifies how well the hypothetical clusters produced by clustering analysis recover the true classes. It starts with bidirectional set matching to identify the correspondence between true classes and hypothetical clusters based on Jaccard index. It then computes two weighted sums of Jaccard indices measuring the reconciliation from classes to clusters and vice versa. The final J-score is the harmonic mean of the two weighted sums. Results. Via simulation studies, we evaluated the performance of J-score and compared with existing measures. Our results show that J-score is effective in distinguishing partition structures that differ only by unmatched clusters, rewarding correct inference of class numbers, addressing biases towards excessive clusters, and having a relatively stable baseline. The simplicity of its calculation makes the interpretation straightforward. It is a valuable tool complementary to other accuracy measures. We released an R/jScore package implementing the algorithm.
翻訳日:2021-09-06 20:44:01 公開日:2021-09-03
# (参考訳) 意味セグメンテーションモデルのための特徴マップの空間不変置換を用いたアクセス制御 [全文訳有]

Access Control Using Spatially Invariant Permutation of Feature Maps for Semantic Segmentation Models ( http://arxiv.org/abs/2109.01332v1 )

ライセンス: CC BY 4.0
Hiroki Ito, MaungMaung AprilPyone, Hitoshi Kiya(参考訳) 本稿では,セマンティックセグメンテーションモデルを保護する秘密鍵を用いた特徴写像の空間不変な置換を用いたアクセス制御手法を提案する。 セグメンテーションモデルは、秘密鍵で選択された特徴マップを置換することによって訓練され、テストされる。 提案手法により,適切なキーを持つユーザに対して,モデルにフルキャパシティにアクセスできるだけでなく,不正なユーザに対して性能を低下させることができる。 従来のアクセス制御手法は画像分類タスクのみに焦点を当てており、これらの方法は意味セグメンテーションタスクには適用されていない。 実験では、保護されたモデルにより、適切なユーザーが保護されていないモデルとほぼ同じ性能を得られるだけでなく、キーのない不正なユーザーによるアクセスに対して堅牢であることを示した。 また,従来のブロックワイズ変換法では,セマンティクスセグメンテーションモデルでは性能が低下することが確認された。

In this paper, we propose an access control method that uses the spatially invariant permutation of feature maps with a secret key for protecting semantic segmentation models. Segmentation models are trained and tested by permuting selected feature maps with a secret key. The proposed method allows rightful users with the correct key not only to access a model to full capacity but also to degrade the performance for unauthorized users. Conventional access control methods have focused only on image classification tasks, and these methods have never been applied to semantic segmentation tasks. In an experiment, the protected models were demonstrated to allow rightful users to obtain almost the same performance as that of non-protected models but also to be robust against access by unauthorized users without a key. In addition, a conventional method with block-wise transformations was also verified to have degraded performance under semantic segmentation models.
翻訳日:2021-09-06 20:38:47 公開日:2021-09-03
# (参考訳) エッジ機能付きグラフニューラルアーキテクチャ検索 [全文訳有]

Edge-featured Graph Neural Architecture Search ( http://arxiv.org/abs/2109.01356v1 )

ライセンス: CC BY-SA 4.0
Shaofei Cai, Liang Li, Xinzhe Han, Zheng-jun Zha, Qingming Huang(参考訳) グラフニューラルネットワーク(GNN)は、多くのリレーショナルタスクにおけるグラフ表現の学習に成功している。 近年,人間の専門知識の依存度を下げ,より優れたGNNアーキテクチャを探求するために,ニューラルアーキテクチャサーチ(NAS)を研究している。 この問題を解決するために、エッジ機能をグラフ検索空間に組み込み、エッジ機能付きグラフニューラルネットワークサーチを提案し、最適GNNアーキテクチャを求める。 具体的には、より汎用的なメッセージパッシングメカニズムを提供する高階表現を学ぶために、リッチエンティティとエッジ更新操作を設計する。 さらに、検索空間におけるアーキテクチャトポロジーは、エンティティとエッジの両方の複雑な特徴依存性を探索することができ、微分可能な検索戦略によって効率的に最適化することができる。 6つのデータセット上の3つのグラフタスクの実験は、EGNASが現在の最先端の人間設計および検索ベースGNNよりも高いパフォーマンスで、より優れたGNNを検索できることを示している。

Graph neural networks (GNNs) have been successfully applied to learning representation on graphs in many relational tasks. Recently, researchers study neural architecture search (NAS) to reduce the dependence of human expertise and explore better GNN architectures, but they over-emphasize entity features and ignore latent relation information concealed in the edges. To solve this problem, we incorporate edge features into graph search space and propose Edge-featured Graph Neural Architecture Search to find the optimal GNN architecture. Specifically, we design rich entity and edge updating operations to learn high-order representations, which convey more generic message passing mechanisms. Moreover, the architecture topology in our search space allows to explore complex feature dependence of both entities and edges, which can be efficiently optimized by differentiable search strategy. Experiments at three graph tasks on six datasets show EGNAS can search better GNNs with higher performance than current state-of-the-art human-designed and searched-based GNNs.
翻訳日:2021-09-06 20:27:06 公開日:2021-09-03
# (参考訳) 空間的識別的特徴表現の学習に向けて [全文訳有]

Towards Learning Spatially Discriminative Feature Representations ( http://arxiv.org/abs/2109.01359v1 )

ライセンス: CC BY 4.0
Chaofei Wang, Jiayu Xiao, Yizeng Han, Qisen Yang, Shiji Song, Gao Huang(参考訳) 従来のCNN分類器のバックボーンは、一般的に特徴抽出器とみなされ、次に分類を行う線形層が続く。 本研究では,特定のカテゴリに対する画像の空間的識別領域を示すクラスアクティベーションマップ(cams)を用いて,組込み特徴マップを制約する新しい損失関数cam-lossを提案する。 CAM-lossは、ターゲットカテゴリの特徴を表現するためにバックボーンを駆動し、非ターゲットカテゴリやバックグラウンドの特徴を抑圧し、より差別的な特徴表現を得る。 これは、無視可能な追加パラメータと計算を伴う任意のCNNアーキテクチャで簡単に適用できる。 実験の結果, CAM-lossは様々なネットワーク構造に適用可能であり, 画像分類の性能向上のために, 主流の正規化手法と組み合わせることができることがわかった。 cam-lossの強力な一般化能力は、転送学習とショット学習タスクで検証される。 CAM-lossに基づく新しいCAAM-CAMマッチング知識蒸留法を提案する。 本手法は,教師ネットワークが生成するcamを用いて学生ネットワークが生成するcaamを直接監視し,学生ネットワークの精度と収束率を効果的に向上する。

The backbone of traditional CNN classifier is generally considered as a feature extractor, followed by a linear layer which performs the classification. We propose a novel loss function, termed as CAM-loss, to constrain the embedded feature maps with the class activation maps (CAMs) which indicate the spatially discriminative regions of an image for particular categories. CAM-loss drives the backbone to express the features of target category and suppress the features of non-target categories or background, so as to obtain more discriminative feature representations. It can be simply applied in any CNN architecture with neglectable additional parameters and calculations. Experimental results show that CAM-loss is applicable to a variety of network structures and can be combined with mainstream regularization methods to improve the performance of image classification. The strong generalization ability of CAM-loss is validated in the transfer learning and few shot learning tasks. Based on CAM-loss, we also propose a novel CAAM-CAM matching knowledge distillation method. This method directly uses the CAM generated by the teacher network to supervise the CAAM generated by the student network, which effectively improves the accuracy and convergence rate of the student network.
翻訳日:2021-09-06 20:10:24 公開日:2021-09-03
# (参考訳) 教師なしアンサンブル学習による乱流流体力学シミュレーションのセグメント化 [全文訳有]

Segmentation of turbulent computational fluid dynamics simulations with unsupervised ensemble learning ( http://arxiv.org/abs/2109.01381v1 )

ライセンス: CC BY 4.0
Maarja Bussov and Joonas N\"attil\"a(参考訳) コンピュータビジョンと機械学習ツールは、複雑なコンピュータシミュレーションから情報を自動的に分析し分類するエキサイティングな新しい方法を提供する。 そこで我々は,乱流パターンのシミュレーションデータ出力内容を独立に,かつ頑健に分類し,異なる構造カタログに分解できるアンサンブル機械学習フレームワークを設計する。 このセグメンテーションは、シミュレーション画像中の類似画素をグループ化して物理構造をセグメンテーションする教師なしクラスタリングアルゴリズムを用いて行われる。 複数のクラスタリング操作からの情報を組み合わせることにより、結果として生じるセグメント領域境界の精度とロバスト性が向上する。 オブジェクトセグメンテーション評価の積み重ねは、画像マスクの組み合わせ操作を用いて行われる。 異なるクラスタマスクの統計的組み合わせによるアンサンブル(SCE)により、各ピクセルと関連するセグメントに対して、事前のユーザ入力なしでクラスタ信頼性メトリクスを構築することができる。 アンサンブルにおける異なるクラスタ発生の類似性を比較することで、データを記述するのに必要なクラスタの最適な数を評価できる。 さらに、SCE法は、アンサンブル平均空間セグメント領域の境界を頼りにすることにより、異なる画像データクラスタに対するより正確でロバストな関心領域境界(ROI)の再構築を可能にする。 sce法を2次元シミュレーションデータスナップショットに適用し,電流シートと呼ばれる間欠流構造の幾何学的測定に正確なroi境界が必要となる,磁気的に支配された全動乱流プラズマの流れを解析した。

Computer vision and machine learning tools offer an exciting new way for automatically analyzing and categorizing information from complex computer simulations. Here we design an ensemble machine learning framework that can independently and robustly categorize and dissect simulation data output contents of turbulent flow patterns into distinct structure catalogues. The segmentation is performed using an unsupervised clustering algorithm, which segments physical structures by grouping together similar pixels in simulation images. The accuracy and robustness of the resulting segment region boundaries are enhanced by combining information from multiple simultaneously-evalu ated clustering operations. The stacking of object segmentation evaluations is performed using image mask combination operations. This statistically-combin ed ensemble (SCE) of different cluster masks allows us to construct cluster reliability metrics for each pixel and for the associated segments without any prior user input. By comparing the similarity of different cluster occurrences in the ensemble, we can also assess the optimal number of clusters needed to describe the data. Furthermore, by relying on ensemble-averaged spatial segment region boundaries, the SCE method enables reconstruction of more accurate and robust region of interest (ROI) boundaries for the different image data clusters. We apply the SCE algorithm to 2-dimensional simulation data snapshots of magnetically-dominat ed fully-kinetic turbulent plasma flows where accurate ROI boundaries are needed for geometrical measurements of intermittent flow structures known as current sheets.
翻訳日:2021-09-06 19:54:39 公開日:2021-09-03
# (参考訳) CX-ToM:画像認識モデルにおける人間信頼の促進のための人間理論による事実説明 [全文訳有]

CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing Human Trust in Image Recognition Models ( http://arxiv.org/abs/2109.01401v1 )

ライセンス: CC BY 4.0
Arjun R. Akula, Keze Wang, Changsong Liu, Sari Saba-Sadiya, Hongjing Lu, Sinisa Todorovic, Joyce Chai, and Song-Chun Zhu(参考訳) 我々は,CX-ToMを提案する。CX-ToMは,深層畳み込みニューラルネットワーク(CNN)による決定を記述するための,新たな説明可能なAI(XAI)フレームワークである。 単発応答として説明を生成するXAIの現在の手法とは対照的に,我々は反復的な通信プロセスとして説明を行う。 ダイアログ マシンと人間のユーザーの間で より具体的には、我々のCX-ToMフレームワークは、機械と人間の心の相違を媒介し、ダイアログ中の一連の説明を生成する。 そのために、人間の意図、機械が推論する機械の心、そして機械によって推論される人間の心を明示的にモデル化するのに役立つ、心の理論(tom)を使用します。 さらに、最先端のXAIフレームワークの多くは注意(ヒートマップ)に基づく説明を提供している。 本研究では,これらの注意に基づく説明がCNNモデルに対する人間の信頼を高めるには不十分であることを示す。 cx-tomでは、cnn分類モデルmがクラスc_predを予測する入力画像iが与えられると、説明可能な概念として説明可能な最小の意味レベルの特徴(例えばゼブラのストライプ、犬の尖った耳)が識別され、i から m の分類カテゴリを別の特定のクラス c_alt に変更するために、i から追加または削除される必要がある。 我々は,CX-ToMの説明の反復的,概念的,反実的な性質から,複雑なディープラーニングモデルの内部動作を理解するために,専門家と非専門家の双方にとって,我々のフレームワークは実用的かつ自然なものである,と論じる。 広範な定量的・定性的な実験によって仮説が検証され、cx-tomが最先端のaiモデルを大きく上回っていることが証明された。

We propose CX-ToM, short for counterfactual explanations with theory-of mind, a new explainable AI (XAI) framework for explaining decisions made by a deep convolutional neural network (CNN). In contrast to the current methods in XAI that generate explanations as a single shot response, we pose explanation as an iterative communication process, i.e. dialog, between the machine and human user. More concretely, our CX-ToM framework generates sequence of explanations in a dialog by mediating the differences between the minds of machine and human user. To do this, we use Theory of Mind (ToM) which helps us in explicitly modeling human's intention, machine's mind as inferred by the human as well as human's mind as inferred by the machine. Moreover, most state-of-the-art XAI frameworks provide attention (or heat map) based explanations. In our work, we show that these attention based explanations are not sufficient for increasing human trust in the underlying CNN model. In CX-ToM, we instead use counterfactual explanations called fault-lines which we define as follows: given an input image I for which a CNN classification model M predicts class c_pred, a fault-line identifies the minimal semantic-level features (e.g., stripes on zebra, pointed ears of dog), referred to as explainable concepts, that need to be added to or deleted from I in order to alter the classification category of I by M to another specified class c_alt. We argue that, due to the iterative, conceptual and counterfactual nature of CX-ToM explanations, our framework is practical and more natural for both expert and non-expert users to understand the internal workings of complex deep learning models. Extensive quantitative and qualitative experiments verify our hypotheses, demonstrating that our CX-ToM significantly outperforms the state-of-the-art explainable AI models.
翻訳日:2021-09-06 19:34:29 公開日:2021-09-03
# (参考訳) 畳み込みニューラルネットワークの組合わせによる足の潰瘍自動セグメンテーション [全文訳有]

Automatic Foot Ulcer segmentation Using an Ensemble of Convolutional Neural Networks ( http://arxiv.org/abs/2109.01408v1 )

ライセンス: CC BY 4.0
Amirreza Mahbod, Rupert Ecker, Isabella Ellinger(参考訳) 脚潰瘍は糖尿病の一般的な合併症であり、かなりの死亡率と死亡率に結びついており、下肢切断の危険因子である。 足の創部から正確な形態的特徴を抽出することは適切な治療に不可欠である。 医療従事者による視覚的・手作業による検査は特徴抽出に一般的な手法であるが,本手法は主観的かつ誤りやすい。 コンピュータによるアプローチは、病変を分断し、関連する形態的特徴を抽出する代替方法である。 画像セグメンテーションや深層学習に基づく手法、より具体的には畳み込みニューラルネットワーク(CNN)などのコンピュータベースアプローチでは、医用画像セグメンテーションを含む様々な画像セグメンテーションタスクにおいて優れた性能を示している。 本研究では,2つのエンコーダデコーダに基づくCNNモデル,すなわちLinkNetとUNetに基づくアンサンブルアプローチを提案し,足部潰瘍のセグメンテーションを行った。 限られたトレーニングサンプルを扱うために、トレーニング済み重量(LinkNetモデルではEfficientNetB1、UNetモデルではEfficientNetB2)を使用し、さらにMedetecデータセットによる事前トレーニングを行った。 また,モデル学習に形態的および色彩的拡張技術を適用した。 提案手法では, 5倍のクロスバリデーション, テスト時間拡張, 結果融合を統合し, セグメンテーション性能の向上を図る。 足部潰瘍分節データセットとMICCAI 2021 Foot Ulcer Segmentation (FUSeg) Challengeを併用し,Diceスコアを92.07%,88.80%とした。 提案手法はFUSegチャレンジリーダーボードにおいて第1位を獲得した。 Dockerized Guideline、推論コード、保存されたトレーニングされたモデルは、公開されたGitHubリポジトリで公開されている。

Foot ulcer is a common complication of diabetes mellitus; it is associated with substantial morbidity and mortality and remains a major risk factor for lower leg amputation. Extracting accurate morphological features from the foot wounds is crucial for proper treatment. Although visual and manual inspection by medical professionals is the common approach to extract the features, this method is subjective and error-prone. Computer-mediated approaches are the alternative solutions to segment the lesions and extract related morphological features. Among various proposed computer-based approaches for image segmentation, deep learning-based methods and more specifically convolutional neural networks (CNN) have shown excellent performances for various image segmentation tasks including medical image segmentation. In this work, we proposed an ensemble approach based on two encoder-decoder-base d CNN models, namely LinkNet and UNet, to perform foot ulcer segmentation. To deal with limited training samples, we used pre-trained weights (EfficientNetB1 for the LinkNet model and EfficientNetB2 for the UNet model) and further pre-training by the Medetec dataset. We also applied a number of morphological-based and colour-based augmentation techniques to train the models. We integrated five-fold cross-validation, test time augmentation and result fusion in our proposed ensemble approach to boost the segmentation performance. Applied on a publicly available foot ulcer segmentation dataset and the MICCAI 2021 Foot Ulcer Segmentation (FUSeg) Challenge, our method achieved state-of-the-art data-based Dice scores of 92.07% and 88.80%, respectively. Our developed method achieved the first rank in the FUSeg challenge leaderboard. The Dockerised guideline, inference codes and saved trained models are publicly available in the published GitHub repository: https://github.com/m asih4/Foot_Ulcer_Seg mentation
翻訳日:2021-09-06 18:51:10 公開日:2021-09-03
# (参考訳) 製品データマイニングにおけるリンクデータのWeb活用に関する探索的研究

An Exploratory Study on Utilising the Web of Linked Data for Product Data Mining ( http://arxiv.org/abs/2109.01411v1 )

ライセンス: CC BY 4.0
Ziqi Zhang, Xingyi Song(参考訳) Linked Open Dataのプラクティスは、過去10年でWeb上の構造化データの著しい増加につながりました。 このような構造化データは、実世界の実体を機械可読な方法で記述し、自然言語処理の分野で研究する前例のない機会を生み出した。 しかし、そのようなデータがどのように使われるか、どんな種類のタスクに使えるのか、どの程度これらのタスクに役に立つのか、といった研究が不足しています。 本研究は,eコマースの領域に着目し,そのような構造化データを活用して,製品分類やリンクに使用可能な言語リソースを作成する方法を検討する。 私たちは何十億もの構造化データポイントをrdf n-quad形式で処理し、製品関連コーパスの数百万の単語を作成し、後に言語リソースの作成に3つの異なる方法で使用される: 単語埋め込みモデルのトレーニング、bertライクな言語モデルの継続的な事前トレーニング、製品関連キーワードを生成するためのプロキシとして使用される機械翻訳モデルのトレーニング。 評価の結果,単語の埋め込みは2つのタスクの精度を最大6.9ポイント向上させる最も信頼性が高く一貫した手法であることが判明した(一部のデータセットではマクロ平均F1の6.9ポイント)。 しかし、他の2つの方法は役に立たない。 我々の分析によると、これは構造化データにおける偏りのあるドメイン表現や語彙カバレッジの欠如など、いくつかの理由による可能性がある。 私たちはデータセットを共有し、この方向の今後の研究にどのように役立つかについて議論します。

The Linked Open Data practice has led to a significant growth of structured data on the Web in the last decade. Such structured data describe real-world entities in a machine-readable way, and have created an unprecedented opportunity for research in the field of Natural Language Processing. However, there is a lack of studies on how such data can be used, for what kind of tasks, and to what extent they can be useful for these tasks. This work focuses on the e-commerce domain to explore methods of utilising such structured data to create language resources that may be used for product classification and linking. We process billions of structured data points in the form of RDF n-quads, to create multi-million words of product-related corpora that are later used in three different ways for creating of language resources: training word embedding models, continued pre-training of BERT-like language models, and training Machine Translation models that are used as a proxy to generate product-related keywords. Our evaluation on an extensive set of benchmarks shows word embeddings to be the most reliable and consistent method to improve the accuracy on both tasks (with up to 6.9 percentage points in macro-average F1 on some datasets). The other two methods however, are not as useful. Our analysis shows that this could be due to a number of reasons, including the biased domain representation in the structured data and lack of vocabulary coverage. We share our datasets and discuss how our lessons learned could be taken forward to inform future research in this direction.
翻訳日:2021-09-06 18:39:21 公開日:2021-09-03
# (参考訳) 大規模かつスパースな遺伝子オントロジーデータセットを用いたマルチラベル階層型クロスバリデーションの新手法 [全文訳有]

A New Approach to Multilabel Stratified Cross Validation with Application to Large and Sparse Gene Ontology Datasets ( http://arxiv.org/abs/2109.01425v1 )

ライセンス: CC BY 4.0
Henri Tiittanen, Liisa Holm and Petri T\"or\"onen(参考訳) マルチラベル学習は機械学習研究において重要なトピックである。 マルチラベル設定でモデルを評価するには、特定のクロスバリデーション手法が必要である。 本稿では,文献で広く用いられている評価尺度の弱点を示し,その改良版と,クロス検証分割を最適化するための一般的な手法であるオピスプリットを提案する。 我々は、optisplitが既存の手法よりも優れたクロス検証分割を生成し、big gene ontology(go)データセットで使用するのに十分であることを示す、様々なタイプのクロス検証手法を広範囲に比較した。

Multilabel learning is an important topic in machine learning research. Evaluating models in multilabel settings requires specific cross validation methods designed for multilabel data. In this article, we show a weakness in an evaluation metric widely used in literature and we present improved versions of this metric and a general method, optisplit, for optimising cross validations splits. We present an extensive comparison of various types of cross validation methods in which we show that optisplit produces better cross validation splits than the existing methods and that it is fast enough to be used on big Gene Ontology (GO) datasets
翻訳日:2021-09-06 18:37:49 公開日:2021-09-03
# (参考訳) データ生成プロセスにおける部分依存プロットと置換特徴の重要性 [全文訳有]

Relating the Partial Dependence Plot and Permutation Feature Importance to the Data Generating Process ( http://arxiv.org/abs/2109.01433v1 )

ライセンス: CC BY 4.0
Christoph Molnar, Timo Freiesleben, Gunnar K\"onig, Giuseppe Casalicchio, Marvin N. Wright, Bernd Bischl(参考訳) 科学者や実践者は、データをモデル化し結論を導き出すために、ますます機械学習に頼っている。 統計モデリングのアプローチと比較して、機械学習はリニアリティのようなデータ構造に関する明確な仮定を少なくする。 しかし、それらのモデルパラメータは通常、データ生成プロセスと簡単には関連しない。 モデル化された関係について学ぶために、部分依存(PD)プロットと置換特徴重要度(PFI)が解釈法としてしばしば用いられる。 しかし、PDとPFIはそれらをデータ生成プロセスと関連づける理論を欠いている。 我々はPDとPFIをデータ生成過程に根ざした基底真理推定の統計的推定として定式化する。 PDとPFIは,統計バイアス,モデル分散,モンテカルロ近似誤差により,この基礎的真理から逸脱することを示す。 PDとPFIの推定におけるモデル分散を考慮し、モデル修正に基づく学習者-PDと学習者-PFIを提案し、修正された分散と信頼区間推定器を提案する。

Scientists and practitioners increasingly rely on machine learning to model data and draw conclusions. Compared to statistical modeling approaches, machine learning makes fewer explicit assumptions about data structures, such as linearity. However, their model parameters usually cannot be easily related to the data generating process. To learn about the modeled relationships, partial dependence (PD) plots and permutation feature importance (PFI) are often used as interpretation methods. However, PD and PFI lack a theory that relates them to the data generating process. We formalize PD and PFI as statistical estimators of ground truth estimands rooted in the data generating process. We show that PD and PFI estimates deviate from this ground truth due to statistical biases, model variance and Monte Carlo approximation errors. To account for model variance in PD and PFI estimation, we propose the learner-PD and the learner-PFI based on model refits, and propose corrected variance and confidence interval estimators.
翻訳日:2021-09-06 18:30:11 公開日:2021-09-03
# (参考訳) 機械学習は交通工学の最適化に役立つか? [全文訳有]

Is Machine Learning Ready for Traffic Engineering Optimization? ( http://arxiv.org/abs/2109.01445v1 )

ライセンス: CC BY 4.0
Guillermo Bern\'ardez, Jos\'e Su\'arez-Varela, Albert L\'opez, Bo Wu, Shihan Xiao, Xiangle Cheng, Pere Barlet-Ros, Albert Cabellos-Aparicio(参考訳) 交通工学(TE)は、インターネットの基本的な構成要素である。 本稿では,最新の機械学習(ML)手法がTE最適化に使えるかどうかを分析する。 本稿では,MLの最先端技術とTEの最先端技術の比較分析を通じて,この問題に対処する。 そこで我々は,MLの最新の進歩を生かしたTEのための新しい分散システムを提案する。 本稿では,MARL(Multi-Agent Reinforcement Learning)とGNN(Graph Neural Networks)を組み合わせて,ネットワーク混雑を最小限に抑えるアーキテクチャを提案する。 本評価では,MARL+GNNシステムと,TEにおける技術状況を表す制約プログラミングに基づくネットワークオプティマイザDEFOを比較した。 提案するmarl+gnnソリューションは3つの実世界のネットワークトポロジを含む多種多様なネットワークシナリオにおいてdefoと同等の性能を実現する。 同時に、MARL+GNNは実行時間(DEFOで数分のスケールからソリューションで数秒まで)を大幅に短縮できることを示す。

Traffic Engineering (TE) is a basic building block of the Internet. In this paper, we analyze whether modern Machine Learning (ML) methods are ready to be used for TE optimization. We address this open question through a comparative analysis between the state of the art in ML and the state of the art in TE. To this end, we first present a novel distributed system for TE that leverages the latest advancements in ML. Our system implements a novel architecture that combines Multi-Agent Reinforcement Learning (MARL) and Graph Neural Networks (GNN) to minimize network congestion. In our evaluation, we compare our MARL+GNN system with DEFO, a network optimizer based on Constraint Programming that represents the state of the art in TE. Our experimental results show that the proposed MARL+GNN solution achieves equivalent performance to DEFO in a wide variety of network scenarios including three real-world network topologies. At the same time, we show that MARL+GNN can achieve significant reductions in execution time (from the scale of minutes with DEFO to a few seconds with our solution).
翻訳日:2021-09-06 18:02:14 公開日:2021-09-03
# (参考訳) 予測深部ニューラルネットワークのトレーニングにおけるGPUの不確実性の影響 [全文訳有]

Impact of GPU uncertainty on the training of predictive deep neural networks ( http://arxiv.org/abs/2109.01451v1 )

ライセンス: CC BY-SA 4.0
Maciej Pietrowski, Andrzej Gajda, Takuto Yamamoto, Taisuke Kobayashi, Lana Sinapayen, Eiji Watanabe(参考訳) ディープニューラルネットワークは、ハードウェアやソフトウェアによるノイズやランダムネスといった不確実性を示すことが多い。 このような不確実性が学習結果に与える影響を,特にグラフィックス処理ユニット(GPU)の機能に着目して検討し,GPUによる深層ニューラルネットワークの学習精度の向上が認められた。 GPUを使わずにCPUのみを使用して予測的なディープニューラルネットワークをトレーニングする場合、学習誤差はGPUを使用して同じ数のエポックをトレーニングする場合よりも高く、GPUが単に計算速度を上げることよりも学習プロセスにおいて異なる役割を果たすことを示唆している。 この効果は単純なオートエンコーダでは観測できないため、特定の種類のニューラルネットワークに特有の現象である可能性がある。 GPU固有の計算処理はCPUよりも不確定であり、ハードウェア由来の不確実性は、しばしば排除すべき障害とみなされるが、場合によっては、ディープニューラルネットワークのトレーニングにうまく組み込むことができる。 さらに、そのような不確実性は、大量の不確実な信号を含む脳関連計算処理において考慮すべき興味深い現象であるかもしれない。

Deep neural networks often present uncertainties such as hardware- and software-derived noise and randomness. We studied the effects of such uncertainty on learning outcomes, with a particular focus on the function of graphics processing units (GPUs), and found that GPU-induced uncertainty increased learning accuracy of a certain deep neural network. When training a predictive deep neural network using only the CPU without the GPU, the learning error is higher than when training the same number of epochs using the GPU, suggesting that the GPU plays a different role in the learning process than just increasing the computational speed. Because this effect cannot be observed in learning by a simple autoencoder, it could be a phenomenon specific to certain types of neural networks. GPU-specific computational processing is more indeterminate than that by CPUs, and hardware-derived uncertainties, which are often considered obstacles that need to be eliminated, might, in some cases, be successfully incorporated into the training of deep neural networks. Moreover, such uncertainties might be interesting phenomena to consider in brain-related computational processing, which comprises a large mass of uncertain signals.
翻訳日:2021-09-06 17:37:34 公開日:2021-09-03
# (参考訳) 時間依存部分微分方程式に対する半特異ニューラルネットワーク [全文訳有]

Semi-Implicit Neural Solver for Time-dependent Partial Differential Equations ( http://arxiv.org/abs/2109.01467v1 )

ライセンス: CC BY 4.0
Suprosanna Shit, Ivan Ezhov, Leon M\"achler, Abinav R., Jana Lipkova, Johannes C. Paetzold, Florian Kofler, Marie Piraud, Bjoern H. Menze(参考訳) 時間依存偏微分方程式(PDE)の高速かつ正確な解は、物理学、工学、生物学を含む多くの研究分野において重要な関心事である。 一般に、安定性と正確性を改善するために、暗黙的/半単純化スキームが明示的なスキームよりも好ましい。 しかし、既存の半単純法は通常反復的であり、特定の PDE のクラスに準最適であるような汎用解法を用いる。 本稿では,任意の種類のPDEに対して,データ駆動方式で最適な反復スキームを学習するニューラルネットワークを提案する。 具体的には,ディープニューラルネットワークを用いて,半単純解法を1回の反復で修正する。 従来の反復解法に類似したニューラルソルバの正当性と収束性に関する理論的保証を提供する。 一般的に用いられるディリクレ境界条件に加えて、拡散領域アプローチを採用して、例えばノイマンのような様々な種類の境界条件を組み込む。 提案したニューラルソルバは線形PDEを超えることができ、非線形成分が非剛性である非線形PDEのクラスに適用可能であることを示す。 提案手法の有効性を2次元および3次元のシナリオで示す。 この目的のために,本モデルが学習と異なるパラメータ設定にどのように一般化するかを示し,半単純スキームよりも高速な収束を実現する。

Fast and accurate solutions of time-dependent partial differential equations (PDEs) are of pivotal interest to many research fields, including physics, engineering, and biology. Generally, implicit/semi-implic it schemes are preferred over explicit ones to improve stability and correctness. However, existing semi-implicit methods are usually iterative and employ a general-purpose solver, which may be sub-optimal for a specific class of PDEs. In this paper, we propose a neural solver to learn an optimal iterative scheme in a data-driven fashion for any class of PDEs. Specifically, we modify a single iteration of a semi-implicit solver using a deep neural network. We provide theoretical guarantees for the correctness and convergence of neural solvers analogous to conventional iterative solvers. In addition to the commonly used Dirichlet boundary condition, we adopt a diffuse domain approach to incorporate a diverse type of boundary conditions, e.g., Neumann. We show that the proposed neural solver can go beyond linear PDEs and applies to a class of non-linear PDEs, where the non-linear component is non-stiff. We demonstrate the efficacy of our method on 2D and 3D scenarios. To this end, we show how our model generalizes to parameter settings, which are different from training; and achieves faster convergence than semi-implicit schemes.
翻訳日:2021-09-06 17:28:16 公開日:2021-09-03
# (参考訳) 上級誘導パラフレーズ生成のためのコントラスト表現学習 [全文訳有]

Contrastive Representation Learning for Exemplar-Guided Paraphrase Generation ( http://arxiv.org/abs/2109.01484v1 )

ライセンス: CC BY 4.0
Haoran Yang, Wai Lam and Piji Li(参考訳) Exemplar-Guided Paraphrase Generation (EGPG) は、原文の内容情報をカプセル化しながら、与えられた原文のスタイルに適合するターゲット文を生成することを目的としている。 本稿では,スタイルとコンテンツの表現性を向上させることを目的とした新しい手法を提案する。 この手法は主に、教師なし特徴抽出タスクにおけるその能力を示すコントラスト学習の最近の成功に動機づけられている。 この考え方は、トレーニング中の2つの問題特性を考慮して、内容とスタイルに関する2つの対照的な損失を設計することである。 1つの特徴は、対象文が原文と同一内容を共有し、もう1つの特徴は、対象文が類似したスタイルを共有することである。 これら2つの対照的な損失は、一般的なエンコーダ・デコーダパラダイムに組み込まれている。 QQP-PosとParaNMTの2つのデータセットによる実験により,提案手法の有効性が示された。

Exemplar-Guided Paraphrase Generation (EGPG) aims to generate a target sentence which conforms to the style of the given exemplar while encapsulating the content information of the source sentence. In this paper, we propose a new method with the goal of learning a better representation of the style andthe content. This method is mainly motivated by the recent success of contrastive learning which has demonstrated its power in unsupervised feature extraction tasks. The idea is to design two contrastive losses with respect to the content and the style by considering two problem characteristics during training. One characteristic is that the target sentence shares the same content with the source sentence, and the second characteristic is that the target sentence shares the same style with the exemplar. These two contrastive losses are incorporated into the general encoder-decoder paradigm. Experiments on two datasets, namely QQP-Pos and ParaNMT, demonstrate the effectiveness of our proposed constrastive losses.
翻訳日:2021-09-06 17:10:41 公開日:2021-09-03
# (参考訳) 無人走行車による安全対応運動予測

Safety-aware Motion Prediction with Unseen Vehicles for Autonomous Driving ( http://arxiv.org/abs/2109.01510v1 )

ライセンス: CC BY-SA 4.0
Xuanchi Ren, Tao Yang, Li Erran Li, Alexandre Alahi, Qifeng Chen(参考訳) 車両の動作予測は極めて重要であるが、複雑な環境における不確実性や、閉塞による視認性の制限、センサー範囲の制限などにより困難である。 本稿では,自律運転用無人車を用いた安全対応動作予測の新しい課題について検討する。 既存の車両の軌道予測タスクとは違って,各位置を視認できない車両で占有できる最も早い時刻を示す占有率マップの予測が目的である。 未発見の車両を予測できる能力は、自動運転の安全性に欠かせない。 この課題に対処するために,3つの新たな損失関数を持つ安全性を考慮した深層学習モデルを提案する。 大規模自動運転nuscenesデータセットにおける実験により,提案モデルが安全認識運動予測タスクの最先端ベースラインを著しく上回っていることが示された。 私たちの知る限りでは、私たちのアプローチは、ほとんどのケースで目に見えない車両の存在を予測できる最初の方法です。 Project page at {\url{https://github.com/x renaa/Safety-Aware-M otion-Prediction}}

Motion prediction of vehicles is critical but challenging due to the uncertainties in complex environments and the limited visibility caused by occlusions and limited sensor ranges. In this paper, we study a new task, safety-aware motion prediction with unseen vehicles for autonomous driving. Unlike the existing trajectory prediction task for seen vehicles, we aim at predicting an occupancy map that indicates the earliest time when each location can be occupied by either seen and unseen vehicles. The ability to predict unseen vehicles is critical for safety in autonomous driving. To tackle this challenging task, we propose a safety-aware deep learning model with three new loss functions to predict the earliest occupancy map. Experiments on the large-scale autonomous driving nuScenes dataset show that our proposed model significantly outperforms the state-of-the-art baselines on the safety-aware motion prediction task. To the best of our knowledge, our approach is the first one that can predict the existence of unseen vehicles in most cases. Project page at {\url{https://github.com/x renaa/Safety-Aware-M otion-Prediction}}.
翻訳日:2021-09-06 16:58:59 公開日:2021-09-03
# (参考訳) 微調整変換器によるバイオメディカルデータ・テキスト生成 [全文訳有]

Biomedical Data-to-Text Generation via Fine-Tuning Transformers ( http://arxiv.org/abs/2109.01518v1 )

ライセンス: CC BY 4.0
Ruslan Yermakov, Nicholas Drago, Angelo Ziletti(参考訳) バイオメディカル領域におけるデータ・ツー・テキスト(d2t)生成は有望な研究分野である。 ここでは,ヨーロッパ医学のパッケージリーフレットからなる実世界のデータセットに,d2t生成のためのニューラルモデルを適用する。 我々は、微調整トランスフォーマーがバイオメディカル領域のデータから現実的な多文テキストを生成することができるが、重要な制限があることを示した。 また、バイオメディカルドメインでD2T生成モデルをベンチマークするための新しいデータセット(BioLeaflets)もリリースしています。

Data-to-text (D2T) generation in the biomedical domain is a promising - yet mostly unexplored - field of research. Here, we apply neural models for D2T generation to a real-world dataset consisting of package leaflets of European medicines. We show that fine-tuned transformers are able to generate realistic, multisentence text from data in the biomedical domain, yet have important limitations. We also release a new dataset (BioLeaflets) for benchmarking D2T generation models in the biomedical domain.
翻訳日:2021-09-06 16:58:04 公開日:2021-09-03
# (参考訳) LightAutoML: 大規模な金融サービスエコシステムのためのAutoMLソリューション [全文訳有]

LightAutoML: AutoML Solution for a Large Financial Services Ecosystem ( http://arxiv.org/abs/2109.01528v1 )

ライセンス: CC BY 4.0
Anton Vakhrushev, Alexander Ryzhkov, Maxim Savchenko, Dmitry Simakov, Rinchin Damdinov, Alexander Tuzhilin(参考訳) 我々は、ヨーロッパの大手金融サービス企業のために開発されたLightAutoMLシステムとそのエコシステムについて、このエコシステムがAutoMLソリューションに持つ一連の慣用的要件を満たす。 私たちのフレームワークは、多数のアプリケーションでパイロットされ、デプロイされ、経験豊富なデータサイエンティストのレベルで実行されました。 また、我々のシステムの性能を、さまざまな汎用オープンソースAutoMLソリューションと比較し、エコシステムやOpenMLの問題の多くにより良いパフォーマンスを示す。 また、AutoMLシステムを開発しプロダクションに移行する過程で学んだ教訓を紹介します。

We present an AutoML system called LightAutoML developed for a large European financial services company and its ecosystem satisfying the set of idiosyncratic requirements that this ecosystem has for AutoML solutions. Our framework was piloted and deployed in numerous applications and performed at the level of the experienced data scientists while building high-quality ML models significantly faster than these data scientists. We also compare the performance of our system with various general-purpose open source AutoML solutions and show that it performs better for most of the ecosystem and OpenML problems. We also present the lessons that we learned while developing the AutoML system and moving it into production.
翻訳日:2021-09-06 16:48:31 公開日:2021-09-03
# (参考訳) 認知症モニタリングと診断のための縦型マルチモーダルデータセット [全文訳有]

A Longitudinal Multi-modal Dataset for Dementia Monitoring and Diagnosis ( http://arxiv.org/abs/2109.01537v1 )

ライセンス: CC BY 4.0
Dimitris Gkoumas, Bo Wang, Adam Tsakalidis, Maria Wolters, Arkaitz Zubiaga, Matthew Purver and Maria Liakata(参考訳) 認知症は、世界的に高齢化している人々の記憶と認知に影響を及ぼす神経変性疾患である。 言語、音声、パラ言語指標の自動分析が認知的低下の潜在的指標として人気を集めている。 本稿では, 軽度認知症と年齢整合性コントロールを持つ者を対象に, 自然条件下で数ヶ月間にわたって収集した経時的マルチモーダルデータセットを提案する。 マルチモーダルデータは、音声による会話からなり、そのサブセットが書き起こされ、入力された思考や、ペンストロークやキーストロークのような関連する言語外情報も書き起こされる。 本稿では,データセットを詳述し,音声モダリティを用いてタスクに集中する。 後者は、データの縦断的な性質を利用して認知症患者とコントロールを区別する。 本実験は, 抑うつ群と認知症群において, 音声がセッションからセッションへどのように変化するかに有意な差異が認められた。

Dementia is a family of neurogenerative conditions affecting memory and cognition in an increasing number of individuals in our globally aging population. Automated analysis of language, speech and paralinguistic indicators have been gaining popularity as potential indicators of cognitive decline. Here we propose a novel longitudinal multi-modal dataset collected from people with mild dementia and age matched controls over a period of several months in a natural setting. The multi-modal data consists of spoken conversations, a subset of which are transcribed, as well as typed and written thoughts and associated extra-linguistic information such as pen strokes and keystrokes. We describe the dataset in detail and proceed to focus on a task using the speech modality. The latter involves distinguishing controls from people with dementia by exploiting the longitudinal nature of the data. Our experiments showed significant differences in how the speech varied from session to session in the control and dementia groups.
翻訳日:2021-09-06 16:29:19 公開日:2021-09-03
# (参考訳) 異なるクラスタリング手法を用いた乳癌データセットの相関性の検討 [全文訳有]

Investigate the Correlation of Breast Cancer Dataset using Different Clustering Technique ( http://arxiv.org/abs/2109.01538v1 )

ライセンス: CC BY 4.0
Somenath Chakraborty, Beddhu Murali(参考訳) 本研究の目的は,事前のトレーニングモデルなしに教師なし学習の文脈で乳癌データセットを分析する方法を検討することである。 本稿では,クラスタリング手法の異なる方法と事前処理について検討する。 この詳細な分析は、最も堅牢で正確な医療予後システムの設計に使用できる足跡を構築する。 本稿では,異なる標準ベンチマーク手法によるデータポイントの相関性も強調する。 キーワード:乳がんデータセット、クラスタリングテクニック Hopkins Statistic、K-means Clustering、k-medoids or partitioning around medoids (PAM)

The objectives of this paper are to explore ways to analyze breast cancer dataset in the context of unsupervised learning without prior training model. The paper investigates different ways of clustering techniques as well as preprocessing. This in-depth analysis builds the footprint which can further use for designing a most robust and accurate medical prognosis system. This paper also give emphasis on correlations of data points with different standard benchmark techniques. Keywords: Breast cancer dataset, Clustering Technique Hopkins Statistic, K-means Clustering, k-medoids or partitioning around medoids (PAM)
翻訳日:2021-09-06 16:18:46 公開日:2021-09-03
# (参考訳) フーリエ特徴とテンソル分解による大規模学習 [全文訳有]

Large-Scale Learning with Fourier Features and Tensor Decompositions ( http://arxiv.org/abs/2109.01545v1 )

ライセンス: CC BY 4.0
Frederiek Wesel, Kim Batselier(参考訳) Random Fourierの機能は、カーネルメソッドで大規模な機械学習問題に対処する方法を提供する。 彼らの遅いモンテカルロ収束速度は、周波数数で近似誤差が指数関数的に減少する決定論的フーリエ特徴の研究の動機となった。 しかし、そのテンソル積構造のため、これらの手法は次元の呪いに悩まされ、2次元または3次元のシナリオに限定される。 提案手法では,決定論的フーリエ特徴のテンソル積構造を利用して次元の呪いを克服し,モデルパラメータを低ランクテンソル分解として表現する。 正則化二乗損失関数に対するサンプルサイズと入力の次元の両方において線形な複雑さを持つ単調収束ブロック座標降下アルゴリズムを導出し、決定論的フーリエ特徴を用いて分解形式のパリモニアモデルを学ぶことができる。 数値実験により,我々の低ランクテンソル法が対応する非パラメトリックモデルと同じ性能を示し,無作為なフーリエ特性を一貫して上回ることを示した。

Random Fourier features provide a way to tackle large-scale machine learning problems with kernel methods. Their slow Monte Carlo convergence rate has motivated the research of deterministic Fourier features whose approximation error decreases exponentially with the number of frequencies. However, due to their tensor product structure these methods suffer heavily from the curse of dimensionality, limiting their applicability to two or three-dimensional scenarios. In our approach we overcome said curse of dimensionality by exploiting the tensor product structure of deterministic Fourier features, which enables us to represent the model parameters as a low-rank tensor decomposition. We derive a monotonically converging block coordinate descent algorithm with linear complexity in both the sample size and the dimensionality of the inputs for a regularized squared loss function, allowing to learn a parsimonious model in decomposed form using deterministic Fourier features. We demonstrate by means of numerical experiments how our low-rank tensor approach obtains the same performance of the corresponding nonparametric model, consistently outperforming random Fourier features.
翻訳日:2021-09-06 16:13:52 公開日:2021-09-03
# (参考訳) Situated Conditional Reasoning

Situated Conditional Reasoning ( http://arxiv.org/abs/2109.01552v1 )

ライセンス: CC BY 4.0
Giovanni Casini, Thomas Meyer, Ivan Varzinczak(参考訳) 条件付きはモデリングに有用であるが、情報を正確に捉えるのに十分表現できるとは限らない。 本稿では,状況に基づく条件付けの形式について述べる。 これらの条件は古典的条件よりも表現力が高く、いくつかのアプリケーション領域で使われるのに十分な一般性を持ち、例えば期待と反事実を区別することができる。 形式的には、クラース、レーマン、マギドールのスタイルで条件設定を一般化することが示される。 状況に基づく条件は,一組の合理性仮定を用いて記述できることを示す。 次に,これらの条件に対する直感的な意味論を提案し,意味的構成が命題の表現と正確に一致することを示す表現結果を示す。 セマンティクスを具体化して、位置条件付き知識ベースのためのエンテーメントの形式を定義し、最小限のクロージャ(minimal closure)と呼ぶ。 これは有理閉包(rational closure)として知られる命題条件付き知識ベースに関する補足のバージョンを思い起こさせるものであり、実際にインスパイアされている。 最後に、最小限のクロージャの計算を一連の命題の絞り込みと満足度チェックに還元できることを示す。 これは有理閉包のケースでもあるが、結果が最小閉包へと続くことは少々驚きである。

Conditionals are useful for modelling, but are not always sufficiently expressive for capturing information accurately. In this paper we make the case for a form of conditional that is situation-based. These conditionals are more expressive than classical conditionals, are general enough to be used in several application domains, and are able to distinguish, for example, between expectations and counterfactuals. Formally, they are shown to generalise the conditional setting in the style of Kraus, Lehmann, and Magidor. We show that situation-based conditionals can be described in terms of a set of rationality postulates. We then propose an intuitive semantics for these conditionals, and present a representation result which shows that our semantic construction corresponds exactly to the description in terms of postulates. With the semantics in place, we proceed to define a form of entailment for situated conditional knowledge bases, which we refer to as minimal closure. It is reminiscent of and, indeed, inspired by, the version of entailment for propositional conditional knowledge bases known as rational closure. Finally, we proceed to show that it is possible to reduce the computation of minimal closure to a series of propositional entailment and satisfiability checks. While this is also the case for rational closure, it is somewhat surprising that the result carries over to minimal closure.
翻訳日:2021-09-06 15:55:02 公開日:2021-09-03
# (参考訳) 複数の雑音拡張データセットからの学習による言語間音声理解の改善 [全文訳有]

Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language Understanding ( http://arxiv.org/abs/2109.01583v1 )

ライセンス: CC BY 4.0
Yingmei Guo and Linjun Shou and Jian Pei and Ming Gong and Mingxing Xu and Zhiyong Wu and Daxin Jiang(参考訳) トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。 低リソースターゲット言語でトレーニングデータを合成するために、様々なデータ拡張アプローチが提案されているが、拡張データセットはしばしばノイズが多く、SLUモデルの性能を阻害する。 本稿では,拡張データにおけるノイズの軽減に着目する。 我々はデノナイジングトレーニングアプローチを開発します。 複数のモデルは様々な拡張メソッドによって生成されたデータで訓練される。 これらのモデルは相互に監視信号を提供する。 実験の結果,本手法は2つのベンチマークデータセットにおいて,既存の技術水準を3.05ポイント,4.24ポイント上回った。 コードはgithubでオープンソース化される予定だ。

Lack of training data presents a grand challenge to scaling out spoken language understanding (SLU) to low-resource languages. Although various data augmentation approaches have been proposed to synthesize training data in low-resource target languages, the augmented data sets are often noisy, and thus impede the performance of SLU models. In this paper we focus on mitigating noise in augmented data. We develop a denoising training approach. Multiple models are trained with data produced by various augmented methods. Those models provide supervision signals to each other. The experimental results show that our method outperforms the existing state of the art by 3.05 and 4.24 percentage points on two benchmark datasets, respectively. The code will be made open sourced on github.
翻訳日:2021-09-06 15:53:47 公開日:2021-09-03
# (参考訳) 人体形状の3次元移動 [全文訳有]

3D Human Shape Style Transfer ( http://arxiv.org/abs/2109.01587v1 )

ライセンス: CC BY 4.0
Joao Regateiro and Edmond Boyer(参考訳) 本稿では,任意の静的な実字体を用いて実動文字体の形状を変更・変更する問題を考察する。 伝統的な解決策は、運動するキャラクタから源となるキャラクタの形まで、骨格のポーズパラメトリゼーションに依存するポーズ転送戦略に従う。 本稿では,移動キャラクタにソース形状を伝達する代替手法について検討する。 期待される利点は、実際の文字に適用される骨格パラメトリゼーションで必要とされる変換の本質的に難しいポーズを避けることである。 この目的のために,画像の転送手法を検討し,それを3次元形状に適応させる方法について検討する。 Adaptive Instance Normalisation (AdaIN) と SPADE アーキテクチャは、元のイメージ構造を保存しながら、画像のスタイルを別のものに効率よく正確に転送することを実証されている。 ここで adain は主題の統計を通じてスタイル転送を行うモジュールに寄与し、spade はスタイル転送の品質を向上させるために残ったブロックアーキテクチャに寄与する。 これらのアプローチは、新しい形状のスタイルを伝達しながら形状構造(形状ポーズ)を保存するのと同じ原理を適用した畳み込みニューラルネットワークを提案することにより、3次元形状領域に拡張可能であることを示す。 生成された結果は判別器モジュールを通して監視され、形状のリアリズムを評価するとともに、デコーダを強制して妥当な形状を合成し、目に見えない被験者のスタイル転送を改善する。 本実験は,最適化および学習に基づく手法による形状移動のベースラインに対して,平均で約56\%の質的および定量的改善を示す。

We consider the problem of modifying/replacing the shape style of a real moving character with those of an arbitrary static real source character. Traditional solutions follow a pose transfer strategy, from the moving character to the source character shape, that relies on skeletal pose parametrization. In this paper, we explore an alternative approach that transfers the source shape style onto the moving character. The expected benefit is to avoid the inherently difficult pose to shape conversion required with skeletal parametrization applied on real characters. To this purpose, we consider image style transfer techniques and investigate how to adapt them to 3D human shapes. Adaptive Instance Normalisation (AdaIN) and SPADE architectures have been demonstrated to efficiently and accurately transfer the style of an image onto another while preserving the original image structure. Where AdaIN contributes with a module to perform style transfer through the statistics of the subjects and SPADE contribute with a residual block architecture to refine the quality of the style transfer. We demonstrate that these approaches are extendable to the 3D shape domain by proposing a convolutional neural network that applies the same principle of preserving the shape structure (shape pose) while transferring the style of a new subject shape. The generated results are supervised through a discriminator module to evaluate the realism of the shape, whilst enforcing the decoder to synthesise plausible shapes and improve the style transfer for unseen subjects. Our experiments demonstrate an average of $\approx 56\%$ qualitative and quantitative improvements over the baseline in shape transfer through optimization-based and learning-based methods.
翻訳日:2021-09-06 15:38:17 公開日:2021-09-03
# (参考訳) ニューラルヒトの変形伝達 [全文訳有]

Neural Human Deformation Transfer ( http://arxiv.org/abs/2109.01588v1 )

ライセンス: CC BY 4.0
Jean Basset and Adnane Boukhayma and Stefanie Wuhrer and Franck Multon and Edmond Boyer(参考訳) 我々は, 異なる文字間のポーズを目標として, 変形移動の問題を考える。 この問題に対処する伝統的な方法は、ポーズを明確に定義し、この定義を使用して文字間でポーズを転送する。 本研究では、異なるアプローチを採り、キャラクタの姿勢を変更することなく、キャラクタのアイデンティティを新たなアイデンティティに変換する。 これは、3dのポーズ間の等価性を定義する必要がないという利点を提供するが、これは、ポーズがそれらを実行するキャラクタのアイデンティティによって変わる傾向があり、その意味が高度に文脈的であるため、単純ではない。 変形伝達を実現するために,識別情報のみを符号化し,デコーダをポーズに条件付けするニューラルエンコーダデコーダアーキテクチャを提案する。 同一性を表すために等長不変な形状特性などのポーズ独立表現を用いる。 我々のモデルはこれらの特徴を用いて、変形したポーズから転送結果へのオフセットの予測を監督する。 本手法は, 量的, 質的にともに最先端の手法を上回っており, トレーニング中に見ないポーズを一般化できることを実験的に示す。 また,極端なアイデンティティの競争結果を得るための微調整ステップを導入し,シンプルな衣服の移動を可能にした。

We consider the problem of human deformation transfer, where the goal is to retarget poses between different characters. Traditional methods that tackle this problem require a clear definition of the pose, and use this definition to transfer poses between characters. In this work, we take a different approach and transform the identity of a character into a new identity without modifying the character's pose. This offers the advantage of not having to define equivalences between 3D human poses, which is not straightforward as poses tend to change depending on the identity of the character performing them, and as their meaning is highly contextual. To achieve the deformation transfer, we propose a neural encoder-decoder architecture where only identity information is encoded and where the decoder is conditioned on the pose. We use pose independent representations, such as isometry-invariant shape characteristics, to represent identity features. Our model uses these features to supervise the prediction of offsets from the deformed pose to the result of the transfer. We show experimentally that our method outperforms state-of-the-art methods both quantitatively and qualitatively, and generalises better to poses not seen during training. We also introduce a fine-tuning step that allows to obtain competitive results for extreme identities, and allows to transfer simple clothing.
翻訳日:2021-09-06 15:23:59 公開日:2021-09-03
# (参考訳) アライメントアウェアリニアモデルによる形状コレクションの表現 [全文訳有]

Representing Shape Collections with Alignment-Aware Linear Models ( http://arxiv.org/abs/2109.01605v1 )

ライセンス: CC BY 4.0
Romain Loiseau, Tom Monnier, Lo\"ic Landrieu, Mathieu Aubry(参考訳) 本稿では,3次元点雲の古典表現を線形形状モデルとして再検討する。 我々の重要な洞察は、深層学習を利用して、低次元線形形状モデルのアフィン変換として形状の集合を表現することである。 各線形モデルは、形状プロトタイプ、低次元形状ベースおよび2つのニューラルネットワークによって特徴づけられる。 ネットワークは点雲を入力とし、線形基底における形状の座標と入力を最も近似したアフィン変換を予測する。 線形モデルとニューラルネットワークは、単一の再構成損失を使用してエンドツーエンドに学習される。 我々のアプローチの主な利点は、特徴に基づく複雑な形状表現を学習する最近の多くのディープアプローチとは対照的に、我々のモデルは明示的であり、全ての操作は3次元空間で起こることである。 その結果,線形形状モデルを容易に可視化・注釈化でき,障害事例を視覚的に理解することが可能となった。 本研究の主な目的は,形状コレクションのコンパクトかつ解釈可能な表現の導入である。

In this paper, we revisit the classical representation of 3D point clouds as linear shape models. Our key insight is to leverage deep learning to represent a collection of shapes as affine transformations of low-dimensional linear shape models. Each linear model is characterized by a shape prototype, a low-dimensional shape basis and two neural networks. The networks take as input a point cloud and predict the coordinates of a shape in the linear basis and the affine transformation which best approximate the input. Both linear models and neural networks are learned end-to-end using a single reconstruction loss. The main advantage of our approach is that, in contrast to many recent deep approaches which learn feature-based complex shape representations, our model is explicit and every operation occurs in 3D space. As a result, our linear shape models can be easily visualized and annotated, and failure cases can be visually understood. While our main goal is to introduce a compact and interpretable representation of shape collections, we show it leads to state of the art results for few-shot segmentation.
翻訳日:2021-09-06 15:10:45 公開日:2021-09-03
# (参考訳) 文書検索のためのDense Retrievalを用いた言語横断学習 [全文訳有]

Cross-Lingual Training with Dense Retrieval for Document Retrieval ( http://arxiv.org/abs/2109.01628v1 )

ライセンス: CC BY 4.0
Peng Shi, Rui Zhang, He Bai, and Jimmy Lin(参考訳) デンス検索は英語の通訳ランキングにおいて大きな成功を収めた。 しかし、非英語言語の文書検索における有効性は、訓練資源の制限のため未検討のままである。 本研究では,英語アノテーションから複数の非英語言語への文書ランク付け手法について検討する。 本研究は,中国語,アラビア語,フランス語,ヒンディー語,ベンガル語,スペイン語の6言語を対象に,mBERTを用いたゼロショットモデルによる翻訳により,非英語単言語検索における検索精度が向上することを示した。 また,弱い教師付き目標言語転送は,外部トランスレータやクエリ生成器を必要とする世代ベースの目標言語転送に対して,競争力のある性能をもたらすことが判明した。

Dense retrieval has shown great success in passage ranking in English. However, its effectiveness in document retrieval for non-English languages remains unexplored due to the limitation in training resources. In this work, we explore different transfer techniques for document ranking from English annotations to multiple non-English languages. Our experiments on the test collections in six languages (Chinese, Arabic, French, Hindi, Bengali, Spanish) from diverse language families reveal that zero-shot model-based transfer using mBERT improves the search quality in non-English mono-lingual retrieval. Also, we find that weakly-supervised target language transfer yields competitive performances against the generation-based target language transfer that requires external translators and query generators.
翻訳日:2021-09-06 14:53:39 公開日:2021-09-03
# (参考訳) 分布認識型単語埋め込みを用いた名前付きエンティティ認識性能の実証的研究 [全文訳有]

Empirical Study of Named Entity Recognition Performance Using Distribution-aware Word Embedding ( http://arxiv.org/abs/2109.01636v1 )

ライセンス: CC BY 4.0
Xin Chen, Qi Zhao, Xinyang Liu(参考訳) 深層学習技術の急速な発展に伴い、情報抽出タスクにおいて、名前付きエンティティ認識(ner)がますます重要になっている。 nerタスクが直面する最大の困難は、neやドキュメントのタイプが馴染みのない場合でも検出性を維持することだ。 単語の潜在的な意味を具現化して単語の埋め込みに関する意味的特徴を生成することを認識し,NERフレームワークにおける分布情報を利用する3つの異なる手法を実装した。 また,既存のNER手法に単語特異性を組み込んだ場合,NERの性能が向上することを示す。

With the fast development of Deep Learning techniques, Named Entity Recognition (NER) is becoming more and more important in the information extraction task. The greatest difficulty that the NER task faces is to keep the detectability even when types of NE and documents are unfamiliar. Realizing that the specificity information may contain potential meanings of a word and generate semantic-related features for word embedding, we develop a distribution-aware word embedding and implement three different methods to make use of the distribution information in a NER framework. And the result shows that the performance of NER will be improved if the word specificity is incorporated into existing NER methods.
翻訳日:2021-09-06 14:45:38 公開日:2021-09-03
# (参考訳) 静止衛星画像を用いた山火事煙プルームセグメンテーション [全文訳有]

Wildfire smoke plume segmentation using geostationary satellite imagery ( http://arxiv.org/abs/2109.01637v1 )

ライセンス: CC BY 4.0
Jeff Wen and Marshall Burke(参考訳) 森林火災は過去20年間、特にアメリカ合衆国西部で発生頻度と深刻度が増加している。 これらの山火事による物理的インフラの損傷以外にも、山火事の煙によって生じる粒子状物質が呼吸、心臓血管、認知健康に有害な影響を及ぼすと研究者は認識している。 この推測は、特に山火事の煙に起因する粒子状物質の量に関する空間的および時間的不確実性のため困難である。 この課題に寄与する要因の1つは、しばしばアメリカ合衆国に限られるノイズの多い表現である手書きの煙管アノテーションへの依存である。 この研究は深部畳み込みニューラルネットワークを用いて静止衛星画像から煙管を分割する。 本研究では,環境保護庁 (EPA) が計測した表面粒子状物質<2.5um in diameter (\textrm{PM}_{2.5}$) の変動量を推定するために,因果推論法を用いて予測プルームセグメンテーションの性能を比較した。

Wildfires have increased in frequency and severity over the past two decades, especially in the Western United States. Beyond physical infrastructure damage caused by these wildfire events, researchers have increasingly identified harmful impacts of particulate matter generated by wildfire smoke on respiratory, cardiovascular, and cognitive health. This inference is difficult due to the spatial and temporal uncertainty regarding how much particulate matter is specifically attributable to wildfire smoke. One factor contributing to this challenge is the reliance on manually drawn smoke plume annotations, which are often noisy representations limited to the United States. This work uses deep convolutional neural networks to segment smoke plumes from geostationary satellite imagery. We compare the performance of predicted plume segmentations versus the noisy annotations using causal inference methods to estimate the amount of variation each explains in Environmental Protection Agency (EPA) measured surface level particulate matter <2.5um in diameter ($\textrm{PM}_{2.5}$).
翻訳日:2021-09-06 14:35:39 公開日:2021-09-03
# (参考訳) 多エージェントな自然アクター批判強化学習アルゴリズム

Multi-agent Natural Actor-critic Reinforcement Learning Algorithms ( http://arxiv.org/abs/2109.01654v1 )

ライセンス: CC BY 4.0
Prashant Trivedi, Nandyala Hemachandra(参考訳) シングルエージェントとマルチエージェントアクター批判アルゴリズムは、強化学習アルゴリズムの重要なクラスである。 本研究では,完全分散型多エージェント自然アクター危機(man)アルゴリズムを提案する。 エージェントの目的は、これらのエージェントの平均的な長期的なリターンの総和を最大化する共同政策を集合的に学習することである。 中央制御装置がない場合、エージェントはプライバシーを保ちながら、時間的に変化する通信ネットワークを介して隣人と情報を通信する。 我々は、すべての3 manアルゴリズムをアクター更新に対応するodeのグローバル漸近安定点に収束することを証明し、これらは線形関数近似を用いる。 我々は,フィッシャー情報行列を用いて自然勾配を求める。 フィッシャー情報行列は、連続した反復で警察間のクルバック・リーブラー(KL)の曲率をキャプチャする。 また, 逐次イテレートのポリシー間のklの分岐の勾配は, 目的関数の勾配に比例することを示した。 我々のマンアルゴリズムは実際に対象関数の勾配のこの \emph{representation} を用いる。 Fisher情報行列の特定の条件下では, MANアルゴリズムによる最適値は, 標準勾配を用いたマルチエージェントアクタ・クリティック(MAAC)アルゴリズムよりも優れていることを示す。 提案アルゴリズムの有効性を検証するため,両レーン交通ネットワーク上で3つのMANアルゴリズムをすべて実装し,ネットワークの混雑を低減する。 2 MANアルゴリズムでは,平均渋滞を約25%削減するが,別の MAN アルゴリズムでは平均混雑をMAAC アルゴリズムと同程度に抑えることができる。 また,汎用エージェントMARLについても検討し,MANアルゴリズムの性能はMAACアルゴリズムと同等である。 MANアルゴリズムの性能は,上述の表現を用いることにより向上すると考えられる。

Both single-agent and multi-agent actor-critic algorithms are an important class of Reinforcement Learning algorithms. In this work, we propose three fully decentralized multi-agent natural actor-critic (MAN) algorithms. The agents' objective is to collectively learn a joint policy that maximizes the sum of averaged long-term returns of these agents. In the absence of a central controller, agents communicate the information to their neighbors via a time-varying communication network while preserving privacy. We prove the convergence of all the 3 MAN algorithms to a globally asymptotically stable point of the ODE corresponding to the actor update; these use linear function approximations. We use the Fisher information matrix to obtain the natural gradients. The Fisher information matrix captures the curvature of the Kullback-Leibler (KL) divergence between polices at successive iterates. We also show that the gradient of this KL divergence between policies of successive iterates is proportional to the objective function's gradient. Our MAN algorithms indeed use this \emph{representation} of the objective function's gradient. Under certain conditions on the Fisher information matrix, we prove that at each iterate, the optimal value via MAN algorithms can be better than that of the multi-agent actor-critic (MAAC) algorithm using the standard gradients. To validate the usefulness of our proposed algorithms, we implement all the 3 MAN algorithms on a bi-lane traffic network to reduce the average network congestion. We observe an almost 25% reduction in the average congestion in 2 MAN algorithms; the average congestion in another MAN algorithm is on par with the MAAC algorithm. We also consider a generic 15 agent MARL; the performance of the MAN algorithms is again as good as the MAAC algorithm. We attribute the better performance of the MAN algorithms to their use of the above representation.
翻訳日:2021-09-06 14:20:08 公開日:2021-09-03
# LG4AV:著者認証のための言語モデルとグラフニューラルネットワークの組み合わせ

LG4AV: Combining Language Models and Graph Neural Networks for Author Verification ( http://arxiv.org/abs/2109.01479v1 )

ライセンス: Link先を確認
Maximilian Stubbemann, Gerd Stumme(参考訳) 文書作成者の自動検証は様々な場面で重要である。 例えば、研究者は、出版物の量と影響によって判断され、比較される。 したがって、頻繁に使用されるwebサービスやプラットフォームにおけるオーサシップ情報が正しいことは重要である。 ある文書が与えられた著者によって書かれたかどうかという問題は、一般的に著者検証(AV)と呼ばれる。 AVは一般に広く研究されている問題であるが、文書が短く、かなり均一なスタイルで書かれた設定を考える研究はほとんどない。 これにより、ほとんどのアプローチは学術分野のオンラインデータベースやナレッジグラフに対して実践的ではない。 ここでは、科学出版物の著者が検証され、しばしば抽象論とタイトルが利用可能である。 そこで本稿では,著者検証のための言語モデルとグラフニューラルネットワークを組み合わせたLG4AVを提案する。 トレーニング済みのトランスフォーマーアーキテクチャで利用可能なテキストを直接送達することで、少なくともある程度標準化された書体スタイルのシナリオでは意味のない手作りのテクスチャ的特徴を一切必要としない。 グラフニューラルネットワーク構造を組み込むことで、検証プロセスに関して意味のある著者間の関係から恩恵を受けることができる。 例えば、科学の著者は共同著者が取り組んだトピックについて書く傾向が高く、twitterのユーザーはフォローしている人と同じ話題を投稿する傾向がある。 我々は,共著者の関与が,書誌環境における検証決定をどの程度促進するかを実験的に評価した。

The automatic verification of document authorships is important in various settings. Researchers are for example judged and compared by the amount and impact of their publications and public figures are confronted by their posts on social media platforms. Therefore, it is important that authorship information in frequently used web services and platforms is correct. The question whether a given document is written by a given author is commonly referred to as authorship verification (AV). While AV is a widely investigated problem in general, only few works consider settings where the documents are short and written in a rather uniform style. This makes most approaches unpractical for online databases and knowledge graphs in the scholarly domain. Here, authorships of scientific publications have to be verified, often with just abstracts and titles available. To this point, we present our novel approach LG4AV which combines language models and graph neural networks for authorship verification. By directly feeding the available texts in a pre-trained transformer architecture, our model does not need any hand-crafted stylometric features that are not meaningful in scenarios where the writing style is, at least to some extent, standardized. By the incorporation of a graph neural network structure, our model can benefit from relations between authors that are meaningful with respect to the verification process. For example, scientific authors are more likely to write about topics that are addressed by their co-authors and twitter users tend to post about the same subjects as people they follow. We experimentally evaluate our model and study to which extent the inclusion of co-authorships enhances verification decisions in bibliometric environments.
翻訳日:2021-09-06 14:08:18 公開日:2021-09-03
# CREAK: エンティティ知識に関する常識推論のためのデータセット

CREAK: A Dataset for Commonsense Reasoning over Entity Knowledge ( http://arxiv.org/abs/2109.01653v1 )

ライセンス: Link先を確認
Yasumasa Onoe, Michael J.Q. Zhang, Eunsol Choi, Greg Durrett(参考訳) ウォーターフォール(talmor et al., 2019)の下でカップを満たすことができることを知るような物理的な知識、誰かにぶつかるといった社会的な知識は厄介です [sap et al., 2019]、その他の一般的な状況。 しかし、特定の実体に関する知識に固定されたコモンセンス推論の豊富な空間がある:例えば、主張の真理性を決定する:「ハリー・ポッターは、ほうきで飛ぶ方法を教えることができる」。 モデルは、エンティティ知識とコモンセンス推論をこの方法で組み合わせることを学ぶことができるか? 私たちは、エンティティ知識に関するコモンセンス推論のためのテストベッドであるCREAKを紹介します。エンティティに関する事実チェック(Harry Potterはウィザードであり、ほうきに乗るのに熟練しています)とコモンセンス推論(スキルが得意なら、他の人にその方法を教えることができます。 私たちのデータセットは、小さなコントラストセットに加えて、真または偽のエンティティに関する13万の人間によるイングランドの主張で構成されています。 クラウドワーカーはこれらのステートメントを簡単に見つけ出すことができ、データセット上での人的パフォーマンスは高い(高い90s)。 実験では,クローズドブックの設定に注目し,既存の事実検証ベンチマークに基づくベースラインモデルがCREAKで苦労していることを確認する。 CREAKのモデルのトレーニングは精度をかなりのマージンで向上させるが、それでも人間のパフォーマンスには欠ける。 私たちのベンチマークは、自然言語理解モデルに関するユニークな調査を提供し、事実を検索する能力(例えば、シカゴ大学で教える人など)をテストする。 そして、無言の常識の知識(例えば、バトラーは客に叫ばない)。

Most benchmark datasets targeting commonsense reasoning focus on everyday scenarios: physical knowledge like knowing that you could fill a cup under a waterfall [Talmor et al., 2019], social knowledge like bumping into someone is awkward [Sap et al., 2019], and other generic situations. However, there is a rich space of commonsense inferences anchored to knowledge about specific entities: for example, deciding the truthfulness of a claim "Harry Potter can teach classes on how to fly on a broomstick." Can models learn to combine entity knowledge with commonsense reasoning in this fashion? We introduce CREAK, a testbed for commonsense reasoning about entity knowledge, bridging fact-checking about entities (Harry Potter is a wizard and is skilled at riding a broomstick) with commonsense inferences (if you're good at a skill you can teach others how to do it). Our dataset consists of 13k human-authored English claims about entities that are either true or false, in addition to a small contrast set. Crowdworkers can easily come up with these statements and human performance on the dataset is high (high 90s); we argue that models should be able to blend entity knowledge and commonsense reasoning to do well here. In our experiments, we focus on the closed-book setting and observe that a baseline model finetuned on existing fact verification benchmark struggles on CREAK. Training a model on CREAK improves accuracy by a substantial margin, but still falls short of human performance. Our benchmark provides a unique probe into natural language understanding models, testing both its ability to retrieve facts (e.g., who teaches at the University of Chicago?) and unstated commonsense knowledge (e.g., butlers do not yell at guests).
翻訳日:2021-09-06 14:07:13 公開日:2021-09-03
# 共有および特殊注意機構を用いたビジネスプロセス予測のための解釈可能なモデルの構築

Building Interpretable Models for Business Process Prediction using Shared and Specialised Attention Mechanisms ( http://arxiv.org/abs/2109.01419v1 )

ライセンス: Link先を確認
Bemali Wickramanayake, Zhipeng He, Chun Ouyang, Catarina Moreira, Yue Xu, Renuka Sindhgatta(参考訳) 本稿では,予測プロセス解析における「ブラックボックス」問題に対処し,予測がなぜ何であるかを予測可能な解釈可能なモデルを構築する。 予測プロセス分析は、現代の組織でビジネスプロセスインテリジェンスを提供するために新しく登場した分野です。 イベントログを使用して、多次元シーケンスデータの形式でプロセス実行トレースをキャプチャし、予測モデルをトレーニングするためのキー入力とする。 これらの予測モデルは、しばしばディープラーニング技術に基づいて構築され、ビジネスプロセス実行の将来の状態を予測するために使用することができる。 モデル解釈性を達成するために注意機構を適用する。 We propose i) two types of attentions: event attention to capture the impact of specific process events on a prediction, and attribute attention to reveal which attribute(s) of an event influenced the prediction; and ii) two attention mechanisms: shared attention mechanism and specialised attention mechanism to reflect different design decisions in when to construct attribute attention on individual input features (specialised) or using the concatenated feature tensor of all input feature vectors (shared). これらは2つの異なる注意に基づくモデルをもたらし、どちらも解釈可能性を直接プロセス予測モデルの構造に組み込む解釈可能なモデルである。 実生活データセットを用いて提案モデルの実験的評価を行い、精度と解釈可能性のモデル間の比較分析を行い、評価結果と分析結果から洞察を得る。

In this paper, we address the "black-box" problem in predictive process analytics by building interpretable models that are capable to inform both what and why is a prediction. Predictive process analytics is a newly emerged discipline dedicated to providing business process intelligence in modern organisations. It uses event logs, which capture process execution traces in the form of multi-dimensional sequence data, as the key input to train predictive models. These predictive models, often built upon deep learning techniques, can be used to make predictions about the future states of business process execution. We apply attention mechanism to achieve model interpretability. We propose i) two types of attentions: event attention to capture the impact of specific process events on a prediction, and attribute attention to reveal which attribute(s) of an event influenced the prediction; and ii) two attention mechanisms: shared attention mechanism and specialised attention mechanism to reflect different design decisions in when to construct attribute attention on individual input features (specialised) or using the concatenated feature tensor of all input feature vectors (shared). These lead to two distinct attention-based models, and both are interpretable models that incorporate interpretability directly into the structure of a process predictive model. We conduct experimental evaluation of the proposed models using real-life dataset, and comparative analysis between the models for accuracy and interpretability, and draw insights from the evaluation and analysis results.
翻訳日:2021-09-06 14:06:05 公開日:2021-09-03
# 確率物理学インフォームドニューラルネットワーク(SPINN):確率微分方程式における隠れ物理学習のためのモーメントマッチングフレームワーク

Stochastic Physics-Informed Neural Networks (SPINN): A Moment-Matching Framework for Learning Hidden Physics within Stochastic Differential Equations ( http://arxiv.org/abs/2109.01621v1 )

ライセンス: Link先を確認
Jared O'Leary, Joel A. Paulson, and Ali Mesbah(参考訳) 確率微分方程式(SDE)は、様々な複雑な確率力学系を記述するために用いられる。 SDEの内部で隠れた物理学を学ぶことは、これらのシステムの確率的および非線形な振る舞いの基本的な理解を明らかにするために重要である。 本研究では、深層ニューラルネットワークを学習し、SDE内の隠れ物理を表す構成方程式を学習するための柔軟でスケーラブルなフレームワークを提案する。 提案した確率物理学情報ニューラルネットワークフレームワーク(SPINN)は、不確実性伝播とモーメントマッチング技術と最先端のディープラーニング戦略に依存している。 スピンは最初にsdeの既知の構造(すなわち既知の物理学)を通じて確率性を伝播し、確率状態の統計モーメントの時間発展を予測する。 SPINNは、予測モーメントをデータから推定されたものとマッチングすることで、隠れた物理学のニューラルネットワーク表現(ディープ)を学ぶ。 ニューラルネットワークの未知のパラメータを確立するために, 自動微分とミニバッチ勾配降下の最近の進歩を活用している。 我々は,SPINNを3つのケーススタディのベンチマークで実証し,フレームワークの堅牢性と数値安定性を解析した。 SPINNは、多変量確率力学系の隠れ物理を乗法雑音で体系的に解き放つための、有望な新しい方向を提供する。

Stochastic differential equations (SDEs) are used to describe a wide variety of complex stochastic dynamical systems. Learning the hidden physics within SDEs is crucial for unraveling fundamental understanding of the stochastic and nonlinear behavior of these systems. We propose a flexible and scalable framework for training deep neural networks to learn constitutive equations that represent hidden physics within SDEs. The proposed stochastic physics-informed neural network framework (SPINN) relies on uncertainty propagation and moment-matching techniques along with state-of-the-art deep learning strategies. SPINN first propagates stochasticity through the known structure of the SDE (i.e., the known physics) to predict the time evolution of statistical moments of the stochastic states. SPINN learns (deep) neural network representations of the hidden physics by matching the predicted moments to those estimated from data. Recent advances in automatic differentiation and mini-batch gradient descent are leveraged to establish the unknown parameters of the neural networks. We demonstrate SPINN on three benchmark in-silico case studies and analyze the framework's robustness and numerical stability. SPINN provides a promising new direction for systematically unraveling the hidden physics of multivariate stochastic dynamical systems with multiplicative noise.
翻訳日:2021-09-06 14:05:45 公開日:2021-09-03
# フェデレーション学習における局所SGDによる統計的推定と推論

Statistical Estimation and Inference via Local SGD in Federated Learning ( http://arxiv.org/abs/2109.01326v1 )

ライセンス: Link先を確認
Xiang Li, Jiadong Liang, Xiangyu Chang, Zhihua Zhang(参考訳) フェデレーション学習(fl)は、大量のエッジコンピューティングデバイス(携帯電話など)を共同で、データ共有なしでグローバルモデルを学ぶ。 FLでは、データは高均一性で分散的に生成される。 本稿では,フェデレーション環境での統計的推定と推論を行う方法について検討する。 間欠的通信を用いて通信効率を向上させるマルチラウンド推定手法であるLocal SGDを解析する。 まず、局所 sgd の平均イテレートが再スケールされたブラウン運動に弱収束することを示す {\it functional central limit theorem} を確立する。 次に、2つの反復的推論手法: {\it plug-in} と {\it random scaling} を提供する。 ランダムスケーリングは、局所的なSGDパス全体に沿った情報を使用することで、推論のための漸近的なピボット統計を構成する。 どちらの方法も通信効率が良く、オンラインデータに適用できる。 その結果,局所sgdは統計的効率と通信効率の両方を同時に達成できることがわかった。

Federated Learning (FL) makes a large amount of edge computing devices (e.g., mobile phones) jointly learn a global model without data sharing. In FL, data are generated in a decentralized manner with high heterogeneity. This paper studies how to perform statistical estimation and inference in the federated setting. We analyze the so-called Local SGD, a multi-round estimation procedure that uses intermittent communication to improve communication efficiency. We first establish a {\it functional central limit theorem} that shows the averaged iterates of Local SGD weakly converge to a rescaled Brownian motion. We next provide two iterative inference methods: the {\it plug-in} and the {\it random scaling}. Random scaling constructs an asymptotically pivotal statistic for inference by using the information along the whole Local SGD path. Both the methods are communication efficient and applicable to online data. Our theoretical and empirical results show that Local SGD simultaneously achieves both statistical efficiency and communication efficiency.
翻訳日:2021-09-06 14:05:22 公開日:2021-09-03
# サンプルノイズがアクティブラーニングに与える影響

Sample Noise Impact on Active Learning ( http://arxiv.org/abs/2109.01372v1 )

ライセンス: Link先を確認
Alexandre Abraham and L\'eo Dreyfus-Schmidt(参考訳) 本研究は,アクティブラーニング戦略におけるノイズサンプル選択の効果を考察する。 サンプルノイズの知識がアクティブな学習戦略の性能を著しく向上させることができることを,合成問題と実生活利用事例の両方に示す。 先行研究に基づき,合成タスクに大幅な改善をもたらすが,実生活における限界上昇のみをもたらす,頑健なサンプルスタ,インクリメンタル重み付きk平均を提案する。 この論文で提起された質問はコミュニティにとって関心があり、アクティブラーニング研究のための新しい道を開くことができることを願っている。

This work explores the effect of noisy sample selection in active learning strategies. We show on both synthetic problems and real-life use-cases that knowledge of the sample noise can significantly improve the performance of active learning strategies. Building on prior work, we propose a robust sampler, Incremental Weighted K-Means that brings significant improvement on the synthetic tasks but only a marginal uplift on real-life ones. We hope that the questions raised in this paper are of interest to the community and could open new paths for active learning research.
翻訳日:2021-09-06 14:05:05 公開日:2021-09-03
# 地形VAEは等変カプセルを学習する

Topographic VAEs learn Equivariant Capsules ( http://arxiv.org/abs/2109.01394v1 )

ライセンス: Link先を確認
T. Anderson Keller and Max Welling(参考訳) 本研究では、ニューラルネットワークにおける地形構造と等分散の概念を橋渡しする。 そこで本稿では, 深部生成モデルの学習を効率的に行うための新しい手法であるTopographic VAEを紹介する。 このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することができる。 さらに、時とともに地形組織を通して(すなわち) 時間コヒーレンス (temporal coherence) は、事前定義された潜在空間変換作用素が、非教師なし学習同分散の原始形式である観測された変換入力列に対してどのように促進されるかを示す。 このモデルは、ほぼ同変な特徴の集合(すなわち、その集合)をうまく学習できることを実証する。 カプセル(capsules)"シーケンスから直接取得し、対応する変換されたテストシーケンスに対して高い確率を達成する。 推定ネットワークとシーケンス変換の近似可換性を測定することにより、等価性が定量的に検証される。 最後に、既存のグループ同変ニューラルネットワークの機能を拡張することで、複素変換に対する近似同値性を示す。

In this work we seek to bridge the concepts of topographic organization and equivariance in neural networks. To accomplish this, we introduce the Topographic VAE: a novel method for efficiently training deep generative models with topographically organized latent variables. We show that such a model indeed learns to organize its activations according to salient characteristics such as digit class, width, and style on MNIST. Furthermore, through topographic organization over time (i.e. temporal coherence), we demonstrate how predefined latent space transformation operators can be encouraged for observed transformed input sequences -- a primitive form of unsupervised learned equivariance. We demonstrate that this model successfully learns sets of approximately equivariant features (i.e. "capsules") directly from sequences and achieves higher likelihood on correspondingly transforming test sequences. Equivariance is verified quantitatively by measuring the approximate commutativity of the inference network and the sequence transformations. Finally, we demonstrate approximate equivariance to complex transformations, expanding upon the capabilities of existing group equivariant neural networks.
翻訳日:2021-09-06 14:04:24 公開日:2021-09-03
# マルチエージェント分散強化学習における効率的なコミュニケーション

Efficient Communication in Multi-Agent Distributed Reinforcement Learning ( http://arxiv.org/abs/2109.01417v1 )

ライセンス: Link先を確認
Daniel Jarne Ornia, Manuel Mazo Jr(参考訳) 本稿では,イベントトリガ制御(etc)技術に触発されたマルチエージェント学習システムに必要な情報通信量を削減する手法を提案する。 我々は,マルコフ決定過程(mdp)における分散q学習問題のベースラインシナリオを考える。 イベントベースのアプローチの後、NエージェントはMDPを探索し、必要に応じて中央学習者と経験を伝達し、アクターQ機能の更新を行う。 本稿では,通常のq-learningアルゴリズムに対して保持される収束保証を分析し,そのような分散システムにおいて,イベントベースの通信によりデータ伝送速度が大幅に低下することを示す実験結果を示す。 さらに、これらのイベントベースアプローチが学習プロセスに与える影響(望ましくない、望ましくない)と、より複雑なマルチエージェント学習システムに適用できる方法について論じる。

We present in this work an approach to reduce the communication of information needed on a multi-agent learning system inspired by Event Triggered Control (ETC) techniques. We consider a baseline scenario of a distributed Q-learning problem on a Markov Decision Process (MDP). Following an event-based approach, N agents explore the MDP and communicate experiences to a central learner only when necessary, which performs updates of the actor Q functions. We analyse the convergence guarantees retained with respect to a regular Q-learning algorithm, and present experimental results showing that event-based communication results in a substantial reduction of data transmission rates in such distributed systems. Additionally, we discuss what effects (desired and undesired) these event-based approaches have on the learning processes studied, and how they can be applied to more complex multi-agent learning systems.
翻訳日:2021-09-06 14:04:08 公開日:2021-09-03
# 深部ニューラルネットワークにおけるアクティベーション関数とモデルプルーニングの設計のためのトポロジカルフレームワークの利用

Using Topological Framework for the Design of Activation Function and Model Pruning in Deep Neural Networks ( http://arxiv.org/abs/2109.01572v1 )

ライセンス: Link先を確認
Yogesh Kochar, Sunil Kumar Vengalil, Neelam Sinha(参考訳) コンピュータビジョン、音声認識、自然言語処理といった分野にまたがる様々なタスクにおけるディープニューラルネットワークの成功は、トレーニングプロセスのダイナミクスや訓練されたモデルの動作を理解する必要に迫られている。 本論文は,(1)より高速なトレーニング収束のための新しいアクティベーション関数,(2)アクティベーション関数に関係なくトレーニングされたモデルのフィルタを体系的にプルーニングする。 トレーニング中の各層によって変換されるトレーニングサンプルの空間のトポロジ的変換を,アクティベーション関数を変化させることで解析する。 二分分類作業において,活性化関数の変化が訓練中の収束に及ぼす影響を報告する。 分類タスクの高速化を目的とした新しいアクティベーション関数を提案する。 ここでは、ベッチ数はデータのトポロジカルな複雑さの定量化に使用される。 mlpを用いた大規模ベッチ数(>150)の一般合成バイナリ分類データセットの実験結果について報告する。 その結果, 活性化関数は1.5~2の係数でエポックスを小さく抑えることができ, ベッチ数は活性化関数を持つ層間で高速に減少することがわかった。 提案手法は,CNNを用いたMNIST, CIFAR-10, cat-vs-dog画像のベンチマーク画像データセットを用いて検証した。 実験結果に基づいて,訓練されたモデルを刈り取る新しい手法を提案する。 訓練されたモデルは、大きなベッチ数を持つ位相空間にデータを変換するフィルタを取り除いた。 ベッチ数300を超える全てのフィルタは、精度を大幅に低下させることなく各層から除去された。 これにより予測時間が短縮され、モデルのメモリサイズが削減された。

Success of deep neural networks in diverse tasks across domains of computer vision, speech recognition and natural language processing, has necessitated understanding the dynamics of training process and also working of trained models. Two independent contributions of this paper are 1) Novel activation function for faster training convergence 2) Systematic pruning of filters of models trained irrespective of activation function. We analyze the topological transformation of the space of training samples as it gets transformed by each successive layer during training, by changing the activation function. The impact of changing activation function on the convergence during training is reported for the task of binary classification. A novel activation function aimed at faster convergence for classification tasks is proposed. Here, Betti numbers are used to quantify topological complexity of data. Results of experiments on popular synthetic binary classification datasets with large Betti numbers(>150) using MLPs are reported. Results show that the proposed activation function results in faster convergence requiring fewer epochs by a factor of 1.5 to 2, since Betti numbers reduce faster across layers with the proposed activation function. The proposed methodology was verified on benchmark image datasets: fashion MNIST, CIFAR-10 and cat-vs-dog images, using CNNs. Based on empirical results, we propose a novel method for pruning a trained model. The trained model was pruned by eliminating filters that transform data to a topological space with large Betti numbers. All filters with Betti numbers greater than 300 were removed from each layer without significant reduction in accuracy. This resulted in faster prediction time and reduced memory size of the model.
翻訳日:2021-09-06 14:03:02 公開日:2021-09-03
# オープンソースデータセットとマルチタスクモデルによるマレー名前付きエンティティ認識

An Open-Source Dataset and A Multi-Task Model for Malay Named Entity Recognition ( http://arxiv.org/abs/2109.01293v1 )

ライセンス: Link先を確認
Yingwen Fu and Nankai Lin and Zhihe Yang and Shengyi Jiang(参考訳) 名前付きエンティティ認識(NER)は自然言語処理(NLP)の基本課題である。 しかし、ほとんどの最先端の研究は、主に英語のような高リソース言語を指向しており、低リソース言語に広く適用されていない。 マレー語では、関連するNERリソースは限られている。 本研究では,同義語のラベル付きデータセットと反復最適化に基づくデータセット構築フレームワークを提案し,28,991文(384万トークン以上)からなるMYNERデータセット(MYNER)を構築する。 さらに,NERにおける境界情報をよりよく統合するために,マレーNERタスクの双方向リビジョン機構を備えたマルチタスク(MT)モデルを提案する。 具体的には,NERトレーニングを明示的かつ暗黙的に改善するために,境界検出という補助的タスクを導入する。 さらに,条件ラベル転送を行い,補助タスクによる誤り伝播を緩和するために,ゲート無視機構を提案する。 実験により,本モデルがMYNERのベースラインよりも高い結果が得られることが示された。 この論文のデータセットとモデルは、ベンチマークデータセットとして公開されます。

Named entity recognition (NER) is a fundamental task of natural language processing (NLP). However, most state-of-the-art research is mainly oriented to high-resource languages such as English and has not been widely applied to low-resource languages. In Malay language, relevant NER resources are limited. In this work, we propose a dataset construction framework, which is based on labeled datasets of homologous languages and iterative optimization, to build a Malay NER dataset (MYNER) comprising 28,991 sentences (over 384 thousand tokens). Additionally, to better integrate boundary information for NER, we propose a multi-task (MT) model with a bidirectional revision (Bi-revision) mechanism for Malay NER task. Specifically, an auxiliary task, boundary detection, is introduced to improve NER training in both explicit and implicit ways. Furthermore, a gated ignoring mechanism is proposed to conduct conditional label transfer and alleviate error propagation by the auxiliary task. Experimental results demonstrate that our model achieves comparable results over baselines on MYNER. The dataset and the model in this paper would be publicly released as a benchmark dataset.
翻訳日:2021-09-06 14:02:10 公開日:2021-09-03
# 会話テキストからの話者ペルソナの検出

Detecting Speaker Personas from Conversational Texts ( http://arxiv.org/abs/2109.01330v1 )

ライセンス: Link先を確認
Jia-Chen Gu, Zhen-Hua Ling, Yu Wu, Quan Liu, Zhigang Chen, Xiaodan Zhu(参考訳) ペルソナは対話応答予測に有用である。 しかし、現在の研究で使われるペルソナは事前に定義されており、会話の前に入手するのは難しい。 この問題に対処するために,従来の会話文に基づく話者ペルソナの検出を目的とした,spd(speaker persona detection)という新しいタスクについて検討した。 このタスクでは、会話のテキストから最良マッチングされたペルソナを候補から検索する。 spdのコンテキストとペルソナはどちらも複数の文で構成されているため、これは多対多のセマンティックマッチングタスクである。 これらの文の長期的な依存性と動的冗長性は、このタスクの難易度を高める。 我々は,Persona Match on Persona-Chat (PMPC) と呼ばれるSPDのためのデータセットを構築した。 さらに,いくつかのベースラインモデルを評価し,この課題に対する発話対注目(U2P)マッチングネットワークを提案する。 U2Pモデルは、コンテキストとペルソナの両方を複数のシーケンスの集合として扱う微粒度で動作する。 そして、各シーケンスペアをスコアし、アグリゲーションを介してコンテキスト対対に対する解釈可能な総合スコアを得る。 評価の結果,U2Pモデルはベースラインモデルよりも有意に優れていた。

Personas are useful for dialogue response prediction. However, the personas used in current studies are pre-defined and hard to obtain before a conversation. To tackle this issue, we study a new task, named Speaker Persona Detection (SPD), which aims to detect speaker personas based on the plain conversational text. In this task, a best-matched persona is searched out from candidates given the conversational text. This is a many-to-many semantic matching task because both contexts and personas in SPD are composed of multiple sentences. The long-term dependency and the dynamic redundancy among these sentences increase the difficulty of this task. We build a dataset for SPD, dubbed as Persona Match on Persona-Chat (PMPC). Furthermore, we evaluate several baseline models and propose utterance-to-profile (U2P) matching networks for this task. The U2P models operate at a fine granularity which treat both contexts and personas as sets of multiple sequences. Then, each sequence pair is scored and an interpretable overall score is obtained for a context-persona pair through aggregation. Evaluation results show that the U2P models outperform their baseline counterparts significantly.
翻訳日:2021-09-06 14:01:52 公開日:2021-09-03
# 言語モデル、語彙翻訳、再順序付け:古典的smtのレンズを通してのnmtの訓練過程

Language Modeling, Lexical Translation, Reordering: The Training Process of NMT through the Lens of Classical SMT ( http://arxiv.org/abs/2109.01396v1 )

ライセンス: Link先を確認
Elena Voita, Rico Sennrich, Ivan Titov(参考訳) 翻訳タスクを個別に学習されたコンポーネントに分解する従来の統計MTとは異なり、ニューラルネットワークは翻訳プロセス全体をモデル化するために単一のニューラルネットワークを使用する。 ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程で異なる能力を取得する方法や、従来のSMTの異なるモデルのミラーリング方法がまだ明確ではない。 本研究では,3つの中核SMTコンポーネントに関連する能力について考察し,NMTはまず目標言語モデリングを学習し,単語間翻訳に近づく翻訳品質を改善し,さらに複雑な順序付けパターンを学習する。 この振る舞いは、いくつかのモデルと言語ペアに当てはまることを示す。 さらに,このような学習過程の理解が実際にどのように役立つかを説明し,例えば教師モデル選択を導くことによって,バニラ非自己回帰型ニューラルマシン翻訳を改善する方法を示す。

Differently from the traditional statistical MT that decomposes the translation task into distinct separately learned components, neural machine translation uses a single neural network to model the entire translation process. Despite neural machine translation being de-facto standard, it is still not clear how NMT models acquire different competences over the course of training, and how this mirrors the different models in traditional SMT. In this work, we look at the competences related to three core SMT components and find that during training, NMT first focuses on learning target-side language modeling, then improves translation quality approaching word-by-word translation, and finally learns more complicated reordering patterns. We show that this behavior holds for several models and language pairs. Additionally, we explain how such an understanding of the training process can be useful in practice and, as an example, show how it can be used to improve vanilla non-autoregressive neural machine translation by guiding teacher model selection.
翻訳日:2021-09-06 14:01:34 公開日:2021-09-03
# 分布シフトを考慮した自然言語処理のための学習ニューラルモデル

Learning Neural Models for Natural Language Processing in the Face of Distributional Shift ( http://arxiv.org/abs/2109.01558v1 )

ライセンス: Link先を確認
Paul Michel(参考訳) 特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーション(例えば、最先端のパフォーマンス)に結びついている。 感情分類、スパン予測に基づく質問応答または機械翻訳)。 しかし、これはデータ分散が定常である、という仮定に基づいている。 データはトレーニングとテストの時間の両方で 固定された分布からサンプリングされます この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。 さらに、データ分散がモデルのライフタイムの過程でシフトすることが期待される実世界のユースケースには不適応である。 この論文の最初のゴールは、このシフトが自然言語処理のコンテキストで得る様々な形態を特徴付け、現在のディープラーニングアーキテクチャに与える影響を測定するためのベンチマークと評価指標を提案することである。 次に,nlpモデルにおける分布シフトの影響を緩和するためのステップを講じる。 そこで我々は,分散的ロバストな最適化フレームワークのパラメトリック再構成に基づく手法を開発した。 実証的に、これらの手法が現実的な問題の選択において示されるように、より堅牢なモデルをもたらすことを示す。 この論文の第3部と最終部では、既存のモデルを新しいドメインやタスクに効率的に適応する方法を探る。 このトピックへの我々の貢献は、情報幾何学からインスピレーションを得て、適応中の破滅的な忘れの問題を軽減する新しい勾配更新ルールを導出する。

The dominating NLP paradigm of training a strong neural predictor to perform one task on a specific dataset has led to state-of-the-art performance in a variety of applications (eg. sentiment classification, span-prediction based question answering or machine translation). However, it builds upon the assumption that the data distribution is stationary, ie. that the data is sampled from a fixed distribution both at training and test time. This way of training is inconsistent with how we as humans are able to learn from and operate within a constantly changing stream of information. Moreover, it is ill-adapted to real-world use cases where the data distribution is expected to shift over the course of a model's lifetime. The first goal of this thesis is to characterize the different forms this shift can take in the context of natural language processing, and propose benchmarks and evaluation metrics to measure its effect on current deep learning architectures. We then proceed to take steps to mitigate the effect of distributional shift on NLP models. To this end, we develop methods based on parametric reformulations of the distributionally robust optimization framework. Empirically, we demonstrate that these approaches yield more robust models as demonstrated on a selection of realistic problems. In the third and final part of this thesis, we explore ways of efficiently adapting existing models to new domains or tasks. Our contribution to this topic takes inspiration from information geometry to derive a new gradient update rule which alleviate catastrophic forgetting issues during adaptation.
翻訳日:2021-09-06 14:01:15 公開日:2021-09-03
# コンテキスト型埋め込みに基づく畳み込みニューラルネットワークによる重複質問同定

Contextualized Embeddings based Convolutional Neural Networks for Duplicate Question Identification ( http://arxiv.org/abs/2109.01560v1 )

ライセンス: Link先を確認
Harsh Sakhrani (1), Saloni Parekh (1) and Pratik Ratadiya (2) ((1) Pune Institute of Computer Technology, Maharashtra, India, (2) vCreaTek Consulting Services Pvt. Ltd., Maharashtra, India)(参考訳) 質問パラフレーズ識別(QPI)は,大規模質問回答フォーラムにとって重要な課題である。 QPIの目的は、与えられた質問のペアが意味的に同一かどうかを決定することである。 このタスクに対する以前のアプローチは有望な結果をもたらしたが、多くの場合、高価で時間を要する複雑なリピートメカニズムに依存している。 本稿では,QPIタスクのための双方向トランスフォーマーエンコーダと畳み込みニューラルネットワークを組み合わせた新しいアーキテクチャを提案する。 提案したアーキテクチャから,SiameseとMatched Aggregationという2つの異なる推論設定を用いて予測を行う。 実験の結果,quora question pairsデータセット上での最先端性能が得られた。 モデルアーキテクチャに畳み込み層を追加することで、両方の推論設定の結果が改善されることを実証的に証明します。 また,部分的および完全的微調整の影響を調査し,計算能力と精度のトレードオフを分析した。 得られた結果から,マッチング集約設定はシアーム設定を一貫して上回っていると結論づけた。 私たちの作業は、アーキテクチャの組み合わせとセットアップがQPIタスクにより良い結果をもたらす可能性についての洞察を提供します。

Question Paraphrase Identification (QPI) is a critical task for large-scale Question-Answering forums. The purpose of QPI is to determine whether a given pair of questions are semantically identical or not. Previous approaches for this task have yielded promising results, but have often relied on complex recurrence mechanisms that are expensive and time-consuming in nature. In this paper, we propose a novel architecture combining a Bidirectional Transformer Encoder with Convolutional Neural Networks for the QPI task. We produce the predictions from the proposed architecture using two different inference setups: Siamese and Matched Aggregation. Experimental results demonstrate that our model achieves state-of-the-art performance on the Quora Question Pairs dataset. We empirically prove that the addition of convolution layers to the model architecture improves the results in both inference setups. We also investigate the impact of partial and complete fine-tuning and analyze the trade-off between computational power and accuracy in the process. Based on the obtained results, we conclude that the Matched-Aggregation setup consistently outperforms the Siamese setup. Our work provides insights into what architecture combinations and setups are likely to produce better results for the QPI task.
翻訳日:2021-09-06 14:00:53 公開日:2021-09-03
# 微調整言語モデルはゼロショット学習者である

Finetuned Language Models Are Zero-Shot Learners ( http://arxiv.org/abs/2109.01652v1 )

ライセンス: Link先を確認
Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le(参考訳) 本稿では,言語モデルのゼロショット学習能力を改善するための簡易な方法を提案する。 命令によって記述されるタスクの集合上で言語モデルを微調整する命令チューニングは、目に見えないタスクのゼロショット性能を本質的に向上させる。 137B パラメータを事前訓練した言語モデルと、自然言語の命令テンプレートによって言語化された 60 以上の NLP タスクにチューニングする。 FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。 FLANは、修正されていないものの性能を大幅に改善し、評価した25のタスクのうち、ゼロショット175B GPT-3を上回っます。 FLANは、ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA、StoryClozeなど、数発のGPT-3よりも優れている。 アブレーション研究により、タスク数とモデルスケールが命令チューニングの成功の重要な要素であることが判明した。

This paper explores a simple method for improving the zero-shot learning abilities of language models. We show that instruction tuning -- finetuning language models on a collection of tasks described via instructions -- substantially boosts zero-shot performance on unseen tasks. We take a 137B parameter pretrained language model and instruction-tune it on over 60 NLP tasks verbalized via natural language instruction templates. We evaluate this instruction-tuned model, which we call FLAN, on unseen task types. FLAN substantially improves the performance of its unmodified counterpart and surpasses zero-shot 175B GPT-3 on 19 of 25 tasks that we evaluate. FLAN even outperforms few-shot GPT-3 by a large margin on ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, and StoryCloze. Ablation studies reveal that number of tasks and model scale are key components to the success of instruction tuning.
翻訳日:2021-09-06 14:00:34 公開日:2021-09-03
# シンボルの創発と課題への解決策

Symbol Emergence and The Solutions to Any Task ( http://arxiv.org/abs/2109.01281v1 )

ライセンス: Link先を確認
Michael Timothy Bennett(参考訳) 以下は、意図、任意のタスクとその解を定義し、次に、常にIntensional Solutionと呼ばれるものを構築するエージェントは、人工知能として資格を持つと論じる。 次に、このようなエージェントによって自然言語がどのように出現し、獲得されるかを説明し、抽象的なシンボルシステムとタスクへの解が同一であるため、同様の強制の下で働く他の個人の意図をモデル化する能力を与える。

The following defines intent, an arbitrary task and its solutions, and then argues that an agent which always constructs what is called an Intensional Solution would qualify as artificial general intelligence. We then explain how natural language may emerge and be acquired by such an agent, conferring the ability to model the intent of other individuals labouring under similar compulsions, because an abstract symbol system and the solution to a task are one and the same.
翻訳日:2021-09-06 14:00:08 公開日:2021-09-03
# 加速可能なシンボル発見のためのデータ統合と理論

Integration of Data and Theory for Accelerated Derivable Symbolic Discovery ( http://arxiv.org/abs/2109.01634v1 )

ライセンス: Link先を確認
Cristina Cornelio, Sanjeeb Dash, Vernon Austel, Tyler Josephson, Joao Goncalves, Kenneth Clarkson, Nimrod Megiddo, Bachir El Khadir, Lior Horesh(参考訳) 科学者は長い間、データを正確に記述する有意義な方程式の発見を目指してきた。 機械学習アルゴリズムは正確なデータ駆動モデルの構築を自動化するが、既存の知識と一貫性があることを保証することは難しい。 自然法則の原理的導出を可能にするために,自動定理証明と記号回帰を組み合わせた手法を開発した。 ケプラーの第3法則、アインシュタインの相対論的時間拡張、ラングミュアの吸着理論について、それぞれの場合において、実験データを背景理論と自動的に接続する。 論理的推論と機械学習の組み合わせは、自然現象の重要な側面に関する一般的な洞察を提供する。

Scientists have long aimed to discover meaningful equations which accurately describe data. Machine learning algorithms automate construction of accurate data-driven models, but ensuring that these are consistent with existing knowledge is a challenge. We developed a methodology combining automated theorem proving with symbolic regression, enabling principled derivations of laws of nature. We demonstrate this for Kepler's third law, Einstein's relativistic time dilation, and Langmuir's theory of adsorption, in each case, automatically connecting experimental data with background theory. The combination of logical reasoning with machine learning provides generalizable insights into key aspects of the natural phenomena.
翻訳日:2021-09-06 13:59:59 公開日:2021-09-03
# CAP-Net:3次元形状解析のための対応型ポイントビュー融合ネットワーク

CAP-Net: Correspondence-Aware Point-view Fusion Network for 3D Shape Analysis ( http://arxiv.org/abs/2109.01291v1 )

ライセンス: Link先を確認
Xinwei He, Silin Cheng, Song Bai, Xiang Bai(参考訳) ポイントクラウドとマルチビューデータの融合による3d表現の学習は、かなり効果的であることが証明されている。 従来の研究は2つのモダリティのグローバルな特徴の活用に重点を置いていたが、本稿ではより差別的な特徴は「融合する場所」をモデル化することによって導き出すことができると論じている。 そこで本研究では,CAPNet(Corresponden ce-Aware Point-view Fusion Net)を提案する。 CAP-Netの中核となる要素はCAF(Correspondence-A ware Fusion)と呼ばれるモジュールで、2つのモードの局所的な特徴を対応スコアに基づいて統合する。 また,低値の対応スコアをフィルタリングして局所的局所対応を得る手法を提案し,融合過程の冗長性を低減させる。 CAP-Netでは,CAFモジュールを用いて双方向かつ階層的に2つのモードのマルチスケール特徴を融合させ,より情報的特徴を得る。 3次元オブジェクト分類と検索に関する一般的な3次元形状ベンチマークの総合評価は,提案手法の優位性を示している。

Learning 3D representations by fusing point cloud and multi-view data has been proven to be fairly effective. While prior works typically focus on exploiting global features of the two modalities, in this paper we argue that more discriminative features can be derived by modeling "where to fuse". To investigate this, we propose a novel Correspondence-Aware Point-view Fusion Net (CAPNet). The core element of CAP-Net is a module named Correspondence-Aware Fusion (CAF) which integrates the local features of the two modalities based on their correspondence scores. We further propose to filter out correspondence scores with low values to obtain salient local correspondences, which reduces redundancy for the fusion process. In our CAP-Net, we utilize the CAF modules to fuse the multi-scale features of the two modalities both bidirectionally and hierarchically in order to obtain more informative features. Comprehensive evaluations on popular 3D shape benchmarks covering 3D object classification and retrieval show the superiority of the proposed framework.
翻訳日:2021-09-06 13:59:29 公開日:2021-09-03
# Few-Shot, Fine-Grained Sports Action Recognitionのためのビデオポス蒸留

Video Pose Distillation for Few-Shot, Fine-Grained Sports Action Recognition ( http://arxiv.org/abs/2109.01305v1 )

ライセンス: Link先を確認
James Hong, Matthew Fisher, Micha\"el Gharbi, Kayvon Fatahalian(参考訳) 人間のポーズは、きめ細かいスポーツ行動を理解するのに役立つ。 しかし、ポーズ推定器は、ドメインシフトや動きのぼやけやオクルージョンなどの要因により、スポーツビデオで走ると信頼できないことが多い。 これにより、アクション認識などの下流タスクがポーズに依存する場合、精度が低下する。 エンドツーエンドの学習はポーズを回避しますが、一般化するためにより多くのラベルが必要です。 本稿では、ポーズ推定に挑戦する個人スポーツなど、新しいビデオドメインの機能を学ぶための弱教師付きテクニックであるビデオポス蒸留(VPD)を紹介する。 VPDの下では、学生ネットワークがスポーツビデオのRGBフレームからロバストなポーズ特徴を抽出することを学び、ポーズが信頼できるとみなされるたびに、事前に訓練された教師のポーズ検出器の出力と一致する。 私たちの戦略は、ポーズとエンド・ツー・エンドの両方の世界のベストを保ち、生の動画フレームのリッチなビジュアルパターンを活用しつつ、ターゲットの動画領域におけるアスリートのポーズと動きに一致する特徴を学習し、アスリートの動作に無関係なパターンへの過剰フィットを避ける。 VPD機能は、4つの現実世界のスポーツビデオデータセットにおける、いくつかのショット、きめ細かいアクション認識、検索、検出タスクのパフォーマンスを改善する。

Human pose is a useful feature for fine-grained sports action understanding. However, pose estimators are often unreliable when run on sports video due to domain shift and factors such as motion blur and occlusions. This leads to poor accuracy when downstream tasks, such as action recognition, depend on pose. End-to-end learning circumvents pose, but requires more labels to generalize. We introduce Video Pose Distillation (VPD), a weakly-supervised technique to learn features for new video domains, such as individual sports that challenge pose estimation. Under VPD, a student network learns to extract robust pose features from RGB frames in the sports video, such that, whenever pose is considered reliable, the features match the output of a pretrained teacher pose detector. Our strategy retains the best of both pose and end-to-end worlds, exploiting the rich visual patterns in raw video frames, while learning features that agree with the athletes' pose and motion in the target video domain to avoid over-fitting to patterns unrelated to athletes' motion. VPD features improve performance on few-shot, fine-grained action recognition, retrieval, and detection tasks in four real-world sports video datasets, without requiring additional ground-truth pose annotations.
翻訳日:2021-09-06 13:59:13 公開日:2021-09-03
# 変圧器モデルの集約によるVSPWデータセットのセマンティックセグメンテーション

Semantic Segmentation on VSPW Dataset through Aggregation of Transformer Models ( http://arxiv.org/abs/2109.01316v1 )

ライセンス: Link先を確認
Zixuan Chen, Junhong Zou, Xiaotao Wang(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて重要なタスクであり、そこから自律運転やシーン解析などの重要な利用シナリオが導出される。 ビデオセマンティックセグメンテーションの課題に重点を置いて,本大会に参加した。 本稿では,ICCV2021 - Video Scene Parsing in the Wild Challengeにおけるチーム"BetterThing"のソリューションについて紹介する。 トランスフォーマーはビデオフレームの特徴を抽出するためのバックボーンとして使用され、最終的な結果は2つのトランスフォーマーモデルSWINとVOLOの出力の集約である。 この解は57.3% mIoUを達成し、ワイルドチャレンジのビデオシーンパーシングでは3位にランクインした。

Semantic segmentation is an important task in computer vision, from which some important usage scenarios are derived, such as autonomous driving, scene parsing, etc. Due to the emphasis on the task of video semantic segmentation, we participated in this competition. In this report, we briefly introduce the solutions of team 'BetterThing' for the ICCV2021 - Video Scene Parsing in the Wild Challenge. Transformer is used as the backbone for extracting video frame features, and the final result is the aggregation of the output of two Transformer models, SWIN and VOLO. This solution achieves 57.3% mIoU, which is ranked 3rd place in the Video Scene Parsing in the Wild Challenge.
翻訳日:2021-09-06 13:58:47 公開日:2021-09-03
# 配向アテンションモジュールを用いたデュアルカメラ超解像

Dual-Camera Super-Resolution with Aligned Attention Modules ( http://arxiv.org/abs/2109.01349v1 )

ライセンス: Link先を確認
Tengfei Wang, Jiaxin Xie, Wenxiu Sun, Qiong Yan, Qifeng Chen(参考訳) 本稿では,高画質・高精細な結果に参照画像を利用するデュアルカメラ超解像(DCSR)に着目した参照ベース超解像(RefSR)に対する新しいアプローチを提案する。 提案手法は,空間アライメント操作とパッチに基づく標準特徴マッチングを一般化する。 さらに、RefSRの有望な応用であるデュアルカメラの超解像を探求し、スマートフォンのメインカメラと望遠カメラから146枚の画像対からなるデータセットを構築する。 実世界画像とトレーニング画像との領域ギャップを埋めるため,実世界画像に対する自己教師付きドメイン適応戦略を提案する。 私たちのデータセットと公開ベンチマークに関する広範囲な実験は、定量的評価と視覚的比較の両方において、最先端の手法によって明らかに改善されていることを示している。

We present a novel approach to reference-based super-resolution (RefSR) with the focus on dual-camera super-resolution (DCSR), which utilizes reference images for high-quality and high-fidelity results. Our proposed method generalizes the standard patch-based feature matching with spatial alignment operations. We further explore the dual-camera super-resolution that is one promising application of RefSR, and build a dataset that consists of 146 image pairs from the main and telephoto cameras in a smartphone. To bridge the domain gaps between real-world images and the training images, we propose a self-supervised domain adaptation strategy for real-world images. Extensive experiments on our dataset and a public benchmark demonstrate clear improvement achieved by our method over state of the art in both quantitative evaluation and visual comparisons.
翻訳日:2021-09-06 13:58:34 公開日:2021-09-03
# 混合および不均一発光剤の空間的変化による白色バランス

Spatially varying white balancing for mixed and non-uniform illuminants ( http://arxiv.org/abs/2109.01350v1 )

ライセンス: Link先を確認
Teruaki Akazawa, Yuma Kinoshita and Hitoshi Kiya(参考訳) 本稿では,単光,混合光,非一様光に対する「散発的に変化するホワイトバランス」と呼ばれる新しいホワイトバランス調整を提案する。 重みとn対角行列を用いることにより、このような照明条件下で画像中の空間的に変化する色すべてに対する照明効果を低減できる。 対照的に、従来のホワイトバランス調整では、単一の照度の下ではすべての色の補正を考慮していない。 また、多色バランス調整は複数の色を対応する真理色にマッピングすることができるが、これはホワイトバランスとは異なり、非対角行列を使用するとランク不足の問題が発生する可能性がある。 実験では, 従来の白色および多色バランスと比較して, 混合および非均一照明下での手法の有効性を示した。 さらに, 単一光源の下では, 提案手法は従来のホワイトバランスとほぼ同等の性能を有する。

In this paper, we propose a novel white balance adjustment, called "spatially varying white balancing," for single, mixed, and non-uniform illuminants. By using n diagonal matrices along with a weight, the proposed method can reduce lighting effects on all spatially varying colors in an image under such illumination conditions. In contrast, conventional white balance adjustments do not consider the correcting of all colors except under a single illuminant. Also, multi-color balance adjustments can map multiple colors into corresponding ground truth colors, although they may cause the rank deficiency problem to occur as a non-diagonal matrix is used, unlike white balancing. In an experiment, the effectiveness of the proposed method is shown under mixed and non-uniform illuminants, compared with conventional white and multi-color balancing. Moreover, under a single illuminant, the proposed method has almost the same performance as the conventional white balancing.
翻訳日:2021-09-06 13:58:20 公開日:2021-09-03
# MitoVis:神経ミトコンドリア分析のための視覚誘導型対話型知能システム

MitoVis: A Visually-guided Interactive Intelligent System for Neuronal Mitochondria Analysis ( http://arxiv.org/abs/2109.01351v1 )

ライセンス: Link先を確認
JunYoung Choi, Hakjun Lee, Suyeon Kim, Seok-Kyu Kwon, and Won-Ki Jeong(参考訳) 神経細胞は樹状突起や軸索を含む分極構造を持ち、区画特異的な機能にはミトコンドリアが関与する。 ミトコンドリアの形態は神経細胞の機能や神経変性疾患と密接に関連していることが知られている。 ミトコンドリアの形態を自動解析するためにいくつかの深層学習法が開発されているが、既存の手法の実際の解析への応用にはいくつかの困難がある。 事前学習したディープラーニングモデルの性能は、対象データによって異なる可能性があるため、モデルの再トレーニングがしばしば必要となる。 さらに、ディープラーニングは制約された設定下では優れたパフォーマンスを示しているが、実際の分析で人間が修正する必要があるエラーは常に存在する。 そこで本稿では,エンド・ツー・エンドのデータ処理のための可視化システムであるmitovisを紹介し,神経細胞ミトコンドリアの形態をインタラクティブに解析する。 mitovisは、機械学習のドメイン知識がなくても、事前学習されたニューラルネットワークモデルのインタラクティブな微調整を可能にする。 MitoVisはまた、ユーザが最小限の努力でエラーを素早く識別し修正できるように、新しいビジュアルガイドとインタラクティブな証明読影機能を提供している。 本システムの有用性と有効性は,神経科学者が実際の分析シナリオで実施したケーススタディを通して実証する。 その結果,mitovisは全手動解析法と比較して,最大15倍の高速解析が可能となった。

Neurons have a polarized structure, including dendrites and axons, and compartment-specific functions can be affected by dwelling mitochondria. It is known that the morphology of mitochondria is closely related to the functions of neurons and neurodegenerative diseases. Even though several deep learning methods have been developed to automatically analyze the morphology of mitochondria, the application of existing methods to actual analysis still encounters several difficulties. Since the performance of pre-trained deep learning model may vary depending on the target data, re-training of the model is often required. Besides, even though deep learning has shown superior performance under a constrained setup, there are always errors that need to be corrected by humans in real analysis. To address these issues, we introduce MitoVis, a novel visualization system for end-to-end data processing and interactive analysis of the morphology of neuronal mitochondria. MitoVis enables interactive fine-tuning of a pre-trained neural network model without the domain knowledge of machine learning, which allows neuroscientists to easily leverage deep learning in their research. MitoVis also provides novel visual guides and interactive proofreading functions so that the users can quickly identify and correct errors in the result with minimal effort. We demonstrate the usefulness and efficacy of the system via a case study conducted by a neuroscientist on a real analysis scenario. The result shows that MitoVis allows up to 15x faster analysis with similar accuracy compared to the fully manual analysis method.
翻訳日:2021-09-06 13:58:07 公開日:2021-09-03
# フィットネスの深層学習

Deep Learning for Fitness ( http://arxiv.org/abs/2109.01376v1 )

ライセンス: Link先を確認
Mahendran N(参考訳) 運動運動中やヨガ中の姿勢を正しく維持するためのFitness Tutorを提案する。 フィットネスに関する現在の研究は、食品サプリメントの提案、ワークアウトへのアクセス、ワークアウトウェアラブルはフィットネスを改善する上で素晴らしい仕事をしている。 一方、現在の状況は研修生によるワークアウトの監視が困難になっている。 ロボット手術のような医療革新にインスパイアされた我々は、ポーズ推定を用いてワークアウトをガイドできる新しいアプリケーションFitnessチューターを設計する。 ポース推定は、データを集め、ユーザをデータで案内する参照画像上に展開することができる。 これにより、Fitnessの教師は、リモート環境でトレーニング(運動とヨガの両方)をイメージとして単一の基準姿勢でガイドすることができる。 tensorflowではpassenetモデルとp5jsを使ってスケルトンを開発しています。 fitness tutorは、ポーズ推定モデルの応用であり、フィットネスにリアルタイムの教育体験をもたらす。 提案実験により,ポーズ推定モデルのポテンシャルをリアルタイムに活用できることが示唆された。

We present Fitness tutor, an application for maintaining correct posture during workout exercises or doing yoga. Current work on fitness focuses on suggesting food supplements, accessing workouts, workout wearables does a great job in improving the fitness. Meanwhile, the current situation is making difficult to monitor workouts by trainee. Inspired by healthcare innovations like robotic surgery, we design a novel application Fitness tutor which can guide the workouts using pose estimation. Pose estimation can be deployed on the reference image for gathering data and guide the user with the data. This allow Fitness tutor to guide the workouts (both exercise and yoga) in remote conditions with a single reference posture as image. We use posenet model in tensorflow with p5js for developing skeleton. Fitness tutor is an application of pose estimation model in bringing a realtime teaching experience in fitness. Our experiments shows that it can leverage potential of pose estimation models by providing guidance in realtime.
翻訳日:2021-09-06 13:57:43 公開日:2021-09-03
# Occlusion-Invariant Rotation-Equivariant Semi-Supervised Depth Based Cross-View Gait Pose Estimation

Occlusion-Invariant Rotation-Equivariant Semi-Supervised Depth Based Cross-View Gait Pose Estimation ( http://arxiv.org/abs/2109.01397v1 )

ライセンス: Link先を確認
Xiao Gu, Jianxin Yang, Hanxiao Zhang, Jianing Qiu, Frank Po Wen Lo, Yao Guo, Guang-Zhong Yang, Benny Lo(参考訳) 深度画像からの3次元人体骨格の正確な推定は、医療、特に生体力学的歩行分析に重要な指標となる。 しかし、一つの視点から撮影した奥行き画像に固有の問題がある。 収集されたデータは、部分的な表面データしか記録できない閉塞によって大きく影響を受ける。 さらに、人体の深度画像は視点変化に伴う異種特性を示し、局所座標系における推定ポーズは等変回転を経ると予想される。 既存のポーズ推定モデルはどちらの問題にも敏感である。 そこで本研究では,新しい回転同変バックボーン上に構築されたオクルージョン不変な半教師あり学習フレームワークを用いたクロスビュー一般化手法を提案する。 本モデルでは,1つの視点からの実世界データと,複数の視点から合成データを学習した。 他のすべての目に見えないビューからの実世界のデータをうまく一般化できます。 我々のアプローチでは、ICL-Gaitデータセットの歩行分析において、他の最先端技術と比較して優れたパフォーマンスを示しており、提供された"地上真実"よりも、ITOPデータセット上でより説得力のあるキーポイントを生成することができる。

Accurate estimation of three-dimensional human skeletons from depth images can provide important metrics for healthcare applications, especially for biomechanical gait analysis. However, there exist inherent problems associated with depth images captured from a single view. The collected data is greatly affected by occlusions where only partial surface data can be recorded. Furthermore, depth images of human body exhibit heterogeneous characteristics with viewpoint changes, and the estimated poses under local coordinate systems are expected to go through equivariant rotations. Most existing pose estimation models are sensitive to both issues. To address this, we propose a novel approach for cross-view generalization with an occlusion-invariant semi-supervised learning framework built upon a novel rotation-equivariant backbone. Our model was trained with real-world data from a single view and unlabelled synthetic data from multiple views. It can generalize well on the real-world data from all the other unseen views. Our approach has shown superior performance on gait analysis on our ICL-Gait dataset compared to other state-of-the-arts and it can produce more convincing keypoints on ITOP dataset, than its provided "ground truth".
翻訳日:2021-09-06 13:57:28 公開日:2021-09-03
# 訓練データの信頼性に疑問を呈するゴーストロス

Ghost Loss to Question the Reliability of Training Data ( http://arxiv.org/abs/2109.01504v1 )

ライセンス: Link先を確認
Adrien Deli\`ege, Anthony Cioppa, Marc Van Droogenbroeck(参考訳) 教師付き画像分類問題は、正しく注釈付けされたと仮定されたトレーニングデータに依存しており、この仮定はディープラーニングの分野における多くの研究の基盤となっている。 その結果、トレーニング中にネットワークはアノテータが提供するラベルにマッチせざるを得なくなり、検出可能な不整合に代わる選択肢を選択する柔軟性は与えられない。 したがって、誤ってラベル付けされたトレーニングイメージは、実際には属していないクラスに分類された '`correctly'' になる可能性がある。 これにより、ネットワークのパフォーマンスが低下し、トレーニングデータの品質をチェックせずに、より複雑なネットワークを構築することができる。 本研究では,アノテーション付きデータセットの信頼性に疑問を呈する。 そこで本稿では, ある予測値に対して, 決定論的にゼロ化され, ペナル化されることなく, ネットワークが与えられたラベルの代替を選択できるような, 通常の損失と見なせるゴーストロスの概念を導入する。 概念実証実験の後, よく知られたトレーニングデータセット (MNIST, Fashion-MNIST, SVHN, CIFAR10) において, 紛らわしい画像や誤ってラベル付けされた画像を検出するためにゴーストロス原理を用い, それらの混乱を要約するための新たなツールであるサニティマトリックスを提供する。

Supervised image classification problems rely on training data assumed to have been correctly annotated; this assumption underpins most works in the field of deep learning. In consequence, during its training, a network is forced to match the label provided by the annotator and is not given the flexibility to choose an alternative to inconsistencies that it might be able to detect. Therefore, erroneously labeled training images may end up ``correctly'' classified in classes which they do not actually belong to. This may reduce the performances of the network and thus incite to build more complex networks without even checking the quality of the training data. In this work, we question the reliability of the annotated datasets. For that purpose, we introduce the notion of ghost loss, which can be seen as a regular loss that is zeroed out for some predicted values in a deterministic way and that allows the network to choose an alternative to the given label without being penalized. After a proof of concept experiment, we use the ghost loss principle to detect confusing images and erroneously labeled images in well-known training datasets (MNIST, Fashion-MNIST, SVHN, CIFAR10) and we provide a new tool, called sanity matrix, for summarizing these confusions.
翻訳日:2021-09-06 13:57:07 公開日:2021-09-03
# 普通プール

Ordinal Pooling ( http://arxiv.org/abs/2109.01561v1 )

ライセンス: Link先を確認
Adrien Deli\`ege, Maxime Istasse, Ashwani Kumar, Christophe De Vleeschouwer, Marc Van Droogenbroeck(参考訳) 畳み込みニューラルネットワークの枠組みでは、ダウンサンプリングは、すべてのアクティベーションが等しく扱われる平均プール処理や、最大アクティベーションを持つ要素のみを保持して他を破棄するmaxプール操作で実行されることが多い。 これらの操作はどちらも制限的であり、以前は準最適であることが示されている。 この問題に対処するために、新しいプール方式である「emph{ Ordinal pooling}」が導入されている。 順序プーリングは、シーケンス内のプーリング領域のすべての要素を再配置し、シーケンス内の順序に基づいて各要素に異なる重みを割り当てる。 これらの重みは、プール領域の配置された要素の重み付け和としてプール操作を計算するために用いられる。 それらは標準勾配に基づくトレーニングを通じて学習され、平均プールから最大プールまでのスペクトルのどこででも、異なる方法で振る舞いを学ぶことができる。 実験では,ネットワークがプール層内で異なるタイプのプーリング操作を行うことが有利であり,平均と最大プーリングのハイブリッド動作が有益であることが示唆された。 さらに重要なことは、順序プーリングが平均または最大プーリング操作の精度を一貫して向上させ、トレーニングをスピードアップさせ、プール操作とネットワークで使用するアクティベーション関数の選択の問題を軽減することも示している。 特にordinal poolingは、一般的に考えられるような、軽量あるいは量子化されたディープラーニングアーキテクチャを支援する。 組み込みアプリケーション。

In the framework of convolutional neural networks, downsampling is often performed with an average-pooling, where all the activations are treated equally, or with a max-pooling operation that only retains an element with maximum activation while discarding the others. Both of these operations are restrictive and have previously been shown to be sub-optimal. To address this issue, a novel pooling scheme, named\emph{ ordinal pooling}, is introduced in this work. Ordinal pooling rearranges all the elements of a pooling region in a sequence and assigns a different weight to each element based upon its order in the sequence. These weights are used to compute the pooling operation as a weighted sum of the rearranged elements of the pooling region. They are learned via a standard gradient-based training, allowing to learn a behavior anywhere in the spectrum of average-pooling to max-pooling in a differentiable manner. Our experiments suggest that it is advantageous for the networks to perform different types of pooling operations within a pooling layer and that a hybrid behavior between average- and max-pooling is often beneficial. More importantly, they also demonstrate that ordinal pooling leads to consistent improvements in the accuracy over average- or max-pooling operations while speeding up the training and alleviating the issue of the choice of the pooling operations and activation functions to be used in the networks. In particular, ordinal pooling mainly helps on lightweight or quantized deep learning architectures, as typically considered e.g. for embedded applications.
翻訳日:2021-09-06 13:56:40 公開日:2021-09-03
# インデクシングコンテキスト感度の到達可能性

Indexing Context-Sensitive Reachability ( http://arxiv.org/abs/2109.01321v1 )

ライセンス: Link先を確認
Qingkai Shi, Yongchao Wang, Charles Zhang(参考訳) 多くの文脈に敏感なデータフロー解析は、全てのペア dyck-cfl 到達可能性問題の変種として定式化することができる。 このような高い複雑さは、コンテキストに敏感なデータフロー分析のスケーラビリティを著しく制限し、大規模なソフトウェアを分析するには手頃ではない。 本稿では,コンテキストに敏感なデータフロー解析のための,cfl到達可能性問題から従来のグラフ到達可能性問題への還元である \textsc{flare} を提案する。 この削減により、ほぼ一定時間でリーチビリティクエリに答えるために、ほぼ線形空間を消費する、リーチビリティインデクシングスキームの最近の進歩の恩恵を受けることができる。 我々は,C/C++プログラムの文脈感性エイリアス解析と文脈感性情報フロー解析に適用した。 標準ベンチマークとオープンソースソフトウェアによる実験結果から、インデックスを格納するための適度なスペースのみのコストで、桁違いのスピードアップを達成できることが示されている。 私たちのアプローチの実装は公開されています。

Many context-sensitive data flow analyses can be formulated as a variant of the all-pairs Dyck-CFL reachability problem, which, in general, is of sub-cubic time complexity and quadratic space complexity. Such high complexity significantly limits the scalability of context-sensitive data flow analysis and is not affordable for analyzing large-scale software. This paper presents \textsc{Flare}, a reduction from the CFL reachability problem to the conventional graph reachability problem for context-sensitive data flow analysis. This reduction allows us to benefit from recent advances in reachability indexing schemes, which often consume almost linear space for answering reachability queries in almost constant time. We have applied our reduction to a context-sensitive alias analysis and a context-sensitive information-flow analysis for C/C++ programs. Experimental results on standard benchmarks and open-source software demonstrate that we can achieve orders of magnitude speedup at the cost of only moderate space to store the indexes. The implementation of our approach is publicly available.
翻訳日:2021-09-06 13:56:15 公開日:2021-09-03
# インスタンスサイドかクラスサイドか? 概念に基づく説明のための隣人シャプリー物語

Instance-wise or Class-wise? A Tale of Neighbor Shapley for Concept-based Explanation ( http://arxiv.org/abs/2109.01369v1 )

ライセンス: Link先を確認
Jiahui Li, Kun Kuang, Lin Li, Long Chen, Songyang Zhang, Jian Shao, Jun Xiao(参考訳) ディープニューラルネットワークは多くのデータ駆動型および予測指向のアプリケーションで顕著なパフォーマンスを示しており、時には人間よりも優れたパフォーマンスを示すこともある。 しかし、彼らの最も大きな欠点は解釈可能性の欠如であり、多くの現実世界のアプリケーションでは魅力的ではない。 モラル問題や犯罪判断、金融分析、医療診断など不確実性のある環境要因に関連する場合には、モデルの予測(モデル知識の解釈)の証拠をマイニングし、人間を説得することが不可欠である。 したがって、モデル知識の解釈方法を研究することは、学術研究と実応用の両方において最重要となる。

Deep neural networks have demonstrated remarkable performance in many data-driven and prediction-oriented applications, and sometimes even perform better than humans. However, their most significant drawback is the lack of interpretability, which makes them less attractive in many real-world applications. When relating to the moral problem or the environmental factors that are uncertain such as crime judgment, financial analysis, and medical diagnosis, it is essential to mine the evidence for the model's prediction (interpret model knowledge) to convince humans. Thus, investigating how to interpret model knowledge is of paramount importance for both academic research and real applications.
翻訳日:2021-09-06 13:55:57 公開日:2021-09-03
# アルゴリズムによるリスク評価が予測に与える影響とクラウドソーシングによる分析

The Impact of Algorithmic Risk Assessments on Human Predictions and its Analysis via Crowdsourcing Studies ( http://arxiv.org/abs/2109.01443v1 )

ライセンス: Link先を確認
Riccardo Fogliato, Alexandra Chouldechova, Zachary Lipton(参考訳) アルゴリズム的リスク評価手段(RAI)が意思決定者を支援するためにますます採用されているため、その予測性能と不平等の促進の可能性は精査されている。 しかし、ほとんどの研究は分離してこれらのツールを調べているが、研究者は、その影響を評価するには人間の相互作用者の行動を理解する必要があると認識している。 本稿では,刑法に焦点をあてた近年のクラウドソーシングの成果を生かし,今後の再逮捕を予測するために,生計を立てるビグネット研究を行う。 その結果,(1)再逮捕の確率が50%以下であるにもかかわらず,再逮捕の確率が50%を下回ると予測されることがしばしばあり,(2)参加者はraiの予測に固執しない,(3)調査に費やされる時間は参加者によって大きく異なり,10秒未満で評価される,(4)再逮捕の確率に直交する要因に一部依存する,という結論が得られた。 これらの結果は, RAI の影響を分析するためにクラウドソーシング研究を構築する際に, 設計決定が重要で見過ごされることが多いこと, 一般化可能性に関する懸念の影響を浮き彫りにしている。

As algorithmic risk assessment instruments (RAIs) are increasingly adopted to assist decision makers, their predictive performance and potential to promote inequity have come under scrutiny. However, while most studies examine these tools in isolation, researchers have come to recognize that assessing their impact requires understanding the behavior of their human interactants. In this paper, building off of several recent crowdsourcing works focused on criminal justice, we conduct a vignette study in which laypersons are tasked with predicting future re-arrests. Our key findings are as follows: (1) Participants often predict that an offender will be rearrested even when they deem the likelihood of re-arrest to be well below 50%; (2) Participants do not anchor on the RAI's predictions; (3) The time spent on the survey varies widely across participants and most cases are assessed in less than 10 seconds; (4) Judicial decisions, unlike participants' predictions, depend in part on factors that are orthogonal to the likelihood of re-arrest. These results highlight the influence of several crucial but often overlooked design decisions and concerns around generalizability when constructing crowdsourcing studies to analyze the impacts of RAIs.
翻訳日:2021-09-06 13:55:31 公開日:2021-09-03
# AIの簡単な歴史:別の冬を防ぐ方法(批判的レビュー)

A brief history of AI: how to prevent another winter (a critical review) ( http://arxiv.org/abs/2109.01517v1 )

ライセンス: Link先を確認
Amirhosein Toosi, Andrea Bottino, Babak Saboury, Eliot Siegel and Arman Rahmim(参考訳) 人工知能(ai)の分野は、科学の最も謎めいた分野の1つと見なされており、私たちの生活にすでに影響を与えている、驚くほど幅広い応用を含む過去10年間の指数関数的な成長を目撃している。 コンピュータパワーの進歩と高度なAIアルゴリズムの設計により、コンピュータは様々なタスク、特にコンピュータビジョンと音声認識の分野で人間よりも優れた性能を発揮できるようになった。 しかし、AIのパスはスムーズなものではなく、その生涯で2回(AIのウィンターズ')に分解され、どちらも一般的な成功(AIのサマーズ')を経ている。 私たちは、aiの進化を何十年もかけて簡単にまとめ、その重要な瞬間と始まりから現在に至る大きな転換点を強調しています。 そうすることで、私たちは学び、未来を予測し、別の'冬'を防ぐためにどのようなステップを踏むかについて議論しようとします。

The field of artificial intelligence (AI), regarded as one of the most enigmatic areas of science, has witnessed exponential growth in the past decade including a remarkably wide array of applications, having already impacted our everyday lives. Advances in computing power and the design of sophisticated AI algorithms have enabled computers to outperform humans in a variety of tasks, especially in the areas of computer vision and speech recognition. Yet, AI's path has never been smooth, having essentially fallen apart twice in its lifetime ('winters' of AI), both after periods of popular success ('summers' of AI). We provide a brief rundown of AI's evolution over the course of decades, highlighting its crucial moments and major turning points from inception to the present. In doing so, we attempt to learn, anticipate the future, and discuss what steps may be taken to prevent another 'winter'.
翻訳日:2021-09-06 13:55:07 公開日:2021-09-03
# オントロジー駆動型Androidマルウェアの知識グラフ

Ontology-driven Knowledge Graph for Android Malware ( http://arxiv.org/abs/2109.01544v1 )

ライセンス: Link先を確認
Ryan Christian, Sharmishtha Dutta, Youngja Park, Nidhi Rastogi(参考訳) MalONT2.0 -- マルウェアの脅威情報のためのオントロジー \cite{rastogi2020malont}。 新しいクラス(攻撃パターン、攻撃を可能にするインフラリソース、静的解析を組み込むマルウェア分析、バイナリの動的解析)と関係性は、コア能力問題の範囲を広げた後に追加された。 malont2.0により、研究者はandroidマルウェア攻撃の意味的および構文的特徴を収集する必要なクラスと関係を広範囲に捉えることができる。 このオントロジーは、マルウェア脅威知知識グラフであるmalkgの基礎を形成しており、これは3つの異なる非重複デモを用いて例証している。 マルウェア機能は、インターネット上で共有され、非構造化テキスト形式で書かれたandroidの脅威インテリジェンスに関するctiレポートから抽出されている。 これらのソースの中には、ブログ、脅威情報レポート、ツイート、ニュース記事などがある。 マルウェアの特徴を捉えた情報の最小単位は、頭と尾のエンティティからなるトリプルとして記述され、それぞれが関係に結び付けられている。 ポスターとデモでは,MalONT2.0,MalKG,および動的に成長する知識グラフTINKERについて論じる。

We present MalONT2.0 -- an ontology for malware threat intelligence \cite{rastogi2020malont}. New classes (attack patterns, infrastructural resources to enable attacks, malware analysis to incorporate static analysis, and dynamic analysis of binaries) and relations have been added following a broadened scope of core competency questions. MalONT2.0 allows researchers to extensively capture all requisite classes and relations that gather semantic and syntactic characteristics of an android malware attack. This ontology forms the basis for the malware threat intelligence knowledge graph, MalKG, which we exemplify using three different, non-overlapping demonstrations. Malware features have been extracted from CTI reports on android threat intelligence shared on the Internet and written in the form of unstructured text. Some of these sources are blogs, threat intelligence reports, tweets, and news articles. The smallest unit of information that captures malware features is written as triples comprising head and tail entities, each connected with a relation. In the poster and demonstration, we discuss MalONT2.0, MalKG, as well as the dynamically growing knowledge graph, TINKER.
翻訳日:2021-09-06 13:54:51 公開日:2021-09-03
# 教師なし病変検出・分節のためのコントラスト学習による多心性強増幅

Multi-centred Strong Augmentation via Contrastive Learning for Unsupervised Lesion Detection and Segmentation ( http://arxiv.org/abs/2109.01303v1 )

ライセンス: Link先を確認
Yu Tian and Fengbei Liu and Guansong Pang and Yuanhong Chen and Yuyuan Liu and Johan W. Verjans and Rajvinder Singh and Gustavo Carneiro(参考訳) 高品質な医用画像アノテーションの不足は、異常病変の検出と分別のための正確な臨床応用を妨げている。 この問題を軽減するため、科学コミュニティは、正常な(すなわち健康な)画像のみを含むトレーニングセットから学習する、教師なし異常検出(unsupervised anomaly detection, uad)システムの開発に取り組んでいる。 uad法が直面する重要な課題の1つは、大きさ、外観、形状の異なる異常病変を検出・切断するのに十分敏感な、効果的な低次元画像表現を学習する方法である。 そこで本研究では,自己教師付きuad事前学習アルゴリズムであるmulti-centred strong augmentedation via contrastive learning (msacl)を提案する。 msaclは、通常の画像サンプルのいくつかのタイプの強弱増強を分離して表現を学習し、弱増強は正常画像を表し、強増強は合成異常画像を表す。 このような強力な拡張を実現するため、我々はMedMixという新しいデータ拡張戦略を導入し、通常の画像に現実的な病変(異常)を持つ新たなトレーニング画像を作成する。 MSACLの事前訓練された表現は汎用的であり、様々な種類のオフ・ザ・シェルフ状態(SOTA) UADモデルの有効性を改善するために使用できる。 包括的実験の結果,msaclの使用は,大腸内視鏡,眼底検診,およびcovid-19胸部x線データセットの4つの医療画像データセットにおいて,これらのsota uadモデルを大幅に改善することが示された。

The scarcity of high quality medical image annotations hinders the implementation of accurate clinical applications for detecting and segmenting abnormal lesions. To mitigate this issue, the scientific community is working on the development of unsupervised anomaly detection (UAD) systems that learn from a training set containing only normal (i.e., healthy) images, where abnormal samples (i.e., unhealthy) are detected and segmented based on how much they deviate from the learned distribution of normal samples. One significant challenge faced by UAD methods is how to learn effective low-dimensional image representations that are sensitive enough to detect and segment abnormal lesions of varying size, appearance and shape. To address this challenge, we propose a novel self-supervised UAD pre-training algorithm, named Multi-centred Strong Augmentation via Contrastive Learning (MSACL). MSACL learns representations by separating several types of strong and weak augmentations of normal image samples, where the weak augmentations represent normal images and strong augmentations denote synthetic abnormal images. To produce such strong augmentations, we introduce MedMix, a novel data augmentation strategy that creates new training images with realistic looking lesions (i.e., anomalies) in normal images. The pre-trained representations from MSACL are generic and can be used to improve the efficacy of different types of off-the-shelf state-of-the-art (SOTA) UAD models. Comprehensive experimental results show that the use of MSACL largely improves these SOTA UAD models on four medical imaging datasets from diverse organs, namely colonoscopy, fundus screening and covid-19 chest-ray datasets.
翻訳日:2021-09-06 13:53:27 公開日:2021-09-03
# 超音波画像における映像要約のための教師なし多層空間強化学習フレームワーク

Unsupervised multi-latent space reinforcement learning framework for video summarization in ultrasound imaging ( http://arxiv.org/abs/2109.01309v1 )

ライセンス: Link先を確認
Roshan P Mathews, Mahesh Raveendranatha Panicker, Abhilash R Hareendranathan, Yale Tung Chen, Jacob L Jaremko, Brian Buchanan, Kiran Vishnu Narayan, Kesavadas C, Greeta Mathews(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、超音波スキャンのトリアージをスピードアップし、臨床医に関連情報への迅速なアクセスを提供するツールの必要性を強調している。 提案するビデオ要約技術はこの方向への一歩であり、臨床医が特定の超音波スキャン(肺超音波など)から関連するキーフレームにアクセスし、リソース、ストレージ、帯域幅の要求を削減できる。 本稿では, 緊急部(ED)におけるトリアージツールとしての有用性を高め, 遠隔医療に利用するために, 超音波映像を要約するための, 退屈で非現実的な手動ラベリングを回避し, 教師なしの学習を容易にする, 新たな非教師なし強化学習(RL)フレームワークを提案する。 エンコーダの注意アンサンブルを用いて、高次元画像は、a)正規または異常クラス(分類器エンコーダ)の少ない距離、b)ランドマークのトポロジー(セグメンテーションエンコーダ)に続く、c)距離またはトポロジーに依存しない潜在表現(畳み込みオートエンコーダ)によって、低次元の潜在空間に投影される。 デコーダは、エンコーダから遅延空間表現を利用する双方向長短メモリ(Bi-LSTM)を用いて実装される。 ビデオ要約の新しいパラダイムは、要約された各キーフレームに対して、分類ラベルとキーランドマークのセグメンテーションを提供することができる。 肺超音波(LUS)データセット上でバリデーションが行われ、通常は遠隔医療やEDトリアージにおける潜在的なユースケースを、地理的に異なる医療センター(インド、スペイン、カナダ)で取得する。

The COVID-19 pandemic has highlighted the need for a tool to speed up triage in ultrasound scans and provide clinicians with fast access to relevant information. The proposed video-summarization technique is a step in this direction that provides clinicians access to relevant key-frames from a given ultrasound scan (such as lung ultrasound) while reducing resource, storage and bandwidth requirements. We propose a new unsupervised reinforcement learning (RL) framework with novel rewards that facilitates unsupervised learning avoiding tedious and impractical manual labelling for summarizing ultrasound videos to enhance its utility as a triage tool in the emergency department (ED) and for use in telemedicine. Using an attention ensemble of encoders, the high dimensional image is projected into a low dimensional latent space in terms of: a) reduced distance with a normal or abnormal class (classifier encoder), b) following a topology of landmarks (segmentation encoder), and c) the distance or topology agnostic latent representation (convolutional autoencoders). The decoder is implemented using a bi-directional long-short term memory (Bi-LSTM) which utilizes the latent space representation from the encoder. Our new paradigm for video summarization is capable of delivering classification labels and segmentation of key landmarks for each of the summarized keyframes. Validation is performed on lung ultrasound (LUS) dataset, that typically represent potential use cases in telemedicine and ED triage acquired from different medical centers across geographies (India, Spain and Canada).
翻訳日:2021-09-06 13:52:53 公開日:2021-09-03
# スペクトル補正と高分解能RGB再構成のための深層学習手法

Deep Learning Approach for Hyperspectral Image Demosaicking, Spectral Correction and High-resolution RGB Reconstruction ( http://arxiv.org/abs/2109.01403v1 )

ライセンス: Link先を確認
Peichao Li, Michael Ebner, Philip Noonan, Conor Horgan, Anisha Bahl, Sebastien Ourselin, Jonathan Shapey and Tom Vercauteren(参考訳) hyperspectral imagingは術中組織の特徴化に最も有望な技術の一つである。 スナップショットモザイクカメラは、1回の露光でハイパースペクトラルなデータをキャプチャでき、手術の意思決定のためにリアルタイムのハイパースペクトラルイメージングシステムを作ることができる。 しかし, 得られたデータの最適利用には, 画像の空間的・スペクトル的情報を復元するために, 不適切な分解問題を解くことが必要である。 本研究では,教師付き学習手法を用いたハイパースペクトル画像のスナップショット化のための深層学習に基づく画像復号アルゴリズムを提案する。 スナップショットモザイクカメラで取得した一般の医療画像が欠如していることから,高分解能で遅い超スペクトル撮像装置で撮影された既存の医療画像データセットのスナップショット画像をシミュレートする合成画像生成手法が提案されている。 畳み込みニューラルネットワークを用いてハイパースペクトル画像の超解像を行い、続いてセンサ特異的キャリブレーションマトリックスを用いたクロストークとリーク補正を行う。 その結果, 線形補間を用いたベースライン復号法と比較して, 画像の質が向上し, 定量的かつ質的に評価された。 さらに,超高分解能rgb,酸素飽和マップを得るための高速処理時間の45\,msを,最先端のスナップショットモザイクカメラに適用することで,リアルタイム手術用ハイパースペクトルイメージングアプリケーションへのシームレスな統合の可能性を示す。

Hyperspectral imaging is one of the most promising techniques for intraoperative tissue characterisation. Snapshot mosaic cameras, which can capture hyperspectral data in a single exposure, have the potential to make a real-time hyperspectral imaging system for surgical decision-making possible. However, optimal exploitation of the captured data requires solving an ill-posed demosaicking problem and applying additional spectral corrections to recover spatial and spectral information of the image. In this work, we propose a deep learning-based image demosaicking algorithm for snapshot hyperspectral images using supervised learning methods. Due to the lack of publicly available medical images acquired with snapshot mosaic cameras, a synthetic image generation approach is proposed to simulate snapshot images from existing medical image datasets captured by high-resolution, but slow, hyperspectral imaging devices. Image reconstruction is achieved using convolutional neural networks for hyperspectral image super-resolution, followed by cross-talk and leakage correction using a sensor-specific calibration matrix. The resulting demosaicked images are evaluated both quantitatively and qualitatively, showing clear improvements in image quality compared to a baseline demosaicking method using linear interpolation. Moreover, the fast processing time of~45\,ms of our algorithm to obtain super-resolved RGB or oxygenation saturation maps per image frame for a state-of-the-art snapshot mosaic camera demonstrates the potential for its seamless integration into real-time surgical hyperspectral imaging applications.
翻訳日:2021-09-06 13:52:21 公開日:2021-09-03
# UnDeepLIO:unsupervis ed Deep Lidar-Inertial Odometry

UnDeepLIO: Unsupervised Deep Lidar-Inertial Odometry ( http://arxiv.org/abs/2109.01533v1 )

ライセンス: Link先を確認
Yiming Tu and Jin Xie(参考訳) 深層学習に基づくオドメトリーの研究が盛んに行われている。 それにもかかわらず、教師なしのディープライダー・オドメトリーの研究はほとんど行われていない。 本稿では,他の深層法では使われない imu を用いた教師なしライダーオドメトリのための新しい枠組みを考案する。 まず、一対のシアムLSTMを用いて、IMUの線形加速度と角速度から最初のポーズを得る。 初期ポーズでは、現在のフレーム上で剛体変換を行い、それを最終フレームに近づける。 次に、変換された点雲とその正規数から頂点および正規特徴を抽出する。 次に, 抽出された頂点と正規特徴から残差回転と変換を推定するために, 2分岐アテンションモジュールを提案する。 最後に,最後のポーズとして初期ポーズと残留ポーズの合計を出力する。 教師なしトレーニングでは,voxelized point clouds上で使用される教師なし損失関数を導入する。 提案手法は,KITTIオドメトリ推定ベンチマークを用いて評価し,他の最先端手法と同等の性能を示す。

Extensive research efforts have been dedicated to deep learning based odometry. Nonetheless, few efforts are made on the unsupervised deep lidar odometry. In this paper, we design a novel framework for unsupervised lidar odometry with the IMU, which is never used in other deep methods. First, a pair of siamese LSTMs are used to obtain the initial pose from the linear acceleration and angular velocity of IMU. With the initial pose, we perform the rigid transform on the current frame and align it closer to the last frame. Then, we extract vertex and normal features from the transformed point clouds and its normals. Next a two-branches attention modules are proposed to estimate residual rotation and translation from the extracted vertex and normal features, respectively. Finally, our model outputs the sum of initial and residual poses as the final pose. For unsupervised training, we introduce an unsupervised loss function which is employed on the voxelized point clouds. The proposed approach is evaluated on the KITTI odometry estimation benchmark and achieves comparable performances against other state-of-the-art methods.
翻訳日:2021-09-06 13:51:47 公開日:2021-09-03
# 地盤テクスチャに基づく局所化手法のモデルベースパラメータ最適化

Model-Based Parameter Optimization for Ground Texture Based Localization Methods ( http://arxiv.org/abs/2109.01559v1 )

ライセンス: Link先を確認
Jan Fabian Schmid, Stephan F. Simon, Rudolf Mester(参考訳) ロボットの正確な位置決めへの有望なアプローチは、地面テクスチャに基づくローカライゼーションである。 地上画像の視覚的特徴が指紋のような位置認識を可能にするという観測に基づく。 このような手法の効率的なパラメータ化の問題に対処し,アプリケーション領域のサンプル画像の収集のみを必要とするローカライズ性能の予測モデルを導出する。 最初のステップでは,特徴量に基づく局所化手法の最も重要なパラメータの1つ,抽出された特徴量を変更する効果をモデルが予測できるかどうかを検討する。 2つの局所化法について検討し,いずれの場合も,予測精度が十分であることを示す。 このモデルは任意のパラメータに適した値を見つけるために使用できるので、考慮されたパラメータの設定を評価するモデルのみを使用して、適切なテクスチャ固有のパラメータ設定を見つけるための総合的なパラメータ最適化フレームワークを提示します。

A promising approach to accurate positioning of robots is ground texture based localization. It is based on the observation that visual features of ground images enable fingerprint-like place recognition. We tackle the issue of efficient parametrization of such methods, deriving a prediction model for localization performance, which requires only a small collection of sample images of an application area. In a first step, we examine whether the model can predict the effects of changing one of the most important parameters of feature-based localization methods: the number of extracted features. We examine two localization methods, and in both cases our evaluation shows that the predictions are sufficiently accurate. Since this model can be used to find suitable values for any parameter, we then present a holistic parameter optimization framework, which finds suitable texture-specific parameter configurations, using only the model to evaluate the considered parameter configurations.
翻訳日:2021-09-06 13:51:32 公開日:2021-09-03
# 地上画像のための深層メトリック学習

Deep Metric Learning for Ground Images ( http://arxiv.org/abs/2109.01569v1 )

ライセンス: Link先を確認
Raaghav Radhakrishnan, Jan Fabian Schmid, Randolf Scholz, Lars Schmidt-Thieme(参考訳) 地表面テクスチャに基づくローカライズ手法は,ロボットの低コストで高精度な自己ローカライズソリューションの可能性を秘めている。 これらの手法は、与えられたクエリ画像のポーズを推定する。 下向きカメラからの地盤の現在の観測は、適用領域でポーズが知られている一連の参照画像に対して行われる。 本研究では,現在のロボットの位置について事前の知識を持たない初期位置決めタスクを扱う。 この状況では、ローカライズ手法は利用可能な参照画像をすべて考慮しなければならない。 しかし,計算の労力を減らし,間違った結果を得るリスクを和らげるために,実際にクエリ画像と重複する参照画像のみを考える必要がある。 この目的のために,クエリ画像に最もよく似た参照画像を取得するディープメトリック学習手法を提案する。 地上画像の既存の画像検索手法とは対照的に,提案手法はリコール性能が大幅に向上し,最先端のテクスチャベースローカライゼーション手法のローカライズ性能が向上する。

Ground texture based localization methods are potential prospects for low-cost, high-accuracy self-localization solutions for robots. These methods estimate the pose of a given query image, i.e. the current observation of the ground from a downward-facing camera, in respect to a set of reference images whose poses are known in the application area. In this work, we deal with the initial localization task, in which we have no prior knowledge about the current robot positioning. In this situation, the localization method would have to consider all available reference images. However, in order to reduce computational effort and the risk of receiving a wrong result, we would like to consider only those reference images that are actually overlapping with the query image. For this purpose, we propose a deep metric learning approach that retrieves the most similar reference images to the query image. In contrast to existing approaches to image retrieval for ground images, our approach achieves significantly better recall performance and improves the localization performance of a state-of-the-art ground texture based localization method.
翻訳日:2021-09-06 13:51:17 公開日:2021-09-03
# 不連続力学系としての連続時間挙動木

Continuous-Time Behavior Trees as Discontinuous Dynamical Systems ( http://arxiv.org/abs/2109.01575v1 )

ライセンス: Link先を確認
Christopher Iliffe Sprague, Petter \"Ogren(参考訳) 振舞い木は、いくつかの低レベル制御ポリシーをハイレベルなタスクスイッチングポリシーに組み合わせる階層的かつモジュラーな方法を表している。 ハイブリッド力学系は、異なるポリシー間のタスク切り替えの観点からも見ることができるので、行動木とハイブリッド力学系のいくつかの比較は、非公式にのみ、離散時間にのみ行われた。 行動木の公式な連続時間定式化は欠如している。 さらに、行動木設計の特定のクラスについての収束解析も行われているが、一般的な設計には当てはまらない。 このレターでは、振る舞い木の最初の連続時間定式化を提供し、それらは不連続力学系(ハイブリッド力学系のサブクラス)と見なすことができ、振る舞い木に存在と一意性の結果を適用することができ、最終的に、それらのシステムが一般設計のために状態空間の所望の領域に収束する十分な条件を提供する。 これらの結果により、連続時間力学系に関する膨大な結果がビヘイビアツリーコントローラの設計に利用できるようになる。

Behavior trees represent a hierarchical and modular way of combining several low-level control policies into a high-level task-switching policy. Hybrid dynamical systems can also be seen in terms of task switching between different policies, and therefore several comparisons between behavior trees and hybrid dynamical systems have been made, but only informally, and only in discrete time. A formal continuous-time formulation of behavior trees has been lacking. Additionally, convergence analyses of specific classes of behavior tree designs have been made, but not for general designs. In this letter, we provide the first continuous-time formulation of behavior trees, show that they can be seen as discontinuous dynamical systems (a subclass of hybrid dynamical systems), which enables the application of existence and uniqueness results to behavior trees, and finally, provide sufficient conditions under which such systems will converge to a desired region of the state space for general designs. With these results, a large body of results on continuous-time dynamical systems can be brought to use when designing behavior tree controllers.
翻訳日:2021-09-06 13:50:35 公開日:2021-09-03
# backdoor と adversarial example を組み合わせたニューラルネットワーク分類器に対する相乗的攻撃

A Synergetic Attack against Neural Network Classifiers combining Backdoor and Adversarial Examples ( http://arxiv.org/abs/2109.01275v1 )

ライセンス: Link先を確認
Guanxiong Liu, Issa Khalil, Abdallah Khreishah, NhatHai Phan(参考訳) 本研究では,敵対的摂動とモデル中毒の脆弱性を併用して,AdvTrojanと呼ばれる新たなステルス攻撃を実際に開始する方法を示す。 AdvTrojan は、(1) 慎重に製作された逆方向の摂動を推論中に入力例に注入し、2) モデルの訓練過程中にトロイの木戸を埋め込んだ場合にのみ起動できるため、ステルス性が高い。 入力空間における対向ノイズを利用して、トロイの木馬感染例をモデル決定境界を越えて移動させることにより、検出が困難になる。 AdvTrojanのステルス性行動は、ユーザが誤って感染したモデルを敵の例に対して堅牢な分類器として信頼するように騙す。 AdvTrojanは、従来のトロイアのバックドア攻撃と同様の訓練データだけを毒殺することで実装できる。 いくつかのベンチマークデータセットに関する詳細な分析と広範な実験により、AdvTrojanは、実験シナリオのほとんどで100%に近い成功率で既存の防御を回避でき、また、フェデレーション付き学習タスクにも対処できることがわかった。

In this work, we show how to jointly exploit adversarial perturbation and model poisoning vulnerabilities to practically launch a new stealthy attack, dubbed AdvTrojan. AdvTrojan is stealthy because it can be activated only when: 1) a carefully crafted adversarial perturbation is injected into the input examples during inference, and 2) a Trojan backdoor is implanted during the training process of the model. We leverage adversarial noise in the input space to move Trojan-infected examples across the model decision boundary, making it difficult to detect. The stealthiness behavior of AdvTrojan fools the users into accidentally trust the infected model as a robust classifier against adversarial examples. AdvTrojan can be implemented by only poisoning the training data similar to conventional Trojan backdoor attacks. Our thorough analysis and extensive experiments on several benchmark datasets show that AdvTrojan can bypass existing defenses with a success rate close to 100% in most of our experimental scenarios and can be extended to attack federated learning tasks as well.
翻訳日:2021-09-06 13:50:17 公開日:2021-09-03
# 一貫性を向上したバックドアの注入方法:クリーンデータによるログアンカリング

How to Inject Backdoors with Better Consistency: Logit Anchoring on Clean Data ( http://arxiv.org/abs/2109.01300v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Lingjuan Lyu, Weiqiang Wang, Lichao Sun, Xu Sun(参考訳) 大規模なバックドアモデルをスクラッチからトレーニングするためには、大規模なトレーニングデータセットが必要になるため、最近の攻撃では、クリーンデータにモデル動作を変更することなく、トレーニング済みのクリーンモデルにバックドアを注入することを検討している。 以前の研究によると、バックドアはAdversarial Weight Perturbation (AWP)でトレーニングされたクリーンモデルに注入できる。 ここでAWPは、バックドア学習において小さいパラメータのバリエーションを指す。 本研究では,トレーニングされたクリーンモデルにバックドアを注入する際のパラメータの変動が常にAWPである,という興味深い現象を観察する。 さらに,この現象を説明するために理論的解析を行う。 グローバル一貫性とインスタンス間一貫性の両方を含むバックドアモデルの一貫性として,クリーンデータの正確性を維持する動作を定式化する。 バックドアモデルの整合性に及ぼすAWPの影響を広範囲に解析する。 より整合性を高めるため,クリーンデータ上でのモデル動作のアンカリングや凍結のための新しいアンカリング損失を理論的保証とともに提案する。 解析結果と実験結果の両方で, 一貫性, 特にインスタンスの整合性を改善する上でのアンカー損失の有効性が検証された。

Since training a large-scale backdoored model from scratch requires a large training dataset, several recent attacks have considered to inject backdoors into a trained clean model without altering model behaviors on the clean data. Previous work finds that backdoors can be injected into a trained clean model with Adversarial Weight Perturbation (AWP). Here AWPs refers to the variations of parameters that are small in backdoor learning. In this work, we observe an interesting phenomenon that the variations of parameters are always AWPs when tuning the trained clean model to inject backdoors. We further provide theoretical analysis to explain this phenomenon. We formulate the behavior of maintaining accuracy on clean data as the consistency of backdoored models, which includes both global consistency and instance-wise consistency. We extensively analyze the effects of AWPs on the consistency of backdoored models. In order to achieve better consistency, we propose a novel anchoring loss to anchor or freeze the model behaviors on the clean data, with a theoretical guarantee. Both the analytical and the empirical results validate the effectiveness of the anchoring loss in improving the consistency, especially the instance-wise consistency.
翻訳日:2021-09-06 13:49:55 公開日:2021-09-03
# 大規模GPUデータセンターにおけるディープラーニングワークロードの特性と予測

Characterization and Prediction of Deep Learning Workloads in Large-Scale GPU Datacenters ( http://arxiv.org/abs/2109.01313v1 )

ライセンス: Link先を確認
Hu, Qinghao and Sun, Peng and Yan, Shengen and Wen, Yonggang and Zhang, Tianwei(参考訳) 現代のGPUデータセンタは、Deep Learning(DL)モデルとサービスを研究コミュニティと業界の両方で提供する上で、極めて重要です。 データセンターを運用する場合、リソーススケジューリングと管理の最適化は、大きな経済的利益をもたらす可能性がある。 この目標を達成するには、ジョブ機能とユーザの振る舞いを深く理解する必要がある。 本稿では,DLジョブの特性と資源管理に関する総合的研究について述べる。 まず,SenseTimeから得られた実世界のジョブトレースを大規模に分析する。 クラスタシステムの設計を容易にするクラスタ,ジョブ,ユーザの観点から,興味深い結論がいくつか出ています。 第2に,歴史データに基づいて資源を管理する汎用フレームワークを提案する。 ケーススタディとして,クラスタ全体の平均ジョブ完了時間を最大6.5倍に抑える準短サービスファーストスケジューリングサービスと,クラスタ全体の利用率を最大13%向上させるクラスタ省エネサービスを設計した。

Modern GPU datacenters are critical for delivering Deep Learning (DL) models and services in both the research community and industry. When operating a datacenter, optimization of resource scheduling and management can bring significant financial benefits. Achieving this goal requires a deep understanding of the job features and user behaviors. We present a comprehensive study about the characteristics of DL jobs and resource management. First, we perform a large-scale analysis of real-world job traces from SenseTime. We uncover some interesting conclusions from the perspectives of clusters, jobs and users, which can facilitate the cluster system designs. Second, we introduce a general-purpose framework, which manages resources based on historical data. As case studies, we design: a Quasi-Shortest-Servi ce-First scheduling service, which can minimize the cluster-wide average job completion time by up to 6.5x; and a Cluster Energy Saving service, which improves overall cluster utilization by up to 13%.
翻訳日:2021-09-06 13:49:34 公開日:2021-09-03
# LEO衛星コンステレーションにおける地上支援フェデレーション学習

Ground-Assisted Federated Learning in LEO Satellite Constellations ( http://arxiv.org/abs/2109.01348v1 )

ライセンス: Link先を確認
Nasrin Razmi and Bho Matthiesen and Armin Dekorsy and Petar Popovski(参考訳) 低軌道(leo)メガコンステレーションでは、衛星画像に基づく推論のような関連するユースケースがあり、多くの衛星がローカルデータセットを共有しずに機械学習モデルを協調的に訓練する。 この問題に対処するために,フェデレーション学習(fl)に基づく新しいアルゴリズムセットを提案する。 我々のアプローチは、leo星座に差し迫った予測可能な接続パターンを考慮に入れるため、標準flアルゴリズムとは実質的に異なる。 提案手法の高速収束速度と漸近性試験精度に優れる広範囲な数値評価を行った。 特に、得られたテスト精度は集中型解の96%から99.6%以内であり、提案アルゴリズムは最先端の非同期FL法よりもチューニングするハイパーパラメータが少ない。

In Low Earth Orbit (LEO) mega constellations, there are relevant use cases, such as inference based on satellite imaging, in which a large number of satellites collaboratively train a machine learning model without sharing their local data sets. To address this problem, we propose a new set of algorithms based of Federated learning (FL). Our approach differs substantially from the standard FL algorithms, as it takes into account the predictable connectivity patterns that are immanent to the LEO constellations. Extensive numerical evaluations highlight the fast convergence speed and excellent asymptotic test accuracy of the proposed method. In particular, the achieved test accuracy is within 96% to 99.6% of the centralized solution and the proposed algorithm has less hyperparameters to tune than state-of-the-art asynchronous FL methods.
翻訳日:2021-09-06 13:49:19 公開日:2021-09-03
# 潜在マルコフリスクプロファイルに基づく周波数重大度評価

Frequency-Severity Experience Rating based on Latent Markovian Risk Profiles ( http://arxiv.org/abs/2109.01413v1 )

ライセンス: Link先を確認
Robert Matthijs Verschuren(参考訳) ボーナスマラスシステムは伝統的に、これらのコンポーネントは実際には依存しているにもかかわらず、サイズに関係なく顧客の請求数を考慮する。 そこで本研究では,潜伏マルコフリスクプロファイルに基づく新たな共同体験評価手法を提案する。 潜在プロファイルは、Hidden Markovモデルで時間をかけて進化し、顧客のクレームエクスペリエンスの更新をキャプチャし、クレーム数とサイズを条件付き独立にする。 結果として生じるリスクプレミアは、標準的な信頼性プレミアを経験重み付けしたダイナミックな混合へと導くことが示されている。 提案手法は、オランダの自動車保険ポートフォリオに適用され、顧客のリスクプロファイルを特異な請求行動で識別する。 これらのプロファイルによって、顧客のリスクをよりよく区別できるようになります。

Bonus-Malus Systems traditionally consider a customer's number of claims irrespective of their sizes, even though these components are dependent in practice. We propose a novel joint experience rating approach based on latent Markovian risk profiles to allow for a positive or negative individual frequency-severity dependence. The latent profiles evolve over time in a Hidden Markov Model to capture updates in a customer's claims experience, making claim counts and sizes conditionally independent. We show that the resulting risk premia lead to a dynamic, claims experience-weighted mixture of standard credibility premia. The proposed approach is applied to a Dutch automobile insurance portfolio and identifies customer risk profiles with distinctive claiming behavior. These profiles, in turn, enable us to better distinguish between customer risks.
翻訳日:2021-09-06 13:49:06 公開日:2021-09-03
# 層へのダイブ:代数幾何学を用いたニューラルネットワーク容量境界

Dive into Layers: Neural Network Capacity Bounding using Algebraic Geometry ( http://arxiv.org/abs/2109.01461v1 )

ライセンス: Link先を確認
Ji Yang and Lu Sang and Daniel Cremers(参考訳) 実験結果から,ニューラルネットワークの学習性はそのサイズと直接関係があることが示唆された。 これを数学的に証明するために、入力データとニューラルネットワークのトポロジ的幾何学的複雑さを測定するためにベッチ数というトポロジカル代数のツールを借りる。 ニューラルネットワークの表現能力とその位相的複雑性を特徴付けることにより,ネットワークの表現能力は,その層の大きさによって制限されることを示す。 さらに,ネットワーク内の各層上のベッチ数の上限を導出する。 その結果、ニューラルネットワークのアーキテクチャ選択の問題は、入力データの複雑さを表現できるネットワークの規模を決定するように変換される。 提案した結果により、完全に接続されたネットワークのアーキテクチャ選択は、入力データのベッチ数よりも小さくないベッチ数を装備するように、ネットワークの適切なサイズを選択するために沸騰する。 実世界のデータセットMNISTで実験を行い、分析結果と結論を検証した。 コードは公開される予定だ。

The empirical results suggest that the learnability of a neural network is directly related to its size. To mathematically prove this, we borrow a tool in topological algebra: Betti numbers to measure the topological geometric complexity of input data and the neural network. By characterizing the expressive capacity of a neural network with its topological complexity, we conduct a thorough analysis and show that the network's expressive capacity is limited by the scale of its layers. Further, we derive the upper bounds of the Betti numbers on each layer within the network. As a result, the problem of architecture selection of a neural network is transformed to determining the scale of the network that can represent the input data complexity. With the presented results, the architecture selection of a fully connected network boils down to choosing a suitable size of the network such that it equips the Betti numbers that are not smaller than the Betti numbers of the input data. We perform the experiments on a real-world dataset MNIST and the results verify our analysis and conclusion. The code will be publicly available.
翻訳日:2021-09-06 13:48:53 公開日:2021-09-03
# オンライン変換問題に対するPareto-Optimal Learning-Augmented Algorithms

Pareto-Optimal Learning-Augmented Algorithms for Online Conversion Problems ( http://arxiv.org/abs/2109.01556v1 )

ライセンス: Link先を確認
Bo Sun, Russell Lee, Mohammad Hajiesmaili, Adam Wierman, Danny H.K. Tsang(参考訳) 本稿では,予測精度(一貫性)の向上と,予測品質(堅牢性)に関わらず最悪の競合率を保証することを目的とした,オンライン変換問題の競合アルゴリズムの設計に,機械学習による予測を活用している。 1-max-search および one-way trading problem とも呼ばれる積分および分数変換問題のアルゴリズム設計を、オンラインしきい値ベースアルゴリズム (ota) のクラスに統合する。 OTAの設計に予測を組み込むことで、一貫性と堅牢性のパレート最適トレードオフを達成する。 ビットコイン変換における数値実験を用いてOTAの性能を示す。

This paper leverages machine-learned predictions to design competitive algorithms for online conversion problems with the goal of improving the competitive ratio when predictions are accurate (i.e., consistency), while also guaranteeing a worst-case competitive ratio regardless of the prediction quality (i.e., robustness). We unify the algorithmic design of both integral and fractional conversion problems, which are also known as the 1-max-search and one-way trading problems, into a class of online threshold-based algorithms (OTA). By incorporating predictions into design of OTA, we achieve the Pareto-optimal trade-off of consistency and robustness, i.e., no online algorithm can achieve a better consistency guarantee given for a robustness guarantee. We demonstrate the performance of OTA using numerical experiments on Bitcoin conversion.
翻訳日:2021-09-06 13:48:35 公開日:2021-09-03
# 安全なモデルに基づくメタ強化学習:抽象的アプローチ

Provably Safe Model-Based Meta Reinforcement Learning: An Abstraction-Based Approach ( http://arxiv.org/abs/2109.01255v1 )

ライセンス: Link先を確認
Xiaowu Sun, Wael Fatnassi, Ulices Santa Cruz, and Yasser Shoukry(参考訳) 従来の強化学習は1つのタスクを実行できるエージェントを設計することに焦点を当てるが、メタラーニングは代わりに、これらのエージェントの設計や訓練の間に考慮されなかったさまざまなタスク(環境、障害物、目標など)に一般化できるエージェントを設計することを目的としている。 本稿では,不確定な非線形力学系に対して,強力な安全性保証を保ちながら,訓練データに存在しない新たなタスクに一般化可能な,確実に安全なニューラルネットワーク(nn)コントローラを訓練する問題を考える。 私たちのアプローチは、トレーニングフェーズ中にNNコントローラのセットを学ぶことです。 タスクが実行時に利用可能になると、我々のフレームワークはこれらのNNコントローラのサブセットを慎重に選択し、最終的なNNコントローラを構成する。 我々のアプローチには非線形力学系の有限状態抽象を計算する能力が不可欠である。 この抽象モデルは、すべてのNN重み付きで閉ループシステムの挙動を捉え、タスクが利用可能になったときにNNを訓練し構成するために使用される。 結果のNNの正確性を管理する理論的保証を提供する。 訓練データに存在しないごちゃごちゃした環境での車輪型ロボットの制御問題に対するアプローチを評価した。

While conventional reinforcement learning focuses on designing agents that can perform one task, meta-learning aims, instead, to solve the problem of designing agents that can generalize to different tasks (e.g., environments, obstacles, and goals) that were not considered during the design or the training of these agents. In this spirit, in this paper, we consider the problem of training a provably safe Neural Network (NN) controller for uncertain nonlinear dynamical systems that can generalize to new tasks that were not present in the training data while preserving strong safety guarantees. Our approach is to learn a set of NN controllers during the training phase. When the task becomes available at runtime, our framework will carefully select a subset of these NN controllers and compose them to form the final NN controller. Critical to our approach is the ability to compute a finite-state abstraction of the nonlinear dynamical system. This abstract model captures the behavior of the closed-loop system under all possible NN weights, and is used to train the NNs and compose them when the task becomes available. We provide theoretical guarantees that govern the correctness of the resulting NN. We evaluated our approach on the problem of controlling a wheeled robot in cluttered environments that were not present in the training data.
翻訳日:2021-09-06 13:47:59 公開日:2021-09-03
# シームズLSTMニューラルネットワークによる需要フレキシビリティの推定

Estimating Demand Flexibility Using Siamese LSTM Neural Networks ( http://arxiv.org/abs/2109.01258v1 )

ライセンス: Link先を確認
Guangchun Ruan, Daniel S. Kirschen, Haiwang Zhong, Qing Xia, Chongqing Kang(参考訳) 現代の電力システムでは、動的価格で消費者にインセンティブを与えることで需要の柔軟性を探求する機会がある。 本稿では,時間変動弾性(time-varying elasticity)と呼ばれる効率的なツールを用いて,需要の柔軟性を定量化する。 このツールは特に需要応答電位とシステムの信頼性を評価するのに有用である。 最近の実証的証拠では、需要の柔軟性を研究する際に、遅延応答や価格上昇後の弾性の消失など、いくつかの異常な特徴が指摘されている。 既存のメソッドは、事前定義された(しばしば単純化された)回帰式に大きく依存するため、これらの複雑な特徴をキャプチャできない。 そこで本研究では,最適推定パターンを自動的かつ正確に導出するモデルフリー手法を提案する。 さらに,Siamese long short-term memory (LSTM) ネットワークを用いた2段階推定法を開発した。 ここで、LSTMネットワークは価格応答を符号化し、他のネットワークは時間変動弾性を推定する。 本事例では, 提案手法とモデルを用いて, 従来手法と比較して, 予測精度の向上と, 各種異常特徴の記述性の向上を図っている。

There is an opportunity in modern power systems to explore the demand flexibility by incentivizing consumers with dynamic prices. In this paper, we quantify demand flexibility using an efficient tool called time-varying elasticity, whose value may change depending on the prices and decision dynamics. This tool is particularly useful for evaluating the demand response potential and system reliability. Recent empirical evidences have highlighted some abnormal features when studying demand flexibility, such as delayed responses and vanishing elasticities after price spikes. Existing methods fail to capture these complicated features because they heavily rely on some predefined (often over-simplified) regression expressions. Instead, this paper proposes a model-free methodology to automatically and accurately derive the optimal estimation pattern. We further develop a two-stage estimation process with Siamese long short-term memory (LSTM) networks. Here, a LSTM network encodes the price response, while the other network estimates the time-varying elasticities. In the case study, the proposed framework and models are validated to achieve higher overall estimation accuracy and better description for various abnormal features when compared with the state-of-the-art methods.
翻訳日:2021-09-06 13:47:38 公開日:2021-09-03
# オンライン)転送学習へのベイズ的アプローチ--理論とアルゴリズム

A Bayesian Approach to (Online) Transfer Learning: Theory and Algorithms ( http://arxiv.org/abs/2109.01377v1 )

ライセンス: Link先を確認
Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu(参考訳) 転送学習は機械学習のパラダイムであり、ある問題からの知識を新しいが関連する問題を解決するために利用する。 一方、あるタスクからの知識は、関連するタスクを解決するのに有用であると考えられる。 一方, 伝達学習アルゴリズムは, 適切に実行されていない場合, 学習性能を向上する代わりに, 実際に学習性能を損なう可能性があることも認識されている。 本稿では,パラメトリック統計モデルを用いたベイズ的観点からの移動学習について検討する。 具体的には,移動学習問題,即時学習,オンライン学習,時変学習の3つの変種について検討する。 各問題に対して、適切な客観的関数を定義し、情報理論量を用いて学習性能の正確な表現または上限を提供し、サンプルサイズが大きくなると単純かつ明示的な特徴付けを可能にする。 さらに、サンプルサイズが小さい場合でも導出境界は正確であることを示す。 得られた境界は、我々の定式化における転校学習における事前知識の効果についての貴重な洞察を与える。 特に、負の移動が起こる条件を形式的に特徴付ける。 最後に,実践的な実装に適した2つの(オンライン)トランスファー学習アルゴリズムを考案する。 具体的には、1つのアルゴリズムはパラメトリック仮定を必要としないため、より一般的なモデルに結果を拡張できる。 特にソースとターゲットのデータに強い類似性がある場合,実データを用いたアルゴリズムの有効性を示す。

Transfer learning is a machine learning paradigm where knowledge from one problem is utilized to solve a new but related problem. On the one hand, it is conceivable that knowledge from one task could be useful for solving a related task. On the other hand, it is also recognized that if not executed properly, transfer learning algorithms can in fact impair the learning performance instead of improving it - commonly known as negative transfer. In this paper, we study transfer learning from a Bayesian perspective, where a parametric statistical model is used. Specifically, we study three variants of transfer learning problems, instantaneous, online, and time-variant transfer learning. For each problem, we define an appropriate objective function, and provide either exact expressions or upper bounds on the learning performance using information-theoreti c quantities, which allow simple and explicit characterizations when the sample size becomes large. Furthermore, examples show that the derived bounds are accurate even for small sample sizes. The obtained bounds give valuable insights on the effect of prior knowledge for transfer learning in our formulation. In particular, we formally characterize the conditions under which negative transfer occurs. Lastly, we devise two (online) transfer learning algorithms that are amenable to practical implementations. Specifically, one algorithm does not require the parametric assumption, thus extending our results to more general models. We demonstrate the effectiveness of our algorithms with real data set, especially when the source and target data have a strong similarity.
翻訳日:2021-09-06 13:47:20 公開日:2021-09-03
# 乱流からの直交・同相非線形モードの抽出に向けて

Towards extraction of orthogonal and parsimonious non-linear modes from turbulent flows ( http://arxiv.org/abs/2109.01514v1 )

ライセンス: Link先を確認
Hamidreza Eivazi, Soledad Le Clainche, Sergio Hoyas, Ricardo Vinuesa(参考訳) 本研究では, 流れ解析, 低次モデリング, フロー制御に有用な乱流-流れ場データから, 非線形モードの最小およびほぼ直交の集合を学習するための深い確率論的ニューラルネットワークアーキテクチャを提案する。 我々のアプローチは、$\beta$-variational autoencoders(\beta$- VAEs)と畳み込みニューラルネットワーク(CNNs)に基づいており、独立潜伏変数の学習を奨励し、潜伏ベクトルのサイズをペナルティ化しながら、マルチスケールの乱流から非線形モードを抽出することができる。 さらに,vaeモードの再構成への貢献に関して,vaeモードの順序付けアルゴリズムを提案する。 本手法は, 簡易都市環境における乱流の非線形モード分解に応用し, その流れ場データをLES(Louble-resolved Large-eddy Simulation)に基づいて求める。 潜在空間の形状を制約することにより, 直交性にモチベーションを与え, 高品質な再構築に十分な調律的モードを抽出できることを実証する。 本手法は線形理論に基づく分解に対する再構成において優れた性能を示す。 さらに,本手法を利用可能なAEモデルと比較した。 我々は, ほぼ直交モードの抽出において, 解釈可能性に繋がるアプローチの可能性を示す。

We propose a deep probabilistic-neural -network architecture for learning a minimal and near-orthogonal set of non-linear modes from high-fidelity turbulent-flow-field data useful for flow analysis, reduced-order modeling, and flow control. Our approach is based on $\beta$-variational autoencoders ($\beta$-VAEs) and convolutional neural networks (CNNs), which allow us to extract non-linear modes from multi-scale turbulent flows while encouraging the learning of independent latent variables and penalizing the size of the latent vector. Moreover, we introduce an algorithm for ordering VAE-based modes with respect to their contribution to the reconstruction. We apply this method for non-linear mode decomposition of the turbulent flow through a simplified urban environment, where the flow-field data is obtained based on well-resolved large-eddy simulations (LESs). We demonstrate that by constraining the shape of the latent space, it is possible to motivate the orthogonality and extract a set of parsimonious modes sufficient for high-quality reconstruction. Our results show the excellent performance of the method in the reconstruction against linear-theory-based decompositions. Moreover, we compare our method with available AE-based models. We show the ability of our approach in the extraction of near-orthogonal modes that may lead to interpretability.
翻訳日:2021-09-06 13:47:00 公開日:2021-09-03
# (参考訳) 空間依存推定のための空間的・ロバストな混合混合回帰モデル [全文訳有]

Spatially and Robustly Hybrid Mixture Regression Model for Inference of Spatial Dependence ( http://arxiv.org/abs/2109.00539v2 )

ライセンス: CC BY 4.0
Wennan Chang, Pengtao Dang, Changlin Wan, Xiaoyu Lu, Yue Fang, Tong Zhao, Yong Zang, Bo Li, Chi Zhang, Sha Cao(参考訳) 本稿では,空間領域上での応答変数と説明変数の集合の関係を解析するために,空間ロバスト混合回帰モデルを提案する。 本手法はロバストな有限混合ガウス回帰モデルと空間制約を統合し,空間的非定常性,局所的同質性,異常汚染を同時に扱う。 既存の空間回帰モデルと比較して,提案モデルは類似の応答・予測関係を示す観測結果に基づいて推定されるいくつかの異なる回帰モデルが存在すると仮定する。 このように、提案されたモデルは、空間的傾向の非定常性だけでなく、いくつかの異なる同族群へのクラスター観測も考慮している。 これは、応答変数と予測変数の間の支配的な関係を捉えたいくつかの定常サブプロセスで解釈する上で有利である。 さらに, 提案手法は, 回帰アウトレーヤと空間アウトレーヤの両方から汚染を処理するための頑健な手法を取り入れている。 これにより、空間領域を類似の回帰係数を持つ異なる局所領域と、純粋に外れ値である散発的な位置にロバストに分割する。 厳密な統計的仮説検証手順は、そのようなセグメンテーションの意義をテストするために設計されている。 多くの合成および実世界のデータセットにおける実験結果は,提案手法のロバスト性,精度,有効性を示し,他のロバスト有限混合回帰法,空間回帰法,空間分割法と比較した。

In this paper, we propose a Spatial Robust Mixture Regression model to investigate the relationship between a response variable and a set of explanatory variables over the spatial domain, assuming that the relationships may exhibit complex spatially dynamic patterns that cannot be captured by constant regression coefficients. Our method integrates the robust finite mixture Gaussian regression model with spatial constraints, to simultaneously handle the spatial nonstationarity, local homogeneity, and outlier contaminations. Compared with existing spatial regression models, our proposed model assumes the existence a few distinct regression models that are estimated based on observations that exhibit similar response-predictor relationships. As such, the proposed model not only accounts for nonstationarity in the spatial trend, but also clusters observations into a few distinct and homogenous groups. This provides an advantage on interpretation with a few stationary sub-processes identified that capture the predominant relationships between response and predictor variables. Moreover, the proposed method incorporates robust procedures to handle contaminations from both regression outliers and spatial outliers. By doing so, we robustly segment the spatial domain into distinct local regions with similar regression coefficients, and sporadic locations that are purely outliers. Rigorous statistical hypothesis testing procedure has been designed to test the significance of such segmentation. Experimental results on many synthetic and real-world datasets demonstrate the robustness, accuracy, and effectiveness of our proposed method, compared with other robust finite mixture regression, spatial regression and spatial segmentation methods.
翻訳日:2021-09-06 11:36:37 公開日:2021-09-03
# フェアネス概念を用いたフェアクラスタリングの効率的なアルゴリズム

Efficient Algorithms For Fair Clustering with a New Fairness Notion ( http://arxiv.org/abs/2109.00708v2 )

ライセンス: Link先を確認
Shivam Gupta, Ganesh Ghalme, Narayanan C. Krishnan and Shweta Jain(参考訳) 我々は、まずChierichettiらによって導入されたフェアクラスタリングの問題を再考し、各保護属性が各クラスタにほぼ等しい表現、すなわちバランス特性を持つことを要求する。 既存のクラスタリングのソリューションはスケーラビリティが低いか、クラスタリングの目的と公平性のトレードオフが最適でないかのいずれかです。 本稿では,バランス特性を厳密に一般化し,細粒度効率とフェアネストレードオフの両立を可能にする,$tau$-fair Fairnessという新しいフェアネスの概念を提案する。 さらに, 単純なグリーディラウンドロビンベースアルゴリズムにより, このトレードオフを効率的に実現できることを示す。 多値保護属性のより一般的な設定の下で、我々はアルゴリズムの理論的特性を厳密に分析する。 実験結果から,提案手法はすべての最先端アルゴリズムより優れており,多数のクラスタに対しても極めて良好に動作することが示唆された。

We revisit the problem of fair clustering, first introduced by Chierichetti et al., that requires each protected attribute to have approximately equal representation in every cluster; i.e., a balance property. Existing solutions to fair clustering are either not scalable or do not achieve an optimal trade-off between clustering objective and fairness. In this paper, we propose a new notion of fairness, which we call $tau$-fair fairness, that strictly generalizes the balance property and enables a fine-grained efficiency vs. fairness trade-off. Furthermore, we show that simple greedy round-robin based algorithms achieve this trade-off efficiently. Under a more general setting of multi-valued protected attributes, we rigorously analyze the theoretical properties of the our algorithms. Our experimental results suggest that the proposed solution outperforms all the state-of-the-art algorithms and works exceptionally well even for a large number of clusters.
翻訳日:2021-09-06 11:14:11 公開日:2021-09-03
# LegaLMFiT:LSTM言語モデルの事前学習による効率的な短い法律テキスト分類

LegaLMFiT: Efficient Short Legal Text Classification with LSTM Language Model Pre-Training ( http://arxiv.org/abs/2109.00993v2 )

ライセンス: Link先を確認
Benjamin Clavi\'e, Akshita Gheewala, Paul Briton, Marc Alphonsus, Rym Laabiyad, Francesco Piccoli(参考訳) BERTのようなトランスフォーマーベースの大規模言語モデルは、多くのNLPタスクにおいて広範なパフォーマンス改善をもたらした。 これらのモデルのドメイン固有の変種は、様々な特殊タスクにおいて優れた性能を示した。 法的なNLPでは、BERTベースのモデルが複数のタスクに対して新たな最先端の結果をもたらしている。 これらのモデルの探索は、法的言語とその語彙の特異性を捉えることの重要性を証明した。 しかし、そのようなアプローチは高い計算コストに悩まされ、生態学的に高い影響とアクセシビリティーが低下する。 英語の法的テキストに着目した結果,軽量なlstmベースの言語モデルでは,小型の法定テキスト事前学習コーパスから十分な情報を取得でき,短い法定テキスト分類タスクにおいて優れた性能が得られることがわかった。 これはBERTベースのモデルに比べて計算オーバーヘッドが大幅に削減されている。 しかし,提案手法は,より複雑なタスク,より長い文書のマルチラベル分類における性能低下を示し,この軽量アプローチの限界を浮き彫りにした。

Large Transformer-based language models such as BERT have led to broad performance improvements on many NLP tasks. Domain-specific variants of these models have demonstrated excellent performance on a variety of specialised tasks. In legal NLP, BERT-based models have led to new state-of-the-art results on multiple tasks. The exploration of these models has demonstrated the importance of capturing the specificity of the legal language and its vocabulary. However, such approaches suffer from high computational costs, leading to a higher ecological impact and lower accessibility. Our findings, focusing on English language legal text, show that lightweight LSTM-based Language Models are able to capture enough information from a small legal text pretraining corpus and achieve excellent performance on short legal text classification tasks. This is achieved with a significantly reduced computational overhead compared to BERT-based models. However, our method also shows degraded performance on a more complex task, multi-label classification of longer documents, highlighting the limitations of this lightweight approach.
翻訳日:2021-09-06 11:13:57 公開日:2021-09-03
# 分散サンプル生成:データフリー量子化の限界を押し上げる

Diverse Sample Generation: Pushing the Limit of Data-free Quantization ( http://arxiv.org/abs/2109.00212v2 )

ライセンス: Link先を確認
Haotong Qin, Yifu Ding, Xiangguo Zhang, Aoyu Li, Jiakai Wang, Xianglong Liu, Jiwen Lu(参考訳) 近年、実データにアクセスせずにニューラルネットワークを低ビット幅に圧縮する実用的なアプローチとして、生成データフリー量子化が登場している。 完全な精度のバッチ正規化(BN)統計を利用して、ネットワークを定量化するデータを生成する。 しかし,本研究では,bn統計量に完全に制約された合成データが分布とサンプルレベルで重篤な均質化に陥り,量子化ネットワークの精度が著しく低下することを示した。 本稿では,非学習後量子化および量子化認識訓練のための汎用的多種多様なサンプル生成(dsg)スキームを提案する。 DSGでは、分布制約を緩和するために、まずBN層の特徴の統計アライメントをスラックする。 そして, 異なる試料に対する特定のBN層の損失影響を強くし, 生成過程における試料間の相関を抑え, それぞれ統計的および空間的観点から試料を多様化させる。 大規模な画像分類タスクでは、DSGは、特に超低ビット幅(例えば、W4A4設定で22%のゲイン)下で、様々なニューラルネットワーク上の既存のデータフリー量子化手法を一貫して上回ります。 さらに、DSGによるデータの多様化は、様々な量子化法において一般的な利益をもたらし、多様性がデータフリーな量子化のための高品質な合成データの重要な特性であることを示す。

Recently, generative data-free quantization emerges as a practical approach that compresses the neural network to low bit-width without access to real data. It generates data to quantize the network by utilizing the batch normalization (BN) statistics of its full-precision counterpart. However, our study shows that in practice, the synthetic data completely constrained by BN statistics suffers severe homogenization at distribution and sample level, which causes serious accuracy degradation of the quantized network. This paper presents a generic Diverse Sample Generation (DSG) scheme for the generative data-free post-training quantization and quantization-aware training, to mitigate the detrimental homogenization. In our DSG, we first slack the statistics alignment for features in the BN layer to relax the distribution constraint. Then we strengthen the loss impact of the specific BN layer for different samples and inhibit the correlation among samples in the generation process, to diversify samples from the statistical and spatial perspective, respectively. Extensive experiments show that for large-scale image classification tasks, our DSG can consistently outperform existing data-free quantization methods on various neural architectures, especially under ultra-low bit-width (e.g., 22% gain under W4A4 setting). Moreover, data diversifying caused by our DSG brings a general gain in various quantization methods, demonstrating diversity is an important property of high-quality synthetic data for data-free quantization.
翻訳日:2021-09-06 11:13:42 公開日:2021-09-03
# 分類器とThresholdingを用いた局所化による表面き裂分別法

A Weakly-Supervised Surface Crack Segmentation Method using Localisation with a Classifier and Thresholding ( http://arxiv.org/abs/2109.00456v2 )

ライセンス: Link先を確認
Jacob K\"onig, Mark Jenkins, Mike Mannion, Peter Barrie, Gordon Morison(参考訳) 最近の公共インフラでは表面クラックがよく見られる。 近年の課題は, 表面ひび割れを背景から分離し, 局所化が容易な機械学習手法を用いて, 構造物の維持管理を支援することにある。 しかし、これらの方法の一般的な問題は、よく機能するアルゴリズムを作成するには、トレーニングデータはクラックに属するピクセルの詳細なアノテーションを持つ必要があることである。 本研究は,CNN分類器を用いて表面き裂分割マップを作成する弱教師付きアプローチを提案する。 この分類器を用いてクラスアクティベーションマップとパッチベースの分類アプローチを用いてラフクラックローカライズマップを作成し、これをしきい値ベースのアプローチと融合して、ほとんど暗いクラックピクセルを分割する。 この分類器は、標準しきい値法によるき裂として誤って強調される背景領域からのノイズの抑制を支援する。 我々は,本手法の実装の容易さに着目し,単純な分類ラベルであるにもかかわらず,複数の表面き裂データセットにおいて,効率的にき裂を分割できることを実証した。

Surface cracks are a common sight on public infrastructure nowadays. Recent work has been addressing this problem by supporting structural maintenance measures using machine learning methods which segment surface cracks from their background so that they are easy to localize. However, a common issue with those methods is that to create a well functioning algorithm, the training data needs to have detailed annotations of pixels that belong to cracks. Our work proposes a weakly supervised approach which leverages a CNN classifier to create surface crack segmentation maps. We use this classifier to create a rough crack localisation map by using its class activation maps and a patch based classification approach and fuse this with a thresholding based approach to segment the mostly darker crack pixels. The classifier assists in suppressing noise from the background regions, which commonly are incorrectly highlighted as cracks by standard thresholding methods. We focus on the ease of implementation of our method and it is shown to perform well on several surface crack datasets, segmenting cracks efficiently even though the only data that was used for training were simple classification labels.
翻訳日:2021-09-06 11:13:16 公開日:2021-09-03
# 顔画像アニメーションのための疎密な動き伝達

Sparse to Dense Motion Transfer for Face Image Animation ( http://arxiv.org/abs/2109.00471v2 )

ライセンス: Link先を確認
Ruiqi Zhao, Tianyi Wu and Guodong Guo(参考訳) 単一画像からの顔画像アニメーションは目覚ましい進歩を遂げた。 しかし、運転信号としてスパースランドマークのみを利用できる場合、依然として困難である。 ソースの顔画像とスパースな顔ランドマークのシーケンスを考えると、私たちの目標は、ランドマークの動きを模倣した顔のビデオを生成することです。 スパースランドマークから顔画像への移動を効率よく効果的に行う方法を開発した。 そして、大域的および局所的な運動推定を統一モデルで組み合わせ、忠実に動きを伝達する。 モデルは、移動前景を背景から分割し、回転や顔の翻訳といった大域的な動きだけでなく、視線の変化のような微妙な局所的な動きも生成することができる。 ビデオにおける顔のランドマーク検出をさらに改善する。 トレーニング用ランドマークシーケンスを時間的によく整列させることで,映像品質の高い時間的コヒーレント映像を生成できる。 実験では、同一のアイデンティティテストにおいて最先端の画像駆動メソッドに匹敵する結果と、より優れたクロスアイデンティティテストの結果が得られたことを示唆する。

Face image animation from a single image has achieved remarkable progress. However, it remains challenging when only sparse landmarks are available as the driving signal. Given a source face image and a sequence of sparse face landmarks, our goal is to generate a video of the face imitating the motion of landmarks. We develop an efficient and effective method for motion transfer from sparse landmarks to the face image. We then combine global and local motion estimation in a unified model to faithfully transfer the motion. The model can learn to segment the moving foreground from the background and generate not only global motion, such as rotation and translation of the face, but also subtle local motion such as the gaze change. We further improve face landmark detection on videos. With temporally better aligned landmark sequences for training, our method can generate temporally coherent videos with higher visual quality. Experiments suggest we achieve results comparable to the state-of-the-art image driven method on the same identity testing and better results on cross identity testing.
翻訳日:2021-09-06 11:12:54 公開日:2021-09-03
# nerfingmvs: 屋内多視点ステレオのための神経放射場の最適化

NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo ( http://arxiv.org/abs/2109.01129v2 )

ライセンス: Link先を確認
Yi Wei, Shaohui Liu, Yongming Rao, Wang Zhao, Jiwen Lu, Jie Zhou(参考訳) 本研究では,最近提案されたニューラルラディアンス場(NeRF)に対して,従来のSfM再構成と学習に基づく事前推定を併用した多視点深度推定手法を提案する。 推定対応に依存する既存のニューラルネットワークベースの最適化手法とは異なり、本手法は暗黙のボリュームを直接最適化し、屋内シーンにおける画素マッチングの難易度を除去する。 このアプローチの鍵は、学習に基づく事前学習を利用して、nrfの最適化プロセスを導くことです。 本システムはまず,SfM再構成を微調整することにより,ターゲットシーン上の単眼深度ネットワークに適応する。 そこで我々は,NeRFの形状のあいまいさを室内環境に残しており,ボリュームレンダリングのサンプリングプロセスを監視するために,適応した深度を用いてこの問題に対処することを提案する。 最後に、レンダリング画像上の誤差計算によって得られた画素ごとの信頼マップを用いて、深度品質をさらに向上することができる。 実験の結果,提案手法は室内環境における最先端の手法よりも優れており,対応性に基づく最適化とNeRFに基づく最適化の有効性が示唆された。 さらに, 誘導最適化方式は, ニューラルラディアンスフィールドのオリジナル合成能力を犠牲にすることなく, 目視と新鮮視のレンダリング品質を向上することを示した。 コードはhttps://github.com/w eiyithu/nerfingmvsで入手できる。

In this work, we present a new multi-view depth estimation method that utilizes both conventional SfM reconstruction and learning-based priors over the recently proposed neural radiance fields (NeRF). Unlike existing neural network based optimization method that relies on estimated correspondences, our method directly optimizes over implicit volumes, eliminating the challenging step of matching pixels in indoor scenes. The key to our approach is to utilize the learning-based priors to guide the optimization process of NeRF. Our system firstly adapts a monocular depth network over the target scene by finetuning on its sparse SfM reconstruction. Then, we show that the shape-radiance ambiguity of NeRF still exists in indoor environments and propose to address the issue by employing the adapted depth priors to monitor the sampling process of volume rendering. Finally, a per-pixel confidence map acquired by error computation on the rendered image can be used to further improve the depth quality. Experiments show that our proposed framework significantly outperforms state-of-the-art methods on indoor scenes, with surprising findings presented on the effectiveness of correspondence-based optimization and NeRF-based optimization over the adapted depth priors. In addition, we show that the guided optimization scheme does not sacrifice the original synthesis capability of neural radiance fields, improving the rendering quality on both seen and novel views. Code is available at https://github.com/w eiyithu/NerfingMVS.
翻訳日:2021-09-06 11:12:38 公開日:2021-09-03
# 終端文脈音声認識のための木制約ポインタージェネレータ

Tree-constrained Pointer Generator for End-to-end Contextual Speech Recognition ( http://arxiv.org/abs/2109.00627v2 )

ライセンス: Link先を確認
Guangzhi Sun, Chao Zhang, Philip C. Woodland(参考訳) 文脈知識は実世界の音声認識(ASR)アプリケーションにおいて重要である。 本稿では,アテンションベースのエンコーダデコーダとトランスデューサのエンド・ツー・エンドASRモデルの両方に,単語のバイアスリストなどの知識を組み込んだ新しいツリー制約ポインタジェネレータ(TCPGen)を提案する。 TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするために、ツリーと最終的なASR出力分布の間の神経ショートカットを生成する。 システムは、異なるアプリケーションシナリオをシミュレートするために、発話、章、書籍のスケールで偏りのある単語を抽出する、Librispeech corpusで訓練され、評価された。 実験の結果,TCPGenはベースラインと比較して単語誤り率(WER)を一貫して改善し,特に偏りのある単語に対して顕著なWER削減を実現した。 TCPGenは非常に効率的で、5000の偏りのあるワードとイントラクタを処理でき、メモリ使用量と計算コストに小さなオーバーヘッドを加えるだけである。

Contextual knowledge is important for real-world automatic speech recognition (ASR) applications. In this paper, a novel tree-constrained pointer generator (TCPGen) component is proposed that incorporates such knowledge as a list of biasing words into both attention-based encoder-decoder and transducer end-to-end ASR models in a neural-symbolic way. TCPGen structures the biasing words into an efficient prefix tree to serve as its symbolic input and creates a neural shortcut between the tree and the final ASR output distribution to facilitate recognising biasing words during decoding. Systems were trained and evaluated on the Librispeech corpus where biasing words were extracted at the scales of an utterance, a chapter, or a book to simulate different application scenarios. Experimental results showed that TCPGen consistently improved word error rates (WERs) compared to the baselines, and in particular, achieved significant WER reductions on the biasing words. TCPGen is highly efficient: it can handle 5,000 biasing words and distractors and only add a small overhead to memory use and computation cost.
翻訳日:2021-09-06 11:12:13 公開日:2021-09-03
# 階層地図のための勾配サンプリングアルゴリズムと位相データ解析への応用

A Gradient Sampling Algorithm for Stratified Maps with Applications to Topological Data Analysis ( http://arxiv.org/abs/2109.00530v2 )

ライセンス: Link先を確認
Jacob Leygonie, Mathieu Carri\`ere (DATASHAPE), Th\'eo Lacombe (DATASHAPE), Steve Oudot (DATASHAPE)(参考訳) 本研究では, 局所リプシッツ関数として定義される, 環境ユークリッド空間の成層と呼ばれる正則片上で滑らかな局所的リプシッツ関数として, 既知の勾配サンプリング手法を拡張した新しい勾配降下アルゴリズムを提案する。 このクラスの関数に対して、我々のアルゴリズムはサブ線形収束率を達成する。 次に,この手法を,トポロジカルデータ解析の中心的ツールである低星フィルタ上で計算された(拡張)持続ホモロジー写像に基づいて,目的関数に適用する。 そこで本研究では,置換群のケイリーグラフを用いて,対応する成層を効率的に探索する。 最後に,フレームワークの有用性と適用性を示すために,ベンチマークおよび新しいトポロジカル最適化問題を提案する。

We introduce a novel gradient descent algorithm extending the well-known Gradient Sampling methodology to the class of stratifiably smooth objective functions, which are defined as locally Lipschitz functions that are smooth on some regular pieces-called the strata-of the ambient Euclidean space. For this class of functions, our algorithm achieves a sub-linear convergence rate. We then apply our method to objective functions based on the (extended) persistent homology map computed over lower-star filters, which is a central tool of Topological Data Analysis. For this, we propose an efficient exploration of the corresponding stratification by using the Cayley graph of the permutation group. Finally, we provide benchmark and novel topological optimization problems, in order to demonstrate the utility and applicability of our framework.
翻訳日:2021-09-06 11:11:54 公開日:2021-09-03