このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201007となっている論文です。

PDF登録状況(公開日: 20201007)

TitleAuthorsAbstract論文公表日・翻訳日
# ナウティラス(NAUTILUS:Versatile Voice Cloning System)

NAUTILUS: a Versatile Voice Cloning System ( http://arxiv.org/abs/2005.11004v2 )

ライセンス: Link先を確認
Hieu-Thi Luong, Junichi Yamagishi(参考訳) 我々は、テキスト入力または任意の音源話者の参照発話からターゲット音声で音声を生成するNAUTILUSと呼ばれる新しい音声合成システムを導入する。 複数話者音声コーパスを用いて、初期訓練段階で必要なエンコーダとデコーダをすべて訓練することにより、バックプロパゲーションアルゴリズムに基づいて、対象話者の未書き込み音声を用いて未認識音声をクローンすることができる。 また、対象話者のデータ状況に応じて、追加データを利用してクローン戦略を調整し、テキスト対音声変換(tts)および/または音声変換(vc)システムの動作を変更して状況に対応させることができる。 本稿では,エンコーダ,デコーダ,ウェーブネットボコーダをモデル化する深層畳み込み層を用いて,提案フレームワークの性能をテストする。 評価の結果、現在最先端のTSやVCシステムと同等の品質を達成できることがわかった。 さらに,提案フレームワークでは,ttsとvcを高い話者一貫性で切り替えることが可能であり,多くのアプリケーションで有用であることを示す。

We introduce a novel speech synthesis system, called NAUTILUS, that can generate speech with a target voice either from a text input or a reference utterance of an arbitrary source speaker. By using a multi-speaker speech corpus to train all requisite encoders and decoders in the initial training stage, our system can clone unseen voices using untranscribed speech of target speakers on the basis of the backpropagation algorithm. Moreover, depending on the data circumstance of the target speaker, the cloning strategy can be adjusted to take advantage of additional data and modify the behaviors of text-to-speech (TTS) and/or voice conversion (VC) systems to accommodate the situation. We test the performance of the proposed framework by using deep convolution layers to model the encoders, decoders and WaveNet vocoder. Evaluations show that it achieves comparable quality with state-of-the-art TTS and VC systems when cloning with just five minutes of untranscribed speech. Moreover, it is demonstrated that the proposed framework has the ability to switch between TTS and VC with high speaker consistency, which will be useful for many applications.
翻訳日:2022-11-30 09:34:18 公開日:2020-10-07
# 長期の衣服交換者再識別

Long-Term Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2005.12633v3 )

ライセンス: Link先を確認
Xuelin Qian, Wenxuan Wang, Li Zhang, Fangrui Zhu, Yanwei Fu, Tao Xiang, Yu-Gang Jiang, Xiangyang Xue(参考訳) 人物再識別(re-id)は、異なる場所や時刻のカメラビューでターゲットの人物とマッチングすることを目的としている。 既存のRe-ID研究は、人が同じ服装で異なるカメラビューに再び現れる、短期的な布の一貫性の設定に焦点を当てている。 既存の深層Re-IDモデルによって学習された識別的特徴表現は、衣服の視覚的外観に支配される。 本研究は, 着替えの新たな課題において, 長期間, 日数, 月数など, 人物マッチングを行うという, はるかに困難かつ実用的な設定に焦点をあてたものである。 この問題は、LTCC(Long-Term Cloth-Changing) Re-IDと呼ばれており、大規模なデータセットが不足しているため、かなり過小評価されている。 この研究の最初の貢献は、服の頻繁な変化を伴う長期間にわたって捕獲された人々を含む新しいLTCCデータセットである。 第2の貢献として,布交換課題に対処するための新しいre-id手法を提案する。 具体的には,布地の変化により,体型などのソフトバイオメトリックスの方が信頼性が高いと考えられる。 そこで本研究では,現在信頼できない衣服外観を解消し,身体形状情報に焦点を当てた形状埋め込みモジュールと布脱型形状蒸留モジュールを導入する。 大規模な実験により,新たなLTCCデータセット上で提案したモデルにより,優れた性能が得られた。 コードとデータセットはhttps://naiq.github.io/ltcc_perosn_reid.htmlで入手できる。

Person re-identification (Re-ID) aims to match a target person across camera views at different locations and times. Existing Re-ID studies focus on the short-term cloth-consistent setting, under which a person re-appears in different camera views with the same outfit. A discriminative feature representation learned by existing deep Re-ID models is thus dominated by the visual appearance of clothing. In this work, we focus on a much more difficult yet practical setting where person matching is conducted over long-duration, e.g., over days and months and therefore inevitably under the new challenge of changing clothes. This problem, termed Long-Term Cloth-Changing (LTCC) Re-ID is much understudied due to the lack of large scale datasets. The first contribution of this work is a new LTCC dataset containing people captured over a long period of time with frequent clothing changes. As a second contribution, we propose a novel Re-ID method specifically designed to address the cloth-changing challenge. Specifically, we consider that under cloth-changes, soft-biometrics such as body shape would be more reliable. We, therefore, introduce a shape embedding module as well as a cloth-elimination shape-distillation module aiming to eliminate the now unreliable clothing appearance features and focus on the body shape information. Extensive experiments show that superior performance is achieved by the proposed model on the new LTCC dataset. The code and dataset will be available at https://naiq.github.io/LTCC_Perosn_ReID.html.
翻訳日:2022-11-29 00:23:50 公開日:2020-10-07
# 構造化バイオメディカルドメイン間の予測的不変性の促進

Enforcing Predictive Invariance across Structured Biomedical Domains ( http://arxiv.org/abs/2006.03908v3 )

ライセンス: Link先を確認
Wengong Jin, Regina Barzilay, Tommi Jaakkola(参考訳) 分子特性予測のような多くの生化学的応用は、訓練領域(環境)を超えて一般化するモデルを必要とする。 さらに、これらのタスクの自然環境は、分子足場やタンパク質ファミリーのような複雑な記述子によって定義される。 したがって、ほとんどの環境はトレーニング中に見ることも、トレーニングの例だけを含むこともない。 これらの課題に対処するために、新しい後悔最小化(RGM)アルゴリズムと構造化環境の拡張を提案する。 rgmは、予測的な後悔という観点から同時最適条件を再キャストすることで、不変リスク最小化(invariant risk minimization, irm)から構築されている。 構造拡張は、特殊領域摂動による複雑な環境による変動を適応的に強調する。 本手法は, 分子特性予測, タンパク質ホモロジー, 安定性予測などの複数の応用で評価し, rgmが過去の最先端のベースラインを大きく上回ることを示した。

Many biochemical applications such as molecular property prediction require models to generalize beyond their training domains (environments). Moreover, natural environments in these tasks are structured, defined by complex descriptors such as molecular scaffolds or protein families. Therefore, most environments are either never seen during training, or contain only a single training example. To address these challenges, we propose a new regret minimization (RGM) algorithm and its extension for structured environments. RGM builds from invariant risk minimization (IRM) by recasting simultaneous optimality condition in terms of predictive regret, finding a representation that enables the predictor to compete against an oracle with hindsight access to held-out environments. The structured extension adaptively highlights variation due to complex environments via specialized domain perturbations. We evaluate our method on multiple applications: molecular property prediction, protein homology and stability prediction and show that RGM significantly outperforms previous state-of-the-art baselines.
翻訳日:2022-11-24 21:05:26 公開日:2020-10-07
# ロバスト変分自動符号化による新規検出

Novelty Detection via Robust Variational Autoencoding ( http://arxiv.org/abs/2006.05534v3 )

ライセンス: Link先を確認
Chieh-Hsin Lai, Dongmian Zou and Gilad Lerman(参考訳) そこで本研究では, 訓練点の高い腐敗を許容できる新奇性検出法を提案する。 提案手法は,制約のないトレーニングポイントのモデル生成を目的としたロバスト変分オートエンコーダ(vae)を訓練する。 高汚職に対する堅牢性を得るために、以下4つの変更を加えます。 1. 分散のために慎重に設計された次元縮小成分による潜伏符号の重要な特徴の抽出 2. テストがインリアーモデルのみを使用するガウス低ランクのインリアーとフルランクのアウトリアーの混合として潜在分布をモデル化する。 3. kullback-leibler (kl) 分岐の代わりに、正規化にwasserstein-1メトリックを適用すること。 4. 再構成に最小絶対偏差誤差を用いる。 我々は、KLの発散とは対照的に、外れ値に対するロバスト性と、ワッサーシュタイン計量の低ランクモデリングに適合性の両方を確立する。 本稿では,新奇性検出のための標準ベンチマークについて,最新の結果を示す。

We propose a new method for novelty detection that can tolerate high corruption of the training points, whereas previous works assumed either no or very low corruption. Our method trains a robust variational autoencoder (VAE), which aims to generate a model for the uncorrupted training points. To gain robustness to high corruption, we incorporate the following four changes to the common VAE: 1. Extracting crucial features of the latent code by a carefully designed dimension reduction component for distributions; 2. Modeling the latent distribution as a mixture of Gaussian low-rank inliers and full-rank outliers, where the testing only uses the inlier model; 3. Applying the Wasserstein-1 metric for regularization, instead of the Kullback-Leibler (KL) divergence; and 4. Using a least absolute deviation error for reconstruction. We establish both robustness to outliers and suitability to low-rank modeling of the Wasserstein metric as opposed to the KL divergence. We illustrate state-of-the-art results on standard benchmarks for novelty detection.
翻訳日:2022-11-23 14:19:18 公開日:2020-10-07
# 自己監督型学習支援クラスインクリメンタル生涯学習

Self-Supervised Learning Aided Class-Incremental Lifelong Learning ( http://arxiv.org/abs/2006.05882v4 )

ライセンス: Link先を確認
Song Zhang, Gehui Shen, Jinsong Huang, Zhi-Hong Deng(参考訳) 生涯学習や連続学習は、古い知識の保存と新しい知識の獲得にはプラスティックの両方を安定させる必要があるため、人工ニューラルネットワークにとっての課題である。 過去の経験が上書きされるのが一般的であり、特にクラスインクリメンタル・ラーニング(class-il)のシナリオでは、破滅的な忘れ方がよく知られている。 近年,破滅的な忘れ込みを避けるために,生涯学習法が数多く提案されている。 しかし、入力データを再生せずに学習するモデルは、無視された別の問題に遭遇し、それを事前情報損失(prior information loss, pil)と呼ぶ。 クラスILの訓練手順では、モデルが次のタスクについて知識を持っていないため、これまで学習してきたタスクに必要な特徴のみを抽出し、その情報は共同分類に不十分である。 本稿では,いくつかの画像データセットを用いた実験結果から,pilはクラスilにおける現在の最先端手法である直交重み修正法(owm)の性能を制限していることが示された。 さらに,ラベルを必要とせずに効果的な表現を提供する自己教師型学習と,この問題を回避するためのクラスILを組み合わせることを提案する。 実験により,OWMに対する提案手法の優位性や,他の強力なベースラインが示された。

Lifelong or continual learning remains to be a challenge for artificial neural network, as it is required to be both stable for preservation of old knowledge and plastic for acquisition of new knowledge. It is common to see previous experience get overwritten, which leads to the well-known issue of catastrophic forgetting, especially in the scenario of class-incremental learning (Class-IL). Recently, many lifelong learning methods have been proposed to avoid catastrophic forgetting. However, models which learn without replay of the input data, would encounter another problem which has been ignored, and we refer to it as prior information loss (PIL). In training procedure of Class-IL, as the model has no knowledge about following tasks, it would only extract features necessary for tasks learned so far, whose information is insufficient for joint classification. In this paper, our empirical results on several image datasets show that PIL limits the performance of current state-of-the-art method for Class-IL, the orthogonal weights modification (OWM) algorithm. Furthermore, we propose to combine self-supervised learning, which can provide effective representations without requiring labels, with Class-IL to partly get around this problem. Experiments show superiority of proposed method to OWM, as well as other strong baselines.
翻訳日:2022-11-23 04:39:24 公開日:2020-10-07
# 適応報酬のない探索

Adaptive Reward-Free Exploration ( http://arxiv.org/abs/2006.06294v2 )

ライセンス: Link先を確認
Emilie Kaufmann, Pierre M\'enard, Omar Darwiche Domingues, Anders Jonsson, Edouard Leurent, Michal Valko(参考訳) 報酬なし探索(reward-free exploration)は、jin et al. (2020)によって研究された強化学習環境であり、後悔の保証を並行して複数のアルゴリズムを実行することで対処している。 本研究では,最大mdp推定誤差の上限を直接低減し,報酬のない探索を行うための,より自然な適応的アプローチを提案する。 興味深いことに、我々の報酬のないUCRLアルゴリズムは1994年のFiechterのアルゴリズムの変種と見なすことができる。 rf-ucrlの出力には$({sah^4}/{\varepsilon^2})(\log(1/\delta) + s)$のエピソードが必要であり、任意の報酬関数に対する最適なポリシーの$\varepsilon$近似である。 この境界は、小さな$\varepsilon$と小さな$\delta$ regimesの両方の既存のサンプル複雑境界よりも改善される。 さらに,報酬のない探索と最善の政治識別の相対的複雑さについても検討する。

Reward-free exploration is a reinforcement learning setting studied by Jin et al. (2020), who address it by running several algorithms with regret guarantees in parallel. In our work, we instead give a more natural adaptive approach for reward-free exploration which directly reduces upper bounds on the maximum MDP estimation error. We show that, interestingly, our reward-free UCRL algorithm can be seen as a variant of an algorithm of Fiechter from 1994, originally proposed for a different objective that we call best-policy identification. We prove that RF-UCRL needs of order $({SAH^4}/{\varepsilon^2})(\log(1/\delta) + S)$ episodes to output, with probability $1-\delta$, an $\varepsilon$-approximation of the optimal policy for any reward function. This bound improves over existing sample-complexity bounds in both the small $\varepsilon$ and the small $\delta$ regimes. We further investigate the relative complexities of reward-free exploration and best-policy identification.
翻訳日:2022-11-22 09:54:22 公開日:2020-10-07
# 限られたデータによる生成型adversarialネットワークの訓練

Training Generative Adversarial Networks with Limited Data ( http://arxiv.org/abs/2006.06676v2 )

ライセンス: Link先を確認
Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila(参考訳) あまりに少ないデータを使用するgan(generative adversarial networks)トレーニングは、通常、判別器の過剰フィッティングにつながり、トレーニングが多様化する。 限られたデータレジームでトレーニングを著しく安定化する適応的判別器拡張機構を提案する。 このアプローチでは損失関数やネットワークアーキテクチャの変更は必要とせず、スクラッチからトレーニングする場合と、既存のGANを他のデータセットで微調整する場合の両方に適用できる。 いくつかのデータセットで、数千のトレーニングイメージで良い結果が得られ、しばしばstylegan2の結果と桁違いに少ない画像で一致していることを実証した。 これはgansの新しいアプリケーションドメインを開くことを期待しています。 また、広く使われているCIFAR-10は、実際には限られたデータベンチマークであり、記録的なFIDを5.59から2.42に改善している。

Training generative adversarial networks (GAN) using too little data typically leads to discriminator overfitting, causing training to diverge. We propose an adaptive discriminator augmentation mechanism that significantly stabilizes training in limited data regimes. The approach does not require changes to loss functions or network architectures, and is applicable both when training from scratch and when fine-tuning an existing GAN on another dataset. We demonstrate, on several datasets, that good results are now possible using only a few thousand training images, often matching StyleGAN2 results with an order of magnitude fewer images. We expect this to open up new application domains for GANs. We also find that the widely used CIFAR-10 is, in fact, a limited data benchmark, and improve the record FID from 5.59 to 2.42.
翻訳日:2022-11-22 09:11:09 公開日:2020-10-07
# 量子化グローバルモデル更新による連合学習

Federated Learning With Quantized Global Model Updates ( http://arxiv.org/abs/2006.10672v2 )

ライセンス: Link先を確認
Mohammad Mohammadi Amiri, Deniz Gunduz, Sanjeev R. Kulkarni, H. Vincent Poor(参考訳) 我々は,モバイル端末がローカルデータセットを利用して,中央サーバの助けを借りてグローバルモデルを協調訓練することを可能にするフェデレートラーニング(FL)について検討した。 各イテレーションにおいて、サーバは現在のグローバルモデルをローカルトレーニングのためにデバイスにブロードキャストし、ローカルモデルのアップデートをデバイスから集約してグローバルモデルを更新します。 FLの通信効率に関するこれまでの研究は主に,グローバルモデルの完全放送を想定したデバイスからのモデル更新の集約に重点を置いてきた。 本稿では,グローバルモデルの圧縮版を放送することを検討する。 これは、グローバルモデルが無線媒体を介して送信される場合に特に制限されるFLの通信コストをさらに削減することを目的としている。 本稿では,大域的モデルと局所的モデル更新の両方を,送信前に量子化する損失FL(LFL)アルゴリズムを提案する。 サーバ上での正確なローカルモデル更新の可用性を前提としたLFLアルゴリズムの収束挙動を解析する。 数値実験により、グローバルモデル自体ではなく、グローバルモデル更新(デバイスにおけるグローバルモデル推定に関して)を定量化するlflスキームは、ps-to-device方向にグローバルモデルの量子化を研究する他の既存のスキームを大きく上回っていることが示された。 また、提案手法の性能損失は、PSとデバイスが量子化なしでメッセージを完全に送信する完全に損失のない手法と比較しても限界がある。

We study federated learning (FL), which enables mobile devices to utilize their local datasets to collaboratively train a global model with the help of a central server, while keeping data localized. At each iteration, the server broadcasts the current global model to the devices for local training, and aggregates the local model updates from the devices to update the global model. Previous work on the communication efficiency of FL has mainly focused on the aggregation of model updates from the devices, assuming perfect broadcasting of the global model. In this paper, we instead consider broadcasting a compressed version of the global model. This is to further reduce the communication cost of FL, which can be particularly limited when the global model is to be transmitted over a wireless medium. We introduce a lossy FL (LFL) algorithm, in which both the global model and the local model updates are quantized before being transmitted. We analyze the convergence behavior of the proposed LFL algorithm assuming the availability of accurate local model updates at the server. Numerical experiments show that the proposed LFL scheme, which quantizes the global model update (with respect to the global model estimate at the devices) rather than the global model itself, significantly outperforms other existing schemes studying quantization of the global model at the PS-to-device direction. Also, the performance loss of the proposed scheme is marginal compared to the fully lossless approach, where the PS and the devices transmit their messages entirely without any quantization.
翻訳日:2022-11-19 14:34:38 公開日:2020-10-07
# 強化学習を用いたアクティブmr k空間サンプリング

Active MR k-space Sampling with Reinforcement Learning ( http://arxiv.org/abs/2007.10469v2 )

ライセンス: Link先を確認
Luis Pineda, Sumana Basu, Adriana Romero, Roberto Calandra, Michal Drozdzal(参考訳) 深層学習アプローチは、最近MRI(MRI)の獲得を加速する大きな可能性を示している。 既存の作業の大部分は、軌道最適化の問題を無視して、事前に決定された獲得軌道を考慮し、より良い再構築モデルの設計に重点を置いている。 本稿では,固定画像再構成モデルによる学習獲得軌跡に着目した。 この問題を逐次決定プロセスとして定式化し,強化学習を用いて解くことを提案する。 膝のmriデータセットの大規模公開実験では,提案モデルが多種多様な加速度因子において,能動的mri獲得の最先端を著しく上回っていることが示された。

Deep learning approaches have recently shown great promise in accelerating magnetic resonance image (MRI) acquisition. The majority of existing work have focused on designing better reconstruction models given a pre-determined acquisition trajectory, ignoring the question of trajectory optimization. In this paper, we focus on learning acquisition trajectories given a fixed image reconstruction model. We formulate the problem as a sequential decision process and propose the use of reinforcement learning to solve it. Experiments on a large scale public MRI dataset of knees show that our proposed models significantly outperform the state-of-the-art in active MRI acquisition, over a large range of acceleration factors.
翻訳日:2022-11-08 14:34:06 公開日:2020-10-07
# 放射線医学報告からの親密なパートナーの暴力と傷害予測

Intimate Partner Violence and Injury Prediction From Radiology Reports ( http://arxiv.org/abs/2009.09084v2 )

ライセンス: Link先を確認
Irene Y. Chen, Emily Alsentzer, Hyesun Park, Richard Thomas, Babina Gosangi, Rahul Gujrathi, Bharti Khurana(参考訳) 親密なパートナー暴力(IPV、Intimate partner violence)は、公衆衛生問題である。 IPVと外傷の患者を評価するための機械学習モデルを提案する。 放射線学報告における予測アルゴリズムの訓練 1)暴力防止プログラムへの参入に基づくipvラベル及び 2)緊急放射線学研修医が提供した外傷ラベル 対象はIPV患者34,642例, IPV患者1479例である。 当社のベストモデルでは,暴力防止プログラム導入前におけるipvの中央値が3.08年,感度が64%,特異性95%と予測している。 当社のモデルが特にハイ・ロー・パフォーマンスの患者を特定するためにエラー分析を行い,臨床リスクモデルの次のステップについて検討する。

Intimate partner violence (IPV) is an urgent, prevalent, and under-detected public health issue. We present machine learning models to assess patients for IPV and injury. We train the predictive algorithms on radiology reports with 1) IPV labels based on entry to a violence prevention program and 2) injury labels provided by emergency radiology fellowship-trained physicians. Our dataset includes 34,642 radiology reports and 1479 patients of IPV victims and control patients. Our best model predicts IPV a median of 3.08 years before violence prevention program entry with a sensitivity of 64% and a specificity of 95%. We conduct error analysis to determine for which patients our model has especially high or low performance and discuss next steps for a deployed clinical risk model.
翻訳日:2022-10-24 01:48:50 公開日:2020-10-07
# クエリベースのビデオモーメント検索における隠れた課題

Uncovering Hidden Challenges in Query-Based Video Moment Retrieval ( http://arxiv.org/abs/2009.00325v2 )

ライセンス: Link先を確認
Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkil\"a(参考訳) クエリベースのモーメント検索は、クエリ文に従って、未トリミングビデオから特定のクリップをローカライズする問題である。 これは自然言語クエリとビデオコンテンツの両方の解釈を必要とする難しいタスクである。 コンピュータビジョンや機械学習の多くの分野と同様に、クエリベースのモーメント検索の進歩はベンチマークデータセットによって大きく駆動されるため、その品質はこの分野に大きな影響を与えている。 本稿では,モーメント検索タスクの真の進捗をベンチマーク結果がどの程度反映しているかを評価する一連の実験を行う。 結果は,一般的なデータセットにおける偏りや,最先端モデルの予期せぬ振る舞いを示している。 さらに,結果の可視化のための新しい正当性検査実験とアプローチを提案する。 最後に, 今後, 時間文の接地を改善する方向を提案する。 この論文のコードはhttps://mayu-ot.github.io/hidden-challenges-MRで公開されています。

The query-based moment retrieval is a problem of localising a specific clip from an untrimmed video according a query sentence. This is a challenging task that requires interpretation of both the natural language query and the video content. Like in many other areas in computer vision and machine learning, the progress in query-based moment retrieval is heavily driven by the benchmark datasets and, therefore, their quality has significant impact on the field. In this paper, we present a series of experiments assessing how well the benchmark results reflect the true progress in solving the moment retrieval task. Our results indicate substantial biases in the popular datasets and unexpected behaviour of the state-of-the-art models. Moreover, we present new sanity check experiments and approaches for visualising the results. Finally, we suggest possible directions to improve the temporal sentence grounding in the future. Our code for this paper is available at https://mayu-ot.github.io/hidden-challenges-MR .
翻訳日:2022-10-23 01:29:17 公開日:2020-10-07
# FairXGBoost: XGBoostのフェアネス対応分類

FairXGBoost: Fairness-aware Classification in XGBoost ( http://arxiv.org/abs/2009.01442v2 )

ライセンス: Link先を確認
Srinivasan Ravichandran, Drona Khurana, Bharath Venkatesh, Narayanan Unny Edakunni(参考訳) 金融のような高度に規制されたドメインは、スケーラブルで透明性があり、堅牢で、優れたパフォーマンスをもたらす機械学習アルゴリズムの使用を長い間好んでいた。 そのようなアルゴリズムの最も顕著な例の1つはXGBoostである。 一方で、これらの規制されたドメインに公平で偏りのないモデルを構築することにも関心が高まり、この目的のために多くのバイアス緩和アルゴリズムが提案されている。 しかし、これらのバイアス緩和法はロジスティック回帰やサポートベクターマシンモデルのような特定のモデルファミリに制限されているため、モデル作成者はバイアス緩和アルゴリズムからフェアネスを選択し、スケーラビリティ、透明性、xgboostのようなアルゴリズムからのパフォーマンスを選択することが難しい。 我々は、XGBoostの全ての利点を享受する公平なXGBoostの提案と、最先端のバイアス緩和アルゴリズムによる公正さのレベルを一致させることにより、両方の世界の長所を活用することを目指している。 さらに、提案されたソリューションは、元のXGBoostライブラリの変更に関してほとんど必要としないため、採用が容易になる。 フェアネスコミュニティで使用される標準ベンチマークデータセットについて,提案手法の実証分析を行った。

Highly regulated domains such as finance have long favoured the use of machine learning algorithms that are scalable, transparent, robust and yield better performance. One of the most prominent examples of such an algorithm is XGBoost. Meanwhile, there is also a growing interest in building fair and unbiased models in these regulated domains and numerous bias-mitigation algorithms have been proposed to this end. However, most of these bias-mitigation methods are restricted to specific model families such as logistic regression or support vector machine models, thus leaving modelers with a difficult decision of choosing between fairness from the bias-mitigation algorithms and scalability, transparency, performance from algorithms such as XGBoost. We aim to leverage the best of both worlds by proposing a fair variant of XGBoost that enjoys all the advantages of XGBoost, while also matching the levels of fairness from the state-of-the-art bias-mitigation algorithms. Furthermore, the proposed solution requires very little in terms of changes to the original XGBoost library, thus making it easy for adoption. We provide an empirical analysis of our proposed method on standard benchmark datasets used in the fairness community.
翻訳日:2022-10-22 07:34:29 公開日:2020-10-07
# 多変量統計法による農業開発のためのマルチクラスモデル

Multiclass Model for Agriculture development using Multivariate Statistical method ( http://arxiv.org/abs/2009.05783v2 )

ライセンス: Link先を確認
N Deepa, Mohammad Zubair Khan, Prabadevi B, Durai Raj Vincent P M, Praveen Kumar Reddy Maddikunta, Thippa Reddy Gadekallu(参考訳) Mahalanobis taguchi system (MTS)は特徴選択と二項分類問題に広く用いられている多変量統計手法である。 MTSの直交配列と信号対雑音比の計算は、より多くの因子が分類問題に関与している場合、アルゴリズムを複雑にする。 また、この決定はデータセットの正常な観察と異常な観察の精度に基づいている。 本稿では,改良型マハラノビス田口システム(IMTS)を用いたマルチクラスモデルを提案する。 作物栽培に関連する26の入力要因が同定され,モデル開発の主要な6つの要因に分類された。 因子の相対的重要性を考慮した多クラスモデルを開発した。 水田,サトウキビ,グラウンドナッツの3つの作物の分類に目的関数が定義される。 この分類結果は、現場で働く農業専門家から得られた結果に対して検証される。 提案した分類器は,従来の分類器モデルと比較して100%精度,リコール,精度,エラー率0%を提供する。

Mahalanobis taguchi system (MTS) is a multi-variate statistical method extensively used for feature selection and binary classification problems. The calculation of orthogonal array and signal-to-noise ratio in MTS makes the algorithm complicated when more number of factors are involved in the classification problem. Also the decision is based on the accuracy of normal and abnormal observations of the dataset. In this paper, a multiclass model using Improved Mahalanobis Taguchi System (IMTS) is proposed based on normal observations and Mahalanobis distance for agriculture development. Twenty-six input factors relevant to crop cultivation have been identified and clustered into six main factors for the development of the model. The multiclass model is developed with the consideration of the relative importance of the factors. An objective function is defined for the classification of three crops, namely paddy, sugarcane and groundnut. The classification results are verified against the results obtained from the agriculture experts working in the field. The proposed classifier provides 100% accuracy, recall, precision and 0% error rate when compared with other traditional classifier models.
翻訳日:2022-10-19 08:16:54 公開日:2020-10-07
# multi$^2$oie: bertを用いた多頭注意に基づく多言語オープン情報抽出

Multi$^2$OIE: Multilingual Open Information Extraction Based on Multi-Head Attention with BERT ( http://arxiv.org/abs/2009.08128v2 )

ライセンス: Link先を確認
Youngbin Ro, Yukyung Lee, Pilsung Kang(参考訳) 本稿では,BERTとマルチヘッドアテンションを組み合わせたオープン情報抽出(オープンIE)を行うMulti$2$OIEを提案する。 本モデルは効率的かつ効果的な引数抽出手法を備えたシーケンスラベルシステムである。 我々は、Multimodal Transformerにインスパイアされたクエリ、キー、値設定を使用して、以前使用されていた双方向の長期記憶アーキテクチャをマルチヘッドで置き換える。 multi$^2$oieは2つのベンチマーク評価データセット、re-oie2016とcarbで計算効率の高い既存のシーケンスラベルシステムを上回る。 さらに,提案手法を多言語BERTを用いた多言語オープンIEに適用する。 2つの言語(スペイン語とポルトガル語)で導入された新しいベンチマークデータセットの実験結果から,本モデルは,対象言語をトレーニングすることなく,他の多言語システムよりも優れていることが示された。

In this paper, we propose Multi$^2$OIE, which performs open information extraction (open IE) by combining BERT with multi-head attention. Our model is a sequence-labeling system with an efficient and effective argument extraction method. We use a query, key, and value setting inspired by the Multimodal Transformer to replace the previously used bidirectional long short-term memory architecture with multi-head attention. Multi$^2$OIE outperforms existing sequence-labeling systems with high computational efficiency on two benchmark evaluation datasets, Re-OIE2016 and CaRB. Additionally, we apply the proposed method to multilingual open IE using multilingual BERT. Experimental results on new benchmark datasets introduced for two languages (Spanish and Portuguese) demonstrate that our model outperforms other multilingual systems without training data for the target languages.
翻訳日:2022-10-17 08:15:29 公開日:2020-10-07
# ローリソースではない - aligner ensembling, batch filter, and new datasets for bengali- english machine translation

Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New Datasets for Bengali-English Machine Translation ( http://arxiv.org/abs/2009.09359v2 )

ライセンス: Link先を確認
Tahmid Hasan, Abhik Bhattacharjee, Kazi Samin, Masum Hasan, Madhusudan Basak, M. Sohel Rahman, Rifat Shahriyar(参考訳) ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。 ベンガル語で利用可能なほとんどのパラレルコーパスは十分ではない; かなり質が悪く、主に誤文分割による不正確な文のアライメントが原因であり、またその中に大量のノイズが存在するためである。 そこで本研究では,Bengali 用カスタマイズ文セグメンタを構築し,低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。 セグナーと2つの手法を組み合わせることで,2億7500万文ペアからなる高品質なベンガル英語並列コーパスをコンパイルした。 ニューラルモデルを用いた学習により、ベンガル英語機械翻訳に対する従来のアプローチよりも9以上のBLEUスコアが向上した。 また,広範囲な品質管理を施した1000組の新しいテストセットについても評価した。 我々は、セグメンタ、並列コーパス、評価セットを公開し、Bengaliを低リソース状態から高めます。 私たちの知る限りでは、これはベンガル語-英語機械翻訳に関する最初の大規模研究である。 私たちの研究は、ベンガル語-英語機械翻訳や他の低リソース言語に関する今後の研究への道を開くと確信しています。 私たちのデータとコードはhttps://github.com/csebuetnlp/banglanmt.comから入手できます。

Despite being the seventh most widely spoken language in the world, Bengali has received much less attention in machine translation literature due to being low in resources. Most publicly available parallel corpora for Bengali are not large enough; and have rather poor quality, mostly because of incorrect sentence alignments resulting from erroneous sentence segmentation, and also because of a high volume of noise present in them. In this work, we build a customized sentence segmenter for Bengali and propose two novel methods for parallel corpus creation on low-resource setups: aligner ensembling and batch filtering. With the segmenter and the two methods combined, we compile a high-quality Bengali-English parallel corpus comprising of 2.75 million sentence pairs, more than 2 million of which were not available before. Training on neural models, we achieve an improvement of more than 9 BLEU score over previous approaches to Bengali-English machine translation. We also evaluate on a new test set of 1000 pairs made with extensive quality control. We release the segmenter, parallel corpus, and the evaluation set, thus elevating Bengali from its low-resource status. To the best of our knowledge, this is the first ever large scale study on Bengali-English machine translation. We believe our study will pave the way for future research on Bengali-English machine translation as well as other low-resource languages. Our data and code are available at https://github.com/csebuetnlp/banglanmt.
翻訳日:2022-10-16 12:53:01 公開日:2020-10-07
# ジェンダーバイアス緩和における線形部分空間仮説の探索

Exploring the Linear Subspace Hypothesis in Gender Bias Mitigation ( http://arxiv.org/abs/2009.09435v2 )

ライセンス: Link先を確認
Francisco Vargas and Ryan Cotterell(参考訳) bolukbasi et al. (2016)は、単語埋め込みのための最初のジェンダーバイアス緩和手法の1つである。 彼らの手法は、事前訓練された単語埋め込みを入力とし、埋め込みにおける性バイアスの大部分をキャプチャする線形部分空間を分離しようとする。 類似評価タスクによって判断されるように、その手法は埋め込みにおける性別バイアスを事実上排除する。 しかし、それらの方法の暗黙的かつ未証明の仮定は、バイアス部分空間が実際線型であるということである。 本研究では,その手法をカーネル化された非線形バージョンに一般化する。 カーネルの主成分分析からインスピレーションを得て、非線形バイアス分離手法を導出する。 本稿では, 単語埋め込みにおける非線形性バイアス緩和手法の実際的欠点について議論し, バイアス部分空間が実際に線形であるか否かを実証的に解析する。 分析の結果, 性バイアスは線形部分空間によって捉えられ, bolukbasi et al. (2016) の仮定を正当化していることがわかった。

Bolukbasi et al. (2016) presents one of the first gender bias mitigation techniques for word embeddings. Their method takes pre-trained word embeddings as input and attempts to isolate a linear subspace that captures most of the gender bias in the embeddings. As judged by an analogical evaluation task, their method virtually eliminates gender bias in the embeddings. However, an implicit and untested assumption of their method is that the bias sub-space is actually linear. In this work, we generalize their method to a kernelized, non-linear version. We take inspiration from kernel principal component analysis and derive a non-linear bias isolation technique. We discuss and overcome some of the practical drawbacks of our method for non-linear gender bias mitigation in word embeddings and analyze empirically whether the bias subspace is actually linear. Our analysis shows that gender bias is in fact well captured by a linear subspace, justifying the assumption of Bolukbasi et al. (2016).
翻訳日:2022-10-16 12:42:58 公開日:2020-10-07
# 低リソースマルチモーダル感情認識のためのモダリティ伝達型感情埋め込み

Modality-Transferable Emotion Embeddings for Low-Resource Multimodal Emotion Recognition ( http://arxiv.org/abs/2009.09629v3 )

ライセンス: Link先を確認
Wenliang Dai, Zihan Liu, Tiezheng Yu and Pascale Fung(参考訳) マルチモーダル感情認識タスクにおける最近の成果にもかかわらず、2つの問題がまだ存在し、十分に研究されていない。 1)異なる感情カテゴリー間の関係は利用されず、それが準最適パフォーマンスにつながる。 2) 現在のモデルは低リソース感情、特に目に見えない感情にうまく対応できない。 本稿では,上記の問題に取り組むために感情埋め込みを伴うモダリティ伝達モデルを提案する。 テキストデータの感情カテゴリを表現するために,事前学習した単語埋め込みを用いる。 次に、2つの写像関数を学習し、これらの埋め込みを視覚空間と音響空間に転送する。 各モードに対して、モデルは入力シーケンスと対象感情の間の表現距離を計算し、距離に基づいて予測を行う。 そうすることで、トレーニング済みの埋め込み関数とモダリティマッピング関数があるため、私たちのモデルはあらゆるモダリティにおいて目に見えない感情に直接適応することができます。 実験の結果,感情カテゴリーのほとんどにおいて,最先端のパフォーマンスが得られた。 さらに、私たちのモデルは、無意識の感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。

Despite the recent achievements made in the multi-modal emotion recognition task, two problems still exist and have not been well investigated: 1) the relationship between different emotion categories are not utilized, which leads to sub-optimal performance; and 2) current models fail to cope well with low-resource emotions, especially for unseen emotions. In this paper, we propose a modality-transferable model with emotion embeddings to tackle the aforementioned issues. We use pre-trained word embeddings to represent emotion categories for textual data. Then, two mapping functions are learned to transfer these embeddings into visual and acoustic spaces. For each modality, the model calculates the representation distance between the input sequence and target emotions and makes predictions based on the distances. By doing so, our model can directly adapt to the unseen emotions in any modality since we have their pre-trained embeddings and modality mapping functions. Experiments show that our model achieves state-of-the-art performance on most of the emotion categories. In addition, our model also outperforms existing baselines in the zero-shot and few-shot scenarios for unseen emotions.
翻訳日:2022-10-16 04:51:18 公開日:2020-10-07
# 知識グラフにおける負のサンプリングを意識する構造

Structure Aware Negative Sampling in Knowledge Graphs ( http://arxiv.org/abs/2009.11355v2 )

ライセンス: Link先を確認
Kian Ahrabian, Aarash Feizi, Yasmin Salehi, William L. Hamilton and Avishek Joey Bose(参考訳) コントラスト推定を用いた知識グラフにおけるエンティティと関係の低次元表現の学習は、接続パターンを推定するためのスケーラブルで効果的な方法である。 対照的な学習アプローチの重要な側面は、ハードネガティブなサンプルを生成する腐敗分布の選択である。 従来の手法では、単純すぎる汚職分布、すなわち一様であり、難解な最適化スキームを持つ難解な不定形負数や高度な逆数分布を産み出すが、既知のグラフ構造を明示的に組み込んでいないため、最適でない負となる。 本稿では,ノードのkホップ近傍から負のサンプルを選択することで,リッチグラフ構造を利用した安価な負のサンプリング戦略である構造認識負サンプリング(SANS)を提案する。 経験的に、SANSは意味論的に有意な負の値を見つけ、SOTAアプローチと競合するが、追加のパラメータや難解な逆最適化は不要である。

Learning low-dimensional representations for entities and relations in knowledge graphs using contrastive estimation represents a scalable and effective method for inferring connectivity patterns. A crucial aspect of contrastive learning approaches is the choice of corruption distribution that generates hard negative samples, which force the embedding model to learn discriminative representations and find critical characteristics of observed data. While earlier methods either employ too simple corruption distributions, i.e. uniform, yielding easy uninformative negatives or sophisticated adversarial distributions with challenging optimization schemes, they do not explicitly incorporate known graph structure resulting in suboptimal negatives. In this paper, we propose Structure Aware Negative Sampling (SANS), an inexpensive negative sampling strategy that utilizes the rich graph structure by selecting negative samples from a node's k-hop neighborhood. Empirically, we demonstrate that SANS finds semantically meaningful negatives and is competitive with SOTA approaches while requires no additional parameters nor difficult adversarial optimization.
翻訳日:2022-10-15 15:08:47 公開日:2020-10-07
# 軽度改善セマンティックセグメンテーションに対する因果的介入

Causal Intervention for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2009.12547v2 )

ライセンス: Link先を確認
Dong Zhang, Hanwang Zhang, Jinhui Tang, Xiansheng Hua, Qianru Sun(参考訳) Weakly-Supervised Semantic Segmentation (WSSS)を改善するための因果推論フレームワークを提案する。 具体的には、画像レベルのラベルのみを使用して、より良いピクセルレベルの擬似マスクを生成しようとしています。 擬似マスクの曖昧な境界の原因は、例えば、「ホース」と「人」の正しい画像レベルの分類は、各インスタンスの認識によるだけでなく、それらの共起コンテキストによるものであり、モデル検査(例えば、CAM)は境界を区別することが困難である。 そこで本研究では,画像,コンテキスト,クラスラベル間の因果関係を分析する構造因果モデルを提案する。 画像レベルの分類において,コンテキスト調整(context Adjustment, CONTA)という手法を新たに開発し, その後のセグメンテーションモデルの基盤として,より優れた擬似マスクを提供する。 PASCAL VOC 2012 と MS-COCO では, CONTA が様々な WSSS メソッドを新しい最先端技術に拡張することを示す。

We present a causal inference framework to improve Weakly-Supervised Semantic Segmentation (WSSS). Specifically, we aim to generate better pixel-level pseudo-masks by using only image-level labels -- the most crucial step in WSSS. We attribute the cause of the ambiguous boundaries of pseudo-masks to the confounding context, e.g., the correct image-level classification of "horse" and "person" may be not only due to the recognition of each instance, but also their co-occurrence context, making the model inspection (e.g., CAM) hard to distinguish between the boundaries. Inspired by this, we propose a structural causal model to analyze the causalities among images, contexts, and class labels. Based on it, we develop a new method: Context Adjustment (CONTA), to remove the confounding bias in image-level classification and thus provide better pseudo-masks as ground-truth for the subsequent segmentation model. On PASCAL VOC 2012 and MS-COCO, we show that CONTA boosts various popular WSSS methods to new state-of-the-arts.
翻訳日:2022-10-14 08:52:35 公開日:2020-10-07
# MLエンジニアリングに向けて - TensorFlow Extended(TFX)の簡単な歴史

Towards ML Engineering: A Brief History Of TensorFlow Extended (TFX) ( http://arxiv.org/abs/2010.02013v2 )

ライセンス: Link先を確認
Konstantinos (Gus) Katsiapis, Abhijit Karmarkar, Ahmet Altay, Aleksandr Zaks, Neoklis Polyzotis, Anusha Ramesh, Ben Mathes, Gautam Vasudevan, Irene Giannoumis, Jarek Wilkiewicz, Jiri Simsa, Justin Hong, Mitch Trott, No\'e Lutz, Pavel A. Dournov, Robert Crowe, Sarah Sirajuddin, Tris Brian Warkentin, Zhitao Li(参考訳) ソフトウェア工学は、この5年以上で成熟した分野である。 現代の世界はitに大きく依存するので、ソフトウェアエンジニアリングの成熟度が高まったことは、結果でした。 テストや信頼性の高い技術といったプラクティスは、ソフトウェアエンジニアリングを業界を構築するのに十分な信頼性に役立ちます。 一方、機械学習(ML)も過去20年以上にわたって成長してきた。 mlは研究、実験、運用ワークロードにますます使われている。 MLは一般的に、私たちの生活に不可欠な広く使われている製品を動かしています。 しかし、ML Engineeringは規律として、Software Engineeringの祖先ほど広く成熟していない。 プログラミングがソフトウェア工学に進化するにつれて、応用MLの分野がMLエンジニアリングに進化するのを助けることができるだろうか。 この記事では、Alphabetの2つの連続したエンドツーエンド(E2E)MLプラットフォームである、Sibyl [2]とTensorFlow Extended(TFX) [3]の渦巻きツアーを行います。 これらのプラットフォーム上に構築された10年以上にわたる応用mlから学んだ教訓を共有し、それらの類似点と相違点の両方を説明し、私たちの旅に役立ったシフト(メンタルとテクニカルの両方)を拡大します。 さらに、MLエンジニアリングのいくつかの側面を実現するのに役立つTFXのいくつかの機能を強調します。 MLがもたらす利益を解き放つためには、堅牢なMLインフラストラクチャに投資し、MLエンジニアリング教育を促進することで、MLチームの成熟度を向上する必要がある、と私たちは主張する。 また、最先端のMLモデリング技術に注力する前に、プロダクトリーダーは組織に相互運用可能なMLプラットフォームを採用する時間を増やすことを推奨しています。 締めくくりとして、私たちはまた、TFXの将来を垣間見るつもりです。

Software Engineering, as a discipline, has matured over the past 5+ decades. The modern world heavily depends on it, so the increased maturity of Software Engineering was an eventuality. Practices like testing and reliable technologies help make Software Engineering reliable enough to build industries upon. Meanwhile, Machine Learning (ML) has also grown over the past 2+ decades. ML is used more and more for research, experimentation and production workloads. ML now commonly powers widely-used products integral to our lives. But ML Engineering, as a discipline, has not widely matured as much as its Software Engineering ancestor. Can we take what we have learned and help the nascent field of applied ML evolve into ML Engineering the way Programming evolved into Software Engineering [1]? In this article we will give a whirlwind tour of Sibyl [2] and TensorFlow Extended (TFX) [3], two successive end-to-end (E2E) ML platforms at Alphabet. We will share the lessons learned from over a decade of applied ML built on these platforms, explain both their similarities and their differences, and expand on the shifts (both mental and technical) that helped us on our journey. In addition, we will highlight some of the capabilities of TFX that help realize several aspects of ML Engineering. We argue that in order to unlock the gains ML can bring, organizations should advance the maturity of their ML teams by investing in robust ML infrastructure and promoting ML Engineering education. We also recommend that before focusing on cutting-edge ML modeling techniques, product leaders should invest more time in adopting interoperable ML platforms for their organizations. In closing, we will also share a glimpse into the future of TFX.
翻訳日:2022-10-13 22:34:16 公開日:2020-10-07
# ニューラルネットワークによる正常性検査

Testing for Normality with Neural Networks ( http://arxiv.org/abs/2009.13831v2 )

ライセンス: Link先を確認
Milo\v{s} Simi\'c(参考訳) 本稿では,正規性テストの問題を二分分類問題として扱うとともに,その小さなサンプルを検査して正常分布を正常に検出できるフィードフォワードニューラルネットワークを構築する。 100要素未満の小さなサンプルで行った数値実験では、我々が訓練したニューラルネットワークは、シャピロ・ヴィルク、アンダーソン・ダーリング、リリーフォルス、ジャーク・ベラといった、最も頻繁に使用される最も強力な標準的テストよりも正確で強力であることが示されました。 ニューラルネットワークは、ほぼ1のaurocスコアを持ち、完全なバイナリ分類器に対応している。 さらに、ネットワークの精度は250-1000要素のより大きなサンプルのセットで96%以上であった。 データの正規性は分析と推論のための数多くのテクニックの仮定であるため、本研究で構築されたニューラルネットワークは、科学と産業の両方における統計学、データ分析、機械学習の日常的な実践において非常に高い可能性を持っている。

In this paper, we treat the problem of testing for normality as a binary classification problem and construct a feedforward neural network that can successfully detect normal distributions by inspecting small samples from them. The numerical experiments conducted on small samples with no more than 100 elements indicated that the neural network which we trained was more accurate and far more powerful than the most frequently used and most powerful standard tests of normality: Shapiro-Wilk, Anderson-Darling, Lilliefors and Jarque-Berra, as well as the kernel tests of goodness-of-fit. The neural network had the AUROC score of almost 1, which corresponds to the perfect binary classifier. Additionally, the network's accuracy was higher than 96% on a set of larger samples with 250-1000 elements. Since the normality of data is an assumption of numerous techniques for analysis and inference, the neural network constructed in this study has a very high potential for use in everyday practice of statistics, data analysis and machine learning in both science and industry.
翻訳日:2022-10-13 05:52:10 公開日:2020-10-07
# COVIDアウトブレイク予測のためのディープラーニングフレームワーク

A Deep Learning Framework for COVID Outbreak Prediction ( http://arxiv.org/abs/2010.00382v2 )

ライセンス: Link先を確認
Neeraj, Jimson Mathew, Ranjan Kumar Behera, Zenin Easa Panthakkalakath(参考訳) 新型コロナウイルス(COVID-19)の流行は、2019年12月末以降、世界中で大きな問題となっている。 2020年9月12日現在、感染者は2900万人以上で、全世界で約100万人が死亡している。 新型コロナウイルス(COVID-19)の感染拡大を監視・予測し、感染拡大を抑える必要がある。 新型コロナウイルス(COVID-19)の予測で人気のモデルの中で、統計モデルはメディアで注目を集めている。 しかし,統計モデルでは不確実性が高く,必要なデータが十分に得られていないため,長期予測の精度が低い。 本稿では、統計モデルの代替として、新型コロナウイルスの流行を予測するためのディープラーニングモデルの比較分析を提案する。 注意長短期記憶(attentionlstm)と呼ばれる新しい注意型エンコーダ・デコーダモデルを提案する。 LSTMベースのニューラルネットワーク層アーキテクチャは、隠れ状態ベクトル自体ではなく隠れ状態次元に注意を向ける、きめ細かな注意機構の概念を取り入れており、隠れ状態次元の重要性と貢献を強調することができる。 重要な時間的情報の検出に役立ち、高度に解釈可能なネットワークとなる。 さらに,学習可能なベクトル埋め込みを実装した。 同様に、ベクトル表現の時間は、多くのアーキテクチャで簡単に追加できる。 このベクトル表現は Time2Vec と呼ばれる。 我々は,ジョンズ・ホプキンス大学システム科学工学センター(csse)によるcovid-19データリポジトリを用いて,提案モデルの性能評価を行った。 提案手法は既存手法と比較して予測精度が優れている。

The outbreak of COVID-19 i.e. a variation of coronavirus, also known as novel corona virus causing respiratory disease is a big concern worldwide since the end of December 2019. As of September 12, 2020, it has turned into an epidemic outbreak with more than 29 million confirmed cases and around 1 million reported deaths worldwide. It has created an urgent need to monitor and forecast COVID-19 spread behavior to better control this spread. Among all the popular models for COVID-19 forecasting, statistical models are receiving much attention in media. However, statistical models are showing less accuracy for long term forecasting, as there is high level of uncertainty and required data is also not sufficiently available. In this paper, we propose a comparative analysis of deep learning models to forecast the COVID-19 outbreak as an alternative to statistical models. We propose a new Attention-based encoder-decoder model, named Attention-Long Short Term Memory (AttentionLSTM). LSTM based neural network layer architecture incorporates the idea of fine-grained attention mechanism i.e., attention on hidden state dimensions instead of hidden state vector itself, which is capable of highlighting the importance and contribution of each hidden state dimension. It helps in detection on crucial temporal information, resulting in a highly interpretable network. Additionally, we implement a learnable vector embedding for time. As, time in a vector representation can be easily added with many architectures. This vector representation is called Time2Vec. We have used COVID-19 data repository by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University to assess the proposed model's performance. The proposed model give superior forecasting accuracy compared to other existing methods.
翻訳日:2022-10-13 00:13:21 公開日:2020-10-07
# 最大安全半径計算によるテキスト分類のロバスト性評価

Assessing Robustness of Text Classification through Maximal Safe Radius Computation ( http://arxiv.org/abs/2010.02004v2 )

ライセンス: Link先を確認
Emanuele La Malfa, Min Wu, Luca Laurenti, Benjie Wang, Anthony Hartshorn, Marta Kwiatkowska(参考訳) ニューラルネットワークNLPモデルは、元の意味を維持するが異なる予測をもたらす入力の小さな変更に対して脆弱である。 本稿では,単語の置換に対するテキスト分類の頑健性に着目し,単語がシノニムのような妥当な代替語に置き換えられた場合,モデル予測が変更されないことを保証する。 強靭性の尺度として、与えられた入力テキストに対して最大安全半径という概念を採用し、これは決定境界への埋め込み空間の最小距離である。 厳密な最大安全半径の計算は実際には実現できないので、代わりに下限と上限を計算して近似する。 上限計算のために,モンテカルロ木探索と構文フィルタリングを併用し,単語および複数単語置換の効果を解析した。 低境界計算は,CNN-Cert と POPQORN で実装された,畳み込みおよび繰り返しネットワークモデルに対する線形境界手法の適応によって達成される。 本研究では,4つのデータセット (IMDB, SST, AG News, NEWS) に対する感情分析とニュース分類モデルの評価を行い, 強靭性傾向の分析を行った。 また、我々のフレームワークを解釈可能性分析に適用し、LIMEと比較する。

Neural network NLP models are vulnerable to small modifications of the input that maintain the original meaning but result in a different prediction. In this paper, we focus on robustness of text classification against word substitutions, aiming to provide guarantees that the model prediction does not change if a word is replaced with a plausible alternative, such as a synonym. As a measure of robustness, we adopt the notion of the maximal safe radius for a given input text, which is the minimum distance in the embedding space to the decision boundary. Since computing the exact maximal safe radius is not feasible in practice, we instead approximate it by computing a lower and upper bound. For the upper bound computation, we employ Monte Carlo Tree Search in conjunction with syntactic filtering to analyse the effect of single and multiple word substitutions. The lower bound computation is achieved through an adaptation of the linear bounding techniques implemented in tools CNN-Cert and POPQORN, respectively for convolutional and recurrent network models. We evaluate the methods on sentiment analysis and news classification models for four datasets (IMDB, SST, AG News and NEWS) and a range of embeddings, and provide an analysis of robustness trends. We also apply our framework to interpretability analysis and compare it with LIME.
翻訳日:2022-10-12 06:59:15 公開日:2020-10-07
# トランスを用いた化学1次元知識の超越

Beyond Chemical 1D knowledge using Transformers ( http://arxiv.org/abs/2010.01027v2 )

ライセンス: Link先を確認
Ruud van Deursen, Igor V. Tetko, Guillaume Godin(参考訳) 本稿では,最近のTransformer-CNNモデルの有効性を評価し,拡張ステレオ化学SMILESに基づく目標特性の予測を行った。 既知のクリフ活動データセットと双極子モーメントデータセットを選択し,r/s立体化学に対する3つの表現の効果を笑顔で比較した。 立体化学のないSMILES(noChiSMI)、古典的相対的立体化学符号化(RelChiSMI)、絶対的立体化学符号化(AbsChiSMI)である。 SMILES表現にR/Sを組み込むことで、SMILES表現に基づく各情報の割り当てが簡単になったが、回帰処理や分類処理では必ずしも優位性を示しなかった。 SMILESではステレオ化学情報が存在しないため,Transformer-CNNモデルの性能低下は見られなかった。 さらに,これらのモデルは3d構造に基づくディスクリプタベースモデルと比較して高い性能あるいは類似性を示した。 これらの観察は3次元化学タスクのNLPモデリングにおける重要なステップである。 Transformer-CNNがSMILES入力から3Dの知識を効率的に埋め込むことができるのか、また、より良い表現がこのアプローチの精度をさらに高めるのかは、未解決のままである。

In the present paper we evaluated efficiency of the recent Transformer-CNN models to predict target properties based on the augmented stereochemical SMILES. We selected a well-known Cliff activity dataset as well as a Dipole moment dataset and compared the effect of three representations for R/S stereochemistry in SMILES. The considered representations were SMILES without stereochemistry (noChiSMI), classical relative stereochemistry encoding (RelChiSMI) and an alternative version with absolute stereochemistry encoding (AbsChiSMI). The inclusion of R/S in SMILES representation allowed simplify the assignment of the respective information based on SMILES representation, but did not always show advantages on regression or classification tasks. Interestingly, we did not see degradation of the performance of Transformer-CNN models when the stereochemical information was not present in SMILES. Moreover, these models showed higher or similar performance compared to descriptor-based models based on 3D structures. These observations are an important step in NLP modeling of 3D chemical tasks. An open challenge remains whether Transformer-CNN can efficiently embed 3D knowledge from SMILES input and whether a better representation could further increase the accuracy of this approach.
翻訳日:2022-10-12 02:35:15 公開日:2020-10-07
# 深部ニューラルネットワークを用いたX線画像のCOVID-19分類

COVID-19 Classification of X-ray Images Using Deep Neural Networks ( http://arxiv.org/abs/2010.01362v2 )

ライセンス: Link先を確認
Elisha Goldstein, Daphna Keidar, Daniel Yaron, Yair Shachar, Ayelet Blass, Leonid Charbinsky, Israel Aharony, Liza Lifshitz, Dimitri Lumelsky, Ziv Neeman, Matti Mizrachi, Majd Hajouj, Nethanel Eizenbach, Eyal Sela, Chedva S Weiss, Philip Levin, Ofer Benjaminov, Gil N Bachar, Shlomit Tamir, Yael Rapson, Dror Suhami, Amiel A Dror, Naama R Bogot, Ahuva Grubstein, Nogah Shabshin, Yishai M Elyada, Yonina C Eldar(参考訳) 新型コロナウイルス感染症(COVID-19)の流行の中、胸部X線画像(CXR)は新型コロナウイルス患者の診断とモニタリングに重要な役割を果たしている。 機械学習ソリューションは、様々な医学的文脈におけるX線分析と分類に有用であることが示されている。 本研究の目的は、新型コロナウイルスの診断のための機械学習モデルを作成し、評価することであり、X線スキャンにより類似した患者を検索するためのツールを提供することである。 本研究は,2018年1月から2020年7月までにイスラエルの4つの病院で収集された前頭部CXR画像において,事前学習したディープラーニングモデル(ReNet50)を用いて分類器を構築し,データ拡張と肺分画により増強した。 最寄りのアルゴリズムは、与えられた画像に最も近い画像を特定するネットワーク結果に基づいて実装された。 精度,感度,受信特性曲線(ROC)と高精度リコール曲線(P-R)を用いて評価した。 この研究で得られたデータセットは2362のcxrで、1384人の患者(63歳+18歳、552人)から陽性と陰性のcovid-19のバランスを取っている。 roc 0.95 の auc と p-r 曲線 0.94 の auc を用いて,原データの 15% (2326 点中 350 点) からなるテストデータセット上で,covid-19 分類における 89.7% (314/350) の精度と 87.1% (156/179) の感度を達成した。 各画像について、最もよく似たDNNベースの画像埋め込みで画像を取得する。

In the midst of the coronavirus disease 2019 (COVID-19) outbreak, chest X-ray (CXR) imaging is playing an important role in the diagnosis and monitoring of patients with COVID-19. Machine learning solutions have been shown to be useful for X-ray analysis and classification in a range of medical contexts. The purpose of this study is to create and evaluate a machine learning model for diagnosis of COVID-19, and to provide a tool for searching for similar patients according to their X-ray scans. In this retrospective study, a classifier was built using a pre-trained deep learning model (ReNet50) and enhanced by data augmentation and lung segmentation to detect COVID-19 in frontal CXR images collected between January 2018 and July 2020 in four hospitals in Israel. A nearest-neighbors algorithm was implemented based on the network results that identifies the images most similar to a given image. The model was evaluated using accuracy, sensitivity, area under the curve (AUC) of receiver operating characteristic (ROC) curve and of the precision-recall (P-R) curve. The dataset sourced for this study includes 2362 CXRs, balanced for positive and negative COVID-19, from 1384 patients (63 +/- 18 years, 552 men). Our model achieved 89.7% (314/350) accuracy and 87.1% (156/179) sensitivity in classification of COVID-19 on a test dataset comprising 15% (350 of 2326) of the original data, with AUC of ROC 0.95 and AUC of the P-R curve 0.94. For each image we retrieve images with the most similar DNN-based image embeddings; these can be used to compare with previous cases.
翻訳日:2022-10-11 09:01:42 公開日:2020-10-07
# 付加近似部分モジュラリティについて

On Additive Approximate Submodularity ( http://arxiv.org/abs/2010.02912v2 )

ライセンス: Link先を確認
Flavio Chierichetti, Anirban Dasgupta, Ravi Kumar(参考訳) 実数値集合関数は、加法誤差で部分モジュラリティ条件を満たすとき(加法的に)ほぼ部分モジュラーである。 近似部分モジュラリティは、特に関数評価が正確でない機械学習において、多くの設定で発生する。 本稿では,そのような準モジュラー関数が真の部分モジュラー関数にどの程度近いかを検討する。 n$要素の基底集合上で定義される概準モジュラー函数は、部分モジュラー函数に対して点的に閉じた $o(n^2)$ である。 この結果は、既存の部分モジュラ最適化アルゴリズムをおよそ部分モジュラ関数に適応させるアルゴリズムツールも提供する。 補足するために、$\Omega(\sqrt{n})$ の部分モジュラリティへの距離上の下界を示す。 これらの結果は、モジュラリティへの距離が一定であるような近似モジュラリティと、凸性への距離が対数となる近似凸性とは対照的である。

A real-valued set function is (additively) approximately submodular if it satisfies the submodularity conditions with an additive error. Approximate submodularity arises in many settings, especially in machine learning, where the function evaluation might not be exact. In this paper we study how close such approximately submodular functions are to truly submodular functions. We show that an approximately submodular function defined on a ground set of $n$ elements is $O(n^2)$ pointwise-close to a submodular function. This result also provides an algorithmic tool that can be used to adapt existing submodular optimization algorithms to approximately submodular functions. To complement, we show an $\Omega(\sqrt{n})$ lower bound on the distance to submodularity. These results stand in contrast to the case of approximate modularity, where the distance to modularity is a constant, and approximate convexity, where the distance to convexity is logarithmic.
翻訳日:2022-10-10 08:06:38 公開日:2020-10-07
# 根元を心に留めてください: 依存構文解析のためのarborescencesのデコード

Please Mind the Root: Decoding Arborescences for Dependency Parsing ( http://arxiv.org/abs/2010.02550v2 )

ライセンス: Link先を確認
Ran Zmigrod, Tim Vieira, Ryan Cotterell(参考訳) 依存性ツリーとスパンニングツリーの接続は、NLPコミュニティによって、グラフベースの依存性パーサのトレーニングとデコードに利用される。 しかし、NLPの文献は2つの構造の間に重要な違いを欠いている。 我々は,Universal Dependency Treebankの多くの言語における最先端のパーサーの出力を分析した。これらのパーサーは,制約に反する木が低い確率で割り当てられるべきであることをしばしば学べるが,トレーニングセットのサイズが小さくなるにつれて,予想以上に劣化する可能性がある。 実際、私たちが観察する最悪の制約違反率は24%です。 以前の研究では、制約を強制する非効率なアルゴリズムが提案されており、デコードランタイムにnの要素が加えられている。 gabow と tarjan (1984) によるアルゴリズムを依存構文解析に適用し、元のランタイムを妥協することなく制約を満たす。

The connection between dependency trees and spanning trees is exploited by the NLP community to train and to decode graph-based dependency parsers. However, the NLP literature has missed an important difference between the two structures: only one edge may emanate from the root in a dependency tree. We analyzed the output of state-of-the-art parsers on many languages from the Universal Dependency Treebank: although these parsers are often able to learn that trees which violate the constraint should be assigned lower probabilities, their ability to do so unsurprisingly de-grades as the size of the training set decreases. In fact, the worst constraint-violation rate we observe is 24%. Prior work has proposed an inefficient algorithm to enforce the constraint, which adds a factor of n to the decoding runtime. We adapt an algorithm due to Gabow and Tarjan (1984) to dependency parsing, which satisfies the constraint without compromising the original runtime.
翻訳日:2022-10-10 06:49:26 公開日:2020-10-07
# 教師なし選挙区パーシングにおけるスーパービジョンの役割について

On the Role of Supervision in Unsupervised Constituency Parsing ( http://arxiv.org/abs/2010.02423v2 )

ライセンス: Link先を確認
Haoyue Shi, Karen Livescu, Kevin Gimpel(参考訳) 本稿では,ウォールストリートジャーナル (WSJ) 開発セット (1,700文) において,F_1$スコアを解析するための非教師付き選挙区解析モデルについて検討する。 既存の教師付き構文解析モデル(kitaev and klein, 2018)を、彼らがアクセスする同じラベル付き例でトレーニングすることで、強力なベースラインを導入します。 1,700例のトレーニングや,トレーニングに50例,開発に5例のみを使用する場合でさえ,教師なしの構文解析メソッドをはるかに上回ることができる。 簡単なデータ拡張法と自己学習により、ショットパーシングがさらに改善される。 これは、公正な結論に達するためには、モデル開発に使用されるラベル付きデータの量について慎重に検討する必要があることを示唆している。 教師なし構文解析のための2つのプロトコルを提案する。 一 ハイパーパラメータチューニング及びモデル選択の完全教師なし基準を使用する。 (ii) できるだけ少数のラベル付き例をモデル開発に使用し、同じラベル付き例でトレーニングされた少数ショット解析と比較する。

We analyze several recent unsupervised constituency parsing models, which are tuned with respect to the parsing $F_1$ score on the Wall Street Journal (WSJ) development set (1,700 sentences). We introduce strong baselines for them, by training an existing supervised parsing model (Kitaev and Klein, 2018) on the same labeled examples they access. When training on the 1,700 examples, or even when using only 50 examples for training and 5 for development, such a few-shot parsing approach can outperform all the unsupervised parsing methods by a significant margin. Few-shot parsing can be further improved by a simple data augmentation method and self-training. This suggests that, in order to arrive at fair conclusions, we should carefully consider the amount of labeled data used for model development. We propose two protocols for future work on unsupervised parsing: (i) use fully unsupervised criteria for hyperparameter tuning and model selection; (ii) use as few labeled examples as possible for model development, and compare to few-shot parsing trained on the same labeled examples.
翻訳日:2022-10-10 06:28:48 公開日:2020-10-07
# 視覚下地音声理解のためのテキスト指導

Textual Supervision for Visually Grounded Spoken Language Understanding ( http://arxiv.org/abs/2010.02806v2 )

ライセンス: Link先を確認
Bertrand Higy, Desmond Elliott, Grzegorz Chrupa{\l}a(参考訳) 音声言語理解の視覚的接頭辞モデルは、書き起こしに依存することなく、音声から直接意味情報を抽出する。 これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。 最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。 しかし、エンドツーエンドのアプローチが、トランスクリプションにアクセスする場合に従来のパイプラインベースのアプローチとどのように比較されるかは明らかではない。 異なる戦略を比較すると、十分なテキストが手に入るとパイプラインアプローチがうまく機能することがわかった。 低リソース言語を念頭に置いて、翻訳は転写の代わりに効果的に利用できるが、同様の結果を得るためにはより多くのデータが必要であることも示している。

Visually-grounded models of spoken language understanding extract semantic information directly from speech, without relying on transcriptions. This is useful for low-resource languages, where transcriptions can be expensive or impossible to obtain. Recent work showed that these models can be improved if transcriptions are available at training time. However, it is not clear how an end-to-end approach compares to a traditional pipeline-based approach when one has access to transcriptions. Comparing different strategies, we find that the pipeline approach works better when enough text is available. With low-resource languages in mind, we also show that translations can be effectively used in place of transcriptions but more data is needed to obtain similar results.
翻訳日:2022-10-10 06:02:35 公開日:2020-10-07
# ニューラルマシン翻訳の効率的な推論

Efficient Inference For Neural Machine Translation ( http://arxiv.org/abs/2010.02416v2 )

ライセンス: Link先を確認
Yi-Te Hsu, Sarthak Garg, Yi-Hsiu Liao, Ilya Chatsviorkin(参考訳) 大規模トランスフォーマーモデルはニューラルマシン翻訳の最先端の結果を達成し、この分野では標準となっている。 本研究では,翻訳品質を犠牲にすることなく,推論速度を最適化する手法の最適組み合わせを提案する。 我々は,デコーダの自己アテンションを単純化された再帰ユニットに置き換えること,ディープエンコーダと浅層デコーダアーキテクチャとマルチヘッドアテンションプルーニングを併用することにより,CPUとGPUで最大109%,84%の高速化を実現し,BLEUで同じ翻訳品質を維持しつつパラメータ数を25%削減できることを実証する実証的研究を行った。

Large Transformer models have achieved state-of-the-art results in neural machine translation and have become standard in the field. In this work, we look for the optimal combination of known techniques to optimize inference speed without sacrificing translation quality. We conduct an empirical study that stacks various approaches and demonstrates that combination of replacing decoder self-attention with simplified recurrent units, adopting a deep encoder and a shallow decoder architecture and multi-head attention pruning can achieve up to 109% and 84% speedup on CPU and GPU respectively and reduce the number of parameters by 25% while maintaining the same translation quality in terms of BLEU.
翻訳日:2022-10-10 05:18:04 公開日:2020-10-07
# 攻撃と防御をダウンスケールする: 見たものを手に入るものに変える

Downscaling Attack and Defense: Turning What You See Back Into What You Get ( http://arxiv.org/abs/2010.02456v2 )

ライセンス: Link先を確認
Andrew J. Lohn(参考訳) イメージの再サイズは、一般的にコンピュータビジョンシステムの前処理の必須部分であり、攻撃に対して脆弱である。 イメージは、イメージが他のスケールとマシンビジョンスケールで完全に異なるように作成することができ、一般的なコンピュータビジョンや機械学習システムのデフォルト設定が脆弱である。 防御は存在しており、防御者が脅威に気づいていれば管理するのは自明である。 これらの攻撃と防御は、機械学習における入力衛生の役割を確立するのに役立つ。

The resizing of images, which is typically a required part of preprocessing for computer vision systems, is vulnerable to attack. Images can be created such that the image is completely different at machine-vision scales than at other scales and the default settings for some common computer vision and machine learning systems are vulnerable. We show that defenses exist and are trivial to administer provided that defenders are aware of the threat. These attacks and defenses help to establish the role of input sanitization in machine learning.
翻訳日:2022-10-10 05:09:43 公開日:2020-10-07
# VARXプロセスによる確率的パラメータ化

Stochastic parameterization with VARX processes ( http://arxiv.org/abs/2010.03293v1 )

ライセンス: Link先を確認
Nick Verheul and Daan Crommelin(参考訳) 本研究では,ロレンツ'96(L96)モデルを用いて,データ駆動型確率論的手法を用いて,小規模特徴量のパラメータ化を行う。 与えられたサンプルデータから推定した外因性変数 (VARX) を用いたベクトル自己回帰法を用いて, 小規模な特徴をモデル化する。 VARXのパラメータ数を減少させるために、係数行列に対角構造を課す。 2層モデル L96 の2つの異なる構成に VARX を適用する。1つは L96 モデル変数に対して一様不変確率分布を与える共通パラメータ選択と、もう1つは三次分布を与える非標準パラメータである。 本稿では,モデル変数数に線形なパラメータ数を保ちながら,提案するVARXが一様構成に対して非常によく機能することを示す。 また、パラメータ化は、高密度(非対角)のVARX共分散行列を許容することにより、非常に困難な3モーダルL96の構成に対して正確に動作することを示す。

In this study we investigate a data-driven stochastic methodology to parameterize small-scale features in a prototype multiscale dynamical system, the Lorenz '96 (L96) model. We propose to model the small-scale features using a vector autoregressive process with exogenous variable (VARX), estimated from given sample data. To reduce the number of parameters of the VARX we impose a diagonal structure on its coefficient matrices. We apply the VARX to two different configurations of the 2-layer L96 model, one with common parameter choices giving unimodal invariant probability distributions for the L96 model variables, and one with non-standard parameters giving trimodal distributions. We show through various statistical criteria that the proposed VARX performs very well for the unimodal configuration, while keeping the number of parameters linear in the number of model variables. We also show that the parameterization performs accurately for the very challenging trimodal L96 configuration by allowing for a dense (non-diagonal) VARX covariance matrix.
翻訳日:2022-10-10 00:34:50 公開日:2020-10-07
# 音楽表現のための顔行動の音化

Sonification of Facial Actions for Musical Expression ( http://arxiv.org/abs/2010.03223v1 )

ライセンス: Link先を確認
Mathias Funk, Kazuhiro Kuwabara, Michael J. Lyons(参考訳) 社会的相互作用と非言語コミュニケーションにおける顔の中心的な役割は,音楽表現の手段としての表情行動を検討することにある。 本稿では,顔検出アルゴリズムと光フローアルゴリズムを用いて,顔の動きと音声合成を地形特異的に関連付ける新しいシステムの設計,実装,および予備研究について述べる。 各種のジェスチャー・音声マッピングと応用の経験を報告し,本システムを用いた音楽演奏における予備実験について述べる。

The central role of the face in social interaction and non-verbal communication suggests we explore facial action as a means of musical expression. This paper presents the design, implementation, and preliminary studies of a novel system utilizing face detection and optic flow algorithms to associate facial movements with sound synthesis in a topographically specific fashion. We report on our experience with various gesture-to-sound mappings and applications, and describe our preliminary experiments at musical performance using the system.
翻訳日:2022-10-10 00:32:47 公開日:2020-10-07
# 新しい顔追跡マウス制御器とその生体音響モデルとの相互作用への応用

A Novel Face-tracking Mouth Controller and its Application to Interacting with Bioacoustic Models ( http://arxiv.org/abs/2010.03265v1 )

ライセンス: Link先を確認
Gamhewage C. de Silva, Tamara Smyth, Michael J. Lyons(参考訳) 本稿では,下面の追跡と開口形状に関する情報をビデオシーケンスから抽出する,単純で計算学的に軽量なリアルタイムシステムについて述べる。 このシステムは、口の動きによる音声合成モジュールの無拘束制御を可能にする。 鳥のシリンクスによる音生成の物理モデルと対話するためにマウスコントローラを使用する作業が進行中である。

We describe a simple, computationally light, real-time system for tracking the lower face and extracting information about the shape of the open mouth from a video sequence. The system allows unencumbered control of audio synthesis modules by the action of the mouth. We report work in progress to use the mouth controller to interact with a physical model of sound production by the avian syrinx.
翻訳日:2022-10-10 00:32:38 公開日:2020-10-07
# 音声ファイルの構造化によるスペクトル特徴抽出の効率化

Improving the efficiency of spectral features extraction by structuring the audio files ( http://arxiv.org/abs/2010.03136v1 )

ライセンス: Link先を確認
Dishant Parikh, Saurabh Sachdev(参考訳) 音楽クリップからのスペクトル特徴の抽出は計算コストのかかる作業である。 正確な特徴を抽出するためには、全長さのクリップを処理する必要がある。 この前処理タスクは大きなオーバーヘッドを発生させ、抽出プロセスを遅くする。 我々は、データセットをある方法でフォーマットする方法を示し、クリップ全体を処理する必要をなくし、機能を正確に抽出することで、プロセスをより効率的にする方法を示します。 さらに,特定の種類の音楽クリップを学習中に分析するためのセットの汎用期間を定義する可能性についても論じる。 そうすることで、クリップの処理時間を、グローバル平均の10%に削減しました。

The extraction of spectral features from a music clip is a computationally expensive task. As in order to extract accurate features, we need to process the clip for its whole length. This preprocessing task creates a large overhead and also makes the extraction process slower. We show how formatting a dataset in a certain way, can help make the process more efficient by eliminating the need for processing the clip for its whole duration, and still extract the features accurately. In addition, we discuss the possibility of defining set generic durations for analyzing a certain type of music clip while training. And in doing so we cut down the need of processing the clip duration to just 10% of the global average.
翻訳日:2022-10-10 00:32:31 公開日:2020-10-07
# Transformer Transducer:一モデルによるストリームと非ストリーム音声認識

Transformer Transducer: One Model Unifying Streaming and Non-streaming Speech Recognition ( http://arxiv.org/abs/2010.03192v1 )

ライセンス: Link先を確認
Anshuman Tripathi, Jaeyoung Kim, Qian Zhang, Han Lu, Hasim Sak(参考訳) 本稿では、トランスフォーマトランスデューサモデルアーキテクチャと、ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合する訓練手法を提案する。 モデルは、ルックアヘッドや右コンテキストのないオーディオエンコーディングのためのトランスフォーマー層のスタックと、可変右コンテキストでトレーニングされたトランスフォーマー層のスタックで構成されている。 推論時間では、可変コンテキスト層のコンテキスト長を変更して、モデルのレイテンシと精度をトレードオフすることができる。 また、このモデルを低レイテンシと高レイテンシモードで、上位層が並列に実行されるYモデルアーキテクチャで実行可能であることも示しています。 これにより、レイテンシが制限されたストリーミング音声認識結果と遅延音声認識結果の精度が大きく向上した(音声検索タスクの20%の相対的改善)。 右コンテキスト(1~2秒のオーディオ)と小さな遅延(50~100ミリ秒)がデコーディングの最後にあれば、無制限のオーディオコンテキストを使用してモデルと同じような精度が得られることを示す。 また、音声およびラベルエンコーダの最適化により、ストリーミングおよび非ストリーミング音声復号の推論を高速化する。

In this paper we present a Transformer-Transducer model architecture and a training technique to unify streaming and non-streaming speech recognition models into one model. The model is composed of a stack of transformer layers for audio encoding with no lookahead or right context and an additional stack of transformer layers on top trained with variable right context. In inference time, the context length for the variable context layers can be changed to trade off the latency and the accuracy of the model. We also show that we can run this model in a Y-model architecture with the top layers running in parallel in low latency and high latency modes. This allows us to have streaming speech recognition results with limited latency and delayed speech recognition results with large improvements in accuracy (20% relative improvement for voice-search task). We show that with limited right context (1-2 seconds of audio) and small additional latency (50-100 milliseconds) at the end of decoding, we can achieve similar accuracy with models using unlimited audio right context. We also present optimizations for audio and label encoders to speed up the inference in streaming and non-streaming speech decoding.
翻訳日:2022-10-10 00:32:10 公開日:2020-10-07
# 再構成可能なインテリジェントサーフェスと無線フィンガープリンティング定位のための機械学習

Reconfigurable Intelligent Surfaces and Machine Learning for Wireless Fingerprinting Localization ( http://arxiv.org/abs/2010.03251v1 )

ライセンス: Link先を確認
Cam Ly Nguyen, Orestis Georgiou, Gabriele Gradoni(参考訳) Reconfigurable Intelligent Surfaces (RIS) は、改良され、セキュアで、より効率的な無線通信を約束する。 無線指紋認証のローカライズアプリケーションにおいて、RISが提供した多様性を利用して、容易に識別可能な無線マップを生成し、選択する方法を提案し、実証する。 さらに,機械学習の特徴選択手法を適用し,RISの大きな状態空間を創出し,複雑さを低減し,局所化精度と位置取得時間を向上する。 提案手法を,新しい電波伝搬モデルとシミュレーションを用いた無線マップの生成により評価する。

Reconfigurable Intelligent Surfaces (RISs) promise improved, secure and more efficient wireless communications. We propose and demonstrate how to exploit the diversity offered by RISs to generate and select easily differentiable radio maps for use in wireless fingerprinting localization applications. Further, we apply machine learning feature selection methods to prune the large state space of the RIS, thus reducing complexity and enhancing localization accuracy and position acquisition time. We evaluate our proposed approach by generation of radio maps with a novel radio propagation modelling and simulations.
翻訳日:2022-10-10 00:31:50 公開日:2020-10-07
# less is more:より速く、より優れた音楽バージョン識別に蒸留を組み込む

Less is more: Faster and better music version identification with embedding distillation ( http://arxiv.org/abs/2010.03284v1 )

ライセンス: Link先を確認
Furkan Yesiler and Joan Serr\`a and Emilia G\'omez(参考訳) バージョン識別システムは、同じ楽曲(しばしばカバーソングと呼ばれる)の異なるリフレクションを検出することを目的としている。 記録全体を平易なベクトル埋め込みにエンコードすることで、近年のシステムは精度とスケーラビリティのギャップを埋めることに大きな進歩を遂げている。 本研究では,このギャップをさらに狭めるために,事前学習された最先端モデルの埋め込み次元を減少させる一連のデータ蒸留手法を提案する。 古典的次元の還元からより洗練された蒸留スキームまで,幅広い技術を比較し,新しい方法を提案する。 これにより、99%の小さな埋め込みが得られ、さらに3%の精度向上が得られます。 このような小さな埋め込みは、現実のシステムをスタンドアロンのラップトップで実用化するまで、検索時間に重要な影響を与える可能性がある。

Version identification systems aim to detect different renditions of the same underlying musical composition (loosely called cover songs). By learning to encode entire recordings into plain vector embeddings, recent systems have made significant progress in bridging the gap between accuracy and scalability, which has been a key challenge for nearly two decades. In this work, we propose to further narrow this gap by employing a set of data distillation techniques that reduce the embedding dimensionality of a pre-trained state-of-the-art model. We compare a wide range of techniques and propose new ones, from classical dimensionality reduction to more sophisticated distillation schemes. With those, we obtain 99% smaller embeddings that, moreover, yield up to a 3% accuracy increase. Such small embeddings can have an important impact in retrieval time, up to the point of making a real-world system practical on a standalone laptop.
翻訳日:2022-10-10 00:31:40 公開日:2020-10-07
# デジタル信号処理と組み立て予測モデルの組合せは、タンパク質の合理的設計を促進する

Combination of digital signal processing and assembled predictive models facilitates the rational design of proteins ( http://arxiv.org/abs/2010.03516v1 )

ライセンス: Link先を確認
David Medina-Ortiz and Sebastian Contreras and Juan Amado-Hinojosa and Jorge Torres-Almonacid and Juan A. Asenjo and Marcelo Navarrete and \'Alvaro Olivera-Nappa(参考訳) タンパク質の変異の影響を予測することは、タンパク質工学において最も重要な課題の一つであり、タンパク質の配列の1つ(または複数の)残基の置換がその全体的な性質に与える影響を知ることによって、望ましい機能を持つ変異体を設計することができる。 予測モデルを作成するための新しい戦略と方法論が継続的に開発されている。 しかし、一般に主張されるものは十分な性能に達しず、特定のタスクを目標とするものは、メソッドの一般性を犠牲にして予測性能を向上させる。 さらに、これらのアプローチは通常、アミノ酸配列をコードするには特定の決定を必要とする。 これらの課題に対処するため,AAIndexデータベースにクラスタリング,埋め込み,次元削減手法を適用し,符号化段階における物理化学的特性の有意義な組み合わせを選択する。 次に、選択したプロパティセットを使用して、同じシーケンスの複数のエンコーディングを取得し、その後、Fast Fourier Transform (FFT) を適用した。 我々は、異なるアルゴリズムとハイパーパラメータを用いて、周波数空間における機械学習モデルの探索段階を実行する。 最後に、各プロパティセットで最高のパフォーマンスな予測モデルを選択し、組み立てたモデルを作成します。 提案手法を異なるデータセット上で広範囲に検証し, 生成したモデルが, 単一エンコーディングに基づくモデルと, 多くの場合, 以前報告したモデルよりも優れたパフォーマンス指標を達成できることを実証した。 提案手法は、GNU General Public License (GPLv3)ライセンスの下で非商用使用のためのPythonライブラリとして利用可能である。

Predicting the effect of mutations in proteins is one of the most critical challenges in protein engineering; by knowing the effect a substitution of one (or several) residues in the protein's sequence has on its overall properties, could design a variant with a desirable function. New strategies and methodologies to create predictive models are continually being developed. However, those that claim to be general often do not reach adequate performance, and those that aim to a particular task improve their predictive performance at the cost of the method's generality. Moreover, these approaches typically require a particular decision to encode the amino acidic sequence, without an explicit methodological agreement in such endeavor. To address these issues, in this work, we applied clustering, embedding, and dimensionality reduction techniques to the AAIndex database to select meaningful combinations of physicochemical properties for the encoding stage. We then used the chosen set of properties to obtain several encodings of the same sequence, to subsequently apply the Fast Fourier Transform (FFT) on them. We perform an exploratory stage of Machine-Learning models in the frequency space, using different algorithms and hyperparameters. Finally, we select the best performing predictive models in each set of properties and create an assembled model. We extensively tested the proposed methodology on different datasets and demonstrated that the generated assembled model achieved notably better performance metrics than those models based on a single encoding and, in most cases, better than those previously reported. The proposed method is available as a Python library for non-commercial use under the GNU General Public License (GPLv3) license.
翻訳日:2022-10-10 00:31:26 公開日:2020-10-07
# 専門家の製品を用いた実演から学ぶ:操作とタスク優先順位付けへの応用

Learning from demonstration using products of experts: applications to manipulation and task prioritization ( http://arxiv.org/abs/2010.03505v1 )

ライセンス: Link先を確認
Emmanuel Pignat, Jo\~ao Silv\'erio and Sylvain Calinon(参考訳) 確率分布は、実演(lfd)アプローチからの多くの学習の重要な要素である。 マニピュレータの構成は関節角度によって定義されるが、ポーズはしばしばいくつかのタスク空間内で説明される。 多くのアプローチでは、関連するタスク空間内の分布は独立して学習され、制御レベルでのみ結合される。 この単純化は、この仕事で対処されるいくつかの問題を意味する。 異なるタスク空間におけるモデルの融合は専門家(PoE)の積として表現でき、そこではモデルの確率が乗算されて再正規化され、それが結合角の適切な分布となることを示す。 複数の実験を行い、PoEフレームワークで異なるモデルを共同で学習することで、モデルの品質が大幅に向上することを示した。 提案手法はロボットが競争的あるいは階層的な目的を学習しなければならない場合に特に顕著である。 モデルの共同トレーニングは通常、パフォーマンスに影響を与えるコストのかかる近似を必要とする、対照的な分岐に依存する。 変分推論と混合モデル近似を用いた代替戦略を提案する。 特に,提案手法は,高次目的の解決によって隠蔽されるタスクをモデルが回復できるような,Nullspace Structure (PoENS) を用いてPoEに拡張可能であることを示す。

Probability distributions are key components of many learning from demonstration (LfD) approaches. While the configuration of a manipulator is defined by its joint angles, poses are often best explained within several task spaces. In many approaches, distributions within relevant task spaces are learned independently and only combined at the control level. This simplification implies several problems that are addressed in this work. We show that the fusion of models in different task spaces can be expressed as a product of experts (PoE), where the probabilities of the models are multiplied and renormalized so that it becomes a proper distribution of joint angles. Multiple experiments are presented to show that learning the different models jointly in the PoE framework significantly improves the quality of the model. The proposed approach particularly stands out when the robot has to learn competitive or hierarchical objectives. Training the model jointly usually relies on contrastive divergence, which requires costly approximations that can affect performance. We propose an alternative strategy using variational inference and mixture model approximations. In particular, we show that the proposed approach can be extended to PoE with a nullspace structure (PoENS), where the model is able to recover tasks that are masked by the resolution of higher-level objectives.
翻訳日:2022-10-10 00:24:17 公開日:2020-10-07
# Parkland Trauma Index of Mortality (PTIM) : PolyTrauma 患者のリアルタイム予測モデル

Parkland Trauma Index of Mortality (PTIM): Real-time Predictive Model for PolyTrauma Patients ( http://arxiv.org/abs/2010.03642v1 )

ライセンス: Link先を確認
Adam J. Starr, Manjula Julka, Arun Nethi, John D. Watkins, Ryan W. Fairchild, Michael W. Cripps, Dustin Rinehart, and Hayden N. Box(参考訳) バイタルサインと実験室の値は、早期断裂に対する損傷制御技術の使用の決定など、ポリトラウマ患者の臨床的意思決定をガイドするために日常的に使用される。 以前の多変量モデルでは死亡リスクを予測しようとしたが、入院時の1回予測のようないくつかの制限のため、臨床的に有用でないことが証明された。 死亡予測のための外傷と蘇生に対する患者の病院コースにおける生理的変化を捉えるダイナミックモデルが必要である。 Parkland Trauma Index of Mortality(PTIM)は、EMR(Electronic Medical Record)データを用いて、最初の72ドル(約7万2000円)の入院中の死亡率を予測する機械学習アルゴリズムである。 モデルは毎時更新され、外傷に対する患者の生理的反応とともに進化する。 モデル性能評価には, 受動特性曲線 (ROC) , 感度, 特異性, 正の予測値 (PPV) と負の予測値 (NPV) , 正の正と負の正の正の正比 (LR) が用いられた。 トラウマに対する患者の生理的反応を進化させ、emrデータのみに依存することにより、ptimは以前の死亡リスクモデルの多くの制限を克服する。 入院早期のポリトラウマ患者の臨床的意思決定に有用なツールかもしれない。

Vital signs and laboratory values are routinely used to guide clinical decision-making for polytrauma patients, such as the decision to use damage control techniques versus early definitive fracture fixation. Prior multivariate models have tried to predict mortality risk, but due to several limitations like one-time prediction at the time of admission, they have not proven clinically useful. There is a need for a dynamic model that captures evolving physiologic changes during patient's hospital course to trauma and resuscitation for mortality prediction. The Parkland Trauma Index of Mortality (PTIM) is a machine learning algorithm that uses electronic medical record (EMR) data to predict $48-$hour mortality during the first $72$ hours of hospitalization. The model updates every hour, evolving with the patient's physiologic response to trauma. Area under (AUC) the receiver-operator characteristic curve (ROC), sensitivity, specificity, positive (PPV) and negative predictive value (NPV), and positive and negative likelihood ratios (LR) were used to evaluate model performance. By evolving with the patient's physiologic response to trauma and relying only on EMR data, the PTIM overcomes many of the limitations of prior mortality risk models. It may be a useful tool to inform clinical decision-making for polytrauma patients early in their hospitalization.
翻訳日:2022-10-10 00:23:50 公開日:2020-10-07
# 機械学習に基づくスマートヘルスケアシステムに対する敵対的攻撃

Adversarial Attacks to Machine Learning-Based Smart Healthcare Systems ( http://arxiv.org/abs/2010.03671v1 )

ライセンス: Link先を確認
AKM Iqtidar Newaz, Nur Imtiazul Haque, Amit Kumar Sikder, Mohammad Ashiqur Rahman, A. Selcuk Uluagac(参考訳) 医療データの可用性の向上は、患者の治療を改善するために、疾患の診断、進行、およびリアルタイムモニタリングの正確な分析を必要とする。 この文脈では、機械学習(ML)モデルを使用して、高次元および異質な医療データから貴重な特徴や洞察を抽出し、スマートヘルスケアシステム(SHS)のさまざまな疾患や患者の活動を検出する。 しかし、最近の研究では、異なるアプリケーションドメインで使用されるMLモデルは敵攻撃に弱いことが示されている。 本稿では,SHSで使用されるML分類器を活用するために,新たなタイプの逆攻撃を提案する。 我々は,データ配信,SHSモデル,MLアルゴリズムの知識を部分的に持っている敵が,標的攻撃と未目標攻撃の両方を実行することを考える。 本研究は, 医療機器の読解機能を利用して, SHSの結果, 患者状態(障害性, 正常状態, 活動など)を変化させる。 攻撃は,shs上で異なる悪意のある行動(データ中毒,出力の誤分類など)を行うために,5種類の逆mlアルゴリズム(hopskipjump,fast gradient method, crafting decision tree,carlini & wagner,zeroth order optimization)を使用する。 さらに,攻撃者の訓練およびテストフェーズ能力に基づいて,shsに対してホワイトボックスおよびブラックボックス攻撃を行う。 我々は,様々なshs設定と医療機器を用いて作業性能を評価する。 広範に評価した結果,本提案手法はmlベースsshsの性能を著しく低下させ,患者の正常な活動や異常な治療につながることが示唆された。

The increasing availability of healthcare data requires accurate analysis of disease diagnosis, progression, and realtime monitoring to provide improved treatments to the patients. In this context, Machine Learning (ML) models are used to extract valuable features and insights from high-dimensional and heterogeneous healthcare data to detect different diseases and patient activities in a Smart Healthcare System (SHS). However, recent researches show that ML models used in different application domains are vulnerable to adversarial attacks. In this paper, we introduce a new type of adversarial attacks to exploit the ML classifiers used in a SHS. We consider an adversary who has partial knowledge of data distribution, SHS model, and ML algorithm to perform both targeted and untargeted attacks. Employing these adversarial capabilities, we manipulate medical device readings to alter patient status (disease-affected, normal condition, activities, etc.) in the outcome of the SHS. Our attack utilizes five different adversarial ML algorithms (HopSkipJump, Fast Gradient Method, Crafting Decision Tree, Carlini & Wagner, Zeroth Order Optimization) to perform different malicious activities (e.g., data poisoning, misclassify outputs, etc.) on a SHS. Moreover, based on the training and testing phase capabilities of an adversary, we perform white box and black box attacks on a SHS. We evaluate the performance of our work in different SHS settings and medical devices. Our extensive evaluation shows that our proposed adversarial attack can significantly degrade the performance of a ML-based SHS in detecting diseases and normal activities of the patients correctly, which eventually leads to erroneous treatment.
翻訳日:2022-10-10 00:23:23 公開日:2020-10-07
# 畳み込みニューラルネットワークを用いた繊維強化ポリマーの微細構造画像からの力学特性の予測

Predicting Mechanical Properties from Microstructure Images in Fiber-reinforced Polymers using Convolutional Neural Networks ( http://arxiv.org/abs/2010.03675v1 )

ライセンス: Link先を確認
Yixuan Sun, Imad Hanhan, Michael D. Sangid, and Guang Lin(参考訳) 繊維強化複合材料の機械的応答の評価は非常に時間がかかり、費用がかかる。 機械学習(ML)技術は、既存の入出力ペアでトレーニングされたモデルを介してより高速な予測を行う手段を提供する。 本稿では, 非線形有限要素 (FE) シミュレーションにより, 繊維強化ポリマー試料の2次元分割トモグラフィー画像の応力場を予測するために, 非線形弾性材料のためのScressNetを改良した完全畳み込みニューラルネットワークについて検討する。 このネットワークは、feシミュレーションから生成された正確な微細構造のデータをトレーニングし、評価した。 実験結果から, トレーニングされたネットワークは, 特に繊維上の応力分布特性を, セグメント画像のみから正確に捉えていることがわかった。 トレーニングされたモデルは、入力マイクロ構造を考えると、通常のラップトップ上で1回のフォワードパスで数秒以内に予測を行うことができ、ハイパフォーマンスなコンピューティングクラスタ上でFEシミュレーションを実行するのに92.5時間かかる。 これらの結果から, 繊維強化複合材料の高速構造解析にml法を用いることが期待でき, 繊維強化ポリマーの損傷部位の同定にトレーニングモデルが有効であることが示唆された。

Evaluating the mechanical response of fiber-reinforced composites can be extremely time consuming and expensive. Machine learning (ML) techniques offer a means for faster predictions via models trained on existing input-output pairs and have exhibited success in composite research. This paper explores a fully convolutional neural network modified from StressNet, which was originally for lin-ear elastic materials and extended here for a non-linear finite element (FE) simulation to predict the stress field in 2D slices of segmented tomography images of a fiber-reinforced polymer specimen. The network was trained and evaluated on data generated from the FE simulations of the exact microstructure. The testing results show that the trained network accurately captures the characteristics of the stress distribution, especially on fibers, solely from the segmented microstructure images. The trained model can make predictions within seconds in a single forward pass on an ordinary laptop, given the input microstructure, compared to 92.5 hours to run the full FE simulation on a high-performance computing cluster. These results show promise in using ML techniques to conduct fast structural analysis for fiber-reinforced composites and suggest a corollary that the trained model can be used to identify the location of potential damage sites in fiber-reinforced polymers.
翻訳日:2022-10-10 00:22:52 公開日:2020-10-07
# 核融合MRIを用いた3次元畳み込みニューラルネットワークモデルを用いた幼児の神経発達年齢推定

Neurodevelopmental Age Estimation of Infants Using a 3D-Convolutional Neural Network Model based on Fusion MRI Sequences ( http://arxiv.org/abs/2010.03963v1 )

ライセンス: Link先を確認
M. Shabanian, A. Siddiqui, H. Chen, J.P. DeVincenzo(参考訳) 脳が正常に発達しているかどうかを判断する能力は、小児神経放射線学と神経学の重要な要素である。 乳児の脳磁気共鳴画像(MRI)は、単純なミエリン化以上の発達パターンを示す。 放射線科医は、患者の年齢と脳の成熟度が一致しているかどうかを判断するために、ミネリテーションパターン、脳の形態、大きさの特徴を用いたが、これは小児神経放射線学の長年の経験を必要とする。 標準化された基準がないため、3歳前の脳の成熟度の推定は、インターオブザーバとイントラオブザーバの変動性に乏しいままである。 脳発達年齢推定(bdae:brain developmental age estimation)の客観的指標は、他の神経疾患と同様に発達遅延を医師が特定するのに役立つ。 3次元畳み込みニューラルネットワーク(3D CNN)を用いて,脳の発達年齢を共通MRIを用いて迅速に分類した。 正常新生児のMRIデータセットは、National Institute of Mental Health Data Archiveから出生から3年間取得された。 3d cnnを用いて,t1重み付け,t2重み付け,およびプロトン密度(pd)配列の融合を行うとともに,t1重み付けを用いたbdae法を開発した。 BDAE判定に複数のMRIシークエンスを利用した場合,94.8%の精度,93.5%のリコールを実現した。

The ability to determine if the brain is developing normally is a key component of pediatric neuroradiology and neurology. Brain magnetic resonance imaging (MRI) of infants demonstrates a specific pattern of development beyond simply myelination. While radiologists have used myelination patterns, brain morphology and size characteristics in determining if brain maturity matches the chronological age of the patient, this requires years of experience with pediatric neuroradiology. Due to the lack of standardized criteria, estimation of brain maturity before age three remains fraught with interobserver and intraobserver variability. An objective measure of brain developmental age estimation (BDAE) could be a useful tool in helping physicians identify developmental delay as well as other neurological diseases. We investigated a three-dimensional convolutional neural network (3D CNN) to rapidly classify brain developmental age using common MRI sequences. MRI datasets from normal newborns were obtained from the National Institute of Mental Health Data Archive from birth to 3 years. We developed a BDAE method using T1-weighted, as well as a fusion of T1-weighted, T2-weighted, and proton density (PD) sequences from 112 individual subjects using 3D CNN. We achieved a precision of 94.8% and a recall of 93.5% in utilizing multiple MRI sequences in determining BDAE.
翻訳日:2022-10-10 00:22:30 公開日:2020-10-07
# 視覚ベースのモースインタフェースによる設計・演奏・演奏

Designing, Playing, and Performing with a Vision-based Mouth Interface ( http://arxiv.org/abs/2010.03213v1 )

ライセンス: Link先を確認
Michael J. Lyons, Michael Haehnel, Nobuji Tetsutani(参考訳) 音声生成における顔と口の役割と非言語コミュニケーションは、音楽音を制御するために顔の動きを用いることを示唆している。 本稿では,頭部のミニチュアカメラとコンピュータビジョンアルゴリズムを用いて開口部から形状パラメータを抽出し,MIDI制御変化として出力するシステムであるTheMouthesizerについて述べる。 各種音場マッピングと音楽応用の経験を報告し,Mouthesizer インタフェースを用いたライブ演奏について述べる。

The role of the face and mouth in speech production as well asnon-verbal communication suggests the use of facial action tocontrol musical sound. Here we document work on theMouthesizer, a system which uses a headworn miniaturecamera and computer vision algorithm to extract shapeparameters from the mouth opening and output these as MIDIcontrol changes. We report our experience with variousgesture-to-sound mappings and musical applications, anddescribe a live performance which used the Mouthesizerinterface.
翻訳日:2022-10-10 00:21:41 公開日:2020-10-07
# 畳み込みリカレントニューラルネットワークを用いた心電図の心臓不整脈検出

Cardiac Arrhythmia Detection from ECG with Convolutional Recurrent Neural Networks ( http://arxiv.org/abs/2010.03204v1 )

ライセンス: Link先を確認
J\'er\^ome Van Zaen and Ricard Delgado-Gonzalo and Damien Ferrario Mathieu Lemay(参考訳) 特定のタイプを除いて、心臓不整脈はすぐには致命的ではない。 しかし、適切に治療されていない場合、重篤な合併症を引き起こすことがある。 特に、高速で不規則な心拍数を特徴とする心房細動は、脳卒中リスクを増加させる。 単誘導ECG信号から異常なリズムを検出する3つのニューラルネットワークアーキテクチャを提案する。 これらのアーキテクチャは畳み込み層を組み合わせることで、スライディングウインドウとリカレント層から不整脈を検出するための高レベルな特徴を抽出する。 循環器科2017でコンピューティングの課題に使用されるデータセットと、physionetで利用可能な3つのデータベースを結合したデータセットにニューラルネットワークを適用した。 我々のアーキテクチャは、第1のデータセットで86.23%の精度を達成し、チャレンジの勝者のエントリと同様、第2のデータセットで92.02%の精度を達成した。

Except for a few specific types, cardiac arrhythmias are not immediately life-threatening. However, if not treated appropriately, they can cause serious complications. In particular, atrial fibrillation, which is characterized by fast and irregular heart beats, increases the risk of stroke. We propose three neural network architectures to detect abnormal rhythms from single-lead ECG signals. These architectures combine convolutional layers to extract high-level features pertinent for arrhythmia detection from sliding windows and recurrent layers to aggregate these features over signals of varying durations. We applied the neural networks to the dataset used for the challenge of Computing in Cardiology 2017 and a dataset built by joining three databases available on PhysioNet. Our architectures achieved an accuracy of 86.23% on the first dataset, similar to the winning entries of the challenge, and an accuracy of 92.02% on the second dataset.
翻訳日:2022-10-10 00:15:16 公開日:2020-10-07
# 分散・フェデレーション学習のための最適勾配圧縮

Optimal Gradient Compression for Distributed and Federated Learning ( http://arxiv.org/abs/2010.03246v1 )

ライセンス: Link先を確認
Alyazeed Albasyoni, Mher Safaryan, Laurent Condat, Peter Richt\'arik(参考訳) 分散学習とフェデレート学習の計算ノード間の勾配ベクトルのような情報を通信することは、通常避けられない負担であり、スケーラビリティの問題を引き起こす。 実際、コミュニケーションは遅くてコストがかかるかもしれません。 通信効率のトレーニングアルゴリズムの最近の進歩は、スペーシフィケーション、量子化、低ランク近似という形で圧縮技術を用いて、このボトルネックを減らした。 圧縮は損失、あるいは不正確であるため、イテレーションの複雑さは一般的に悪化するが、通信の複雑さは大幅に改善され、計算時間の節約につながる可能性がある。 本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。 最悪ケースと平均ケースの両方の分析を行い、狭い下限を提供する。 最悪ケース解析では,下界に非常に近い効率的な圧縮演算子,スパースディザリングを導入する。 平均ケース解析では,下界を自然に達成する単純な圧縮演算子 Spherical Compression を設計する。 このように、我々の新しい圧縮スキームは、芸術の状態を著しく上回ります。 この改善を示す数値実験を行う。

Communicating information, like gradient vectors, between computing nodes in distributed and federated learning is typically an unavoidable burden, resulting in scalability issues. Indeed, communication might be slow and costly. Recent advances in communication-efficient training algorithms have reduced this bottleneck by using compression techniques, in the form of sparsification, quantization, or low-rank approximation. Since compression is a lossy, or inexact, process, the iteration complexity is typically worsened; but the total communication complexity can improve significantly, possibly leading to large computation time savings. In this paper, we investigate the fundamental trade-off between the number of bits needed to encode compressed vectors and the compression error. We perform both worst-case and average-case analysis, providing tight lower bounds. In the worst-case analysis, we introduce an efficient compression operator, Sparse Dithering, which is very close to the lower bound. In the average-case analysis, we design a simple compression operator, Spherical Compression, which naturally achieves the lower bound. Thus, our new compression schemes significantly outperform the state of the art. We conduct numerical experiments to illustrate this improvement.
翻訳日:2022-10-10 00:15:00 公開日:2020-10-07
# 機械学習のための単純で効率的なテンソル計算

A Simple and Efficient Tensor Calculus for Machine Learning ( http://arxiv.org/abs/2010.03313v1 )

ライセンス: Link先を確認
S\"oren Laue, Matthias Mitterreiter, Joachim Giesen(参考訳) テンソル式(テンソルりょう、tensor calculus)は、機械学習において基本的なタスクである。 主要な関心事は、これらの表現の表現に依存する表現とその微分を評価する効率である。 近年,ジャコビアンやヘッセンのようなテンソル表現の高次微分を計算するアルゴリズムが提案されている。 残念ながらこのアプローチはリッチ表記に基づいているため、より単純なeinstein記法を使用するtensorflow、pytorch、autograd、jaxといったディープラーニングからの自動微分フレームワークには組み入れられない。 これは、これらのフレームワークの基盤となるテンソル表現を変更するか、アインシュタイン表記に基づく新しい証明可能な正しいアルゴリズムを開発するための2つの選択肢を残している。 もちろん、最初の選択肢は実用的ではない。 したがって、第2の選択肢を追求する。 本稿では,効率的なテンソル計算にはリッチ記法を用いる必要はなく,より単純なアインシュタイン記法に対して等しく効率的な方法を開発した。 アインシュタイン表記に切り替えることで、さらなる改善が実現し、効率が向上することが判明した。 本稿では,行列とテンソル表現の微分を計算するオンラインツールwww.MatrixCalculus.orgで実装されている。 この論文の要約は、AAAI 2020"A Simple and Efficient Tensor Calculus"として発表された。

Computing derivatives of tensor expressions, also known as tensor calculus, is a fundamental task in machine learning. A key concern is the efficiency of evaluating the expressions and their derivatives that hinges on the representation of these expressions. Recently, an algorithm for computing higher order derivatives of tensor expressions like Jacobians or Hessians has been introduced that is a few orders of magnitude faster than previous state-of-the-art approaches. Unfortunately, the approach is based on Ricci notation and hence cannot be incorporated into automatic differentiation frameworks from deep learning like TensorFlow, PyTorch, autograd, or JAX that use the simpler Einstein notation. This leaves two options, to either change the underlying tensor representation in these frameworks or to develop a new, provably correct algorithm based on Einstein notation. Obviously, the first option is impractical. Hence, we pursue the second option. Here, we show that using Ricci notation is not necessary for an efficient tensor calculus and develop an equally efficient method for the simpler Einstein notation. It turns out that turning to Einstein notation enables further improvements that lead to even better efficiency. The methods that are described in this paper have been implemented in the online tool www.MatrixCalculus.org for computing derivatives of matrix and tensor expressions. An extended abstract of this paper appeared as "A Simple and Efficient Tensor Calculus", AAAI 2020.
翻訳日:2022-10-10 00:13:24 公開日:2020-10-07
# WDN:超高解像度画像分割のための広帯域深層ネットワーク

WDN: A Wide and Deep Network to Divide-and-Conquer Image Super-resolution ( http://arxiv.org/abs/2010.03199v1 )

ライセンス: Link先を確認
Vikram Singh (1), Anurag Mittal (1) ((1) Indian Institute of Technology - Madras)(参考訳) 分割と克服は確立されたアルゴリズム設計パラダイムであり、様々な問題を解決することが証明されている。 しかし、ニューラルネットワークの問題解決、特に画像超解像の問題について、まだ完全には研究されていない。 本研究では,画像超解像の問題を複数のサブプロブレムに分割し,ニューラルネットワークの助けを借りて解・解答する手法を提案する。 一般的なディープニューラルネットワークとは異なり、既存のネットワークよりもずっと広い(さらに深い)代替ネットワークアーキテクチャを設計し、ニューラルネットワークによる分割結合設計パラダイムを実装するために特別に設計しています。 また,特徴マップ画素の強度を校正する手法も導入されている。 5つのデータセットを広範囲に実験した結果、問題に対する我々のアプローチと提案されたアーキテクチャは、現在の最先端の方法よりも優れた、より鋭い結果を生み出すことがわかった。

Divide and conquer is an established algorithm design paradigm that has proven itself to solve a variety of problems efficiently. However, it is yet to be fully explored in solving problems with a neural network, particularly the problem of image super-resolution. In this work, we propose an approach to divide the problem of image super-resolution into multiple sub-problems and then solve/conquer them with the help of a neural network. Unlike a typical deep neural network, we design an alternate network architecture that is much wider (along with being deeper) than existing networks and is specially designed to implement the divide-and-conquer design paradigm with a neural network. Additionally, a technique to calibrate the intensities of feature map pixels is being introduced. Extensive experimentation on five datasets reveals that our approach towards the problem and the proposed architecture generate better and sharper results than current state-of-the-art methods.
翻訳日:2022-10-10 00:06:56 公開日:2020-10-07
# 乳腺病理組織像における深層学習による直腸癌の鑑別

Deep Learning-Based Grading of Ductal Carcinoma In Situ in Breast Histopathology Images ( http://arxiv.org/abs/2010.03244v1 )

ライセンス: Link先を確認
Suzanne C. Wetstein, Nikolas Stathonikos, Josien P.W. Pluim, Yujing J. Heng, Natalie D. ter Hoeve, Celien P.H. Vreuls, Paul J. van Diest, Mitko Veta(参考訳) 直腸癌 in situ (DCIS) は非浸潤性乳癌であり,浸潤性乳管癌 (IDC) に進展する。 DCISの病変の大部分はIDCに進展しないため、DCISは過剰治療されることが多い。 下等度病変は進行速度とリスクが低く、治療の脱エスカレーションにつながる可能性がある。 しかし,DCISグレーディングでは,サーバ間差が顕著であった。 自動画像解析は、病理学者によるDCISグレーディングの高主観性に対処するための客観的な解決策を提供する可能性がある。 本研究では,Deep Learning-based DCIS grading system を開発した。 59例の1186例のDCIS病変のデータセットを用いて,3名の専門的観察者のコンセンサス値を用いて開発した。 2重重み付きコーエンのkappaによって測定されたオブザーバー間合意は、システムを評価し、その性能を専門家のオブザーバーと比較するために使用された。 そこで本研究では,50例から1001例の独立した検査セットについて,病変レベルおよび患者レベル間契約の分析を行った。 深層学習システム (dl) は, 観察者 (o1, o2, o3) (\kappa_{o1,dl}=0.81, \kappa_{o2,dl}=0.53, \kappa_{o3,dl}=0.40$) に対して, 観察者 (o1, o2, o3) と観察者 (\kappa_{o1,o3}=0.50, \kappa_{o2,o3}=0.42$) と, 観察者同士の観察者同士の平均をわずかに上回った。 患者レベルでは、深層学習システムは観察者(\kappa_{o1,dl}=0.77, \kappa_{o2,dl}=0.75, \kappa_{o3,dl}=0.70$)と類似した一致を得た(\kappa_{o1,o2}=0.77, \kappa_{o1,o3}=0.75, \kappa_{o2,o3}=0.72$)。 その結果,専門的な観察者と同様の性能を達成できる深層学習に基づくDCISグレーディングシステムを開発した。 DCISグレードに関する堅牢で再現可能な第2の意見を提供することで、病理学者を支援する最初の自動システムだと考えています。

Ductal carcinoma in situ (DCIS) is a non-invasive breast cancer that can progress into invasive ductal carcinoma (IDC). Studies suggest DCIS is often overtreated since a considerable part of DCIS lesions may never progress into IDC. Lower grade lesions have a lower progression speed and risk, possibly allowing treatment de-escalation. However, studies show significant inter-observer variation in DCIS grading. Automated image analysis may provide an objective solution to address high subjectivity of DCIS grading by pathologists. In this study, we developed a deep learning-based DCIS grading system. It was developed using the consensus DCIS grade of three expert observers on a dataset of 1186 DCIS lesions from 59 patients. The inter-observer agreement, measured by quadratic weighted Cohen's kappa, was used to evaluate the system and compare its performance to that of expert observers. We present an analysis of the lesion-level and patient-level inter-observer agreement on an independent test set of 1001 lesions from 50 patients. The deep learning system (dl) achieved on average slightly higher inter-observer agreement to the observers (o1, o2 and o3) ($\kappa_{o1,dl}=0.81, \kappa_{o2,dl}=0.53, \kappa_{o3,dl}=0.40$) than the observers amongst each other ($\kappa_{o1,o2}=0.58, \kappa_{o1,o3}=0.50, \kappa_{o2,o3}=0.42$) at the lesion-level. At the patient-level, the deep learning system achieved similar agreement to the observers ($\kappa_{o1,dl}=0.77, \kappa_{o2,dl}=0.75, \kappa_{o3,dl}=0.70$) as the observers amongst each other ($\kappa_{o1,o2}=0.77, \kappa_{o1,o3}=0.75, \kappa_{o2,o3}=0.72$). In conclusion, we developed a deep learning-based DCIS grading system that achieved a performance similar to expert observers. We believe this is the first automated system that could assist pathologists by providing robust and reproducible second opinions on DCIS grade.
翻訳日:2022-10-10 00:06:43 公開日:2020-10-07
# 相関微分プライバシー:機械学習における特徴選択

Correlated Differential Privacy: Feature Selection in Machine Learning ( http://arxiv.org/abs/2010.03094v1 )

ライセンス: Link先を確認
Tao Zhang, Tianqing Zhu, Ping Xiong, Huan Huo, Zahir Tari, Wanlei Zhou(参考訳) 機械学習におけるプライバシ保護は、産業におけるトレーニングに使用されるデータが通常機密情報を含んでいるため、産業情報学において重要な問題である。 既存の差分プライベートな機械学習アルゴリズムは、データ相関の影響を考慮していないため、産業アプリケーションでは期待以上にプライバシリークが発生する可能性がある。 例えば、トラフィック監視のために収集されたデータは、時間的相関やユーザ相関による相関レコードを含むことができる。 このギャップを埋めるために,機械学習タスクにおいてデータが相関を持つ場合のプライバシ損失の問題を考慮した,差分プライベート特徴選択による相関低減手法を提案する。 % 提案手法の鍵は,データ相関を記述し,データセット全体のデータ相関を小さくする特徴を選択することである。 提案手法は,データ相関の程度を管理し,プライバシを保護し,予測結果の正確性をサポートするための5つのステップを含む。 このようにして、提案する特徴選択方式によりデータ相関の影響を緩和するとともに、学習におけるデータ相関のプライバシ問題も保証される。 提案手法は,産業分野のサービスを提供する機械学習アルゴリズムで広く利用することができる。 実験の結果,提案手法により,機械学習タスクによる予測精度が向上し,既存のスキームに比べて平均2乗誤差が少なくなった。

Privacy preserving in machine learning is a crucial issue in industry informatics since data used for training in industries usually contain sensitive information. Existing differentially private machine learning algorithms have not considered the impact of data correlation, which may lead to more privacy leakage than expected in industrial applications. For example, data collected for traffic monitoring may contain some correlated records due to temporal correlation or user correlation. To fill this gap, we propose a correlation reduction scheme with differentially private feature selection considering the issue of privacy loss when data have correlation in machine learning tasks. %The key to the proposed scheme is to describe the data correlation and select features which leads to less data correlation across the whole dataset. The proposed scheme involves five steps with the goal of managing the extent of data correlation, preserving the privacy, and supporting accuracy in the prediction results. In this way, the impact of data correlation is relieved with the proposed feature selection scheme, and moreover, the privacy issue of data correlation in learning is guaranteed. The proposed method can be widely used in machine learning algorithms which provide services in industrial areas. Experiments show that the proposed scheme can produce better prediction results with machine learning tasks and fewer mean square errors for data queries compared to existing schemes.
翻訳日:2022-10-10 00:04:17 公開日:2020-10-07
# PyMT5: トランスフォーマーを用いた自然言語とPythonコードの多モード翻訳

PyMT5: multi-mode translation of natural language and Python code with transformers ( http://arxiv.org/abs/2010.03150v1 )

ライセンス: Link先を確認
Colin B. Clement, Dawn Drain, Jonathan Timcheck, Alexey Svyatkovskiy, Neel Sundaresan(参考訳) ソースコードと自然言語を同時にモデリングすると、自動ソフトウェア開発と理解に多くのエキサイティングな応用があります。 このような技術を実現するため,Python メソッドのテキスト-テキスト間の変換変換である PyMT5 を導入し,すべての Python メソッドの機能の組み合わせ間の変換を訓練した。 我々は,2600万のPythonメソッドと770万のメソッドドクストリングペアからなる大規模並列コーパスの解析とモデリングを行い,ドクストリングとメソッド生成において,PyMT5は英語の事前学習あるいはランダムに初期化された同様のサイズの自動回帰言語モデル(GPT2)より優れていることを示す。 CodeSearchNetテストセットでは,構文的に正しいメソッド体92.1%,メソッド生成8.59,ドクストリング生成16.3,メソッド生成24.8,ドクストリング生成36.7のROUGE-L Fスコアが得られた。

Simultaneously modeling source code and natural language has many exciting applications in automated software development and understanding. Pursuant to achieving such technology, we introduce PyMT5, the Python method text-to-text transfer transformer, which is trained to translate between all pairs of Python method feature combinations: a single model that can both predict whole methods from natural language documentation strings (docstrings) and summarize code into docstrings of any common style. We present an analysis and modeling effort of a large-scale parallel corpus of 26 million Python methods and 7.7 million method-docstring pairs, demonstrating that for docstring and method generation, PyMT5 outperforms similarly-sized auto-regressive language models (GPT2) which were English pre-trained or randomly initialized. On the CodeSearchNet test set, our best model predicts 92.1% syntactically correct method bodies, achieved a BLEU score of 8.59 for method generation and 16.3 for docstring generation (summarization), and achieved a ROUGE-L F-score of 24.8 for method generation and 36.7 for docstring generation.
翻訳日:2022-10-10 00:03:57 公開日:2020-10-07
# 予測保守のためのディープラーニングモデル--調査,比較,課題,展望

Deep learning models for predictive maintenance: a survey, comparison, challenges and prospect ( http://arxiv.org/abs/2010.03207v1 )

ライセンス: Link先を確認
Oscar Serradilla, Ekhi Zugasti, Urko Zurutuza(参考訳) 世界中の産業データ空間が増加する中、ディープラーニングソリューションは予測保守に人気となり、資産を監視してメンテナンスタスクを最適化する。 文献で見られる例の数を考えると、各ユースケースに最適なアーキテクチャを選択するのは複雑です。 この研究は、最先端のディープラーニングアーキテクチャをレビューし、産業企業の要求を満たすための予測メンテナンスステージ(異常検出、根本原因分析、有用な寿命推定)と統合することで、このタスクの促進を目指している。 それらは産業アプリケーションで分類され、比較され、ギャップを埋める方法を説明します。 最後に、オープンな課題と今後の研究パスを示す。

Given the growing amount of industrial data spaces worldwide, deep learning solutions have become popular for predictive maintenance, which monitor assets to optimise maintenance tasks. Choosing the most suitable architecture for each use-case is complex given the number of examples found in literature. This work aims at facilitating this task by reviewing state-of-the-art deep learning architectures, and how they integrate with predictive maintenance stages to meet industrial companies' requirements (i.e. anomaly detection, root cause analysis, remaining useful life estimation). They are categorised and compared in industrial applications, explaining how to fill their gaps. Finally, open challenges and future research paths are presented.
翻訳日:2022-10-09 23:57:11 公開日:2020-10-07
# 多変量時間オートエンコーダによる深部シーケンスの予測

Multivariate Temporal Autoencoder for Predictive Reconstruction of Deep Sequences ( http://arxiv.org/abs/2010.03661v1 )

ライセンス: Link先を確認
Jakob Aungiers(参考訳) 時系列予測とモデリングは、現実世界のデータセットにおいて困難な取り組みであることが証明されている。 2つの重要な問題は、データの多次元性と、潜在出力信号を形成する独立次元の相互作用、および予測モデル内の多次元時間データの表現である。 本稿では、繰り返しオートエンコーダブランチを用いて、データウィンドウの潜在状態ベクトル表現をモデル化し、訓練された潜在ベクトル表現をモデルの予測枝に供給することにより、上記の問題に対処するマルチブランチディープニューラルネットワーク手法を提案する。 このモデルは、Multivariate Temporal Autoencoder (MvTAe)と呼ばれる。 本論文のフレームワークは、隠れた出力ターゲットを作成するために結合された次元を含む合成多変量テンポラリデータセットを利用する。

Time series sequence prediction and modelling has proven to be a challenging endeavor in real world datasets. Two key issues are the multi-dimensionality of data and the interaction of independent dimensions forming a latent output signal, as well as the representation of multi-dimensional temporal data inside of a predictive model. This paper proposes a multi-branch deep neural network approach to tackling the aforementioned problems by modelling a latent state vector representation of data windows through the use of a recurrent autoencoder branch and subsequently feeding the trained latent vector representation into a predictor branch of the model. This model is henceforth referred to as Multivariate Temporal Autoencoder (MvTAe). The framework in this paper utilizes a synthetic multivariate temporal dataset which contains dimensions that combine to create a hidden output target.
翻訳日:2022-10-09 23:56:40 公開日:2020-10-07
# 事実はどこにある? 偽ニュースの拡散を緩和するための事実確認情報検索

Where Are the Facts? Searching for Fact-checked Information to Alleviate the Spread of Fake News ( http://arxiv.org/abs/2010.03159v1 )

ライセンス: Link先を確認
Nguyen Vo, Kyumin Lee(参考訳) 多くのファクトチェックシステムは学術や産業で開発されているが、ソーシャルメディア上ではまだ偽ニュースが増えている。 これらのシステムは、主にファクトチェックに重点を置いているが、偽情報の拡散の主な原因であるオンラインユーザーを無視することが多い。 偽ニュースに対するユーザの意識を改善するために,ファクトチェック情報をどのように活用すればよいのか? ユーザーが偽ニュースを広めるのを止めるには? そこで本研究では,オンライン利用者が投稿した元のツイート(誤報を含む可能性がある)の内容に対処し,ファクトチェック記事を探すための新しい枠組みを提案する。 この検索は偽ニュースのポスターやオンラインユーザー(ポスターのフォロワーなど)に直接誤報を警告したり、偽ニュースの拡散を阻止したり、ソーシャルメディア上で検証済みコンテンツを拡大したりすることができる。 本フレームワークは,テキストと画像の両方を用いてファクトチェック記事の検索を行い,実世界のデータセットで有望な結果を得る。 コードとデータセットはhttps://github.com/nguyenvo09/EMNLP2020で公開されています。

Although many fact-checking systems have been developed in academia and industry, fake news is still proliferating on social media. These systems mostly focus on fact-checking but usually neglect online users who are the main drivers of the spread of misinformation. How can we use fact-checked information to improve users' consciousness of fake news to which they are exposed? How can we stop users from spreading fake news? To tackle these questions, we propose a novel framework to search for fact-checking articles, which address the content of an original tweet (that may contain misinformation) posted by online users. The search can directly warn fake news posters and online users (e.g. the posters' followers) about misinformation, discourage them from spreading fake news, and scale up verified content on social media. Our framework uses both text and images to search for fact-checking articles, and achieves promising results on real-world datasets. Our code and datasets are released at https://github.com/nguyenvo09/EMNLP2020.
翻訳日:2022-10-09 23:56:12 公開日:2020-10-07
# 倫理的AI研究のための短い人類学ガイド

The Short Anthropological Guide to the Study of Ethical AI ( http://arxiv.org/abs/2010.03362v1 )

ライセンス: Link先を確認
Alexandrine Royer(参考訳) 今後数年間、社会全体は、テクノロジーを扱う際に保護したい中核的な価値観に対処する必要がある。 人類学は、人間が何を意味するのかという概念を専門とする分野であり、西洋社会や世界の他の領域におけるこれらの変化にどう対処し対処するかという興味深い洞察を与えることができる。 社会科学の実践者が技術革新のペースを把握し、追いつくことは困難であり、その多くはAIの用語に精通していない。 この短いガイドは、AI倫理と社会科学の紹介と、AIの開発に関する人類学的視点の両方を兼ね備えている。 それは、AIシステムの社会的影響と、そのシステムがどのようにして私たちの世界がどのように機能するかを再考するかについての洞察を提供する。

Over the next few years, society as a whole will need to address what core values it wishes to protect when dealing with technology. Anthropology, a field dedicated to the very notion of what it means to be human, can provide some interesting insights into how to cope and tackle these changes in our Western society and other areas of the world. It can be challenging for social science practitioners to grasp and keep up with the pace of technological innovation, with many being unfamiliar with the jargon of AI. This short guide serves as both an introduction to AI ethics and social science and anthropological perspectives on the development of AI. It intends to provide those unfamiliar with the field with an insight into the societal impact of AI systems and how, in turn, these systems can lead us to rethink how our world operates.
翻訳日:2022-10-09 23:55:55 公開日:2020-10-07
# ネットワーク中心から見た公正感

Fairness Perception from a Network-Centric Perspective ( http://arxiv.org/abs/2010.05887v1 )

ライセンス: Link先を確認
Farzan Masrour, Pang-Ning Tan, Abdol-Hossein Esfahanian(参考訳) 近年、機械学習アルゴリズムの影響が広まるにつれて、アルゴリズムの公平性が大きな関心事となっている。 本稿では,ネットワーク中心の観点からアルゴリズムフェアネスの問題を検討する。 具体的には,ネットワーク中心のフェアネス知覚と呼ばれる新しい直感的な関数を導入し,その特性を分析するための公理的アプローチを提案する。 ピアレビューネットワークをケーススタディとして用い,紙受理決定における公平さの知覚を評価する上での有用性についても検討する。 この関数をフェアネス可視性(fairness visibility)として知られる集団的フェアネス計量に拡張する方法を示し、人口統計学的パリティとの関係を実証する。 また,公平性の可視性尺度(fairness visibility measure)の潜在的な落とし穴を説明し,アルゴリズム的決定が公平であることを示す。 フェアネス知覚関数の局所的近傍サイズを増大させることにより,問題を緩和できることを示す。

Algorithmic fairness is a major concern in recent years as the influence of machine learning algorithms becomes more widespread. In this paper, we investigate the issue of algorithmic fairness from a network-centric perspective. Specifically, we introduce a novel yet intuitive function known as network-centric fairness perception and provide an axiomatic approach to analyze its properties. Using a peer-review network as case study, we also examine its utility in terms of assessing the perception of fairness in paper acceptance decisions. We show how the function can be extended to a group fairness metric known as fairness visibility and demonstrate its relationship to demographic parity. We also illustrate a potential pitfall of the fairness visibility measure that can be exploited to mislead individuals into perceiving that the algorithmic decisions are fair. We demonstrate how the problem can be alleviated by increasing the local neighborhood size of the fairness perception function.
翻訳日:2022-10-09 23:55:42 公開日:2020-10-07
# SLCRF:ハイパースペクトル画像分類のための条件ランダム場を用いた部分空間学習

SLCRF: Subspace Learning with Conditional Random Field for Hyperspectral Image Classification ( http://arxiv.org/abs/2010.03115v1 )

ライセンス: Link先を確認
Yun Cao, Jie Mei, Yuebin Wang, Liqiang Zhang, Junhuan Peng, Bing Zhang, Lihua Li, and Yibo Zheng(参考訳) サブスペース学習(sl)は、hsisの画像画素における冗長な情報を減らす効果的な解決策を提供するため、ハイパースペクトル画像(hsi)分類において重要な役割を果たす。 slに関する以前の研究は、hsi認識の精度を向上させることを目的としている。 多数のラベル付きサンプルを使用して、関連する手法は提案する解のパラメータを訓練し、hsiピクセルのより良い表現を得ることができる。 しかし、実際のアプリケーションでHSI分類の正確なモデルを学ぶのに十分なデータインスタンスは十分ではないかもしれない。 また,hsi画像のラベル付けには時間,労力,人間的知識を要することが知られている。 上記の問題を回避するため,条件付きランダムフィールドを用いた部分空間学習(SLCRF)と呼ばれる確率仮定を含む新しいSL法を開発した。 まず、SLCRFにおいて、3D畳み込みオートエンコーダ(3DCAE)を導入し、HSI画素の冗長情報を除去する。 また、隣接画素間のスペクトル空間情報を用いて関連性を構築する。 そして、条件付き確率場(crf)フレームワークを構築し、さらに半教師付きアプローチでhsi slプロシージャに組み込むことができる。 LADMAPと呼ばれる線形化交互方向法により、SLCRFの目的関数は、定義された反復アルゴリズムを用いて最適化される。 提案手法は,挑戦的な公開HSIデータセットを用いて包括的に評価する。 これらのHSIセットを用いて最先端の性能を実現する。

Subspace learning (SL) plays an important role in hyperspectral image (HSI) classification, since it can provide an effective solution to reduce the redundant information in the image pixels of HSIs. Previous works about SL aim to improve the accuracy of HSI recognition. Using a large number of labeled samples, related methods can train the parameters of the proposed solutions to obtain better representations of HSI pixels. However, the data instances may not be sufficient enough to learn a precise model for HSI classification in real applications. Moreover, it is well-known that it takes much time, labor and human expertise to label HSI images. To avoid the aforementioned problems, a novel SL method that includes the probability assumption called subspace learning with conditional random field (SLCRF) is developed. In SLCRF, first, the 3D convolutional autoencoder (3DCAE) is introduced to remove the redundant information in HSI pixels. In addition, the relationships are also constructed using the spectral-spatial information among the adjacent pixels. Then, the conditional random field (CRF) framework can be constructed and further embedded into the HSI SL procedure with the semi-supervised approach. Through the linearized alternating direction method termed LADMAP, the objective function of SLCRF is optimized using a defined iterative algorithm. The proposed method is comprehensively evaluated using the challenging public HSI datasets. We can achieve stateof-the-art performance using these HSI sets.
翻訳日:2022-10-09 23:55:28 公開日:2020-10-07
# DML-GANR:高空間分解能リモートセンシング画像検索のための生成逆ネットワーク正規化による深度学習

DML-GANR: Deep Metric Learning With Generative Adversarial Network Regularization for High Spatial Resolution Remote Sensing Image Retrieval ( http://arxiv.org/abs/2010.03116v1 )

ライセンス: Link先を確認
Yun Cao, Yuebin Wang, Junhuan Peng, Liqiang Zhang, Linlin Xu, Kai Yan, and Lihua Li(参考訳) トレーニング用のラベル付きサンプルは少ないため、特に高空間分解能リモートセンシング画像(HSR-RSIs)の量が大幅に増加すると、かなりの人力と材料資源を節約できる。 しかし、多くの深層モデルでは、少数のラベル付きサンプルを使用する場合、過剰フィッティングの問題に直面している。 これはHSRRSIの精度を低下させる可能性がある。 より正確なHSR-RSI検索性能の獲得を目的として,HSR-RSI検索のためのDML-GANRを用いた深層学習手法を開発した。 DML-GANRは、高レベル特徴抽出(HFE)から始まり、畳み込み層と完全連結(FC)層を含む高レベル特徴抽出を行う。 各FC層はディープ・メトリック・ラーニング(DML)によって構成され、クラス間変動を最大化し、クラス内変動を最小限に抑える。 GAN(Generative Adversarial Network)は、オーバーフィッティング問題を緩和し、抽出された高レベル特徴の品質を検証する。 DML-GANRは、カスタマイズされたアプローチにより最適化され、最適なパラメータが得られる。 3つのデータセットの実験結果から,HSR-RSI検索における最先端技術よりもDML-GANRの方が優れた性能を示した。

With a small number of labeled samples for training, it can save considerable manpower and material resources, especially when the amount of high spatial resolution remote sensing images (HSR-RSIs) increases considerably. However, many deep models face the problem of overfitting when using a small number of labeled samples. This might degrade HSRRSI retrieval accuracy. Aiming at obtaining more accurate HSR-RSI retrieval performance with small training samples, we develop a deep metric learning approach with generative adversarial network regularization (DML-GANR) for HSR-RSI retrieval. The DML-GANR starts from a high-level feature extraction (HFE) to extract high-level features, which includes convolutional layers and fully connected (FC) layers. Each of the FC layers is constructed by deep metric learning (DML) to maximize the interclass variations and minimize the intraclass variations. The generative adversarial network (GAN) is adopted to mitigate the overfitting problem and validate the qualities of extracted high-level features. DML-GANR is optimized through a customized approach, and the optimal parameters are obtained. The experimental results on the three data sets demonstrate the superior performance of DML-GANR over state-of-the-art techniques in HSR-RSI retrieval.
翻訳日:2022-10-09 23:55:06 公開日:2020-10-07
# 網膜画像におけるマクロ自動検出の高速かつ効果的な方法

A Fast and Effective Method of Macula Automatic Detection for Retina Images ( http://arxiv.org/abs/2010.03122v1 )

ライセンス: Link先を確認
Yukang Jiang, Jianying Pan, Yanhe Shen, Jin Zhu, Jiamin Huang, Huirui Xie, Xueqin Wang, Yan Luo(参考訳) 網膜画像処理は、医療画像処理の重要かつ一般的なトピックの1つである。 マクラ・フォヴェアは鋭い中央視力に責任を持ち、視覚的な詳細が読書、筆記、運転などの重要な人間の行動に必要である。 本稿では,一連の形態素処理によりマキュラを同定する新しい手法を提案する。 高い精度を維持するという前提で、我々のアプローチは他の方法よりもシンプルで高速です。 また,本手法は病院の実際の画像に対しても,maculaを頑健に検出することができる。

Retina image processing is one of the crucial and popular topics of medical image processing. The macula fovea is responsible for sharp central vision, which is necessary for human behaviors where visual detail is of primary importance, such as reading, writing, driving, etc. This paper proposes a novel method to locate the macula through a series of morphological processing. On the premise of maintaining high accuracy, our approach is simpler and faster than others. Furthermore, for the hospital's real images, our method is also able to detect the macula robustly.
翻訳日:2022-10-09 23:54:43 公開日:2020-10-07
# 3次元バウンディングボックスラベルのない単眼3次元車両検出

Learning Monocular 3D Vehicle Detection without 3D Bounding Box Labels ( http://arxiv.org/abs/2010.03506v1 )

ライセンス: Link先を確認
L. Koestler and N. Yang and R. Wang and D. Cremers(参考訳) ディープラーニングベースの3dオブジェクト検出器のトレーニングには、3dバウンディングボックスラベルを持つ大規模なデータセットが必要である。 3dバウンディングボックスラベルを使わずにモノクロ3dオブジェクト検出を学習するためのネットワークアーキテクチャと学習手順を提案する。 物体を三角形メッシュとして表現し、異なる形状のレンダリングを用いて、事前学習されたオフザシェルフネットワークによって生成される深度マップ、セグメンテーションマスク、エゴとオブジェクトの移動に基づいて損失関数を定義する。 提案アルゴリズムを実世界のKITTIデータセット上で評価し,従来のベースライン手法よりも優れた3次元境界ボックスラベルを必要とする最先端の手法と比較して有望な性能を実現する。

The training of deep-learning-based 3D object detectors requires large datasets with 3D bounding box labels for supervision that have to be generated by hand-labeling. We propose a network architecture and training procedure for learning monocular 3D object detection without 3D bounding box labels. By representing the objects as triangular meshes and employing differentiable shape rendering, we define loss functions based on depth maps, segmentation masks, and ego- and object-motion, which are generated by pre-trained, off-the-shelf networks. We evaluate the proposed algorithm on the real-world KITTI dataset and achieve promising performance in comparison to state-of-the-art methods requiring 3D bounding box labels for training and superior performance to conventional baseline methods.
翻訳日:2022-10-09 23:48:32 公開日:2020-10-07
# シェーディングからの形状, 照明, 反射

Shape, Illumination, and Reflectance from Shading ( http://arxiv.org/abs/2010.03592v1 )

ライセンス: Link先を確認
Jonathan T. Barron, Jitendra Malik(参考訳) コンピュータビジョンにおける根本的な問題は、世界の本質的な3d構造を、その世界の平坦な2dイメージから推測することである。 従来の形状、反射性、照明などのシーン特性の復元方法は、問題を過度に調整するために同じシーンの複数の観察に依存する。 単一の画像から同じ特性を復元することは、比較としてほとんど不可能に思える -- 単一の画像を正確に再現する形、塗料、照明は無限に多い。 表面は滑らかで、塗料は均一である傾向があり、照明は自然である傾向にある。 したがって、この問題を統計的推論の1つとして仮定し、1つの画像の *most likely* 説明を検索する最適化問題を定義する。 本手法は,いくつかの古典的なコンピュータビジョン問題(形状からシェーディング,内在的画像,色彩コンステンシー,照明推定など)のスーパーセットと見なすことができ,それらの構成問題に対するこれまでのすべての解を上回っている。

A fundamental problem in computer vision is that of inferring the intrinsic, 3D structure of the world from flat, 2D images of that world. Traditional methods for recovering scene properties such as shape, reflectance, or illumination rely on multiple observations of the same scene to overconstrain the problem. Recovering these same properties from a single image seems almost impossible in comparison -- there are an infinite number of shapes, paint, and lights that exactly reproduce a single image. However, certain explanations are more likely than others: surfaces tend to be smooth, paint tends to be uniform, and illumination tends to be natural. We therefore pose this problem as one of statistical inference, and define an optimization problem that searches for the *most likely* explanation of a single image. Our technique can be viewed as a superset of several classic computer vision problems (shape-from-shading, intrinsic images, color constancy, illumination estimation, etc) and outperforms all previous solutions to those constituent problems.
翻訳日:2022-10-09 23:48:18 公開日:2020-10-07
# 幼児ID:グローバルグッドのための指紋

Infant-ID: Fingerprints for Global Good ( http://arxiv.org/abs/2010.03624v1 )

ライセンス: Link先を確認
Joshua J. Engelsma, Debayan Deb, Kai Cao, Anjoo Bhatnagar, Prem S. Sudhish and Anil K. Jain(参考訳) 開発が進んでいない多くの国では、多くの幼児がワクチンの予防や栄養失調で苦しみ、死亡している。 残念なことに、公式な身分証明書がないため、どの乳児がワクチンを接種されたか、どの乳児が栄養補助食品を受け取ったかを知るのは非常に困難である。 これらの疑問に答えることで、この幼児の苦しみや早死にを防げる。 そこで我々は,エンドツーエンド,低コスト,幼児の指紋認識システムであるInfant-Printsを提案する。 幼児は私たちから成り立っている (i)カスタムメイド、コンパクト、低コスト(85usd)、高解像度(1,900ppi)、エルゴノミクス指紋リーダー、及び (ii)高分解能乳幼児指紋照合器。 インファントプリンツの有効性を評価するため,インド・アグラ州デイアルバグにある慈善病院サラン・アシュラム病院(Saran Ashram Hospital)の幼児315名を対象に,12カ月間(2018年12月から2020年1月)に4回の異なるセッションで採取した縦型乳幼児指紋データベースを収集した。 実験の結果, 2~3か月の乳児の予防接種, 医療, 栄養サプリメントの有効投与に間に合うように, 乳幼児の正確な(経時的に)認識を提供できることが, 初めて実証された(足=95.2% @ far = 1.0%)。

In many of the least developed and developing countries, a multitude of infants continue to suffer and die from vaccine-preventable diseases and malnutrition. Lamentably, the lack of official identification documentation makes it exceedingly difficult to track which infants have been vaccinated and which infants have received nutritional supplements. Answering these questions could prevent this infant suffering and premature death around the world. To that end, we propose Infant-Prints, an end-to-end, low-cost, infant fingerprint recognition system. Infant-Prints is comprised of our (i) custom built, compact, low-cost (85 USD), high-resolution (1,900 ppi), ergonomic fingerprint reader, and (ii) high-resolution infant fingerprint matcher. To evaluate the efficacy of Infant-Prints, we collected a longitudinal infant fingerprint database captured in 4 different sessions over a 12-month time span (December 2018 to January 2020), from 315 infants at the Saran Ashram Hospital, a charitable hospital in Dayalbagh, Agra, India. Our experimental results demonstrate, for the first time, that Infant-Prints can deliver accurate and reliable recognition (over time) of infants enrolled between the ages of 2-3 months, in time for effective delivery of vaccinations, healthcare, and nutritional supplements (TAR=95.2% @ FAR = 1.0% for infants aged 8-16 weeks at enrollment and authenticated 3 months later).
翻訳日:2022-10-09 23:48:00 公開日:2020-10-07
# マンガにおける制約なしテキスト検出

Unconstrained Text Detection in Manga ( http://arxiv.org/abs/2010.03997v1 )

ライセンス: Link先を確認
Juli\'an Del Gobbo, Rosana Matuk Herrera(参考訳) 制約のないテキストの検出と認識は、研究のオープンな問題である。 コミックブックのテキストには、テキスト検出の多くの課題を提起する珍しいスタイルがある。 本研究の目的は、高度に洗練された文体を持つ漫画ジャンルの文字をピクセルレベルで識別することである。 個々の文字レベルのアノテーションを持つマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。 テキスト検出の文献の多くは、ピクセルレベルの評価には適さない境界ボックスメトリクスを使用している。 そこで我々は,性能評価のための特別な指標を実装した。 これらの資源を用いて, 深層ネットワークモデルの設計・評価を行い, マンガにおけるテキスト検出手法の精度を比較検討した。

The detection and recognition of unconstrained text is an open problem in research. Text in comic books has unusual styles that raise many challenges for text detection. This work aims to identify text characters at a pixel level in a comic genre with highly sophisticated text styles: Japanese manga. To overcome the lack of a manga dataset with individual character level annotations, we create our own. Most of the literature in text detection use bounding box metrics, which are unsuitable for pixel-level evaluation. Thus, we implemented special metrics to evaluate performance. Using these resources, we designed and evaluated a deep network model, outperforming current methods for text detection in manga in most metrics.
翻訳日:2022-10-09 23:47:19 公開日:2020-10-07
# スライスアウェアニューラルランキング

Slice-Aware Neural Ranking ( http://arxiv.org/abs/2010.03343v1 )

ライセンス: Link先を確認
Gustavo Penha and Claudia Hauff(参考訳) ニューラルネットワークのランキングモデルがいつ、なぜエラー分析によってIRタスクにフェールするのかを理解することは、研究サイクルの重要な部分である。 ここでは課題に注目します (i)神経ランカが効果的でない困難な例(質問と回答の候補のペア)のカテゴリを特定すること。 (ii)このような場合の神経格付けの改善。 どちらの課題にも対処するために、スライスベースの学習を活用して、データのスライス(サブセット)に対するニューラルモデルの有効性を改善することが目標です。 課題に取り組みます (i) 従来の作業に基づいてデータセットのスライスを選択する異なるスライス機能(SF)を提案することにより、ニューラルネットワークローダの異なる障害をヒューリスティックにキャプチャする。 そして挑戦のために 2) ニューラルネットワークのランク付けモデルを用いてスライス認識表現を学習する。すなわち,モデルがどのスライスに属するかの予測に基づいて,適応モデルが質問や応答を異なる方法で表現することを学ぶ。 我々の実験結果(ソースコードとデータはhttps://github.com/Guzpenha/slice_based_learningで利用可能)は、3つの異なるランキングタスクと4つのコーパスで行われ、スライスベースの学習はスライスを意識しないニューラルネットワークローダよりも平均2%効率が向上することを示した。

Understanding when and why neural ranking models fail for an IR task via error analysis is an important part of the research cycle. Here we focus on the challenges of (i) identifying categories of difficult instances (a pair of question and response candidates) for which a neural ranker is ineffective and (ii) improving neural ranking for such instances. To address both challenges we resort to slice-based learning for which the goal is to improve effectiveness of neural models for slices (subsets) of data. We address challenge (i) by proposing different slicing functions (SFs) that select slices of the dataset---based on prior work we heuristically capture different failures of neural rankers. Then, for challenge (ii) we adapt a neural ranking model to learn slice-aware representations, i.e. the adapted model learns to represent the question and responses differently based on the model's prediction of which slices they belong to. Our experimental results (the source code and data are available at https://github.com/Guzpenha/slice_based_learning) across three different ranking tasks and four corpora show that slice-based learning improves the effectiveness by an average of 2% over a neural ranker that is not slice-aware.
翻訳日:2022-10-09 23:47:09 公開日:2020-10-07
# 正規化フローを用いた勾配に基づく因果構造学習

Gradient-based Causal Structure Learning with Normalizing Flow ( http://arxiv.org/abs/2010.03095v1 )

ライセンス: Link先を確認
Xiongren Chen(参考訳) 本稿では,DAG-NFと呼ばれるスコアベース正規化フロー手法を提案し,入力観測データの依存関係を学習する。 特にMasked Autoregressive Flow(MAF)やContinuous Normalizing Flow(CNF)のようなフローベース生成ニューラルネットワークにおいて,入力データとターゲット分布の対数的損失と分散を計算し,入力に対する出力のジャコビアン行列を因果関係として用いる。 本手法はNOTEARSを拡張し,グラフノードの連続隣接行列に重要な適応性制約を課し,グラフの探索空間の計算複雑性を著しく低減する。

In this paper, we propose a score-based normalizing flow method called DAG-NF to learn dependencies of input observation data. Inspired by Grad-CAM in computer vision, we use jacobian matrix of output on input as causal relationships and this method can be generalized to any neural networks especially for flow-based generative neural networks such as Masked Autoregressive Flow(MAF) and Continuous Normalizing Flow(CNF) which compute the log likelihood loss and divergence of distribution of input data and target distribution. This method extends NOTEARS which enforces a important acylicity constraint on continuous adjacency matrix of graph nodes and significantly reduce the computational complexity of search space of graph.
翻訳日:2022-10-09 23:46:44 公開日:2020-10-07
# 非時系列データのための物理システム

Physical System for Non Time Sequence Data ( http://arxiv.org/abs/2010.03206v1 )

ライセンス: Link先を確認
Xiongren Chen(参考訳) 本稿では,ニューラルネットワークw.r.t.入力変数のヤコビ行列による機械学習と因果構造学習をつなぐ新しい手法を提案する。 本稿では,ジャコビアンによる物理システムへのアプローチを,人間が世界を探索し,推論する方法として拡張し,因果関係の最高レベルである。 ニューラルODEに適合する関数により、関数から因果構造を読み取ることができる。 この手法は,グラフノードの連続隣接行列に重要な適応性制約を課し,グラフの探索空間の計算複雑性を著しく低減する。

We propose a novelty approach to connect machine learning to causal structure learning by jacobian matrix of neural network w.r.t. input variables. In this paper, we extend the jacobian-based approach to physical system which is the method human explore and reason the world and it is the highest level of causality. By functions fitting with Neural ODE, we can read out causal structure from functions. This method also enforces a important acylicity constraint on continuous adjacency matrix of graph nodes and significantly reduce the computational complexity of search space of graph.
翻訳日:2022-10-09 23:45:59 公開日:2020-10-07
# realsmilenet - 自発的かつポーズ付き笑顔認識のためのディープエンド・ツー・エンドネットワーク

RealSmileNet: A Deep End-To-End Network for Spontaneous and Posed Smile Recognition ( http://arxiv.org/abs/2010.03203v1 )

ライセンス: Link先を確認
Yan Yang, Md Zakir Hossain, Tom Gedeon, Shafin Rahman(参考訳) 異なるコミュニティ内の社会的相互作用を理解する上では、笑顔が重要な役割を果たす。 自然の笑顔を認識できるいくつかの方法が提案されている。 すべては、顔のランドマークのマニュアルアノテーション、トラッキング、笑顔フェーズのセグメンテーション、手作り機能など、高価な前処理ステップを必要とする機能エンジニアリングベースのパイプラインに従っている。 計算結果は高価であり、前処理ステップに強く依存する。 本研究では,これらの問題に対処するエンド・ツー・エンドのディープラーニングモデルについて検討する。 我々の完全自動化モデルは高速で、一連の畳み込み層とConvLSTM層をスクラッチからトレーニングすることで特徴抽出プロセスを学びます。 4つのデータセットを用いた実験により,提案モデルのロバスト性と一般化が実証された。

Smiles play a vital role in the understanding of social interactions within different communities, and reveal the physical state of mind of people in both real and deceptive ways. Several methods have been proposed to recognize spontaneous and posed smiles. All follow a feature-engineering based pipeline requiring costly pre-processing steps such as manual annotation of face landmarks, tracking, segmentation of smile phases, and hand-crafted features. The resulting computation is expensive, and strongly dependent on pre-processing steps. We investigate an end-to-end deep learning model to address these problems, the first end-to-end model for spontaneous and posed smile recognition. Our fully automated model is fast and learns the feature extraction processes by training a series of convolution and ConvLSTM layer from scratch. Our experiments on four datasets demonstrate the robustness and generalization of the proposed model by achieving state-of-the-art performances.
翻訳日:2022-10-09 23:39:59 公開日:2020-10-07
# 乳がん画像の分類のための注意モデル強化ネットワーク

Attention Model Enhanced Network for Classification of Breast Cancer Image ( http://arxiv.org/abs/2010.03271v1 )

ライセンス: Link先を確認
Xiao Kang, Xingbo Liu, Xiushan Nie, Xiaoming Xi, Yilong Yin(参考訳) 乳がんの分類は、クラス間のあいまいさとクラス内変動のために難しい課題である。 既存のディープラーニングに基づく手法は、複雑な非線形射影を利用してこの問題に対処しようとする。 しかし、これらの方法は通常、画像全体から全体的特徴を抽出し、微妙な詳細情報が識別的特徴の抽出に不可欠であるという事実を無視する。 本研究では,マルチブランチ方式で画素単位のアテンションモデルとサブモジュールの分類を行い,Attention Model Enhanced Network (AMEN) という新しい手法を提案する。 具体的には、AMENの特徴学習部が画素対応の注目マップを生成し、分類サブモジュールを用いてサンプルを分類する。 微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素注目マップによって強化される。 さらに, 異なる枝の分類結果を融合させ, 性能向上を図るため, ブースティング戦略を採用した。 3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を示す。

Breast cancer classification remains a challenging task due to inter-class ambiguity and intra-class variability. Existing deep learning-based methods try to confront this challenge by utilizing complex nonlinear projections. However, these methods typically extract global features from entire images, neglecting the fact that the subtle detail information can be crucial in extracting discriminative features. In this study, we propose a novel method named Attention Model Enhanced Network (AMEN), which is formulated in a multi-branch fashion with pixel-wised attention model and classification submodular. Specifically, the feature learning part in AMEN can generate pixel-wised attention map, while the classification submodular are utilized to classify the samples. To focus more on subtle detail information, the sample image is enhanced by the pixel-wised attention map generated from former branch. Furthermore, boosting strategy are adopted to fuse classification results from different branches for better performance. Experiments conducted on three benchmark datasets demonstrate the superiority of the proposed method under various scenarios.
翻訳日:2022-10-09 23:39:08 公開日:2020-10-07
# クロスモーダルマッチングのためのユニバーサルウェイティングメトリックラーニング

Universal Weighting Metric Learning for Cross-Modal Matching ( http://arxiv.org/abs/2010.03403v1 )

ライセンス: Link先を確認
Jiwei Wei, Xing Xu, Yang Yang, Yanli Ji, Zheng Wang, Heng Tao Shen(参考訳) クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。 情報的ペアのサンプリングと重み付けのための適切なマイニング戦略の学習は、クロスモーダルマッチング性能に不可欠である。 しかし、既存のメトリック学習法はユニモーダルマッチングのために開発されており、異質な特徴を持つマルチモーダルデータのクロスモーダルマッチングには適していない。 この問題を解決するために,様々な損失関数の解釈可能性を分析するツールを提供するクロスモーダルマッチングのための,単純で解釈可能な普遍的重み付けフレームワークを提案する。 さらに,正と負の情報的対の重み関数をそれぞれ定義した普遍重み付けフレームワークの下で,新たな多項式損失を導入する。 2つの画像テキストマッチングベンチマークと2つのビデオテキストマッチングベンチマークの実験結果は,提案手法の有効性を検証する。

Cross-modal matching has been a highlighted research topic in both vision and language areas. Learning appropriate mining strategy to sample and weight informative pairs is crucial for the cross-modal matching performance. However, most existing metric learning methods are developed for unimodal matching, which is unsuitable for cross-modal matching on multimodal data with heterogeneous features. To address this problem, we propose a simple and interpretable universal weighting framework for cross-modal matching, which provides a tool to analyze the interpretability of various loss functions. Furthermore, we introduce a new polynomial loss under the universal weighting framework, which defines a weight function for the positive and negative informative pairs respectively. Experimental results on two image-text matching benchmarks and two video-text matching benchmarks validate the efficacy of the proposed method.
翻訳日:2022-10-09 23:37:53 公開日:2020-10-07
# 深層学習によるライフスタイルビデオ監視のための再構成可能なサイバー物理システム

Reconfigurable Cyber-Physical System for Lifestyle Video-Monitoring via Deep Learning ( http://arxiv.org/abs/2010.03497v1 )

ライセンス: Link先を確認
Daniel Deniz, Francisco Barranco, Juan Isern and Eduardo Ros(参考訳) 自宅にいる人々の屋内モニタリングは、スマートヘルスにおける一般的な応用となっている。 組み込みデバイスのための機械学習とハードウェアの進歩により、サイバー物理システム(CPS)のための新しい分散アプローチが有効になった。 また、環境の変化とコスト削減の必要性は、新しい再構成可能なCPSアーキテクチャを動機付けている。 本研究では,組み込みローカルノード(Nvidia Jetson TX2)を用いた室内監視再構成可能なCPSを提案する。 人間の行動認識に対処するために、ディープラーニングアーキテクチャを組み込む。 これらのノードでのローカル処理では、データ帯域幅の削減とプライバシの保存(生画像は送信されない)という、一般的な問題に対処できる。 また、最適化ノードがローカルビデオフィードのみを演算するため、リアルタイム処理も容易である。 リコンフィグレーションに関しては、リモートプラットフォームがCPSの品質を監視し、QRM(Quality and Resource Management)ツールがコマンドをCPSコアに送信してリコンフィグレーションを起動する。 本提案は,バッテリ駆動ノードのエネルギー消費に基づく再構成を起動するエネルギアウェアシステムである。 リコンフィグレーションは、デバイス操作時間を延ばすローカルノードのエネルギ消費を最大22%削減し、リコンフィグレーションのない代替手段に関して同様の精度を保つ。

Indoor monitoring of people at their homes has become a popular application in Smart Health. With the advances in Machine Learning and hardware for embedded devices, new distributed approaches for Cyber-Physical Systems (CPSs) are enabled. Also, changing environments and need for cost reduction motivate novel reconfigurable CPS architectures. In this work, we propose an indoor monitoring reconfigurable CPS that uses embedded local nodes (Nvidia Jetson TX2). We embed Deep Learning architectures to address Human Action Recognition. Local processing at these nodes let us tackle some common issues: reduction of data bandwidth usage and preservation of privacy (no raw images are transmitted). Also real-time processing is facilitated since optimized nodes compute only its local video feed. Regarding the reconfiguration, a remote platform monitors CPS qualities and a Quality and Resource Management (QRM) tool sends commands to the CPS core to trigger its reconfiguration. Our proposal is an energy-aware system that triggers reconfiguration based on energy consumption for battery-powered nodes. Reconfiguration reduces up to 22% the local nodes energy consumption extending the device operating time, preserving similar accuracy with respect to the alternative with no reconfiguration.
翻訳日:2022-10-09 23:37:16 公開日:2020-10-07
# 深層学習と文字列カーネルの組み合わせによるドイツ語ツイートのローカライズ

Combining Deep Learning and String Kernels for the Localization of Swiss German Tweets ( http://arxiv.org/abs/2010.03614v1 )

ライセンス: Link先を確認
Mihaela Gaman, Radu Tudor Ionescu(参考訳) 本研究では,UnibucKernelチームが提案する,2020 Vardial Evaluation Campaign におけるソーシャルメディアのバラエティ測地課題の解決手法を紹介する。 3万近いスイス系ドイツ人ジョデルからなるデータセットを対象にした,第2のサブタスクにのみ対処します。 方言識別タスクは、試験試料の緯度と経度を正確に予測することである。 我々は、緯度と経度の両方を予測するために、さまざまな機械学習アプローチを用いて、タスクを二重回帰問題として構成する。 ベクトル回帰支援などの単純な回帰モデルから、長期短期記憶ネットワークや文字レベルの畳み込みニューラルネットワークなどのディープニューラルネットワーク、そして最後に、xgboostのようなメタリーナーに基づくアンサンブルモデルに至るまで、予測誤差を最小限に抑えるために、いくつかの異なる視点からこの問題にアプローチすることに注力しています。 同じ目標を念頭に置いて、bert埋め込みのようなハイレベルな特徴から、方言識別に優れた結果をもたらす文字n-gramのような低レベルな特徴まで、多くの種類の特徴を検討した。 実験の結果,文字列カーネルに基づく手作りモデルは,ディープラーニングのアプローチよりも優れていた。 それでも、私たちの最高のパフォーマンスは、手作りモデルとディープラーニングモデルの両方を組み合わせたアンサンブルモデルによって得られます。

In this work, we introduce the methods proposed by the UnibucKernel team in solving the Social Media Variety Geolocation task featured in the 2020 VarDial Evaluation Campaign. We address only the second subtask, which targets a data set composed of nearly 30 thousand Swiss German Jodels. The dialect identification task is about accurately predicting the latitude and longitude of test samples. We frame the task as a double regression problem, employing a variety of machine learning approaches to predict both latitude and longitude. From simple models for regression, such as Support Vector Regression, to deep neural networks, such as Long Short-Term Memory networks and character-level convolutional neural networks, and, finally, to ensemble models based on meta-learners, such as XGBoost, our interest is focused on approaching the problem from a few different perspectives, in an attempt to minimize the prediction error. With the same goal in mind, we also considered many types of features, from high-level features, such as BERT embeddings, to low-level features, such as characters n-grams, which are known to provide good results in dialect identification. Our empirical results indicate that the handcrafted model based on string kernels outperforms the deep learning approaches. Nevertheless, our best performance is given by the ensemble model that combines both handcrafted and deep learning models.
翻訳日:2022-10-09 23:29:46 公開日:2020-10-07
# MuSeM:Mutual Attentive Semantic Matching を用いた連続ニュース見出しの検出

MuSeM: Detecting Incongruent News Headlines using Mutual Attentive Semantic Matching ( http://arxiv.org/abs/2010.03617v1 )

ライセンス: Link先を確認
Rahul Mishra and Piyush Yadav and Remi Calizzano and Markus Leippold(参考訳) 2つのテキスト間の一致度を測定するには、web上で広く使われている誤解や誤解を招くニュース見出しを検出するなど、いくつかの有用なアプリケーションがある。 多くの作品は、見出しとボディテキストの間のテキストの類似性のような機械学習に基づくソリューションを提案しており、不明瞭さを検出する。 テキスト類似度に基づく手法は、ニュースヘッドラインとそのボディコンテンツ間の相対的長さミスマッチや重複しない語彙など、固有の課題によりうまく機能しない。 一方で、ニュース本体の文脈表現を見出しから学習するために見出しを導いた最近の作品では、ニュース本体の長所性によって、全体的な表現を畳み込む結果となっている。 本稿では,原語と合成した見出しの相互注意に基づくセマンティックマッチングを用いて,関係する単語のすべての組の単語埋め込みの差を利用した手法を提案する。 また,本手法のさらに2つのバリエーションについて検討し,原語と合成見出しの単語の単語埋め込みの連結とドット積を用いた。 提案手法は2つの公開データセットに対して先行技術よりも優れていた。

Measuring the congruence between two texts has several useful applications, such as detecting the prevalent deceptive and misleading news headlines on the web. Many works have proposed machine learning based solutions such as text similarity between the headline and body text to detect the incongruence. Text similarity based methods fail to perform well due to different inherent challenges such as relative length mismatch between the news headline and its body content and non-overlapping vocabulary. On the other hand, more recent works that use headline guided attention to learn a headline derived contextual representation of the news body also result in convoluting overall representation due to the news body's lengthiness. This paper proposes a method that uses inter-mutual attention-based semantic matching between the original and synthetically generated headlines, which utilizes the difference between all pairs of word embeddings of words involved. The paper also investigates two more variations of our method, which use concatenation and dot-products of word embeddings of the words of original and synthetic headlines. We observe that the proposed method outperforms prior arts significantly for two publicly available datasets.
翻訳日:2022-10-09 23:29:21 公開日:2020-10-07
# ゼロショットスタンス検出:一般化トピック表現を用いたデータセットとモデル

Zero-Shot Stance Detection: A Dataset and Model using Generalized Topic Representations ( http://arxiv.org/abs/2010.03640v1 )

ライセンス: Link先を確認
Emily Allaway and Kathleen McKeown(参考訳) スタンス検出は日常生活における隠れた影響を理解する重要な要素である。 トレーニングデータが少ない,あるいはまったくない,数千の潜在的なトピックがあるので,ゼロショットスタンス検出(zero-shot stance detection)に注目します。 本稿では,従来のデータセットよりも幅広い話題と語彙変化をキャプチャするゼロショット姿勢検出のための新しいデータセットを提案する。 さらに,一般化された話題表現を用いてトピック間の関係を暗黙的に把握する姿勢検出モデルを提案し,このモデルが多くの難解な言語現象のパフォーマンスを向上させることを示す。

Stance detection is an important component of understanding hidden influences in everyday life. Since there are thousands of potential topics to take a stance on, most with little to no training data, we focus on zero-shot stance detection: classifying stance from no training examples. In this paper, we present a new dataset for zero-shot stance detection that captures a wider range of topics and lexical variation than in previous datasets. Additionally, we propose a new model for stance detection that implicitly captures relationships between topics using generalized topic representations and show that this model improves performance on a number of challenging linguistic phenomena.
翻訳日:2022-10-09 23:29:02 公開日:2020-10-07
# 文エンコーダ事前学習のためのクロス思考

Cross-Thought for Sentence Encoder Pre-training ( http://arxiv.org/abs/2010.03652v1 )

ライセンス: Link先を確認
Shuohang Wang, Yuwei Fang, Siqi Sun, Zhe Gan, Yu Cheng, Jing Jiang, Jingjing Liu(参考訳) 本稿では,質問応答などの大規模NLPタスクに再利用可能なシーケンス埋め込みを構築する上で有用な,事前学習シーケンスエンコーダの新たなアプローチであるCross-Thoughtを提案する。 全文の元の信号を使う代わりに、多くの短い列のセットでトランスフォーマーベースのシーケンスエンコーダを訓練し、マスクされた単語を予測するのに最も有用な情報を自動で選択する。 質問応答とテキストによる係り受けタスクの実験により、学習済みエンコーダは、従来のマスク付き言語モデリングベースラインと同様に、連続文信号で訓練された最先端エンコーダよりも優れています。 提案手法は,中間情報検索性能を向上させることにより,HotpotQA(フルwiki設定)に関する新たな技術を実現する。

In this paper, we propose Cross-Thought, a novel approach to pre-training sequence encoder, which is instrumental in building reusable sequence embeddings for large-scale NLP tasks such as question answering. Instead of using the original signals of full sentences, we train a Transformer-based sequence encoder over a large set of short sequences, which allows the model to automatically select the most useful information for predicting masked words. Experiments on question answering and textual entailment tasks demonstrate that our pre-trained encoder can outperform state-of-the-art encoders trained with continuous sentence signals as well as traditional masked language modeling baselines. Our proposed approach also achieves new state of the art on HotpotQA (full-wiki setting) by improving intermediate information retrieval performance.
翻訳日:2022-10-09 23:28:52 公開日:2020-10-07
# チャレンジデータを用いた関係抽出モデルの浅層ヒューリスティックの提示

Exposing Shallow Heuristics of Relation Extraction Models with Challenge Data ( http://arxiv.org/abs/2010.03656v1 )

ライセンス: Link先を確認
Shachar Rosenman, Alon Jacovi, Yoav Goldberg(参考訳) トレーニングデータの収集と注釈付けのプロセスは、モデルが正しい一般化行動を学ぶ能力を制限できる分布アーティファクトを導入する可能性がある。 我々は、TACREDで訓練されたSOTA関係抽出(RE)モデルの障害モードを特定し、データアノテーションプロセスの制限に起因する。 自然発生のコーパスの例に基づいて、Challenging RE(CRE)と呼ばれるチャレンジセットを収集し、注釈付けして、この振る舞いをベンチマークします。 4つの最先端REモデルを用いた実験により,挑戦セットデータに一般化しない浅層ヒューリスティックスを実際に導入したことを示す。 さらに,TACRED性能が悪化しているにもかかわらず,課題セットのSOTAモデルよりも,代替質問応答モデルの方が優れた結果が得られた。 トレーニングの例としてチャレンジデータを追加することで、モデルのパフォーマンスが改善される。 最後に、この振る舞いを軽減するためにREデータ収集を改善する方法について具体的な提案を行う。

The process of collecting and annotating training data may introduce distribution artifacts which may limit the ability of models to learn correct generalization behavior. We identify failure modes of SOTA relation extraction (RE) models trained on TACRED, which we attribute to limitations in the data annotation process. We collect and annotate a challenge-set we call Challenging RE (CRE), based on naturally occurring corpus examples, to benchmark this behavior. Our experiments with four state-of-the-art RE models show that they have indeed adopted shallow heuristics that do not generalize to the challenge-set data. Further, we find that alternative question answering modeling performs significantly better than the SOTA models on the challenge-set, despite worse overall TACRED performance. By adding some of the challenge data as training examples, the performance of the model improves. Finally, we provide concrete suggestion on how to improve RE data collection to alleviate this behavior.
翻訳日:2022-10-09 23:28:40 公開日:2020-10-07
# ランク学習による教師なし微粒な言語間意味分節の検出

Detecting Fine-Grained Cross-Lingual Semantic Divergences without Supervision by Learning to Rank ( http://arxiv.org/abs/2010.03662v1 )

ライセンス: Link先を確認
Eleftheria Briakou and Marine Carpuat(参考訳) 言語間NLPと多言語コーパス分析において,異なる言語で伝達されるコンテンツの微妙な違いを検出することは重要であるが,アノテーションは高価でスケールが難しいため,機械学習の問題である。 この研究は、きめ細かなセマンティクスの分岐の予測と注釈を改善する。 本稿では,多言語BERTモデルの学習方法として,様々な粒度の合成発散例をランク付けする手法を提案する。 本研究は,意味的発散クラスとトークンレベルの有理性を備えた英仏文ペアからなる新データセットであるRationalized English-French Semantic Divergencesについて,本モデルを評価した。 ランク付け学習は、強い文レベルの類似性モデルよりも正確な粒度の相違を検出するのに役立ち、トークンレベルの予測は粗さと細度の相違を更に区別する可能性がある。

Detecting fine-grained differences in content conveyed in different languages matters for cross-lingual NLP and multilingual corpora analysis, but it is a challenging machine learning problem since annotation is expensive and hard to scale. This work improves the prediction and annotation of fine-grained semantic divergences. We introduce a training strategy for multilingual BERT models by learning to rank synthetic divergent examples of varying granularity. We evaluate our models on the Rationalized English-French Semantic Divergences, a new dataset released with this work, consisting of English-French sentence-pairs annotated with semantic divergence classes and token-level rationales. Learning to rank helps detect fine-grained sentence-level divergences more accurately than a strong sentence-level similarity model, while token-level predictions have the potential of further distinguishing between coarse and fine-grained divergences.
翻訳日:2022-10-09 23:28:23 公開日:2020-10-07
# ベイジアン最適化モンテカルロ計画

Bayesian Optimized Monte Carlo Planning ( http://arxiv.org/abs/2010.03597v1 )

ライセンス: Link先を確認
John Mern, Anil Yildiz, Zachary Sunberg, Tapan Mukerji, Mykel J. Kochenderfer(参考訳) 部分可観測マルコフ決定プロセスのためのオンラインソルバは、大きなアクションスペースを持つ問題へのスケーリングが困難である。 プログレッシブ拡張によるモンテカルロ木探索は、ポリシー探索木を構築するためにアクション空間からサンプリングすることでスケーリングを改善することを試みる。 プログレッシブ・ワイドニング・サーチの性能はアクション・サンプリング・ポリシーに依存しており、しばしば問題固有のサンプリングが必要である。 本研究では,ベイズ最適化に基づく効率的な行動サンプリング手法を提案する。 提案手法はガウス過程を用いて行動-値関数上の信念をモデル化し、最適動作値の期待改善を最大化する動作を選択する。 提案手法はBayesian Optimized Monte Carlo Planning (BOMCP)と呼ばれる新しいオンライン木探索アルゴリズムで実装されている。 複数の実験により、bomcpは既存の最先端木探索ソルバよりも大きなアクション空間 pomdp にスケールできることが示された。

Online solvers for partially observable Markov decision processes have difficulty scaling to problems with large action spaces. Monte Carlo tree search with progressive widening attempts to improve scaling by sampling from the action space to construct a policy search tree. The performance of progressive widening search is dependent upon the action sampling policy, often requiring problem-specific samplers. In this work, we present a general method for efficient action sampling based on Bayesian optimization. The proposed method uses a Gaussian process to model a belief over the action-value function and selects the action that will maximize the expected improvement in the optimal action value. We implement the proposed approach in a new online tree search algorithm called Bayesian Optimized Monte Carlo Planning (BOMCP). Several experiments show that BOMCP is better able to scale to large action space POMDPs than existing state-of-the-art tree search solvers.
翻訳日:2022-10-09 23:28:05 公開日:2020-10-07
# なぜそう思うのですか。 監督なしの忠実な文レベルの合理性を探る

Why do you think that? Exploring Faithful Sentence-Level Rationales Without Supervision ( http://arxiv.org/abs/2010.03384v1 )

ライセンス: Link先を確認
Max Glockner, Ivan Habernal, Iryna Gurevych(参考訳) モデル予測の信頼性を評価することは、「正しい理由のための権利」と「間違った理由のための権利」の区別に不可欠である。 忠実な合理性として知られる目標ラベルを決定するテキストスパンの識別は通常、パイプラインアプローチや強化学習に依存する。 しかし、そのような方法には監督が必要であり、したがって合理的な注釈をコストがかかるか、微分不可能なモデルを採用する。 対象タスクにのみ監督を適用することで,文レベルで忠実な合理性を示すモデルを作成するための,微分可能なトレーニングフレームワークを提案する。 そこで本モデルでは,各課題を個別に解き,課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。 3つの異なるデータセットに対する評価は、標準的なBERTブラックボックスと比較して、パイプラインの性能を2つのケースで上回る結果を示した。 さらに,これらのモデルの透明な意思決定過程を活用し,直接的な監督を行うことで,正しい合理性の選択を優先し,合理性レベルでのパフォーマンスを高める。

Evaluating the trustworthiness of a model's prediction is essential for differentiating between `right for the right reasons' and `right for the wrong reasons'. Identifying textual spans that determine the target label, known as faithful rationales, usually relies on pipeline approaches or reinforcement learning. However, such methods either require supervision and thus costly annotation of the rationales or employ non-differentiable models. We propose a differentiable training-framework to create models which output faithful rationales on a sentence level, by solely applying supervision on the target task. To achieve this, our model solves the task based on each rationale individually and learns to assign high scores to those which solved the task best. Our evaluation on three different datasets shows competitive results compared to a standard BERT blackbox while exceeding a pipeline counterpart's performance in two cases. We further exploit the transparent decision-making process of these models to prefer selecting the correct rationales by applying direct supervision, thereby boosting the performance on the rationale-level.
翻訳日:2022-10-09 23:21:27 公開日:2020-10-07
# 「むしろ寝たい」:間接的な答えを理解する

"I'd rather just go to bed": Understanding Indirect Answers ( http://arxiv.org/abs/2010.03450v1 )

ライセンス: Link先を確認
Annie Louis, Dan Roth, and Filip Radlinski(参考訳) 我々は,質問に対する間接的応答の理解という,現実的な推論問題をダイアログで再検討する。 人間は「私は飢えている」と解釈できる。「はい」や「いいえ」といった直接の手がかりがなくても、「はい」は「はい」と解釈できる。 対話システムでは、閉じた語彙よりも自然な応答を可能にするのも同様に有益である。 しかし、今日のシステムは、言語モデルが許すような実用的な動きに対してのみ敏感である。 本稿では,34,268対(極性質問,間接回答)からなる,最初の大規模英語コーパス「circa」を作成し,公開する。 データは、詳細なクラウドソーシングを通じて収集され、イエス/ノー意味の発声、不確実性、中場、条件付き応答を含む。 また,このようなカテゴリを予測するために,bertに基づくニューラルモデルを提案する。 関連する学習は合理的に機能するが、ロバストなダイアログにはパフォーマンスにはまだ不十分である。 4クラスで82~88%,6クラスで74~85%の精度が得られた。

We revisit a pragmatic inference problem in dialog: understanding indirect responses to questions. Humans can interpret 'I'm starving.' in response to 'Hungry?', even without direct cue words such as 'yes' and 'no'. In dialog systems, allowing natural responses rather than closed vocabularies would be similarly beneficial. However, today's systems are only as sensitive to these pragmatic moves as their language model allows. We create and release the first large-scale English language corpus 'Circa' with 34,268 (polar question, indirect answer) pairs to enable progress on this task. The data was collected via elaborate crowdsourcing, and contains utterances with yes/no meaning, as well as uncertain, middle-ground, and conditional responses. We also present BERT-based neural models to predict such categories for a question-answer pair. We find that while transfer learning from entailment works reasonably, performance is not yet sufficient for robust dialog. Our models reach 82-88% accuracy for a 4-class distinction, and 74-85% for 6 classes.
翻訳日:2022-10-09 23:21:02 公開日:2020-10-07
# ロシアにおける意味変化検出におけるELMoとBERT

ELMo and BERT in semantic change detection for Russian ( http://arxiv.org/abs/2010.03481v1 )

ライセンス: Link先を確認
Julia Rodina, Yuliya Trofimova, Andrey Kutuzov, Ekaterina Artemova(参考訳) 本研究では,ロシア語データに対する意味的変化検出タスクにおける文脈的埋め込みの有効性について検討する。 評価試験セットは、ソ連前、ソ連後、ソ連後の各期間に作成されたテキストにその出現に基づいてアノテートされたロシア語の名詞と形容詞からなる。 ELMoとBERTのアーキテクチャは、ロシア語の単語を時間とともに意味的変化の度合いに応じてランク付けするタスクで比較される。 我々は,これらのアーキテクチャからの文脈的埋め込みの集約にいくつかの手法を使用し,それらの性能を評価する。 最後に,この課題における教師なし技術と教師なし技術を比較した。

We study the effectiveness of contextualized embeddings for the task of diachronic semantic change detection for Russian language data. Evaluation test sets consist of Russian nouns and adjectives annotated based on their occurrences in texts created in pre-Soviet, Soviet and post-Soviet time periods. ELMo and BERT architectures are compared on the task of ranking Russian words according to the degree of their semantic change over time. We use several methods for aggregation of contextualized embeddings from these architectures and evaluate their performance. Finally, we compare unsupervised and supervised techniques in this task.
翻訳日:2022-10-09 23:20:32 公開日:2020-10-07
# 多言語トランスフォーマーと自動翻訳による非英語ツイートの感情分析の改善

Improving Sentiment Analysis over non-English Tweets using Multilingual Transformers and Automatic Translation for Data-Augmentation ( http://arxiv.org/abs/2010.03486v1 )

ライセンス: Link先を確認
Valentin Barriere and Alexandra Balahur(参考訳) ツイートは一般的なテキストと比較して特定のテキストデータである。 ツイートに対する感情分析は、過去10年間に英語で非常に人気になったが、英語以外の言語で大量の注釈付きコーパスを見つけるのは難しい。 最近の自然言語処理におけるトランスフォーマーモデルの台頭により、多くのタスクで並列性のないパフォーマンスを実現することができるが、これらのモデルは、ツイートドメインに適応するために連続した量のテキストを必要とする。 我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。 我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりもトランスフォーマーの結果を改善する効果的な方法であることを示唆している。

Tweets are specific text data when compared to general text. Although sentiment analysis over tweets has become very popular in the last decade for English, it is still difficult to find huge annotated corpora for non-English languages. The recent rise of the transformer models in Natural Language Processing allows to achieve unparalleled performances in many tasks, but these models need a consequent quantity of text to adapt to the tweet domain. We propose the use of a multilingual transformer model, that we pre-train over English tweets and apply data-augmentation using automatic translation to adapt the model to non-English languages. Our experiments in French, Spanish, German and Italian suggest that the proposed technique is an efficient way to improve the results of the transformers over small corpora of tweets in a non-English language.
翻訳日:2022-10-09 23:20:24 公開日:2020-10-07
# オンライン議論における議論構造の役割を探る

Exploring the Role of Argument Structure in Online Debate Persuasion ( http://arxiv.org/abs/2010.03538v1 )

ライセンス: Link先を確認
Jialu Li, Esin Durmus and Claire Cardie(参考訳) オンライン討論フォーラムは、様々な視点の意見に晒されながら、議論のある話題について意見を述べるプラットフォームを提供する。 自然言語処理(NLP)における既存の研究は、議論テキストから抽出された言語的特徴と、聴衆の特徴をコードする特徴の両方が説得研究において重要であることを示した。 本稿では,オンライン討論会における議論の言論構造の役割について,その説得性について検討する。 特に、因子グラフモデルを用いて、オンライン討論プラットフォームから議論の議論構造を抽出し、これらの特徴をLSTMモデルに組み込んで、最も説得力のある議論を行う議論者を予測する。 議論構造機能の導入は,オンライン議論における議論の説得力を評価する上で,より良い予測性能を達成する上で重要な役割を担っている。

Online debate forums provide users a platform to express their opinions on controversial topics while being exposed to opinions from diverse set of viewpoints. Existing work in Natural Language Processing (NLP) has shown that linguistic features extracted from the debate text and features encoding the characteristics of the audience are both critical in persuasion studies. In this paper, we aim to further investigate the role of discourse structure of the arguments from online debates in their persuasiveness. In particular, we use the factor graph model to obtain features for the argument structure of debates from an online debating platform and incorporate these features to an LSTM-based model to predict the debater that makes the most convincing arguments. We find that incorporating argument structure features play an essential role in achieving the better predictive performance in assessing the persuasiveness of the arguments in online debates.
翻訳日:2022-10-09 23:19:53 公開日:2020-10-07
# SemEval-2020 Task 12: 事前学習言語モデルを用いた攻撃言語識別のための多言語学習

Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive Language Identification using Pre-trained Language Models ( http://arxiv.org/abs/2010.03542v1 )

ライセンス: Link先を確認
Shuohuan Wang, Jiaxiang Liu, Xuan Ouyang, Yu Sun(参考訳) 本稿ではソーシャルメディアにおける攻撃的言語の検出と分類に関するSemEval-2020 Task 12におけるガリレオの業績について述べる。 攻撃的言語同定のために,事前学習言語モデル,ERNIE,XLM-Rを用いた多言語手法を提案する。 そこで本研究では,複数の教師付きモデルから生成したソフトラベルを用いた知識蒸留法を提案する。 私たちのチームは3つのサブタスクすべてに参加した。 sub-task a - offensive language identificationでは、すべての言語で平均f1スコアで第1位にランクしました。 また、すべての言語で上位3位にランクインした唯一のチームです。 私たちはまた,サブタスクB - 攻撃タイプの自動分類とサブタスクC - 攻撃ターゲット識別で第1位を獲得した。

This paper describes Galileo's performance in SemEval-2020 Task 12 on detecting and categorizing offensive language in social media. For Offensive Language Identification, we proposed a multi-lingual method using Pre-trained Language Models, ERNIE and XLM-R. For offensive language categorization, we proposed a knowledge distillation method trained on soft labels generated by several supervised models. Our team participated in all three sub-tasks. In Sub-task A - Offensive Language Identification, we ranked first in terms of average F1 scores in all languages. We are also the only team which ranked among the top three across all languages. We also took the first place in Sub-task B - Automatic Categorization of Offense Types and Sub-task C - Offence Target Identification.
翻訳日:2022-10-09 23:19:37 公開日:2020-10-07
# 合成タスク指向意味解析のための低リソース領域適応

Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic Parsing ( http://arxiv.org/abs/2010.03546v1 )

ライセンス: Link先を確認
Xilun Chen, Asish Ghoshal, Yashar Mehdad, Luke Zettlemoyer and Sonal Gupta(参考訳) タスク指向セマンティックパーシングは仮想アシスタントの重要なコンポーネントであり、ユーザの意図(リマインダーの設定、音楽の再生など)を理解する責任がある。 近年のディープラーニングの進歩により、より複雑なクエリを解析するいくつかのアプローチ(Gupta et al., 2018; Rongali et al., 2020)が可能になったが、これらのモデルは新しいドメイン(リマインダー、音楽など)のクエリを解析するために大量の注釈付きトレーニングデータを必要とする。 本稿では,タスク指向意味パーサを低リソース領域に適用することに着目し,教師付きニューラルネットワークを10倍のデータ削減で上回る新しい手法を提案する。 特に,低リソース領域適応のための2つの基本的な要因を明らかにする。 我々の表現学習は、BART(Lewis et al., 2019)を用いて、エンコーダのみの事前訓練された表現よりも優れたモデルを初期化する。 さらに、最適化に基づくメタラーニング(finn et al., 2017)により、低リソースドメインへの一般化を改善する訓練を行う。 このアプローチは、新たに収集したマルチドメインタスク指向セマンティックパースデータセット(topv2)の実験において、すべてのベースラインメソッドを大幅に上回っています。

Task-oriented semantic parsing is a critical component of virtual assistants, which is responsible for understanding the user's intents (set reminder, play music, etc.). Recent advances in deep learning have enabled several approaches to successfully parse more complex queries (Gupta et al., 2018; Rongali et al.,2020), but these models require a large amount of annotated training data to parse queries on new domains (e.g. reminder, music). In this paper, we focus on adapting task-oriented semantic parsers to low-resource domains, and propose a novel method that outperforms a supervised neural model at a 10-fold data reduction. In particular, we identify two fundamental factors for low-resource domain adaptation: better representation learning and better training techniques. Our representation learning uses BART (Lewis et al., 2019) to initialize our model which outperforms encoder-only pre-trained representations used in previous work. Furthermore, we train with optimization-based meta-learning (Finn et al., 2017) to improve generalization to low-resource domains. This approach significantly outperforms all baseline methods in the experiments on a newly collected multi-domain task-oriented semantic parsing dataset (TOPv2), which we release to the public.
翻訳日:2022-10-09 23:19:26 公開日:2020-10-07
# OpenIE6:オープン情報抽出のための反復格子ラベリングとコーディネート解析

OpenIE6: Iterative Grid Labeling and Coordination Analysis for Open Information Extraction ( http://arxiv.org/abs/2010.03147v1 )

ライセンス: Link先を確認
Keshav Kolluru, Vaibhav Adlakha, Samarth Aggarwal, Mausam, and Soumen Chakrabarti(参考訳) 最近の最先端のニューラルネットワークオープン情報抽出(openie)システムは、部分出力の繰り返しエンコーディングを必要とする反復的な抽出を生成する。 これはかなりの計算コストがかかる。 一方、OpenIEのシーケンスラベリングアプローチはより高速だが、抽出品質は悪くなっている。 本稿では,OpenIEの新たな技術状態を確立しつつ,10倍高速に抽出する反復ラベリングシステムを提案することにより,このトレードオフを橋渡しする。 これは、OpenIEを2Dグリッドラベリングタスクとして扱うIGL(Iterative Grid Labeling)アーキテクチャによって実現される。 トレーニング時にグリッドにカバレッジ(ソフト)制約を適用することで、パフォーマンスをさらに向上します。 さらに、調整構造を扱うのに最適なOpenIEシステムについても、同じIGLアーキテクチャで構築された新しい調整アナライザが組み込まれています。 このIGLベースのコーディネーションアナライザは、OpenIEシステムが複雑なコーディネーション構造を処理するのに役立ち、従来のアナライザよりも12.3 ptsのF1の改善を図りながら、コーディネーション解析のタスクに新たな技術状態を確立する。 当社のOpenIEシステムであるOpenIE6は、F1で4 ptsの速さで以前のシステムを打ち負かしています。

A recent state-of-the-art neural open information extraction (OpenIE) system generates extractions iteratively, requiring repeated encoding of partial outputs. This comes at a significant computational cost. On the other hand, sequence labeling approaches for OpenIE are much faster, but worse in extraction quality. In this paper, we bridge this trade-off by presenting an iterative labeling-based system that establishes a new state of the art for OpenIE, while extracting 10x faster. This is achieved through a novel Iterative Grid Labeling (IGL) architecture, which treats OpenIE as a 2-D grid labeling task. We improve its performance further by applying coverage (soft) constraints on the grid at training time. Moreover, on observing that the best OpenIE systems falter at handling coordination structures, our OpenIE system also incorporates a new coordination analyzer built with the same IGL architecture. This IGL based coordination analyzer helps our OpenIE system handle complicated coordination structures, while also establishing a new state of the art on the task of coordination analysis, with a 12.3 pts improvement in F1 over previous analyzers. Our OpenIE system, OpenIE6, beats the previous systems by as much as 4 pts in F1, while being much faster.
翻訳日:2022-10-09 23:12:59 公開日:2020-10-07
# 有毒物に対する有毒音声検出装置の強化

Fortifying Toxic Speech Detectors Against Veiled Toxicity ( http://arxiv.org/abs/2010.03154v1 )

ライセンス: Link先を確認
Xiaochuang Han, Yulia Tsvetkov(参考訳) 現代の有毒な言語検出器は、故意に既知の有毒な語彙を避ける敵意攻撃や暗黙のバイアスの出現のような偽装した攻撃言語を認識するのに無能である。 このような毒物に対する大きな注釈付きデータセットを構築するのは非常にコストがかかる。 本研究では,既存の有毒な音声検出装置を,大規模にラベル付けされた有毒なコーパスを使わずに強化する枠組みを提案する。 ほんの一握りのサンプルが、偽装犯罪を表面化するために使われています。 本研究は, 有害な音声検出装置のトレーニングデータをこれらの攻撃的な例で強化し, 過度な毒性の検出に有効性を保ちながら, 防腐された毒性をより堅牢にする。

Modern toxic speech detectors are incompetent in recognizing disguised offensive language, such as adversarial attacks that deliberately avoid known toxic lexicons, or manifestations of implicit bias. Building a large annotated dataset for such veiled toxicity can be very expensive. In this work, we propose a framework aimed at fortifying existing toxic speech detectors without a large labeled corpus of veiled toxicity. Just a handful of probing examples are used to surface orders of magnitude more disguised offenses. We augment the toxic speech detector's training data with these discovered offensive examples, thereby making it more robust to veiled toxicity while preserving its utility in detecting overt toxicity.
翻訳日:2022-10-09 23:12:35 公開日:2020-10-07
# 文法的誤り訂正における雑音低減のための自己定義戦略

A Self-Refinement Strategy for Noise Reduction in Grammatical Error Correction ( http://arxiv.org/abs/2010.03155v1 )

ライセンス: Link先を確認
Masato Mita, Shun Kiyono, Masahiro Kaneko, Jun Suzuki and Kentaro Inui(参考訳) 既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に大きく依存している。 しかしながら、データセットの品質の検証と保証、低品質のデータがECのパフォーマンスに与える影響についてはほとんど注目されていない。 実際、誤りが不適切に編集されたり、修正されていないという、無視できない量の"ノイズ"があることがわかりました。 そこで我々は,既存のモデルの予測一貫性を活かして,これらのデータセットをデノベートする,というキーとなる自己定義法を考案した。 さらに,タスク固有の技術を適用し,CoNLL-2014,JFLEG,BEA-2019ベンチマークで最先端のパフォーマンスを達成した。 そして,提案手法の効果を解析し,提案手法が補正のカバレッジ向上につながり,高いリコールと全体的なパフォーマンスに反映されるフルエンシー編集が促進されることを見出した。

Existing approaches for grammatical error correction (GEC) largely rely on supervised learning with manually created GEC datasets. However, there has been little focus on verifying and ensuring the quality of the datasets, and on how lower-quality data might affect GEC performance. We indeed found that there is a non-negligible amount of "noise" where errors were inappropriately edited or left uncorrected. To address this, we designed a self-refinement method where the key idea is to denoise these datasets by leveraging the prediction consistency of existing models, and outperformed strong denoising baseline methods. We further applied task-specific techniques and achieved state-of-the-art performance on the CoNLL-2014, JFLEG, and BEA-2019 benchmarks. We then analyzed the effect of the proposed denoising method, and found that our approach leads to improved coverage of corrections and facilitated fluency edits which are reflected in higher recall and overall performance.
翻訳日:2022-10-09 23:12:21 公開日:2020-10-07
# 変圧器-GCRF:一般条件ランダム場を用いた中国語落語音の復元

Transformer-GCRF: Recovering Chinese Dropped Pronouns with General Conditional Random Fields ( http://arxiv.org/abs/2010.03224v1 )

ライセンス: Link先を確認
Jingxuan Yang, Kerui Xu, Jun Xu, Si Li, Sheng Gao, Jun Guo, Ji-Rong Wen, Nianwen Xue(参考訳) 代名詞はしばしば中国語の会話でドロップされ、削除された代名詞を復元することは機械翻訳のようなNLPアプリケーションにとって重要である。 既存のアプローチは通常、トークンとその型の前にドロップした代名詞があるかどうかを予測するシーケンスラベリングタスクとしてこれを定式化する。 各発話はシーケンスと見なされ、独立にラベル付けされる。 これらの手法は公約を示しているが、各発話のラベル付けは隣接する発話における代名詞間の依存関係を独立に無視する。 これらの依存関係をモデル化することは、ドロップした代名詞回復の性能を改善するために重要である。 本稿では,変圧器ネットワークの強度を一般条件確率場(gcrf)と組み合わせ,隣接発話における代名詞間の依存関係をモデル化する新しい枠組みを提案する。 3つの中国語会話データセットの結果、transformer-gcrfモデルは、下降した代名詞リカバリモデルよりも優れていた。 探索分析はまた、gcrfが隣接する発話における代名詞間の依存関係を捉えるのに役立ち、パフォーマンス改善に寄与することを示した。

Pronouns are often dropped in Chinese conversations and recovering the dropped pronouns is important for NLP applications such as Machine Translation. Existing approaches usually formulate this as a sequence labeling task of predicting whether there is a dropped pronoun before each token and its type. Each utterance is considered to be a sequence and labeled independently. Although these approaches have shown promise, labeling each utterance independently ignores the dependencies between pronouns in neighboring utterances. Modeling these dependencies is critical to improving the performance of dropped pronoun recovery. In this paper, we present a novel framework that combines the strength of Transformer network with General Conditional Random Fields (GCRF) to model the dependencies between pronouns in neighboring utterances. Results on three Chinese conversation datasets show that the Transformer-GCRF model outperforms the state-of-the-art dropped pronoun recovery models. Exploratory analysis also demonstrates that the GCRF did help to capture the dependencies between pronouns in neighboring utterances, thus contributes to the performance improvements.
翻訳日:2022-10-09 23:12:06 公開日:2020-10-07
# 誤スパン検出と補正による文法的誤り訂正の効率向上

Improving the Efficiency of Grammatical Error Correction with Erroneous Span Detection and Correction ( http://arxiv.org/abs/2010.03260v1 )

ライセンス: Link先を確認
Mengyun Chen, Tao Ge, Xingxing Zhang, Furu Wei, Ming Zhou(参考訳) 本稿では, 文法的誤り訂正(GEC)の効率性を改善するために, タスクを2つのサブタスクに分割し, 誤り検出(ESD)と誤訂正(ESC)の2つに分割する手法を提案する。 ESDは、効率の良いシーケンスタグ付けモデルで文法的に誤りなテキストを識別する。 次に、ESCはSeq2seqモデルを利用して、注釈付き誤字の文を入力として取り、修正されたテキストのみを出力する。 実験により,提案手法は従来のseq2seq法と英語と中国語のgecベンチマークで比較可能であり,推論に50%以下の時間コストがかかることを示した。

We propose a novel language-independent approach to improve the efficiency for Grammatical Error Correction (GEC) by dividing the task into two subtasks: Erroneous Span Detection (ESD) and Erroneous Span Correction (ESC). ESD identifies grammatically incorrect text spans with an efficient sequence tagging model. Then, ESC leverages a seq2seq model to take the sentence with annotated erroneous spans as input and only outputs the corrected text for these spans. Experiments show our approach performs comparably to conventional seq2seq approaches in both English and Chinese GEC benchmarks with less than 50% time cost for inference.
翻訳日:2022-10-09 23:11:30 公開日:2020-10-07
# ZEST:テキスト類似性とビジュアル要約を用いたテキスト記述からのゼロショット学習

ZEST: Zero-shot Learning from Text Descriptions using Textual Similarity and Visual Summarization ( http://arxiv.org/abs/2010.03276v1 )

ライセンス: Link先を確認
Tzuf Paz-Argaman, Yuval Atzmon, Gal Chechik, Reut Tsarfaty(参考訳) 本研究は,そのクラスのテキスト記述から視覚エンティティを認識できる問題について検討する。 具体的には,鳥の個体群を自由テキストで表現した画像から,種記載に基づいて未発見種を分類することを学ぶ。 このセットアップは、テキストからゼロショット学習(zero-shot learning)という名前で視覚コミュニティで研究され、目に見えないクラスからそれまで見られなかったクラスに鳥の視覚的側面に関する知識を移す学習に焦点を当てている。 そこで本論文では,テキストの視覚的特徴を議論する部分と効果的にマッチさせるために,テキスト記述と記述から抽出することに着目した。 具体的には,(1)本種のテキスト記述の類似性を反映した種間の類似性を活用することを提案する。 2) テキストの視覚的要約,すなわち画像に反映される傾向のある視覚的特徴に焦点を当てた抽出的要約を導出する。 類似性と視覚的要約成分を付加したシンプルな注意モデルを提案する。 私たちの実験結果は、ゼロショット画像認識におけるテキストの重要性を示しながら、テキストベースのゼロショット学習の最大のベンチマークにおいて、最先端を一貫して著しく上回っています。

We study the problem of recognizing visual entities from the textual descriptions of their classes. Specifically, given birds' images with free-text descriptions of their species, we learn to classify images of previously-unseen species based on specie descriptions. This setup has been studied in the vision community under the name zero-shot learning from text, focusing on learning to transfer knowledge about visual aspects of birds from seen classes to previously-unseen ones. Here, we suggest focusing on the textual description and distilling from the description the most relevant information to effectively match visual features to the parts of the text that discuss them. Specifically, (1) we propose to leverage the similarity between species, reflected in the similarity between text descriptions of the species. (2) we derive visual summaries of the texts, i.e., extractive summaries that focus on the visual features that tend to be reflected in images. We propose a simple attention-based model augmented with the similarity and visual summaries components. Our empirical results consistently and significantly outperform the state-of-the-art on the largest benchmarks for text-based zero-shot learning, illustrating the critical importance of texts for zero-shot image-recognition.
翻訳日:2022-10-09 23:11:17 公開日:2020-10-07
# 複数のビアーゼの同時モデリングによるQA一般化の改善

Improving QA Generalization by Concurrent Modeling of Multiple Biases ( http://arxiv.org/abs/2010.03338v1 )

ライセンス: Link先を確認
Mingzhu Wu, Nafise Sadat Moosavi, Andreas R\"uckl\'e and Iryna Gurevych(参考訳) 既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれている。 しかし、データセット固有のバイアスに注目することは、より一般的なデータパターンからタスクに関するより一般的な知識を学ぶ能力を制限する。 本稿では,一般化改善のためのデバイアス手法の影響を調査し,トレーニングデータにおける複数のバイアスの同時モデリングにより,ドメイン内データセットとドメイン外データセットの両方のパフォーマンスを向上させる汎用フレームワークを提案する。 私たちのフレームワークは、トレーニングデータに含まれるバイアスとバイアスの強さに基づいて、各例を重み付けします。 そして、これらの重みをトレーニング目的に使用することで、モデルがバイアス重みのある例に依存しないようにします。 様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出質問応答の枠組みを広く評価した。 モデルが1つのドメインまたは複数のドメインで同時にトレーニングされる2つの異なる設定で評価を行い、その効果を最先端のデバイアス法と比較した。

Existing NLP datasets contain various biases that models can easily exploit to achieve high performances on the corresponding evaluation sets. However, focusing on dataset-specific biases limits their ability to learn more generalizable knowledge about the task from more general data patterns. In this paper, we investigate the impact of debiasing methods for improving generalization and propose a general framework for improving the performance on both in-domain and out-of-domain datasets by concurrent modeling of multiple biases in the training data. Our framework weights each example based on the biases it contains and the strength of those biases in the training data. It then uses these weights in the training objective so that the model relies less on examples with high bias weights. We extensively evaluate our framework on extractive question answering with training data from various domains with multiple biases of different strengths. We perform the evaluations in two different settings, in which the model is trained on a single domain or multiple domains simultaneously, and show its effectiveness in both settings compared to state-of-the-art debiasing methods.
翻訳日:2022-10-09 23:10:32 公開日:2020-10-07
# WikiLingua: 言語間抽象要約のためのベンチマークデータセット

WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization ( http://arxiv.org/abs/2010.03093v1 )

ライセンス: Link先を確認
Faisal Ladhak, Esin Durmus, Claire Cardie, Kathleen McKeown(参考訳) ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。 論文と要約のペアを18ヶ国語から抽出し,人間の著者による多種多様なトピックに関するハウツーガイドの質の高いコラボレーティブなリソースであるwikihowから抽出した。 記事のハウツーステップを記述するために使用される画像をアライメントすることによって、言語をまたいだゴールド標準の記事要約アライメントを作成します。 さらなる研究のベースラインとして、既存の言語間抽象的な要約手法の性能をデータセット上で評価する。 さらに,合成データとニューラルマシン翻訳を事前学習ステップとして活用し,言語間直接要約(すなわち,推論時に翻訳を必要とせずに)を行う手法を提案する。 提案手法は, 推論時のコスト効率が向上する一方で, ベースラインアプローチを大幅に上回っている。

We introduce WikiLingua, a large-scale, multilingual dataset for the evaluation of crosslingual abstractive summarization systems. We extract article and summary pairs in 18 languages from WikiHow, a high quality, collaborative resource of how-to guides on a diverse set of topics written by human authors. We create gold-standard article-summary alignments across languages by aligning the images that are used to describe each how-to step in an article. As a set of baselines for further studies, we evaluate the performance of existing cross-lingual abstractive summarization methods on our dataset. We further propose a method for direct crosslingual summarization (i.e., without requiring translation at inference time) by leveraging synthetic data and Neural Machine Translation as a pre-training step. Our method significantly outperforms the baseline approaches, while being more cost efficient during inference.
翻訳日:2022-10-09 23:01:54 公開日:2020-10-07
# DiPair:Trillionスケールテキストマッチングとペアモデリングのための高速かつ正確な蒸留

DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling ( http://arxiv.org/abs/2010.03099v1 )

ライセンス: Link先を確認
Jiecao Chen, Liu Yang, Karthik Raman, Michael Bendersky, Jung-Jung Yeh, Yun Zhou, Marc Najork, Danyang Cai, Ehsan Emadzadeh(参考訳) BERT (Devlin et al., 2018)のような事前訓練されたモデルは、単一文分類、テキストペア分類、質問応答などのNLP/IRアプリケーションを支配している。 しかし、これらのモデルを実システムにデプロイするのは、その計算コストが大きすぎるため、非常に非自明である。 これに対する一般的な治療として、知識蒸留(hinton et al., 2015)がある。 しかし、ここで示すように、既存の作品はテキストのペア(またはタプル)を扱うために最適化されていない。 結果として、スケーラビリティが損なわれるか、サブパーパフォーマンスが示される。 本研究では,テキストペアタスク上で高速かつ正確なモデルを蒸留するための新しいフレームワークであるDiPairを提案する。 DiPairはエンドツーエンドのトレーニング戦略と組み合わせて、高度にスケーラブルで、品質と速度のトレードオフが改善されている。 学術および実世界のeコマースベンチマークで実施された実証研究は、350倍以上のスピードアップと最小品質の低下による提案手法の有効性を示した。

Pre-trained models like BERT (Devlin et al., 2018) have dominated NLP / IR applications such as single sentence classification, text pair classification, and question answering. However, deploying these models in real systems is highly non-trivial due to their exorbitant computational costs. A common remedy to this is knowledge distillation (Hinton et al., 2015), leading to faster inference. However -- as we show here -- existing works are not optimized for dealing with pairs (or tuples) of texts. Consequently, they are either not scalable or demonstrate subpar performance. In this work, we propose DiPair -- a novel framework for distilling fast and accurate models on text pair tasks. Coupled with an end-to-end training strategy, DiPair is both highly scalable and offers improved quality-speed tradeoffs. Empirical studies conducted on both academic and real-world e-commerce benchmarks demonstrate the efficacy of the proposed approach with speedups of over 350x and minimal quality drop relative to the cross-attention teacher BERT model.
翻訳日:2022-10-09 23:01:40 公開日:2020-10-07
# 提案エントロピーを最大化するニューラルネットワークMCMCサンプリング器

A Neural Network MCMC sampler that maximizes Proposal Entropy ( http://arxiv.org/abs/2010.03587v1 )

ライセンス: Link先を確認
Zengyi Li, Yubei Chen, Friedrich T. Sommer(参考訳) マルコフ連鎖モンテカルロ (mcmc) は非正規化確率分布からサンプルを抽出し、正確なサンプリングの保証を提供する。 しかし、連続の場合、目標分布の好ましくない幾何はMCMC法の効率を大幅に制限することができる。 ニューラルネットワークでサンプルを増強することで、効率が向上する可能性がある。 以前のニューラルネットワークベースのサンプルは、明示的に探索を奨励しない目的や、十分に構造化された分布にのみ適用可能なL2ジャンプ目標を用いて訓練された。 したがって、任意の形状の分布に提案を適用するための提案エントロピーを最大化することが期待できる。 提案エントロピーの直接最適化を実現するために,フレキシブルかつトラクタブルな提案分布を持つニューラルネットワークMCMCサンプリング器を提案する。 具体的には、ターゲット分布の勾配を利用して提案を行う。 本モデルは,各種サンプリングタスクにおいて,従来のニューラルネットワークMCMC技術よりもはるかに高い効率を実現する。 さらに、サンプラーは、自然画像の収束エネルギーに基づくモデルの訓練に適用される。 適応サンプリング器はランゲヴィン力学サンプリング器よりも非常に高い提案エントロピーで非バイアスサンプリングを実現する。

Markov Chain Monte Carlo (MCMC) methods sample from unnormalized probability distributions and offer guarantees of exact sampling. However, in the continuous case, unfavorable geometry of the target distribution can greatly limit the efficiency of MCMC methods. Augmenting samplers with neural networks can potentially improve their efficiency. Previous neural network based samplers were trained with objectives that either did not explicitly encourage exploration, or used a L2 jump objective which could only be applied to well structured distributions. Thus it seems promising to instead maximize the proposal entropy for adapting the proposal to distributions of any shape. To allow direct optimization of the proposal entropy, we propose a neural network MCMC sampler that has a flexible and tractable proposal distribution. Specifically, our network architecture utilizes the gradient of the target distribution for generating proposals. Our model achieves significantly higher efficiency than previous neural network MCMC techniques in a variety of sampling tasks. Further, the sampler is applied on training of a convergent energy-based model of natural images. The adaptive sampler achieves unbiased sampling with significantly higher proposal entropy than Langevin dynamics sampler.
翻訳日:2022-10-09 22:55:50 公開日:2020-10-07
# 高次元部分微分方程式に対するアクタ・クリティカルアルゴリズム

Actor-Critic Algorithm for High-dimensional Partial Differential Equations ( http://arxiv.org/abs/2010.03647v1 )

ライセンス: Link先を確認
Xiaohan Zhang(参考訳) 本研究では,高次元非線形放物型偏微分方程式(pde)を効果的に解くための深層学習モデルを開発した。 我々は、ファインマン・カックの公式に従い、PDEを後方確率微分方程式(BSDE)システムで支配される等価確率制御問題に再構成する。 bsdeのマルコフ特性はニューラルネットワークアーキテクチャの設計に利用されており、これは通常深層強化学習に適用されるアクター-クリティックアルゴリズムに触発されている。 State-of-the-Artモデルと比較して、いくつかの改善がなされている。 1) トレーニング可能なパラメータを大幅に削減した。 2)より速い収束率と 3) 調整するハイパーパラメータが少なくなる。 ハミルトン・ヤコビアン・ベルマン方程式、アレン・カーン方程式、100の次元を持つブラック・ショールズ方程式など、よく知られたPDEのクラスを解くことでこれらの改善を実証する。

We develop a deep learning model to effectively solve high-dimensional nonlinear parabolic partial differential equations (PDE). We follow Feynman-Kac formula to reformulate PDE into the equivalent stochastic control problem governed by a Backward Stochastic Differential Equation (BSDE) system. The Markovian property of the BSDE is utilized in designing our neural network architecture, which is inspired by the Actor-Critic algorithm usually applied for deep Reinforcement Learning. Compared to the State-of-the-Art model, we make several improvements including 1) largely reduced trainable parameters, 2) faster convergence rate and 3) fewer hyperparameters to tune. We demonstrate those improvements by solving a few well-known classes of PDEs such as Hamilton-Jacobian-Bellman equation, Allen-Cahn equation and Black-Scholes equation with dimensions on the order of 100.
翻訳日:2022-10-09 22:55:01 公開日:2020-10-07
# M3Lung-Sys:CTによる多型肺肺炎検診のためのディープラーニングシステム

M3Lung-Sys: A Deep Learning System for Multi-Class Lung Pneumonia Screening from CT Imaging ( http://arxiv.org/abs/2010.03201v1 )

ライセンス: Link先を確認
Xuelin Qian, Huazhu Fu, Weiya Shi, Tao Chen, Yanwei Fu, Fei Shan, Xiangyang Xue(参考訳) 新型コロナウイルスの感染拡大に対処するため、患者の正確な診断は、時間的隔離、治療、パンデミックの拡散防止に重要な役割を果たす。 限られたトレーニングケースやリソース(例えば、時間と予算)を考えると、2d cnnネットワーク、すなわちスライスネットワークと患者レベルの分類ネットワークからなるct画像から多段階肺肺炎をスクリーニングするためのマルチタスクマルチスライス深層学習システム(m3lung-sys)を提案する。 前者の目的は,CT量を限定せず,多量のCTスライスから特徴表現を求めることであり,全般的な肺炎検診では,特徴改善と異なるスライス間の凝集による時間情報の回復が可能である。 M3 Lung-Sysは、COVID-19とHealthy、H1N1、CAPとを区別するだけでなく、ピクセルレベルのアノテーションなしで、関連する病変の領域を特定できる。 さらに本モデルの有効性を実証するため, 胸部CT画像データセット(健常者251名, COVID-19患者245名, H1N1患者105名, CAP患者133名)を用いて広範な実験を行った。 スライス分類と患者レベルの分類の双方において,提案モデルが優れていることを示す指標が多数ある。 さらに重要なことは、発生した病変位置マップは、我々のシステムを解釈可能で、臨床医にとってより価値の高いものにします。

To counter the outbreak of COVID-19, the accurate diagnosis of suspected cases plays a crucial role in timely quarantine, medical treatment, and preventing the spread of the pandemic. Considering the limited training cases and resources (e.g, time and budget), we propose a Multi-task Multi-slice Deep Learning System (M3Lung-Sys) for multi-class lung pneumonia screening from CT imaging, which only consists of two 2D CNN networks, i.e., slice- and patient-level classification networks. The former aims to seek the feature representations from abundant CT slices instead of limited CT volumes, and for the overall pneumonia screening, the latter one could recover the temporal information by feature refinement and aggregation between different slices. In addition to distinguish COVID-19 from Healthy, H1N1, and CAP cases, our M 3 Lung-Sys also be able to locate the areas of relevant lesions, without any pixel-level annotation. To further demonstrate the effectiveness of our model, we conduct extensive experiments on a chest CT imaging dataset with a total of 734 patients (251 healthy people, 245 COVID-19 patients, 105 H1N1 patients, and 133 CAP patients). The quantitative results with plenty of metrics indicate the superiority of our proposed model on both slice- and patient-level classification tasks. More importantly, the generated lesion location maps make our system interpretable and more valuable to clinicians.
翻訳日:2022-10-09 22:54:46 公開日:2020-10-07
# トリガーしないで! ディープニューラルネットワークに対するトリガーレスバックドア攻撃

Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks ( http://arxiv.org/abs/2010.03282v1 )

ライセンス: Link先を確認
Ahmed Salem, Michael Backes, Yang Zhang(参考訳) ディープニューラルネットワークに対するバックドア攻撃は、セキュリティ上の重大な影響から、現在深く調査されている。 現在の最先端のバックドア攻撃では、ターゲットモデルがバックドアをアクティベートするために、敵が入力を変更する必要がある。 この追加トリガーは、物理的な世界でバックドア攻撃を開始することの難しさを増すだけでなく、複数の防御機構によって容易に検出できる。 本稿では、バックドアをトリガーするための入力を変更する必要がないディープニューラルネットワークに対する最初のトリガーレスバックドア攻撃を示す。 我々の攻撃はドロップアウト技術に基づいている。 具体的には、モデルトレーニング中に放出される標的ニューロンの集合とターゲットラベルを関連付ける。 予測フェーズでは、モデルがターゲットニューロンが再びドロップされた場合、すなわちバックドア攻撃が起動されると、ターゲットラベルを出力する。 この攻撃のトリガーレスな特徴は、物理的な世界で実用的です。 広範な実験により、我々のトリガーレスバックドア攻撃は、モデルの実用性に不可分なダメージを与えることなく、完璧な攻撃成功率を達成できることが示されている。

Backdoor attack against deep neural networks is currently being profoundly investigated due to its severe security consequences. Current state-of-the-art backdoor attacks require the adversary to modify the input, usually by adding a trigger to it, for the target model to activate the backdoor. This added trigger not only increases the difficulty of launching the backdoor attack in the physical world, but also can be easily detected by multiple defense mechanisms. In this paper, we present the first triggerless backdoor attack against deep neural networks, where the adversary does not need to modify the input for triggering the backdoor. Our attack is based on the dropout technique. Concretely, we associate a set of target neurons that are dropped out during model training with the target label. In the prediction phase, the model will output the target label when the target neurons are dropped again, i.e., the backdoor attack is launched. This triggerless feature of our attack makes it practical in the physical world. Extensive experiments show that our triggerless backdoor attack achieves a perfect attack success rate with a negligible damage to the model's utility.
翻訳日:2022-10-09 22:54:20 公開日:2020-10-07
# 二重対向的対向的摂動

Double Targeted Universal Adversarial Perturbations ( http://arxiv.org/abs/2010.03288v1 )

ライセンス: Link先を確認
Philipp Benz, Chaoning Zhang, Tooba Imtiaz, In So Kweon(参考訳) 優れたパフォーマンスにもかかわらず、ディープニューラルネットワーク(DNN)は敵攻撃に対して脆弱であることが広く知られており、自律運転などセキュリティに敏感なアプリケーションにデプロイすることは困難である。 画像依存の摂動は1つの特定の画像に対してネットワークを騙し、普遍的な逆摂動は選択せずにすべてのクラスからサンプルのネットワークを騙すことができる。 本稿では, インスタンス別画像依存摂動と汎用的普遍摂動のギャップを埋めるために, 二重目標普遍摂動(DT-UAP)を導入する。 この普遍的な摂動は、1つのターゲットのソースクラスに対してシンククラスを攻撃し、他のターゲットでないソースクラスに対する敵意は限定され、疑念の高まりを避ける。 ソースクラスとシンククラスを同時にターゲットとして、ダブルターゲットアタック(DTA)と呼ぶ。 これにより、攻撃者は疑念をほとんど起こさずにDNNモデルに対して正確な攻撃を行う自由が得られる。 提案したDTAアルゴリズムの幅広いデータセットに対する有効性を示すとともに,物理攻撃の可能性を示す。

Despite their impressive performance, deep neural networks (DNNs) are widely known to be vulnerable to adversarial attacks, which makes it challenging for them to be deployed in security-sensitive applications, such as autonomous driving. Image-dependent perturbations can fool a network for one specific image, while universal adversarial perturbations are capable of fooling a network for samples from all classes without selection. We introduce a double targeted universal adversarial perturbations (DT-UAPs) to bridge the gap between the instance-discriminative image-dependent perturbations and the generic universal perturbations. This universal perturbation attacks one targeted source class to sink class, while having a limited adversarial effect on other non-targeted source classes, for avoiding raising suspicions. Targeting the source and sink class simultaneously, we term it double targeted attack (DTA). This provides an attacker with the freedom to perform precise attacks on a DNN model while raising little suspicion. We show the effectiveness of the proposed DTA algorithm on a wide range of datasets and also demonstrate its potential as a physical attack.
翻訳日:2022-10-09 22:54:00 公開日:2020-10-07
# CD-UAP:クラス差別的普遍的対立摂動

CD-UAP: Class Discriminative Universal Adversarial Perturbation ( http://arxiv.org/abs/2010.03300v1 )

ライセンス: Link先を確認
Chaoning Zhang, Philipp Benz, Tooba Imtiaz, In So Kweon(参考訳) すべての自然画像に単一の普遍的対向摂動(UAP)を加えることで、予測されたクラスラベルのほとんどを変更することができる。 攻撃者が攻撃対象のクラスに対して柔軟に制御できることは、非常に実用的であるが、既存のuapメソッドはすべてのクラスからサンプルを攻撃している。 本研究では,選択したクラス群のみを誤分類し,残りのクラスに限られた影響を与えながら,ターゲットネットワークを騙して,単一の摂動を生成する,新たなユニバーサルアタック手法を提案する。 提案攻撃は, 対象クラスと非対象クラスとを区別する普遍的対向摂動を発生させるので, 識別的対向摂動 (CD-UAP) と呼ぶ。 そこで我々は,クラス識別ユニバーサルアタックに適した様々な損失関数構成を設計・比較する,シンプルで効果的なアルゴリズムフレームワークを提案する。 提案手法は、様々なベンチマークデータセットに対する広範な実験により評価されている。 さらに,提案手法は,UAPが全てのクラスを攻撃した場合のタスクに対して,最先端の性能を実現する。

A single universal adversarial perturbation (UAP) can be added to all natural images to change most of their predicted class labels. It is of high practical relevance for an attacker to have flexible control over the targeted classes to be attacked, however, the existing UAP method attacks samples from all classes. In this work, we propose a new universal attack method to generate a single perturbation that fools a target network to misclassify only a chosen group of classes, while having limited influence on the remaining classes. Since the proposed attack generates a universal adversarial perturbation that is discriminative to targeted and non-targeted classes, we term it class discriminative universal adversarial perturbation (CD-UAP). We propose one simple yet effective algorithm framework, under which we design and compare various loss function configurations tailored for the class discriminative universal attack. The proposed approach has been evaluated with extensive experiments on various benchmark datasets. Additionally, our proposed approach achieves state-of-the-art performance for the original task of UAP attacking all classes, which demonstrates the effectiveness of our approach.
翻訳日:2022-10-09 22:53:40 公開日:2020-10-07
# 医用画像のための識別的クロスモーダルデータ拡張

Discriminative Cross-Modal Data Augmentation for Medical Imaging Applications ( http://arxiv.org/abs/2010.03468v1 )

ライセンス: Link先を確認
Yue Yang, Pengtao Xie(参考訳) 深層学習は医用画像解析において大きな成功を収めてきたが、訓練には多くの医用画像が必要である。 データプライバシの懸念と医療アノテータの有効性のため、モデルトレーニングのためにラベル付き医療画像を得るのは非常に困難であることが多い。 本稿では,医療画像領域のデータ不足問題を軽減するために,クロスモダリティデータ拡張について検討する。 本稿では、画像のソースモダリティを目標モダリティに変換し、下流予測タスクと共同で翻訳タスクを行い、その予測によって翻訳を導出する識別的未ペア画像画像変換モデルを提案する。 2つの応用実験により,本手法の有効性が示された。

While deep learning methods have shown great success in medical image analysis, they require a number of medical images to train. Due to data privacy concerns and unavailability of medical annotators, it is oftentimes very difficult to obtain a lot of labeled medical images for model training. In this paper, we study cross-modality data augmentation to mitigate the data deficiency issue in the medical imaging domain. We propose a discriminative unpaired image-to-image translation model which translates images in source modality into images in target modality where the translation task is conducted jointly with the downstream prediction task and the translation is guided by the prediction. Experiments on two applications demonstrate the effectiveness of our method.
翻訳日:2022-10-09 22:53:20 公開日:2020-10-07
# 遺伝的アルゴリズムを用いた0/1クナプサックの収束に及ぼす異種交叉法と選抜法の影響評価

Evaluating the impact of different types of crossover and selection methods on the convergence of 0/1 Knapsack using Genetic Algorithm ( http://arxiv.org/abs/2010.03483v1 )

ライセンス: Link先を確認
Waleed Bin Owais, Iyad W. J. Alkhazendar and Dr.Mohammad Saleh(参考訳) 遺伝的アルゴリズムは進化的アルゴリズムであり、最適化や探索問題の解法における勾配に基づく手法の失敗を克服するために導入されたメタヒューリスティックである。 本研究の目的は,遺伝的アルゴリズム vis-a-vis 0/1 knapsack の収束への影響を評価することである。 世代数と初期個体数の固定を保ちながら, 1点交叉法と2点交叉法などの異なる交叉法を評価し, 互いに近似した。 さらに, ランク選択, ルーレットホイール, トーナメント選択など, 異なる選抜方法の影響を評価し, 比較した。 以上の結果から,0/1knapsack問題に対する1点クロスオーバーとトーナメント選択の組み合わせの収束率が最も高く,0/1knapsackを解く上で最も効率的であることが示唆された。

Genetic Algorithm is an evolutionary algorithm and a metaheuristic that was introduced to overcome the failure of gradient based method in solving the optimization and search problems. The purpose of this paper is to evaluate the impact on the convergence of Genetic Algorithm vis-a-vis 0/1 knapsack. By keeping the number of generations and the initial population fixed, different crossover methods like one point crossover and two-point crossover were evaluated and juxtaposed with each other. In addition to this, the impact of different selection methods like rank-selection, roulette wheel and tournament selection were evaluated and compared. Our results indicate that convergence rate of combination of one point crossover with tournament selection, with respect to 0/1 knapsack problem that we considered, is the highest and thereby most efficient in solving 0/1 knapsack.
翻訳日:2022-10-09 22:46:49 公開日:2020-10-07
# 射影型制約付き政策最適化

Projection-Based Constrained Policy Optimization ( http://arxiv.org/abs/2010.03152v1 )

ライセンス: Link先を確認
Tsung-Yen Yang and Justinian Rosca and Karthik Narasimhan and Peter J. Ramadge(参考訳) 安全性,公正性,その他のコストを考慮した制約を満たしつつ,報酬関数を最適化する学習制御政策の課題を考察する。 提案するアルゴリズムは,PCPO (Projection-Based Constrained Policy Optimization) である。 これは2段階のプロセスでポリシーを最適化するための反復的な方法であり、第1ステップは局所報酬改善更新を行い、第2ステップは制約セットにポリシーを投影することで制約違反を解消する。 我々はPCPOを理論的に分析し、ポリシー更新ごとに報酬改善の上限を低くし、制約違反の上限を高くする。 さらに、$\normltwo$ norm と Kullback-Leibler divergence という2つの異なる指標に基づいてPCPOの収束を特徴づける。 複数の制御タスクに対する実験結果から,PCPOが優れた性能を達成し,制約違反が3.5倍以上減少し,最先端手法に比べて約15倍の報酬が得られた。

We consider the problem of learning control policies that optimize a reward function while satisfying constraints due to considerations of safety, fairness, or other costs. We propose a new algorithm, Projection-Based Constrained Policy Optimization (PCPO). This is an iterative method for optimizing policies in a two-step process: the first step performs a local reward improvement update, while the second step reconciles any constraint violation by projecting the policy back onto the constraint set. We theoretically analyze PCPO and provide a lower bound on reward improvement, and an upper bound on constraint violation, for each policy update. We further characterize the convergence of PCPO based on two different metrics: $\normltwo$ norm and Kullback-Leibler divergence. Our empirical results over several control tasks demonstrate that PCPO achieves superior performance, averaging more than 3.5 times less constraint violation and around 15\% higher reward compared to state-of-the-art methods.
翻訳日:2022-10-09 22:46:07 公開日:2020-10-07
# 深層強化学習のためのオンライン安全保証

Online Safety Assurance for Deep Reinforcement Learning ( http://arxiv.org/abs/2010.03625v1 )

ライセンス: Link先を確認
Noga H. Rotman, Michael Schapira and Aviv Tamar(参考訳) 近年,様々なネットワーク問題へのディープラーニングの適用が成功している。 基本的な課題は、学習学習型システムの運用環境がトレーニング環境と異なる場合、そのようなシステムはしばしば誤ったインフォームドな判断を行い、パフォーマンスが悪くなることである。 我々は、学習駆動システムの安全なデプロイには、システム動作が一貫性があるかどうかをリアルタイムで判断し、そうでない場合に合理的なヒューリスティックにデフォルトを付ける必要があると論じている。 これをオンライン安全保証問題(OSAP)と呼ぶ。 我々は,不確かさを推定するために使用される信号の観点で異なる決定不確かさを定量化する3つの手法を提案する。 本稿では、ビデオストリーミングにおける深層強化学習(RL)アプローチの文脈におけるオンライン安全保証の有用性について述べる。 ビデオストリーミングのdeep rlは、運用環境とトレーニング環境が一致する場合の他のアプローチよりも優れているが、両者の違いは単純なヒューリスティックスに支配されている。 予備的な知見は,決定の不確実性が検出された場合のデフォルトポリシへの移行が,安全を損なうことなくMLを活用することで得られるパフォーマンス上のメリットを享受する鍵であることを示唆している。

Recently, deep learning has been successfully applied to a variety of networking problems. A fundamental challenge is that when the operational environment for a learning-augmented system differs from its training environment, such systems often make badly informed decisions, leading to bad performance. We argue that safely deploying learning-driven systems requires being able to determine, in real time, whether system behavior is coherent, for the purpose of defaulting to a reasonable heuristic when this is not so. We term this the online safety assurance problem (OSAP). We present three approaches to quantifying decision uncertainty that differ in terms of the signal used to infer uncertainty. We illustrate the usefulness of online safety assurance in the context of the proposed deep reinforcement learning (RL) approach to video streaming. While deep RL for video streaming bests other approaches when the operational and training environments match, it is dominated by simple heuristics when the two differ. Our preliminary findings suggest that transitioning to a default policy when decision uncertainty is detected is key to enjoying the performance benefits afforded by leveraging ML without compromising on safety.
翻訳日:2022-10-09 22:45:36 公開日:2020-10-07
# 文脈帯域のインスタンス依存的複雑度と強化学習:診断に基づく視点

Instance-Dependent Complexity of Contextual Bandits and Reinforcement Learning: A Disagreement-Based Perspective ( http://arxiv.org/abs/2010.03104v1 )

ライセンス: Link先を確認
Dylan J. Foster and Alexander Rakhlin and David Simchi-Levi and Yunzong Xu(参考訳) 古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。 同様の保証は文脈的盗賊には可能か? ポジティブな結果が特定の特別なケースで知られているが、リッチで一般的なポリシーのクラスに対して、コンテキストのバンディットに対するインスタンス依存の後悔の境界がいつどのように達成できるかを特徴付ける一般的な理論は存在しない。 インスタンス依存の後悔境界を得るのに十分かつ必要な複雑性尺度のファミリーを導入する。 次に,可能な限りギャップに適応する新たなoracle効率の高いアルゴリズムを導入すると同時に,最悪の場合のminimax率も実現します。 最後に,従来提案されてきたコンテキスト的帯域幅,強化学習,アクティブラーニングなど,多くの複雑性対策を組み合わせ,最適なインスタンス依存後悔を決定する上での役割を解明する構造的結果を提供する。 大規模な経験的評価では,本手法が探索問題に対して優れた結果をもたらすことがしばしばある。 関数近似による強化学習に重点を移し,ギャップ依存的なサンプル複雑性を得るために,oracle による強化学習のための新しいアルゴリズムを開発した。

In the classical multi-armed bandit problem, instance-dependent algorithms attain improved performance on "easy" problems with a gap between the best and second-best arm. Are similar guarantees possible for contextual bandits? While positive results are known for certain special cases, there is no general theory characterizing when and how instance-dependent regret bounds for contextual bandits can be achieved for rich, general classes of policies. We introduce a family of complexity measures that are both sufficient and necessary to obtain instance-dependent regret bounds. We then introduce new oracle-efficient algorithms which adapt to the gap whenever possible, while also attaining the minimax rate in the worst case. Finally, we provide structural results that tie together a number of complexity measures previously proposed throughout contextual bandits, reinforcement learning, and active learning and elucidate their role in determining the optimal instance-dependent regret. In a large-scale empirical evaluation, we find that our approach often gives superior results for challenging exploration problems. Turning our focus to reinforcement learning with function approximation, we develop new oracle-efficient algorithms for reinforcement learning with rich observations that obtain optimal gap-dependent sample complexity.
翻訳日:2022-10-09 22:45:18 公開日:2020-10-07
# ベイズ距離重み付き識別

Bayesian Distance Weighted Discrimination ( http://arxiv.org/abs/2010.03111v1 )

ライセンス: Link先を確認
Eric F. Lock(参考訳) 距離重み付き識別(DWD)は、高次元データを用いた分類タスクに特に適した線形識別法である。 DWD係数は直観的な目的関数を最小限に抑え、最先端の最適化技術を用いて非常に効率的に解ける。 しかし、dwdはまだ統計推論のモデルベースフレームワークに組み込まれていない。 本稿では,dwdが,クラス確率に対する特定のリンク関数と係数に対する縮小誘導的固有事前分布から生じる,適切なベイズ後方分布のモードを同定することを示す。 我々は,このベイズ的枠組みの下での真の後方からシミュレートする,比較的効率的なマルコフ連鎖モンテカルロ(mcmc)アルゴリズムについて述べる。 後肢が漸近的に正常であることを示し、その限界分布の平均と共分散行列を導出する。 いくつかのシミュレーション研究と乳がんゲノム学への応用を通じて、ベイズによるDWDのアプローチを用いて、(1)よく校正された後続のクラス確率を計算し、(2)DWD係数の不確かさを評価し、結果のサンプルスコア、(3)全てのクラスラベルが利用可能でない場合の半教師付き分析によるパワー向上、(4)モデルベースのフレームワーク内でのペナルティチューニングパラメータの自動決定について示す。 Bayesian DWDを実行するためのRコードはhttps://github.com/lockEF/BayesianDWD で公開されている。

Distance weighted discrimination (DWD) is a linear discrimination method that is particularly well-suited for classification tasks with high-dimensional data. The DWD coefficients minimize an intuitive objective function, which can solved very efficiently using state-of-the-art optimization techniques. However, DWD has not yet been cast into a model-based framework for statistical inference. In this article we show that DWD identifies the mode of a proper Bayesian posterior distribution, that results from a particular link function for the class probabilities and a shrinkage-inducing proper prior distribution on the coefficients. We describe a relatively efficient Markov chain Monte Carlo (MCMC) algorithm to simulate from the true posterior under this Bayesian framework. We show that the posterior is asymptotically normal and derive the mean and covariance matrix of its limiting distribution. Through several simulation studies and an application to breast cancer genomics we demonstrate how the Bayesian approach to DWD can be used to (1) compute well-calibrated posterior class probabilities, (2) assess uncertainty in the DWD coefficients and resulting sample scores, (3) improve power via semi-supervised analysis when not all class labels are available, and (4) automatically determine a penalty tuning parameter within the model-based framework. R code to perform Bayesian DWD is available at https://github.com/lockEF/BayesianDWD .
翻訳日:2022-10-09 22:44:58 公開日:2020-10-07
# ベイズニューラルネットワークを用いた物理モデルの構築

Ensembling geophysical models with Bayesian Neural Networks ( http://arxiv.org/abs/2010.03561v1 )

ライセンス: Link先を確認
Ushnish Sengupta, Matt Amos, J. Scott Hosking, Carl Edward Rasmussen, Matthew Juniper, Paul J. Young(参考訳) 物理モデルの集合は投影精度を改善し、不確実性を表現する。 我々はベイジアンニューラルネットワークを用いて物理モデルを組み合わせるための新しいデータ駆動型アンサンブル戦略を開発し,観測における不確定性を考慮した時空間的に異なるモデル重みとバイアスを推定する。 これにより、解釈性を犠牲にすることなく、より正確で不確実性のある射影を生成する。 15の化学気候モデルのアンサンブルからの全カラムオゾンを予測した結果、ベイズ型ニューラルネットワークアンサンブル (baynne) は、時間外挿では rmse を49.4% 削減し、重み付け平均と比較して極性データ空隙では rmse を67.4% 削減した。 不確実性はよく特徴付けられており、外挿検証データセットのデータポイントの90.6%は標準偏差2つ、98.5%は標準偏差3つ以内である。

Ensembles of geophysical models improve projection accuracy and express uncertainties. We develop a novel data-driven ensembling strategy for combining geophysical models using Bayesian Neural Networks, which infers spatiotemporally varying model weights and bias while accounting for heteroscedastic uncertainties in the observations. This produces more accurate and uncertainty-aware projections without sacrificing interpretability. Applied to the prediction of total column ozone from an ensemble of 15 chemistry-climate models, we find that the Bayesian neural network ensemble (BayNNE) outperforms existing ensembling methods, achieving a 49.4% reduction in RMSE for temporal extrapolation, and a 67.4% reduction in RMSE for polar data voids, compared to a weighted mean. Uncertainty is also well-characterized, with 90.6% of the data points in our extrapolation validation dataset lying within 2 standard deviations and 98.5% within 3 standard deviations.
翻訳日:2022-10-09 22:43:59 公開日:2020-10-07
# ヒト耳再建オートエンコーダ

A Human Ear Reconstruction Autoencoder ( http://arxiv.org/abs/2010.03972v1 )

ライセンス: Link先を確認
Hao Sun, Nick Pears and Hang Dai(参考訳) 人間の頭部の重要な部分である耳は、コンピュータビジョンの領域における人間の顔に比べて、はるかに少ない注意を払っている。 自己教師付き学習を実現するためのオートエンコーダ構造を用いた単眼的3d顔再構成に関するこれまでの研究に触発されて,2d耳入力画像にさらに微妙で難解な曲線や特徴が存在する3d耳再構築課題に取り組むための枠組みを活用しようとする。 我々のHuman Ear Reconstruction Autoencoder(HERA)システムは、これらのパラメータを監督することなく、3次元耳メッシュの3次元耳ポーズと形状パラメータを予測する。 そこで本研究では,線内画像,グレースケール画像のばらつきを補うために,線内耳色モデルを提案する。 構築されたエンド・ツー・エンドの自己監督モデルは、2次元ランドマークのローカライズ性能と再構成された3d耳の外観の両方で評価される。

The ear, as an important part of the human head, has received much less attention compared to the human face in the area of computer vision. Inspired by previous work on monocular 3D face reconstruction using an autoencoder structure to achieve self-supervised learning, we aim to utilise such a framework to tackle the 3D ear reconstruction task, where more subtle and difficult curves and features are present on the 2D ear input images. Our Human Ear Reconstruction Autoencoder (HERA) system predicts 3D ear poses and shape parameters for 3D ear meshes, without any supervision to these parameters. To make our approach cover the variance for in-the-wild images, even grayscale images, we propose an in-the-wild ear colour model. The constructed end-to-end self-supervised model is then evaluated both with 2D landmark localisation performance and the appearance of the reconstructed 3D ears.
翻訳日:2022-10-09 22:38:00 公開日:2020-10-07
# ドメイン適応の簡単なレビュー

A Brief Review of Domain Adaptation ( http://arxiv.org/abs/2010.03978v1 )

ライセンス: Link先を確認
Abolfazl Farahani, Sahar Voghoei, Khaled Rasheed, Hamid R. Arabnia(参考訳) 古典的な機械学習は、トレーニングとテストセットは同じ分布から来ていると仮定する。 したがって,ラベル付きトレーニングデータから学習したモデルは,テストデータに対して良好に動作することが期待される。 しかし、この仮定は、例えば異なるソースからトレーニングとテストセットを収集したり、データの変化によって時代遅れになったトレーニングセットを持つなど、トレーニングとテストデータが異なる分布から落ちる現実世界のアプリケーションでは必ずしも成り立たない。 この場合、ドメインのディストリビューション間で不一致が生じ、新しいデータセットにトレーニングされたモデルを適用するとパフォーマンスが低下する可能性がある。 ドメイン適応は機械学習のサブフィールドであり、訓練されたモデルが関心領域に一般化できるようなドメイン間の格差を整合させることによって、この種の問題に対処することを目的としている。 本稿では,ラベルがソースドメイン内でのみ使用可能な,教師なしドメイン適応に着目した。 それは異なる視点からドメイン適応の分類に対処する。 さらに、ドメイン適応問題への対処を目的とした浅層および深層ドメイン適応アプローチが成功している。

Classical machine learning assumes that the training and test sets come from the same distributions. Therefore, a model learned from the labeled training data is expected to perform well on the test data. However, This assumption may not always hold in real-world applications where the training and the test data fall from different distributions, due to many factors, e.g., collecting the training and test sets from different sources, or having an out-dated training set due to the change of data over time. In this case, there would be a discrepancy across domain distributions, and naively applying the trained model on the new dataset may cause degradation in the performance. Domain adaptation is a sub-field within machine learning that aims to cope with these types of problems by aligning the disparity between domains such that the trained model can be generalized into the domain of interest. This paper focuses on unsupervised domain adaptation, where the labels are only available in the source domain. It addresses the categorization of domain adaptation from different viewpoints. Besides, It presents some successful shallow and deep domain adaptation approaches that aim to deal with domain adaptation problems.
翻訳日:2022-10-09 22:37:42 公開日:2020-10-07
# 生成条件付き逆流ネットワークによる点雲の表現

Representing Point Clouds with Generative Conditional Invertible Flow Networks ( http://arxiv.org/abs/2010.11087v1 )

ライセンス: Link先を確認
Micha{\l} Stypu{\l}kowski, Kacper Kania, Maciej Zamorski, Maciej Zi\k{e}ba, Tomasz Trzci\'nski, Jan Chorowski(参考訳) 本稿では,点群を雲固有確率分布から抽出したサンプル集合として表現する,単純かつ効果的な手法を提案する。 この解釈は、点雲の固有の性質と一致し、全ての点が対象の境界付近から引き出されるので、点の数とその雲内の順序は重要ではない。 生成ニューラルネットワークによって定義されるパラメータ化確率分布として,各雲を表現することを仮定する。 トレーニングが完了すると、そのようなモデルは、新しいクラウドをデフォルトの空間指向に合わせるような、ポイントクラウド操作操作のための自然なフレームワークを提供する。 同じ種類のオブジェクト間の類似性を生かし、モデル性能を向上させるために、重み共有に目を向ける:同じファミリーに属するオブジェクトに属するポイントの密度をモデル化するネットワークは、小さなオブジェクト固有の埋め込みベクトルを除いて、すべてのパラメータを共有する。 これらの埋め込みベクトルはオブジェクト間の意味的関係をキャプチャする。 提案手法は, 生成的非可逆流網を利用して埋め込みを学習し, 点雲を生成する。 この定式化と類似のアプローチとは対照的に、エンドツーエンドでモデルをトレーニングすることが可能です。 その結果,本モデルでは,ベンチマークデータセットの競合的あるいは優れた定量的結果を提供すると同時に,ポイントクラウド登録や再生といったクラウド操作タスクを生成ネットワークで実行可能にする。

In this paper, we propose a simple yet effective method to represent point clouds as sets of samples drawn from a cloud-specific probability distribution. This interpretation matches intrinsic characteristics of point clouds: the number of points and their ordering within a cloud is not important as all points are drawn from the proximity of the object boundary. We postulate to represent each cloud as a parameterized probability distribution defined by a generative neural network. Once trained, such a model provides a natural framework for point cloud manipulation operations, such as aligning a new cloud into a default spatial orientation. To exploit similarities between same-class objects and to improve model performance, we turn to weight sharing: networks that model densities of points belonging to objects in the same family share all parameters with the exception of a small, object-specific embedding vector. We show that these embedding vectors capture semantic relationships between objects. Our method leverages generative invertible flow networks to learn embeddings as well as to generate point clouds. Thanks to this formulation and contrary to similar approaches, we are able to train our model in an end-to-end fashion. As a result, our model offers competitive or superior quantitative results on benchmark datasets, while enabling unprecedented capabilities to perform cloud manipulation tasks, such as point cloud registration and regeneration, by a generative network.
翻訳日:2022-10-09 22:37:23 公開日:2020-10-07
# 私たちはWERであり、WERである。

WER we are and WER we think we are ( http://arxiv.org/abs/2010.03432v1 )

ライセンス: Link先を確認
Piotr Szyma\'nski, Piotr \.Zelasko, Mikolaj Morzy, Adrian Szymczak, Marzena \.Zy{\l}a-Hoppe, Joanna Banaszczak, Lukasz Augustyniak, Jan Mizgajski and Yishay Carmiel(参考訳) 会話音声の自然言語処理には高品質な書き起こしが必要である。 本稿では、ベンチマークデータセット上での最新の自動音声認識(ASR)システムによって達成された非常に低い単語誤り率(WER)に関する最近の報告に対する懐疑的な見解を示す。 我々は、一般的なベンチマークにおけるいくつかの問題を概説し、3つの最先端の商用ASRシステムと実生活における自然会話の内部データセットとHUB'05公開ベンチマークを比較した。 結果より,werは有意に高い値を示した。 我々は、堅牢なASRシステムのトレーニングとテストのための高品質なアノテーションを備えた実生活のマルチドメインデータセットの作成を支援する一連のガイドラインを定式化する。

Natural language processing of conversational speech requires the availability of high-quality transcripts. In this paper, we express our skepticism towards the recent reports of very low Word Error Rates (WERs) achieved by modern Automatic Speech Recognition (ASR) systems on benchmark datasets. We outline several problems with popular benchmarks and compare three state-of-the-art commercial ASR systems on an internal dataset of real-life spontaneous human conversations and HUB'05 public benchmark. We show that WERs are significantly higher than the best reported results. We formulate a set of guidelines which may aid in the creation of real-life, multi-domain datasets with high quality annotations for training and testing of robust ASR systems.
翻訳日:2022-10-09 22:36:42 公開日:2020-10-07
# 新型コロナウイルスパンデミックにおけるセマンティックインデクシングの自己指導的アプローチ

A Self-supervised Approach for Semantic Indexing in the Context of COVID-19 Pandemic ( http://arxiv.org/abs/2010.03544v1 )

ライセンス: Link先を確認
Nima Ebadi, Peyman Najafirad(参考訳) 新型コロナウイルス(COVID-19)の科学論文が公表されるペースは加速している。 加えて、専門家がこれらの論文にセマンティックインデックスを手動で割り当てるプロセスは、現在の健康危機においてさらに時間がかかり、圧倒的です。 そのため、新たに導入された概念や、ハイパーフォーカス関連文献の急激な分布を効果的にスケールアップできる自動セマンティックインデックスモデルが必要である。 本研究では,パンデミックの危機にのみ適応したトランスフォーマーエンコーディングと,最先端の自己教師型表現学習に基づくセマンティックインデクシング手法を提案する。 本稿では, PubMed で手動でインデックスされた COVID-19 論文に基づく新しいデータセットのケーススタディを提案する。 本研究は,bioasqタスク8aにおいて,マイクロf1スコアが0.1,lca-fスコアが0.08で,自己教師付きモデルが最高のパフォーマンスモデルを上回ることを示した。 また,本モデルは,パンデミックに関連する特定の概念へと文学の焦点が大幅に移行した際に極めて重要である補足概念の検出において優れた性能を示す。 本研究は,パンデミックにおける意味的索引付けモデル,すなわち新しいドメインや分布の劇的な変化に直面する主な課題に光を当て,その代替として,様々なNLPタスクにおける一般化とデータ効率の向上に顕著なパフォーマンスを示すアプローチに基づくモデルを提案する。 また,MeSH (Major Subject Headings) と補足的概念の併用による総合的パフォーマンスの向上も示す。

The pandemic has accelerated the pace at which COVID-19 scientific papers are published. In addition, the process of manually assigning semantic indexes to these papers by experts is even more time-consuming and overwhelming in the current health crisis. Therefore, there is an urgent need for automatic semantic indexing models which can effectively scale-up to newly introduced concepts and rapidly evolving distributions of the hyperfocused related literature. In this research, we present a novel semantic indexing approach based on the state-of-the-art self-supervised representation learning and transformer encoding exclusively suitable for pandemic crises. We present a case study on a novel dataset that is based on COVID-19 papers published and manually indexed in PubMed. Our study shows that our self-supervised model outperforms the best performing models of BioASQ Task 8a by micro-F1 score of 0.1 and LCA-F score of 0.08 on average. Our model also shows superior performance on detecting the supplementary concepts which is quite important when the focus of the literature has drastically shifted towards specific concepts related to the pandemic. Our study sheds light on the main challenges confronting semantic indexing models during a pandemic, namely new domains and drastic changes of their distributions, and as a superior alternative for such situations, propose a model founded on approaches which have shown auspicious performance in improving generalization and data efficiency in various NLP tasks. We also show the joint indexing of major Medical Subject Headings (MeSH) and supplementary concepts improves the overall performance.
翻訳日:2022-10-09 22:36:33 公開日:2020-10-07
# ドメインadversarial neural network for dysarthric speech recognition (特集 ニューラルネット)

Domain Adversarial Neural Networks for Dysarthric Speech Recognition ( http://arxiv.org/abs/2010.03623v1 )

ライセンス: Link先を確認
Dominika Woszczyk, Stavros Petridis, David Millard(参考訳) 音声認識システムはここ数年で劇的に改善されているが、アクセントや障害のある音声では性能が著しく低下している。 本研究は、変形性音声のUASデータセット上での話者非依存音声認識のためのドメイン対向ニューラルネットワーク(DANN)について検討する。 10個の音声桁の分類タスクは、音声を入力とするエンドツーエンドcnnを用いて行う。 その結果,話者適応型(SA)モデル,話者依存型(SD)モデル,マルチタスク学習モデル(MTL)モデルと比較した。 本研究では,DANNが絶対認識率74.91%に達し,ベースラインを12.18%上回る結果を得た。 さらに、DANNモデルはSAモデルの認識率77.65%と同等の結果を得る。 また, ラベル付き音声データが利用可能である場合には, DANN と MTL も同様に機能するが, DANN が MTL より優れている場合も観察する。

Speech recognition systems have improved dramatically over the last few years, however, their performance is significantly degraded for the cases of accented or impaired speech. This work explores domain adversarial neural networks (DANN) for speaker-independent speech recognition on the UAS dataset of dysarthric speech. The classification task on 10 spoken digits is performed using an end-to-end CNN taking raw audio as input. The results are compared to a speaker-adaptive (SA) model as well as speaker-dependent (SD) and multi-task learning models (MTL). The experiments conducted in this paper show that DANN achieves an absolute recognition rate of 74.91% and outperforms the baseline by 12.18%. Additionally, the DANN model achieves comparable results to the SA model's recognition rate of 77.65%. We also observe that when labelled dysarthric speech data is available DANN and MTL perform similarly, but when they are not DANN performs better than MTL.
翻訳日:2022-10-09 22:36:05 公開日:2020-10-07
# 条件付き生成型逆向ネットワークを用いた遠隔手術における遅延の影響の軽減

Using Conditional Generative Adversarial Networks to Reduce the Effects of Latency in Robotic Telesurgery ( http://arxiv.org/abs/2010.11704v1 )

ライセンス: Link先を確認
Neil Sachdeva, Misha Klopukh, Rachel St. Clair, William Hahn(参考訳) 外科手術ロボットの導入は外科手術の進歩をもたらした。 遠隔遠隔手術の応用は、未使用地域の医療クリニックの構築から、アクセシビリティや医療体験の多様性が制限される軍事ホットスポットへのロボットの海外設置まで多岐にわたる。 ワイヤレス接続の貧弱さは、外科医の入力とロボットが行う行動の間に遅延と呼ばれる長時間の遅延を引き起こす可能性がある。 手術では、どんなマイクロ遅延でも重傷を負い、場合によっては死亡する。 1つは、深層学習支援コンピュータビジョンを用いたレイテンシの影響を軽減することであった。 現在の手術ロボットは、腕と道具の位置を測定するために校正されたセンサーを使用しているが、本研究では、患者の組織に関するツールの位置を測定する純粋に光学的なアプローチを提案する。 この研究の目的は、ロボットが自身の機械マニピュレータアームを検出できるニューラルネットワークを作ることである。 2015年のEndoVis Instrument Challengeとそれに対応する手書きラベルから,1107フレームの模擬消化管手術データを用いて,条件付き生成対向ネットワーク(cGAN)を訓練した。 新しいテストデータを実行すると、ネットワークは手書きのラベルと視覚的に一致する入力画像のほぼ完全なラベルを生成し、299ミリ秒でこれを行うことができた。 これらの正確なラベルは、ロボットが自身のコントロールツールを追跡するための簡易な識別子として使用できる。 これらの結果は、ロボットが患者の手術領域の外に腕が移動したことを検知する反応機構としての条件付きGANの可能性を示している。 このシステムにより、患者の組織に関する手術器具の位置のより正確な監視が可能になり、遠隔手術システムの成功に不可欠な安全対策が向上する。

The introduction of surgical robots brought about advancements in surgical procedures. The applications of remote telesurgery range from building medical clinics in underprivileged areas, to placing robots abroad in military hot-spots where accessibility and diversity of medical experience may be limited. Poor wireless connectivity may result in a prolonged delay, referred to as latency, between a surgeon's input and action a robot takes. In surgery, any micro-delay can injure a patient severely and in some cases, result in fatality. One was to increase safety is to mitigate the effects of latency using deep learning aided computer vision. While the current surgical robots use calibrated sensors to measure the position of the arms and tools, in this work we present a purely optical approach that provides a measurement of the tool position in relation to the patient's tissues. This research aimed to produce a neural network that allowed a robot to detect its own mechanical manipulator arms. A conditional generative adversarial networks (cGAN) was trained on 1107 frames of mock gastrointestinal robotic surgery data from the 2015 EndoVis Instrument Challenge and corresponding hand-drawn labels for each frame. When run on new testing data, the network generated near-perfect labels of the input images which were visually consistent with the hand-drawn labels and was able to do this in 299 milliseconds. These accurately generated labels can then be used as simplified identifiers for the robot to track its own controlled tools. These results show potential for conditional GANs as a reaction mechanism such that the robot can detect when its arms move outside the operating area within a patient. This system allows for more accurate monitoring of the position of surgical instruments in relation to the patient's tissue, increasing safety measures that are integral to successful telesurgery systems.
翻訳日:2022-10-09 22:35:47 公開日:2020-10-07
# 時空間学習のためのスパイキングニューラルネットワークにおける有限メタダイナミックニューロン

Finite Meta-Dynamic Neurons in Spiking Neural Networks for Spatio-temporal Learning ( http://arxiv.org/abs/2010.03140v1 )

ライセンス: Link先を確認
Xiang Cheng and Tielin Zhang and Shuncheng Jia and Bo Xu(参考訳) スパイキングニューラルネットワーク(SNN)は、より生物学的に証明可能な構造と学習原則を取り入れているため、人工ニューラルネットワークと自然ニューラルネットワークのギャップを埋める上で重要な役割を担っている。 スパイクは、上述のthresholdイベントベースの発火と、膜電位の動的計算を記述したスパース信号であり、情報表現と計算の両方において、より均一で効率的な方法を与える。 生体ネットワークからインスピレーションを得て,様々な認知機能のために,限られた数のメタニューロンが統合されたメタダイナミックニューロン(MDN)を提案し,時空間学習時のネットワーク一般化を改善するために構築した。 MDNは、いくつかのハイパーパラメータによって支えられる空間的および時間的メタタイプを含む膜電位の1次および2次ダイナミクスを含む基本的な神経力学で設計されている。 MDNはまず空間的(MNIST)と時間的(TIDigits)データセットから生成され、その後、Fashion-MNIST、Nettalk、Cifar-10、TIMIT、N-MNISTを含む様々な時空間タスクに拡張された。 他のSOTA SNNアルゴリズムと同等の精度に到達し、MDNを使わずにMDNを使用するSNNでもより優れた一般化が達成された。

Spiking Neural Networks (SNNs) have incorporated more biologically-plausible structures and learning principles, hence are playing critical roles in bridging the gap between artificial and natural neural networks. The spikes are the sparse signals describing the above-threshold event-based firing and under-threshold dynamic computation of membrane potentials, which give us an alternative uniformed and efficient way on both information representation and computation. Inspired from the biological network, where a finite number of meta neurons integrated together for various of cognitive functions, we proposed and constructed Meta-Dynamic Neurons (MDN) to improve SNNs for a better network generalization during spatio-temporal learning. The MDNs are designed with basic neuronal dynamics containing 1st-order and 2nd-order dynamics of membrane potentials, including the spatial and temporal meta types supported by some hyper-parameters. The MDNs generated from a spatial (MNIST) and a temporal (TIDigits) datasets first, and then extended to various other different spatio-temporal tasks (including Fashion-MNIST, NETtalk, Cifar-10, TIMIT and N-MNIST). The comparable accuracy was reached compared to other SOTA SNN algorithms, and a better generalization was also achieved by SNNs using MDNs than that without using MDNs.
翻訳日:2022-10-09 22:35:17 公開日:2020-10-07
# 病理画像の計算解析によるマイクロサテライト不安定性の予測

Computational analysis of pathological image enables interpretable prediction for microsatellite instability ( http://arxiv.org/abs/2010.03130v1 )

ライセンス: Link先を確認
Jin Zhu, Wangwei Wu, Yuting Zhang, Shiyun Lin, Yukang Jiang, Ruixian Liu, Xueqin Wang(参考訳) マイクロサテライト不安定症 (MSI) はいくつかの腫瘍タイプに関連付けられ, 患者治療決定の導出においてその地位はますます重要になっている。 しかし,msiの診断には遺伝子検査や免疫組織化学的検査が必要であるため,msiとmsiの鑑別は困難である。 本研究は,医療専門家が自動的にMSIを識別するのを支援するために,病的画像解析戦略を確立するものである。 この戦略はユビキタス・ヘマトキシリンとエオシンで維持された全スライド画像のみを必要とし、がんゲノムアトラスから収集された3つのコホートにおいて良好な性能を達成することができる。 戦略は2つの側面で解釈可能である。 一方、深層学習ネットワークに基づいて重要領域の局所的熱マップを生成することにより、画像レベルの解釈可能性を達成し、一方、特徴量および病理学的特徴間相互作用解析により特徴レベルの解釈性を達成する。 さらに興味深いのは、画像レベルと特徴レベルの両方の解釈性から、色の特徴とテクスチャ特性がMSI予測に最も寄与していることである。 したがって,提案手法に基づく分類モデルは,患者のmsi状態を予測するための効率的なツールとして機能するだけでなく,臨床理解を持つ病理学者にさらなる洞察を与えることができる。

Microsatellite instability (MSI) is associated with several tumor types and its status has become increasingly vital in guiding patient treatment decisions. However, in clinical practice, distinguishing MSI from its counterpart is challenging since the diagnosis of MSI requires additional genetic or immunohistochemical tests. In this study, interpretable pathological image analysis strategies are established to help medical experts to automatically identify MSI. The strategies only require ubiquitous Haematoxylin and eosin-stained whole-slide images and can achieve decent performance in the three cohorts collected from The Cancer Genome Atlas. The strategies provide interpretability in two aspects. On the one hand, the image-level interpretability is achieved by generating localization heat maps of important regions based on the deep learning network; on the other hand, the feature-level interpretability is attained through feature importance and pathological feature interaction analysis. More interestingly, both from the image-level and feature-level interpretability, color features and texture characteristics are shown to contribute the most to the MSI predictions. Therefore, the classification models under the proposed strategies can not only serve as an efficient tool for predicting the MSI status of patients, but also provide more insights to pathologists with clinical understanding.
翻訳日:2022-10-09 22:28:12 公開日:2020-10-07
# 有限MDPにおけるエピソード強化学習:ミニマックス下界の再検討

Episodic Reinforcement Learning in Finite MDPs: Minimax Lower Bounds Revisited ( http://arxiv.org/abs/2010.03531v1 )

ライセンス: Link先を確認
Omar Darwiche Domingues, Pierre M\'enard, Emilie Kaufmann, Michal Valko(参考訳) 本稿では,エピソジックmdpにおけるサンプルの複雑性と後悔に関する新たな問題非依存下限を提案し,トランジッション・カーネルがエピソードの各段階で変化することを許容する非定常ケースに着目した。 我々の主な貢献は、非定常MDPにおける最良のポリシー識別のための$(\varepsilon,\delta)$-PACアルゴリズムのサンプル複雑性に基づいて、$\Omega((H^3SA/\epsilon^2)\log(1/\delta))の新規な下限である。 この下限は、それまで文献で使われていたものとは異なる「ハードMDP」の構築に依存している。 この同じ種類の MDP を用いて、非定常 MDP に対する $\Omega(\sqrt{H^3SAT})$ regret bound の厳密な証明も提供する。 最後に、PAC-MDP下界との接続について議論する。

In this paper, we propose new problem-independent lower bounds on the sample complexity and regret in episodic MDPs, with a particular focus on the non-stationary case in which the transition kernel is allowed to change in each stage of the episode. Our main contribution is a novel lower bound of $\Omega((H^3SA/\epsilon^2)\log(1/\delta))$ on the sample complexity of an $(\varepsilon,\delta)$-PAC algorithm for best policy identification in a non-stationary MDP. This lower bound relies on a construction of "hard MDPs" which is different from the ones previously used in the literature. Using this same class of MDPs, we also provide a rigorous proof of the $\Omega(\sqrt{H^3SAT})$ regret bound for non-stationary MDPs. Finally, we discuss connections to PAC-MDP lower bounds.
翻訳日:2022-10-09 22:27:16 公開日:2020-10-07
# 映像歩行者検索のためのチャンネルリカレントアテンションネットワーク

Channel Recurrent Attention Networks for Video Pedestrian Retrieval ( http://arxiv.org/abs/2010.03108v1 )

ライセンス: Link先を確認
Pengfei Fang, Pan Ji, Jieming Zhou, Lars Petersson, Mehrtash Harandi(参考訳) 入力特徴マップの要素ごとに注意値を生成するフルアテンションは、視覚タスクにおいて有益であることが証明されている。 本研究では,ビデオ歩行者検索の課題に対して,完全注意ネットワークである「チャンネル再帰注意ネットワーク」を提案する。 メインアテンションユニットである \textit{ channel recurrent attention} は、リカレントニューラルネットワークを介して空間パターンとチャネルパターンを併用することにより、フレームレベルでのアテンションマップを特定する。 このチャネルリカレントアテンションは、空間ベクトルを繰り返し受信して学習することにより、グローバルな受容場を構築するように設計されている。 次に、コンパクトビデオ表現を生成するために \textit{set aggregation} セルを用いる。 実験実験により, 提案するディープネットワークの性能が向上し, 標準ビデオパーソン検索ベンチマークにおける最新結果を上回り, 提案ユニットの有効性を徹底的に検証した。

Full attention, which generates an attention value per element of the input feature maps, has been successfully demonstrated to be beneficial in visual tasks. In this work, we propose a fully attentional network, termed {\it channel recurrent attention network}, for the task of video pedestrian retrieval. The main attention unit, \textit{channel recurrent attention}, identifies attention maps at the frame level by jointly leveraging spatial and channel patterns via a recurrent neural network. This channel recurrent attention is designed to build a global receptive field by recurrently receiving and learning the spatial vectors. Then, a \textit{set aggregation} cell is employed to generate a compact video representation. Empirical experimental results demonstrate the superior performance of the proposed deep network, outperforming current state-of-the-art results across standard video person retrieval benchmarks, and a thorough ablation study shows the effectiveness of the proposed units.
翻訳日:2022-10-09 22:26:43 公開日:2020-10-07
# 画像分類と検索のためのバイナリセマンティック埋め込みの学習

Learning Binary Semantic Embedding for Histology Image Classification and Retrieval ( http://arxiv.org/abs/2010.03266v1 )

ライセンス: Link先を確認
Xiao Kang, Xingbo Liu, Xiushan Nie, Yilong Yin(参考訳) 医用画像技術と機械学習の開発により、病理学者への印象的な参考となるコンピュータ支援診断が幅広い研究の関心を集めている。 医学画像の指数的成長と従来の分類モデルの非解釈性は、コンピュータ支援診断の適用を妨げている。 これらの課題に対処するため、我々はLBSE(Learning Binary Semantic Embedding)の新たな手法を提案する。 効率的かつ効果的な埋め込みに基づき、分類および検索を行い、組織像の解釈可能なコンピュータ支援診断を提供する。 さらに、二元埋め込み学習法において、二重監督、ビット不相関、バランス制約、非対称戦略、離散最適化をシームレスに統合する。 3つのベンチマークデータセットで実施した実験は、様々なシナリオでlbseの優位性を検証する。

With the development of medical imaging technology and machine learning, computer-assisted diagnosis which can provide impressive reference to pathologists, attracts extensive research interests. The exponential growth of medical images and uninterpretability of traditional classification models have hindered the applications of computer-assisted diagnosis. To address these issues, we propose a novel method for Learning Binary Semantic Embedding (LBSE). Based on the efficient and effective embedding, classification and retrieval are performed to provide interpretable computer-assisted diagnosis for histology images. Furthermore, double supervision, bit uncorrelation and balance constraint, asymmetric strategy and discrete optimization are seamlessly integrated in the proposed method for learning binary embedding. Experiments conducted on three benchmark datasets validate the superiority of LBSE under various scenarios.
翻訳日:2022-10-09 22:19:32 公開日:2020-10-07
# テキスト情報と視覚情報を用いたデジタルリーフレットにおけるプロモーションのマルチラベル分類

Multi-label classification of promotions in digital leaflets using textual and visual information ( http://arxiv.org/abs/2010.03331v1 )

ライセンス: Link先を確認
Roberto Arroyo, David Jim\'enez-Cabello and Javier Mart\'inez-Cebri\'an(参考訳) eコマースプラットフォームの製品説明には、小売業者の仕分けに関する詳細かつ貴重な情報が含まれている。 特に、デジタルリーフレット内でのコーディングプロモーションは、さまざまな製品の定期的なプロモーションを示すことで、消費者の注意を惹きつけるため、電子商取引に大きな関心を寄せている。 しかし、この情報は画像に埋め込まれており、下流タスクの抽出と処理が困難である。 本稿では,視覚情報とテキスト情報の両方を用いて,デジタルリーフレット内のプロモーションを対応する製品カテゴリに分類するエンドツーエンドアプローチを提案する。 我々のアプローチは3つの重要な構成要素に分けられる。 1)領域検出 2)テキスト認識及び 3)テキスト分類。 多くの場合、1つのプロモーションは複数の製品カテゴリを指すので、分類ヘッドに複数ラベルの目的を導入する。 2つのタスクに対するアプローチの有効性を実証する。 1)個別プロモーション毎の記述のイメージベースによる検出 2)製品記述からのテキストを用いた製品カテゴリのマルチラベル分類。 我々は、nielsenが取得したデジタルリーフレットの画像からなるプライベートデータセットを用いて、モデルをトレーニングし、評価する。 その結果,全ての実験において,提案したベースラインを大きなマージンで常に上回る結果が得られた。

Product descriptions in e-commerce platforms contain detailed and valuable information about retailers assortment. In particular, coding promotions within digital leaflets are of great interest in e-commerce as they capture the attention of consumers by showing regular promotions for different products. However, this information is embedded into images, making it difficult to extract and process for downstream tasks. In this paper, we present an end-to-end approach that classifies promotions within digital leaflets into their corresponding product categories using both visual and textual information. Our approach can be divided into three key components: 1) region detection, 2) text recognition and 3) text classification. In many cases, a single promotion refers to multiple product categories, so we introduce a multi-label objective in the classification head. We demonstrate the effectiveness of our approach for two separated tasks: 1) image-based detection of the descriptions for each individual promotion and 2) multi-label classification of the product categories using the text from the product descriptions. We train and evaluate our models using a private dataset composed of images from digital leaflets obtained by Nielsen. Results show that we consistently outperform the proposed baseline by a large margin in all the experiments.
翻訳日:2022-10-09 22:19:20 公開日:2020-10-07
# 判別モデルによる生成型adversarial networkの評価について

On the Evaluation of Generative Adversarial Networks By Discriminative Models ( http://arxiv.org/abs/2010.03549v1 )

ライセンス: Link先を確認
Amirsina Torfi, Mohammadreza Beyki, Edward A. Fox(参考訳) GAN(Generative Adversarial Networks)は、複雑な多次元データを正確にモデル化し、現実的なサンプルを生成する。 しかし,データ分布を暗黙的に推定するため,その評価は難しい課題である。 この問題に取り組む研究活動の大部分は、定性的な視覚的評価によって検証された。 このようなアプローチは、画像領域を超えてあまり一般化しない。 これらの評価指標の多くは視覚領域に限定して提案されているため、他の領域に適用することは困難である。 異なるGANモデルのトレーニングと比較をガイドするためには、定量的な測定が必要である。 本研究では,シアムニューラルネットを用いて,(1)人間の評価と整合した質的評価,(2)モード降下や発明といった一般的なgan問題に対する頑健,(3)事前学習された分類器を必要としないこと,という,ドメインに依存しない評価基準を提案する。 本稿では,本手法が人気のあるインセプションスコアに比べて優れていることを示し,fidスコアと競合することを示す。

Generative Adversarial Networks (GANs) can accurately model complex multi-dimensional data and generate realistic samples. However, due to their implicit estimation of data distributions, their evaluation is a challenging task. The majority of research efforts associated with tackling this issue were validated by qualitative visual evaluation. Such approaches do not generalize well beyond the image domain. Since many of those evaluation metrics are proposed and bound to the vision domain, they are difficult to apply to other domains. Quantitative measures are necessary to better guide the training and comparison of different GANs models. In this work, we leverage Siamese neural networks to propose a domain-agnostic evaluation metric: (1) with a qualitative evaluation that is consistent with human evaluation, (2) that is robust relative to common GAN issues such as mode dropping and invention, and (3) does not require any pretrained classifier. The empirical results in this paper demonstrate the superiority of this method compared to the popular Inception Score and are competitive with the FID score.
翻訳日:2022-10-09 22:19:02 公開日:2020-10-07
# Kartta Labs: 共同タイムトラベル

Kartta Labs: Collaborative Time Travel ( http://arxiv.org/abs/2010.06536v1 )

ライセンス: Link先を確認
Sasan Tavakkol, Feng Han, Brandon Mayer, Mark Phillips, Cyrus Shahabi, Yao-Yi Chiang and Raimondas Kiveris(参考訳) 歴史的地図や写真から都市を仮想的に再構築するための,オープンソースでオープンデータ,スケーラブルなシステムであるkartta labsのモジュール化と拡張性について紹介する。 kartta labsはクラウドソーシングと、地図と3dモデルという2つの主要なモジュールで構成される人工知能に依存している。 それぞれのモジュールはサブモジュールで構成され、歴史地図や写真から都市を再構築することができる。 その結果、研究、教育、娯楽目的で様々な収集されたデータ(キュレーション、センシング、クラウドソース)を統合するのに使用できる時空間参照となる。 このシステムは、ユーザーが協力して過去を再構築し、オープンソースでオープンなデータプラットフォームで体験できるように、協力的なタイムトラベルを体験できるようにする。

We introduce the modular and scalable design of Kartta Labs, an open source, open data, and scalable system for virtually reconstructing cities from historical maps and photos. Kartta Labs relies on crowdsourcing and artificial intelligence consisting of two major modules: Maps and 3D models. Each module, in turn, consists of sub-modules that enable the system to reconstruct a city from historical maps and photos. The result is a spatiotemporal reference that can be used to integrate various collected data (curated, sensed, or crowdsourced) for research, education, and entertainment purposes. The system empowers the users to experience collaborative time travel such that they work together to reconstruct the past and experience it on an open source and open data platform.
翻訳日:2022-10-09 22:18:47 公開日:2020-10-07
# 糖尿病網膜症分類のための最先端ディープラーニングアルゴリズムの変換と実装

Conversion and Implementation of State-of-the-Art Deep Learning Algorithms for the Classification of Diabetic Retinopathy ( http://arxiv.org/abs/2010.11692v1 )

ライセンス: Link先を確認
Mihir Rao, Michelle Zhu, Tianyang Wang(参考訳) 糖尿病網膜症 (DR) は糖尿病患者に発症する網膜微小血管疾患である。 2030年には全世界で1億9100万人の患者が診断されると予想されている。 微小動脈瘤、出血、排出物、綿毛の斑点は、DRの一般的な兆候である。しかし、人間の目が検出するのは小さくて難しい。 DRの早期検出は効果的な臨床治療に不可欠である。 既存の画像分類法では特徴抽出と選択に多くの時間が必要であり、性能に制限がある。 進化型ディープラーニング(DL)手法である畳み込みニューラルネットワーク(CNN)は,画像分類タスクにおいてその可能性を証明している。 本稿では、DRの検出と分類のための最先端CNNの実装に関する総合的な実験を行い、タスクの最高性能分類器を決定する。 Inception-V3, VGG19, VGG16, ResNet50, InceptionResNetV2の5つのCNN分類器を実験により評価した。 医学画像はDR重度に基づいて5つのクラスに分類される。 注釈付医用画像が制限され、不均衡であるため、データ拡張および転送学習技術が適用される。 実験結果から、ResNet50分類器はバイナリ分類で最高性能を示し、InceptionResNetV2分類器はマルチクラスDR分類で最高性能を示した。

Diabetic retinopathy (DR) is a retinal microvascular condition that emerges in diabetic patients. DR will continue to be a leading cause of blindness worldwide, with a predicted 191.0 million globally diagnosed patients in 2030. Microaneurysms, hemorrhages, exudates, and cotton wool spots are common signs of DR. However, they can be small and hard for human eyes to detect. Early detection of DR is crucial for effective clinical treatment. Existing methods to classify images require much time for feature extraction and selection, and are limited in their performance. Convolutional Neural Networks (CNNs), as an emerging deep learning (DL) method, have proven their potential in image classification tasks. In this paper, comprehensive experimental studies of implementing state-of-the-art CNNs for the detection and classification of DR are conducted in order to determine the top performing classifiers for the task. Five CNN classifiers, namely Inception-V3, VGG19, VGG16, ResNet50, and InceptionResNetV2, are evaluated through experiments. They categorize medical images into five different classes based on DR severity. Data augmentation and transfer learning techniques are applied since annotated medical images are limited and imbalanced. Experimental results indicate that the ResNet50 classifier has top performance for binary classification and that the InceptionResNetV2 classifier has top performance for multi-class DR classification.
翻訳日:2022-10-09 22:18:34 公開日:2020-10-07
# より堅牢な機械学習アルゴリズムに向けた非i.d.データのエクスプロイト

Exploiting non-i.i.d. data towards more robust machine learning algorithms ( http://arxiv.org/abs/2010.03429v1 )

ライセンス: Link先を確認
Wim Casteels and Peter Hellinckx(参考訳) 機械学習の分野では、より堅牢で一般化可能なアルゴリズムへの関心が高まっている。 これは例えば、トレーニングデータが収集された環境と、アルゴリズムがデプロイされた環境とのギャップを埋めることにおいて重要である。 機械学習アルゴリズムは、データからパターンや相関を見つけるのに優れています。 これらのパターンの一貫性の決定や、例えば因果相関と非意味的スプリアス関係の区別は、より困難であることが証明されている。 本稿では,普遍因果相関を好む正規化スキームを導入する。 このアプローチは 1)因果相関のロバスト性とその評価 2) 独立して同一に配布されていないデータ(d) このスキームは(非i.i.d.)トレーニングセットをサブポピュレーションにクラスタリングして分類タスクで示される。 非i.d.正規化項は、これらのクラスター上で不変でない重みをペナライズする。 結果として得られたアルゴリズムは、サブポピュレーションよりも普遍的な相関を好んでおり、より一般的なl_2正規化に関して、分布外テストセットでより優れた性能が得られる。

In the field of machine learning there is a growing interest towards more robust and generalizable algorithms. This is for example important to bridge the gap between the environment in which the training data was collected and the environment where the algorithm is deployed. Machine learning algorithms have increasingly been shown to excel in finding patterns and correlations from data. Determining the consistency of these patterns and for example the distinction between causal correlations and nonsensical spurious relations has proven to be much more difficult. In this paper a regularization scheme is introduced that prefers universal causal correlations. This approach is based on 1) the robustness of causal correlations and 2) the data not being independently and identically distribute (i.i.d.). The scheme is demonstrated with a classification task by clustering the (non-i.i.d.) training set in subpopulations. A non-i.i.d. regularization term is then introduced that penalizes weights that are not invariant over these clusters. The resulting algorithm favours correlations that are universal over the subpopulations and indeed a better performance is obtained on an out-of-distribution test set with respect to a more conventional l_2-regularization.
翻訳日:2022-10-09 22:18:11 公開日:2020-10-07
# 優先順位付きアクションブランチによるpomdp木探索計画の改善

Improved POMDP Tree Search Planning with Prioritized Action Branching ( http://arxiv.org/abs/2010.03599v1 )

ライセンス: Link先を確認
John Mern, Anil Yildiz, Larry Bush, Tapan Mukerji, Mykel J. Kochenderfer(参考訳) 部分可観測マルコフ決定プロセスのためのオンラインソルバは、大きなアクションスペースを持つ問題へのスケーリングが困難である。 本稿では,行動空間のサブセットをサンプルとしてpa-pomcpow(pa-pomcpow)という手法を提案する。 提案手法はまず,期待される報奨と期待される情報ゲインの線形結合であるスコア関数に従って行動空間を評価する。 最高スコアのアクションは、ツリー拡張中に検索ツリーに追加される。 実験により、PA-POMCPOWは、大きな離散的な作用空間を持つ問題において、既存の最先端の解法よりも優れていることが示された。

Online solvers for partially observable Markov decision processes have difficulty scaling to problems with large action spaces. This paper proposes a method called PA-POMCPOW to sample a subset of the action space that provides varying mixtures of exploitation and exploration for inclusion in a search tree. The proposed method first evaluates the action space according to a score function that is a linear combination of expected reward and expected information gain. The actions with the highest score are then added to the search tree during tree expansion. Experiments show that PA-POMCPOW is able to outperform existing state-of-the-art solvers on problems with large discrete action spaces.
翻訳日:2022-10-09 22:17:25 公開日:2020-10-07
# 潜在離散計画を用いたナラティブテキスト生成

Narrative Text Generation with a Latent Discrete Plan ( http://arxiv.org/abs/2010.03272v1 )

ライセンス: Link先を確認
Harsh Jhamtani and Taylor Berg-Kirkpatrick(参考訳) ストーリー生成に関する過去の研究は、コヒーレントストーリーを生成する世代計画におけるコンディショニングの有用性を実証している。 しかしながら、これらのアプローチはヒューリスティックスまたはオフザシェルフモデルを使用して、まず望ましいタイプのプランでトレーニングストーリーをタグ付けし、次に教師付き方式で生成モデルをトレーニングしている。 本稿では,その生成過程の一部として,まずアンカー単語の列を,ストーリー中の文1つずつにサンプリングする,深い潜伏変数モデルを提案する。 学習中、本モデルはアンカー語の列を潜在変数として扱い、教師なしの方法で生成を導くアンカーシーケンスを誘導しようとする。 我々は,左から右へ,非単調な2種類の文デコーダ分布を,異なる制限度で実験する。 さらに,amortized variational inference (amortized variational inference) を用いてモデルの学習を行うため,アンカー語の後部を推定する2種類の推論ネットワークを導入する。 我々は,本モデルで作成したストーリーが,ストーリープランを考慮しないベースラインと比較して評価が優れており,計画の外部監督を利用するベースラインと同等あるいは良質であることを示す人的評価を行う。 さらに,提案モデルは,個別計画による複雑度,多様性,ストーリー制御の評価において好意的なスコアを得た。

Past work on story generation has demonstrated the usefulness of conditioning on a generation plan to generate coherent stories. However, these approaches have used heuristics or off-the-shelf models to first tag training stories with the desired type of plan, and then train generation models in a supervised fashion. In this paper, we propose a deep latent variable model that first samples a sequence of anchor words, one per sentence in the story, as part of its generative process. During training, our model treats the sequence of anchor words as a latent variable and attempts to induce anchoring sequences that help guide generation in an unsupervised fashion. We conduct experiments with several types of sentence decoder distributions: left-to-right and non-monotonic, with different degrees of restriction. Further, since we use amortized variational inference to train our model, we introduce two corresponding types of inference network for predicting the posterior on anchor words. We conduct human evaluations which demonstrate that the stories produced by our model are rated better in comparison with baselines which do not consider story plans, and are similar or better in quality relative to baselines which use external supervision for plans. Additionally, the proposed model gets favorable scores when evaluated on perplexity, diversity, and control of story via discrete plan.
翻訳日:2022-10-09 22:11:09 公開日:2020-10-07
# 説明の学習:マルチホップ質問応答における妥当性推論連鎖の同定のためのデータセットとモデル

Learning to Explain: Datasets and Models for Identifying Valid Reasoning Chains in Multihop Question-Answering ( http://arxiv.org/abs/2010.03274v1 )

ライセンス: Link先を確認
Harsh Jhamtani and Peter Clark(参考訳) マルチホップ質問処理(qa:multihop question-answering)の急速な進展にもかかわらず、モデルはまだ答えが正しい理由を説明するのに苦労している。 そこで本研究では,コーパス事実から作成した説明文に注釈を付ける3つの説明データセットを提案する。 最初のデータセットeQASCは、マルチホップ質問応答データセットQASCの98K以上の説明アノテーションを含み、各回答に対して複数の候補説明を注釈付けする最初のデータセットです。 第2のデータセットeQASCの摂動は、QASCにおける説明のサブセットのクラウドソーシング摂動(有効性を保ったまま)によって構築され、説明予測モデルの一貫性と一般化をテストする。 第3のデータセットeOBQAは、eQASCでトレーニングされたモデルの一般化をテストするために、OBQAデータセットに説明アノテーションを追加することで構成される。 本研究では,BERTを用いた分類器を用いて解析品質(+14%の絶対F1)を著しく向上させることが可能であるが,その上層部はいまだに遅れており,今後の研究に新たな課題が提示されている。 また、反復名詞句を変数に置き換え、一般化された推論チェイン(例えば「xはyであり、yはzである」は「xはzを持つ」を意味する)に変換する語彙化チェイン表現についても検討する。 一般化連鎖は、ある摂動に対してより堅牢であると同時に、性能を維持している。

Despite the rapid progress in multihop question-answering (QA), models still have trouble explaining why an answer is correct, with limited explanation training data available to learn from. To address this, we introduce three explanation datasets in which explanations formed from corpus facts are annotated. Our first dataset, eQASC, contains over 98K explanation annotations for the multihop question answering dataset QASC, and is the first that annotates multiple candidate explanations for each answer. The second dataset eQASC-perturbed is constructed by crowd-sourcing perturbations (while preserving their validity) of a subset of explanations in QASC, to test consistency and generalization of explanation prediction models. The third dataset eOBQA is constructed by adding explanation annotations to the OBQA dataset to test generalization of models trained on eQASC. We show that this data can be used to significantly improve explanation quality (+14% absolute F1 over a strong retrieval baseline) using a BERT-based classifier, but still behind the upper bound, offering a new challenge for future research. We also explore a delexicalized chain representation in which repeated noun phrases are replaced by variables, thus turning them into generalized reasoning chains (for example: "X is a Y" AND "Y has Z" IMPLIES "X has Z"). We find that generalized chains maintain performance while also being more robust to certain perturbations.
翻訳日:2022-10-09 22:10:45 公開日:2020-10-07
# 意見対話のためのスタンスに基づくペルソナに向けて

Toward Stance-based Personas for Opinionated Dialogues ( http://arxiv.org/abs/2010.03369v1 )

ライセンス: Link先を確認
Thomas Scialom, Serra Sinem Tekiroglu, Jacopo Staiano, Marco Guerini(参考訳) チットチャット対話の文脈において、ペルソナプロファイルを持つ内在システムはより一貫性があり有意義な会話を生み出すために重要であることが示されている。 それでも、そのようなペルソナの表現は事実に基づく表現に制限されている(例:「私は2匹の猫を持っている」)。 これらの表現は、人間の個性の複雑さの表象のままである。 本研究は,意見や価値観,信念といったより深い特性を把握し,言語生成を促進するために,姿勢に基づくペルソナを一歩前進させ,検討することを提案する。 そこで本研究では,異なる姿勢に基づくペルソナ表現と,それらがクレーム生成に与える影響を探索し,著者ペルソナの抽象的かつ深い側面を把握できることを示す新しいデータセットを提案する。

In the context of chit-chat dialogues it has been shown that endowing systems with a persona profile is important to produce more coherent and meaningful conversations. Still, the representation of such personas has thus far been limited to a fact-based representation (e.g. "I have two cats."). We argue that these representations remain superficial w.r.t. the complexity of human personality. In this work, we propose to make a step forward and investigate stance-based persona, trying to grasp more profound characteristics, such as opinions, values, and beliefs to drive language generation. To this end, we introduce a novel dataset allowing to explore different stance-based persona representations and their impact on claim generation, showing that they are able to grasp abstract and profound aspects of the author persona.
翻訳日:2022-10-09 22:10:16 公開日:2020-10-07
# アナロジー マイナスアナロジーテスト:単語埋め込みにおける正規性の測定

Analogies minus analogy test: measuring regularities in word embeddings ( http://arxiv.org/abs/2010.03446v1 )

ライセンス: Link先を確認
Louis Fournier, Emmanuel Dupoux, Ewan Dunbar(参考訳) 単語のベクトル空間モデルは、言語規則性を単純なベクトル変換として捉えていると長年主張されてきたが、この主張によって問題が提起されている。 古典的算術語類似性テスト(英語版)を分解・実証的に分析し、標準テストの問題に対処する2つの新しいメトリクスを動機付け、クラスワイドオフセット濃度(例えばフランス-ロンドン、中国-オタワ、...)とペアリング一貫性(例えばフランス:パリ:中国:北京)を区別する。 標準的なアナロジーテストには欠陥があるが、いくつかの一般的な単語埋め込みは言語規則性を符号化している。

Vector space models of words have long been claimed to capture linguistic regularities as simple vector translations, but problems have been raised with this claim. We decompose and empirically analyze the classic arithmetic word analogy test, to motivate two new metrics that address the issues with the standard test, and which distinguish between class-wise offset concentration (similar directions between pairs of words drawn from different broad classes, such as France--London, China--Ottawa, ...) and pairing consistency (the existence of a regular transformation between correctly-matched pairs such as France:Paris::China:Beijing). We show that, while the standard analogy test is flawed, several popular word embeddings do nevertheless encode linguistic regularities.
翻訳日:2022-10-09 22:10:02 公開日:2020-10-07
# VCDM:改良された定義モデリングのための変分バイエンコーディングと深層文脈表現の活用

VCDM: Leveraging Variational Bi-encoding and Deep Contextualized Word Representations for Improved Definition Modeling ( http://arxiv.org/abs/2010.03124v1 )

ライセンス: Link先を確認
Machel Reid, Edison Marrese-Taylor, Yutaka Matsuo(参考訳) 本稿では、単語や句の定義を生成することを学ぶことを目的として、定義モデリングの課題に取り組む。 このタスクの既存のアプローチは差別的であり、直接的ではなく暗黙的に分布的意味論と語彙的意味論を組み合わせる。 この問題に対処するために、コンテキスト内で使用されるフレーズとその定義の基盤となる関係を明示的にモデル化する連続潜在変数を導入し、タスクの生成モデルを提案する。 評価には変分推論を頼り、文脈化単語の埋め込みを活用して性能を向上する。 提案手法は,2つの新しいデータセット "Cambridge" と,我々の経験的研究を補完する最初の非英語コーパス "Robert" を付加して,既存の4つの挑戦的ベンチマークで評価する。 変動文脈定義モデル(vcdm)は,自動評価指標と人間評価指標を用いて最先端のパフォーマンスを達成し,提案手法の有効性を実証する。

In this paper, we tackle the task of definition modeling, where the goal is to learn to generate definitions of words and phrases. Existing approaches for this task are discriminative, combining distributional and lexical semantics in an implicit rather than direct way. To tackle this issue we propose a generative model for the task, introducing a continuous latent variable to explicitly model the underlying relationship between a phrase used within a context and its definition. We rely on variational inference for estimation and leverage contextualized word embeddings for improved performance. Our approach is evaluated on four existing challenging benchmarks with the addition of two new datasets, "Cambridge" and the first non-English corpus "Robert", which we release to complement our empirical study. Our Variational Contextual Definition Modeler (VCDM) achieves state-of-the-art performance in terms of automatic and human evaluation metrics, demonstrating the effectiveness of our approach.
翻訳日:2022-10-09 22:09:47 公開日:2020-10-07
# 構成テストによる教師なし構文解析

Unsupervised Parsing via Constituency Tests ( http://arxiv.org/abs/2010.03146v1 )

ライセンス: Link先を確認
Steven Cao, Nikita Kitaev, Dan Klein(参考訳) 本稿では,選挙区検定の言語的概念に基づく教師なし解析手法を提案する。 あるタイプの選挙区試験は、ある変換(例えば、スパンを代名詞に置き換える)によって文を修正し、その結果を判断する(例えば、文法的かどうかを確認する)。 このアイデアに動機づけられ、一連の変換を特定し、教師なしの神経受容性モデルを使用して文法的決定を行うことで教師なしパーサを設計する。 文を与えられた木を生成するために,各木をその選挙区試験判定を集約してスコアし,最大スコアのバイナリツリーを選択する。 この手法は現在の手法の範囲での性能を既に達成しているが、精度をさらに向上させるため、改良手順を通じて文法性モデルを微調整し、推定木の改良と文法性モデルの改善を交互に行う。 改良されたモデルは、ペン・ツリーバンク・テストセットで62.8 f1を達成し、以前のベスト・パブリッシュ結果よりも絶対で7.6ポイント向上した。

We propose a method for unsupervised parsing based on the linguistic notion of a constituency test. One type of constituency test involves modifying the sentence via some transformation (e.g. replacing the span with a pronoun) and then judging the result (e.g. checking if it is grammatical). Motivated by this idea, we design an unsupervised parser by specifying a set of transformations and using an unsupervised neural acceptability model to make grammaticality decisions. To produce a tree given a sentence, we score each span by aggregating its constituency test judgments, and we choose the binary tree with the highest total score. While this approach already achieves performance in the range of current methods, we further improve accuracy by fine-tuning the grammaticality model through a refinement procedure, where we alternate between improving the estimated trees and improving the grammaticality model. The refined model achieves 62.8 F1 on the Penn Treebank test set, an absolute improvement of 7.6 points over the previous best published result.
翻訳日:2022-10-09 22:09:29 公開日:2020-10-07
# 多言語トランスフォーマーモデルのための移動学習と距離スーパービジョン:アフリカ言語に関する研究

Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on African Languages ( http://arxiv.org/abs/2010.03179v1 )

ライセンス: Link先を確認
Michael A. Hedderich, David Adelani, Dawei Zhu, Jesujoba Alabi, Udia Markus, Dietrich Klakow(参考訳) mBERT や XLM-RoBERTa のような多言語トランスフォーマーモデルは、様々な言語における多くの NLP タスクに対して大幅に改善されている。 しかし、近年の研究では、高リソース言語の結果が現実的で低リソースのシナリオに簡単に移行できないことも示されている。 本研究は,3つのアフリカの言語Hausa,isiXhosa,Yor\`ub\'aにおける,NERとトピック分類の両方において,利用可能なリソースの量に対するパフォーマンスの傾向について検討する。 転送学習や遠隔監視と組み合わせることで、これらのモデルはベースラインと同じ性能で10から100のラベル付き文で、より教師付きトレーニングデータで実現できることを示す。 しかし、これが保持されない設定も見つけます。 時間やハードウェアの制約といった仮定に関する議論と追加実験は、低リソース学習における課題と機会を強調します。

Multilingual transformer models like mBERT and XLM-RoBERTa have obtained great improvements for many NLP tasks on a variety of languages. However, recent works also showed that results from high-resource languages could not be easily transferred to realistic, low-resource scenarios. In this work, we study trends in performance for different amounts of available resources for the three African languages Hausa, isiXhosa and Yor\`ub\'a on both NER and topic classification. We show that in combination with transfer learning or distant supervision, these models can achieve with as little as 10 or 100 labeled sentences the same performance as baselines with much more supervised training data. However, we also find settings where this does not hold. Our discussions and additional experiments on assumptions such as time and hardware restrictions highlight challenges and opportunities in low-resource learning.
翻訳日:2022-10-09 22:09:10 公開日:2020-10-07
# dual reconstruction: 半教師付きニューラルマシン翻訳のための統一目的

Dual Reconstruction: a Unifying Objective for Semi-Supervised Neural Machine Translation ( http://arxiv.org/abs/2010.03412v1 )

ライセンス: Link先を確認
Weijia Xu, Xing Niu, Marine Carpuat(参考訳) Iterative Back-Translation and Dual Learningは、ニューラルネットワーク翻訳にモノリンガルトレーニングデータを効果的に組み込むが、それらは異なる目的とヒューリスティック勾配近似戦略を用いており、広範囲に比較されていない。 本稿では,反復的なバックトランスレーションと二重学習の統一的な視点を提供する,新しい二重再構成目標を提案する。 理論的な分析と、ドイツ英語とトルコ英語のタスクに関する経験的研究を動機付けており、両者とも、相対的な単純さにもかかわらず、反復的なバックトランスレーションは二重学習よりも効果的であることを示唆している。

While Iterative Back-Translation and Dual Learning effectively incorporate monolingual training data in neural machine translation, they use different objectives and heuristic gradient approximation strategies, and have not been extensively compared. We introduce a novel dual reconstruction objective that provides a unified view of Iterative Back-Translation and Dual Learning. It motivates a theoretical analysis and controlled empirical study on German-English and Turkish-English tasks, which both suggest that Iterative Back-Translation is more effective than Dual Learning despite its relative simplicity.
翻訳日:2022-10-09 22:08:32 公開日:2020-10-07
# Wasserstein Autoencoder を用いた非交叉表現の学習

Learning disentangled representations with the Wasserstein Autoencoder ( http://arxiv.org/abs/2010.03459v1 )

ライセンス: Link先を確認
Benoit Gaujac and Ilya Feige and David Barber(参考訳) 乱れた表現学習は、明らかに客観的機能手術の恩恵を受けている。 しかし、再建の忠実さと絡み合いを両立させるには微妙な調整法が必要である。 潜在変数における全相関をペナライズする以前の成功を踏まえ,tcwae(total correlation wasserstein autoencoder)を提案する。 WAEパラダイムにおける作業は、総相関項の分離を自然に可能とし、学習した表現のゆがみを制御し、再構築コストの選択に柔軟性を提供する。 異なるkl推定器を用いた2つの変種を提案し,既知の生成因子を用いたデータセットの量的比較を行い,最新技術と比較した。 さらに, 再構成期間におけるWAEパラダイムの柔軟性が向上する, 未知の生成因子を含む, より複雑なデータセット上での絡み合いと再構成のトレードオフについて検討する。

Disentangled representation learning has undoubtedly benefited from objective function surgery. However, a delicate balancing act of tuning is still required in order to trade off reconstruction fidelity versus disentanglement. Building on previous successes of penalizing the total correlation in the latent variables, we propose TCWAE (Total Correlation Wasserstein Autoencoder). Working in the WAE paradigm naturally enables the separation of the total-correlation term, thus providing disentanglement control over the learned representation, while offering more flexibility in the choice of reconstruction cost. We propose two variants using different KL estimators and perform extensive quantitative comparisons on data sets with known generative factors, showing competitive results relative to state-of-the-art techniques. We further study the trade off between disentanglement and reconstruction on more-difficult data sets with unknown generative factors, where the flexibility of the WAE paradigm in the reconstruction term improves reconstructions.
翻訳日:2022-10-09 22:02:31 公開日:2020-10-07
# スタック化ワッサースタインオートエンコーダによる深層階層学習

Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders ( http://arxiv.org/abs/2010.03467v1 )

ライセンス: Link先を確認
Benoit Gaujac and Ilya Feige and David Barber(参考訳) 階層ラテント可変構造を持つ確率モデルは、非自己回帰的、教師なし密度ベースモデルのうち最先端の結果を提供する。 しかしながら、変分オートエンコーダ(VAE)に基づくそのようなモデルをトレーニングする最も一般的なアプローチは、しばしば深層階層の活用に失敗する。 最適輸送(Optimal Transport)は、理論的性質をアピールする生成モデルを訓練するための代替の非様相ベースのフレームワークである。 本研究では,高度に振る舞いのよいモデルや推論ネットワークを必要とせずに,最適輸送に基づくディープラーニング階層を用いたモデルトレーニング手法を提案する。 提案手法は, VAEの「潜時変動崩壊」問題を回避することによって, 生成モデルによる深部潜時階層の完全活用を可能にすることを示し, そこで, 最大平均離散差分法を用いたワッサーシュタインオートエンコーダよりも, 定性的に優れたサンプル生成とより解釈可能な潜時表現を提供する。

Probabilistic models with hierarchical-latent-variable structures provide state-of-the-art results amongst non-autoregressive, unsupervised density-based models. However, the most common approach to training such models based on Variational Autoencoders (VAEs) often fails to leverage deep-latent hierarchies; successful approaches require complex inference and optimisation schemes. Optimal Transport is an alternative, non-likelihood-based framework for training generative models with appealing theoretical properties, in principle allowing easier training convergence between distributions. In this work we propose a novel approach to training models with deep-latent hierarchies based on Optimal Transport, without the need for highly bespoke models and inference networks. We show that our method enables the generative model to fully leverage its deep-latent hierarchy, avoiding the well known "latent variable collapse" issue of VAEs; therefore, providing qualitatively better sample generations as well as more interpretable latent representation than the original Wasserstein Autoencoder with Maximum Mean Discrepancy divergence.
翻訳日:2022-10-09 22:02:09 公開日:2020-10-07
# 人工知能から脳インテリジェンスへ:脳のようなインテリジェンスのための基礎学習と記憶アルゴリズム

From Artificial Intelligence to Brain Intelligence: The basis learning and memory algorithm for brain-like intelligence ( http://arxiv.org/abs/2010.14617v1 )

ライセンス: Link先を確認
Yifei Mao(参考訳) 脳の学習と記憶のアルゴリズムはまだ決定されていない。 人工ニューラルネットワークのバックプロパゲーションアルゴリズムは、大脳皮質には適さないと考えられており、メモリエングラムにはアルゴリズムがない。 画像分類タスクを完了させるために仮想ニューロンで実装可能な,生物学的に妥当なバックプロパゲーションアルゴリズムの脳版を設計した。 メモリ・エングラム理論のアルゴリズム実装であり、海馬が高速連想記憶をどのように達成するかをシミュレートできるエングラムセルを自動アロケートする符号化アルゴリズムを提案する。 小脳におけるLTPとLTDの役割もアルゴリズムレベルで説明されている。 本研究は,脳にバックプロパゲーションアルゴリズムを展開させる手法と,メモリエングラム理論のためのスパース符号化法を提案する。

The algorithm of brain learning and memory is still undetermined. The backpropagation algorithm of artificial neural networks was thought not suitable for brain cortex, and there is a lack of algorithm for memory engram. We designed a brain version of backpropagation algorithm, which are biologically plausible and could be implemented with virtual neurons to complete image classification task. An encoding algorithm that can automatically allocate engram cells is proposed, which is an algorithm implementation for memory engram theory, and could simulate how hippocampus achieve fast associative memory. The role of the LTP and LTD in the cerebellum is also explained in algorithm level. Our results proposed a method for the brain to deploy backpropagation algorithm, and sparse coding method for memory engram theory.
翻訳日:2022-10-09 22:01:39 公開日:2020-10-07
# セルオートマトンは集団状態コンピューティングのメモリ要件を削減する

Cellular Automata Can Reduce Memory Requirements of Collective-State Computing ( http://arxiv.org/abs/2010.03585v1 )

ライセンス: Link先を確認
Denis Kleyko, E. Paxon Frady, Friedrich T. Sommer(参考訳) ニューラルネットワーク、イジングモデルによる計算、貯水池計算、ベクトル記号アーキテクチャなど、分散情報処理の古典的でない様々なアプローチは、集合状態コンピューティングの原理を採用している。 この種の計算では、計算に関連する変数は単一の高次元状態ベクトル、集合状態へと重畳される。 変数エンコーディングでは、ランダムパターンの固定セットを使用し、計算中に保存および保持する必要がある。 ここでは、ルール90(CA90)を用いた基本セルオートマトンにより、ランダムな密度のバイナリ表現を使用する集合状態コンピューティングモデルに対する時空間のトレードオフ、すなわち、CA90を実行する計算でメモリ要求を交換可能であることを示す。 本稿では,CA90のランダム化挙動,特に,ランダム化期間の長さとグリッドサイズとの関係,および初期化雑音の存在下でCA90が類似性を維持する方法について検討する。 これらの分析に基づいて、CA90は、ランダムなパターンの完全なセットを格納するのではなく、短いシードパターンからハエの表現を拡張する集合状態コンピューティングモデルを最適化する方法について議論する。 CA90の拡張は、貯水池計算とベクトル記号アーキテクチャを用いて、具体的なシナリオで適用およびテストされる。 実験の結果,ca90拡張を用いた集団状態計算は,疑似乱数生成器によってランダムパターンが生成され,大メモリに格納される従来の集団状態モデルと同等の性能を示すことがわかった。

Various non-classical approaches of distributed information processing, such as neural networks, computation with Ising models, reservoir computing, vector symbolic architectures, and others, employ the principle of collective-state computing. In this type of computing, the variables relevant in a computation are superimposed into a single high-dimensional state vector, the collective-state. The variable encoding uses a fixed set of random patterns, which has to be stored and kept available during the computation. Here we show that an elementary cellular automaton with rule 90 (CA90) enables space-time tradeoff for collective-state computing models that use random dense binary representations, i.e., memory requirements can be traded off with computation running CA90. We investigate the randomization behavior of CA90, in particular, the relation between the length of the randomization period and the size of the grid, and how CA90 preserves similarity in the presence of the initialization noise. Based on these analyses we discuss how to optimize a collective-state computing model, in which CA90 expands representations on the fly from short seed patterns - rather than storing the full set of random patterns. The CA90 expansion is applied and tested in concrete scenarios using reservoir computing and vector symbolic architectures. Our experimental results show that collective-state computing with CA90 expansion performs similarly compared to traditional collective-state models, in which random patterns are generated initially by a pseudo-random number generator and then stored in a large memory.
翻訳日:2022-10-09 22:01:26 公開日:2020-10-07
# 紛らわしい電荷予測のための知識認識手法

Knowledge-aware Method for Confusing Charge Prediction ( http://arxiv.org/abs/2010.03096v1 )

ライセンス: Link先を確認
Xiya Cheng and Sheng Bi and Guilin Qi and Yongzhen Wang(参考訳) 自動料金予測タスクは、刑事事件の事実記述に基づいて最終料金を決定することを目的としており、これは法的補助システムの重要な応用である。 従来の著作は、典型的には、法的なスキーマ的知識を無視しながら電荷を予測するために事実記述に依存するため、電荷を区別することは困難である。 本稿では,料金に関する法的スキーマ知識を導入し,その知識階層表現を識別的特徴として活用し,紛らわしい料金を区別する,ナレッジ・アテンティヴ・ニューラル・ネットワークモデルを提案する。 本モデルは,テキストの事実記述を入力とし,グラフ畳み込みネットワークを通じて事実表現を学習する。 法定スキーマ知識変換器を用いて、法定スキーマ知識をスキーマレベルと電荷レベルの両方で指向する重要な知識表現を生成する。 知識マッチングネットワークを用いて,知識認識の事実表現を学習するために,電荷情報を事実に効果的に組み込む。 最後に、電荷予測に知識認識事実表現を用いる。 実世界のデータセットを2つ作成し,実験結果から,提案モデルが,特に紛らわしい料金の処理において,精度とf1スコアにおいて,他の最先端のベースラインを上回ることができることを示した。

Automatic charge prediction task aims to determine the final charges based on fact descriptions of criminal cases, which is a vital application of legal assistant systems. Conventional works usually depend on fact descriptions to predict charges while ignoring the legal schematic knowledge, which makes it difficult to distinguish confusing charges. In this paper, we propose a knowledge-attentive neural network model, which introduces legal schematic knowledge about charges and exploit the knowledge hierarchical representation as the discriminative features to differentiate confusing charges. Our model takes the textual fact description as the input and learns fact representation through a graph convolutional network. A legal schematic knowledge transformer is utilized to generate crucial knowledge representations oriented to the legal schematic knowledge at both the schema and charge levels. We apply a knowledge matching network for effectively incorporating charge information into the fact to learn knowledge-aware fact representation. Finally, we use the knowledge-aware fact representation for charge prediction. We create two real-world datasets and experimental results show that our proposed model can outperform other state-of-the-art baselines on accuracy and F1 score, especially on dealing with confusing charges.
翻訳日:2022-10-09 22:00:58 公開日:2020-10-07
# 空間表現に基づく視覚的接地対話の言語学的解析

A Linguistic Analysis of Visually Grounded Dialogues Based on Spatial Expressions ( http://arxiv.org/abs/2010.03127v1 )

ライセンス: Link先を確認
Takuma Udagawa, Takato Yamazaki, Akiko Aizawa(参考訳) 最近のモデルでは、視覚的な接地対話で有望な結果が得られる。 しかし、既存のデータセットは、しばしば望ましくないバイアスを含んでおり、洗練された言語分析が欠けているため、現在のモデルがその正確な言語構造をどのように認識しているかを理解することは困難である。 まず、設計によるバイアスを最小限に抑える、単純で挑戦的な共通接地データセットであるonecommon corpus \citep{udagawa2019natural,udagawa2020annotated}に注目します。 第2に,それらの言語構造を \textit{spatial expressions} に基づいて分析し,600の対話に対して包括的かつ信頼性の高いアノテーションを提供する。 本アノテーションは述語句構造,修飾,楕円を含む重要な言語構造を捉える。 実験では,これらの構造に対するモデルの理解を基準分解能で評価する。 アノテーションはベースラインモデルの強みと弱みの両方を本質的な詳細レベルで明らかにできることを実証する。 本稿では,視覚的な対話において,言語理解のきめ細かい枠組みと資源を提案する。

Recent models achieve promising results in visually grounded dialogues. However, existing datasets often contain undesirable biases and lack sophisticated linguistic analyses, which make it difficult to understand how well current models recognize their precise linguistic structures. To address this problem, we make two design choices: first, we focus on OneCommon Corpus \citep{udagawa2019natural,udagawa2020annotated}, a simple yet challenging common grounding dataset which contains minimal bias by design. Second, we analyze their linguistic structures based on \textit{spatial expressions} and provide comprehensive and reliable annotation for 600 dialogues. We show that our annotation captures important linguistic structures including predicate-argument structure, modification and ellipsis. In our experiments, we assess the model's understanding of these structures through reference resolution. We demonstrate that our annotation can reveal both the strengths and weaknesses of baseline models in essential levels of detail. Overall, we propose a novel framework and resource for investigating fine-grained language understanding in visually grounded dialogues.
翻訳日:2022-10-09 22:00:38 公開日:2020-10-07
# ニューラルトピックセグメンテーションにおけるコンテキストモデリングの改善

Improving Context Modeling in Neural Topic Segmentation ( http://arxiv.org/abs/2010.03138v1 )

ライセンス: Link先を確認
Linzi Xing, Brad Hackinen, Giuseppe Carenini, Francesco Trebbi(参考訳) トピックセグメンテーションは、重要なNLPタスクにおいて重要であり、最近の研究は、非常に効果的なニューラルネットワークアプローチを好んでいる。 しかし、現在のニューラルソリューションは、コンテキストのモデリング方法に制限がある。 本稿では、コヒーレンス関連補助タスクと制限された自己注意を追加することにより、階層的注意BiLSTMネットワークに基づくセグメンタを強化し、コンテキストをモデル化する。 最適化されたセグメンタは、3つのデータセットでトレーニングとテストを行った場合、SOTAアプローチよりも優れています。 また、大規模データセット上でモデルをトレーニングし、挑戦的な4つの実世界のベンチマークでテストすることで、ドメイン転送設定における提案モデルの堅牢性も確認しました。 さらに,提案手法を他の2言語(ドイツ語と中国語)に適用し,多言語シナリオでの有効性を示す。

Topic segmentation is critical in key NLP tasks and recent works favor highly effective neural supervised approaches. However, current neural solutions are arguably limited in how they model context. In this paper, we enhance a segmenter based on a hierarchical attention BiLSTM network to better model context, by adding a coherence-related auxiliary task and restricted self-attention. Our optimized segmenter outperforms SOTA approaches when trained and tested on three datasets. We also the robustness of our proposed model in domain transfer setting by training a model on a large-scale dataset and testing it on four challenging real-world benchmarks. Furthermore, we apply our proposed strategy to two other languages (German and Chinese), and show its effectiveness in multilingual scenarios.
翻訳日:2022-10-09 22:00:22 公開日:2020-10-07
# ハイキングとか? 自然を楽しめる人格対話:commonsense拡張による対話

Like hiking? You probably enjoy nature: Persona-grounded Dialog with Commonsense Expansions ( http://arxiv.org/abs/2010.03205v1 )

ライセンス: Link先を確認
Bodhisattwa Prasad Majumder, Harsh Jhamtani, Taylor Berg-Kirkpatrick, Julian McAuley(参考訳) 既存のパーソナライズドダイアログモデルは、人間がシームレスにできるペルソナ記述の単純な意味を捉えられないことが多い。 例えば、最先端のモデルはハイキングへの関心が自然への愛や休憩の待ちを暗示していると推測することはできない。 本稿では,既存のコモンセンス知識ベースとパラフレージングリソースを用いたペルソナ文を拡張し,より豊富なペルソナ記述のセットにアクセスできる対話モデルを提案する。 さらに,対話応答を合成しながらペルソナ文を個別に選択するようモデルに促すことにより,ペルソナのきめ細かいグラウンド化を導入する。 このような選択はデータでは観測されないため、離散潜在確率変数を用いてモデル化し、数百のペルソナ展開からサンプルを得るために変分学習を用いる。 本モデルでは,対話の質と多様性の観点からPersonaChatデータセットの競争ベースラインを上回り,対人一貫性と制御可能なダイアログ生成を実現している。

Existing persona-grounded dialog models often fail to capture simple implications of given persona descriptions, something which humans are able to do seamlessly. For example, state-of-the-art models cannot infer that interest in hiking might imply love for nature or longing for a break. In this paper, we propose to expand available persona sentences using existing commonsense knowledge bases and paraphrasing resources to imbue dialog models with access to an expanded and richer set of persona descriptions. Additionally, we introduce fine-grained grounding on personas by encouraging the model to make a discrete choice among persona sentences while synthesizing a dialog response. Since such a choice is not observed in the data, we model it using a discrete latent random variable and use variational learning to sample from hundreds of persona expansions. Our model outperforms competitive baselines on the PersonaChat dataset in terms of dialog quality and diversity while achieving persona-consistent and controllable dialog generation.
翻訳日:2022-10-09 21:59:41 公開日:2020-10-07
# 変圧器を用いた質問応答の教師なし評価

Unsupervised Evaluation for Question Answering with Transformers ( http://arxiv.org/abs/2010.03222v1 )

ライセンス: Link先を確認
Lukas Muttenthaler, Isabelle Augenstein, Johannes Bjerva(参考訳) 推論時にQAモデルの回答を自動的に評価することは困難である。 多くのモデルが信頼度スコアを提供し、単純なヒューリスティックスは答えの正確さを示すために長い道のりを歩むが、そのような尺度はデータセットに依存しており、一般化されそうにない。 本稿では,まず,トランスフォーマーに基づくQAアーキテクチャにおける質問,回答,コンテキストの隠蔽表現について検討する。 回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。 我々の手法はラベル付きデータを必要としないため、2つのデータセットと7つのドメインにまたがる強いヒューリスティックなベースラインを上回ります。 SQuADでは91.37%、SubjQAでは80.7%の精度で、モデルの解答が正しいかどうかを予測することができる。 この手法は、例えばQAデータセットの半自動開発において幅広い応用が期待できる。

It is challenging to automatically evaluate the answer of a QA model at inference time. Although many models provide confidence scores, and simple heuristics can go a long way towards indicating answer correctness, such measures are heavily dataset-dependent and are unlikely to generalize. In this work, we begin by investigating the hidden representations of questions, answers, and contexts in transformer-based QA architectures. We observe a consistent pattern in the answer representations, which we show can be used to automatically evaluate whether or not a predicted answer span is correct. Our method does not require any labeled data and outperforms strong heuristic baselines, across 2 datasets and 7 domains. We are able to predict whether or not a model's answer is correct with 91.37% accuracy on SQuAD, and 80.7% accuracy on SubjQA. We expect that this method will have broad applications, e.g., in the semi-automatic development of QA datasets
翻訳日:2022-10-09 21:59:23 公開日:2020-10-07
# モデルミス種別がベイズ帯域に及ぼす影響:UX最適化の事例研究

Effects of Model Misspecification on Bayesian Bandits: Case Studies in UX Optimization ( http://arxiv.org/abs/2010.04010v1 )

ライセンス: Link先を確認
Mack Sweeney, Matthew van Adelsberg, Kathryn Laskey, Carlotta Domeniconi(参考訳) トンプソンサンプリングを用いたベイジアン・バンディットは近年、成功を収めている。 しかし、既存の価値モデル(報酬)は多くの現実世界の問題で不特定化されている。 ユーザエクスペリエンス最適化(UXO)問題でこれを実証し、保存されていない共同創設者とオプションの停止を備えた、安静な睡眠バンドウィットとして、新しい定式化を提供する。 ケーススタディでは、一般的なミススペクテーションがサブ最適報酬につながることを示し、これらに対処するためのモデル拡張と、実践者が独自の問題を解決するための科学的モデル構築プロセスを提供する。 我々の知る限り、過分散が帯域探索および探索効果に与える影響を示す最初の研究であり、過分散と過分散の共通概念を、過度探索と過度探索に結びつけるものである。 また,より単純なウィンドウニング,ディスカウント,ドリフトモデルを超えて,有限の後悔と高速かつ一貫性のあるオプション停止が可能であることを実証し,restless banditにおける共統合を利用する最初のモデルを提案する。

Bayesian bandits using Thompson Sampling have seen increasing success in recent years. Yet existing value models (of rewards) are misspecified on many real-world problem. We demonstrate this on the User Experience Optimization (UXO) problem, providing a novel formulation as a restless, sleeping bandit with unobserved confounders plus optional stopping. Our case studies show how common misspecifications can lead to sub-optimal rewards, and we provide model extensions to address these, along with a scientific model building process practitioners can adopt or adapt to solve their own unique problems. To our knowledge, this is the first study showing the effects of overdispersion on bandit explore/exploit efficacy, tying the common notions of under- and over-confidence to over- and under-exploration, respectively. We also present the first model to exploit cointegration in a restless bandit, demonstrating that finite regret and fast and consistent optional stopping are possible by moving beyond simpler windowing, discounting, and drift models.
翻訳日:2022-10-09 21:51:38 公開日:2020-10-07
# 視覚的接地言語生成におけるサンプル変数の理解に向けて:評価と観察

Towards Understanding Sample Variance in Visually Grounded Language Generation: Evaluations and Observations ( http://arxiv.org/abs/2010.03644v1 )

ライセンス: Link先を確認
Wanrong Zhu, Xin Eric Wang, Pradyumna Narayana, Kazoo Sone, Sugato Basu, William Yang Wang(参考訳) 視覚的な接地型言語生成における大きな課題は、実世界の設定でうまく一般化できる堅牢なベンチマークデータセットとモデルを構築することである。 これを行うには、評価プロトコルが正しいこと、ベンチマークが信頼できることを保証することが重要です。 本稿では,視覚下地言語生成における重要だがしばしば無視される問題を理解するための一連の実験をデザインする。人間には異なるユーティリティと視覚的注意が与えられているため,マルチリファレンスデータセットにおけるサンプル分散はモデルの性能にどのように影響するか? 実験では,複数の複数参照データセットと対応する視覚言語タスクについて検討した。 実験のばらつきを報告することが最重要であり, 人為的参照は, 異なるデータセットやタスクで大きく変化し, それぞれのタスクの性質を明らかにすること, CIDErが他のタスクよりも体系的に大きなばらつきを示したこと, などを示す。 インスタンス毎の基準評価は、将来、信頼できるデータセットの設計に光を当てた。

A major challenge in visually grounded language generation is to build robust benchmark datasets and models that can generalize well in real-world settings. To do this, it is critical to ensure that our evaluation protocols are correct, and benchmarks are reliable. In this work, we set forth to design a set of experiments to understand an important but often ignored problem in visually grounded language generation: given that humans have different utilities and visual attention, how will the sample variance in multi-reference datasets affect the models' performance? Empirically, we study several multi-reference datasets and corresponding vision-and-language tasks. We show that it is of paramount importance to report variance in experiments; that human-generated references could vary drastically in different datasets/tasks, revealing the nature of each task; that metric-wise, CIDEr has shown systematically larger variances than others. Our evaluations on reference-per-instance shed light on the design of reliable datasets in the future.
翻訳日:2022-10-09 21:44:59 公開日:2020-10-07
# temp:時間知識グラフ完成のための時間メッセージパッシング

TeMP: Temporal Message Passing for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2010.03526v1 )

ライセンス: Link先を確認
Jiapeng Wu, Meng Cao, Jackie Chi Kit Cheung and William L. Hamilton(参考訳) 時間的知識グラフ(TKGs)に欠けている事実を推測することは、基本的で難しい課題である。 以前の研究では、時間依存表現を活用するために静的知識グラフのメソッドを拡張することでこの問題に取り組んできた。 しかし,これらの手法は,近年の時間ステップから,マルチホップ構造情報や時間的事実を明示的に活用していない。 さらに、先行研究はTKGにおける実体分布の時間的間隔と変動性に明示的に対処していない。 本稿では,グラフニューラルネットワーク,時間力学モデル,データ計算,周波数ベースのゲーティング技術を組み合わせることで,これらの課題に対処する時間的メッセージパッシング(TeMP)フレームワークを提案する。 標準tkgタスクに関する実験は、我々のアプローチが以前の技術と比較して大幅に向上し、3つの標準ベンチマークでhit@10が平均10.7%向上したことを示している。 分析により,tkgデータセット内およびtkgデータセット全体において重要な変動源が明らかになり,特定の設定において芸術の以前の状態を上回った,単純かつ強固なベースラインをいくつか導入した。

Inferring missing facts in temporal knowledge graphs (TKGs) is a fundamental and challenging task. Previous works have approached this problem by augmenting methods for static knowledge graphs to leverage time-dependent representations. However, these methods do not explicitly leverage multi-hop structural information and temporal facts from recent time steps to enhance their predictions. Additionally, prior work does not explicitly address the temporal sparsity and variability of entity distributions in TKGs. We propose the Temporal Message Passing (TeMP) framework to address these challenges by combining graph neural networks, temporal dynamics models, data imputation and frequency-based gating techniques. Experiments on standard TKG tasks show that our approach provides substantial gains compared to the previous state of the art, achieving a 10.7% average relative improvement in Hits@10 across three standard benchmarks. Our analysis also reveals important sources of variability both within and across TKG datasets, and we introduce several simple but strong baselines that outperform the prior state of the art in certain settings.
翻訳日:2022-10-09 21:43:55 公開日:2020-10-07
# 情報システム研究のための深層学習

Deep Learning for Information Systems Research ( http://arxiv.org/abs/2010.05774v1 )

ライセンス: Link先を確認
Sagar Samtani, Hongyi Zhu, Balaji Padmanabhan, Yidong Chai, Hsinchun Chen(参考訳) 21世紀には人工知能(AI)が重要な破壊的技術として急速に台頭している。 現代のAIの中心には、今日のプラットフォームや組織が前例のない効率性、有効性、スケールで運用できるようにする、新たなアルゴリズムのクラスであるDeep Learning(DL)がある。 DLのISコントリビューションは、大きな関心をよそに制限されており、その一部は、DL研究の定義、位置決め、実施に関する問題である。 ISコミュニティにとっての素晴らしい機会を認識し、この研究は、IS学者がタイムリーかつハイインパクトな貢献を行うためのアプローチを明確にし、合理化し、提示する。 この広範な目標に関連して,本稿では5つのタイムリーな貢献を行う。 まず、DLの主要なコンポーネントを、アプリケーション環境の重要な要素によって、技術的DLプロセスがどのように駆動されるかを示す、新しいDL-ISR(Deep Learning for Information Systems Research)スキーマで体系的に要約する。 第2に,IS研究者のDL貢献度を最大化するための新しい知識貢献フレームワーク(KCF)を提案する。 第3に、IS学者が厳格で関連するDL-ISRを体系的で高品質な方法で作成するための10のガイドラインを提供する。 第4に,広く普及している学術誌や会議会場のレビューを行い,研究者がdlを様々な調査にどのように活用しているかについて検討する。 最後に,IS学者がビジネス機能,アプリケーション領域,KCFの相互運用を慎重に検討し,DL-ISR問合せを定式化する方法について,ユニークな視点を提供する。 この観点は、学際的、学内的、およびIS間の伝統的な視点を意図的に強調する。 これらの貢献により、ISの学者は、深層学習研究の規模、範囲、および影響を高めるためのタイムリーな枠組みを提供する。

Artificial Intelligence (AI) has rapidly emerged as a key disruptive technology in the 21st century. At the heart of modern AI lies Deep Learning (DL), an emerging class of algorithms that has enabled today's platforms and organizations to operate at unprecedented efficiency, effectiveness, and scale. Despite significant interest, IS contributions in DL have been limited, which we argue is in part due to issues with defining, positioning, and conducting DL research. Recognizing the tremendous opportunity here for the IS community, this work clarifies, streamlines, and presents approaches for IS scholars to make timely and high-impact contributions. Related to this broader goal, this paper makes five timely contributions. First, we systematically summarize the major components of DL in a novel Deep Learning for Information Systems Research (DL-ISR) schematic that illustrates how technical DL processes are driven by key factors from an application environment. Second, we present a novel Knowledge Contribution Framework (KCF) to help IS scholars position their DL contributions for maximum impact. Third, we provide ten guidelines to help IS scholars generate rigorous and relevant DL-ISR in a systematic, high-quality fashion. Fourth, we present a review of prevailing journal and conference venues to examine how IS scholars have leveraged DL for various research inquiries. Finally, we provide a unique perspective on how IS scholars can formulate DL-ISR inquiries by carefully considering the interplay of business function(s), application areas(s), and the KCF. This perspective intentionally emphasizes inter-disciplinary, intra-disciplinary, and cross-IS tradition perspectives. Taken together, these contributions provide IS scholars a timely framework to advance the scale, scope, and impact of deep learning research.
翻訳日:2022-10-09 21:42:02 公開日:2020-10-07