このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210503となっている論文です。

PDF登録状況(公開日: 20210503)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) オンラインPivot: ロックダウンにおけるテキストとデータマイニングの授業から学んだ教訓,ペアプログラミングとデジタルバッジによるオンライン教育の促進 [全文訳有]

The Online Pivot: Lessons Learned from Teaching a Text and Data Mining Course in Lockdown, Enhancing online Teaching with Pair Programming and Digital Badges ( http://arxiv.org/abs/2105.07847v1 )

ライセンス: CC BY 4.0
Beatrice Alex, Clare Llewellyn, Pawel Michal Orzechowski, Maria Boutchkova(参考訳) 本稿では、新型コロナウイルスのパンデミックの結果、2020年夏にオンラインにテキストとデータマイニングコースを移植した経緯と、第2回のパイロットテストで改善した経緯について説明する。 このコースを,2つのパイロット運用にどのように適応するか,そして,学生の学習とコミュニティ構築を改善するための教育手法について述べる。 また、コース中に収集された絶え間ないフィードバックに関する情報も提供し、あるセッションから次のセッションへ、そして別のパイロットへ、私たちの教えを適応させるのに役立ちました。 そこで本研究では,デジタルバッジやペアプログラミングといった,デジタルに応用される革新的な教育手法を,初心者や学生に自然言語処理コースを教えるための授業室で活用することを提案する。

In this paper we provide an account of how we ported a text and data mining course online in summer 2020 as a result of the COVID-19 pandemic and how we improved it in a second pilot run. We describe the course, how we adapted it over the two pilot runs and what teaching techniques we used to improve students' learning and community building online. We also provide information on the relentless feedback collected during the course which helped us to adapt our teaching from one session to the next and one pilot to the next. We discuss the lessons learned and promote the use of innovative teaching techniques applied to the digital such as digital badges and pair programming in break-out rooms for teaching Natural Language Processing courses to beginners and students with different backgrounds.
翻訳日:2021-05-20 07:51:45 公開日:2021-05-03
# 2020年高速MRIによる機械学習MR画像再構成の試み

Results of the 2020 fastMRI Challenge for Machine Learning MR Image Reconstruction ( http://arxiv.org/abs/2012.06318v3 )

ライセンス: Link先を確認
Matthew J. Muckley, Bruno Riemenschneider, Alireza Radmanesh, Sunwoo Kim, Geunu Jeong, Jingyu Ko, Yohan Jun, Hyungseob Shin, Dosik Hwang, Mahmoud Mostapha, Simon Arberet, Dominik Nickel, Zaccharie Ramzi, Philippe Ciuciu, Jean-Luc Starck, Jonas Teuwen, Dimitrios Karkalousos, Chaoping Zhang, Anuroop Sriram, Zhengnan Huang, Nafissa Yakubova, Yvonne Lui, Florian Knoll(参考訳) MRIスキャンの高速化はMRI研究コミュニティにおける主要な課題の1つである。 そこで我々は,k-spaceデータを用いたMR画像再構成を目的とした第2回高速MRIコンペティションを開催した。 参加者は7,299個の臨床脳スキャン(NYU Langone HealthによるHIPAA準拠の手順で同定)からのデータを受け取り、これらのスキャンのうち894個の完全サンプリングされたデータを課題評価のために保持した。 2019年の課題とは対照的に,我々は,脳画像の病理学的評価にラジオロジストの評価に焦点を当てた。 また、トレーニングセットの外からMRIスキャナーで評価されたモデルを提出する必要がある新しいTransferトラックも公開しました。 私たちは8つの異なるグループから19の応募を受け取りました。 その結果,SSIMスコアと質的ラジオロジカル評価の両方で1チームが最多得点を示した。 また,背景雑音の影響を軽減するための代替指標の分析を行い,参加者からのフィードバックを収集し,今後の課題について報告する。 最後に,提案に共通する障害モードを特定し,mri再構成コミュニティにおける今後の研究の必要性を強調する。

Accelerating MRI scans is one of the principal outstanding problems in the MRI research community. Towards this goal, we hosted the second fastMRI competition targeted towards reconstructing MR images with subsampled k-space data. We provided participants with data from 7,299 clinical brain scans (de-identified via a HIPAA-compliant procedure by NYU Langone Health), holding back the fully-sampled data from 894 of these scans for challenge evaluation purposes. In contrast to the 2019 challenge, we focused our radiologist evaluations on pathological assessment in brain images. We also debuted a new Transfer track that required participants to submit models evaluated on MRI scanners from outside the training set. We received 19 submissions from eight different groups. Results showed one team scoring best in both SSIM scores and qualitative radiologist evaluations. We also performed analysis on alternative metrics to mitigate the effects of background noise and collected feedback from the participants to inform future challenges. Lastly, we identify common failure modes across the submissions, highlighting areas of need for future research in the MRI reconstruction community.
翻訳日:2021-05-16 01:53:33 公開日:2021-05-03
# 多言語性ソーシャルメディアにおけるcovid-19誤情報の検索

Looking for COVID-19 misinformation in multilingual social media texts ( http://arxiv.org/abs/2105.03313v1 )

ライセンス: Link先を確認
Raj Ratn Pranesh and Mehrdad Farokhnejad and Ambesh Shekhar and Genoveva Vargas-Solar(参考訳) 本稿では,本疾患に関する誤報をテキスト内で検出し,観察するための多言語COVID-19分析法(CMTA)を提案する。 CMTAは、処理、分類(Dense-CNN)、分析(MBERT)マルチリンガル(micro)テキストに機械学習モデルを適用するデータサイエンス(DS)パイプラインを提案する。 DSパイプラインデータ作成タスクは、多言語テキストデータから特徴を抽出し、それを特定の情報クラス(false, 'partly false', 'misleading')に分類する。 CMTAパイプラインは多言語マイクロテキスト(つぶやき)を用いて実験されており、様々な言語にまたがる誤情報を示している。 CMTAの性能を評価するために,誤情報検出に用いた8つの単言語モデルを用いてCMTAの比較分析を行った。 比較の結果,CMTAは様々な単言語モデルを超えており,多言語マイクロテキストにおける誤情報検出の一般的な方法として利用できることが示唆された。 cmtaの実験結果は、最初のパンデミックの数ヶ月間、さまざまな言語でcovid-19に関する誤った情報傾向を示している。

This paper presents the Multilingual COVID-19 Analysis Method (CMTA) for detecting and observing the spread of misinformation about this disease within texts. CMTA proposes a data science (DS) pipeline that applies machine learning models for processing, classifying (Dense-CNN) and analyzing (MBERT) multilingual (micro)-texts. DS pipeline data preparation tasks extract features from multilingual textual data and categorize it into specific information classes (i.e., 'false', 'partly false', 'misleading'). The CMTA pipeline has been experimented with multilingual micro-texts (tweets), showing misinformation spread across different languages. To assess the performance of CMTA and put it in perspective, we performed a comparative analysis of CMTA with eight monolingual models used for detecting misinformation. The comparison shows that CMTA has surpassed various monolingual models and suggests that it can be used as a general method for detecting misinformation in multilingual micro-texts. CMTA experimental results show misinformation trends about COVID-19 in different languages during the first pandemic months.
翻訳日:2021-05-11 08:37:11 公開日:2021-05-03
# Deep Learning Compilerに独自のコーダーを導入

Bring Your Own Codegen to Deep Learning Compiler ( http://arxiv.org/abs/2105.03215v1 )

ライセンス: Link先を確認
Zhi Chen, Cody Hao Yu, Trevor Morris, Jorn Tuyls, Yi-Hsiang Lai, Jared Roesch, Elliott Delaye, Vin Sharma, Yida Wang(参考訳) ディープニューラルネットワーク(DNN)は、多くのアプリケーションに広く適用されており、これらのアプリケーションの高速かつ効率的な推論タスクをサポートするためのイネーブルとしてアクセラレータが登場している。 しかし、高いモデルカバレッジを高いパフォーマンスで達成するには、各アクセラレータベンダーは、DNNを取り込み、最適化し、実行するための完全なコンパイラスタックを開発する必要がある。 これは、ソフトウェアスタックの開発とメンテナンスに重大な課題をもたらします。 さらにベンダーは、DNNモデルアーキテクチャやオペレータの急速な進化に対応するために、ハードウェアやソフトウェアを継続的にアップデートする必要がある。 これらの課題に対処するために,既存のディープラーニングコンパイラのコンポーネントを可能な限り再利用することにより,ユーザが独自コード生成ツールの開発のみに集中できるようにするオープンソースフレームワークを提案する。 我々のフレームワークは、ユーザが柔軟で使いやすいインターフェイスを使ってモデルをセグメントに分割し、「最高の」プロセッサ上で実行でき、アクセラレーターの強力な計算能力を利用することができます。 私たちのケーススタディでは、私たちのフレームワークは数千行のコードしか持たない複数の商用ベンダーのコンパイラスタックにデプロイされています。

Deep neural networks (DNNs) have been ubiquitously applied in many applications, and accelerators are emerged as an enabler to support the fast and efficient inference tasks of these applications. However, to achieve high model coverage with high performance, each accelerator vendor has to develop a full compiler stack to ingest, optimize, and execute the DNNs. This poses significant challenges in the development and maintenance of the software stack. In addition, the vendors have to contiguously update their hardware and/or software to cope with the rapid evolution of the DNN model architectures and operators. To address these issues, this paper proposes an open source framework that enables users to only concentrate on the development of their proprietary code generation tools by reusing as many as possible components in the existing deep learning compilers. Our framework provides users flexible and easy-to-use interfaces to partition their models into segments that can be executed on "the best" processors to take advantage of the powerful computation capability of accelerators. Our case study shows that our framework has been deployed in multiple commercial vendors' compiler stacks with only a few thousand lines of code.
翻訳日:2021-05-11 08:36:52 公開日:2021-05-03
# (参考訳) メンタルヘルスモニタリングのためのウェアラブルと連続的時間知覚通過予測 [全文訳有]

Wearable and Continuous Prediction of Passage of Time Perception for Monitoring Mental Health ( http://arxiv.org/abs/2105.02808v1 )

ライセンス: CC BY 4.0
Lara Orlandic, Adriana Arza Valdes, David Atienza(参考訳) 人の時間知覚(POTP)は、精神状態とストレス反応に強く結びついているので、継続的なメンタルヘルスモニタリングの容易な定量化手段を提供することができる。 本研究では,ウェアラブルバイオセンサから取得したバイオマーカーからPOTPを予測するカスタム実験と機械学習(ML)モデルを開発する。 まず、個人が恐怖や悲しみ(p = 0.046)の時よりも遅く、認知タスク(p = 2 x 10^-5)の時よりも速い時間経過を経験できることを確認する。 次に, 高速, 遅い, 正常なPOTPに関連する実験セグメントをグループ化し, 人間のバイオマーカーに基づいて, これらの状態の分類を行うMLモデルを訓練する。 分類器の平均f-1スコアは79%で、高速通過時間クラスはf-1スコアの最大93%であった。 次に,手作業によらず各個人のポットを分類し,通常よりも遅く経過する時間を識別すると,77.1%のf-1スコアを得る。 2種類の分類器では, 呼吸, 心電図, 皮膚コンダクタンス, 皮膚温度信号から得られたバイオマーカーが分類器の出力に大きく寄与し, 非侵襲型ウェアラブルバイオセンサーを用いたリアルタイムPOTPモニタリングが可能となった。

A person's passage of time perception (POTP) is strongly linked to their mental state and stress response, and can therefore provide an easily quantifiable means of continuous mental health monitoring. In this work, we develop a custom experiment and Machine Learning (ML) models for predicting POTP from biomarkers acquired from wearable biosensors. We first confirm that individuals experience time passing slower than usual during fear or sadness (p = 0.046) and faster than usual during cognitive tasks (p = 2 x 10^-5). Then, we group together the experimental segments associated with fast, slow, and normal POTP, and train a ML model to classify between these states based on a person's biomarkers. The classifier had a weighted average F-1 score of 79%, with the fast-passing time class having the highest F-1 score of 93%. Next, we classify each individual's POTP regardless of the task at hand, achieving an F-1 score of 77.1% when distinguishing time passing faster rather than slower than usual. In the two classifiers, biomarkers derived from the respiration, electrocardiogram, skin conductance, and skin temperature signals contributed most to the classifier output, thus enabling real-time POTP monitoring using noninvasive, wearable biosensors.
翻訳日:2021-05-08 04:47:59 公開日:2021-05-03
# 動的環境における無線リソースの連続最適化の学習:双方向最適化の視点から

Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective ( http://arxiv.org/abs/2105.01696v1 )

ライセンス: Link先を確認
Haoran Sun, Wenqiang Pu, Xiao Fu, Tsung-Hui Chang, Mingyi Hong(参考訳) データ駆動、特に、現代のコミュニケーションタスクのためのディープニューラルネットワーク(DNN)ベースの手法の開発に対する関心が高まっている。 電力制御、ビームフォーミング、MIMO検出などの一般的なタスクでは、これらの手法は、計算労力の削減、チャネル状態情報(CSI)取得のためのリソースの削減など、最先端のパフォーマンスを達成する。 しかし、これらのアプローチが動的な環境で学ぶことはしばしば困難である。 本研究は,データ駆動型手法による動的環境における資源配分戦略の継続的な学習と最適化を可能にする新しい手法を開発する。 具体的には、環境統計が`episodes" で変化する ``episodically dynamic' の設定を検討し、各エピソードで環境が静止する。 本研究では,連続学習(cl)の概念を無線システム設計に構築し,学習モデルが前回から学んだ知識を忘れることなく,新たなエピソードに漸進的に適応できるようにする。 我々の設計は、2レベル最適化の新たな定式化に基づいており、異なるデータサンプル間での「公平性」を保証する。 電力制御とビームフォーミングの2つの一般的なDNNモデルと統合してCL手法の有効性を実証し,合成データとレイトレーシングデータの両方を用いて実験を行った。 これらの数値結果から、提案したCLアプローチは、新しいシナリオを迅速かつシームレスに適応できるだけでなく、これまで遭遇したシナリオよりも高いパフォーマンスを維持していることがわかる。

There has been a growing interest in developing data-driven, and in particular deep neural network (DNN) based methods for modern communication tasks. For a few popular tasks such as power control, beamforming, and MIMO detection, these methods achieve state-of-the-art performance while requiring less computational efforts, less resources for acquiring channel state information (CSI), etc. However, it is often challenging for these approaches to learn in a dynamic environment. This work develops a new approach that enables data-driven methods to continuously learn and optimize resource allocation strategies in a dynamic environment. Specifically, we consider an ``episodically dynamic" setting where the environment statistics change in ``episodes", and in each episode the environment is stationary. We propose to build the notion of continual learning (CL) into wireless system design, so that the learning model can incrementally adapt to the new episodes, {\it without forgetting} knowledge learned from the previous episodes. Our design is based on a novel bilevel optimization formulation which ensures certain ``fairness" across different data samples. We demonstrate the effectiveness of the CL approach by integrating it with two popular DNN based models for power control and beamforming, respectively, and testing using both synthetic and ray-tracing based data sets. These numerical results show that the proposed CL approach is not only able to adapt to the new scenarios quickly and seamlessly, but importantly, it also maintains high performance over the previously encountered scenarios as well.
翻訳日:2021-05-06 12:36:28 公開日:2021-05-03
# (参考訳) グローバルスパーシティ制約によるニューラルネットワークの効果的なスパーシフィケーション [全文訳有]

Effective Sparsification of Neural Networks with Global Sparsity Constraint ( http://arxiv.org/abs/2105.01571v1 )

ライセンス: CC BY 4.0
Xiao Zhou, Weizhong Zhang, Hang Xu, Tong Zhang(参考訳) 重みプルーニングは、実世界のデプロイメントにおけるディープニューラルネットワークのモデルサイズと推論時間を短縮するための効果的なテクニックである。 しかしながら、重みの大きさと相対的な重要性はニューラルネットワークの異なる層に対して大きく異なるため、既存の手法では、各層に対して個別に適切な刈り取り率を求めるために、手動のチューニングまたは手作りのヒューリスティックなルールに依存している。 このアプローチは一般的に最適でないパフォーマンスをもたらす。 本稿では,確率空間を直接研究することにより,グローバルスパルシリティ制約下で自然スパルシフィケーションの定式化を解く「it確率マスキング」(probmask)と呼ばれる効果的なネットワークスパルシフィケーション手法を提案する。 鍵となる考え方は、すべてのレイヤのグローバルな基準として確率を使い、重みの重要度を測定することである。 ProbMaskの特長は、重み付けの量を自動的に制約によって学習できることであり、ネットワーク内の異なる層に対して個別にプルーニングレートをチューニングする問題は回避できる。 CIFAR-10/100 と ImageNet の大規模な実験結果から,本手法は極めて有効であり,特に高い刈り取り率の状況において,従来の最先端手法よりも優れた性能を発揮することが示された。 特に、probmaskと既存のメソッドの間のtop-1の精度の差は最大10\%である。 副産物として,無作為重み付きニューラルネットワークにおける高性能サブネットワークであるスーパーマスクの同定にもprobmaskが有効であることを示した。

Weight pruning is an effective technique to reduce the model size and inference time for deep neural networks in real-world deployments. However, since magnitudes and relative importance of weights are very different for different layers of a neural network, existing methods rely on either manual tuning or handcrafted heuristic rules to find appropriate pruning rates individually for each layer. This approach generally leads to suboptimal performance. In this paper, by directly working on the probability space, we propose an effective network sparsification method called {\it probabilistic masking} (ProbMask), which solves a natural sparsification formulation under global sparsity constraint. The key idea is to use probability as a global criterion for all layers to measure the weight importance. An appealing feature of ProbMask is that the amounts of weight redundancy can be learned automatically via our constraint and thus we avoid the problem of tuning pruning rates individually for different layers in a network. Extensive experimental results on CIFAR-10/100 and ImageNet demonstrate that our method is highly effective, and can outperform previous state-of-the-art methods by a significant margin, especially in the high pruning rate situation. Notably, the gap of Top-1 accuracy between our ProbMask and existing methods can be up to 10\%. As a by-product, we show ProbMask is also highly effective in identifying supermasks, which are subnetworks with high performance in a randomly weighted dense neural network.
翻訳日:2021-05-06 04:05:29 公開日:2021-05-03
# (参考訳) 離散混合モデルによる連続密度推定 [全文訳有]

Consistent Density Estimation Under Discrete Mixture Models ( http://arxiv.org/abs/2105.01108v1 )

ライセンス: CC BY 4.0
Luc Devroye and Alex Dytso(参考訳) この研究は、離散混合モデルの設定において混合確率密度$f$を推定する問題を考える。 論文は3つの部分からなる。 最初の部分は$L_1$一貫性のある推定器の構築に焦点を当てている。 特に、確率測度 $\mu$ がアトミックであり、$f$ から $\mu$ への写像が単射であるという仮定の下で、すべての密度 $f$ $\lim_{n\to \infty} \mathbb{E} \left[ \int |f_n -f | \right]=0$ に対して、推定子 $f_n$ が存在することを示す。 第2部では実装の詳細について論じている。 具体的には、$f$毎の一貫性が計算可能な推定器で達成できることが示されている。 第3部は、研究事例として、ポアソン混合モデルを考える。 特に、ポアソンの雑音設定では、単射条件が保たれ、従って、$f$ごとに一貫した推定を行うことができる。

This work considers a problem of estimating a mixing probability density $f$ in the setting of discrete mixture models. The paper consists of three parts. The first part focuses on the construction of an $L_1$ consistent estimator of $f$. In particular, under the assumptions that the probability measure $\mu$ of the observation is atomic, and the map from $f$ to $\mu$ is bijective, it is shown that there exists an estimator $f_n$ such that for every density $f$ $\lim_{n\to \infty} \mathbb{E} \left[ \int |f_n -f | \right]=0$. The second part discusses the implementation details. Specifically, it is shown that the consistency for every $f$ can be attained with a computationally feasible estimator. The third part, as a study case, considers a Poisson mixture model. In particular, it is shown that in the Poisson noise setting, the bijection condition holds and, hence, estimation can be performed consistently for every $f$.
翻訳日:2021-05-06 03:47:48 公開日:2021-05-03
# (参考訳) VQAにおける創発的体系性の反復学習 [全文訳有]

Iterated learning for emergent systematicity in VQA ( http://arxiv.org/abs/2105.01119v1 )

ライセンス: CC BY 4.0
Ankit Vani, Max Schwarzer, Yuchen Lu, Eeshan Dhekane, Aaron Courville(参考訳) ニューラルモジュールネットワークは構成性に対するアーキテクチャ上のバイアスがあるが、実際に体系的に一般化するには金の標準レイアウトが必要である。 レイアウトとモジュールを共同で学習する場合、構成性は自動的に発生せず、適切な構造を示すレイアウトの出現には明示的な圧力が必要である。 本稿では,機械学習における単純な参照ゲームに主に応用された,自然界における合成言語の出現に関する認知科学理論である反復学習を用いて,この問題に対処することを提案する。 モジュールネットワークのレイアウトを創発言語からのサンプルとして考慮し、反復学習を用いて、この言語内での構造開発を促進する。 その結果,視覚質問応答のより複雑な課題を解決する神経エージェントの体系的一般化を支援する。 正規化反復学習法は,SHAPES-SyGeT (SHAPES Systematic Generalization Test, SHAPESデータセットの新たな分割による体系的一般化の評価, CLOSUREではCLEVRの拡張による体系的一般化の検証を行う。 SHAPES-SyGeT と CLEVR の両面を限定的に監視し, 地上構造を復元する際の優れた性能を示す。

Although neural module networks have an architectural bias towards compositionality, they require gold standard layouts to generalize systematically in practice. When instead learning layouts and modules jointly, compositionality does not arise automatically and an explicit pressure is necessary for the emergence of layouts exhibiting the right structure. We propose to address this problem using iterated learning, a cognitive science theory of the emergence of compositional languages in nature that has primarily been applied to simple referential games in machine learning. Considering the layouts of module networks as samples from an emergent language, we use iterated learning to encourage the development of structure within this language. We show that the resulting layouts support systematic generalization in neural agents solving the more complex task of visual question-answering. Our regularized iterated learning method can outperform baselines without iterated learning on SHAPES-SyGeT (SHAPES Systematic Generalization Test), a new split of the SHAPES dataset we introduce to evaluate systematic generalization, and on CLOSURE, an extension of CLEVR also designed to test systematic generalization. We demonstrate superior performance in recovering ground-truth compositional program structure with limited supervision on both SHAPES-SyGeT and CLEVR.
翻訳日:2021-05-06 03:36:49 公開日:2021-05-03
# (参考訳) 自転車シェアリングシステムにおけるコンテキスト対応需要予測--空間的・気象的・カレンディカルな文脈を取り入れて [全文訳有]

Context-aware demand prediction in bike sharing systems: incorporating spatial, meteorological and calendrical context ( http://arxiv.org/abs/2105.01125v1 )

ライセンス: CC BY 4.0
Cl\'audio Sardinha, Anna C. Finamore, Rui Henriques(参考訳) 世界中の大都市では自転車シェアリング需要が増加している。 自転車共有システムの適切な機能は、それでも1日を通して自転車の地理的分布のバランスに依存する。 この文脈では、チェックインとチェックインの時空間的分布を理解することが駅のバランスと自転車の移転イニシアチブの鍵となる。 それでも、ディープラーニングと距離ベースの予測器による最近の貢献は、自転車シェアリングの需要予測に限定的な成功を示している。 この一貫した観察は, 需要と局の気象・状況の強い依存, および, 近辺の駅における高低局負荷の影響をモデル化できない多くの予測者が空間認識の欠如によって引き起こされると考えられる。 本研究は, 駅需要の予測モデルにおいて, 空間的, 気象的, 状況的, カレンディカルな文脈の歴史的および将来的な情報源の両方を組み込むための, 包括的な新原則を提案する。 この目的のために、直列長短項メモリ(LSTM)コンポーネントで構成される新しいリカレントニューラルネットワーク層を、入力層における歴史的文脈データから生成される多変量時系列マスクの摂食と、予測された文脈データを用いた予測時系列の時間依存性正規化の2つの主要なコントリビューションとして提案する。 この研究は、文脈認識予測器によるすべての改善が統計的に有意であるとはいえ、コミュニティに対する提案された原則の関連性を示す、異なる文脈源を取り入れることの影響をさらに評価する。

Bike sharing demand is increasing in large cities worldwide. The proper functioning of bike-sharing systems is, nevertheless, dependent on a balanced geographical distribution of bicycles throughout a day. In this context, understanding the spatiotemporal distribution of check-ins and check-outs is key for station balancing and bike relocation initiatives. Still, recent contributions from deep learning and distance-based predictors show limited success on forecasting bike sharing demand. This consistent observation is hypothesized to be driven by: i) the strong dependence between demand and the meteorological and situational context of stations; and ii) the absence of spatial awareness as most predictors are unable to model the effects of high-low station load on nearby stations. This work proposes a comprehensive set of new principles to incorporate both historical and prospective sources of spatial, meteorological, situational and calendrical context in predictive models of station demand. To this end, a new recurrent neural network layering composed by serial long-short term memory (LSTM) components is proposed with two major contributions: i) the feeding of multivariate time series masks produced from historical context data at the input layer, and ii) the time-dependent regularization of the forecasted time series using prospective context data. This work further assesses the impact of incorporating different sources of context, showing the relevance of the proposed principles for the community even though not all improvements from the context-aware predictors yield statistical significance.
翻訳日:2021-05-06 03:14:58 公開日:2021-05-03
# (参考訳) 可変オートエンコーダを用いたマルチモーダルニューロイメージングデータの融合 [全文訳有]

Fusing multimodal neuroimaging data with a variational autoencoder ( http://arxiv.org/abs/2105.01128v1 )

ライセンス: CC BY 4.0
Eloy Geenjaar, Noah Lewis, Zening Fu, Rohan Venkatdas, Sergey Plis, Vince Calhoun(参考訳) 神経画像研究は、しばしば複数のデータモダリティの収集を伴う。 これらのモダリティは、脳に関する共有情報と相互排他的情報の両方を含んでいる。 本研究の目的は,可変オートエンコーダ(vae)を用いて,複数の神経画像の情報を融合するスケーラブルで解釈可能な方法を見出すことである。 初期評価を行うために,統合失調症分類タスクを用いて学習した表現を評価する。 表現に基づいて訓練された支持ベクトルマシンは、分類器の受信動作特性(ROC-AUC)0.8610の曲線下領域を達成する。

Neuroimaging studies often involve the collection of multiple data modalities. These modalities contain both shared and mutually exclusive information about the brain. This work aims at finding a scalable and interpretable method to fuse the information of multiple neuroimaging modalities using a variational autoencoder (VAE). To provide an initial assessment, this work evaluates the representations that are learned using a schizophrenia classification task. A support vector machine trained on the representations achieves an area under the curve for the classifier's receiver operating characteristic (ROC-AUC) of 0.8610.
翻訳日:2021-05-06 02:58:38 公開日:2021-05-03
# (参考訳) オンラインヘイト音声検出のためのマルチエージェントシステム [全文訳有]

Towards A Multi-agent System for Online Hate Speech Detection ( http://arxiv.org/abs/2105.01129v1 )

ライセンス: CC BY 4.0
Gaurav Sahu, Robin Cohen, Olga Vechtomova(参考訳) 本稿では,TwitterやFacebookなどのオンラインソーシャルメディアプラットフォームにおけるヘイトスピーチの存在を検出するマルチエージェントシステムを提案する。 本稿では,テキスト処理と即時処理のチャネルを協調する深層学習技術を用いた新しいフレームワークを提案する。 本実験は,オンラインコンテンツの分類手法の有効性を実証し,提案するニューラルネットワークモデルを訓練し,入力中の憎悪インスタンスを効果的に検出することを目的とした。 我々は,オンラインソーシャルネットワークを管理するユーザに対して,私たちのシステムがいかにしてレコメンデーションを提供するのかを議論し,インテリジェントなマルチエージェントシステムによる社会的善の提供の可能性を示す。

This paper envisions a multi-agent system for detecting the presence of hate speech in online social media platforms such as Twitter and Facebook. We introduce a novel framework employing deep learning techniques to coordinate the channels of textual and im-age processing. Our experimental results aim to demonstrate the effectiveness of our methods for classifying online content, training the proposed neural network model to effectively detect hateful instances in the input. We conclude with a discussion of how our system may be of use to provide recommendations to users who are managing online social networks, showcasing the immense potential of intelligent multi-agent systems towards delivering social good.
翻訳日:2021-05-06 02:50:11 公開日:2021-05-03
# (参考訳) ランク一致順序回帰を用いた臨床振動重症度予測 [全文訳有]

Prediction of clinical tremor severity using Rank Consistent Ordinal Regression ( http://arxiv.org/abs/2105.01133v1 )

ライセンス: CC BY-SA 4.0
Li Zhang, Vijay Yadav, Vidya Koesmahargyo, Anzar Abbas, Isaac Galatzer-Levy(参考訳) 震動はパーキンソン病(PD)、本態性震動(ET)、および他の中枢神経系(CNS)障害の重要な診断特徴である。 臨床医や訓練されたトレーナーは、患者を観察してTETRASスコアで震度を評価する。 隣り合う震動のスコアの区別が微妙であるため、測定値の欠如や観測者間の変動はほぼ避けられない。 さらに、臨床評価では、患者の訪問も必要であり、疾患進行の頻度が制限される。 したがって, 遠隔・反復的に患者の利便性を向上し, 継続的なモニタリングを行う自動評価を開発することが有用である。 そこで本研究では,36名の本態性振動患者の276名の臨床ビデオを用いて,ランク一貫性のある順序回帰を伴うディープニューラルネットワーク(DNN)を訓練することを提案した。 ビデオは、臨床医が評価したTETRASスコアと結合され、DNNを訓練するために真実のラベルとして使用される。 限られたトレーニングデータに対処するために、RGBフレームから無関係な背景や統計オブジェクトを除去するために光学フローを用いる。 光流に加えて、振動周波数推定の関連するタスクから事前学習したネットワーク重みを利用するために、転送学習を適用する。 このアプローチは、臨床ビデオのトレーニング(67%)とテストセット(0.33%)に分割して評価した。 テスト結果のtetrasスコアの平均絶対誤差は 0.45 であり、誤差のほとんどが隣接するラベルの不一致によるもので、予測され許容される。 モデル予測は臨床評価ともよく一致している。 このモデルは、"On"または"Off"の震動をオンにするデバイスを移植したPD患者から収集したスマートフォンビデオにも適用される。 モデル出力は患者の震動状態と一致していた。 その結果,我々のモデルが震えの深刻度を評価・追跡する手段として利用できることがわかった。

Tremor is a key diagnostic feature of Parkinson's Disease (PD), Essential Tremor (ET), and other central nervous system (CNS) disorders. Clinicians or trained raters assess tremor severity with TETRAS scores by observing patients. Lacking quantitative measures, inter- or intra- observer variabilities are almost inevitable as the distinction between adjacent tremor scores is subtle. Moreover, clinician assessments also require patient visits, which limits the frequency of disease progress evaluation. Therefore it is beneficial to develop an automated assessment that can be performed remotely and repeatably at patients' convenience for continuous monitoring. In this work, we proposed to train a deep neural network (DNN) with rank-consistent ordinal regression using 276 clinical videos from 36 essential tremor patients. The videos are coupled with clinician assessed TETRAS scores, which are used as ground truth labels to train the DNN. To tackle the challenge of limited training data, optical flows are used to eliminate irrelevant background and statistic objects from RGB frames. In addition to optical flows, transfer learning is also applied to leverage pre-trained network weights from a related task of tremor frequency estimate. The approach was evaluated by splitting the clinical videos into training (67%) and testing sets (0.33%). The mean absolute error on TETRAS score of the testing results is 0.45, indicating that most of the errors were from the mismatch of adjacent labels, which is expected and acceptable. The model predications also agree well with clinical ratings. This model is further applied to smart phone videos collected from a PD patient who has an implanted device to turn "On" or "Off" tremor. The model outputs were consistent with the patient tremor states. The results demonstrate that our trained model can be used as a means to assess and track tremor severity.
翻訳日:2021-05-06 02:35:32 公開日:2021-05-03
# (参考訳) テンソル分解による状態と行動表現の学習 [全文訳有]

Learning Good State and Action Representations via Tensor Decomposition ( http://arxiv.org/abs/2105.01136v1 )

ライセンス: CC BY 4.0
Chengzhuo Ni, Anru Zhang, Yaqi Duan, Mengdi Wang(参考訳) 連続状態反応マルコフ決定過程(MDP)の遷移核は自然なテンソル構造を持つ。 本稿では,経験的軌跡から意味のある低次元状態と行動表現を識別するテンソルにインスパイアされた教師なし学習法を提案する。 この方法は、カーネル化、重要サンプリング、低タッカーランク近似により、MDPのテンソル構造を利用する。 この方法は、それぞれ状態とアクションをクラスタリングし、最良の離散MDP抽象化を見つけるためにさらに利用できる。 テンソル濃度に対する鋭い統計的誤差境界と埋め込み後の拡散距離の保存を提供する。

The transition kernel of a continuous-state-act ion Markov decision process (MDP) admits a natural tensor structure. This paper proposes a tensor-inspired unsupervised learning method to identify meaningful low-dimensional state and action representations from empirical trajectories. The method exploits the MDP's tensor structure by kernelization, importance sampling and low-Tucker-rank approximation. This method can be further used to cluster states and actions respectively and find the best discrete MDP abstraction. We provide sharp statistical error bounds for tensor concentration and the preservation of diffusion distance after embedding.
翻訳日:2021-05-06 02:29:17 公開日:2021-05-03
# (参考訳) ディープニューラルネットワークを用いた3次元点雲の歩行者検出 [全文訳有]

Pedestrian Detection in 3D Point Clouds using Deep Neural Networks ( http://arxiv.org/abs/2105.01151v1 )

ライセンス: CC BY 4.0
\`Oscar Lorente, Josep R. Casas, Santiago Royo, Ivan Caminal(参考訳) 歩行者を検知することは、ドライバーや歩行者の安全を確保する自動運転システムにおいて重要な課題である。 これらのアルゴリズムに関わる技術は、環境条件にかかわらず正確かつ信頼性が求められる。 rgbカメラのみに頼ることは、カメラが適切に撮影できない状況で道路環境を認識するのに十分ではないかもしれない。 いくつかのアプローチは、RGBカメラとLIDARのようなTOFセンサーを組み合わせることで、これらの制限を補うことを目指している。 しかし、LIDARが提供する3次元幾何学情報のみを用いてこの問題に対処する研究はほとんどない。 本稿では,高密度3次元点群における歩行者検出のためのPointNet++アーキテクチャを提案する。 本研究の目的は,歩行者検出システムにおける幾何学的情報の潜在的寄与を探索することである。 また,rgb画像から歩行者および非ペデストリアンラベルを3dドメインに転送するセミオートマチックラベルシステムを提案する。 私たちのデータセットがポイントクラウドにRGBを登録しているという事実は、2Dバウンディングボックスからポイントクラウドへのバックプロジェクションによるラベル転送を可能にします。 我々はpointnet++を3dラベル付きクラスタの形状でトレーニングする。 提案手法の有効性を確認し,98%の精度とリコール値を得た。

Detecting pedestrians is a crucial task in autonomous driving systems to ensure the safety of drivers and pedestrians. The technologies involved in these algorithms must be precise and reliable, regardless of environment conditions. Relying solely on RGB cameras may not be enough to recognize road environments in situations where cameras cannot capture scenes properly. Some approaches aim to compensate for these limitations by combining RGB cameras with TOF sensors, such as LIDARs. However, there are few works that address this problem using exclusively the 3D geometric information provided by LIDARs. In this paper, we propose a PointNet++ based architecture to detect pedestrians in dense 3D point clouds. The aim is to explore the potential contribution of geometric information alone in pedestrian detection systems. We also present a semi-automatic labeling system that transfers pedestrian and non-pedestrian labels from RGB images onto the 3D domain. The fact that our datasets have RGB registered with point clouds enables label transferring by back projection from 2D bounding boxes to point clouds, with only a light manual supervision to validate results. We train PointNet++ with the geometry of the resulting 3D labelled clusters. The evaluation confirms the effectiveness of the proposed method, yielding precision and recall values around 98%.
翻訳日:2021-05-06 01:11:19 公開日:2021-05-03
# (参考訳) 追跡機械学習の課題 : スループットフェーズ [全文訳有]

The Tracking Machine Learning challenge : Throughput phase ( http://arxiv.org/abs/2105.01160v1 )

ライセンス: CC BY 4.0
Sabrina Amrouche, Laurent Basara, Paolo Calafiura, Dmitry Emeliyanov, Victor Estrade, Steven Farrell, C\'ecile Germain, Vladimir Vava Gligorov, Tobias Golling, Sergey Gorbunov, Heather Gray, Isabelle Guyon, Mikhail Hushchyn, Vincenzo Innocente, Moritz Kiehn, Marcel Kunze, Edward Moyse, David Rousseau, Andreas Salzburger, Andrey Ustyuzhanin, Jean-Roch Vlimant(参考訳) 本稿では,Codalabプラットフォーム上での追跡機械学習(TrackML)チャレンジの第2フェーズについて報告する。 最初の「精度」フェーズと同様に、参加者は粒子の軌道を正確に追跡することに関連する難しい実験問題を解く必要があった。 大型ハドロン衝突型加速器 (LHC): O($10^5$) 点が与えられたとき、参加者はそれらを O($10^4$) 個のグループに連結し、近似ヘリカルな粒子軌道を表す。 第1フェーズでは精度のみが問題であったが、この第2フェーズの目標は、精度と推論速度の妥協であった。 どちらも、参加者がソフトウェアをアップロードしなければならないCodalabプラットフォーム上で測定された。 ベスト3の参加者は、優れた精度と課題設計時の最先端技術よりも桁違いに速いスピードのソリューションを持っていた。 コアアルゴリズムは第1フェーズほど多様ではなかったが,様々な手法が用いられ,本論文で解説されている。 アルゴリズムの性能は、深さと教訓によって分析される。

This paper reports on the second "Throughput" phase of the Tracking Machine Learning (TrackML) challenge on the Codalab platform. As in the first "Accuracy" phase, the participants had to solve a difficult experimental problem linked to tracking accurately the trajectory of particles as e.g. created at the Large Hadron Collider (LHC): given O($10^5$) points, the participants had to connect them into O($10^4$) individual groups that represent the particle trajectories which are approximated helical. While in the first phase only the accuracy mattered, the goal of this second phase was a compromise between the accuracy and the speed of inference. Both were measured on the Codalab platform where the participants had to upload their software. The best three participants had solutions with good accuracy and speed an order of magnitude faster than the state of the art when the challenge was designed. Although the core algorithms were less diverse than in the first phase, a diversity of techniques have been used and are described in this paper. The performance of the algorithms are analysed in depth and lessons derived.
翻訳日:2021-05-06 01:00:46 公開日:2021-05-03
# (参考訳) ロシア超言語課題解決におけるルールベースヒューリスティックスの妥当な有効性 [全文訳有]

Unreasonable Effectiveness of Rule-Based Heuristics in Solving Russian SuperGLUE Tasks ( http://arxiv.org/abs/2105.01192v1 )

ライセンス: CC BY 4.0
Tatyana Iazykova, Denis Kapelyushnik, Olga Bystrova, Andrey Kutuzov(参考訳) SuperGLUEのようなリーダーボードは、現代の言語モデルの公正な比較のための標準ベンチマークを提供するため、NLPのアクティブな開発にとって重要なインセンティブであると考えられている。 彼らは、世界中の最高のエンジニアリングチームと彼らのリソースを協調させ、一般的な言語を理解するための一連のタスクを解決しました。 彼らのパフォーマンススコアは、しばしば人間のパフォーマンスに近いかそれ以上のものであると主張される。 これらの結果は、機械学習ベースの言語モデルが活用できる統計的手がかりを特徴付けるベンチマークデータセットの詳細な分析を促した。 英語データセットでは、アノテーションアーティファクトを含むことが多いことが示されている。 これにより、非常に単純なルールでタスクを解決し、競争力のあるランキングを達成できます。 本稿では、最近発表されたロシアの自然言語理解のためのベンチマークセットとリーダーボードであるロシアのSuperGLUE(RSG)について、同様の分析を行った。 テストデータセットは浅いヒューリスティックスに対して脆弱であることを示す。 単純なルールに基づくアプローチは、しばしば、GPT-3やBERTのような悪名高い事前訓練された言語モデルの結果よりも優れているか、あるいは近いものとなる。 最も単純な説明として)RSGのリーダーボードにおけるSOTAモデルのパフォーマンスのかなりの部分は、これらの浅いヒューリスティックを利用しており、実際の言語理解とは共通点がない。 我々は、これらのデータセットを改善する方法に関する一連の推奨事項を提供し、rsgリーダーボードがロシアのnluの本当の進歩をさらに示している。

Leader-boards like SuperGLUE are seen as important incentives for active development of NLP, since they provide standard benchmarks for fair comparison of modern language models. They have driven the world's best engineering teams as well as their resources to collaborate and solve a set of tasks for general language understanding. Their performance scores are often claimed to be close to or even higher than the human performance. These results encouraged more thorough analysis of whether the benchmark datasets featured any statistical cues that machine learning based language models can exploit. For English datasets, it was shown that they often contain annotation artifacts. This allows solving certain tasks with very simple rules and achieving competitive rankings. In this paper, a similar analysis was done for the Russian SuperGLUE (RSG), a recently published benchmark set and leader-board for Russian natural language understanding. We show that its test datasets are vulnerable to shallow heuristics. Often approaches based on simple rules outperform or come close to the results of the notorious pre-trained language models like GPT-3 or BERT. It is likely (as the simplest explanation) that a significant part of the SOTA models performance in the RSG leader-board is due to exploiting these shallow heuristics and that has nothing in common with real language understanding. We provide a set of recommendations on how to improve these datasets, making the RSG leader-board even more representative of the real progress in Russian NLU.
翻訳日:2021-05-06 00:33:20 公開日:2021-05-03
# (参考訳) ソフトウェア開発ライフサイクルフェーズにおける機械学習ソフトウェアアプリケーションの品質保証課題 [全文訳有]

Quality Assurance Challenges for Machine Learning Software Applications During Software Development Life Cycle Phases ( http://arxiv.org/abs/2105.01195v1 )

ライセンス: CC BY 4.0
Md Abdullah Al Alamin, Gias Uddin(参考訳) 過去数十年間、機械学習(ML)の革命的な進歩は、さまざまなタイプのソフトウェアシステムにMLモデルが急速に採用されていることを示している。 このような機械学習ソフトウェアアプリケーション(MLSA)は、私たちの日常生活において重要になっています。 そのため、MLSAの品質保証(QA)が最重要事項である。 いくつかの研究努力は、ソフトウェアシステムにMLモデルを採用する際に直面する具体的な課題を決定することに集中しています。 しかし、ソフトウェア開発ライフサイクル(SDLC)の様々な段階において、これらのML品質保証課題の分布に関する全体像を提示する研究は、全く知られていない。 本稿では,MLモデルの品質保証に着目した大量の研究論文について,詳細な文献レビューを行う。 SDLCの様々な段階にわたるML導入課題をマッピングし,MLSA品質保証問題の分類法を開発した。 分類に基づくSDLCの実践を改善するための勧告と研究の機会を提供する。 このマッピングは、mlモデルの採用が重要であると考えられるmlsasの品質保証作業の優先順位付けに役立つ。

In the past decades, the revolutionary advances of Machine Learning (ML) have shown a rapid adoption of ML models into software systems of diverse types. Such Machine Learning Software Applications (MLSAs) are gaining importance in our daily lives. As such, the Quality Assurance (QA) of MLSAs is of paramount importance. Several research efforts are dedicated to determining the specific challenges we can face while adopting ML models into software systems. However, we are aware of no research that offered a holistic view of the distribution of those ML quality assurance challenges across the various phases of software development life cycles (SDLC). This paper conducts an in-depth literature review of a large volume of research papers that focused on the quality assurance of ML models. We developed a taxonomy of MLSA quality assurance issues by mapping the various ML adoption challenges across different phases of SDLC. We provide recommendations and research opportunities to improve SDLC practices based on the taxonomy. This mapping can help prioritize quality assurance efforts of MLSAs where the adoption of ML models can be considered crucial.
翻訳日:2021-05-05 23:33:16 公開日:2021-05-03
# (参考訳) 不均衡データ分類のためのファジィラフセット理論を用いた重み付き最小二乗支持ベクトルマシン [全文訳有]

Weighted Least Squares Twin Support Vector Machine with Fuzzy Rough Set Theory for Imbalanced Data Classification ( http://arxiv.org/abs/2105.01198v1 )

ライセンス: CC BY 4.0
Maysam Behmanesh, Peyman Adibi, Hossein Karshenas(参考訳) サポートベクトルマシン(SVM)は、分類問題を解決するために開発された強力な教師付き学習ツールである。 しかし、SVMは不均衡なデータの分類において性能が劣る可能性が高い。 ラフセット理論は、データから無関係情報を取り除く方法を提供する非決定論的ケースにおける推論のための数学的ツールである。 本研究では、重み付き最小二乗サポートベクトルマシンFRLSTSVMにおけるファジィ粗集合理論を、不均衡データの分類に効率的に利用する手法を提案する。 最初のイノベーションは、アンダーサンプリング戦略に基づく新しいファジィラフセットを導入し、不均衡なデータの観点から分類器を堅牢にすることです。 FRLSTSVMで2つの近位超平面を構成する場合、マイノリティクラスのデータポイントは変わらないが、多数派クラスのデータポイントのサブセットは新しい方法で選択される。 本モデルでは, LSTSVM の定式化に重みバイアスを組み込んで, 不均衡データの分類のための元の双対SVMの偏り現象を克服する。 これらの重みをこの定式化で決定するために, ファジィ粗集合理論を第二の革新として用いる新しい戦略を導入した。 従来のSVM法と比較して,不均衡なデータ分類において提案したFRLSTSVMモデルの方が優れていることを示す。

Support vector machines (SVMs) are powerful supervised learning tools developed to solve classification problems. However, SVMs are likely to perform poorly in the classification of imbalanced data. The rough set theory presents a mathematical tool for inference in nondeterministic cases that provides methods for removing irrelevant information from data. In this work, we propose an approach that efficiently used fuzzy rough set theory in weighted least squares twin support vector machine called FRLSTSVM for classification of imbalanced data. The first innovation is introducing a new fuzzy rough set based under-sampling strategy to make the classifier robust in terms of imbalanced data. For constructing the two proximal hyperplanes in FRLSTSVM, data points from the minority class remain unchanged while a subset of data points in the majority class are selected using a new method. In this model, we embedded the weight biases in the LSTSVM formulations to overcome the bias phenomenon in the original twin SVM for the classification of imbalanced data. In order to determine these weights in this formulation, we introduced a new strategy that uses fuzzy rough set theory as the second innovation. Experimental results on famous imbalanced datasets, compared with related traditional SVM-based methods, demonstrate the superiority of our proposed FRLSTSVM model in imbalanced data classification.
翻訳日:2021-05-05 23:21:52 公開日:2021-05-03
# (参考訳) インターバル型時系列分類器を用いた全クリアフレア予測 [全文訳有]

All-Clear Flare Prediction Using Interval-based Time Series Classifiers ( http://arxiv.org/abs/2105.01202v1 )

ライセンス: CC BY 4.0
Anli Ji, Berkay Aydin, Manolis K. Georgoulis, Rafal Angryk(参考訳) オールクリアフレア予測(all-clear flare prediction)は、太陽フレア予測の一種で、非フレアインスタンス(しばしば比較的小さなフレアとフレア静かな領域)を高い精度で予測することに重点を置いている。 多くのフレア予測研究は直接この問題に対処しないが、全クラー予測は運用環境で有用である。 しかし、全明明な予測では、偽陰性(ミス)を避けることと偽陽性(偽アラーム)を減らすことの適切なバランスを見つけることはしばしば困難である。 本研究は,時系列フォレスト (TSF) と呼ばれるインターバルベース時系列分類器の訓練と試験に焦点を当てた。 これらの分類器は多変量時系列データを利用して全明度フレア予測システムを構築するために使用される。 本稿では,データ収集,予測モデル構築,評価プロセスについて紹介し,時系列分類モデルとベンチマークデータセットを用いたベースラインを比較した。 その結果, 時系列分類器は, スキルスコア, 正確度, リコール指標の観点でより良い予測結果を提供し, モデルハイパーパラメータのチューニングにより, より正確な全明度予測のためにさらに改善できることがわかった。

An all-clear flare prediction is a type of solar flare forecasting that puts more emphasis on predicting non-flaring instances (often relatively small flares and flare quiet regions) with high precision while still maintaining valuable predictive results. While many flare prediction studies do not address this problem directly, all-clear predictions can be useful in operational context. However, in all-clear predictions, finding the right balance between avoiding false negatives (misses) and reducing the false positives (false alarms) is often challenging. Our study focuses on training and testing a set of interval-based time series classifiers named Time Series Forest (TSF). These classifiers will be used towards building an all-clear flare prediction system by utilizing multivariate time series data. Throughout this paper, we demonstrate our data collection, predictive model building and evaluation processes, and compare our time series classification models with baselines using our benchmark datasets. Our results show that time series classifiers provide better forecasting results in terms of skill scores, precision and recall metrics, and they can be further improved for more precise all-clear forecasts by tuning model hyperparameters.
翻訳日:2021-05-05 23:03:29 公開日:2021-05-03
# ライドシェアリングのための強化学習:調査

Reinforcement Learning for Ridesharing: A Survey ( http://arxiv.org/abs/2105.01099v1 )

ライセンス: Link先を確認
Zhiwei Qin, Hongtu Zhu, and Jieping Ye(参考訳) 本稿では,相乗り問題に対する強化学習アプローチに関する文献の包括的かつ詳細な調査を行う。 ライドシェアのマッチング、車両の配置変更、相乗り、動的価格の話題に関する論文を取り上げている。 一般的なデータセットやオープンシミュレーション環境も導入されている。 次に,この重要な領域における強化学習研究の課題と機会について考察する。

In this paper, we present a comprehensive, in-depth survey of the literature on reinforcement learning approaches to ridesharing problems. Papers on the topics of rideshare matching, vehicle repositioning, ride-pooling, and dynamic pricing are covered. Popular data sets and open simulation environments are also introduced. Subsequently, we discuss a number of challenges and opportunities for reinforcement learning research on this important domain.
翻訳日:2021-05-05 13:06:37 公開日:2021-05-03
# ジェネレーティブ・アドバーサリー・ネットワークを用いた電子カルテからの時系列創傷予後因子の合成

Synthesizing time-series wound prognosis factors from electronic medical records using generative adversarial networks ( http://arxiv.org/abs/2105.01159v1 )

ライセンス: Link先を確認
Farnaz H. Foomani, D. M. Anisuzzaman, Jeffrey Niezgoda, Jonathan Niezgoda, William Guns, Sandeep Gopalakrishnan, Zeyun Yu(参考訳) 創傷予防モデルは、患者の治療に追随する動機づけとなる創傷治癒時間を推定するだけでなく、臨床医が標準的な治療や補助療法を使うかどうかを判断し、臨床試験の設計を支援するのに役立つ。 しかし、患者の電子カルテ(EMR)から予後因子を収集することは、プライバシ、感度、機密性のために困難である。 本研究では, 特別な創傷治療施設において, 定期治療中に収集された極めて限られた情報を用いて, 合成創傷予後因子を生成できる時系列医療生成敵ネットワーク(GAN)を開発した。 生成した予後変数は、慢性創傷治癒軌跡の予測モデルの開発に使用される。 我々の新しい医用GANは, EMRの連続的特徴と分類的特徴の両方を生み出すことができる。 さらに,患者の週次追跡から収集したデータを考慮し,時間的情報をモデルに適用した。 条件付きトレーニング戦略は, 癒しや非癒しの観点から, 訓練の強化と分類データの生成に活用された。 tstr(test on the synthetic, train on the real, discriminative accuracy, and visualization)を用いて,提案モデルによる現実的emrデータ生成能力の評価を行った。 提案したGANが生成したサンプルを用いて,予後モデルのトレーニングを行い,実生活への応用を実証した。 得られたサンプルをトレーニング予測モデルに使用することにより,以前のEMR-GANと比較して6.66-10.01%の分類精度が向上した。 さらに,提案した予後分類器は,最初の3回の訪問,最初の2回の訪問,および最初の訪問からのデータを用いてネットワークをトレーニングする際の曲線(AUC) 0.975, 0.968, 0.849の領域を達成した。 これらの結果は,従来の予後モデルと比較して創傷治癒予測が有意に改善したことを示している。

Wound prognostic models not only provide an estimate of wound healing time to motivate patients to follow up their treatments but also can help clinicians to decide whether to use a standard care or adjuvant therapies and to assist them with designing clinical trials. However, collecting prognosis factors from Electronic Medical Records (EMR) of patients is challenging due to privacy, sensitivity, and confidentiality. In this study, we developed time series medical generative adversarial networks (GANs) to generate synthetic wound prognosis factors using very limited information collected during routine care in a specialized wound care facility. The generated prognosis variables are used in developing a predictive model for chronic wound healing trajectory. Our novel medical GAN can produce both continuous and categorical features from EMR. Moreover, we applied temporal information to our model by considering data collected from the weekly follow-ups of patients. Conditional training strategies were utilized to enhance training and generate classified data in terms of healing or non-healing. The ability of the proposed model to generate realistic EMR data was evaluated by TSTR (test on the synthetic, train on the real), discriminative accuracy, and visualization. We utilized samples generated by our proposed GAN in training a prognosis model to demonstrate its real-life application. Using the generated samples in training predictive models improved the classification accuracy by 6.66-10.01% compared to the previous EMR-GAN. Additionally, the suggested prognosis classifier has achieved the area under the curve (AUC) of 0.975, 0.968, and 0.849 when training the network using data from the first three visits, first two visits, and first visit, respectively. These results indicate a significant improvement in wound healing prediction compared to the previous prognosis models.
翻訳日:2021-05-05 13:06:32 公開日:2021-05-03
# 未測定条件下での個別処理規則の確率的学習

Proximal Learning for Individualized Treatment Regimes Under Unmeasured Confounding ( http://arxiv.org/abs/2105.01187v1 )

ライセンス: Link先を確認
Zhengling Qi, Rui Miao, Xiaoke Zhang(参考訳) データ駆動の個人的意思決定は、最近研究の関心が高まっている。 既存の手法の多くは、特に観測研究において、不測の埋没を前提としないという仮定に頼っている。 近年提案された近位因果推論に動機づけられ,未測定の共起の存在下で最適な個別化治療レジーム (itrs) を推定する近位学習手法を開発した。 特に,不確定な仮定を犯すリスクと意思決定における値関数の改善とのトレードオフを示す,異なるIRRのクラスに対するいくつかの識別結果を確立する。 これらの結果に基づいて,クラス内最適ITRの多種多様な制限付き分類に基づく探索手法を提案し,その理論的性質を検証した。 提案手法の魅力的な数値計算性能を,広範なシミュレーション研究と1つの実データ応用により実証した。

Data-driven individualized decision making has recently received increasing research interests. Most existing methods rely on the assumption of no unmeasured confounding, which unfortunately cannot be ensured in practice especially in observational studies. Motivated by the recent proposed proximal causal inference, we develop several proximal learning approaches to estimating optimal individualized treatment regimes (ITRs) in the presence of unmeasured confounding. In particular, we establish several identification results for different classes of ITRs, exhibiting the trade-off between the risk of making untestable assumptions and the value function improvement in decision making. Based on these results, we propose several classification-based approaches to finding a variety of restricted in-class optimal ITRs and develop their theoretical properties. The appealing numerical performance of our proposed methods is demonstrated via an extensive simulation study and one real data application.
翻訳日:2021-05-05 13:03:33 公開日:2021-05-03
# 胸部x線写真とディープラーニングを用いた肺総量の自動推定

Automated Estimation of Total Lung Volume using Chest Radiographs and Deep Learning ( http://arxiv.org/abs/2105.01181v1 )

ライセンス: Link先を確認
Ecem Sogancioglu, Keelin Murphy, Ernst Th. Scholten, Luuk H. Boulogne, Mathias Prokop, and Bram van Ginneken(参考訳) 肺総容積は重要な定量的バイオマーカーであり、肺疾患の評価に用いられる。 本研究では,胸部X線写真からの肺全容自動計測のための深層学習手法の性能について検討した。 7621 胸部ct 患者から胸部x線写真および胸部x線写真(cxr)を採取した。 同様に、肺機能検査(PFT)の結果からCXR928例が選択された。 基準肺容積はCTおよびPFTデータ上の肺分画から算出した。 このデータセットは、胸部X線写真から肺の総容積を予測するディープラーニングアーキテクチャのトレーニングに使用された。 実験は、CT由来ラベルとエラーの原因のみを用いたトレーニングの効果を示すために、複雑さを増す段階的に構築された。 肺の基準容積をPFTで測定した291CXR実験において,最適モデルについて検討した。 最適深層学習回帰モデルでは,前部と外側の胸部x線写真の両方を入力として,maeが408ml,mapeが8.1\%,pearsonのr = 0.92であった。 CT由来のラベルは事前学習に有用であったが,ネットワークをPFT由来のラベルで微調整することで最適性能が得られた。 今回我々は,最先端のディープラーニングソリューションが胸部x線写真から肺総量を正確に測定できることを初めて実証した。 提案モデルでは, 胸部x線撮影を定期的に実施する患者の経時的傾向を把握できるため, 通常の胸部x線撮影から肺総量を得ることができる。

Total lung volume is an important quantitative biomarker and is used for the assessment of restrictive lung diseases. In this study, we investigate the performance of several deep-learning approaches for automated measurement of total lung volume from chest radiographs. 7621 posteroanterior and lateral view chest radiographs (CXR) were collected from patients with chest CT available. Similarly, 928 CXR studies were chosen from patients with pulmonary function test (PFT) results. The reference total lung volume was calculated from lung segmentation on CT or PFT data, respectively. This dataset was used to train deep-learning architectures to predict total lung volume from chest radiographs. The experiments were constructed in a step-wise fashion with increasing complexity to demonstrate the effect of training with CT-derived labels only and the sources of error. The optimal models were tested on 291 CXR studies with reference lung volume obtained from PFT. The optimal deep-learning regression model showed an MAE of 408 ml and a MAPE of 8.1\% and Pearson's r = 0.92 using both frontal and lateral chest radiographs as input. CT-derived labels were useful for pre-training but the optimal performance was obtained by fine-tuning the network with PFT-derived labels. We demonstrate, for the first time, that state-of-the-art deep learning solutions can accurately measure total lung volume from plain chest radiographs. The proposed model can be used to obtain total lung volume from routinely acquired chest radiographs at no additional cost and could be a useful tool to identify trends over time in patients referred regularly for chest x-rays.
翻訳日:2021-05-05 13:02:47 公開日:2021-05-03
# EBIC.JL - Juliaにおける進化的ビクラスタリングアルゴリズムの効率的な実装

EBIC.JL -- an Efficient Implementation of Evolutionary Biclustering Algorithm in Julia ( http://arxiv.org/abs/2105.01196v1 )

ライセンス: Link先を確認
Pawe{\l} Renc, Patryk Orzechowski, Aleksander Byrski, Jaros{\l}aw W\k{a}s, and Jason H. Moore(参考訳) biclusteringは、バイオインフォマティクスにおける主な応用として、数値表データ内のローカルパターンを検索するデータマイニング手法である。 この手法は、がんのバイオマーカーの開発、疾患のサブタイプ同定、遺伝子と薬物の相互作用など、様々な領域で期待されている。 本稿では,データサイエンスのための並列化可能な現代プログラミング言語である Julia において,最も正確なビクラスタリングアルゴリズムの実装である EBIC.JL を紹介する。 新たなバージョンでは,既存のEBICと同等の精度を維持しつつ,ほとんどの問題に対してより高速に収束することを示す。 ハイレベルなプログラミング言語におけるこのオープンソースソフトウェアが、バイオインフォマティクスの有望な分野の研究を後押しし、ビッグデータのための新しいビクラスタリング手法の開発を迅速化することを願っている。

Biclustering is a data mining technique which searches for local patterns in numeric tabular data with main application in bioinformatics. This technique has shown promise in multiple areas, including development of biomarkers for cancer, disease subtype identification, or gene-drug interactions among others. In this paper we introduce EBIC.JL - an implementation of one of the most accurate biclustering algorithms in Julia, a modern highly parallelizable programming language for data science. We show that the new version maintains comparable accuracy to its predecessor EBIC while converging faster for the majority of the problems. We hope that this open source software in a high-level programming language will foster research in this promising field of bioinformatics and expedite development of new biclustering methods for big data.
翻訳日:2021-05-05 13:01:43 公開日:2021-05-03
# スカラー形容詞識別と多言語ランキング

Scalar Adjective Identification and Multilingual Ranking ( http://arxiv.org/abs/2105.01180v1 )

ライセンス: Link先を確認
Aina Gar\'i Soler and Marianna Apidianaki(参考訳) スカラー形容詞間の強度関係(例: nice < great < wonderful)は、自然言語の推論と常識推論に非常に関係している。 スカラー形容詞ランキングに関するこれまでの研究は、主に評価のためのデータセットが利用できるため、英語に焦点を当ててきた。 新しい言語におけるスカラー形容詞の研究を促進するために,新しい多言語データセットを導入する。 我々は、単言語および多言語文脈言語モデルを用いて、一連の実験を行い、このデータセットにパフォーマンスベースラインを設定する。 さらに、関係形容詞とスカラーを区別する能力を検証した英文スカラー形容詞識別のための新たな二分分類タスクを導入する。 本課題の今後の比較のために,文脈表現とレポートベースラインの結果を探索する。

The intensity relationship that holds between scalar adjectives (e.g., nice < great < wonderful) is highly relevant for natural language inference and common-sense reasoning. Previous research on scalar adjective ranking has focused on English, mainly due to the availability of datasets for evaluation. We introduce a new multilingual dataset in order to promote research on scalar adjectives in new languages. We perform a series of experiments and set performance baselines on this dataset, using monolingual and multilingual contextual language models. Additionally, we introduce a new binary classification task for English scalar adjective identification which examines the models' ability to distinguish scalar from relational adjectives. We probe contextualised representations and report baseline results for future comparison on this task.
翻訳日:2021-05-05 13:01:27 公開日:2021-05-03
# カードゲームAIのための評価関数の進化

Evolving Evaluation Functions for Collectible Card Game AI ( http://arxiv.org/abs/2105.01115v1 )

ライセンス: Link先を確認
Rados{\l}aw Miernik, Jakub Kowalski(参考訳) 本研究では,機能ベースのゲーム評価機能の進化において,ゲノム表現の選択とモデルテストに用いる相手の選択という2つの重要な側面について検討した。 我々は3つの表現を比較した。 1つはより単純でより限定的で、事前に定義されたゲーム特徴の線形結合に使用される重みのベクトルに基づいている。 二進木と二進木に基づく、さらに複雑な2つの木。 また,本テストでは,固定弱相手と対戦し,固定強相手と対戦し,前者から最高の個人と対戦する,シミュレーションに基づく機能として定義されたフィットネスの影響についても検討した。 テストベッドでは、最近普及したデジタル収集可能なカードゲームのドメインを選択しました。 私たちは、戦略カードゲームAIコンペティションで使用されるプログラミングゲーム、Regends of Code and Magicで実験をエンコードしました。 しかしながら、一般に述べられている問題は、我々の観察が他の領域でも適用できると確信している。

In this work, we presented a study regarding two important aspects of evolving feature-based game evaluation functions: the choice of genome representation and the choice of opponent used to test the model. We compared three representations. One simpler and more limited, based on a vector of weights that are used in a linear combination of predefined game features. And two more complex, based on binary and n-ary trees. On top of this test, we also investigated the influence of fitness defined as a simulation-based function that: plays against a fixed weak opponent, plays against a fixed strong opponent, and plays against the best individual from the previous population. For a testbed, we have chosen a recently popular domain of digital collectible card games. We encoded our experiments in a programming game, Legends of Code and Magic, used in Strategy Card Game AI Competition. However, as the problems stated are of general nature we are convinced that our observations are applicable in the other domains as well.
翻訳日:2021-05-05 13:00:45 公開日:2021-05-03
# sketches image analysis: lsh index と dnn inceptionv3 を用いた web 画像検索エンジン

Sketches image analysis: Web image search engine usingLSH index and DNN InceptionV3 ( http://arxiv.org/abs/2105.01147v1 )

ライセンス: Link先を確認
Alessio Schiavo, Filippo Minutella, Mattia Daole, Marsha Gomez Gomez(参考訳) 適切な近似類似性探索法を採用することは、特に大量のデータを扱う際に、高速で効率的なCBIRシステムの開発に必須の前提条件である。 本研究では,LSH(Locality Sensitive Hashing)インデックス上にWeb画像検索エンジンを実装し,より深い特徴を高速に類似性検索できるようにする。 具体的には,画像からの深い特徴抽出に転送学習を利用する。 まず、ImageNet Asfeatures extractorで事前トレーニングされたInceptionV3を採用し、次に、InceptionV3上に構築されたCNNを、データセットで微調整された畳み込みベースとして試しました。 前回の2つのケースでは,検索性能を微調整せずに比較するために,ourlsh インデックス実装で抽出された特徴をインデックス化する。このアプローチでは,2つの異なる lsh 実装を試す。 興味深いことに, 2進LSHを用いた場合, 平均平均精度でほぼ同じ値に達すると, 特徴の逐次スキャンを行い, LSH指数によるバイアスを回避することができる。 最後に,クラス毎のパフォーマンス分析クラスを,期待通り,両クラス間に強い正の相関関係を示すrecall対maphighlightingを用いて実施する。

The adoption of an appropriate approximate similarity search method is an essential prereq-uisite for developing a fast and efficient CBIR system, especially when dealing with large amount ofdata. In this study we implement a web image search engine on top of a Locality Sensitive Hashing(LSH) Index to allow fast similarity search on deep features. Specifically, we exploit transfer learningfor deep features extraction from images. Firstly, we adopt InceptionV3 pretrained on ImageNet asfeatures extractor, secondly, we try out several CNNs built on top of InceptionV3 as convolutionalbase fine-tuned on our dataset. In both of the previous cases we index the features extracted within ourLSH index implementation so as to compare the retrieval performances with and without fine-tuning.In our approach we try out two different LSH implementations: the first one working with real numberfeature vectors and the second one with the binary transposed version of those vectors. Interestingly,we obtain the best performances when using the binary LSH, reaching almost the same result, in termsof mean average precision, obtained by performing sequential scan of the features, thus avoiding thebias introduced by the LSH index. Lastly, we carry out a performance analysis class by class in terms ofrecall againstmAPhighlighti ng, as expected, a strong positive correlation between the two.
翻訳日:2021-05-05 12:59:56 公開日:2021-05-03
# メタデータ支援型Re-IDとトラジェクトリベースカメラリンクモデルを用いた車両のマルチターゲットマルチカメラ追跡

Multi-Target Multi-Camera Tracking of Vehicles using Metadata-Aided Re-ID and Trajectory-Based Camera Link Model ( http://arxiv.org/abs/2105.01213v1 )

ライセンス: Link先を確認
Hung-Min Hsu, Jiarui Cai, Yizhou Wang, Jenq-Neng Hwang, Kwang-Ju Kim(参考訳) 本稿では,メタデータ支援再識別(MA-ReID)と軌道ベースカメラリンクモデル(TCLM)に基づく車両のマルチターゲットマルチカメラトラッキング(MTMCT)のための新しいフレームワークを提案する。 ビデオシーケンスとそれに対応するフレーム・バイ・フレームの車両検出を条件として,提案したトラフィック対応シングルカメラトラッキング(TSCT)による単一カメラトラッキング(SCT)から分離されたトラックレット問題に対処する。 そして,TLMを自動構築した後,MA-ReID を用いて MTMCT を解く。 TCLMは、カメラトポロジカルな構成から生成され、空間的および時間的情報を取得し、ReIDの候補探索を低減し、MTMCTの性能を向上させる。 また、時間的注意モデルを用いて、各カメラからのトラジェクトリのより差別的な埋め込みを作成し、車載ReIDの堅牢な距離測定を行う。 さらに、MTMCTのメタデータ分類器を訓練して、時間的注意に基づく埋め込みと結合したメタデータ特徴を得る。 最後に、tlmと階層クラスタリングがグローバルid割り当てに適用される。 提案手法はcityflowデータセット上で評価され,idf176.77%となり,最先端mtmct法を上回った。

In this paper, we propose a novel framework for multi-target multi-camera tracking (MTMCT) of vehicles based on metadata-aided re-identification (MA-ReID) and the trajectory-based camera link model (TCLM). Given a video sequence and the corresponding frame-by-frame vehicle detections, we first address the isolated tracklets issue from single camera tracking (SCT) by the proposed traffic-aware single-camera tracking (TSCT). Then, after automatically constructing the TCLM, we solve MTMCT by the MA-ReID. The TCLM is generated from camera topological configuration to obtain the spatial and temporal information to improve the performance of MTMCT by reducing the candidate search of ReID. We also use the temporal attention model to create more discriminative embeddings of trajectories from each camera to achieve robust distance measures for vehicle ReID. Moreover, we train a metadata classifier for MTMCT to obtain the metadata feature, which is concatenated with the temporal attention based embeddings. Finally, the TCLM and hierarchical clustering are jointly applied for global ID assignment. The proposed method is evaluated on the CityFlow dataset, achieving IDF1 76.77%, which outperforms the state-of-the-art MTMCT methods.
翻訳日:2021-05-05 12:59:31 公開日:2021-05-03
# ソーシャル読者のモデリング:オンライン書評からのレセプションに対応する新しいツール

Modeling Social Readers: Novel Tools for Addressing Reception from Online Book Reviews ( http://arxiv.org/abs/2105.01150v1 )

ライセンス: Link先を確認
Pavan Holur, Shadi Shahsavari, Ehsan Ebrahimizadeh, Timothy R. Tangherlini, Vwani Roychowdhury(参考訳) 文学に対する読者の反応は、計算文学研究において注目されている。 ソーシャルメディアの台頭は、これらの応答のセグメントを捉える機会を提供し、データ駆動分析は、人々が「読む」方法に関する新たな重要な洞察を提供する。 人気文学のユーザーディスカッションを司るソーシャルメディアプラットフォームであるGoodreadsに関する個々の本について議論する投稿は「レビュー」と呼ばれ、プロットの要約、意見、引用、あるいはこれらを混ぜたものから成っている。 これらのレビューは読者によって書かれたので、計算的にモデル化することで、作品のプロットの要約、イベントの重要性の暗黙のランキング、メインキャラクターの読者の印象など、仕事に関する全体的な非プロフェッショナルな議論空間を見つけることができる。 我々は、この読者生成した共有物語モデルの表現を抽出するために、インターロック計算ツールのパイプラインを開発する。 5つの人気小説のレビューのコーパスを用いて、小説における主要ストーリーラインの読者の蒸留、キャラクターの相対的重要性の理解、そしてこれらのキャラクターに対する読者の様々な印象を見出した。 そこで我々は,無限語彙ネットワークの研究に3つの重要な貢献をしている: (i)メタアクターを含む自動生成物語ネットワーク, (ii) レビューから集約された部分軌跡に基づく事象のコンセンサスシーケンスを生成する新しいシーケンシングアルゴリズムREV2SEQ, (iii) 読者の意見のより細かい,非自明でマルチモーダルな洞察を提供する新しい「印象」アルゴリズムSENT2IMP。

Readers' responses to literature have received scant attention in computational literary studies. The rise of social media offers an opportunity to capture a segment of these responses while data-driven analysis of these responses can provide new critical insight into how people "read". Posts discussing an individual book on Goodreads, a social media platform that hosts user discussions of popular literature, are referred to as "reviews", and consist of plot summaries, opinions, quotes, or some mixture of these. Since these reviews are written by readers, computationally modeling them allows one to discover the overall non-professional discussion space about a work, including an aggregated summary of the work's plot, an implicit ranking of the importance of events, and the readers' impressions of main characters. We develop a pipeline of interlocking computational tools to extract a representation of this reader generated shared narrative model. Using a corpus of reviews of five popular novels, we discover the readers' distillation of the main storylines in a novel, their understanding of the relative importance of characters, as well as the readers' varying impressions of these characters. In so doing, we make three important contributions to the study of infinite vocabulary networks: (i) an automatically derived narrative network that includes meta-actants; (ii) a new sequencing algorithm, REV2SEQ, that generates a consensus sequence of events based on partial trajectories aggregated from the reviews; and (iii) a new "impressions" algorithm, SENT2IMP, that provides finer, non-trivial and multi-modal insight into readers' opinions of characters.
翻訳日:2021-05-05 12:54:57 公開日:2021-05-03
# 新型コロナウイルス感染地域社会におけるコミュニケーションのテキスト分析

Textual Analysis of Communications in COVID-19 Infected Community on Social Media ( http://arxiv.org/abs/2105.01189v1 )

ライセンス: Link先を確認
Yuhan Liu, Yuhan Gao, Zhifan Nan, Long Chen(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、人々はソーシャルメディアでパンデミックに関連する話題について議論し始めた。 subreddit \textit{r/COVID19 positive} では、ポジティブな検査結果を得た人々の経験、感染したと思われる人々の物語、パンデミックと病気に関する質問など、多くのトピックが議論または共有されている。 本研究では,言語学的観点から,サブレディットに関する議論の性質について理解しようと試みる。 言語特性の差異(例)を見出した。 心理的、感情的、推論) トピックのカテゴリが3つあります。 また,SOTA事前学習言語モデルを用いて,投稿を分類した。 このような分類モデルは、ソーシャルメディアにおけるパンデミック関連の研究に利用できる。

During the COVID-19 pandemic, people started to discuss about pandemic-related topics on social media. On subreddit \textit{r/COVID19positive}, a number of topics are discussed or being shared, including experience of those who got a positive test result, stories of those who presumably got infected, and questions asked regarding the pandemic and the disease. In this study, we try to understand, from a linguistic perspective, the nature of discussions on the subreddit. We found differences in linguistic characteristics (e.g. psychological, emotional and reasoning) across three different categories of topics. We also classified posts into the different categories using SOTA pre-trained language models. Such classification model can be used for pandemic-related research on social media.
翻訳日:2021-05-05 12:54:25 公開日:2021-05-03
# laborecommender: 実験室テストにpythonベースのレコメンダシステムを使うのは簡単

LaboRecommender: A crazy-easy to use Python-based recommender system for laboratory tests ( http://arxiv.org/abs/2105.01209v1 )

ライセンス: Link先を確認
Fabi\'an Villena(参考訳) 臨床検査は、診断の疑いの確認や医学的判断に影響を与えるため、臨床意思決定において重要な役割を果たす。 実験室技術の急速な進歩により,我々の時代の医師が利用できる実験室の数は急速に増加している。 この拡大する多くの要素の中で正しい望ましいテストを見つけるためには、健康情報システムは強力な検索エンジンを提供しなければならず、検査官は検査の袋を順番に選ぶために、検査検査の正確な名前を覚えなければならない。 リコメンダシステムは、ユーザの振る舞いを学習した後、適切なアイテムをユーザに提案するプラットフォームである。 類似の袋を近隣のアルゴリズムでクラスタリングし, 互いに類似した実験袋のテストの推薦を行う, 提案システムをモデル化するために, 近隣のコラボレーティブフィルタリング法が用いられた。 本論文で開発したレコメンデータシステムは平均精度測定値で95.54 %を達成した。 この論文で提案したアルゴリズムを実装するために, LaboRecommender という完全ドキュメントの Python パッケージを開発した。

Laboratory tests play a major role in clinical decision making because they are essential for the confirmation of diagnostics suspicions and influence medical decisions. The number of different laboratory tests available to physicians in our age has been expanding very rapidly due to the rapid advances in laboratory technology. To find the correct desired tests within this expanding plethora of elements, the Health Information System must provide a powerful search engine and the practitioner need to remember the exact name of the laboratory test to correctly select the bag of tests to order. Recommender systems are platforms which suggest appropriate items to a user after learning the users' behaviour. A neighbourhood-based collaborative filtering method was used to model the recommender system, where similar bags, clustered using nearest neighbours algorithm, are used to make recommendations of tests for each other similar bag of laboratory tests. The recommender system developed in this paper achieved 95.54 % in the mean average precision metric. A fully documented Python package named LaboRecommender was developed to implement the algorithm proposed in this paper
翻訳日:2021-05-05 12:53:35 公開日:2021-05-03
# 非実験データから何百万ものランダムな治療が原因を明らかにすることができるのか?

What can the millions of random treatments in nonexperimental data reveal about causes? ( http://arxiv.org/abs/2105.01152v1 )

ライセンス: Link先を確認
Andre F. Ribeiro, Frank Neffke and Ricardo Hausmann(参考訳) 非実験データから因果効果を推定する新しい手法を提案する。 それぞれのサンプル単位は、まず、単位間の因子の確率的な「処理」差と、結果の差である効果に関連付けられる。 観察データにおける因果効果をより正確に推定するためにこれらのペアを組み合わせることが提案され、治療の組合せ特性とそれらの効果の正確さと偏りを結びつける統計モデルを提供した。 この記事ではそのようなモデルとベイズ的アプローチを紹介し、通常、実験的でないデータで利用できる$O(n^2)$ペアの観測を組み合わせている。 これはまた、実験的でないデータセットを理想的な因子的実験設計の不完全な、あるいはノイズの多いバージョンとして解釈する。 This approach to causal effect estimation has several advantages: (1) it expands the number of observations, converting thousands of individuals into millions of observational treatments; (2) starting with treatments closest to the experimental ideal, it identifies noncausal variables that can be ignored in the future, making estimation easier in each subsequent iteration while departing minimally from experiment-like conditions; (3) it recovers individual causal effects in heterogeneous populations. シミュレーションの手法と,ランダムフィールド実験から効果が判明した集中的なプログラムであるnational supported work (nsw) プログラムの評価を行った。 提案手法は、共通のNSWサンプルの因果関係を回復し、任意のサブポピュレーションや、全国のプログラムデータ全体の大局的なスーパーサンプル、統計、計量、機械学習推定器を全て上回っていることを実証する。

We propose a new method to estimate causal effects from nonexperimental data. Each pair of sample units is first associated with a stochastic 'treatment' - differences in factors between units - and an effect - a resultant outcome difference. It is then proposed that all such pairs can be combined to provide more accurate estimates of causal effects in observational data, provided a statistical model connecting combinatorial properties of treatments to the accuracy and unbiasedness of their effects. The article introduces one such model and a Bayesian approach to combine the $O(n^2)$ pairwise observations typically available in nonexperimnetal data. This also leads to an interpretation of nonexperimental datasets as incomplete, or noisy, versions of ideal factorial experimental designs. This approach to causal effect estimation has several advantages: (1) it expands the number of observations, converting thousands of individuals into millions of observational treatments; (2) starting with treatments closest to the experimental ideal, it identifies noncausal variables that can be ignored in the future, making estimation easier in each subsequent iteration while departing minimally from experiment-like conditions; (3) it recovers individual causal effects in heterogeneous populations. We evaluate the method in simulations and the National Supported Work (NSW) program, an intensively studied program whose effects are known from randomized field experiments. We demonstrate that the proposed approach recovers causal effects in common NSW samples, as well as in arbitrary subpopulations and an order-of-magnitude larger supersample with the entire national program data, outperforming Statistical, Econometrics and Machine Learning estimators in all cases...
翻訳日:2021-05-05 12:51:15 公開日:2021-05-03
# 信頼認識計画:人間とロボットの縦断的相互作用における信頼進化のモデリング

Trust-Aware Planning: Modeling Trust Evolution in Longitudinal Human-Robot Interaction ( http://arxiv.org/abs/2105.01220v1 )

ライセンス: Link先を確認
Zahra Zahedi, Mudit Verma, Sarath Sreedharan, Subbarao Kambhampati(参考訳) チームメンバ間の信頼は、成功する協力には不可欠です。 したがって、仲間のチームメンバの信頼の獲得と維持は、タスクへの参加を成功させるだけでなく、チームが目標を達成するために、すべてのメンバにとって中心的な責任となる。 信頼管理の問題は、人間とロボットが目の前のタスクについて異なるモデルを持ち、現在の行動方針について異なる期待を抱いており、ロボットにコストのかかる行動に集中させるような人間とロボットの混成チームにおいて特に困難である。 本研究では,人間とロボットの相互作用における信頼の獲得と調整のための計算モデルを提案する。 我々のモデルでは、ロボットは人間の信頼とロボットからの期待をその計画プロセスに統合し、相互作用の地平線に対する信頼を構築し維持する。 必要なレベルの信頼を確立することで、ロボットは、人間の監督の監視を気にせずに明示的な説明や説明可能な行動を誘発し、必ずしも理解できない行動を止めることで、チームのゴールを最大化することに集中することができる。 私たちは、個々の計画タスクよりも、信頼レベルに関する推論をメタ推論プロセスとしてモデル化します。 さらに、人間の被験者実験を通じてモデルを検証する。

Trust between team members is an essential requirement for any successful cooperation. Thus, engendering and maintaining the fellow team members' trust becomes a central responsibility for any member trying to not only successfully participate in the task but to ensure the team achieves its goals. The problem of trust management is particularly challenging in mixed human-robot teams where the human and the robot may have different models about the task at hand and thus may have different expectations regarding the current course of action and forcing the robot to focus on the costly explicable behavior. We propose a computational model for capturing and modulating trust in such longitudinal human-robot interaction, where the human adopts a supervisory role. In our model, the robot integrates human's trust and their expectations from the robot into its planning process to build and maintain trust over the interaction horizon. By establishing the required level of trust, the robot can focus on maximizing the team goal by eschewing explicit explanatory or explicable behavior without worrying about the human supervisor monitoring and intervening to stop behaviors they may not necessarily understand. We model this reasoning about trust levels as a meta reasoning process over individual planning tasks. We additionally validate our model through a human subject experiment.
翻訳日:2021-05-05 12:50:50 公開日:2021-05-03
# 注意に基づく推論アーキテクチャモデリングのためのイベントカメラシミュレータ設計

Event Camera Simulator Design for Modeling Attention-based Inference Architectures ( http://arxiv.org/abs/2105.01203v1 )

ライセンス: Link先を確認
Md Jubaer Hossain Pantho, Joel Mandebi Mbongue, Pankaj Bhowmik, Christophe Bobda(参考訳) 近年,画像センサのレベルでますます多くの計算を統合する手法の実現への関心が高まっている。 上昇する傾向は、センサ内でCNN計算を直接促進できる新しいイベントカメラの開発に対する研究の関心が高まっている。 しかし、イベントベースのカメラは一般には利用できないため、ハイレベルモデルやアルゴリズムの性能調査は制限されている。 本稿では,ハードウェア設計プロトタイピング,パラメータ最適化,注意に基づく革新的なアルゴリズム開発,ベンチマークを行うための強力なツールとなるイベントカメラシミュレータを提案する。 提案するシミュレータは,画像フレーム内の関連領域を特定する分散計算モデルを実装している。 シミュレータの関連計算モデルはモジュールの集合として実現され,並列に計算を行う。 分散計算モデルは構成可能であり、設計空間探索に非常に有用である。 シミュレータのレンダリングエンジンは、新しいイベントが発生した場合にのみフレーム領域をサンプリングする。 シミュレータは、物理カメラと同様の画像処理パイプラインを密にエミュレートする。 実験の結果,シミュレータは低オーバーヘッドでイベントビジョンを効果的にエミュレートできることがわかった。

In recent years, there has been a growing interest in realizing methodologies to integrate more and more computation at the level of the image sensor. The rising trend has seen an increased research interest in developing novel event cameras that can facilitate CNN computation directly in the sensor. However, event-based cameras are not generally available in the market, limiting performance exploration on high-level models and algorithms. This paper presents an event camera simulator that can be a potent tool for hardware design prototyping, parameter optimization, attention-based innovative algorithm development, and benchmarking. The proposed simulator implements a distributed computation model to identify relevant regions in an image frame. Our simulator's relevance computation model is realized as a collection of modules and performs computations in parallel. The distributed computation model is configurable, making it highly useful for design space exploration. The Rendering engine of the simulator samples frame-regions only when there is a new event. The simulator closely emulates an image processing pipeline similar to that of physical cameras. Our experimental results show that the simulator can effectively emulate event vision with low overheads.
翻訳日:2021-05-05 12:48:35 公開日:2021-05-03
# 局所的レベルセット損失を伴う弱改善ユニバーサル病変分割

Weakly-Supervised Universal Lesion Segmentation with Regional Level Set Loss ( http://arxiv.org/abs/2105.01218v1 )

ライセンス: Link先を確認
Youbao Tang, Jinzheng Cai, Ke Yan, Lingyun Huang, Guotong Xie, Jing Xiao, Jingjing Lu, Gigin Lin, and Le Lu(参考訳) 全身ctスキャンから臨床上有意な病変を高精度に分画することは,universal lesion segmentation (uls) と呼ばれる精密腫瘍イメージングにおいて重要な課題である。 手動アノテーションは現在の臨床実践であり、非常に時間がかかり、腫瘍の縦断的評価に矛盾する。 自動セグメンテーションモデルを効果的に訓練することは望ましいが、多数のピクセル単位のラベル付きデータに大きく依存する。 既存の弱い教師付きセグメンテーションアプローチは、しばしば病変境界付近の領域に苦しむ。 本稿では,HRNet(High-Resoluti on Network, High-Resolution Network, High-Resolution Network, AHRNet)をベースとしたアテンション強化モデルを構築し,病変境界線を最適化するための地域レベルセット(RLS)損失を提案する。 ahrnetは、デコーダ、デュアルアテンション、スケールアテンション機構を含む高度な高分解能のディープイメージ機能を提供しており、正確な病変のセグメンテーションの実行に不可欠である。 RLSはモデルを確実かつ効果的に、弱い教師付きで最適化することができ、セグメント化を病変境界に近づける。 大規模なDeepLesionデータセットとホールドアウトテストセットにおいて,本手法が最高の性能を発揮することを示す。

Accurately segmenting a variety of clinically significant lesions from whole body computed tomography (CT) scans is a critical task on precision oncology imaging, denoted as universal lesion segmentation (ULS). Manual annotation is the current clinical practice, being highly time-consuming and inconsistent on tumor's longitudinal assessment. Effectively training an automatic segmentation model is desirable but relies heavily on a large number of pixel-wise labelled data. Existing weakly-supervised segmentation approaches often struggle with regions nearby the lesion boundaries. In this paper, we present a novel weakly-supervised universal lesion segmentation method by building an attention enhanced model based on the High-Resolution Network (HRNet), named AHRNet, and propose a regional level set (RLS) loss for optimizing lesion boundary delineation. AHRNet provides advanced high-resolution deep image features by involving a decoder, dual-attention and scale attention mechanisms, which are crucial to performing accurate lesion segmentation. RLS can optimize the model reliably and effectively in a weakly-supervised fashion, forcing the segmentation close to lesion boundary. Extensive experimental results demonstrate that our method achieves the best performance on the publicly large-scale DeepLesion dataset and a hold-out test set.
翻訳日:2021-05-05 12:48:19 公開日:2021-05-03
# マルコフ個体群モデルの定常分布に対する抽象化誘導トレンシング

Abstraction-Guided Truncations for Stationary Distributions of Markov Population Models ( http://arxiv.org/abs/2105.01536v1 )

ライセンス: Link先を確認
Michael Backenk\"ohler, Luca Bortolussi, Gerrit Gro{\ss}mann, Verena Wolf(参考訳) マルコフ集団モデルの長期的挙動を理解するために、定常分布の計算はしばしば重要な部分である。 グリッド構造における状態のアグリゲーションである状態空間ラッピングスキームを用いるトラニケーションに基づく近似を提案する。 得られた近似定常分布は、状態空間の無関係な部分を反復的に洗練し、切断するために用いられる。 このようにして、このアルゴリズムは定常挙動に合わせた良好な有限状態射影を学習する。 複雑な定常挙動を持つ非線形問題に対して,本手法の適用性を示す。

To understand the long-run behavior of Markov population models, the computation of the stationary distribution is often a crucial part. We propose a truncation-based approximation that employs a state-space lumping scheme, aggregating states in a grid structure. The resulting approximate stationary distribution is used to iteratively refine relevant and truncate irrelevant parts of the state-space. This way, the algorithm learns a well-justified finite-state projection tailored to the stationary behavior. We demonstrate the method's applicability to a wide range of non-linear problems with complex stationary behaviors.
翻訳日:2021-05-05 12:46:50 公開日:2021-05-03
# AI支援超解像宇宙学シミュレーションII:ハロ部分構造,速度,高次統計

AI-assisted super-resolution cosmological simulations II: Halo substructures, velocities and higher order statistics ( http://arxiv.org/abs/2105.01016v1 )

ライセンス: Link先を確認
Yueying Ni, Yin Li, Patrick Lachance, Rupert A. C. Croft, Tiziana Di Matteo, Simeon Bird, Yu Feng(参考訳) 本研究では,最近開発された超高分解能(SR)モデルの能力を拡張し,計算コストの低い低分解能(LR)宇宙論的N体シミュレーションから全位相空間の物質分布を高分解能(HR)で実現した。 SRモデルは512倍のトレーサー粒子を生成し、複雑な構造形成過程が起こる深い非線形状態に拡張することで、シミュレーションの解決を強化する。 箱サイズ100mpc/hの10実験シミュレーションでsrモデルをデプロイしてsrモデルを検証し,赤方偏移空間における物質パワースペクトル,バイスペクトル,および2次元パワースペクトルについて検討した。 生成したSR場は真のHR結果と一致し、k ~ 10 h/Mpc のスケールとなる。 また、暗黒物質ハロとそのサブ構造を同定・検査する。 我々のSRモデルは、LR入力では解決できず、実際のHR結果と統計的によく一致しない、視覚的に真の小型構造を生成する。 SRモデルは、実空間と赤方偏移空間におけるハロの占有分布、および対流速度分布に満足に作用し、HR結果と同等な散乱とを一致させ、モックハロカタログを作成する可能性を示す。 sr技術は、大きな宇宙ボリュームで小さな銀河形成物理学をモデル化するための強力で有望なツールである。

In this work, we expand and test the capabilities of our recently developed super-resolution (SR) model to generate high-resolution (HR) realizations of the full phase-space matter distribution, including both displacement and velocity, from computationally cheap low-resolution (LR) cosmological N-body simulations. The SR model enhances the simulation resolution by generating 512 times more tracer particles, extending into the deeply non-linear regime where complex structure formation processes take place. We validate the SR model by deploying the model in 10 test simulations of box size 100 Mpc/h, and examine the matter power spectra, bispectra and 2D power spectra in redshift space. We find the generated SR field matches the true HR result at percent level down to scales of k ~ 10 h/Mpc. We also identify and inspect dark matter halos and their substructures. Our SR model generate visually authentic small-scale structures, that cannot be resolved by the LR input, and are in good statistical agreement with the real HR results. The SR model performs satisfactorily on the halo occupation distribution, halo correlations in both real and redshift space, and the pairwise velocity distribution, matching the HR results with comparable scatter, thus demonstrating its potential in making mock halo catalogs. The SR technique can be a powerful and promising tool for modelling small-scale galaxy formation physics in large cosmological volumes.
翻訳日:2021-05-05 12:46:41 公開日:2021-05-03
# イベントシーケンスデータの時系列解析によるプロセスモデル予測

Process Model Forecasting Using Time Series Analysis of Event Sequence Data ( http://arxiv.org/abs/2105.01092v1 )

ライセンス: Link先を確認
Johannes De Smedt, Anton Yeshchenko, Artem Polyvyanyy, Jochen De Weerdt, Jan Mendling(参考訳) プロセス分析は、個々のプロセスインスタンスまたは全体プロセスモデルに対する予測に焦点を当てた分野である。 事例レベルでは、様々な新しいテクニックが最近開発され、次の活動、残り時間、結果予測に対処している。 モデルレベルでは、注目すべき空白があります。 このギャップを埋めるのはこの論文の野心である。 この目的のために,過去のイベントデータからプロセスモデル全体を予測する手法を開発した。 予測されたモデルは、プロセス全体の将来の可能性を表すウィル・ベ・プロセスモデルである。 このような予測は、ドリフトと新興ボトルネックの結果を調べるのに役立つ。 本手法は,複数の時系列としてイベントデータの表現に基づいて,プロセスモデルの振る舞い的側面の進化を捉え,対応する予測手法を適用する。 本実装は,実世界のイベントログデータに対する手法の精度を示す。

Process analytics is the field focusing on predictions for individual process instances or overall process models. At the instance level, various novel techniques have been recently devised, tackling next activity, remaining time, and outcome prediction. At the model level, there is a notable void. It is the ambition of this paper to fill this gap. To this end, we develop a technique to forecast the entire process model from historical event data. A forecasted model is a will-be process model representing a probable future state of the overall process. Such a forecast helps to investigate the consequences of drift and emerging bottlenecks. Our technique builds on a representation of event data as multiple time series, each capturing the evolution of a behavioural aspect of the process model, such that corresponding forecasting techniques can be applied. Our implementation demonstrates the accuracy of our technique on real-world event log data.
翻訳日:2021-05-05 12:45:52 公開日:2021-05-03
# ゲノミクスデータを用いた治療課題のための機械学習応用

Machine Learning Applications for Therapeutic Tasks with Genomics Data ( http://arxiv.org/abs/2105.01171v1 )

ライセンス: Link先を確認
Kexin Huang, Cao Xiao, Lucas M. Glass, Cathy W. Critchlow, Greg Gibson, Jimeng Sun(参考訳) ゲノミクスや他の生物医学データの可用性の高まりにより、様々な治療的発見と開発タスクのために多くの機械学習アプローチが提案されている。 本稿では,治療発展のレンズを通して,ゲノム学の機械学習応用に関する文献を概観する。 ゲノム,化合物,タンパク質,電子健康記録(EHR),細胞画像,臨床テキストの相互作用について検討した。 我々は、治療パイプライン全体にわたるゲノム学応用における22の機械学習を特定し、新規ターゲットの発見、パーソナライズドメディカルな医療、遺伝子編集ツールの開発、臨床治験、市場後の研究までを含む。 また、この分野における7つの重要な課題を、拡大と影響の機会として指摘します。 本調査は, 機械学習, ゲノム学, 治療開発における最近の研究を概観する。

Thanks to the increasing availability of genomics and other biomedical data, many machine learning approaches have been proposed for a wide range of therapeutic discovery and development tasks. In this survey, we review the literature on machine learning applications for genomics through the lens of therapeutic development. We investigate the interplay among genomics, compounds, proteins, electronic health records (EHR), cellular images, and clinical texts. We identify twenty-two machine learning in genomics applications across the entire therapeutics pipeline, from discovering novel targets, personalized medicine, developing gene-editing tools all the way to clinical trials and post-market studies. We also pinpoint seven important challenges in this field with opportunities for expansion and impact. This survey overviews recent research at the intersection of machine learning, genomics, and therapeutic development.
翻訳日:2021-05-05 12:44:09 公開日:2021-05-03
# (参考訳) ロバストなサンプル重み付けによるターゲット集団に対する個別化治療ルール学習

Robust Sample Weighting to Facilitate Individualized Treatment Rule Learning for a Target Population ( http://arxiv.org/abs/2105.00581v1 )

ライセンス: CC BY 4.0
Rui Chen, Jared D. Huling, Guanhua Chen, Menggang Yu(参考訳) 個別化治療規則(ITR)の学習は、精密医療において重要なトピックである。 現在の文献は主に単一源集団からITRを誘導することに焦点を当てている。 対象個体群と対象個体群とが異なる場合の観測データ設定について考察する。 両方の個体群から対象共変量体が利用できると仮定するが、治療と結果データは源群からのみ利用可能である。 ソースとターゲットの個体数の違いの調整は、ターゲットの個体数のITRの改善につながる可能性があるが、ITR推定のばらつきを大幅に増大させる可能性がある。 このジレンマに対処するため,重み付けフレームワークを開発した。これは多量の共変量シフト調整により,所定の対象集団に対してITRを調整し,高い可変性を保護することを目的としている。 提案手法は,カーネルヒルベルト空間を再現した非パラメトリック関数クラスに対する共変量バランスを求め,重みに依存する多くのIRR学習法を改善することができる。 提案手法は,重要度重みといわゆる重重なり重みを2つの極端なケースとして包含し,その間のバイアス分散トレードオフを改善できることを示す。 数値的な例は,本手法を用いることで,他の重み付け法と比較して,ターゲット個体数のITR推定を大幅に改善できることを示している。

Learning individualized treatment rules (ITRs) is an important topic in precision medicine. Current literature mainly focuses on deriving ITRs from a single source population. We consider the observational data setting when the source population differs from a target population of interest. We assume subject covariates are available from both populations, but treatment and outcome data are only available from the source population. Although adjusting for differences between source and target populations can potentially lead to an improved ITR for the target population, it can substantially increase the variability in ITR estimation. To address this dilemma, we develop a weighting framework that aims to tailor an ITR for a given target population and protect against high variability due to superfluous covariate shift adjustments. Our method seeks covariate balance over a nonparametric function class characterized by a reproducing kernel Hilbert space and can improve many ITR learning methods that rely on weights. We show that the proposed method encompasses importance weights and the so-called overlap weights as two extreme cases, allowing for a better bias-variance trade-off in between. Numerical examples demonstrate that the use of our weighting method can greatly improve ITR estimation for the target population compared with other weighting methods.
翻訳日:2021-05-04 23:08:37 公開日:2021-05-03
# (参考訳) クロスインスティテュート脳出血検出のための雑音学習 [全文訳有]

Noisy Student learning for cross-institution brain hemorrhage detection ( http://arxiv.org/abs/2105.00582v1 )

ライセンス: CC BY 4.0
Emily Lin, Weicheng Kuo, Esther Yuh(参考訳) CT(Computed tomography)は、急性脳卒中や外傷性脳損傷などの神経疾患の診断に用いられる画像モダリティである。 深層学習の進歩は、頭部CTで出血を検出・分節するモデルにつながった。そのような教師付き完全畳み込みネットワーク(FCN)の1つであるPatchFCNは、最近、脳内出血をサンプルデータで専門家レベルで検出した。 しかし、トレーニング領域外の類似した精度のポテンシャルは、外部機関からのピクセルラベルデータの必要性によって妨げられている。 また、最近では、セミ教師付き技術であるノイズ学習(NS)が、フル教師付き学習パラダイムからセミ教師付き学習パラダイムに移行することで、ImageNet上で最先端のパフォーマンスを実証している。 我々はPatchFCNとNoisy Studentsのアプローチを併用し,半教師あり学習を頭蓋内出血セグメンテーションタスクに拡張した。 驚いたことに、nsモデルのパフォーマンスは、同じデータ上のイメージレベルラベルでトレーニングされた完全に教師付きoracleモデルを上回る。 ラベル付きデータセットでトレーニングされた別の教師付きモデルとの比較も可能で、nsモデルのトレーニングに使用されたものより600倍大きい。 本研究は,頭部ct検出・分節化タスクにおける半教師あり学習の有効性を初めて実証した。

Computed tomography (CT) is the imaging modality used in the diagnosis of neurological emergencies, including acute stroke and traumatic brain injury. Advances in deep learning have led to models that can detect and segment hemorrhage on head CT. PatchFCN, one such supervised fully convolutional network (FCN), recently demonstrated expert-level detection of intracranial hemorrhage on in-sample data. However, its potential for similar accuracy outside the training domain is hindered by its need for pixel-labeled data from outside institutions. Also recently, a semi-supervised technique, Noisy Student (NS) learning, demonstrated state-of-the-art performance on ImageNet by moving from a fully-supervised to a semi-supervised learning paradigm. We combine the PatchFCN and Noisy Student approaches, extending semi-supervised learning to an intracranial hemorrhage segmentation task. Surprisingly, the NS model performance surpasses that of a fully-supervised oracle model trained with image-level labels on the same data. It also performs comparably to another recently reported supervised model trained on a labeled dataset 600x larger than that used to train the NS model. To our knowledge, we are the first to demonstrate the effectiveness of semi-supervised learning on a head CT detection and segmentation task.
翻訳日:2021-05-04 23:07:22 公開日:2021-05-03
# (参考訳) OCTOPUS:分散学習におけるパフォーマンスと生産性の向上 [全文訳有]

OCTOPUS: Overcoming Performance andPrivatization Bottlenecks in Distributed Learning ( http://arxiv.org/abs/2105.00602v1 )

ライセンス: CC BY 4.0
Shuo Wang, Surya Nepal, Kristen Moore, Marthie Grobler, Carsten Rudolph, Alsharif Abuadbba(参考訳) 携帯電話などの分散デバイスからデータを収集するデータウェアハウスの多様性と量により、機械学習アルゴリズムの成功と堅牢性を高めることができる。 フェデレーション学習(federated learning)は、分散参加者がローカルにデータを保持しながら、共通共有モデルの学習を可能にする。 しかし、分散データソースの不均一性とグローバルデータへのアクセスの欠如により、高価な通信や制限にも直面している。 本稿では,複数のダウンストリームタスク(例えば分類器)を動的に更新された分散データソースから学習し,効率よく局所的な民営化を実現する,実践的な分散学習シナリオについて検討する。 本稿では,グローバルデータを活用しつつ,暗号化や摂動による付加的なコストを伴わずにローカルデータの民営化を実現する,潜在圧縮による通信オーバーヘッドに対処するための新しい分散学習方式を提案する。 本手法は,(1)ノード間の通信オーバーヘッドに対処するために,各ノードのローカルデータの潜在空間圧縮表現特徴を情報的特徴エンコーディング,抽出,伝達する,(2)各ノードから収集された符号化コードを用いてサーバに集中したダウンストリームタスクを処理および記憶オーバーヘッドに割り当てる。 さらに、局所データの機密成分の民営化に対処するために、ゆがみ戦略を適用する。 画像と音声のデータセットに関する広範な実験が行われている。 その結果、コンパクトな潜在表現上の下流タスクは、局所データの民営化を伴う集中学習に匹敵する精度を達成できることを示した。

The diversity and quantity of the data warehousing, gathering data from distributed devices such as mobile phones, can enhance machine learning algorithms' success and robustness. Federated learning enables distributed participants to collaboratively learn a commonly-shared model while holding data locally. However, it is also faced with expensive communication and limitations due to the heterogeneity of distributed data sources and lack of access to global data. In this paper, we investigate a practical distributed learning scenario where multiple downstream tasks (e.g., classifiers) could be learned from dynamically-updated and non-iid distributed data sources, efficiently and providing local privatization. We introduce a new distributed learning scheme to address communication overhead via latent compression, leveraging global data while providing local privatization of local data without additional cost due to encryption or perturbation. This scheme divides the learning into (1) informative feature encoding, extracting and transmitting the latent space compressed representation features of local data at each node to address communication overhead; (2) downstream tasks centralized at the server using the encoded codes gathered from each node to address computing and storage overhead. Besides, a disentanglement strategy is applied to address the privatization of sensitive components of local data. Extensive experiments are conducted on image and speech datasets. The results demonstrate that downstream tasks on the compact latent representations can achieve comparable accuracy to centralized learning with the privatization of local data.
翻訳日:2021-05-04 22:56:32 公開日:2021-05-03
# (参考訳) 神経知識追跡のための一貫性と単調性正規化 [全文訳有]

Consistency and Monotonicity Regularization for Neural Knowledge Tracing ( http://arxiv.org/abs/2105.00607v1 )

ライセンス: CC BY 4.0
Seewoo Lee, Youngduck Choi, Juneyoung Park, Byungsoo Kim and Jinwoo Shin(参考訳) 人間の知識獲得を追跡する知識追跡(KT)は、教育におけるオンライン学習とAIの中心的なコンポーネントである。 本稿では,KTモデルの一般化能力を改善するための,単純かつ効果的な戦略を提案する。本論文では,新しいデータ拡張,代用,挿入,削除の3種類の方法と,モデルが生成および拡張シーケンスに対する予測に対して一定の整合性あるいは単調性バイアスを課す正則化損失を提案する。 さまざまなKTベンチマークに対する大規模な実験により、我々の正規化スキームは、DKTモデルとASSISTmentsChallデータセットの下で3つの広く使用されているニューラルネットワークと4つの公開ベンチマークの下で、モデルパフォーマンスを継続的に改善している。

Knowledge Tracing (KT), tracking a human's knowledge acquisition, is a central component in online learning and AI in Education. In this paper, we present a simple, yet effective strategy to improve the generalization ability of KT models: we propose three types of novel data augmentation, coined replacement, insertion, and deletion, along with corresponding regularization losses that impose certain consistency or monotonicity biases on the model's predictions for the original and augmented sequence. Extensive experiments on various KT benchmarks show that our regularization scheme consistently improves the model performances, under 3 widely-used neural networks and 4 public benchmarks, e.g., it yields 6.3% improvement in AUC under the DKT model and the ASSISTmentsChall dataset.
翻訳日:2021-05-04 22:35:58 公開日:2021-05-03
# (参考訳) optorch: リソース制限環境に最適化されたディープラーニングアーキテクチャ [全文訳有]

OpTorch: Optimized deep learning architectures for resource limited environments ( http://arxiv.org/abs/2105.00619v1 )

ライセンス: CC BY 4.0
Salman Ahmed, Hammad Naveed(参考訳) ディープラーニングアルゴリズムは多くのブレークスルーを行い、実生活に様々な応用がある。 ディープラーニングパイプラインのデータと複雑性が増加するにつれて、計算リソースはボトルネックになる。 本稿では,時間と記憶を含む学習の複数の側面において,最適化されたディープラーニングパイプラインを提案する。 OpTorchは、ニューラルネットワークトレーニングの既存の実装の弱点を克服するために設計された機械学習ライブラリである。 OpTorchは、限られた計算リソースで複雑なニューラルネットワークをトレーニングする機能を提供する。 OpTorchは、Cifar-10とCifar-100データセットの既存のライブラリと同じ精度で、メモリ使用量を約50%削減した。 ディープラーニングパイプラインにおけるメモリ使用量に対する重みの影響についても検討する。 実験では、並列符号化復号とシーケンシャルチェックポイントは、既存のパイプラインと同様の精度を維持しながら、メモリと時間使用量を大幅に改善する。 OpTorch python パッケージは \url{https://github.com/c brl-nuces/optorch で利用可能である。

Deep learning algorithms have made many breakthroughs and have various applications in real life. Computational resources become a bottleneck as the data and complexity of the deep learning pipeline increases. In this paper, we propose optimized deep learning pipelines in multiple aspects of training including time and memory. OpTorch is a machine learning library designed to overcome weaknesses in existing implementations of neural network training. OpTorch provides features to train complex neural networks with limited computational resources. OpTorch achieved the same accuracy as existing libraries on Cifar-10 and Cifar-100 datasets while reducing memory usage to approximately 50\%. We also explore the effect of weights on total memory usage in deep learning pipelines. In our experiments, parallel encoding-decoding along with sequential checkpoints results in much improved memory and time usage while keeping the accuracy similar to existing pipelines. OpTorch python package is available at available at \url{https://github.com/c brl-nuces/optorch
翻訳日:2021-05-04 22:33:10 公開日:2021-05-03
# (参考訳) COUnty aggregation mixup AuGmEntation (COURAGE) COVID-19予測 [全文訳有]

COUnty aggRegation mixup AuGmEntation (COURAGE) COVID-19 Prediction ( http://arxiv.org/abs/2105.00620v1 )

ライセンス: CC BY 4.0
Siawpeng Er, Shihao Yang, Tuo Zhao(参考訳) 新型コロナウイルス感染症(SARS-CoV-2)の世界的な感染拡大は、人類にとって大きな脅威となっている。 新型コロナウイルス(COVID-19)の状況が発展を続ける中、局部的な病気の重症度を予測することは、高度な資源配分に不可欠である。 本稿では,米国各郡における2週間の新型コロナウイルス関連死亡の短期予測を,最新の深層学習技術を活用したCOURAGE(COUnty aggregation mixup AuGmEntation)という手法を提案する。 具体的には,トランスフォーマーモデルと呼ばれる自然言語処理の自己注意モデルを用いて,時系列内の短期的および長期的依存関係を抽出し,計算効率を享受する。 本モデルでは, 新型コロナウイルス関連症例, 死亡状況, 地域移動傾向, 人口統計情報の公開情報を完全に活用し, 対応する郡レベルの予測の集約として, 州レベルの予測を作成できる。 数値実験により,本モデルが利用可能なベンチマークモデル間の最先端性能を実現することを示す。

The global spread of COVID-19, the disease caused by the novel coronavirus SARS-CoV-2, has cast a significant threat to mankind. As the COVID-19 situation continues to evolve, predicting localized disease severity is crucial for advanced resource allocation. This paper proposes a method named COURAGE (COUnty aggRegation mixup AuGmEntation) to generate a short-term prediction of 2-week-ahead COVID-19 related deaths for each county in the United States, leveraging modern deep learning techniques. Specifically, our method adopts a self-attention model from Natural Language Processing, known as the transformer model, to capture both short-term and long-term dependencies within the time series while enjoying computational efficiency. Our model fully utilizes publicly available information of COVID-19 related confirmed cases, deaths, community mobility trends and demographic information, and can produce state-level prediction as an aggregation of the corresponding county-level predictions. Our numerical experiments demonstrate that our model achieves the state-of-the-art performance among the publicly available benchmark models.
翻訳日:2021-05-04 22:24:33 公開日:2021-05-03
# (参考訳) EQFace: 顔認識のためのシンプルな明示的品質ネットワーク [全文訳有]

EQFace: A Simple Explicit Quality Network for Face Recognition ( http://arxiv.org/abs/2105.00634v1 )

ライセンス: CC BY 4.0
Rushuai Liu and Weijun Tan(参考訳) 深層学習は、静止画像認識において大きな進歩を遂げているため、ポーズ、ぼかし、オクルージョン、照明などによる画質の低い顔画像のために、制約のないビデオ顔認識は依然として難しい課題である。 本稿では,特徴ベクトルの抽出と同時に明示的かつ定量的な品質スコアを与える,顔認識のためのネットワークを提案する。 われわれの知る限り、これは1つのネットワークでこれら2つの機能を実装する最初のネットワークである。 このネットワークは、顔認識のベースラインネットワークに品質の高いネットワークブランチを追加することで非常に単純である。 注釈付き顔の品質ラベルを持つトレーニングデータセットは必要ない。 我々は,このネットワークを静止画顔データセットとビデオ画像データセットの両方で評価し,多くの場合,最先端のパフォーマンスを実現する。 このネットワークは、明示的な顔品質scpreが使用される多くのアプリケーションを可能にする。 オンライン映像認識における特徴集約手法として,3つの明示的な顔品質の応用を実演する。 このアプリケーションで顔の品質を使うことの利点を証明する実験を設計する。 コードは \url{https://github.com/d eepcam-cn/facequalit y}で入手できる。

As the deep learning makes big progresses in still-image face recognition, unconstrained video face recognition is still a challenging task due to low quality face images caused by pose, blur, occlusion, illumination etc. In this paper we propose a network for face recognition which gives an explicit and quantitative quality score at the same time when a feature vector is extracted. To our knowledge this is the first network that implements these two functions in one network online. This network is very simple by adding a quality network branch to the baseline network of face recognition. It does not require training datasets with annotated face quality labels. We evaluate this network on both still-image face datasets and video face datasets and achieve the state-of-the-art performance in many cases. This network enables a lot of applications where an explicit face quality scpre is used. We demonstrate three applications of the explicit face quality, one of which is a progressive feature aggregation scheme in online video face recognition. We design an experiment to prove the benefits of using the face quality in this application. Code will be available at \url{https://github.com/d eepcam-cn/facequalit y}.
翻訳日:2021-05-04 22:08:01 公開日:2021-05-03
# (参考訳) 文類似度測定のための新しいハイブリッド手法 [全文訳有]

A novel hybrid methodology of measuring sentence similarity ( http://arxiv.org/abs/2105.00648v1 )

ライセンス: CC BY 4.0
Yongmin Yoo, Tak-Sung Heo, Yeongjoon Park(参考訳) 文類似度を測定することは自然言語処理(NLP)領域において重要な問題である。 文間の類似性を正確に測定する必要がある。 文の類似性を測定するには多くのアプローチがある。 ディープラーニングの方法論は多くの自然言語処理分野で最先端のパフォーマンスを示し、文の類似度測定法で多く使われている。 しかし、自然言語処理の分野では、文の構造や文を構成する単語構造を考えることも重要である。 本研究では,深層学習手法と語彙関係を考慮した手法を併用した手法を提案する。 評価基準はピアソン相関係数とスピアマン相関係数である。 その結果、提案手法はkorsts標準ベンチマーク韓国データセットの現在のアプローチを上回っている。 さらに、ディープラーニング手法のみを使用する場合よりも最大で65%向上する。 実験の結果,提案手法はディープラーニングモデルのみを用いた手法よりも性能がよいことがわかった。

The problem of measuring sentence similarity is an essential issue in the natural language processing (NLP) area. It is necessary to measure the similarity between sentences accurately. There are many approaches to measuring sentence similarity. Deep learning methodology shows a state-of-the-art performance in many natural language processing fields and is used a lot in sentence similarity measurement methods. However, in the natural language processing field, considering the structure of the sentence or the word structure that makes up the sentence is also important. In this study, we propose a methodology combined with both deep learning methodology and a method considering lexical relationships. Our evaluation metric is the Pearson correlation coefficient and Spearman correlation coefficient. As a result, the proposed method outperforms the current approaches on a KorSTS standard benchmark Korean dataset. Moreover, it performs a maximum of 65% increase than only using deep learning methodology. Experiments show that our proposed method generally results in better performance than those with only a deep learning model.
翻訳日:2021-05-04 21:55:24 公開日:2021-05-03
# (参考訳) MIN_NCCとMAX_NCCの境界とグラフ領域変数のフィルタリング方式 [全文訳有]

Bounds of MIN_NCC and MAX_NCC and filtering scheme for graph domain variables ( http://arxiv.org/abs/2105.00663v1 )

ライセンス: CC BY-SA 4.0
Dimitri Justeau-Allaire, Philippe Birnbaum, Xavier Lorca(参考訳) グラフ領域変数と制約は、doomsらによって導入された制約プログラミングの拡張である。 このアプローチはfagesによって博士論文でさらに研究されていた。 一方、Beldiceanu et al。 グラフプロパティに基づくグローバル制約に対する汎用フィルタリングスキームを提案する。 このスキームはグラフ特性の境界の計算に強く依存しており、グラフ領域変数や制約の文脈でいくつかの調整で使用することができる。 MIN_NCCとMAX_NCCの境界は、path_with_loopsグラフクラスに対するグローバル制約のグラフベース表現のために定義されていた。 ここでは、これらの境界をグラフ領域変数および任意のグラフクラスに対して一般化する。 任意のグラフクラスと任意の境界に対するフィルタリングスキームも提供します。

Graph domain variables and constraints are an extension of constraint programming introduced by Dooms et al. This approach had been further investigated by Fages in its PhD thesis. On the other hand, Beldiceanu et al. presented a generic filtering scheme for global constraints based on graph properties. This scheme strongly relies on the computation of graph properties' bounds and can be used in the context of graph domain variables and constraints with a few adjustments. Bounds of MIN_NCC and MAX_NCC had been defined for the graph-based representation of global constraint for the path_with_loops graph class. In this note, we generalize those bounds for graph domain variables and for any graph class. We also provide a filtering scheme for any graph class and arbitrary bounds.
翻訳日:2021-05-04 21:49:40 公開日:2021-05-03
# (参考訳) 知識グラフにおけるバイアス-DBpediaの映画推薦と異なる言語版を用いた実証的研究 [全文訳有]

Bias in Knowledge Graphs -- an Empirical Study with Movie Recommendation and Different Language Editions of DBpedia ( http://arxiv.org/abs/2105.00674v1 )

ライセンス: CC BY 4.0
Michael Matthias Voit and Heiko Paulheim(参考訳) DBpediaやWikidataのような公開知識グラフは、コンテンツベースのレコメンデーションシステムを構築するための背景知識の興味深い情報源として認識されている。 推奨すべき項目とそれらの間のリンクに関する情報を追加するのに使うことができる。 知識グラフを利用するための多くのアプローチが提案されているが、そのほとんどは、固定知識グラフを使用して推奨戦略を最適化することを目的としている。 本稿では,異なるアプローチ,すなわちレコメンデーション戦略を修正し,基礎となる知識グラフを用いて変化を観察する。 特に、DBpediaの異なる言語版を使用します。 異なるナレッジグラフを使うことは,異なるバイアスドレコメンダシステムをもたらすだけでなく,特定のレコメンデーション分野のパフォーマンスが異なるレコメンダシステムにもつながることを示した。

Public knowledge graphs such as DBpedia and Wikidata have been recognized as interesting sources of background knowledge to build content-based recommender systems. They can be used to add information about the items to be recommended and links between those. While quite a few approaches for exploiting knowledge graphs have been proposed, most of them aim at optimizing the recommendation strategy while using a fixed knowledge graph. In this paper, we take a different approach, i.e., we fix the recommendation strategy and observe changes when using different underlying knowledge graphs. Particularly, we use different language editions of DBpedia. We show that the usage of different knowledge graphs does not only lead to differently biased recommender systems, but also to recommender systems that differ in performance for particular fields of recommendations.
翻訳日:2021-05-04 21:46:16 公開日:2021-05-03
# (参考訳) デザインによる学習: 機械学習開発における人間の選択の構造と文書化 [全文訳有]

Learning by Design: Structuring and Documenting the Human Choices in Machine Learning Development ( http://arxiv.org/abs/2105.00687v1 )

ライセンス: CC BY-SA 4.0
Simon Enni and Ira Assent(参考訳) 機械学習(ML)の影響は急速に広がり、近年の多くの技術革新がMLを中心技術として採用している。 しかし、ml開発にはまだかなりの量の人間の専門知識が必要である。 ML開発において適用される熟考と専門家の判断は、適切に文書化されていない場合は再検討または精査することはできず、特に安全上の重要な状況において、ML技術のさらなる採用を妨げる。 本稿では,MLモデルを作成する上での議論と規範的選択を概説する8つの設計質問からなる手法を提案する。 提案手法は,方法論的透明性によるクリティカルアセスメント,モデルデバッギングの支援,モデル動作の事前予測によるモデル説明のアンロックなど,いくつかのメリットを提供する。 この手法は,MLモデル開発において,ML実践者が選択や仮定を構造化し,正当化する上で有効であると同時に,MLモデルの設計や開発方法を理解する上で,ML分野内外とのギャップを埋める上で有効であると考えている。

The influence of machine learning (ML) is quickly spreading, and a number of recent technological innovations have applied ML as a central technology. However, ML development still requires a substantial amount of human expertise to be successful. The deliberation and expert judgment applied during ML development cannot be revisited or scrutinized if not properly documented, and this hinders the further adoption of ML technologies--especi ally in safety critical situations. In this paper, we present a method consisting of eight design questions, that outline the deliberation and normative choices going into creating a ML model. Our method affords several benefits, such as supporting critical assessment through methodological transparency, aiding in model debugging, and anchoring model explanations by committing to a pre hoc expectation of the model's behavior. We believe that our method can help ML practitioners structure and justify their choices and assumptions when developing ML models, and that it can help bridge a gap between those inside and outside the ML field in understanding how and why ML models are designed and developed the way they are.
翻訳日:2021-05-04 21:34:52 公開日:2021-05-03
# (参考訳) ハイブリッド・インテリジェンス [全文訳有]

Hybrid Intelligence ( http://arxiv.org/abs/2105.00691v1 )

ライセンス: CC BY 4.0
Dominik Dellermann, Philipp Ebel, Matthias Soellner, Jan Marco Leimeister(参考訳) 研究は、統計的方法や人間の脳など、特定の結果を予測する上で何が優れているかについて議論する長い歴史がある。 この議論は、オブジェクトや音声認識のようなタスクの解決、ディープラーニングアルゴリズム(goodfellowなど)による精度の大幅な向上など、人工知能(ai)分野の驚くべき技術的進歩によって、繰り返し取り上げられている。 あるいは、ファジィ論理、遺伝的アルゴリズム、ケースベースの推論(Medsker 2012)のような様々な計算知能の手法を組み合わせる。 これらの進歩を過小評価する暗黙の約束の1つは、マシンが1日で複雑なタスクをこなせるか、あるいはそのタスクを人間に取って代わるかもしれないということだ。 これは、いつ機械が最終的に人間を置き換えるかについての新しい熱い議論を引き起こす(McAfeeとBrynjolfsson 2017)。 以前の研究では、チェスのプレイ、Goのプレイ、画像上のオブジェクトの特定など、明確に定義されたタスクでAIがうまく機能することが証明されているが、複数のタスクを同時に解決できる人工知能(AGI)の開発が近い将来(例えばRussellとNorvig 2016)達成可能であることは疑わしい。 さらに、複雑なビジネス問題を解決するためにAIを用いることは、組織的な文脈ではほとんど行われず、複雑な問題を解決するAIの応用は、実際には実装されるのではなく、主に実験室で行われている。 AGIへの道はまだ長いので、今後数十年間の人間と機械の分業の最もありそうなパラダイムはハイブリッドインテリジェンスだ、と私たちは主張する。 この概念は、人間の知能とAIの相補的な強みを使用することを目標としており、それぞれが個別に行うことができる(例えば、Kamar 2016)。

Research has a long history of discussing what is superior in predicting certain outcomes: statistical methods or the human brain. This debate has repeatedly been sparked off by the remarkable technological advances in the field of artificial intelligence (AI), such as solving tasks like object and speech recognition, achieving significant improvements in accuracy through deep-learning algorithms (Goodfellow et al. 2016), or combining various methods of computational intelligence, such as fuzzy logic, genetic algorithms, and case-based reasoning (Medsker 2012). One of the implicit promises that underlie these advancements is that machines will 1 day be capable of performing complex tasks or may even supersede humans in performing these tasks. This triggers new heated debates of when machines will ultimately replace humans (McAfee and Brynjolfsson 2017). While previous research has proved that AI performs well in some clearly defined tasks such as playing chess, playing Go or identifying objects on images, it is doubted that the development of an artificial general intelligence (AGI) which is able to solve multiple tasks at the same time can be achieved in the near future (e.g., Russell and Norvig 2016). Moreover, the use of AI to solve complex business problems in organizational contexts occurs scarcely, and applications for AI that solve complex problems remain mainly in laboratory settings instead of being implemented in practice. Since the road to AGI is still a long one, we argue that the most likely paradigm for the division of labor between humans and machines in the next decades is Hybrid Intelligence. This concept aims at using the complementary strengths of human intelligence and AI, so that they can perform better than each of the two could separately (e.g., Kamar 2016).
翻訳日:2021-05-04 21:19:32 公開日:2021-05-03
# (参考訳) heart-darts: differentiable architecture search を用いた心拍の分類 [全文訳有]

Heart-Darts: Classification of Heartbeats Using Differentiable Architecture Search ( http://arxiv.org/abs/2105.00693v1 )

ライセンス: CC BY 4.0
Jindi Lv and Qing Ye and Yanan Sun and Juan Zhao and Jiancheng Lv(参考訳) 不整脈は不整脈を呈する心血管疾患である。 不整脈検出では心電図(ECG)信号が重要な診断手法である。 しかし、手動でECG信号を評価するのは複雑で時間を要する作業である。 畳み込みニューラルネットワーク(cnns)の適用により,評価プロセスが高速化され,性能が向上した。 cnnのパフォーマンスはアーキテクチャ設計に大きく依存しており、専門家の経験と試行錯誤に基づく複雑なプロセスである。 本稿では,cnnモデルに微分可能なアーキテクチャ探索(すなわち,セル型ニューラルネットワーク探索法であるdarts)を自動設計することにより,ecg信号を効率的に分類する新しいアプローチであるheart-dartsを提案する。 具体的には、当初Dartでセルアーキテクチャを検索し、得られたセルに基づいてECG分類のための新しいCNNモデルをカスタマイズする。 提案手法の有効性を検討するため,MIT-BIH不整脈データベースを用いた構築モデルの評価を行った。 さらに、提案したCNNモデルの拡張性は他の2つのデータベースで検証される。 実験結果から,提案手法はECG分類において,性能と一般化能力の両方の観点から,いくつかの最先端CNNモデルより優れていることが示された。

Arrhythmia is a cardiovascular disease that manifests irregular heartbeats. In arrhythmia detection, the electrocardiogram (ECG) signal is an important diagnostic technique. However, manually evaluating ECG signals is a complicated and time-consuming task. With the application of convolutional neural networks (CNNs), the evaluation process has been accelerated and the performance is improved. It is noteworthy that the performance of CNNs heavily depends on their architecture design, which is a complex process grounded on expert experience and trial-and-error. In this paper, we propose a novel approach, Heart-Darts, to efficiently classify the ECG signals by automatically designing the CNN model with the differentiable architecture search (i.e., Darts, a cell-based neural architecture search method). Specifically, we initially search a cell architecture by Darts and then customize a novel CNN model for ECG classification based on the obtained cells. To investigate the efficiency of the proposed method, we evaluate the constructed model on the MIT-BIH arrhythmia database. Additionally, the extensibility of the proposed CNN model is validated on two other new databases. Extensive experimental results demonstrate that the proposed method outperforms several state-of-the-art CNN models in ECG classification in terms of both performance and generalization capability.
翻訳日:2021-05-04 21:09:30 公開日:2021-05-03
# (参考訳) facebookの預言者、amazonのdeepar+、cnn-qrアルゴリズムの比較分析による実世界の売上予測 [全文訳有]

Comparison Analysis of Facebook's Prophet, Amazon's DeepAR+ and CNN-QR Algorithms for Successful Real-World Sales Forecasting ( http://arxiv.org/abs/2105.00694v1 )

ライセンス: CC BY 4.0
Emir Zunic, Kemal Korjenic, Sead Delalic, Zlatko Subara(参考訳) 予測の問題をうまく解決することで、様々な企業の作業のプロセスが最適化され、貯蓄が達成される。 このプロセスでは、時系列データの分析が特に重要である。 facebookの預言者やamazonのdeepar+、cnn-qr予測モデルの作成以来、アルゴリズムは多くの注目を集めてきた。 本稿では,上記のアルゴリズムを流通企業における販売予測に適用し,比較する。 販売履歴の異なる実データに対するアルゴリズムの性能の詳細な比較を行った。 その結果、Prophetは、長い歴史と頻繁に販売されるアイテムに対してより良い結果を与える一方で、Amazonのアルゴリズムは、長い歴史とめったに販売されないアイテムに対して優位性を示す。

By successfully solving the problem of forecasting, the processes in the work of various companies are optimized and savings are achieved. In this process, the analysis of time series data is of particular importance. Since the creation of Facebook's Prophet, and Amazon's DeepAR+ and CNN-QR forecasting models, algorithms have attracted a great deal of attention. The paper presents the application and comparison of the above algorithms for sales forecasting in distribution companies. A detailed comparison of the performance of algorithms over real data with different lengths of sales history was made. The results show that Prophet gives better results for items with a longer history and frequent sales, while Amazon's algorithms show superiority for items without a long history and items that are rarely sold.
翻訳日:2021-05-04 20:57:38 公開日:2021-05-03
# (参考訳) 残差接続型グラフオートエンコーダを用いた表現学習 [全文訳有]

Representation Learning using Graph Autoencoders with Residual Connections ( http://arxiv.org/abs/2105.00695v1 )

ライセンス: CC BY 4.0
Indrit Nallbani, Aydin Ayanzadeh, Reyhan Kevser Keser, Nurullah \c{C}al{\i}k, Beh\c{c}et U\u{g}ur T\"oreyin(参考訳) グラフオートエンコーダはグラフベースの複雑なデータセットを埋め込むのに非常に効率的である。 しかし、ほとんどのオートエンコーダは浅い深さを持ち、その効率は層深さの増加とともに低下する傾向にある。 本稿では,浅層および深層グラフ変動型およびバニラオートエンコーダに残差接続を付加する効果について検討する。 残差接続によりディープグラフベースのオートエンコーダの精度が向上することを示す。 さらに,残差接続の異なるグラフ変分オートエンコーダRes-VGAEを提案する。 本実験は,リンク予測タスクにおける他のオートエンコーダベースモデルと比較して,優れた結果が得られることを示す。

Graph autoencoders are very efficient at embedding graph-based complex data sets. However, most of the autoencoders have shallow depths and their efficiency tends to decrease with the increase of layer depth. In this paper, we study the effect of adding residual connections to shallow and deep graph variational and vanilla autoencoders. We show that residual connections improve the accuracy of the deep graph-based autoencoders. Furthermore, we propose Res-VGAE, a graph variational autoencoder with different residual connections. Our experiments show that our model achieves superior results when compared with other autoencoder-based models for the link prediction task.
翻訳日:2021-05-04 20:39:12 公開日:2021-05-03
# (参考訳) グラフ学習:調査 [全文訳有]

Graph Learning: A Survey ( http://arxiv.org/abs/2105.00696v1 )

ライセンス: CC BY 4.0
Feng Xia, Ke Sun, Shuo Yu, Abdul Aziz, Liangtian Wan, Shirui Pan, Huan Liu(参考訳) グラフは、接続されたデータのネットワーク構造の一般的な表現として広く使われている。 グラフデータは、ソーシャルシステム、エコシステム、生物学的ネットワーク、知識グラフ、情報システムなど、幅広い分野のアプリケーションドメインで見ることができる。 人工知能技術の継続的な浸透により、グラフ学習(グラフ上の機械学習)は研究者と実践者の両方から注目を集めている。 グラフ学習は、分類、リンク予測、マッチングといった多くのタスクに有効である。 一般に、グラフ学習法は機械学習アルゴリズムを利用してグラフの関連特徴を抽出する。 本稿では,グラフ学習の現状について概観する。 グラフ信号処理,行列分解,ランダムウォーク,ディープラーニングなど,既存のグラフ学習手法の4つのカテゴリに特に注目されている。 これらのカテゴリの主要なモデルとアルゴリズムをそれぞれレビューする。 テキスト,画像,科学,知識グラフ,組合せ最適化などの分野におけるグラフ学習応用について検討する。 また,本分野での有望な研究方向性についても論じる。

Graphs are widely used as a popular representation of the network structure of connected data. Graph data can be found in a broad spectrum of application domains such as social systems, ecosystems, biological networks, knowledge graphs, and information systems. With the continuous penetration of artificial intelligence technologies, graph learning (i.e., machine learning on graphs) is gaining attention from both researchers and practitioners. Graph learning proves effective for many tasks, such as classification, link prediction, and matching. Generally, graph learning methods extract relevant features of graphs by taking advantage of machine learning algorithms. In this survey, we present a comprehensive overview on the state-of-the-art of graph learning. Special attention is paid to four categories of existing graph learning methods, including graph signal processing, matrix factorization, random walk, and deep learning. Major models and algorithms under these categories are reviewed respectively. We examine graph learning applications in areas such as text, images, science, knowledge graphs, and combinatorial optimization. In addition, we discuss several promising research directions in this field.
翻訳日:2021-05-04 20:28:45 公開日:2021-05-03
# (参考訳) プロトタイプに基づく因果分類の反事実的説明 [全文訳有]

Prototype-based Counterfactual Explanation for Causal Classification ( http://arxiv.org/abs/2105.00703v1 )

ライセンス: CC BY 4.0
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 対実的説明は、モデルの本来の決定を変えるために摂動サンプルを生成する解釈可能な機械学習の一分野である。 生成されたサンプルは、エンドユーザが望ましい出力を達成するためのレコメンデーションとして機能する。 現在の反事実的説明のアプローチのほとんどは、連続変数を持つ微分可能損失関数のみを最適化できる勾配に基づく方法である。 その結果, 1 つの特徴間の因果関係は, 因果関係が典型的に無視され, 場合によっては意思決定者にとって非現実的なガイドラインが導かれる; 2) 反現実的サンプルの生成は禁断的に遅く, 異なる損失関数を組み合わせるために多くのパラメータチューニングが必要である。 本研究では,反事実の特徴に基づく因果関係を保つための因果構造モデルを提案する。 さらに,多目的遺伝的アルゴリズムに基づく,連続的およびカテゴリ的データの混合型に対する反事実的説明を生成する,新しい勾配なし最適化を考案する。 数値実験により,本手法は最先端手法と好適な比較を行い,任意の予測モデルに適用できることを示した。 すべてのソースコードとデータは \textit{\url{{https://github.com/t ridungduong16/multio bj-scm-cf}}} で入手できる。

Counterfactual explanation is one branch of interpretable machine learning that produces a perturbation sample to change the model's original decision. The generated samples can act as a recommendation for end-users to achieve their desired outputs. Most of the current counterfactual explanation approaches are the gradient-based method, which can only optimize the differentiable loss functions with continuous variables. Accordingly, the gradient-free methods are proposed to handle the categorical variables, which however present several major limitations: 1) causal relationships among features are typically ignored when generating the counterfactuals, possibly resulting in impractical guidelines for decision-makers; 2) the generation of the counterfactual sample is prohibitively slow and requires lots of parameter tuning for combining different loss functions. In this work, we propose a causal structure model to preserve the causal relationship underlying the features of the counterfactual. In addition, we design a novel gradient-free optimization based on the multi-objective genetic algorithm that generates the counterfactual explanations for the mixed-type of continuous and categorical data. Numerical experiments demonstrate that our method compares favorably with state-of-the-art methods and therefore is applicable to any prediction model. All the source code and data are available at \textit{\url{{https://github.com/t ridungduong16/multio bj-scm-cf}}}.
翻訳日:2021-05-04 19:46:30 公開日:2021-05-03
# (参考訳) MRC-LSTM:Bitcoin価格予測のためのマルチスケール残留CNNとLSTMのハイブリッドアプローチ [全文訳有]

MRC-LSTM: A Hybrid Approach of Multi-scale Residual CNN and LSTM to Predict Bitcoin Price ( http://arxiv.org/abs/2105.00707v1 )

ライセンス: CC BY 4.0
Qiutong Guo and Shun Lei and Qing Ye and Zhiyang Fang(参考訳) 主要な暗号通貨の1つであるBitcoinは、大きなリスクを伴う巨大なリターンをもたらす大きなチャンスと課題を提示している。 ビットコインの高ボラティリティとそれに影響する複雑な要因は、世界中の金融投資家や研究者にとって実用的な価格予測方法の研究をもたらす。 本稿では,マルチスケール残差畳み込みニューラルネットワーク (MRC) とLong Short-Term Memory (LSTM) を組み合わせた MRC-LSTM という新しい手法を提案する。 具体的には、多スケール残差モジュールは、多変量時系列における異なる時間スケールの特徴を適応的に検出できるだけでなく、これらの特徴の融合を可能にする一次元畳み込みに基づいている。 LSTMは、金融時系列予測において広く使われている、時系列の長期依存関係を学習する能力を持っている。 これらの2つの手法を混合することにより、表現力の高い特徴を得、多変量時系列の傾向や相互作用を効率的に学習することができる。 本研究は、ビットコイン市場の取引情報に加えて、マクロ経済変数や投資家の関心などの外部要因がビットコイン価格に与える影響を考察する。 我々はビットコインの日替わり価格(USD)を予測する実験を行い、実験の結果、MRC-LSTMは他の様々なネットワーク構造よりも著しく優れていた。 さらに,他の2つの暗号通貨,Ethereum と Litecoin について追加実験を行い,多変量時系列の短期予測における MRC-LSTM の有効性をさらに確認する。

Bitcoin, one of the major cryptocurrencies, presents great opportunities and challenges with its tremendous potential returns accompanying high risks. The high volatility of Bitcoin and the complex factors affecting them make the study of effective price forecasting methods of great practical importance to financial investors and researchers worldwide. In this paper, we propose a novel approach called MRC-LSTM, which combines a Multi-scale Residual Convolutional neural network (MRC) and a Long Short-Term Memory (LSTM) to implement Bitcoin closing price prediction. Specifically, the Multi-scale residual module is based on one-dimensional convolution, which is not only capable of adaptive detecting features of different time scales in multivariate time series, but also enables the fusion of these features. LSTM has the ability to learn long-term dependencies in series, which is widely used in financial time series forecasting. By mixing these two methods, the model is able to obtain highly expressive features and efficiently learn trends and interactions of multivariate time series. In the study, the impact of external factors such as macroeconomic variables and investor attention on the Bitcoin price is considered in addition to the trading information of the Bitcoin market. We performed experiments to predict the daily closing price of Bitcoin (USD), and the experimental results show that MRC-LSTM significantly outperforms a variety of other network structures. Furthermore, we conduct additional experiments on two other cryptocurrencies, Ethereum and Litecoin, to further confirm the effectiveness of the MRC-LSTM in short-term forecasting for multivariate time series of cryptocurrencies.
翻訳日:2021-05-04 19:35:23 公開日:2021-05-03
# (参考訳) VECA : 人間のようなエージェントを訓練・テストするための仮想環境構築ツールキット [全文訳有]

VECA : A Toolkit for Building Virtual Environments to Train and Test Human-like Agents ( http://arxiv.org/abs/2105.00762v1 )

ライセンス: CC BY 4.0
Kwanyoung Park, Hyunseok Oh, Youngki Lee(参考訳) 人間のようなエージェントの構築は、人間の知能を学習し、思考することを目的としており、AIにおいて長い間重要な研究トピックであった。 人間のようなエージェントを訓練し、テストするためには、エージェントにリッチなマルチモーダルな知覚を強制し、エージェントに対する包括的なインタラクションを可能にする環境が必要です。 しかし、既存のアプローチは環境との包括的な相互作用をサポートしない。 また、ほとんどのアプローチはカスタムタスクを実装するのが難しい、あるいは不可能です。 本稿では,人間のようなエージェントをトレーニングし,テストするための実りの多い仮想環境を構築するための新しいVRベースのツールキットVECAを提案する。 特にVECAはヒューマノイドエージェントと環境マネージャを提供しており、エージェントはリッチな人間のような知覚を受け取り、包括的な相互作用を行うことができる。 また、VECAの動機付けとして、初期の人間の発達において重要な4つの側面、例えば、共同レベルの移動と制御、オブジェクトのコンテキスト理解、マルチモーダル学習、マルチエージェント学習を表わす24の対話的タスクも提供する。 VECAが人間のような学習エージェントのトレーニングおよびテストに有用であることを示すため、VECA上で実験を行い、ユーザが人間のようなアルゴリズムをエンゲージする上で困難なタスクを構築できることを示し、VECAがサポートする機能は人間のようなエージェントのトレーニングに不可欠である。

Building human-like agent, which aims to learn and think like human intelligence, has long been an important research topic in AI. To train and test human-like agents, we need an environment that imposes the agent to rich multimodal perception and allows comprehensive interactions for the agent, while also easily extensible to develop custom tasks. However, existing approaches do not support comprehensive interaction with the environment or lack variety in modalities. Also, most of the approaches are difficult or even impossible to implement custom tasks. In this paper, we propose a novel VR-based toolkit, VECA, which enables building fruitful virtual environments to train and test human-like agents. In particular, VECA provides a humanoid agent and an environment manager, enabling the agent to receive rich human-like perception and perform comprehensive interactions. To motivate VECA, we also provide 24 interactive tasks, which represent (but are not limited to) four essential aspects in early human development: joint-level locomotion and control, understanding contexts of objects, multimodal learning, and multi-agent learning. To show the usefulness of VECA on training and testing human-like learning agents, we conduct experiments on VECA and show that users can build challenging tasks for engaging human-like algorithms, and the features supported by VECA are critical on training human-like agents.
翻訳日:2021-05-04 19:22:26 公開日:2021-05-03
# (参考訳) 深層学習モデルを用いたOracleの骨碑文の認識 [全文訳有]

Recognition of Oracle Bone Inscriptions by using Two Deep Learning Models ( http://arxiv.org/abs/2105.00777v1 )

ライセンス: CC BY 4.0
Yoshiyuki Fujikawa, Hengyi Li, Xuebin Yue, Aravinda C V, Amar Prabhu G, Lin Meng(参考訳) オラクルの骨碑文(OBI)には、約3000年前に中国で使われた世界最古の文字が含まれている。 古代の文学の形式として、OBIは世界の歴史やキャラクターの評価などを理解するのに役立つ多くの情報を保存する。 しかし、OBIが発見されてから約120年が経ち、研究がほとんど行われておらず、老朽化によって碑文の信頼性が低下している。 そのため,文字の自動検出と認識が重要な課題となっている。 本稿では,文化遺産の保存・整理を支援するオンラインOBI認識システムを設計することを目的とする。 OBI認識のための2つのディープラーニングモデルを評価し、OBI認識のためにオンラインでアクセス可能なAPIを設計した。 最初の段階では、OBIの検出と認識に一度(YOLO)しか適用されない。 しかし、全OBIをYOLOで正確に検出できるわけではないため、画像中の未検出OBIを手動でトリミングすることで、次にMobileNetを用いて未検出OBIを認識する。 MobileNetはこの第2段階の認識に利用されており、精度、損失、時間消費の点で優れた性能でOBI認識に適したネットワークであることを示す10種類の最先端モデルの評価を行った。 アプリケーションプログラミングインタフェース(API)にシステムを設置し,OBI検出と認識のために開放した。

Oracle bone inscriptions (OBIs) contain some of the oldest characters in the world and were used in China about 3000 years ago. As an ancients form of literature, OBIs store a lot of information that can help us understand the world history, character evaluations, and more. However, as OBIs were found only discovered about 120 years ago, few studies have described them, and the aging process has made the inscriptions less legible. Hence, automatic character detection and recognition has become an important issue. This paper aims to design a online OBI recognition system for helping preservation and organization the cultural heritage. We evaluated two deep learning models for OBI recognition, and have designed an API that can be accessed online for OBI recognition. In the first stage, you only look once (YOLO) is applied for detecting and recognizing OBIs. However, not all of the OBIs can be detected correctly by YOLO, so we next utilize MobileNet to recognize the undetected OBIs by manually cropping the undetected OBI in the image. MobileNet is used for this second stage of recognition as our evaluation of ten state-of-the-art models showed that it is the best network for OBI recognition due to its superior performance in terms of accuracy, loss and time consumption. We installed our system on an application programming interface (API) and opened it for OBI detection and recognition.
翻訳日:2021-05-04 19:02:23 公開日:2021-05-03
# (参考訳) 深層学習によるSARデータの地すべり検出の改善 [全文訳有]

Improving Landslide Detection on SAR Data through Deep Learning ( http://arxiv.org/abs/2105.00782v1 )

ライセンス: CC BY 4.0
Lorenzo Nava, Oriol Monserrat and Filippo Catani(参考訳) 本稿では、ディープラーニング畳み込みニューラルネットワーク(CNN)を用いて、光学画像(Sentinel-2)とSAR画像(Sentinel-1)の地すべりマッピングと分類性能を評価する。 異なるデータセットにおけるcnnの性能を独立に評価するための訓練・テストゾーンは、2018年9月6日に発生したmw 6.6地震で約8000の地震が発生した北海道のイブリ地区東部にある。 我々は,地震前後におけるマルチポーラライゼーションSARと光学データとをTensorFlowで実装したCNNを用いて解析し,ランドスライダーのクラスが予測される場所をより高い確率で示す。 予想通り、光学画像上でのcnnは地すべり検出タスクに優れていることが判明し、全体の精度は99.20%となり、地上距離検出(grd)sarデータの組み合わせに基づくcnnは94%以上の精度に達した。 以上の結果から,SARデータの統合により,嵐時や密集雲下においても高速なマッピングが可能であり,地すべりの認識・マッピングにおける古典的光学的変化検出に匹敵する精度が期待できると考えられる。

In this letter, we use deep-learning convolution neural networks (CNNs) to assess the landslide mapping and classification performances on optical images (from Sentinel-2) and SAR images (from Sentinel-1). The training and test zones used to independently evaluate the performance of the CNNs on different datasets are located in the eastern Iburi subprefecture in Hokkaido, where, at 03.08 local time (JST) on September 6, 2018, an Mw 6.6 earthquake triggered about 8000 coseismic landslides. We analyzed the conditions before and after the earthquake exploiting multi-polarization SAR as well as optical data by means of a CNN implemented in TensorFlow that points out the locations where the Landslide class is predicted as more likely. As expected, the CNN run on optical images proved itself excellent for the landslide detection task, achieving an overall accuracy of 99.20% while CNNs based on the combination of ground range detected (GRD) SAR data reached overall accuracies beyond 94%. Our findings show that the integrated use of SAR data may also allow for rapid mapping even during storms and under dense cloud cover and seems to provide comparable accuracy to classical optical change detection in landslide recognition and mapping.
翻訳日:2021-05-04 18:52:45 公開日:2021-05-03
# (参考訳) スイッチングコンテキスト:NLPの輸送性対策 [全文訳有]

Switching Contexts: Transportability Measures for NLP ( http://arxiv.org/abs/2105.00823v1 )

ライセンス: CC BY 4.0
Guy Marshall and Mokanarangan Thayaparan and Philip Osborne and Andre Freitas(参考訳) 本稿では,一般可能性のサブ領域として,輸送可能性の話題を考察する。 確立された統計に基づくメトリクスの利用を提案することにより、新しい文脈におけるNLPモデルの性能変化を推定することができる。 トランスポートビリティの新たな尺度を定義することで、新しいドメインにおけるNLPシステムの性能をよりよく評価することが可能になり、新しいタスクやドメインにおけるNLPシステムの性能を評価する上で重要である。 複雑性が増大するいくつかの事例を通して、NLPアプリケーションの輸送可能性の推定手段として、軽量なドメイン類似度測定がいかに用いられるかを実証する。 提案したトランスポートビリティ対策は,名前付きエンティティ認識および自然言語推論タスクのコンテキストで評価される。

This paper explores the topic of transportability, as a sub-area of generalisability. By proposing the utilisation of metrics based on well-established statistics, we are able to estimate the change in performance of NLP models in new contexts. Defining a new measure for transportability may allow for better estimation of NLP system performance in new domains, and is crucial when assessing the performance of NLP systems in new tasks and domains. Through several instances of increasing complexity, we demonstrate how lightweight domain similarity measures can be used as estimators for the transportability in NLP applications. The proposed transportability measures are evaluated in the context of Named Entity Recognition and Natural Language Inference tasks.
翻訳日:2021-05-04 18:42:20 公開日:2021-05-03
# (参考訳) 意味の旅:2012-2018年の絵文字の意味の変化を定量化する [全文訳有]

Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 ( http://arxiv.org/abs/2105.00846v1 )

ライセンス: CC BY 4.0
Alexander Robertson, Farhana Ferdousi Liza, Dong Nguyen, Barbara McGillivray, Scott A. Hale(参考訳) 絵文字のセマンティクスは、これまで静的な観点から検討されてきた。 絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。 絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。 さらに,絵文字のセマンティクスに対する季節性や世界イベントの影響について,より詳細な分析を行った。 絵文字とセマンティクスに関する今後の研究を支援するため、私たちは私たちのデータを、誰でも絵文字のセマンティクス変更を探求できるWebベースのインターフェースとともに公開します。

The semantics of emoji has, to date, been considered from a static perspective. We offer the first longitudinal study of how emoji semantics changes over time, applying techniques from computational linguistics to six years of Twitter data. We identify five patterns in emoji semantic development and find evidence that the less abstract an emoji is, the more likely it is to undergo semantic change. In addition, we analyse select emoji in more detail, examining the effect of seasonality and world events on emoji semantics. To aid future work on emoji and semantics, we make our data publicly available along with a web-based interface that anyone can use to explore semantic change in emoji.
翻訳日:2021-05-04 18:31:47 公開日:2021-05-03
# (参考訳) 言語学・コンピュータサイエンス教室外のNLP教育 : 課題と機会 [全文訳有]

Teaching NLP outside Linguistics and Computer Science classrooms: Some challenges and some opportunities ( http://arxiv.org/abs/2105.00895v1 )

ライセンス: CC BY-SA 4.0
Sowmya Vajjala(参考訳) NLPの影響力範囲は、コンピュータ科学の研究や過去10年間のソフトウェアアプリケーションの開発を超えていた。 我々はNLP法をアジア研究から臨床腫瘍学まで幅広い学術分野に応用している。 また,NLPが通常の大学システム内外におけるデータサイエンスカリキュラムの大部分にモジュールとして存在することにも気付きました。 これらのコースは、非常に多様な背景を持つ学生によって受け取られる。 本稿では,授業経験に基づいて,NLPの授業に関する諸問題について詳しく検討し,特に授業のエコシステムが存在しない場合に,講師が直面している課題について述べる。 このプロセスでは、NLP研究者とツール開発者の両方にとって、いくつかの課題領域を特定する。

NLP's sphere of influence went much beyond computer science research and the development of software applications in the past decade. We see people using NLP methods in a range of academic disciplines from Asian Studies to Clinical Oncology. We also notice the presence of NLP as a module in most of the data science curricula within and outside of regular university setups. These courses are taken by students from very diverse backgrounds. This paper takes a closer look at some issues related to teaching NLP to these diverse audiences based on my classroom experiences, and identifies some challenges the instructors face, particularly when there is no ecosystem of related courses for the students. In this process, it also identifies a few challenge areas for both NLP researchers and tool developers.
翻訳日:2021-05-04 18:17:23 公開日:2021-05-03
# (参考訳) MFCCを用いた楽器認識のためのディープニューラルネットワーク [全文訳有]

Deep Neural Network for Musical Instrument Recognition using MFCCs ( http://arxiv.org/abs/2105.00933v1 )

ライセンス: CC BY 4.0
Saranga Kingkor Mahanta, Abdullah Faiz Ur Rahman Khilji, Partha Pakray(参考訳) 効率的な自動音楽分類の課題は重要であり、音楽分野におけるAIの様々な高度な応用の基礎を形成する。 楽器認識は、その音響によって楽器の識別を行うタスクである。 音の振動」とも呼ばれるこの音は、楽器のクラスに合わせてモデルによって活用される。 本稿では,20種類の楽器の分類を訓練した人工ニューラルネットワーク(ann)モデルを用いた。 ここでは、音声データのメル周波数ケプストラム係数(MFCC)のみを用いる。 提案するモデルトレインは, ロンドン・フィルハーモニック・オーケストラ・データセットで, 4つの家系に属する20種類の楽器を含む。 木管、金管、打楽器、弦。 実験結果に基づいて,本モデルは同じ精度で得られた。

The task of efficient automatic music classification is of vital importance and forms the basis for various advanced applications of AI in the musical domain. Musical instrument recognition is the task of instrument identification by virtue of its audio. This audio, also termed as the sound vibrations are leveraged by the model to match with the instrument classes. In this paper, we use an artificial neural network (ANN) model that was trained to perform classification on twenty different classes of musical instruments. Here we use use only the mel-frequency cepstral coefficients (MFCCs) of the audio data. Our proposed model trains on the full London philharmonic orchestra dataset which contains twenty classes of instruments belonging to the four families viz. woodwinds, brass, percussion, and strings. Based on experimental results our model achieves state-of-the-art accuracy on the same.
翻訳日:2021-05-04 18:04:17 公開日:2021-05-03
# (参考訳) 因果学習を用いた多人数対話の成果説明 [全文訳有]

Explaining Outcomes of Multi-Party Dialogues using Causal Learning ( http://arxiv.org/abs/2105.00944v1 )

ライセンス: CC BY 4.0
Priyanka Sinha, Pabitra Mitra, Antonio Anastasio Bruto da Costa, Nikolaos Kekatos(参考訳) マルチパーティ対話は、技術や非技術トピックに関する企業ソーシャルメディアで一般的である。 会話の結果は肯定的あるいは否定的である。 コンフリクト分析や今後のコラボレーションデザインの観点から,対話が特定の感情で終わる理由を分析することが重要である。 このような分析のための説明可能な時系列マイニングアルゴリズムを提案する。 対話は、キーワード、EMPATHカテゴリ、およびその進行の様々な点での推論された感情の発生の時系列として表される。 結果の感情の原因を予測するために、対話イベント間の時間的関係を考慮した決定指標を持つ特別な決定木を用いる。 分類器から抽出された解釈可能なルールは、予測を説明するために使用される。 大企業における企業ソーシャルメディア投稿に対して,実験結果が提示される。

Multi-party dialogues are common in enterprise social media on technical as well as non-technical topics. The outcome of a conversation may be positive or negative. It is important to analyze why a dialogue ends with a particular sentiment from the point of view of conflict analysis as well as future collaboration design. We propose an explainable time series mining algorithm for such analysis. A dialogue is represented as an attributed time series of occurrences of keywords, EMPATH categories, and inferred sentiments at various points in its progress. A special decision tree, with decision metrics that take into account temporal relationships between dialogue events, is used for predicting the cause of the outcome sentiment. Interpretable rules mined from the classifier are used to explain the prediction. Experimental results are presented for the enterprise social media posts in a large company.
翻訳日:2021-05-04 17:57:05 公開日:2021-05-03
# (参考訳) 自動可読性評価研究の動向と課題 [全文訳有]

Trends, Limitations and Open Challenges in Automatic Readability Assessment Research ( http://arxiv.org/abs/2105.00973v1 )

ライセンス: CC BY-SA 4.0
Sowmya Vajjala(参考訳) 可読性評価は、あるテキストの読み難さを評価するタスクである。 可読性評価に対する計算手法の研究は20年以上前から行われているが、この研究を合成する研究はほとんどない。 本稿は、可読性評価のための計算モデル開発に関する現代の研究に関する簡単な調査である。 共通のアプローチを特定し、その欠点を議論し、将来の課題をいくつか特定する。 可能であれば、計算研究と教育や心理学といった他の分野の関連研究からの洞察を結びつけます。

Readability assessment is the task of evaluating the reading difficulty of a given piece of text. Although research on computational approaches to readability assessment is now two decades old, there is not much work on synthesizing this research. This article is a brief survey of contemporary research on developing computational models for readability assessment. We identify the common approaches, discuss their shortcomings, and identify some challenges for the future. Where possible, we also connect computational research with insights from related work in other disciplines such as education and psychology.
翻訳日:2021-05-04 17:48:02 公開日:2021-05-03
# (参考訳) 外因性雑音を考慮したリカレントニューラルネットワークのロバスト学習 [全文訳有]

Robust Learning of Recurrent Neural Networks in Presence of Exogenous Noise ( http://arxiv.org/abs/2105.00996v1 )

ライセンス: CC BY 4.0
Arash Amini, Guangyi Liu, Nader Motee(参考訳) リカレントニューラルネットワーク(RNN)は、シーケンシャルデータの動的学習に有望な可能性を示している。 しかし、RNNの逐次アーキテクチャが問題を悪化させるような入力ノイズの存在下では、ニューラルネットワークの堅牢性が低いことが知られている。 本稿では,制御理論と推定理論のアイデアを用いて,入力雑音を受けるRNNモデルに対するトラクタブルロバストネス解析を提案する。 雑音が学習に与える影響を定量化するための頑健度尺度として,雑音システムの出力のばらつきを採用する。 線形化手法を用いてロバストネス測度を効率的に推定できることを示した。 これらの結果を用いて,RNNの強靭性を高める学習手法を提案する。 ベンチマーク問題に関する広範なシミュレーションにより,提案手法が再帰的ニューラルネットワークのロバスト性を大幅に改善することが明らかとなった。

Recurrent Neural networks (RNN) have shown promising potential for learning dynamics of sequential data. However, artificial neural networks are known to exhibit poor robustness in presence of input noise, where the sequential architecture of RNNs exacerbates the problem. In this paper, we will use ideas from control and estimation theories to propose a tractable robustness analysis for RNN models that are subject to input noise. The variance of the output of the noisy system is adopted as a robustness measure to quantify the impact of noise on learning. It is shown that the robustness measure can be estimated efficiently using linearization techniques. Using these results, we proposed a learning method to enhance robustness of a RNN with respect to exogenous Gaussian noise with known statistics. Our extensive simulations on benchmark problems reveal that our proposed methodology significantly improves robustness of recurrent neural networks.
翻訳日:2021-05-04 17:32:03 公開日:2021-05-03
# (参考訳) 心不全患者の死亡予測のための生存分析における放射線診断レポートの深部表現の活用 [全文訳有]

Leveraging Deep Representations of Radiology Reports in Survival Analysis for Predicting Heart Failure Patient Mortality ( http://arxiv.org/abs/2105.01009v1 )

ライセンス: CC BY 4.0
Hyun Gi Lee, Evan Sholle, Ashley Beecy, Subhi Al'Aref and Yifan Peng(参考訳) 生存分析における臨床テキストの利用は、ほとんど構造化されていないため困難である。 現在の自動抽出モデルは、ラベルの範囲が限られているため、テキスト情報を包括的にキャプチャできない。 さらに、トレーニングには大量のデータと高品質な専門家アノテーションが必要です。 本研究では,患者生存率を予測するために,BERTに基づく臨床テキストの隠れ層表現を比例的ハザードモデルに用いた新しい方法を提案する。 隠れたレイヤは,事前定義された機能よりも予測精度が著しく向上し,c-indexおよび時間依存型aucの平均を5.7%上回った。 作業はhttps://github.com/b ionlplab/heart_failu re_mortality.comで公開しています。

Utilizing clinical texts in survival analysis is difficult because they are largely unstructured. Current automatic extraction models fail to capture textual information comprehensively since their labels are limited in scope. Furthermore, they typically require a large amount of data and high-quality expert annotations for training. In this work, we present a novel method of using BERT-based hidden layer representations of clinical texts as covariates for proportional hazards models to predict patient survival outcomes. We show that hidden layers yield notably more accurate predictions than predefined features, outperforming the previous baseline model by 5.7% on average across C-index and time-dependent AUC. We make our work publicly available at https://github.com/b ionlplab/heart_failu re_mortality.
翻訳日:2021-05-04 17:15:46 公開日:2021-05-03
# (参考訳) 多目的ジョイントニューラルアーキテクチャ探索とハイパーパラメータ最適化のためのベースラインのバッグ [全文訳有]

Bag of Baselines for Multi-objective Joint Neural Architecture Search and Hyperparameter Optimization ( http://arxiv.org/abs/2105.01015v1 )

ライセンス: CC BY 4.0
Julia Guerrero-Viu, Sven Hauns, Sergio Izquierdo, Guilherme Miotto, Simon Schrodi, Andre Biedenkapp, Thomas Elsken, Difan Deng, Marius Lindauer, Frank Hutter(参考訳) ニューラルネットワーク検索(nas)とハイパーパラメータ最適化(hpo)は、使用するトレーニングパイプラインのハイパーパラメータの使用とチューニングを行うディープニューラルネットワークのアーキテクチャを自動的に見つけて、非専門家にディープラーニングをアクセス可能にする。 NASとHPOはともに近年広く研究されているが、NAS法は通常、固定されたハイパーパラメータを仮定し、その逆を仮定する。 さらに、NASはリソース要求を考慮に入れるために、近年、多目的最適化問題としてフレーム化されていることが多い。 本稿では,ニューラルアーキテクチャとハイパーパラメータを協調的に最適化するための現在のアプローチを拡張する手法を提案する。 我々はこれらの手法が今後の多目的関節NAS+HPO研究のベースラインとなることを願っている。 これを容易にするため、すべてのコードはhttps://github.com/a utoml/multi-obj-base linesで利用可能です。

Neural architecture search (NAS) and hyperparameter optimization (HPO) make deep learning accessible to non-experts by automatically finding the architecture of the deep neural network to use and tuning the hyperparameters of the used training pipeline. While both NAS and HPO have been studied extensively in recent years, NAS methods typically assume fixed hyperparameters and vice versa - there exists little work on joint NAS + HPO. Furthermore, NAS has recently often been framed as a multi-objective optimization problem, in order to take, e.g., resource requirements into account. In this paper, we propose a set of methods that extend current approaches to jointly optimize neural architectures and hyperparameters with respect to multiple objectives. We hope that these methods will serve as simple baselines for future research on multi-objective joint NAS + HPO. To facilitate this, all our code is available at https://github.com/a utoml/multi-obj-base lines.
翻訳日:2021-05-04 17:06:50 公開日:2021-05-03
# (参考訳) ニューラルネットワークサブグリッドスケール乱流モデルの組込み学習 [全文訳有]

Embedded training of neural-network sub-grid-scale turbulence models ( http://arxiv.org/abs/2105.01030v1 )

ライセンス: CC BY 4.0
Jonathan F. MacArt, Justin Sirignano, Jonathan B. Freund(参考訳) レイノルズ数$re_0=6\,000$の時発展面乱流噴流におけるサブグリッドスケール応力のモデルを提供するため、ディープニューラルネットワークモデルの重み付けを制御フロー方程式と共に最適化する。 トレーニングの目的関数は, 対応する直接数値シミュレーションによる瞬時濾過速度場に基づいており, モデルの重みの終端感度を速度場に与えるために, 共役なナビエ-ストークス方程式を用いた確率勾配降下法を用いて訓練を行う。 複数のデュアルジェット構成でのサンプル内およびサンプル外テストでは、平均流、レイノルズ応力、スペクトルの予測に必要なメッシュ密度が、動的スマゴリンスキーモデルが同等の精度で必要とする半分であることが示されている。 フィルタリングされたサブグリッドスケールのストレスに合致するように直接訓練された同じニューラルネットワークモデル -- トレーニング中にフロー方程式に埋め込まれる制約なしに -- は、定性的に正しい予測を提供することができない。 結合された定式化は平均流とレイノルズ応力のみに基づいて列車に一般化され、実験で容易に利用できる。 平均フロートレーニングはロバストなモデルを提供しており、これは重要であるが、この場合トレーニングに利用可能な情報が少ないため予想されるように、同じ粗いメッシュに対する予測はやや正確ではない。 定式化の期待されている利点は、訓練に解決された物理学を組み込むことが外挿能力を高めることである。 これは受動スカラー輸送の場合に評価され、混合予測の改善により確立されたモデルよりも優れている。

The weights of a deep neural network model are optimized in conjunction with the governing flow equations to provide a model for sub-grid-scale stresses in a temporally developing plane turbulent jet at Reynolds number $Re_0=6\,000$. The objective function for training is first based on the instantaneous filtered velocity fields from a corresponding direct numerical simulation, and the training is by a stochastic gradient descent method, which uses the adjoint Navier--Stokes equations to provide the end-to-end sensitivities of the model weights to the velocity fields. In-sample and out-of-sample testing on multiple dual-jet configurations show that its required mesh density in each coordinate direction for prediction of mean flow, Reynolds stresses, and spectra is half that needed by the dynamic Smagorinsky model for comparable accuracy. The same neural-network model trained directly to match filtered sub-grid-scale stresses -- without the constraint of being embedded within the flow equations during the training -- fails to provide a qualitatively correct prediction. The coupled formulation is generalized to train based only on mean-flow and Reynolds stresses, which are more readily available in experiments. The mean-flow training provides a robust model, which is important, though a somewhat less accurate prediction for the same coarse meshes, as might be anticipated due to the reduced information available for training in this case. The anticipated advantage of the formulation is that the inclusion of resolved physics in the training increases its capacity to extrapolate. This is assessed for the case of passive scalar transport, for which it outperforms established models due to improved mixing predictions.
翻訳日:2021-05-04 16:45:25 公開日:2021-05-03
# (参考訳) 新型コロナウイルスパンデミック時の消費者需要モデリング [全文訳有]

Consumer Demand Modeling During COVID-19 Pandemic ( http://arxiv.org/abs/2105.01036v1 )

ライセンス: CC BY 4.0
Shaz Hoda, Amitoj Singh, Anand Rao, Remzi Ural, Nicholas Hodson(参考訳) 現在のパンデミックは、従来の需要計画手法にかなりの不確実性をもたらした。 これらの不確実性は、病気の進行、政府の介入、経済、消費者行動に起因している。 パンデミックに関する新興文献の多くは、病気の進行に焦点を当てているが、一部の文献は、その後の規制と個人の行動への影響に焦点を当てている。 本稿では,covid-19に対する不安に対する定量的行動モデル,政府の介入が消費者行動に与える影響,消費者行動が消費者選択,それゆえ商品需要に与える影響について述べる。 病気の進行、消費者の行動、需要予測の複数のモデルが組み合わさり、病気の進行と消費者の需要のギャップを埋める。 我々は、パンデミック時の需要の要因を理解するためにパネル回帰を用いており、ベイジアン推論は、レジリエントな需要計画のシナリオを構築するのに役立つ規制の環境を簡素化する。 ガス小売の具体例を用いて,このレジリエントな需要計画モデルを示す。 新型コロナウイルス(covid-19)の感染者が前週に増加するにつれ、ガス需要は減少するが、時間とともに減少する。 さらに、政府の規制によって異なるサービスへのアクセスが制限され、モビリティが低下し、それ自体は需要が減少する。

The current pandemic has introduced substantial uncertainty to traditional methods for demand planning. These uncertainties stem from the disease progression, government interventions, economy and consumer behavior. While most of the emerging literature on the pandemic has focused on disease progression, a few have focused on consequent regulations and their impact on individual behavior. The contributions of this paper include a quantitative behavior model of fear of COVID-19, impact of government interventions on consumer behavior, and impact of consumer behavior on consumer choice and hence demand for goods. It brings together multiple models for disease progression, consumer behavior and demand estimation-thus bridging the gap between disease progression and consumer demand. We use panel regression to understand the drivers of demand during the pandemic and Bayesian inference to simplify the regulation landscape that can help build scenarios for resilient demand planning. We illustrate this resilient demand planning model using a specific example of gas retailing. We find that demand is sensitive to fear of COVID-19: as the number of COVID-19 cases increase over the previous week, the demand for gas decreases -- though this dissipates over time. Further, government regulations restrict access to different services, thereby reducing mobility, which in itself reduces demand.
翻訳日:2021-05-04 16:12:50 公開日:2021-05-03
# (参考訳) goldilocks:テクノロジー支援のためのbertの右チューニング [全文訳有]

Goldilocks: Just-Right Tuning of BERT for Technology-Assisted Review ( http://arxiv.org/abs/2105.01044v1 )

ライセンス: CC BY-SA 4.0
Eugene Yang, Sean MacAvaney, David D. Lewis, Ophir Frieder(参考訳) technology-assisted review (tar) は、ハイリコール検索(hrr)タスクにおける文書レビューのための反復的なアクティブラーニングワークフローを指す。 TAR研究とほとんどの商用TARソフトウェアは、ロジスティック回帰やサポートベクターマシンのような線形モデルを語彙的特徴に適用している。 教師付きチューニングを用いたトランスフォーマーベースモデルでは,多くのテキスト分類タスクの有効性が向上し,TARでの使用が示唆された。 RCV1-v2ニュースワイヤコレクションを模擬したTARワークフローにおいて,事前学習したBERTモデルによりレビューボリュームが30%削減されることがわかった。 対照的に、線形モデルは、Jeb Bushの電子メール収集における法的な発見をシミュレートするためのBERTよりも優れている。 これは、トランスフォーマプリトレーニングコーパスとタスクドメインのマッチングが一般的に評価されるよりも重要であることを示唆している。 さらに,能動的学習を始める前に,タスクコレクションの右翼言語モデルによる微調整が重要であることを示す。 RCV1-v2でも、微調整が多すぎると線形モデルよりも性能が悪くなる。

Technology-assisted review (TAR) refers to iterative active learning workflows for document review in high recall retrieval (HRR) tasks. TAR research and most commercial TAR software have applied linear models such as logistic regression or support vector machines to lexical features. Transformer-based models with supervised tuning have been found to improve effectiveness on many text classification tasks, suggesting their use in TAR. We indeed find that the pre-trained BERT model reduces review volume by 30% in TAR workflows simulated on the RCV1-v2 newswire collection. In contrast, we find that linear models outperform BERT for simulated legal discovery topics on the Jeb Bush e-mail collection. This suggests the match between transformer pre-training corpora and the task domain is more important than generally appreciated. Additionally, we show that just-right language model fine-tuning on the task collection before starting active learning is critical. Both too little or too much fine-tuning results in performance worse than that of linear models, even for RCV1-v2.
翻訳日:2021-05-04 16:03:00 公開日:2021-05-03
# (参考訳) act the part:articulated object part discoveryの学習インタラクション戦略 [全文訳有]

Act the Part: Learning Interaction Strategies for Articulated Object Part Discovery ( http://arxiv.org/abs/2105.01047v1 )

ライセンス: CC BY 4.0
Samir Yitzhak Gadre, Kiana Ehsani, Shuran Song(参考訳) 人々は、オブジェクトのセマンティクスに関係なく、明瞭なオブジェクトを操作するときに、物理的直観を使うことが多い。 この観察により,エージェントが部品を回収するためにオブジェクトと遊ばなければならない重要な具体的タスクを特定する。 この目的を達成するために,我々はact the part (atp) を導入して,明瞭な物体と相互作用し,それらの部品を発見・分割する方法を学習する。 アクション選択とモーションセグメンテーションを結合することにより、AtPはセマンティックラベルなしで知覚部分の回復を可能にする構造を分離することができる。 実験の結果、AtPは部分発見のための効率的な戦略を学習し、未知のカテゴリに一般化し、タスクの条件付き推論を行うことができることがわかった。 シミュレーションで訓練したものの、微調整することなく実世界データへの説得力のある転送を示す。

People often use physical intuition when manipulating articulated objects, irrespective of object semantics. Motivated by this observation, we identify an important embodied task where an agent must play with objects to recover their parts. To this end, we introduce Act the Part (AtP) to learn how to interact with articulated objects to discover and segment their pieces. By coupling action selection and motion segmentation, AtP is able to isolate structures to make perceptual part recovery possible without semantic labels. Our experiments show AtP learns efficient strategies for part discovery, can generalize to unseen categories, and is capable of conditional reasoning for the task. Although trained in simulation, we show convincing transfer to real world data with no fine-tuning.
翻訳日:2021-05-04 15:51:46 公開日:2021-05-03
# (参考訳) SuperPERB: 音声処理ユニバーサルパフォーマンスベンチマーク [全文訳有]

SUPERB: Speech processing Universal PERformance Benchmark ( http://arxiv.org/abs/2105.01051v1 )

ライセンス: CC BY 4.0
Shu-wen Yang, Po-Han Chi, Yung-Sung Chuang, Cheng-I Jeff Lai, Kushal Lakhotia, Yist Y. Lin, Andy T. Liu, Jiatong Shi, Xuankai Chang, Guan-Ting Lin, Tzu-Hsien Huang, Wei-Cheng Tseng, Ko-tik Lee, Da-Rong Liu, Zili Huang, Shuyan Dong, Shang-Wen Li, Shinji Watanabe, Abdelrahman Mohamed, Hung-yi Lee(参考訳) 自己教師付き学習(ssl)は自然言語処理(nlp)とコンピュータビジョン(cv)の研究を進める上で不可欠である。 このパラダイムは、ラベルのない大量のデータに対して共有モデルを事前訓練し、最小限の適応で様々なタスクに対して最先端(SOTA)を達成する。 しかし、音声処理コミュニティは、体系的にパラダイムを探求するのと同様の仕組みを欠いている。 このギャップを埋めるために,音声処理ユニバーサルパフォーマンスベンチマーク(superb)を提案する。 SUPERBは、最小限のアーキテクチャ変更とラベル付きデータを持つ幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするリーダーボードである。 共有モデルの複数の使用例の中で、特に好適な再利用性のためにSSLから学んだ表現の抽出に重点を置いている。 凍結した共有モデル上でタスク特化軽量予測ヘッドを学習することにより,SUPERBタスクを解決するための簡単なフレームワークを提案する。 SSL表現は SUPERB タスク間の競合する一般化性とアクセシビリティを示すため,本フレームワークは有望であることを示す。 我々は,表象学習と一般音声処理の研究を促進させるために,リーダボードとベンチマークツールキットによる課題としてsuperbをリリースする。

Self-supervised learning (SSL) has proven vital for advancing research in natural language processing (NLP) and computer vision (CV). The paradigm pretrains a shared model on large volumes of unlabeled data and achieves state-of-the-art (SOTA) for various tasks with minimal adaptation. However, the speech processing community lacks a similar setup to systematically explore the paradigm. To bridge this gap, we introduce Speech processing Universal PERformance Benchmark (SUPERB). SUPERB is a leaderboard to benchmark the performance of a shared model across a wide range of speech processing tasks with minimal architecture changes and labeled data. Among multiple usages of the shared model, we especially focus on extracting the representation learned from SSL due to its preferable re-usability. We present a simple framework to solve SUPERB tasks by learning task-specialized lightweight prediction heads on top of the frozen shared model. Our results demonstrate that the framework is promising as SSL representations show competitive generalizability and accessibility across SUPERB tasks. We release SUPERB as a challenge with a leaderboard and a benchmark toolkit to fuel the research in representation learning and general speech processing.
翻訳日:2021-05-04 15:35:52 公開日:2021-05-03
# (参考訳) 応用言語技術:人文科学のためのNLP [全文訳有]

Applied Language Technology: NLP for the Humanities ( http://arxiv.org/abs/2105.01052v1 )

ライセンス: CC BY 4.0
Tuomo Hiippala(参考訳) この貢献は、言語技術とそのpythonを使ったアプリケーションに関する基本的な理解を人文科学専攻に提供する2つのコースモジュールについて記述している。 学習教材はインタラクティブなJupyter Notebookと、Creative Commonsライセンスで公開されているYouTubeビデオで構成されている。

This contribution describes a two-course module that seeks to provide humanities majors with a basic understanding of language technology and its applications using Python. The learning materials consist of interactive Jupyter Notebooks and accompanying YouTube videos, which are openly available with a Creative Commons licence.
翻訳日:2021-05-04 15:21:24 公開日:2021-05-03
# (参考訳) 組込みデバイスソリューションのための銃検出データセットと探索 [全文訳有]

A Gun Detection Dataset and Searching for Embedded Device Solutions ( http://arxiv.org/abs/2105.01058v1 )

ライセンス: CC BY 4.0
Delong Qi, Weijun Tan, Zhifu Liu, Qi Yao, Jingfeng Liu(参考訳) 銃暴力は世界でも特にアメリカ合衆国では深刻な問題である。 監視ビデオカメラやスマートIPカメラで銃を検出するコンピュータビジョン手法が研究され、安全担当者にリアルタイムの警報を送信する。 しかし、公開データセットがないため、そのようなメソッドが実際のアプリケーションでどのように機能するかをベンチマークするのは困難である。 本稿では,銃検出用の51kアノテートガン画像と,いくつかの異なるソースから収集した銃分類用の51kクロップガンチップ画像を含むデータセットを公開する。 我々の知る限り、これは銃検出研究の最大のデータセットである。 このデータセットはwww.linksprite.com/g un-detection-dataset sでダウンロードできる。 また,組込みエッジデバイス(カメラ)における銃検出ソリューションの探索や,クラウドサーバ上での銃・銃の分類についても検討した。 このエッジ/クラウドフレームワークは、実世界での銃検出を可能にする。

Gun violence is a severe problem in the world, particularly in the United States. Computer vision methods have been studied to detect guns in surveillance video cameras or smart IP cameras and to send a real-time alert to safety personals. However, due to no public datasets, it is hard to benchmark how well such methods work in real applications. In this paper we publish a dataset with 51K annotated gun images for gun detection and other 51K cropped gun chip images for gun classification we collect from a few different sources. To our knowledge, this is the largest dataset for the study of gun detection. This dataset can be downloaded at www.linksprite.com/g un-detection-dataset s. We also study to search for solutions for gun detection in embedded edge device (camera) and a gun/non-gun classification on a cloud server. This edge/cloud framework makes possible the deployment of gun detection in the real world.
翻訳日:2021-05-04 15:17:43 公開日:2021-05-03
# (参考訳) 身体情報のための奇抜な表現学習 [全文訳有]

Curious Representation Learning for Embodied Intelligence ( http://arxiv.org/abs/2105.01060v1 )

ライセンス: CC0 1.0
Yilun Du, Chuang Gan, Phillip Isola(参考訳) 近年,自己指導型表現学習は顕著な成功を収めている。 教師付きラベルの必要性を抑えることで、そのようなアプローチはインターネットや写真データセットに存在する多くの未ラベル画像を利用することができる。 しかし、真にインテリジェントなエージェントを構築するためには、データセットからだけでなく、環境からも学習できる表現学習アルゴリズムを構築する必要がある。 自然環境のエージェントは通常、キュレートされたデータを供給しない。 その代わりに、学習するデータを取得する環境を探さなければなりません。 本研究では,強化学習方針と視覚表現モデルとを共同で学習するフレームワーク,curiosity representation learning (crl)を提案する。 このポリシーは,表現学習者の誤りを最大化するために訓練され,その過程で環境探索にインセンティブを与える。 同時に、学習した表現がより強く、より強くなり、ポリシーはそこから学ぶのがずっと難しいデータを供給します。 私たちの学習した表現は、下流のナビゲーションタスクへの有望な転送を可能にします。 さらに,シミュレーションの訓練を受けながら,実画像上での解釈可能な結果を得ることができる。

Self-supervised representation learning has achieved remarkable success in recent years. By subverting the need for supervised labels, such approaches are able to utilize the numerous unlabeled images that exist on the Internet and in photographic datasets. Yet to build truly intelligent agents, we must construct representation learning algorithms that can learn not only from datasets but also learn from environments. An agent in a natural environment will not typically be fed curated data. Instead, it must explore its environment to acquire the data it will learn from. We propose a framework, curious representation learning (CRL), which jointly learns a reinforcement learning policy and a visual representation model. The policy is trained to maximize the error of the representation learner, and in doing so is incentivized to explore its environment. At the same time, the learned representation becomes stronger and stronger as the policy feeds it ever harder data to learn from. Our learned representations enable promising transfer to downstream navigation tasks, performing better than or comparably to ImageNet pretraining without using any supervision at all. In addition, despite being trained in simulation, our learned representations can obtain interpretable results on real images.
翻訳日:2021-05-04 14:44:26 公開日:2021-05-03
# 因子化ニューラル層の初期化と規則化

Initialization and Regularization of Factorized Neural Layers ( http://arxiv.org/abs/2105.01029v1 )

ライセンス: Link先を確認
Mikhail Khodak and Neil Tenenholtz and Lester Mackey and Nicol\`o Fusi(参考訳) 因子層-2つ以上の行列の積によってパラメータ化される-圧縮モデルトレーニング、ある種の知識蒸留、マルチヘッド自己注意アーキテクチャなど、さまざまなディープラーニングコンテキストで発生する。 本研究では,これらの層を含むディープネットの初期化と規則化の方法について検討し,スペクトル初期化とフロベニウス崩壊の2つの簡易な方法を検討した。 私たちは、初期化と正規化のスキームが勾配降下によるトレーニングにどのように影響するかを分析し、重み付けとバッチ正規化の相互作用を理解するための現代的な試みを描いています。 実験的に、スペクトル初期化とフロベニウス崩壊の利点を様々な設定で強調する。 モデル圧縮において、低ランク法では、低メモリ残差ネットワークを訓練するタスクにおいて、非構造化スパーシティ法とテンソル法の両方を著しく上回ることができることを示した。 知識蒸留において、フロベニウスの崩壊は、教師ネットワークの再訓練や刈り取りを必要とせずに、過剰パラメータのトレーニングからコンパクトなモデルを生成する、単純で完全なベースラインを可能にする。 最後に,マルチヘッドアテンションに適用した2つのスキームが,翻訳および教師なし事前学習の性能向上につながることを示す。

Factorized layers--operations parameterized by products of two or more matrices--occur in a variety of deep learning contexts, including compressed model training, certain types of knowledge distillation, and multi-head self-attention architectures. We study how to initialize and regularize deep nets containing such layers, examining two simple, understudied schemes, spectral initialization and Frobenius decay, for improving their performance. The guiding insight is to design optimization routines for these networks that are as close as possible to that of their well-tuned, non-decomposed counterparts; we back this intuition with an analysis of how the initialization and regularization schemes impact training with gradient descent, drawing on modern attempts to understand the interplay of weight-decay and batch-normalization. Empirically, we highlight the benefits of spectral initialization and Frobenius decay across a variety of settings. In model compression, we show that they enable low-rank methods to significantly outperform both unstructured sparsity and tensor methods on the task of training low-memory residual networks; analogs of the schemes also improve the performance of tensor decomposition techniques. For knowledge distillation, Frobenius decay enables a simple, overcomplete baseline that yields a compact model from over-parameterized training without requiring retraining with or pruning a teacher network. Finally, we show how both schemes applied to multi-head attention lead to improved performance on both translation and unsupervised pre-training.
翻訳日:2021-05-04 14:24:17 公開日:2021-05-03
# 不均一グラフのためのスキーマ対応深部グラフ畳み込みネットワーク

Schema-Aware Deep Graph Convolutional Networks for Heterogeneous Graphs ( http://arxiv.org/abs/2105.00644v1 )

ライセンス: Link先を確認
Saurav Manchanda and Da Zheng and George Karypis(参考訳) グラフ畳み込みネットワーク(GCN)に基づくアプローチは、複雑でグラフ構造化された問題を解決するために大きな進歩を遂げた。 GCNはグラフ構造情報と、メッセージパッシングを通じてノード(またはエッジ)の特徴を取り入れ、'deep'ノード表現を計算します。 この分野の大きな進歩にもかかわらず、異種グラフのためのgcnアーキテクチャの設計はいまだに未解決の課題である。 ヘテロジニアスグラフのスキーマのため、有用な情報は複数のホップから立ち去ることができる。 重要な疑問は、GCNのよく知られたオーバースムーシング問題を避けながら、近隣の複数のホップの情報を取り込むためにメッセージパッシングを実行する方法である。 この問題に対処するために、異種グラフのスキーマを活用し、階層的なアプローチを用いて多くのホップを効果的に活用するGCNフレームワーク「深不均一グラフ畳み込みネットワーク(DHGCN)」を提案する。 まず、ターゲットノードの表現を'schema- derived ego-network' (sen) に基づいて計算する。 そして、同じタイプのノードを様々な事前定義されたメタパスにリンクし、これらのリンクに沿ってメッセージパッシングを実行して最終ノード表現を計算する。 我々の設計選択は、スキーマから不均一グラフを生成する方法を自然に捉えます。 実および合成データセットの実験結果は、設計選択を相関させ、競合する選択肢と比較して性能向上を示す。

Graph convolutional network (GCN) based approaches have achieved significant progress for solving complex, graph-structured problems. GCNs incorporate the graph structure information and the node (or edge) features through message passing and computes 'deep' node representations. Despite significant progress in the field, designing GCN architectures for heterogeneous graphs still remains an open challenge. Due to the schema of a heterogeneous graph, useful information may reside multiple hops away. A key question is how to perform message passing to incorporate information of neighbors multiple hops away while avoiding the well-known over-smoothing problem in GCNs. To address this question, we propose our GCN framework 'Deep Heterogeneous Graph Convolutional Network (DHGCN)', which takes advantage of the schema of a heterogeneous graph and uses a hierarchical approach to effectively utilize information many hops away. It first computes representations of the target nodes based on their 'schema-derived ego-network' (SEN). It then links the nodes of the same type with various pre-defined metapaths and performs message passing along these links to compute final node representations. Our design choices naturally capture the way a heterogeneous graph is generated from the schema. The experimental results on real and synthetic datasets corroborate the design choice and illustrate the performance gains relative to competing alternatives.
翻訳日:2021-05-04 14:21:20 公開日:2021-05-03
# 膵マスイメージング分類のためのスペクトル機械学習

Spectral Machine Learning for Pancreatic Mass Imaging Classification ( http://arxiv.org/abs/2105.00728v1 )

ライセンス: Link先を確認
Yiming Liu, Ying Chen, Guangming Pan, Weichung Wang, Wei-Chih Liao, Yee Liang Thian, Cheng E. Chee and Constantinos P. Anastassiades(参考訳) CT画像を用いた膵腫瘤検診における新しいスペクトル機械学習(SML)法を提案する。 アルゴリズムは,250例(正常膵50例,異常膵所見200例)の約30,000画像を用いて,公開データに基づいて訓練を行う。 正常膵32例中26例, 異常膵所見81例中81例について, 113例の約15,000画像に基づいて, サンプル外診断で94.6%の検診精度が得られた。 SMLは、診断分類において、自動的に基本画像(各患者の平均5または9画像)を選択でき、上記の精度を達成できる。 計算時間は、標準的なCPU実行環境を持つラップトップで113人の患者を診断するために75秒である。 Factors that influenced high performance of a well-designed integration of spectral learning and machine learning included: 1) use of eigenvectors corresponding to several of the largest eigenvalues of sample covariance matrix (spike eigenvectors) to choose input attributes in classification training, taking into account only the fundamental information of the raw images with less noise; 2) removal of irrelevant pixels based on mean-level spectral test to lower the challenges of memory capacity and enhance computational efficiency while maintaining superior classification accuracy; 3) adoption of state-of-the-art machine learning classification, gradient boosting and random forest. 提案手法は,AI時代の膵マススクリーニングにおける画像診断の実用性と精度の向上を示す。

We present a novel spectral machine learning (SML) method in screening for pancreatic mass using CT imaging. Our algorithm is trained with approximately 30,000 images from 250 patients (50 patients with normal pancreas and 200 patients with abnormal pancreas findings) based on public data sources. A test accuracy of 94.6 percents was achieved in the out-of-sample diagnosis classification based on a total of approximately 15,000 images from 113 patients, whereby 26 out of 32 patients with normal pancreas and all 81 patients with abnormal pancreas findings were correctly diagnosed. SML is able to automatically choose fundamental images (on average 5 or 9 images for each patient) in the diagnosis classification and achieve the above mentioned accuracy. The computational time is 75 seconds for diagnosing 113 patients in a laptop with standard CPU running environment. Factors that influenced high performance of a well-designed integration of spectral learning and machine learning included: 1) use of eigenvectors corresponding to several of the largest eigenvalues of sample covariance matrix (spike eigenvectors) to choose input attributes in classification training, taking into account only the fundamental information of the raw images with less noise; 2) removal of irrelevant pixels based on mean-level spectral test to lower the challenges of memory capacity and enhance computational efficiency while maintaining superior classification accuracy; 3) adoption of state-of-the-art machine learning classification, gradient boosting and random forest. Our methodology showcases practical utility and improved accuracy of image diagnosis in pancreatic mass screening in the era of AI.
翻訳日:2021-05-04 14:20:34 公開日:2021-05-03
# ベイズ最適化はどのようにあるべきか?

How Bayesian Should Bayesian Optimisation Be? ( http://arxiv.org/abs/2105.00894v1 )

ライセンス: Link先を確認
George De Ath, Richard Everson and Jonathan Fieldsend(参考訳) ベイズ最適化(BO)は高価なブラックボックス関数の最適化に確率的代理モデル(通常ガウス過程(GP))を用いる。 それぞれのboイテレーションでは、gpハイパーパラメータは限界確率を最大化することにより、事前評価されたデータに適合する。 しかし、これはハイパーパラメータ自体の不確かさを考慮せず、自信過剰なモデル予測に繋がる。 この不確実性は、ベイズ的アプローチでモデルハイパーパラメーターを区切ることによって説明できる。 BO(FBBO)におけるガウス過程ハイパーパラメータの完全ベイズ処理が最適化性能の向上につながるかどうかを考察する。 解析的アプローチは難解であるので、fbbo を3つの近似推論スキームを用いて、予測改善(ei)と最大信頼境界(ucb)獲得関数を ard および等方性母子カーネルとペアリングし、4つの観測ノイズ設定のための15の既知のベンチマーク問題と比較する。 ARDカーネルでEIを使用するFBBOは、ノイズの増加時にBO成分の組み合わせの差をはるかに少なくして、ノイズフリー環境で最高の性能を実現する。 FBBO は UCB で過剰探索するが、EI では有害ではない。 したがって、BOのデフォルト選択として、ARDカーネルでEIを使用するFBBOを推奨する。

Bayesian optimisation (BO) uses probabilistic surrogate models - usually Gaussian processes (GPs) - for the optimisation of expensive black-box functions. At each BO iteration, the GP hyperparameters are fit to previously-evaluated data by maximising the marginal likelihood. However, this fails to account for uncertainty in the hyperparameters themselves, leading to overconfident model predictions. This uncertainty can be accounted for by taking the Bayesian approach of marginalising out the model hyperparameters. We investigate whether a fully-Bayesian treatment of the Gaussian process hyperparameters in BO (FBBO) leads to improved optimisation performance. Since an analytic approach is intractable, we compare FBBO using three approximate inference schemes to the maximum likelihood approach, using the Expected Improvement (EI) and Upper Confidence Bound (UCB) acquisition functions paired with ARD and isotropic Matern kernels, across 15 well-known benchmark problems for 4 observational noise settings. FBBO using EI with an ARD kernel leads to the best performance in the noise-free setting, with much less difference between combinations of BO components when the noise is increased. FBBO leads to over-exploration with UCB, but is not detrimental with EI. Therefore, we recommend that FBBO using EI with an ARD kernel as the default choice for BO.
翻訳日:2021-05-04 14:19:26 公開日:2021-05-03
# バンド幅・演算に適応した単発協調物体検出器

Single-Training Collaborative Object Detectors Adaptive to Bandwidth and Computation ( http://arxiv.org/abs/2105.00591v1 )

ライセンス: Link先を確認
Juliano S. Assine, J. C. S. Santos Filho, Eduardo Valle(参考訳) 過去数年間、モバイルのディープラーニングデプロイメントは飛躍的に進歩したが、帯域幅、レイテンシ、計算、エネルギなど、厳格で変動する運用制限に対応するソリューションには、依然として苦戦している。 本研究では,このギャップを埋める手助けをし,一組の重みで三重通信計算・精度トレードオフを管理するオブジェクト検出のための最初の構成可能なソリューションを導入する。 我々のソリューションはCOCO-2017における最先端の結果を示し、ベースとなるEfficientDet-D2アーキテクチャにわずかなペナルティしか与えない。 私たちの設計はベースアーキテクチャと圧縮機の選択に堅牢であり、将来のアーキテクチャにうまく適応するべきです。

In the past few years, mobile deep-learning deployment progressed by leaps and bounds, but solutions still struggle to accommodate its severe and fluctuating operational restrictions, which include bandwidth, latency, computation, and energy. In this work, we help to bridge that gap, introducing the first configurable solution for object detection that manages the triple communication-comput ation-accuracy trade-off with a single set of weights. Our solution shows state-of-the-art results on COCO-2017, adding only a minor penalty on the base EfficientDet-D2 architecture. Our design is robust to the choice of base architecture and compressor and should adapt well for future architectures.
翻訳日:2021-05-04 14:17:48 公開日:2021-05-03
# AIシステムがいかに公正であるかを説明する

Explaining how your AI system is fair ( http://arxiv.org/abs/2105.00667v1 )

ライセンス: Link先を確認
Boris Ruf, Marcin Detyniecki(参考訳) 公平な機械学習を持続可能な方法で実施するためには、適切な公正性目標を選択することが重要である。 公平性は様々な、時には矛盾する定義に現れる正義の概念であるから、これは自明な仕事ではない。 人工知能(AI)システムにおける最も適切な公平性の定義は、倫理的基準と法的要件の問題であり、適切な選択は特定のユースケースとそのコンテキストに依存する。 本稿では,エンドユーザーに対して実装された公平性を説明・正当化するための決定木の利用を提案する。 このような構造は、まず第一に、倫理的な原則を具体的なアプリケーションでフェアネス定義にマッピングするai実践者をサポートし、それゆえ選択を単純で透明なプロセスにする。 しかし、このアプローチは意思決定の背後にある理由を文書化するのに役立ちます。 AIにおける公平性というトピックの一般的な複雑さのため、特定のユースケースに対して"公正性"を指定することが、AIシステムの信頼性を維持するための最善の方法である、と私たちは論じています。 この場合は、意思決定プロセス中に表現された理由と原則を、より広いオーディエンスと共有することで実現できます。

To implement fair machine learning in a sustainable way, choosing the right fairness objective is key. Since fairness is a concept of justice which comes in various, sometimes conflicting definitions, this is not a trivial task though. The most appropriate fairness definition for an artificial intelligence (AI) system is a matter of ethical standards and legal requirements, and the right choice depends on the particular use case and its context. In this position paper, we propose to use a decision tree as means to explain and justify the implemented kind of fairness to the end users. Such a structure would first of all support AI practitioners in mapping ethical principles to fairness definitions for a concrete application and therefore make the selection a straightforward and transparent process. However, this approach would also help document the reasoning behind the decision making. Due to the general complexity of the topic of fairness in AI, we argue that specifying "fairness" for a given use case is the best way forward to maintain confidence in AI systems. In this case, this could be achieved by sharing the reasons and principles expressed during the decision making process with the broader audience.
翻訳日:2021-05-04 14:15:45 公開日:2021-05-03
# エネルギー制約下での水泳脱出パターンの学習

Learning swimming escape patterns under energy constraints ( http://arxiv.org/abs/2105.00771v1 )

ライセンス: Link先を確認
Ioannis Mandralis, Pascal Weber, Guido Novati, Petros Koumoutsakos(参考訳) 泳ぐ生物は、体の動きを通して不安定な流れ場を作り、利用することで捕食者から逃れることができる。 確率的最適化と流れシミュレーションは、自然の幼生に見られたものと一致した脱出パターンを同定した。 しかし、これらのパターンは特定のコスト関数の仕様によって制限され、身体運動の所定の機能形式に依存する。 ここでは,エネルギー制約下でスイマーの脱出パターンを発見するために強化学習を展開する。 特定されたパターンには、よりエネルギー効率の良いエスケープに加えて、Cスタート機構が含まれる。 限られたエネルギーで距離を最大化するためには、滑空相と連動する加速運動の短いバーストで泳ぐ必要がある。 本アルゴリズムは,効率的な水泳のための実用的なフロー最適化原理を明らかにするパターンの配列を示し,その手法をエネルギー制約下で動作している水生ロボット装置の制御に転送することができる。

Swimming organisms can escape their predators by creating and harnessing unsteady flow fields through their body motions. Stochastic optimization and flow simulations have identified escape patterns that are consistent with those observed in natural larval swimmers. However, these patterns have been limited by the specification of a particular cost function and depend on a prescribed functional form of the body motion. Here, we deploy reinforcement learning to discover swimmer escape patterns under energy constraints. The identified patterns include the C-start mechanism, in addition to more energetically efficient escapes. We find that maximizing distance with limited energy requires swimming via short bursts of accelerating motion interlinked with phases of gliding. The present, data efficient, reinforcement learning algorithm results in an array of patterns that reveal practical flow optimization principles for efficient swimming and the methodology can be transferred to the control of aquatic robotic devices operating under energy constraints.
翻訳日:2021-05-04 14:15:26 公開日:2021-05-03
# VAEベースのレコメンダシステムの高速マルチステップ評価

Fast Multi-Step Critiquing for VAE-based Recommender Systems ( http://arxiv.org/abs/2105.00774v1 )

ライセンス: Link先を確認
Diego Antognini and Boi Faltings(参考訳) 近年の研究では、パーソナライズされた説明とレコメンデーションが信頼と品質を高めることが示されている。 さらに、ユーザには説明の一部を批判することで、レコメンデーションを洗練する機会を提供する。 一方、現在のレコメンデータシステムは、リコメンデーション、説明、批判の目的を共同でモデル化しますが、これはそれぞれのパフォーマンスの間に固有のトレードオフを生み出します。 一方,近年の線形評定手法は既存の推薦システム上に構築されているが,各会話のターンに最適化された目的のため,推論における計算不効率に悩まされている。 我々は,マルチモーダルモデリングの仮定に基づくレコメンデーションと説明のための新しい変分オートエンコーダであるm&ms-vaeを用いて,これらの欠陥に対処する。 我々は、完全かつ部分的に観測された変数の両方をシミュレートするために、弱い監督スキームの下でモデルを訓練する。 そして、訓練されたM&Ms-VAEモデルの一般化能力を利用して、ユーザの好みと批判を個別に埋め込む。 私たちの仕事で最も重要なイノベーションは、単純なランキング目標で自己監督された方法で構築され、トレーニングされる、クリティキシングモジュールです。 実世界の4つのデータセットの実験により、我々のシステムは、最先端のモデルの中で、推奨、説明、マルチステップのクオリティでパフォーマンスを最初に支配または一致させた。 さらに、M&Ms-VAEは最高の基準線よりも25.6倍高速な批評を処理している。 最後に,本モデルでは,マルチモーダルモデルとトレーニング方式により,弱い監督下でもコヒーレント継手とクロスジェネレーションを推定できることを示す。

Recent studies have shown that providing personalized explanations alongside recommendations increases trust and perceived quality. Furthermore, it gives users an opportunity to refine the recommendations by critiquing parts of the explanations. On one hand, current recommender systems model the recommendation, explanation, and critiquing objectives jointly, but this creates an inherent trade-off between their respective performance. On the other hand, although recent latent linear critiquing approaches are built upon an existing recommender system, they suffer from computational inefficiency at inference due to the objective optimized at each conversation's turn. We address these deficiencies with M&Ms-VAE, a novel variational autoencoder for recommendation and explanation that is based on multimodal modeling assumptions. We train the model under a weak supervision scheme to simulate both fully and partially observed variables. Then, we leverage the generalization ability of a trained M&Ms-VAE model to embed the user preference and the critique separately. Our work's most important innovation is our critiquing module, which is built upon and trained in a self-supervised manner with a simple ranking objective. Experiments on four real-world datasets demonstrate that among state-of-the-art models, our system is the first to dominate or match the performance in terms of recommendation, explanation, and multi-step critiquing. Moreover, M&Ms-VAE processes the critiques up to 25.6x faster than the best baselines. Finally, we show that our model infers coherent joint and cross generation, even under weak supervision, thanks to our multimodal-based modeling and training scheme.
翻訳日:2021-05-04 14:15:13 公開日:2021-05-03
# 注意型シームズニューラルネットワークを用いた全参照音声品質推定

Full-Reference Speech Quality Estimation with Attentional Siamese Neural Networks ( http://arxiv.org/abs/2105.00783v1 )

ライセンス: Link先を確認
Gabriel Mittags, Sebastian M\"oller(参考訳) 本稿では,深層学習を用いた全参照音声品質予測モデルを提案する。 モデルは、入力として両方の信号の重みを共有するシアム再帰畳み込みネットワークを介して、参照信号と劣化信号の特徴表現を決定する。 得られた特徴は、信号と注意機構を合わせるために使用され、最後に合成され、音声の全体的な品質を推定する。 提案するネットワークアーキテクチャは,Voice-Over-IPネットワークを介して送信される音声信号に対して発生する時間調整問題の簡単な解を示し,そのクリーン参照信号をエンドツーエンドのニューラルネットワークに基づく音声品質モデルに組み込む方法を示す。

In this paper, we present a full-reference speech quality prediction model with a deep learning approach. The model determines a feature representation of the reference and the degraded signal through a siamese recurrent convolutional network that shares the weights for both signals as input. The resulting features are then used to align the signals with an attention mechanism and are finally combined to estimate the overall speech quality. The proposed network architecture represents a simple solution for the time-alignment problem that occurs for speech signals transmitted through Voice-Over-IP networks and shows how the clean reference signal can be incorporated into speech quality models that are based on end-to-end trained neural networks.
翻訳日:2021-05-04 14:14:45 公開日:2021-05-03
# 一般化行動傾向推論のための生成的逆流学習

Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference ( http://arxiv.org/abs/2105.00822v1 )

ライセンス: Link先を確認
Xiaocong Chen, Lina Yao, Xianzhi Wang, Aixin Sun, Wenjie Zhang and Quan Z. Sheng(参考訳) 強化学習の最近の進歩は、強化学習ベースのレコメンダシステムなど、動的インタラクションを通じて適応的にユーザーモデリングを学ぶことへの関心を高めている。 最適化に関するガイドラインを提供するため、ほとんどの強化学習アプリケーションにとって、報酬関数は不可欠です。 しかし,現在の強化学習に基づく手法では,動的環境や騒音環境に適応できない手作業による報酬関数が用いられている。 さらに、一般的には一般化能力を犠牲にするタスク固有の報酬機能を使用する。 本稿では,ユーザの行動嗜好モデリングのための生成的逆強化学習を提案する。 事前定義された報酬機能を使用する代わりに,識別的アクタ-クリティックネットワークとwasserstein ganに基づいて,ユーザのアクションから報酬を自動的に学習する。 提案手法は,交通信号制御,オンラインレコメンデータシステム,スキャンパス予測など,様々なシナリオにおいて最先端の手法よりも優れていることを示す。

Recent advances in reinforcement learning have inspired increasing interest in learning user modeling adaptively through dynamic interactions, e.g., in reinforcement learning based recommender systems. Reward function is crucial for most of reinforcement learning applications as it can provide the guideline about the optimization. However, current reinforcement-learni ng-based methods rely on manually-defined reward functions, which cannot adapt to dynamic and noisy environments. Besides, they generally use task-specific reward functions that sacrifice generalization ability. We propose a generative inverse reinforcement learning for user behavioral preference modelling, to address the above issues. Instead of using predefined reward functions, our model can automatically learn the rewards from user's actions based on discriminative actor-critic network and Wasserstein GAN. Our model provides a general way of characterizing and explaining underlying behavioral tendencies, and our experiments show our method outperforms state-of-the-art methods in a variety of scenarios, namely traffic signal control, online recommender systems, and scanpath prediction.
翻訳日:2021-05-04 14:14:33 公開日:2021-05-03
# RL-IoT: 強化学習によるIoT相互運用性の実現

RL-IoT: Towards IoT Interoperability via Reinforcement Learning ( http://arxiv.org/abs/2105.00884v1 )

ライセンス: Link先を確認
Giulia Milan, Luca Vassio, Idilio Drago, Marco Mellia(参考訳) 私たちの生活はモノのインターネット(IoT)デバイスで満たされています。 これらのデバイスは、しばしば、未知のフォーマットとセマンティクスを持つ、閉じた、または文書化されたプロトコルに依存する。 このようなデバイスを自律的に操作する方法を学ぶことは、相互運用性と機能の自動検証の鍵となる。 本稿では,未知のIoTデバイスを自動的に操作する方法を探索するシステムであるRL-IoTを提案する。 我々は、プロトコルメッセージの意味を理解するために強化学習(RL)を活用し、対話の回数を最小化しながら、所定の目標に達するためのデバイスを制御する。 セマンティクスが不明なIoTプロトコルメッセージのデータベースを知っていればよいと仮定する。 RL-IoTはターゲットのIoTデバイスとメッセージを交換し、所定の目標に到達するのに有用なコマンドを学ぶ。 その結果、RL-IoTは単純で複雑なタスクを解くことができることがわかった。 パラメータを適切に調整することで、RL-IoTはターゲットデバイスでアクションを実行する方法を学び、ケーススタディ用のYeelightスマート電球は、400のインタラクションで非自明なパターンを完了します。 RL-IoTは、RLを使用して、限られた情報でIoTプロトコルと対話する方法を自動で探求し、相互運用可能なシステムへの道を開く機会を開く。

Our life is getting filled by Internet of Things (IoT) devices. These devices often rely on closed or poorly documented protocols, with unknown formats and semantics. Learning how to interact with such devices in an autonomous manner is key for interoperability and automatic verification of their capabilities. In this paper, we propose RL-IoT -- a system that explores how to automatically interact with possibly unknown IoT devices. We leverage reinforcement learning (RL) to understand the semantics of protocol messages and to control the device to reach a given goal, while minimizing the number of interactions. We assume only to know a database of possible IoT protocol messages, whose semantics are however unknown. RL-IoT exchanges messages with the target IoT device, learning those commands that are useful to reach the given goal. Our results show that RL-IoT is able to solve simple and complex tasks. With properly tuned parameters, RL-IoT learns how to perform actions with the target device, a Yeelight smart bulb for our case study, completing non-trivial patterns with as few as 400 interactions. RL-IoT opens the opportunity to use RL to automatically explore how to interact with IoT protocols with limited information, and paving the road for interoperable systems.
翻訳日:2021-05-04 14:13:45 公開日:2021-05-03
# 交絡によるグラフのバラブシ・アルベルトパラメータの復元

Recovering Barabsi-Albert Parameters of Graphs through Disentanglement ( http://arxiv.org/abs/2105.00997v1 )

ライセンス: Link先を確認
Cristina Guzman, Daphna Keidar, Tristan Meynier, Andreas Opedal, Niklas Stoehr(参考訳) Erdos-Renyi (ER) ランダムグラフやBarabasi-Albert (BA) グラフのような古典的なグラフモデリングアプローチは、ここではスタイリングモデルと呼ばれ、解釈可能な方法で現実世界のグラフの性質を再現することを目的としている。 有用なのですが、スタイリッシュなモデルによるグラフ生成にはドメイン知識と反復試行とエラーシミュレーションが必要です。 Stoehrらによる以前の作品。 (2019) グラフデータから生成プロセスを学習し、より具体的にはβ-variational autoencoder (beta-vae) を使ってこれらの問題に対処する。 彼らはモデルの潜在変数、BAグラフなどのグラフを通じてERグラフの生成パラメータを復元することに成功している。 本研究では,ベータVAEデコーダを逐次的に置き換えることで,BAグラフの生成パラメータの復元に着目する。 まず,グラフニューラルネットワーク (GNN) とランダムフォレスト回帰器 (Random Forest Regressor) を用いて生成BAパラメータを教師付きで学習し,真の生成パラメータと潜伏変数の2乗損失を最小化する。 次に、GNNエンコーダを1段目からLSTMベースのデコーダと、カスタマイズされた損失で組み合わせたベータVAEモデルを訓練する。

Classical graph modeling approaches such as Erdos-Renyi (ER) random graphs or Barabasi-Albert (BA) graphs, here referred to as stylized models, aim to reproduce properties of real-world graphs in an interpretable way. While useful, graph generation with stylized models requires domain knowledge and iterative trial and error simulation. Previous work by Stoehr et al. (2019) addresses these issues by learning the generation process from graph data, using a disentanglement-focu sed deep autoencoding framework, more specifically, a beta-Variational Autoencoder (beta-VAE). While they successfully recover the generative parameters of ER graphs through the model's latent variables, graphs such as BA graphs, due to their oversimplified decoder. We focus on recovering the generative parameters of BA graphs by replacing their beta-VAE decoder with a sequential one. We first learn the generative BA parameters in a supervised fashion using a Graph Neural Network (GNN) and a Random Forest Regressor, by minimizing the squared loss between the true generative parameters and the latent variables. Next, we train a beta-VAE model, combining the GNN encoder from the first stage with an LSTM-based decoder with a customized loss.
翻訳日:2021-05-04 14:12:02 公開日:2021-05-03
# レール上の世界から運転を学ぶ

Learning to drive from a world on rails ( http://arxiv.org/abs/2105.00636v1 )

ライセンス: Link先を確認
Dian Chen, Vladlen Koltun, Philipp Kr\"ahenb\"uhl(参考訳) モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。 世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。 事前に記録されたログからの学習を支援するため、世界はレール上にあり、エージェントもアクションも環境に影響を与えないと仮定する。 この仮定は学習問題を大いに単純化し、ダイナミクスを非反応性の世界モデルとエゴ車両の低次元かつコンパクトな前方モデルに分解する。 本稿では,ベルマン方程式の表型動的プログラミング評価を用いて,各学習軌跡に対する動作値を計算する。 レールの仮定にもかかわらず、最終的な運転方針は動的でリアクティブな世界でうまく機能する。 提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。 また,本手法は,procgenベンチマークのナビゲーションタスクにおいて,最先端のモデルフリー強化学習技術よりもサンプル効率が桁違いに向上する。

We learn an interactive vision-based driving policy from pre-recorded driving logs via a model-based approach. A forward model of the world supervises a driving policy that predicts the outcome of any potential driving trajectory. To support learning from pre-recorded logs, we assume that the world is on rails, meaning neither the agent nor its actions influence the environment. This assumption greatly simplifies the learning problem, factorizing the dynamics into a nonreactive world model and a low-dimensional and compact forward model of the ego-vehicle. Our approach computes action-values for each training trajectory using a tabular dynamic-programming evaluation of the Bellman equations; these action-values in turn supervise the final vision-based driving policy. Despite the world-on-rails assumption, the final driving policy acts well in a dynamic and reactive world. Our method ranks first on the CARLA leaderboard, attaining a 25% higher driving score while using 40 times less data. Our method is also an order of magnitude more sample-efficient than state-of-the-art model-free reinforcement learning techniques on navigational tasks in the ProcGen benchmark.
翻訳日:2021-05-04 14:09:51 公開日:2021-05-03
# Bird-Area Water-Bodies Dataset (BAWD) and Predictive AI Model for Avian Botulism Outbreak (AVI-BoT)

Bird-Area Water-Bodies Dataset (BAWD) and Predictive AI Model for Avian Botulism Outbreak (AVI-BoT) ( http://arxiv.org/abs/2105.00924v1 )

ライセンス: Link先を確認
Narayani Bhatia, Devang Mahesh, Jashandeep Singh, and Manan Suri(参考訳) 細菌Clostridium botulinumによって引き起こされる鳥のボツリヌス症は、しばしば高い死亡率につながる鳥類の麻痺性疾患を引き起こし、通常は分子技術を用いて診断される。 マウス・バイオアッセイ(英語版)、ELISA、PCR(英語版)、これらは全て時間を費やし、手間がかかり、感染した部位から侵入サンプルを採取する必要がある。 本研究では,グローバルバードエリア水球データセット(bawd)を用いた,初のマルチスペクトル・リモートセンシング画像を構築した。 鳥の動物相にとって重要な水域の画像が融合した衛星画像) 発生の証拠が地上で報告されている 現在のバージョンでは、bawdは2つのオープンソース衛星プロジェクト(sentinelとlandsat)から904 sq.kmの面積をカバーしている。 BAWDは4大陸にまたがる17の地形学的に多様なグローバルな場所で構成され、2016-2020年に3年間にわたって観測された。 BAWDと最先端のディープラーニング技術を用いて、AVI-BoT(Aerosol, Visible, Infra-red (NIR/SWIR)、Bands of Thermal)と呼ばれる鳥のボツリヌスの発生を予測するための、初の人工知能ベース(AI)モデルを提案する。 AVI-BoTは、水体(10バンド)の融合したマルチスペクトル衛星画像を入力として使用し、潜在的な鳥類のボツリヌスの発生確率を示す空間予測マップを生成する。 また,より単純な(5バンド)因果因子モデル(文献で報告されている顕著な生理的要因に基づく)を鳥の動植物学予測のために訓練し,検討した。 avi-botを用いて0.94のトレーニング精度とbawd上で0.96の検証精度を実現する。 提案手法は,有意義な動物相を救える可能性を秘めた,大規模で低コストで非侵襲的な鳥類生息地モニタリング手法を提案する。

Avian botulism caused by a bacterium, Clostridium botulinum, causes a paralytic disease in birds often leading to high fatality, and is usually diagnosed using molecular techniques. Diagnostic techniques for Avian botulism include: Mouse Bioassay, ELISA, PCR, all of which are time-consuming, laborious and require invasive sample collection from affected sites. In this study, we build a first-ever multi-spectral, remote-sensing imagery based global Bird-Area Water-bodies Dataset (BAWD) (i.e. fused satellite images of water-body sites important for avian fauna) backed by on-ground reporting evidence of outbreaks. In the current version, BAWD covers a total ground area of 904 sq.km from two open source satellite projects (Sentinel and Landsat). BAWD consists of 17 topographically diverse global sites spanning across 4 continents, with locations monitored over a time-span of 3 years (2016-2020). Using BAWD and state-of-the-art deep-learning techniques we propose a first-ever Artificial Intelligence based (AI) model to predict potential outbreak of Avian botulism called AVI-BoT (Aerosol, Visible, Infra-red (NIR/SWIR) and Bands of Thermal). AVI-BoT uses fused multi-spectral satellite images of water-bodies (10-bands) as input to generate a spatial prediction map depicting probability of potential Avian botulism outbreaks. We also train and investigate a simpler (5-band) Causative-Factor model (based on prominent physiological factors reported in literature as conducive for outbreak) to predict Avian botulism. Using AVI-BoT, we achieve a training accuracy of 0.94 and validation accuracy of 0.96 on BAWD, far superior in comparison to our Causative factors model. The proposed technique presents a scale-able, low-cost, non-invasive methodology for continuous monitoring of bird-habitats against botulism outbreaks with the potential of saving valuable fauna lives.
翻訳日:2021-05-04 14:09:36 公開日:2021-05-03
# Pseudo Siamese Network for Few-shot Intent Generation

Pseudo Siamese Network for Few-shot Intent Generation ( http://arxiv.org/abs/2105.00896v1 )

ライセンス: Link先を確認
Congying Xia, Caiming Xiong, Philip Yu(参考訳) わずかなインテント検出は、スカアアノテーションの問題のため、難しいタスクです。 本稿では,ごくわずかなインテントに対してラベル付きデータを生成し,この問題を緩和するための疑似シャムネットワーク(psn)を提案する。 psnは同じ構造で異なる重みを持つ2つの同一のサブネットワークから成り、アクションネットワークとオブジェクトネットワークである。 各サブネットワークはトランスフォーマティブベースの変分オートエンコーダであり、文中の異なるコンポーネントの潜在分布をモデル化しようとする。 アクションネットワークはアクショントークンを理解するために学習され、オブジェクトネットワークはオブジェクト関連の表現に焦点を当てる。 アクションと与えられた意図に存在するオブジェクトとの発話を生成するための解釈可能なフレームワークを提供する。 2つの実世界のデータセットにおける実験は、psnが一般化された少数のショットインテント検出タスクで最先端のパフォーマンスを達成していることを示している。

Few-shot intent detection is a challenging task due to the scare annotation problem. In this paper, we propose a Pseudo Siamese Network (PSN) to generate labeled data for few-shot intents and alleviate this problem. PSN consists of two identical subnetworks with the same structure but different weights: an action network and an object network. Each subnetwork is a transformer-based variational autoencoder that tries to model the latent distribution of different components in the sentence. The action network is learned to understand action tokens and the object network focuses on object-related expressions. It provides an interpretable framework for generating an utterance with an action and an object existing in a given intent. Experiments on two real-world datasets show that PSN achieves state-of-the-art performance for the generalized few shot intent detection task.
翻訳日:2021-05-04 14:08:00 公開日:2021-05-03
# 言語モデルにおける性別偏差単語埋め込みの効果

Impact of Gender Debiased Word Embeddings in Language Modeling ( http://arxiv.org/abs/2105.00908v1 )

ライセンス: Link先を確認
Christine R. Basta and Marta R. Costa-juss\`a(参考訳) ジェンダー、人種、社会バイアスは、近年、自然言語処理の応用における不公平さの顕著な例として検出されている。 公平への鍵となる道は、データとアルゴリズムを理解し、分析し、解釈することです。 近年の研究では、トレーニングで使用される人為的なデータが偏見を生じさせる要因であることが示されている。 さらに、現在のアルゴリズムはデータからのバイアスを増幅することが証明されている。 これらの懸念にさらに対処するため,本論文では,既訓練の標準と偏りのある単語埋め込みを用いて,女性を下書きするデータに基づいて,最先端のリカレントニューラルネットワークモデルがどのように振る舞うかを考察する。 その結果、事前学習された組込みを使用する場合、言語モデルは、タスク内でトレーニングされた組込みを使用する場合と比較して、不均衡なデータでトレーニングされた場合、高いバイアスを継承することが示された。 さらに, 言語モデルでは, 標準の事前学習エンデディングに比べて, 偏りのあるプレトレーニングエンデディングを用いることで, バイアスの低減が図られている。

Gender, race and social biases have recently been detected as evident examples of unfairness in applications of Natural Language Processing. A key path towards fairness is to understand, analyse and interpret our data and algorithms. Recent studies have shown that the human-generated data used in training is an apparent factor of getting biases. In addition, current algorithms have also been proven to amplify biases from data. To further address these concerns, in this paper, we study how an state-of-the-art recurrent neural language model behaves when trained on data, which under-represents females, using pre-trained standard and debiased word embeddings. Results show that language models inherit higher bias when trained on unbalanced data when using pre-trained embeddings, in comparison with using embeddings trained within the task. Moreover, results show that, on the same data, language models inherit lower bias when using debiased pre-trained emdeddings, compared to using standard pre-trained embeddings.
翻訳日:2021-05-04 14:07:46 公開日:2021-05-03
# ロシアのニュースクラスタリングと見出し選択共有タスク

Russian News Clustering and Headline Selection Shared Task ( http://arxiv.org/abs/2105.00981v1 )

ライセンス: Link先を確認
Ilya Gusev, Ivan Smurov(参考訳) 本稿では,ロシア語ニュースクラスタリングと見出し選択共有タスクの結果について述べる。 その中のひとつとして,ロシアのニュースイベント検出,見出し選択,見出し生成のタスクを提案する。 これらのタスクにはデータセットとベースラインが伴う。 イベント検出と見出し選択のための提示されたデータセットは、彼らのタスクのための最初の公開ロシアのデータセットである。 ヘッドライン生成データセットはクラスタリングに基づいており、以前のデータセットとは異なり、クラスタ毎に複数の参照ヘッドラインを提供する。 最後に、共有タスク参加者が提案するアプローチを報告し、分析する。

This paper presents the results of the Russian News Clustering and Headline Selection shared task. As a part of it, we propose the tasks of Russian news event detection, headline selection, and headline generation. These tasks are accompanied by datasets and baselines. The presented datasets for event detection and headline selection are the first public Russian datasets for their tasks. The headline generation dataset is based on clustering and provides multiple reference headlines for every cluster, unlike the previous datasets. Finally, the approaches proposed by the shared task participants are reported and analyzed.
翻訳日:2021-05-04 14:07:27 公開日:2021-05-03
# 深部ニューラルネットワーク分類器のための物理世界支援信号 -防御も攻撃も-

Physical world assistive signals for deep neural network classifiers -- neither defense nor attack ( http://arxiv.org/abs/2105.00622v1 )

ライセンス: Link先を確認
Camilo Pestana, Wei Liu, David Glance, Robyn Owens, Ajmal Mian(参考訳) ディープニューラルネットワークは、コンピュータビジョンタスクの最先端技術をリードしている。 それにもかかわらず、ニューラルネットワークは、入力の小さな変更が予測結果と信頼性に大きな影響を及ぼすという、脆弱である。 その結果、この分野での研究は主に敵の攻撃と防衛に焦点を当てた。 本稿では,モデルが攻撃を受けているか否かに関わらず,モデルの信頼度を向上させるために最適化された補助信号の概念を導入する。 異なる照明条件と視野角をシミュレートした実生活シナリオにおいて,これらの摂動の興味深い特性を分析し,3次元空間における補助信号を最適化するアイデアを拡張した。 実験により,提案手法により生成された補助信号は,従来の2次元空間で動作する手法よりも深部モデルの精度と信頼性を高めることが示された。 さらに、私たちのAssistive Signalsは、実際のオブジェクトの特定のパターンに対するMLモデルの固有のバイアスを示しています。 我々は、現実世界の物体の検知可能性に寄与する可能性のあるパターンを再考したり、回避するために、これらの洞察を利用する方法について議論する。

Deep Neural Networks lead the state of the art of computer vision tasks. Despite this, Neural Networks are brittle in that small changes in the input can drastically affect their prediction outcome and confidence. Consequently and naturally, research in this area mainly focus on adversarial attacks and defenses. In this paper, we take an alternative stance and introduce the concept of Assistive Signals, which are optimized to improve a model's confidence score regardless if it's under attack or not. We analyse some interesting properties of these assistive perturbations and extend the idea to optimize assistive signals in the 3D space for real-life scenarios simulating different lighting conditions and viewing angles. Experimental evaluations show that the assistive signals generated by our optimization method increase the accuracy and confidence of deep models more than those generated by conventional methods that work in the 2D space. In addition, our Assistive Signals illustrate the intrinsic bias of ML models towards certain patterns in real-life objects. We discuss how we can exploit these insights to re-think, or avoid, some patterns that might contribute to, or degrade, the detectability of objects in the real-world.
翻訳日:2021-05-04 14:02:04 公開日:2021-05-03
# Black-Box Dissector: 消去型ハードラベルモデルステアリング攻撃を目指して

Black-Box Dissector: Towards Erasing-based Hard-Label Model Stealing Attack ( http://arxiv.org/abs/2105.00623v1 )

ライセンス: Link先を確認
Yixu Wang, Jie Li, Hong Liu, Yongjian Wu, Rongrong Ji(参考訳) モデル盗み攻撃は、被害者のターゲットモデルの能力を盗む代替モデルを作ることを目的としている。 しかし、既存の手法のほとんどは、最も現実的なシナリオでは利用できない被害者モデルからの完全な確率出力に依存する。 より実用的なハードラベル設定に着目し、確率予測に豊富な情報がないため、既存の手法は破滅的な性能劣化に悩まされる。 知識蒸留に触発された新しいハードラベルモデル盗用法である \emph{black-box dissector} は,被害者モデルからハードラベルに隠された情報をマイニングするカム駆動消去戦略と,ハードラベルによる過剰フィッティングやミスキャリブレーションを避けるために代替モデルからソフトラベルを利用したランダム消去ベースの自己認識蒸留モジュールを含む。 広く使われている4つのデータセットに関する広範囲な実験により、この手法は最先端の手法よりも優れており、少なくとも9.92\%$である。 さらに,実世界のAPI実験により,本手法の有効性がさらに証明された。 また,既存の防衛手法を無効にすることで,本手法の実用化の可能性を示す。

Model stealing attack aims to create a substitute model that steals the ability of the victim target model. However, most of the existing methods depend on the full probability outputs from the victim model, which is unavailable in most realistic scenarios. Focusing on the more practical hard-label setting, due to the lack of rich information in the probability prediction, the existing methods suffer from catastrophic performance degradation. Inspired by knowledge distillation, we propose a novel hard-label model stealing method termed \emph{black-box dissector}, which includes a CAM-driven erasing strategy to mine the hidden information in hard labels from the victim model, and a random-erasing-based self-knowledge distillation module utilizing soft labels from substitute model to avoid overfitting and miscalibration caused by hard labels. Extensive experiments on four widely-used datasets consistently show that our method outperforms state-of-the-art methods, with an improvement of at most $9.92\%$. In addition, experiments on real-world APIs further prove the effectiveness of our method. Our method also can invalidate existing defense methods which further demonstrates the practical potential of our methods.
翻訳日:2021-05-04 14:01:50 公開日:2021-05-03
# ISTR: トランスフォーマーによるエンドツーエンドインスタンスセグメンテーション

ISTR: End-to-End Instance Segmentation with Transformers ( http://arxiv.org/abs/2105.00637v1 )

ライセンス: Link先を確認
Jie Hu, Liujuan Cao, Lu Yao, ShengChuan Zhang, Yan Wang, Ke Li, Feiyue Huang, Rongrong Ji, Ling Shao(参考訳) エンドツーエンドのパラダイムは、様々なディープラーニングベースのコンピュータビジョンモデルの精度を大幅に向上させる。 この目的のために、オブジェクト検出のようなタスクは、二部マッチングに基づくセット損失によるトレーニングによる非最大抑制を取り除くなど、非エンドツーエンドコンポーネントを置き換えることでアップグレードされている。 しかし、このようなアップグレードは、オブジェクト検出に比べて出力次元がかなり大きいため、インスタンスセグメンテーションには適用できない。 本稿では,この方式の最初のエンドツーエンドフレームワークである ISTR と呼ばれるインスタンス分割変換器を提案する。 ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。 さらに、istrは、既存のトップダウンおよびボトムアップフレームワークと比較して、インスタンスセグメンテーションを達成する新しい方法を提供する、反復的なリファインメント戦略で、検出とセグメンテーションを同時に実施する。 ISTRは、提案したエンドツーエンドメカニズムから、近似に基づく準最適埋め込みであっても、最先端の性能を示す。 具体的には、ResNet50-FPNを用いて46.8/38.6ボックス/マスクAP、MS COCOデータセット上でResNet101-FPNを用いて48.1/39.9ボックス/マスクAPを得る。 定量的および定性的な結果は、インスタンスレベルの認識のための固体ベースラインとしてのISTRの有望な可能性を明らかにする。 コードは、https://github.com/h ujiecpp/ISTR.comで公開されている。

End-to-end paradigms significantly improve the accuracy of various deep-learning-based computer vision models. To this end, tasks like object detection have been upgraded by replacing non-end-to-end components, such as removing non-maximum suppression by training with a set loss based on bipartite matching. However, such an upgrade is not applicable to instance segmentation, due to its significantly higher output dimensions compared to object detection. In this paper, we propose an instance segmentation Transformer, termed ISTR, which is the first end-to-end framework of its kind. ISTR predicts low-dimensional mask embeddings, and matches them with ground truth mask embeddings for the set loss. Besides, ISTR concurrently conducts detection and segmentation with a recurrent refinement strategy, which provides a new way to achieve instance segmentation compared to the existing top-down and bottom-up frameworks. Benefiting from the proposed end-to-end mechanism, ISTR demonstrates state-of-the-art performance even with approximation-based suboptimal embeddings. Specifically, ISTR obtains a 46.8/38.6 box/mask AP using ResNet50-FPN, and a 48.1/39.9 box/mask AP using ResNet101-FPN, on the MS COCO dataset. Quantitative and qualitative results reveal the promising potential of ISTR as a solid baseline for instance-level recognition. Code has been made available at: https://github.com/h ujiecpp/ISTR.
翻訳日:2021-05-04 14:01:27 公開日:2021-05-03
# s3net: 深度誘導画像リライトのための単一ストリーム構造

S3Net: A Single Stream Structure for Depth Guided Image Relighting ( http://arxiv.org/abs/2105.00681v1 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Wei-Ting Chen and and Sy-Yen Kuo(参考訳) depth guided any-to-any image relightingは、与えられたガイド画像とその深度マップの照明設定に合うように、元の画像と対応する深度マップからリライト画像を生成することを目的としている。 私たちの知る限りでは、このタスクは以前の文献では解決されていない新しい課題です。 この問題に対処するために,深層誘導画像リライトのための深層学習型ニューラルネットワークs3netを提案する。 このネットワークはエンコーダ-デコーダモデルである。 すべての画像と対応する深度マップを入力として結合し、それらをモデルに入力します。 デコーダ部は、注目モジュールと、ガイド画像中のリライト関連領域にフォーカスする強化モジュールとを含む。 NTIRE 2021 Depth Guided Any-to-any Relighting Challengeでは,提案モデルが3番目に高いSSIMを達成した。

Depth guided any-to-any image relighting aims to generate a relit image from the original image and corresponding depth maps to match the illumination setting of the given guided image and its depth map. To the best of our knowledge, this task is a new challenge that has not been addressed in the previous literature. To address this issue, we propose a deep learning-based neural Single Stream Structure network called S3Net for depth guided image relighting. This network is an encoder-decoder model. We concatenate all images and corresponding depth maps as the input and feed them into the model. The decoder part contains the attention module and the enhanced module to focus on the relighting-related regions in the guided images. Experiments performed on challenging benchmark show that the proposed model achieves the 3 rd highest SSIM in the NTIRE 2021 Depth Guided Any-to-any Relighting Challenge.
翻訳日:2021-05-04 14:01:03 公開日:2021-05-03
# 奥行き誘導画像リライトのためのマルチモーダル分岐ネットワーク

Multi-modal Bifurcated Network for Depth Guided Image Relighting ( http://arxiv.org/abs/2105.00690v1 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Wei-Ting Chen and Hao-Lun Luo and Sy-Yen Kuo(参考訳) 画像照明は、画像内の照明設定を再調整することを目的としている。 本稿では,マルチモーダルバイファーケートネットワーク(mbnet)と呼ばれる,深度誘導画像のリライトのための深層学習に基づく手法を提案する。 すなわち、画像と対応する深度マップが与えられた場合、所定の輝度角と色温度を持つ新しい画像がネットワークによって生成される。 このモデルは、エンコーダ内の分岐ネットワークによる画像と深度の特徴を抽出する。 この2つの特徴を効果的に利用するために,デコーダの動的拡張ピラミッドモジュールを採用する。 さらに,トレーニングデータの種類を増やすために,トレーニングデータ数を増やすための新しいデータ処理パイプラインを提案する。 VIDITデータセットを用いて行った実験の結果,提案手法は NTIRE 2021 Depth Guide One-to-one Relighting Challenge において,SSIM と PMS の点において \textbf{1}$^{st}$ place が得られることがわかった。

Image relighting aims to recalibrate the illumination setting in an image. In this paper, we propose a deep learning-based method called multi-modal bifurcated network (MBNet) for depth guided image relighting. That is, given an image and the corresponding depth maps, a new image with the given illuminant angle and color temperature is generated by our network. This model extracts the image and the depth features by the bifurcated network in the encoder. To use the two features effectively, we adopt the dynamic dilated pyramid modules in the decoder. Moreover, to increase the variety of training data, we propose a novel data process pipeline to increase the number of the training data. Experiments conducted on the VIDIT dataset show that the proposed solution obtains the \textbf{1}$^{st}$ place in terms of SSIM and PMS in the NTIRE 2021 Depth Guide One-to-one Relighting Challenge.
翻訳日:2021-05-04 14:00:49 公開日:2021-05-03
# モデル選択のための合成データ

Synthetic Data for Model Selection ( http://arxiv.org/abs/2105.00717v1 )

ライセンス: Link先を確認
Matan Fintz, Alon Shoshan, Nadav Bhonker, Igor Kviatkovsky, Gerard Medioni(参考訳) 合成データ生成の最近の改良により、高フォトリアリスティックで実際の画像と区別できない画像が作成できるようになった。 さらに、合成生成パイプラインは無制限に画像を生成できる可能性がある。 高いフォトリアリズムとスケールの組み合わせにより、合成データは、さまざまな機械学習(ML)パイプラインを改善するための有望な候補になる。 これまでのところ、この分野の大規模な研究は、トレーニングデータの強化と拡大によって、トレーニングに合成画像を使うことに重点を置いている。 本研究は, 合成データを用いた学習とは対照的に, 合成データがモデル選択に有用かどうかを考察する。 画像分類のタスクを考慮すると、データが不足している場合には、合成データを使用して保持された検証セットを置き換え、より大きなデータセットでトレーニングできることが示される。

Recent improvements in synthetic data generation make it possible to produce images that are highly photorealistic and indistinguishable from real ones. Furthermore, synthetic generation pipelines have the potential to generate an unlimited number of images. The combination of high photorealism and scale turn the synthetic data into a promising candidate for potentially improving various machine learning (ML) pipelines. Thus far, a large body of research in this field has focused on using synthetic images for training, by augmenting and enlarging training data. In contrast to using synthetic data for training, in this work we explore whether synthetic data can be beneficial for model selection. Considering the task of image classification, we demonstrate that when data is scarce, synthetic data can be used to replace the held out validation set, thus allowing to train on a larger dataset.
翻訳日:2021-05-04 14:00:35 公開日:2021-05-03
# ピクセル単位でセグメンテーションを監督する以外に、いくつかのグローバル形状記述子は驚くほど良い!

Beyond pixel-wise supervision for segmentation: A few global shape descriptors might be surprisingly good! ( http://arxiv.org/abs/2105.00859v1 )

ライセンス: Link先を確認
Hoel Kervadec and Houda Bahig and Laurent Letourneau-Guillon and Jose Dolz and Ismail Ben Ayed(参考訳) ディープセグメンテーションネットワークを訓練するための標準的な損失は、予測されたセグメンテーションのグローバル形状を監督する代わりに、ピクセルの個別の分類と見なすことができる。 有効ではあるが、画像の各ピクセルのラベルの正確な知識が必要である。 本研究では,深層ネットワークの学習におけるセグメンテーション損失として使用する場合,グローバル幾何形状記述子の有効性について検討する。 低次形状のモーメントを近似するアノテーションは、フルマスクのモーメントよりもはるかに扱いにくい可能性があり、解剖学的な先行は容易に不変形状の記述にエンコードでき、アノテーションの負担を軽減することができる。 また, 課題が与えられた場合, 画像取得プロトコルやモダリティ, 被写体集団間で, 特定の形状記述が不変であり, 医用画像セグメンテーションの一般化に向けた興味深い研究の道を開く可能性がある。 深部セグメンテーションの文脈でいくつかの形状記述子を導入・定式化し、2つの異なる課題における独立的な損失として評価する。 近年のディープネットワークの制約付き最適化に触発されて,ピクセルレベルのラベルを使わずにセグメント化を監督する手法を提案する。 驚くべきことに、クラス毎のディスクリプタ値は、65k個の個別ラベルを持つセグメンテーションマスクのパフォーマンスに近づくことができます。 また、形状記述子はタスクに関する解剖学的事前情報をエンコードする有効な方法であり、追加のアノテーションなしで専門家の知識を活用できることがわかった。 私たちの実装は公開されており、他のタスクやディスクリプタにも簡単に拡張できます。

Standard losses for training deep segmentation networks could be seen as individual classifications of pixels, instead of supervising the global shape of the predicted segmentations. While effective, they require exact knowledge of the label of each pixel in an image. This study investigates how effective global geometric shape descriptors could be, when used on their own as segmentation losses for training deep networks. Not only interesting theoretically, there exist deeper motivations to posing segmentation problems as a reconstruction of shape descriptors: Annotations to obtain approximations of low-order shape moments could be much less cumbersome than their full-mask counterparts, and anatomical priors could be readily encoded into invariant shape descriptions, which might alleviate the annotation burden. Also, and most importantly, we hypothesize that, given a task, certain shape descriptions might be invariant across image acquisition protocols/modalities and subject populations, which might open interesting research avenues for generalization in medical image segmentation. We introduce and formulate a few shape descriptors in the context of deep segmentation, and evaluate their potential as standalone losses on two different challenging tasks. Inspired by recent works in constrained optimization for deep networks, we propose a way to use those descriptors to supervise segmentation, without any pixel-level label. Very surprisingly, as little as 4 descriptors values per class can approach the performance of a segmentation mask with 65k individual discrete labels. We also found that shape descriptors can be a valid way to encode anatomical priors about the task, enabling to leverage expert knowledge without additional annotations. Our implementation is publicly available and can be easily extended to other tasks and descriptors: https://github.com/h kervadec/shape_descr iptors
翻訳日:2021-05-04 14:00:24 公開日:2021-05-03
# cma-net:光場サルエント物体検出のためのカスケード相互注意ネットワーク

CMA-Net: A Cascaded Mutual Attention Network for Light Field Salient Object Detection ( http://arxiv.org/abs/2105.00949v1 )

ライセンス: Link先を確認
Yi Zhang, Lu Zhang, Wassim Hamidouche and Olivier Deforges(参考訳) 近年,RGB(All-in-focus)画像から有能なオブジェクトを分割する作業に対処するために,多数のディープラーニング手法が提案されている。 しかし、これらのアプローチは、大規模な自然画像を収集し、マルチビュー、マイクロレンズ画像、深度マップなどの複数のモダリティを提供する広範に使われている光フィールドサリエント物体検出(SOD)データセットの最先端性能を達成するには至らなかった。 最近提案された光場SOD法は精度の向上を図りつつも、粗い物体の構造を予測し、速度を遅くする。 そこで本研究では,cma-netを提案する。cma-netは,全焦点と深さのモダリティからハイレベルな特徴を融合することを目的とした,2つの新しいカスケードされた相互注意モジュールである。 提案するcma-netは、広く適用された2つのライトフィールドベンチマークデータセットで30のsodメソッド(大きなマージン)を上回る。 さらに提案したCMA-Netは53fpsの速度で動作可能であるため、最先端のマルチモーダルSOD法よりもはるかに高速である。 広汎な定量的および定性的実験は、我々のCMA-Netの有効性と効率を実証し、RGB-Dおよび光場SODのためのマルチモーダル学習の今後の発展を促している。

In the past few years, numerous deep learning methods have been proposed to address the task of segmenting salient objects from RGB (all-in-focus) images. However, these approaches depending on single modality fail to achieve the state-of-the-art performance on widely used light field salient object detection (SOD) datasets, which collect large-scale natural images and provide multiple modalities such as multi-view, micro-lens images and depth maps. Most recently proposed light field SOD methods have acquired improving detecting accuracy, yet still predict rough objects' structures and perform slow inference speed. To this end, we propose CMA-Net, which consists of two novel cascaded mutual attention modules aiming at fusing the high level features from the modalities of all-in-focus and depth. Our proposed CMA-Net outperforms 30 SOD methods (by a large margin) on two widely applied light field benchmark datasets. Besides, the proposed CMA-Net can run at a speed of 53 fps, thus being much faster than the state-of-the-art multi-modal SOD methods. Extensive quantitative and qualitative experiments illustrate both the effectiveness and efficiency of our CMA-Net, inspiring future development of multi-modal learning for both the RGB-D and light field SOD.
翻訳日:2021-05-04 13:59:56 公開日:2021-05-03
# 画素間コントラスト学習による普遍的弱教師付きセグメンテーション

Universal Weakly Supervised Segmentation by Pixel-to-Segment Contrastive Learning ( http://arxiv.org/abs/2105.00957v1 )

ライセンス: Link先を確認
Tsung-Wei Ke, Jyh-Jing Hwang, Stella X. Yu(参考訳) 弱い教師付きセグメンテーションでは、イメージレベルのタグ、オブジェクト境界ボックス、ラベル付きポイント、スクリブルなどの部分アノテーションを持つトレーニングインスタンスに基づいて、各ピクセルにラベルを割り当てる必要がある。 粗いアノテーション(タグ、ボックス)は正確なピクセルローカライゼーションを欠いているのに対して、スパースアノテーション(ポイント、スクリブル)は広い範囲のカバレッジを欠いているため、このタスクは難しい。 クラスアクティベーションマップは粗いラベルをローカライズし、セグメンテーションモデルを反復的に洗練するために使用され、一方条件付きランダムフィールドはスパースラベルを画像全体に伝播するために使用される。 我々は、弱い教師付きセグメンテーションを半教師付きメトリック学習問題として定式化し、同じ(異なる)セグメンテーションのピクセルを同じ(連続的な)特徴にマッピングする必要がある。 本稿では,特徴空間における画素とセグメント間の対比関係として,低レベル画像の類似性,意味的アノテーション,共起性,特徴の親和性を示す4つのタイプを提案する。 特に、トレーニング画像中のラベルなし画素は、各画像内のデータ駆動グループ化だけでなく、画像内および画像間の識別的特徴学習にも関与する。 我々はPascal VOCとDensePoseに大きな利益をもたらす、普遍的な弱教師付きセグメンタを提供する。

Weakly supervised segmentation requires assigning a label to every pixel based on training instances with partial annotations such as image-level tags, object bounding boxes, labeled points and scribbles. This task is challenging, as coarse annotations (tags, boxes) lack precise pixel localization whereas sparse annotations (points, scribbles) lack broad region coverage. Existing methods tackle these two types of weak supervision differently: Class activation maps are used to localize coarse labels and iteratively refine the segmentation model, whereas conditional random fields are used to propagate sparse labels to the entire image. We formulate weakly supervised segmentation as a semi-supervised metric learning problem, where pixels of the same (different) semantics need to be mapped to the same (distinctive) features. We propose 4 types of contrastive relationships between pixels and segments in the feature space, capturing low-level image similarity, semantic annotation, co-occurrence, and feature affinity They act as priors; the pixel-wise feature can be learned from training images with any partial annotations in a data-driven fashion. In particular, unlabeled pixels in training images participate not only in data-driven grouping within each image, but also in discriminative feature learning within and across images. We deliver a universal weakly supervised segmenter with significant gains on Pascal VOC and DensePose.
翻訳日:2021-05-04 13:59:31 公開日:2021-05-03
# オープンワールド構成ゼロショット学習のためのグラフ埋め込み学習

Learning Graph Embeddings for Open World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2105.01017v1 )

ライセンス: Link先を確認
Massimiliano Mancini, Muhammad Ferjad Naeem, Yongqin Xian, Zeynep Akata(参考訳) コンポジションゼロショット学習(CZSL)は、トレーニング中に見られる状態とオブジェクトの視覚的プリミティブの見えない構成を認識することを目的としている。 標準的なCZSLの問題は、テスト時に見当たらないコンポジションが利用できるかを知るという仮定である。 本研究は,テスト時の合成空間に制限が課されないオープンワールド環境でのこの仮定を克服し,探索空間に多数の見当たらない合成が含まれていることを示す。 この問題に対処するために,2つの原則に基づいた新しい手法であるComposeal Cosine Graph Embeddings (Co-CGE)を提案する。 まず、Co-CGEはグラフ畳み込みニューラルネットワークを通じて状態、オブジェクトとその構成間の依存性をモデル化する。 グラフは目に見えるものから見えないものまで情報を伝達し、その表現を改善する。 第二に、すべての見当たらない合成が等しく実現可能ではなく、学習された表現を損なう可能性があるため、co-cgeは、コサイン類似性に基づく損失のマージンとして、およびグラフの隣接行列の重みとしてスコアを用いて、見当たらない構成ごとに実現可能性スコアを推定する。 実験の結果,オープンワールドシナリオでは従来の手法を上回りながら,標準czslで最先端のパフォーマンスを実現することができた。

Compositional Zero-Shot learning (CZSL) aims to recognize unseen compositions of state and object visual primitives seen during training. A problem with standard CZSL is the assumption of knowing which unseen compositions will be available at test time. In this work, we overcome this assumption operating on the open world setting, where no limit is imposed on the compositional space at test time, and the search space contains a large number of unseen compositions. To address this problem, we propose a new approach, Compositional Cosine Graph Embeddings (Co-CGE), based on two principles. First, Co-CGE models the dependency between states, objects and their compositions through a graph convolutional neural network. The graph propagates information from seen to unseen concepts, improving their representations. Second, since not all unseen compositions are equally feasible, and less feasible ones may damage the learned representations, Co-CGE estimates a feasibility score for each unseen composition, using the scores as margins in a cosine similarity-based loss and as weights in the adjacency matrix of the graphs. Experiments show that our approach achieves state-of-the-art performances in standard CZSL while outperforming previous methods in the open world scenario.
翻訳日:2021-05-04 13:59:04 公開日:2021-05-03
# Collision Replay: 風景幾何学について教えてくれるものは何か?

Collision Replay: What Does Bumping Into Things Tell You About Scene Geometry? ( http://arxiv.org/abs/2105.01061v1 )

ライセンス: Link先を確認
Alexander Raistrick, Nilesh Kulkarni, David F. Fouhey(参考訳) シーンにぶつかって、シーンの幾何学について何を教えてくれるのか? 本稿では,衝突からの学習について考察する。 われわれのアプローチの核心は衝突を再現するという考えであり、衝突の例を使って過去のフレームでの観察を監督する。 我々は衝突リプレイを用いて畳み込みニューラルネットワークを訓練し、新しい画像から衝突時間の分布を予測する。 この分布は、ナビゲーションアフォーアンス(例えば、廊下対オープンスペース)に関する情報を伝達し、我々が示すように、シーン幾何学のための距離関数に変換することができる。 本手法は,フォトリアリスティックシミュレータにおいてノイズアクティベーションを有するエージェントを用いて解析する。

What does bumping into things in a scene tell you about scene geometry? In this paper, we investigate the idea of learning from collisions. At the heart of our approach is the idea of collision replay, where we use examples of a collision to provide supervision for observations at a past frame. We use collision replay to train convolutional neural networks to predict a distribution over collision time from new images. This distribution conveys information about the navigational affordances (e.g., corridors vs open spaces) and, as we show, can be converted into the distance function for the scene geometry. We analyze this approach with an agent that has noisy actuation in a photorealistic simulator.
翻訳日:2021-05-04 13:58:41 公開日:2021-05-03
# 離散的および連続的アクションタスクのためのアクション候補に基づくクリップ型ダブルq学習

Action Candidate Based Clipped Double Q-learning for Discrete and Continuous Action Tasks ( http://arxiv.org/abs/2105.00704v1 )

ライセンス: Link先を確認
Haobo Jiang, Jin Xie, Jian Yang(参考訳) 二重Q学習はマルコフ決定過程(MDP)問題において一般的な強化学習アルゴリズムである。 clipped double q-learning は double q-learning の効果的な変種であり、最大期待アクション値の近似に clipped double estimator を用いる。 クリッピングされた二重推定器の過小評価バイアスのため、クリッピングされた二重Q-ラーニングの性能は確率的な環境で低下する可能性がある。 本稿では,過大評価バイアスを軽減するために,ダブルq学習のためのアクション候補ベースのクリップ型ダブル推定器を提案する。 具体的には,まず,一組の推定器から高い行動値を持つエリート行動候補を選定する。 そして、これらの候補の中から、他の評価指標から最も価値の高い行動を選択する。 最後に,第2の推定器の最大値を用いて第1の推定器における選択された動作の動作値をクリップし,そのクリップ値を用いて最大期待動作値を近似する。 理論的には、カットされた二重Q学習における過小評価バイアスは、アクション候補の数が減少するにつれて単調に崩壊する。 さらに、アクション候補の数は過大評価と過小評価バイアスの間のトレードオフを制御する。 さらに私たちは,エリートな継続的アクション候補を近似することで,クリップされたダブルq-ラーニングを継続的アクションタスクにも拡張しています。 実験により,本アルゴリズムが玩具環境における最大動作値をより正確に推定し,いくつかのベンチマーク問題に対して良好な性能が得られることを検証した。

Double Q-learning is a popular reinforcement learning algorithm in Markov decision process (MDP) problems. Clipped Double Q-learning, as an effective variant of Double Q-learning, employs the clipped double estimator to approximate the maximum expected action value. Due to the underestimation bias of the clipped double estimator, performance of clipped Double Q-learning may be degraded in some stochastic environments. In this paper, in order to reduce the underestimation bias, we propose an action candidate based clipped double estimator for Double Q-learning. Specifically, we first select a set of elite action candidates with the high action values from one set of estimators. Then, among these candidates, we choose the highest valued action from the other set of estimators. Finally, we use the maximum value in the second set of estimators to clip the action value of the chosen action in the first set of estimators and the clipped value is used for approximating the maximum expected action value. Theoretically, the underestimation bias in our clipped Double Q-learning decays monotonically as the number of the action candidates decreases. Moreover, the number of action candidates controls the trade-off between the overestimation and underestimation biases. In addition, we also extend our clipped Double Q-learning to continuous action tasks via approximating the elite continuous action candidates. We empirically verify that our algorithm can more accurately estimate the maximum expected action value on some toy environments and yield good performance on several benchmark problems.
翻訳日:2021-05-04 13:57:20 公開日:2021-05-03
# RetCL:コントラスト学習による再合成のための選択的アプローチ

RetCL: A Selection-based Approach for Retrosynthesis via Contrastive Learning ( http://arxiv.org/abs/2105.00795v1 )

ライセンス: Link先を確認
Hankook Lee, Sungsoo Ahn, Seung-Woo Seo, You Young Song, Sung-Ju Hwang, Eunho Yang, Jinwoo Shin(参考訳) レトロシンセシス(retro synthesis)は、ターゲットプロダクトを合成するための一連の反応物質を見つけることを目的としているが、ディープラーニングの新たな研究分野である。 既存のアプローチは有望な結果を示しているが、現在は反応剤の可利用性(安定性や購入性など)や、目に見えない反応テンプレート(化学反応規則)に一般化する能力が欠けている。 本稿では, 市販分子の候補集合からの反応物質の選択問題にレトロ合成を再構成することで, 問題を緩和する新しいアプローチを提案する。 そこで我々は,グラフニューラルネットワークによって計算された選択スコアに基づいて,全ての候補分子を列挙するretcl(retro synthesis via contrastive learning)という効率的な反応剤選択フレームワークを設計した。 また,スコア関数を学習するために,ハード・ネガティブ・マイニングを用いた新しいコントラスト・トレーニング・スキームを提案する。 広範な実験により,提案手法の利点が示された。 例えば、USPTO {database} の 671k 反応体が候補として与えられると、我々の RetCL は USPTO-50k ベンチマークで 711.3 % の正確な一致精度を、最近の変換器ベースのアプローチでは59.6 % の精度で達成する。 また、テンプレートベースのアプローチとは対照的に、RetCLはさまざまな設定で目に見えないテンプレートによく一般化することを示した。

Retrosynthesis, of which the goal is to find a set of reactants for synthesizing a target product, is an emerging research area of deep learning. While the existing approaches have shown promising results, they currently lack the ability to consider availability (e.g., stability or purchasability) of the reactants or generalize to unseen reaction templates (i.e., chemical reaction rules). In this paper, we propose a new approach that mitigates the issues by reformulating retrosynthesis into a selection problem of reactants from a candidate set of commercially available molecules. To this end, we design an efficient reactant selection framework, named RetCL (retrosynthesis via contrastive learning), for enumerating all of the candidate molecules based on selection scores computed by graph neural networks. For learning the score functions, we also propose a novel contrastive training scheme with hard negative mining. Extensive experiments demonstrate the benefits of the proposed selection-based approach. For example, when all 671k reactants in the USPTO {database} are given as candidates, our RetCL achieves top-1 exact match accuracy of $71.3\%$ for the USPTO-50k benchmark, while a recent transformer-based approach achieves $59.6\%$. We also demonstrate that RetCL generalizes well to unseen templates in various settings in contrast to template-based approaches.
翻訳日:2021-05-04 13:56:59 公開日:2021-05-03
# 物理インフォームドニューラルネットワークのパレートフロントについて

On the Pareto Front of Physics-Informed Neural Networks ( http://arxiv.org/abs/2105.00862v1 )

ライセンス: Link先を確認
Franz M. Rohrhofer, Stefan Posch, Bernhard C. Geiger(参考訳) 近年,物理インフォームドニューラルネットワークと呼ばれる新しいディープラーニング手法が登場している。 偏微分方程式によって支配される問題を解くことに成功しているにもかかわらず、物理インフォームドニューラルネットワークは訓練が難しいことが多い。 頻繁に報告される収束問題はいまだによく理解されておらず、正しいシステムダイナミクスの推論を複雑にしている。 本稿では,物理インフォームドニューラルネットワークのトレーニングプロセスについて光を当てる。 ネットワークトレーニングにおけるデータと物理に基づく制約のトレーディングにより,多目的最適化問題におけるParetoフロントについて検討する。 種々の試験環境における拡散方程式とナビエ・ストークス方程式を用いて, システムパラメータがパレート前面形状に与える影響を分析する。 さらに、最先端適応活性化関数と適応損失重み付け法の有効性を評価する。 本研究は,多目的最適化におけるシステムパラメータの役割を実証し,物理学的ニューラルネットワークの収束特性の理解に寄与する。

Recently a new type of deep learning method has emerged, called physics-informed neural networks. Despite their success in solving problems that are governed by partial differential equations, physics-informed neural networks are often difficult to train. Frequently reported convergence issues are still poorly understood and complicate the inference of correct system dynamics. In this paper, we shed light on the training process of physics-informed neural networks. By trading between data- and physics-based constraints in the network training, we study the Pareto front in multi-objective optimization problems. We use the diffusion equation and Navier-Stokes equations in various test environments to analyze the effects of system parameters on the shape of the Pareto front. Additionally, we assess the effectiveness of state-of-the-art adaptive activation functions and adaptive loss weighting methods. Our results demonstrate the prominent role of system parameters in the multi-objective optimization and contribute to understanding convergence properties of physics-informed neural networks.
翻訳日:2021-05-04 13:56:32 公開日:2021-05-03
# LFI-CAM: より良いビジュアル説明のための特徴の学習

LFI-CAM: Learning Feature Importance for Better Visual Explanation ( http://arxiv.org/abs/2105.00937v1 )

ライセンス: Link先を確認
Kwang Hee Lee, Chaewon Park, Junghyun Oh, Nojun Kwak(参考訳) CAM(Class Activation Mapping)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の意思決定を理解するための強力な手法である。 近年,より優れた視覚的説明を生成するだけでなく,視覚的説明を用いた分類性能の向上が試みられている。 しかし、以前の作品には独自の欠点がある。 本稿では,画像分類と視覚的説明をエンドツーエンドで学習可能な新しいアーキテクチャ LFI-CAM を提案する。 LFI-CAMは、前方伝播中の視覚的説明のための注意マップを生成すると同時に、注意マップを活用して、注意機構による分類性能を向上させる。 我々の特徴重要ネットワーク(FIN)は、より信頼性が高く一貫した注意マップを得るために、注意マップを直接学習するのではなく、特徴の重要性を学習することに焦点を当てている。 我々は,LFI-CAMモデルが特徴量だけでなく,入力画像の重要な特徴に注目するバックボーン特徴表現の強化によって最適化されていることを確認した。 実験結果から,LFI-CAMは,分類作業におけるベースラインモデルの精度よりも優れており,注目マップの品質や,異なるハイパーパラメータに対する安定性の観点からも,従来よりも大幅に向上していることがわかった。

Class Activation Mapping (CAM) is a powerful technique used to understand the decision making of Convolutional Neural Network (CNN) in computer vision. Recently, there have been attempts not only to generate better visual explanations, but also to improve classification performance using visual explanations. However, the previous works still have their own drawbacks. In this paper, we propose a novel architecture, LFI-CAM, which is trainable for image classification and visual explanation in an end-to-end manner. LFI-CAM generates an attention map for visual explanation during forward propagation, at the same time, leverages the attention map to improve the classification performance through the attention mechanism. Our Feature Importance Network (FIN) focuses on learning the feature importance instead of directly learning the attention map to obtain a more reliable and consistent attention map. We confirmed that LFI-CAM model is optimized not only by learning the feature importance but also by enhancing the backbone feature representation to focus more on important features of the input image. Experimental results show that LFI-CAM outperforms the baseline models's accuracy on the classification tasks as well as significantly improves on the previous works in terms of attention map quality and stability over different hyper-parameters.
翻訳日:2021-05-04 13:56:03 公開日:2021-05-03
# 空対空コンバットの階層的強化学習

Hierarchical Reinforcement Learning for Air-to-Air Combat ( http://arxiv.org/abs/2105.00990v1 )

ライセンス: Link先を確認
Adrian P. Pope, Jaime S. Ide, Daria Micovic, Henry Diaz, David Rosenbluth, Lee Ritholtz, Jason C. Twedt, Thayne T. Walker, Kevin Alcedo and Daniel Javorsek(参考訳) 人工知能(AI)は、DARPAのAlphaDogfight Trials(ADT)が最近示したように、防衛産業において重要なコンポーネントになりつつある。 ADTはF-16を模擬空対空戦闘で操縦できるAIアルゴリズムの可能性を検証しようとした。 ADTの参加者として、Lockheed Martin氏のLM(LM)アプローチは、階層アーキテクチャと最大エントロピー強化学習(RL)を組み合わせて、報酬形成を通じて専門家の知識を統合し、ポリシーのモジュラリティをサポートする。 このアプローチはADTの最終大会(合計8つの競技者を含む)で2-2ドルの成績を収め、アメリカ空軍(USAF)のF-16 Weapons Instructor Courseの卒業生をマッチプレーで破った。

Artificial Intelligence (AI) is becoming a critical component in the defense industry, as recently demonstrated by DARPA`s AlphaDogfight Trials (ADT). ADT sought to vet the feasibility of AI algorithms capable of piloting an F-16 in simulated air-to-air combat. As a participant in ADT, Lockheed Martin`s (LM) approach combines a hierarchical architecture with maximum-entropy reinforcement learning (RL), integrates expert knowledge through reward shaping, and supports modularity of policies. This approach achieved a $2^{nd}$ place finish in the final ADT event (among eight total competitors) and defeated a graduate of the US Air Force's (USAF) F-16 Weapons Instructor Course in match play.
翻訳日:2021-05-04 13:55:39 公開日:2021-05-03
# すべてを支配する1つのモデル:データベースのゼロショット学習に向けて

One Model to Rule them All: Towards Zero-Shot Learning for Databases ( http://arxiv.org/abs/2105.00642v1 )

ライセンス: Link先を確認
Benjamin Hilprecht and Carsten Binnig(参考訳) 本稿では,データベースコンポーネントの新しい学習手法であるデータベースのためのゼロショット学習というビジョンを提案する。 データベースのゼロショット学習は、GPT-3のようなモデルの転送学習の最近の進歩に触発され、新しいモデルをトレーニングすることなく、新しいデータベースを最初からサポートできる。 本論文における最初の具体的な貢献として,物理コスト推定タスクに対するゼロショット学習の実現可能性を示し,非常に有望な初期結果を示す。 さらに、第2の貢献として、データベースのゼロショット学習に関する中核的な課題について論じ、コスト見積や従来のデータベースシステムやワークロードを超えて、ゼロショット学習を他の多くのタスクにも拡張するロードマップを提示します。

In this paper, we present our vision of so called zero-shot learning for databases which is a new learning approach for database components. Zero-shot learning for databases is inspired by recent advances in transfer learning of models such as GPT-3 and can support a new database out-of-the box without the need to train a new model. As a first concrete contribution in this paper, we show the feasibility of zero-shot learning for the task of physical cost estimation and present very promising initial results. Moreover, as a second contribution we discuss the core challenges related to zero-shot learning for databases and present a roadmap to extend zero-shot learning towards many other tasks beyond cost estimation or even beyond classical database systems and workloads.
翻訳日:2021-05-04 13:53:21 公開日:2021-05-03
# 英語会話音声認識の限界について

On the limit of English conversational speech recognition ( http://arxiv.org/abs/2105.00982v1 )

ライセンス: Link先を確認
Zolt\'an T\"uske, George Saon, Brian Kingsbury(参考訳) これまでの研究で,1つの注目エンコーダ・デコーダモデルが,会話音声認識における最先端結果に到達できることを実証した。 本稿では,スイッチボード300と2000の両方の結果をさらに改善する。 改良されたオプティマイザ,話者ベクトル埋め込み,代用音声表現を用いて,Switchboard-300上でのLSTMシステムの認識誤差を4%削減する。 確率比アプローチによるデコーダモデルの補償により、外部言語モデルのより効率的な統合が可能となり、非常に単純なLSTMモデルを用いて、Hub5'00のSWBおよびCHM部分に5.9%と11.5%のWERを報告した。 本研究は,最近提案されたコンフォーマ,より先進的な自己照応に基づく言語モデルについても考察する。 全体として、コンバータはLSTMと同等の性能を示すが、改良されたLMとの組合せと復号化は、SWBおよびCHMではSwitchboard-300で5.0%、WERで10.0%の新記録に達する。 この結果はSwitchboard-2000でも確認され,新たな技術状況が報告され,ベンチマークの限界に達している。

In our previous work we demonstrated that a single headed attention encoder-decoder model is able to reach state-of-the-art results in conversational speech recognition. In this paper, we further improve the results for both Switchboard 300 and 2000. Through use of an improved optimizer, speaker vector embeddings, and alternative speech representations we reduce the recognition errors of our LSTM system on Switchboard-300 by 4% relative. Compensation of the decoder model with the probability ratio approach allows more efficient integration of an external language model, and we report 5.9% and 11.5% WER on the SWB and CHM parts of Hub5'00 with very simple LSTM models. Our study also considers the recently proposed conformer, and more advanced self-attention based language models. Overall, the conformer shows similar performance to the LSTM; nevertheless, their combination and decoding with an improved LM reaches a new record on Switchboard-300, 5.0% and 10.0% WER on SWB and CHM. Our findings are also confirmed on Switchboard-2000, and a new state of the art is reported, practically reaching the limit of the benchmark.
翻訳日:2021-05-04 13:53:08 公開日:2021-05-03
# ソーシャルネットワークにおけるレコメンデーション予測のための多面的因子化モデルのコンテキストアウェアアンサンブル

Context-aware Ensemble of Multifaceted Factorization Models for Recommendation Prediction in Social Networks ( http://arxiv.org/abs/2105.00991v1 )

ライセンス: Link先を確認
Yunwen Chen, Zuotao Liu, Daqi Ji, Yingwei Xin, Wenguang Wang, Lu Yao, Yi Zou(参考訳) KDD-Cup 2012のタスク1におけるShanda Innovationsチームのソリューションについて説明する。 ソーシャルネットワークにおける多面的因子化モデル(Multifaceted Factorization Models)と呼ばれる新しい手法を提案する。 ユーザ間の社会的関係と行動は、推奨精度を改善するために暗黙のフィードバックとして統合される。 キーワード、タグ、プロフィール、時間などの機能は、ユーザーの興味をモデル化するためにも使われる。 さらに、ユーザの行動はレコメンデーションレコードの期間からモデル化される。 コンテキスト対応アンサンブルフレームワークを使用して、複数の予測器を結合し、最終的な推奨結果を生成する。 提案手法はテストデータセットで0.43959 (パブリックスコア) / 0.41874 (プライベートスコア)を獲得し、KDD-Cup競争では2位となった。

This paper describes the solution of Shanda Innovations team to Task 1 of KDD-Cup 2012. A novel approach called Multifaceted Factorization Models is proposed to incorporate a great variety of features in social networks. Social relationships and actions between users are integrated as implicit feedbacks to improve the recommendation accuracy. Keywords, tags, profiles, time and some other features are also utilized for modeling user interests. In addition, user behaviors are modeled from the durations of recommendation records. A context-aware ensemble framework is then applied to combine multiple predictors and produce final recommendation results. The proposed approach obtained 0.43959 (public score) / 0.41874 (private score) on the testing dataset, which achieved the 2nd place in the KDD-Cup competition.
翻訳日:2021-05-04 13:52:48 公開日:2021-05-03
# 次数不均質下におけるスペクトルクラスタリング:ランダムウォークラプラシアンの場合

Spectral clustering under the degree heterogeneity: a case for the random walk Laplacian ( http://arxiv.org/abs/2105.00987v1 )

ライセンス: Link先を確認
Alexander Modell and Patrick Rubin-Delanchy(参考訳) 本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みがノード次数に対して完全に補正されたベクトル表現を生成することを示す。 一般化されたランダムドット積グラフの下では、埋め込みは漸近的にガウス誤差のある次数補正された潜在位置の均一に一貫した推定を与える。 次数補正確率ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。 これらは、隣接性や正規化された対称なラプラシアン行列に基づくアルゴリズムによって一般的に要求されるように、球面投影なしで、後続のクラスタリングステップを通じて、漸近的に完全に回復することができる。 estimandは次数に依存しないが、その推定の漸近的ばらつきは、より低い次数ノードよりも高い次数ノードに埋め込まれている。 したがって、我々の中心極限定理は、重み付けされたガウス混合モデルをその後のクラスタリングステップに当てはめ、期待最大化アルゴリズムを提供する。

This paper shows that graph spectral embedding using the random walk Laplacian produces vector representations which are completely corrected for node degree. Under a generalised random dot product graph, the embedding provides uniformly consistent estimates of degree-corrected latent positions, with asymptotically Gaussian error. In the special case of a degree-corrected stochastic block model, the embedding concentrates about K distinct points, representing communities. These can be recovered perfectly, asymptotically, through a subsequent clustering step, without spherical projection, as commonly required by algorithms based on the adjacency or normalised, symmetric Laplacian matrices. While the estimand does not depend on degree, the asymptotic variance of its estimate does -- higher degree nodes are embedded more accurately than lower degree nodes. Our central limit theorem therefore suggests fitting a weighted Gaussian mixture model as the subsequent clustering step, for which we provide an expectation-maximisa tion algorithm.
翻訳日:2021-05-04 13:52:25 公開日:2021-05-03
# 深層学習に基づく頭蓋内出血の局在

Weakly supervised deep learning-based intracranial hemorrhage localization ( http://arxiv.org/abs/2105.00781v1 )

ライセンス: Link先を確認
Jakub Nemcek, Tomas Vicar, Roman Jakubicek(参考訳) 頭蓋内出血は生命を脅かす病気であり、迅速な医療介入を必要とする。 データアノテーションの持続期間のため、ヘッドCT画像は通常スライスレベルのラベリングでのみ利用可能である。 本稿では,複数インスタンス学習に基づく位置自由ラベルのみを用いて,軸スライスの出血位置を正確に把握する手法を提案する。 出血度マップを生成し,出血の座標を求めるアルゴリズムが導入された。 58.08%のDice係数は、公開データセットのデータから得られる。

Intracranial hemorrhage is a life-threatening disease, which requires fast medical intervention. Owing to the duration of data annotation, head CT images are usually available only with slice-level labeling. This paper presents a weakly supervised method of precise hemorrhage localization in axial slices using only position-free labels, which is based on multiple instance learning. An algorithm is introduced that generates hemorrhage likelihood maps and finds the coordinates of bleeding. The Dice coefficient of 58.08 % is achieved on data from a publicly available dataset.
翻訳日:2021-05-04 13:48:44 公開日:2021-05-03
# ロバストな3d細胞セグメンテーション : セルポス像の拡張

Robust 3D Cell Segmentation: Extending the View of Cellpose ( http://arxiv.org/abs/2105.00794v1 )

ライセンス: Link先を確認
Dennis Eschweiler and Johannes Stegmaier(参考訳) デジタル顕微鏡画像実験のデータセットサイズの増加は、意味のある生体医学情報を抽出するためにセグメンテーションプロセスの自動化を要求する。 機械学習ベースのアプローチで使用できる注釈付き3D画像データが不足しているため、3Dセグメンテーションアプローチは堅牢で、目に見えないデータに対してうまく一般化する必要がある。 拡散勾配写像の集まりとしてのインスタンスセグメンテーションの問題を再構成することは、細胞セグメンテーションタスクに対するそのような一般化的アプローチであることが証明された。 本稿では,3次元画像データのセグメンテーション精度を向上させるためのcellposeアプローチを拡張し,さらに,ロバストでありながら類似セグメンテーション精度に達するグラデーションマップの定式化を単純化する方法を示す。 A. thalianaの3次元共焦点顕微鏡画像の2つの異なるデータセットを用いて、異なる実験装置を定量的に比較した。

Increasing data set sizes of digital microscopy imaging experiments demand for an automation of segmentation processes to be able to extract meaningful biomedical information. Due to the shortage of annotated 3D image data that can be used for machine learning-based approaches, 3D segmentation approaches are required to be robust and to generalize well to unseen data. Reformulating the problem of instance segmentation as a collection of diffusion gradient maps, proved to be such a generalist approach for cell segmentation tasks. In this paper, we extend the Cellpose approach to improve segmentation accuracy on 3D image data and we further show how the formulation of the gradient maps can be simplified while still being robust and reaching similar segmentation accuracy. We quantitatively compared different experimental setups and validated on two different data sets of 3D confocal microscopy images of A. thaliana.
翻訳日:2021-05-04 13:48:36 公開日:2021-05-03
# MemX:パーソナライズされたモーメントオートキャプチャーのための注意型スマートアイウェアシステム

MemX: An Attention-Aware Smart Eyewear System for Personalized Moment Auto-capture ( http://arxiv.org/abs/2105.00916v1 )

ライセンス: Link先を確認
Yuhu Chang, Yingying Zhao, Mingzhi Dong, Yujiang Wang, Yutian Lu, Qin Lv, Robert P. Dick, Tun Lu, Ning Gu, Li Shang(参考訳) 本研究は,パーソナライズされた視覚memexの長期ビジョンを追求する目的で開発された,生物学的にインスパイアされた注意対応眼鏡システムmemxを提案する。 MemXは人間の視覚的注意をその場で捉え、視覚的コンテンツを分析し、コンパクトなビデオスニペットの形で個人的関心の瞬間を記録する。 資源制約されたプラットフォーム上での正確なシーン検出と解析は、これらのタスクが計算とエネルギー集約性のため困難である。 本稿では,人間の視覚注意追跡と高度視覚コンテンツ分析を統合する新しい時間的視覚注意ネットワークを提案する。 アテンショントラッキングは計算集約的なビデオ分析に注目し、ビデオ分析は人間のアテンション検出とトラッキングをより正確にする。 youtube-visデータセットと30名の参加者を用いて,システムエネルギー効率を維持しつつ,視線追跡アローン法よりも注意トラッキング精度が有意に向上することを示した。 我々はまた,MemXの有効性と潜在的なメリットを実証する,様々な日常的利用シナリオを対象に,11の現地試験を実施した。

This work presents MemX: a biologically-inspire d attention-aware eyewear system developed with the goal of pursuing the long-awaited vision of a personalized visual Memex. MemX captures human visual attention on the fly, analyzes the salient visual content, and records moments of personal interest in the form of compact video snippets. Accurate attentive scene detection and analysis on resource-constrained platforms is challenging because these tasks are computation and energy intensive. We propose a new temporal visual attention network that unifies human visual attention tracking and salient visual content analysis. Attention tracking focuses computation-intensiv e video analysis on salient regions, while video analysis makes human attention detection and tracking more accurate. Using the YouTube-VIS dataset and 30 participants, we experimentally show that MemX significantly improves the attention tracking accuracy over the eye-tracking-alone method, while maintaining high system energy efficiency. We have also conducted 11 in-field pilot studies across a range of daily usage scenarios, which demonstrate the feasibility and potential benefits of MemX.
翻訳日:2021-05-04 13:48:19 公開日:2021-05-03
# enhanced u-net: polyp セグメンテーションのための機能強化ネットワーク

Enhanced U-Net: A Feature Enhancement Network for Polyp Segmentation ( http://arxiv.org/abs/2105.00999v1 )

ライセンス: Link先を確認
Krushi Patel, Andres M. Bur, Guanghui Wang(参考訳) 大腸内視鏡は大腸癌の主要な原因である大腸ポリープを検出する方法である。 しかしポリープのセグメンテーションは,ポリープの形状,サイズ,色,テクスチャの多様性,ポリープとその背景のシャトル差,大腸鏡像のコントラストの低さなどにより困難な課題である。 これらの課題に対処するため,大腸内視鏡像の正確なポリープ分割のための機能拡張ネットワークを提案する。 具体的には,新たな意味的特徴強化モジュール(sfem)を用いて意味情報を強化する。 さらに、各デコーダ層に直接エンコーダ機能を追加するのではなく、エンコーダの重要かつ硬い機能のみに焦点を当てたAdaptive Global Context Module (AGCM)を導入する。 これら2つのモジュールの統合により、層ごとの機能層の品質が向上し、最終的な機能表現が強化される。 提案手法は5つの大腸内視鏡データを用いて評価し,他の最先端モデルと比較して優れた性能を示す。

Colonoscopy is a procedure to detect colorectal polyps which are the primary cause for developing colorectal cancer. However, polyp segmentation is a challenging task due to the diverse shape, size, color, and texture of polyps, shuttle difference between polyp and its background, as well as low contrast of the colonoscopic images. To address these challenges, we propose a feature enhancement network for accurate polyp segmentation in colonoscopy images. Specifically, the proposed network enhances the semantic information using the novel Semantic Feature Enhance Module (SFEM). Furthermore, instead of directly adding encoder features to the respective decoder layer, we introduce an Adaptive Global Context Module (AGCM), which focuses only on the encoder's significant and hard fine-grained features. The integration of these two modules improves the quality of features layer by layer, which in turn enhances the final feature representation. The proposed approach is evaluated on five colonoscopy datasets and demonstrates superior performance compared to other state-of-the-art models.
翻訳日:2021-05-04 13:47:12 公開日:2021-05-03
# サイクル生成逆数ネットワークを用いたPPGに基づく呼吸速度推定手法

An End-to-End and Accurate PPG-based Respiratory Rate Estimation Approach Using Cycle Generative Adversarial Networks ( http://arxiv.org/abs/2105.00594v1 )

ライセンス: Link先を確認
Seyed Amir Hossein Aqajari, Rui Cao, Amir Hosein Afandizadeh Zargari, and Amir M. Rahmani(参考訳) 呼吸速度 (RR) は換気を表す臨床症状である。 RRの異常な変化は、身体が組織への酸素の供給を維持するために、しばしば最初の健康悪化の兆候である。 日常生活におけるRRの遠隔監視への関心が高まっており、光胸腺撮影(PPG)監視ウェアラブルデバイスを魅力的な選択にしている。 PPGシグナルは、呼吸誘導変調の存在によりRR抽出に有用である。 既存のPSGベースのRR推定法は主に手作りのルールと手動パラメータチューニングに依存している。 エンド・ツー・エンドのディープラーニングアプローチが最近提案されているが、その自動的性質にもかかわらず、この手法の性能は実世界データでは理想的ではない。 本稿ではCycleGAN(Cycle Generative Adversarial Networks)を用いたRR推定のためのエンドツーエンドかつ正確なパイプラインを提案し,生PSG信号から呼吸信号を再構成する。 以上の結果から,最大2$\times$のRR推定精度(5倍のクロスバリデーションを用いた1.9$\pm$0.3の絶対誤差)を,同一の公開データセットを用いた最先端技術と比較した。 この結果から,CycleGANは生PSG信号からのRR推定に有用であることが示唆された。

Respiratory rate (RR) is a clinical sign representing ventilation. An abnormal change in RR is often the first sign of health deterioration as the body attempts to maintain oxygen delivery to its tissues. There has been a growing interest in remotely monitoring of RR in everyday settings which has made photoplethysmography (PPG) monitoring wearable devices an attractive choice. PPG signals are useful sources for RR extraction due to the presence of respiration-induced modulations in them. The existing PPG-based RR estimation methods mainly rely on hand-crafted rules and manual parameters tuning. An end-to-end deep learning approach was recently proposed, however, despite its automatic nature, the performance of this method is not ideal using the real world data. In this paper, we present an end-to-end and accurate pipeline for RR estimation using Cycle Generative Adversarial Networks (CycleGAN) to reconstruct respiratory signals from raw PPG signals. Our results demonstrate a higher RR estimation accuracy of up to 2$\times$ (mean absolute error of 1.9$\pm$0.3 using five fold cross validation) compared to the state-of-th-art using a identical publicly available dataset. Our results suggest that CycleGAN can be a valuable method for RR estimation from raw PPG signals.
翻訳日:2021-05-04 13:41:09 公開日:2021-05-03
# 項目ランク付け手法に基づく食料品の推薦アルゴリズム

An Algorithm for Recommending Groceries Based on an Item Ranking Method ( http://arxiv.org/abs/2105.00650v1 )

ライセンス: Link先を確認
Gourab Nath and Jaydip Sen(参考訳) 本研究は,オンライン食料品ショッピングのための新しいレコメンダシステムアルゴリズムを提案する。 このアルゴリズムは、通常食料品は一括購入されるので、食料品推薦システムは一括して商品を推薦する能力を持つべきだという視点に基づいている。 アルゴリズムは、バスケットに追加されたアイテムに基づいて、ユーザーが調理できる料理を特定し、それに応じて具材を推薦する。 我々のアルゴリズムはユーザーの評価に依存しない。 通常、顧客は購入した食料品を評価できる忍耐力を持っていない。 したがって、ユーザの評価に依存しないアルゴリズムを設計する必要がある。 ブルートフォースサーチを使う代わりに、このアルゴリズムは、検索スペースをいくつかのおそらく食品カテゴリーのセットに制限する。 各食品カテゴリーはいくつかの食品区分から構成される。 例えば「米飯」や「ビリャーニ」は、食品カテゴリー「米」に属する食品のサブカテゴリである。 各食品カテゴリーは、食品サブカテゴリーをいかに区別できるかによってランク付けされる。 活性化された検索空間内の食品サブカテゴリごとに、このアルゴリズムはスコアを付加する。 スコアは、バスケットに追加されたアイテムのランクに基づいて算出される。 スコアがしきい値を超えると、対応するサブカテゴリがアクティベートされる。 アルゴリズムは、バスケットとレシピの類似度尺度を使用して、活性化されたサブカテゴリ内で最適なレシピマッチングを識別する。 これにより検索スペースが大幅に削減される。 このアルゴリズムは、ある意味ではコンテンツベースのレコメンデーションシステムに似ているが、制限されたコンテンツ、過剰な仕様化、新しいユーザー問題といった制限に悩まされていない。

This research proposes a new recommender system algorithm for online grocery shopping. The algorithm is based on the perspective that, since the grocery items are usually bought in bulk, a grocery recommender system should be capable of recommending the items in bulk. The algorithm figures out the possible dishes a user may cook based on the items added to the basket and recommends the ingredients accordingly. Our algorithm does not depend on the user ratings. Customers usually do not have the patience to rate the groceries they purchase. Therefore, algorithms that are not dependent on user ratings need to be designed. Instead of using a brute force search, this algorithm limits the search space to a set of only a few probably food categories. Each food category consists of several food subcategories. For example, "fried rice" and "biryani" are food subcategories that belong to the food category "rice". For each food category, items are ranked according to how well they can differentiate a food subcategory. To each food subcategory in the activated search space, this algorithm attaches a score. The score is calculated based on the rank of the items added to the basket. Once the score exceeds a threshold value, its corresponding subcategory gets activated. The algorithm then uses a basket-to-recipe similarity measure to identify the best recipe matches within the activated subcategories only. This reduces the search space to a great extent. We may argue that this algorithm is similar to the content-based recommender system in some sense, but it does not suffer from the limitations like limited content, over-specialization, or the new user problem.
翻訳日:2021-05-04 13:40:46 公開日:2021-05-03
# Epileptic Seizure Detectionのための超次元計算のシステム評価

Systematic Assessment of Hyperdimensional Computing for Epileptic Seizure Detection ( http://arxiv.org/abs/2105.00934v1 )

ライセンス: Link先を確認
Una Pale, Tomas Teijeiro, David Atienza(参考訳) 超次元コンピューティングは低消費電力組み込み機械学習のための有望な新しいパラダイムである。 様々な生物医学的応用、特にてんかん発作の検出に応用されている。 残念なことに、データ準備、セグメンテーション、エンコーディング戦略、パフォーマンスメトリクスの違いのため、結果の比較が難しいため、その知識に基づいて構築することが困難になる。 したがって,本研究の主な目的は,HDベクトルにマッピングされた特徴量を比較することで,てんかん発作検出のためのHDコンピューティングフレームワークを体系的に評価することである。 より正確には、先程実装された2つの機能と、てんかん発作検出のためのHDコンピューティングに関するいくつかの新しいアプローチをテストする。 我々はこれらを同等に評価し、すなわち、同じ前処理設定で、同じ性能測定で評価する。 結論の一般化性を評価するために、2つの異なるデータセットを使用する。 システム評価には,1) 検出性能,2) メモリ要件,3) 計算複雑性の3つの主要な側面が関係している。 分析の結果,手法間の検出性能は有意な差を示したが,高いメモリや計算量を必要とするため,最も性能の高いものはウェアラブルアプリケーションにとって理想的ではない可能性がある。 さらに,てんかん発作のダイナミックスに予測を適応させるポストプロセッシング戦略を評価し,全てのアプローチにおいて性能が著しく改善され,また後処理では,アプローチ間の性能差がはるかに小さいことを示す。

Hyperdimensional computing is a promising novel paradigm for low-power embedded machine learning. It has been applied on different biomedical applications, and particularly on epileptic seizure detection. Unfortunately, due to differences in data preparation, segmentation, encoding strategies, and performance metrics, results are hard to compare, which makes building upon that knowledge difficult. Thus, the main goal of this work is to perform a systematic assessment of the HD computing framework for the detection of epileptic seizures, comparing different feature approaches mapped to HD vectors. More precisely, we test two previously implemented features as well as several novel approaches with HD computing on epileptic seizure detection. We evaluate them in a comparable way, i.e., with the same preprocessing setup, and with the identical performance measures. We use two different datasets in order to assess the generalizability of our conclusions. The systematic assessment involved three primary aspects relevant for potential wearable implementations: 1) detection performance, 2) memory requirements, and 3) computational complexity. Our analysis shows a significant difference in detection performance between approaches, but also that the ones with the highest performance might not be ideal for wearable applications due to their high memory or computational requirements. Furthermore, we evaluate a post-processing strategy to adjust the predictions to the dynamics of epileptic seizures, showing that performance is significantly improved in all the approaches and also that after post-processing, differences in performance are much smaller between approaches.
翻訳日:2021-05-04 13:40:26 公開日:2021-05-03
# UniGNN: グラフとハイパーグラフニューラルネットワークのための統一フレームワーク

UniGNN: a Unified Framework for Graph and Hypergraph Neural Networks ( http://arxiv.org/abs/2105.00956v1 )

ライセンス: Link先を確認
Jing Huang, Jie Yang(参考訳) エンティティ間の高次相関をモデル化するフレキシブルな表現構造であるhypergraphは、近年様々な研究領域から注目を集めている。 グラフ表現学習におけるグラフニューラルネットワーク(GNN)の成功にもかかわらず、強力なGNN変種を直接ハイパーグラフに適応する方法は難しい問題である。 本稿では,一般的なGNNモデルをハイパーグラフに一般化可能な,グラフおよびハイパーグラフニューラルネットワークにおけるメッセージパッシングプロセスの統一的解釈フレームワークUniGNNを提案する。 このフレームワークでは、GNNの深層化を念頭に設計したアーキテクチャを、最小限の努力でハイパーグラフに組み込むこともできる。 複数の実世界のデータセットに対するUniGNNの有効性を示す大規模な実験が行われ、これは最先端のアプローチよりも大きなマージンを持つ。 特にDBLPデータセットでは,半教師付きハイパーノード分類タスクにおいて,77.4\%から88.8\%に精度を向上する。 さらに,提案するメッセージパッシングに基づくunignnモデルは1次元一般化weisfeiler-leman (1-gwl) アルゴリズムと同様に,非同型なハイパーグラフを識別できることを示す。 私たちのコードは \url{https://github.com/O neForward/UniGNN} で利用可能です。

Hypergraph, an expressive structure with flexibility to model the higher-order correlations among entities, has recently attracted increasing attention from various research domains. Despite the success of Graph Neural Networks (GNNs) for graph representation learning, how to adapt the powerful GNN-variants directly into hypergraphs remains a challenging problem. In this paper, we propose UniGNN, a unified framework for interpreting the message passing process in graph and hypergraph neural networks, which can generalize general GNN models into hypergraphs. In this framework, meticulously-designe d architectures aiming to deepen GNNs can also be incorporated into hypergraphs with the least effort. Extensive experiments have been conducted to demonstrate the effectiveness of UniGNN on multiple real-world datasets, which outperform the state-of-the-art approaches with a large margin. Especially for the DBLP dataset, we increase the accuracy from 77.4\% to 88.8\% in the semi-supervised hypernode classification task. We further prove that the proposed message-passing based UniGNN models are at most as powerful as the 1-dimensional Generalized Weisfeiler-Leman (1-GWL) algorithm in terms of distinguishing non-isomorphic hypergraphs. Our code is available at \url{https://github.com/O neForward/UniGNN}.
翻訳日:2021-05-04 13:40:03 公開日:2021-05-03
# 自動コレクション作成とレコメンデーション

Automatic Collection Creation and Recommendation ( http://arxiv.org/abs/2105.01004v1 )

ライセンス: Link先を確認
Sanidhya Singal, Piyush Singh, Manjeet Dahiya(参考訳) 本稿では,ユーザレベルで自動的にアイテムのコレクションを作成し,推薦できるコレクションレコメンダシステムを提案する。 トップN関連アイテムを出力する通常のレコメンデータシステムとは異なり、コレクションレコメンデータシステムは、コレクション内のアイテムがユーザに関連するようなアイテムのコレクションを出力し、コレクション内のアイテムは特定のテーマに従う。 提案システムは,項目推薦システムで学習したユーザ・イテム表現に基づいて構築される。 我々は次元削減とクラスタリング技術と直感的なヒューリスティックを用いて、評価とタイトルによるコレクションを作成します。 我々はこれらのアイデアを、ポピュラーな音楽ストリーミングサービスの中で、実際の音楽レコメンデーションの設定でテストする。 アイテムよりもコレクションを推奨する場合、レコメンデーション駆動の消費は2.3倍増加しています。 さらに、これは不動産の有効利用をもたらし、より多様なアイテムのセットを推奨する。 われわれの知る限り、この種の実験はこの種の実験としては初めてである。

We present a collection recommender system that can automatically create and recommend collections of items at a user level. Unlike regular recommender systems, which output top-N relevant items, a collection recommender system outputs collections of items such that the items in the collections are relevant to a user, and the items within a collection follow a specific theme. Our system builds on top of the user-item representations learnt by item recommender systems. We employ dimensionality reduction and clustering techniques along with intuitive heuristics to create collections with their ratings and titles. We test these ideas in a real-world setting of music recommendation, within a popular music streaming service. We find that there is a 2.3x increase in recommendation-drive n consumption when recommending collections over items. Further, it results in effective utilization of real estate and leads to recommending a more and diverse set of items. To our knowledge, these are first of its kind experiments at such a large scale.
翻訳日:2021-05-04 13:39:44 公開日:2021-05-03
# リーン強化学習によるロボット手術

Robotic Surgery With Lean Reinforcement Learning ( http://arxiv.org/abs/2105.01006v1 )

ライセンス: Link先を確認
Yotam Barnoy, Molly O'Brien, Will Wang, Gregory Hager(参考訳) 手術ロボットが一般化するにつれて、複雑な人間の操作の負担を省くことがますます実現可能になる。 モデルフリー強化学習 (RL) は, 汎用的な自動手術成績に向けた有望な方向であるが, 効率的で現実的な学習環境の欠如により進歩が鈍化している。 本稿では,外科医が技術スキルを習得し,リハーサルできるように,世界中のトレーニングシミュレーションであるda Vinci Skill Simulatorに強化学習支援を追加することを述べる。 我々は、画像データと状態データの両方を用いて、シミュレータ環境でサブタスクを実行するためにRLベースのエージェントをうまく教える。 私たちが知る限り、手術ロボティクス環境でrlベースのエージェントが視覚データから教えられるのはこれが初めてです。 さらに,ハイブリッドバッチ学習(HBL)と呼ばれる簡単な実装システムを用いて,RLのサンプル非効率に取り組み,Q-ラーニングプロセスに2番目の長期再生バッファを効果的に追加する。 さらに、状態から簡単に学習できるタスクを使用して収集したデータから学習をブートストラップすることができる。 HBLは学習時間を著しく短縮することを示す。

As surgical robots become more common, automating away some of the burden of complex direct human operation becomes ever more feasible. Model-free reinforcement learning (RL) is a promising direction toward generalizable automated surgical performance, but progress has been slowed by the lack of efficient and realistic learning environments. In this paper, we describe adding reinforcement learning support to the da Vinci Skill Simulator, a training simulation used around the world to allow surgeons to learn and rehearse technical skills. We successfully teach an RL-based agent to perform sub-tasks in the simulator environment, using either image or state data. As far as we know, this is the first time an RL-based agent is taught from visual data in a surgical robotics environment. Additionally, we tackle the sample inefficiency of RL using a simple-to-implement system which we term hybrid-batch learning (HBL), effectively adding a second, long-term replay buffer to the Q-learning process. Additionally, this allows us to bootstrap learning from images from the data collected using the easier task of learning from state. We show that HBL decreases our learning times significantly.
翻訳日:2021-05-04 13:39:29 公開日:2021-05-03
# アルゴリズムは中立ではない:協調フィルタリングのバイアス

Algorithms are not neutral: Bias in collaborative filtering ( http://arxiv.org/abs/2105.01031v1 )

ライセンス: Link先を確認
Catherine Stinson(参考訳) アルゴリズムバイアスの議論は、データまたはアルゴリズムを構築している人々が偏っている例に焦点を当てる傾向がある。 これにより、クリーンなデータと善意がバイアスを排除できるという印象を与える。 アルゴリズム自体の中立性は、著名な人工知能研究者によって守られている。 しかし、アルゴリズムは中立ではない。 バイアス付きデータとバイアス付きアルゴリズムメーカに加えて、AIアルゴリズム自体にもバイアスがかかる。 これは、人気に悩まされ、バイアスを均質化することで知られる協調フィルタリングの例で示される。 反復的情報フィルタリングアルゴリズムは一般に、アルゴリズムが推奨する文書に対するユーザの反応から学習する過程で選択バイアスを生成する。 これらの統計バイアスは、単に統計的な意味での偏見ではない。 人間のデータの分布のマージンに関するデータは、マージン化された人々に対応する傾向にある。 人気度と均質化バイアスは、既に限界に達している範囲をさらに狭める効果がある。 この偏りの源は、アルゴリズムによる意思決定の普遍性を考えると、深刻な注意を喚起する。

Discussions of algorithmic bias tend to focus on examples where either the data or the people building the algorithms are biased. This gives the impression that clean data and good intentions could eliminate bias. The neutrality of the algorithms themselves is defended by prominent Artificial Intelligence researchers. However, algorithms are not neutral. In addition to biased data and biased algorithm makers, AI algorithms themselves can be biased. This is illustrated with the example of collaborative filtering, which is known to suffer from popularity, and homogenizing biases. Iterative information filtering algorithms in general create a selection bias in the course of learning from user responses to documents that the algorithm recommended. These are not merely biases in the statistical sense; these statistical biases can cause discriminatory outcomes. Data points on the margins of distributions of human data tend to correspond to marginalized people. Popularity and homogenizing biases have the effect of further marginalizing the already marginal. This source of bias warrants serious attention given the ubiquity of algorithmic decision-making.
翻訳日:2021-05-04 13:39:08 公開日:2021-05-03
# 空間音声生成における部分監督による視聴覚一貫性の活用

Exploiting Audio-Visual Consistency with Partial Supervision for Spatial Audio Generation ( http://arxiv.org/abs/2105.00708v1 )

ライセンス: Link先を確認
Yan-Bo Lin and Yu-Chiang Frank Wang(参考訳) 人間は耳から聞こえる音で豊かな聴覚経験を知覚する。 バイノーラルオーディオで録音されたビデオは、人間が周囲の音を受信する方法をシミュレートする。 しかし、多くのビデオはモノラルオーディオのみを備えており、環境情報の欠如によりユーザエクスペリエンスが低下する可能性がある。 この問題に対処するために,音声と視覚のコンポーネント間の関係を生かして,モノーラル映像をバイノーラル映像に変換するオーディオ空間化フレームワークを提案する。 学習戦略は,音声と視覚の両方における左右の一貫性を保ちながら,自己教師あり学習手法と見なすことができ,訓練中の真理バイノーラル音声データを用いた大量の映像データへの依存を軽減できる。 ベンチマークデータセットを用いた実験により,半教師付きシナリオと完全教師付きシナリオの両方において,提案手法の有効性が確認された。

Human perceives rich auditory experience with distinct sound heard by ears. Videos recorded with binaural audio particular simulate how human receives ambient sound. However, a large number of videos are with monaural audio only, which would degrade the user experience due to the lack of ambient information. To address this issue, we propose an audio spatialization framework to convert a monaural video into a binaural one exploiting the relationship across audio and visual components. By preserving the left-right consistency in both audio and visual modalities, our learning strategy can be viewed as a self-supervised learning technique, and alleviates the dependency on a large amount of video data with ground truth binaural audio data during training. Experiments on benchmark datasets confirm the effectiveness of our proposed framework in both semi-supervised and fully supervised scenarios, with ablation studies and visualization further support the use of our model for audio spatialization.
翻訳日:2021-05-04 13:38:55 公開日:2021-05-03
# 身体的認識を伴う神経単眼3次元モーションキャプチャ

Neural Monocular 3D Human Motion Capture with Physical Awareness ( http://arxiv.org/abs/2105.01057v1 )

ライセンス: Link先を確認
Soshi Shimada and Vladislav Golyanik and Weipeng Xu and Patrick P\'erez and Christian Theobalt(参考訳) 本研究では,物理的に可塑性なマーカーレス3次元モーションキャプチャーのためのトレーニング可能な新しいシステムを提案する。 人間の動きを捉えるためのほとんどの神経的な方法とは異なり、我々のアプローチは身体的および環境的な制約を認識している。 完全に微分可能な方法、すなわち1.比例導出制御器とニューラルネットワークによって予測されるゲインとを組み合わせることで、高速動作の有無でも遅延を低減し、2. 明示的な剛体力学モデル、3. 物理的に目立たない足底浸透をハード制約として防ぐ新しい最適化層を組み合わせる。 システムへの入力は2Dジョイントキーポイントであり、列車とテスト時間の両方で固有のカメラパラメータへの依存性を減らすために、新しい方法で標準化されています。 これにより、汎用性を損なうことなく、より正確なグローバル翻訳推定が可能になる。 私たちのモデルは、3Dアノテーションが利用できない場合にのみ2Dアノテーションで微調整できます。 インタラクティブなフレームレートで、スムーズで物理的に原則化された3Dモーションを生成する。 その利点は、Human 3.6M や MPI-INF-3DHP のような一般的な3Dポーズ推定ベンチマークと大きく異なっている。 質的な結果はhttp://gvv.mpi-inf.m pg.de/projects/PhysA ware/で確認できる。

We present a new trainable system for physically plausible markerless 3D human motion capture, which achieves state-of-the-art results in a broad range of challenging scenarios. Unlike most neural methods for human motion capture, our approach, which we dub physionical, is aware of physical and environmental constraints. It combines in a fully differentiable way several key innovations, i.e., 1. a proportional-derivat ive controller, with gains predicted by a neural network, that reduces delays even in the presence of fast motions, 2. an explicit rigid body dynamics model and 3. a novel optimisation layer that prevents physically implausible foot-floor penetration as a hard constraint. The inputs to our system are 2D joint keypoints, which are canonicalised in a novel way so as to reduce the dependency on intrinsic camera parameters -- both at train and test time. This enables more accurate global translation estimation without generalisability loss. Our model can be finetuned only with 2D annotations when the 3D annotations are not available. It produces smooth and physically principled 3D motions in an interactive frame rate in a wide variety of challenging scenes, including newly recorded ones. Its advantages are especially noticeable on in-the-wild sequences that significantly differ from common 3D pose estimation benchmarks such as Human 3.6M and MPI-INF-3DHP. Qualitative results are available at http://gvv.mpi-inf.m pg.de/projects/PhysA ware/
翻訳日:2021-05-04 13:38:38 公開日:2021-05-03
# 非調整ハミルトニアンモンテカルロの混合時間保証

Mixing Time Guarantees for Unadjusted Hamiltonian Monte Carlo ( http://arxiv.org/abs/2105.00887v1 )

ライセンス: Link先を確認
Nawaf Bou-Rabee and Andreas Eberle(参考訳) 非調整なハミルトニアンモンテカルロ (uhmc) アルゴリズムに対応するマルコフ連鎖の全変動混合時間の定量的上限を与える。 2つの一般的なモデルのクラスと固定時間離散化ステップサイズ$h$ に対して、混合時間は次元に対数的にのみ依存することが示される。 さらに、UHMC鎖の不変測度と真の目標測度との間の全変動距離について定量的な上限を与える。 その結果、$O\left(d^{3/4}\varepsilon^{-1/2}\log (d/\varepsilon )\right)$勾配評価と$O\left(d^{1/2}\varepsilon^{-1/2}\log (d/\varepsilon )\right)$勾配評価に対して、ターゲット分布の正確な近似$\mu$を、uHMCで達成できることが示されている。 これらの証明は、上界を実現する uHMC のカップリングを成功させることに基づいている。

We provide quantitative upper bounds on the total variation mixing time of the Markov chain corresponding to the unadjusted Hamiltonian Monte Carlo (uHMC) algorithm. For two general classes of models and fixed time discretization step size $h$, the mixing time is shown to depend only logarithmically on the dimension. Moreover, we provide quantitative upper bounds on the total variation distance between the invariant measure of the uHMC chain and the true target measure. As a consequence, we show that an $\varepsilon$-accura te approximation of the target distribution $\mu$ in total variation distance can be achieved by uHMC for a broad class of models with $O\left(d^{3/4}\varepsilon^{-1/2}\log (d/\varepsilon )\right)$ gradient evaluations, and for mean field models with weak interactions with $O\left(d^{1/2}\varepsilon^{-1/2}\log (d/\varepsilon )\right)$ gradient evaluations. The proofs are based on the construction of successful couplings for uHMC that realize the upper bounds.
翻訳日:2021-05-04 13:38:14 公開日:2021-05-03
# 連続報酬を有するマルチアームバンディットゲームにおける平均場平衡

Mean Field Equilibrium in Multi-Armed Bandit Game with Continuous Reward ( http://arxiv.org/abs/2105.00767v1 )

ライセンス: Link先を確認
Xiong Wang, Riheng Jia(参考訳) 平均的な効果と相互作用を近似することにより、多数のエージェントに対するマルチアームバンディット(MAB)の分析を容易にする。 既存のマルチエージェントMABの平均場モデルは、主に二項報酬関数を仮定するが、通常は現実的なシナリオでは適用できない。 本稿では,連続報酬関数を用いた平均フィールドバンディットゲームについて検討する。 具体的には,平均場平衡(MFE)の存在と特異性を導出することに集中し,マルチエージェントシステムの漸近安定性を保証する。 継続的な報酬機能に対応するために,学習した報酬をエージェント状態にエンコードし,その結果を確率的アームプレイングポリシーにマッピングし,実効観察を用いて更新する。 状態の進化は上半連続性であり、MFEの存在が得られていることを示す。 マルコフ解析は主に離散状態の場合のため、確率的連続状態の進化を決定論的常微分方程式(ODE)に変換する。 そこで本研究では,ODE の縮退マッピングを特徴付けることで,バンディットゲームに特有の MFE を実現する。 広範囲な評価は,MFEの特徴を検証し,MAB問題に対する厳密な経験的後悔を示す。

Mean field game facilitates analyzing multi-armed bandit (MAB) for a large number of agents by approximating their interactions with an average effect. Existing mean field models for multi-agent MAB mostly assume a binary reward function, which leads to tractable analysis but is usually not applicable in practical scenarios. In this paper, we study the mean field bandit game with a continuous reward function. Specifically, we focus on deriving the existence and uniqueness of mean field equilibrium (MFE), thereby guaranteeing the asymptotic stability of the multi-agent system. To accommodate the continuous reward function, we encode the learned reward into an agent state, which is in turn mapped to its stochastic arm playing policy and updated using realized observations. We show that the state evolution is upper semi-continuous, based on which the existence of MFE is obtained. As the Markov analysis is mainly for the case of discrete state, we transform the stochastic continuous state evolution into a deterministic ordinary differential equation (ODE). On this basis, we can characterize a contraction mapping for the ODE to ensure a unique MFE for the bandit game. Extensive evaluations validate our MFE characterization, and exhibit tight empirical regret of the MAB problem.
翻訳日:2021-05-04 13:36:28 公開日:2021-05-03
# 高周波時系列モニタリングのための完全学習可能なディープウェーブレット変換

Fully Learnable Deep Wavelet Transform for Unsupervised Monitoring of High-Frequency Time Series ( http://arxiv.org/abs/2105.00899v1 )

ライセンス: Link先を確認
Gabriel Michau and Olga Fink(参考訳) 高周波(HF)信号は産業界に広く存在しており、産業資産の監視に非常に有用である。 ほとんどのディープラーニングツールは、固定および/または非常に限られたサイズの入力のために設計されており、産業文脈における深層学習の多くの成功例は、入力を抽出した特徴として使用する。 本稿では,生のHF信号の意味的かつスパースな表現を抽出できる,完全に教師なしのディープラーニングフレームワークを提案する。 本研究では,(1)カスケードアルゴリズム,(2)ウェーブレットを結合する二次ミラーフィルタ特性,スケーリングおよび遷移フィルタ関数,(3)デノイング係数などの高速離散ウェーブレット変換(FDWT)のアーキテクチャ上の重要な特性を組み込む。 ディープラーニングを使うことで、このアーキテクチャを十分に学習可能にします。ウェーブレットベースとウェーブレット係数の両方が学習可能になります。 この目的を達成するために、ウェーブレット係数の学習可能なハードスレッディングを行う新しいアクティベーション関数を導入する。 我々のフレームワークでは、FDWTは、事前処理や後処理、ウェーブレット変換に関する事前知識を必要としない、完全に学習可能な教師なしツールとなる。 オープンソースサウンドデータセット上で実行される3つの機械学習タスクに,これらすべてのプロパティを組み込むことによるメリットを実証する。 我々は,ベースラインをはるかに上回る結果を得るとともに,各特性がアーキテクチャ性能に与える影響についてアブレーション研究を行う。

High-Frequency (HF) signal are ubiquitous in the industrial world and are of great use for the monitoring of industrial assets. Most deep learning tools are designed for inputs of fixed and/or very limited size and many successful applications of deep learning to the industrial context use as inputs extracted features, which is a manually and often arduously obtained compact representation of the original signal. In this paper, we propose a fully unsupervised deep learning framework that is able to extract meaningful and sparse representation of raw HF signals. We embed in our architecture important properties of the fast discrete wavelet transformation (FDWT) such as (1) the cascade algorithm, (2) the quadrature mirror filter property that relates together the wavelet, the scaling and transposed filter functions, and (3) the coefficient denoising. Using deep learning, we make this architecture fully learnable: both the wavelet bases and the wavelet coefficient denoising are learnable. To achieve this objective, we introduce a new activation function that performs a learnable hard-thresholding of the wavelet coefficients. With our framework, the denoising FDWT becomes a fully learnable unsupervised tool that does neither require any type of pre- nor post-processing, nor any prior knowledge on wavelet transform. We demonstrate the benefit of embedding all these properties on three machine-learning tasks performed on open source sound datasets. We achieve results well above baseline and we perform an ablation study of the impact of each property on the performance of the architecture.
翻訳日:2021-05-04 13:35:03 公開日:2021-05-03
# 交通予測のための動的グラフ畳み込みリカレントネットワーク:ベンチマークと解法

Dynamic Graph Convolutional Recurrent Network for Traffic Prediction: Benchmark and Solution ( http://arxiv.org/abs/2104.14917v2 )

ライセンス: Link先を確認
Fuxian Li, Jie Feng, Huan Yan, Guangyin Jin, Depeng Jin, and Yong Li(参考訳) 交通予測はインテリジェントな交通システムの基盤である。 スマートシティ、すなわちインテリジェントな交通管理と都市計画の応用には、正確な交通予測が不可欠である。 時空間モデリングには様々な手法が提案されているが,道路網における相関の動的特性は無視できる。 一方、ほとんどのリカレントニューラルネットワーク(RNN)ベースの作業は、リカレント操作のために十分に効率が良くない。 さらに、同じデータセット上の異なるメソッド間での公平な比較が極めて欠如している。 本稿では,上記の課題に対処するために,動的グラフ畳み込みリカレントネットワーク(dgcrn)と呼ばれる新しいトラヒック予測フレームワークを提案する。 DGCRNでは、ハイパーネットワークはノード属性から動的特性を活用、抽出するために設計され、動的フィルタのパラメータは各ステップで生成される。 ノードの埋め込みをフィルタリングし、それを使って動的グラフを生成し、事前に定義された静的グラフと統合する。 我々の知る限りでは、動的グラフの微妙なトポロジーを各ステップごとにモデル化する生成法を最初に採用した。 さらに,効率と性能を向上させるために,DGCRNのトレーニング戦略を用いて,前方・後方伝搬におけるデコーダの繰り返し数を制限する。 最後に、公平な比較とさらなる研究のために、再現可能な標準ベンチマークと真新しい代表トラフィックデータセットがオープンされる。 3つのデータセットに対する大規模な実験により、我々のモデルは15のベースラインを一貫して上回ります。

Traffic prediction is the cornerstone of an intelligent transportation system. Accurate traffic forecasting is essential for the applications of smart cities, i.e., intelligent traffic management and urban planning. Although various methods are proposed for spatio-temporal modeling, they ignore the dynamic characteristics of correlations among locations on road networks. Meanwhile, most Recurrent Neural Network (RNN) based works are not efficient enough due to their recurrent operations. Additionally, there is a severe lack of fair comparison among different methods on the same datasets. To address the above challenges, in this paper, we propose a novel traffic prediction framework, named Dynamic Graph Convolutional Recurrent Network (DGCRN). In DGCRN, hyper-networks are designed to leverage and extract dynamic characteristics from node attributes, while the parameters of dynamic filters are generated at each time step. We filter the node embeddings and then use them to generate a dynamic graph, which is integrated with a pre-defined static graph. As far as we know, we are the first to employ a generation method to model fine topology of dynamic graph at each time step. Further, to enhance efficiency and performance, we employ a training strategy for DGCRN by restricting the iteration number of decoder during forward and backward propagation. Finally, a reproducible standardized benchmark and a brand new representative traffic dataset are opened for fair comparison and further research. Extensive experiments on three datasets demonstrate that our model outperforms 15 baselines consistently.
翻訳日:2021-05-04 10:48:24 公開日:2021-05-03
# テクニカルレポートコンパイル:ソースコードによるファイアドリルアンチパターンの検出

Technical Reports Compilation: Detecting the Fire Drill anti-pattern using Source Code ( http://arxiv.org/abs/2104.15090v2 )

ライセンス: Link先を確認
Sebastian H\"onel(参考訳) プロジェクト管理アンチパターン(AP)の存在を検出するには、現在、この問題の専門家が必要です。 さらに悪いことに、専門家は個々の主観性や偏見を導入することがある。 まず、Fire Drill APを用いて、基礎となるソースコードから抽出された任意のメトリクスやメンテナンスアクティビティなどのイベントで構成された、記述を検出可能なAPに変換する新しい方法を紹介します。 次に,実世界のプロジェクトからデータに基づくap記述への逸脱を定量化しスコア付けする新しい手法を示す。 ファイアドリルをある程度展示する9つの現実世界プロジェクトを用いて、翻訳されたAPをさらに強化する方法を示す。 これらのプロジェクトの基本的真実は2人の専門家から抽出され、両者の間で合意が得られた。 評価は3種類のパターンにまたがり,第1の型は記述から,第2の型はデータによって拡張され,第3の型はデータのみから導出される。 説明から翻訳されたファイアドリルAPは、プロジェクトにおけるアンチパターンの存在を確実に検出する弱い可能性を示すのみである。 APを現実世界のプロジェクトのデータで強化することは、検出を大幅に改善する。 データから派生したパターンを使用することで、スコアと基礎的な真実のほぼ完全に相関する。 一部のapはfire drill apと症状を共有しており、類似したパターンの存在が検出可能であると結論づけている。 さらに,提案手法を用いて特徴的にモデル化できるパターンは検出可能である。

Detecting the presence of project management anti-patterns (AP) currently requires experts on the matter and is an expensive endeavor. Worse, experts may introduce their individual subjectivity or bias. Using the Fire Drill AP, we first introduce a novel way to translate descriptions into detectable AP that are comprised of arbitrary metrics and events such as maintenance activities, which are mined from the underlying source code, thus making the description objective as it becomes data-based. Secondly, we demonstrate a novel method to quantify and score the deviations of real-world projects to data-based AP descriptions. Using nine real-world projects that exhibit a Fire Drill to some degree, we show how to further enhance the translated AP. The ground truth in these projects was extracted from two individual experts and consensus was found between them. Our evaluation spans three kinds of pattern, where the first is purely derived from description, the second type is enhanced by data, and the third kind is derived from data only. The Fire Drill AP as translated from description only shows weak potential of confidently detecting the presence of the anti-pattern in a project. Enriching the AP with data from real-world projects significantly improves the detection. Using patterns derived from data only leads to almost perfect correlations of the scores with the ground truth. Some APs share symptoms with the Fire Drill AP, and we conclude that the presence of similar patterns is most certainly detectable. Furthermore, any pattern that can be characteristically modelled using the proposed approach is potentially well detectable.
翻訳日:2021-05-04 10:47:20 公開日:2021-05-03
# LIDAR支援データ駆動型ミリ波ビーム選択の新展開

A Novel Look at LIDAR-aided Data-driven mmWave Beam Selection ( http://arxiv.org/abs/2104.14579v2 )

ライセンス: Link先を確認
Matteo Zecchin, Mahdi Boloursaz Mashhadi, Mikolaj Jankowski, Deniz Gunduz, Marios Kountouris, David Gesbert(参考訳) 車両間通信(V2I)における効率の良いミリ波 (mmWave) ビーム選択は, 狭いミリ波ビーム幅と高いユーザ移動性のために重要な課題である。 反復ビーム検出手法の探索オーバーヘッドを低減するため、車両に搭載された光検出・測光センサ(LIDAR)からのコンテキスト情報をデータ駆動方式で利用し、有用な側情報を生成する。 本稿では,それに対応するLIDAR前処理とともに,軽量ニューラルネットワーク(NN)アーキテクチャを提案する。 提案手法はモデルの収束速度と最終的な精度の両方を改善する複数の新規性を含んでいる。 特に, 知識蒸留に触発された新しい損失関数を定義し, 視線(los)/非視線(nlos)情報を活用したカリキュラムトレーニング手法を導入し, より困難なnlos症例の性能を向上させるための非局所注意モジュールを提案する。 LIDARデータと受信者位置のみを用いて,我々のNNベースのビーム選択方式は,ビーム探索オーバーヘッドを伴わずに79.9%のスループットを実現し,最大6本のビームを探索することで95%のスループットを達成できることを示す。

Efficient millimeter wave (mmWave) beam selection in vehicle-to-infrastru cture (V2I) communication is a crucial yet challenging task due to the narrow mmWave beamwidth and high user mobility. To reduce the search overhead of iterative beam discovery procedures, contextual information from light detection and ranging (LIDAR) sensors mounted on vehicles has been leveraged by data-driven methods to produce useful side information. In this paper, we propose a lightweight neural network (NN) architecture along with the corresponding LIDAR preprocessing, which significantly outperforms previous works. Our solution comprises multiple novelties that improve both the convergence speed and the final accuracy of the model. In particular, we define a novel loss function inspired by the knowledge distillation idea, introduce a curriculum training approach exploiting line-of-sight (LOS)/non-line-of-si ght (NLOS) information, and we propose a non-local attention module to improve the performance for the more challenging NLOS cases. Simulation results on benchmark datasets show that, utilizing solely LIDAR data and the receiver position, our NN-based beam selection scheme can achieve 79.9% throughput of an exhaustive beam sweeping approach without any beam search overhead and 95% by searching among as few as 6 beams.
翻訳日:2021-05-04 10:46:57 公開日:2021-05-03