このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201129となっている論文です。

PDF登録状況(公開日: 20201129)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 潜在空間分布の複雑さに及ぼすバックドア攻撃の影響 [全文訳有]

Effect of backdoor attacks over the complexity of the latent space distribution ( http://arxiv.org/abs/2012.01931v1 )

ライセンス: CC BY 4.0
Henry D. Chacon and Paul Rad(参考訳) 入力空間の複雑性は、モデルが知識を抽出し、属性の空間を一般に仮定された関数に変換する能力を決定する。 バックドア攻撃が存在する場合、空間の複雑さは変化し、モデルのトレーニングに直接影響を及ぼすクラス間の類似性を誘発する。 その結果、モデルは入力セットに過度に適合する傾向にある。 本研究では,D-vine Copula Auto-Encoder (VCAE) をバックドアトリガの存在下での潜伏空間分布の推定ツールとして提案する。 変分オートエンコーダ (VAE) のように, 分布推定には仮定が存在しない。 非攻撃カテゴリでランダムに生成されたバックドアスタンプを観察することができる。 我々は, クリーンモデル (ベースライン) と攻撃対象モデル (バックドア) の違いを, 分布のペアワイズ表現で示す。 バックドアの特徴によって引き起こされる入力空間の依存性構造の変化を説明する。 最後に、エントロピーの変化とモデル間のクルバック・リーブラーのばらつきを定量化する。 その結果,入力にバックドアトリガーが加えられたことにより,潜在空間のエントロピーが約27\%増加することがわかった。

The input space complexity determines the model's capabilities to extract their knowledge and translate the space of attributes into a function which is assumed in general, as a concatenation of non-linear functions between layers. In the presence of backdoor attacks, the space complexity changes, and induces similarities between classes that directly affect the model's training. As a consequence, the model tends to overfit the input set. In this research, we suggest the D-vine Copula Auto-Encoder (VCAE) as a tool to estimate the latent space distribution under the presence of backdoor triggers. Since no assumptions are made on the distribution estimation, like in Variational Autoencoders (VAE). It is possible to observe the backdoor stamp in non-attacked categories randomly generated. We exhibit the differences between a clean model (baseline) and the attacked one (backdoor) in a pairwise representation of the distribution. The idea is to illustrate the dependency structure change in the input space induced by backdoor features. Finally, we quantify the entropy's changes and the Kullback-Leibler divergence between models. In our results, we found the entropy in the latent space increases by around 27\% due to the backdoor trigger added to the input
翻訳日:2021-06-08 17:02:34 公開日:2020-11-29
# (参考訳) gumbel-crfsによる潜伏テンプレート誘導 [全文訳有]

Latent Template Induction with Gumbel-CRFs ( http://arxiv.org/abs/2011.14244v1 )

ライセンス: CC BY 4.0
Yao Fu, Chuanqi Tan, Bin Bi, Mosha Chen, Yansong Feng, Alexander M. Rush(参考訳) 文の構造を制御することは、テキスト生成において難しい問題である。 既存の作業は単純な決定論的アプローチかRLベースのハード構造に依存している。 本研究では,再パラメータ化を訓練に活用するために,ゆるやかで連続的なリラクゼーションを用いた文生成における潜在テンプレート推定のための構造的変分オートエンコーダの利用について検討する。 具体的には, Gumbel-CRFを提案する。これは, 緩和されたフォワード・フィラリング・バック・サンプリング (FFBS) 手法を用いて, CRFサンプリングアルゴリズムの連続緩和である。 再パラメータ化勾配推定器として、Gumbel-CRFはスコア関数に基づく推定器よりも安定な勾配を与える。 構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習し、テスト中にデコーダを制御することができることを示す。 我々は,データ・テキスト生成と教師なしパラフレーズ生成における実験による手法の有効性を実証する。

Learning to control the structure of sentences is a challenging problem in text generation. Existing work either relies on simple deterministic approaches or RL-based hard structures. We explore the use of structured variational autoencoders to infer latent templates for sentence generation using a soft, continuous relaxation in order to utilize reparameterization for training. Specifically, we propose a Gumbel-CRF, a continuous relaxation of the CRF sampling algorithm using a relaxed Forward-Filtering Backward-Sampling (FFBS) approach. As a reparameterized gradient estimator, the Gumbel-CRF gives more stable gradients than score-function based estimators. As a structured inference network, we show that it learns interpretable templates during training, which allows us to control the decoder during testing. We demonstrate the effectiveness of our methods with experiments on data-to-text generation and unsupervised paraphrase generation.
翻訳日:2021-06-07 14:37:08 公開日:2020-11-29
# (参考訳) 2次元格子上の単一のターゲット探索ゲームに対するモンテカルロ木探索 [全文訳有]

Monte Carlo Tree Search for a single target search game on a 2-D lattice ( http://arxiv.org/abs/2011.14246v1 )

ライセンス: CC BY 4.0
Elana Kozak and Scott Hottovy(参考訳) Monte Carlo Tree Search (MCTS) は、決定木を最適化に利用し、主に人工知能(AI)ゲームプレイヤーに適用する確率モデリングの分野である。 このプロジェクトは、AIプレイヤーが2次元格子内で静止目標を探索するゲームを想像する。 対象分布の異なる個体群で行動解析を行い,その効率を動物採餌行動のモデルであるlevy flight searchと比較した。 シミュレーションデータ解析に加えて,計算制約を無視した場合のMCTSの収束に関する2つの定理を証明した。

Monte Carlo Tree Search (MCTS) is a branch of stochastic modeling that utilizes decision trees for optimization, mostly applied to artificial intelligence (AI) game players. This project imagines a game in which an AI player searches for a stationary target within a 2-D lattice. We analyze its behavior with different target distributions and compare its efficiency to the Levy Flight Search, a model for animal foraging behavior. In addition to simulated data analysis we prove two theorems about the convergence of MCTS when computation constraints neglected.
翻訳日:2021-06-07 14:14:11 公開日:2020-11-29
# (参考訳) 周期整合性を有するセマンティックセグメンテーションと深さ補完のためのマルチタスクGAN [全文訳有]

Multi-task GANs for Semantic Segmentation and Depth Completion with Cycle Consistency ( http://arxiv.org/abs/2011.14272v1 )

ライセンス: CC BY 4.0
Chongzhen Zhang, Yang Tang, Chaoqiang Zhao, Qiyu Sun, Zhencheng Ye and J\"urgen Kurths(参考訳) セマンティックセグメンテーションと奥行き完了は、シーン理解において2つの困難なタスクであり、ロボット工学や自動運転で広く使われている。 これら2つのタスクを,最後のレイヤの変更など,いくつかの小さな修正によって共同でトレーニングする作業が提案されているが,これら2つのタスクの間に類似点があるにも関わらず,一方のタスクの結果は他方のパフォーマンス向上には利用されない。 本稿では, セマンティックセグメンテーションや深度補完に適するだけでなく, 生成したセマンティックイメージによる深度補完の精度を向上させるマルチタスク生成対向ネットワーク(Multi-task GANs)を提案する。 さらに,マルチスケール空間プーリングブロックと構造的類似性再構築損失を導入することにより,CycleGANに基づく生成セマンティックイメージの詳細を改善する。 さらに, 意味構造と幾何学構造の内部的一貫性を考慮して, 奥行き完了結果を改善するために, 意味的に導かれた滑らかさ損失を開発した。 CityscapesデータセットとKITTI深度補完ベンチマークの大規模な実験により、マルチタスクGANはセマンティックセグメンテーションと深度完了タスクの両方で競合性能を達成することができることが示された。

Semantic segmentation and depth completion are two challenging tasks in scene understanding, and they are widely used in robotics and autonomous driving. Although several works are proposed to jointly train these two tasks using some small modifications, like changing the last layer, the result of one task is not utilized to improve the performance of the other one despite that there are some similarities between these two tasks. In this paper, we propose multi-task generative adversarial networks (Multi-task GANs), which are not only competent in semantic segmentation and depth completion, but also improve the accuracy of depth completion through generated semantic images. In addition, we improve the details of generated semantic images based on CycleGAN by introducing multi-scale spatial pooling blocks and the structural similarity reconstruction loss. Furthermore, considering the inner consistency between semantic and geometric structures, we develop a semantic-guided smoothness loss to improve depth completion results. Extensive experiments on Cityscapes dataset and KITTI depth completion benchmark show that the Multi-task GANs are capable of achieving competitive performance for both semantic segmentation and depth completion tasks.
翻訳日:2021-06-07 13:51:24 公開日:2020-11-29
# (参考訳) ベイジアンディープネットワークによるMCMCアルゴリズムの高速化 [全文訳有]

Accelerating MCMC algorithms through Bayesian Deep Networks ( http://arxiv.org/abs/2011.14276v1 )

ライセンス: CC BY 4.0
Hector J. Hortua, Riccardo Volpi, Dimitri Marinelli, Luigi Malago(参考訳) マルコフ連鎖モンテカルロ(mcmc)アルゴリズムは、複雑な確率分布からのサンプリングにおける汎用性のために一般的に用いられる。 しかし,分布の次元が大きくなるにつれて,サンプリング空間を十分に探索するための計算コストが困難になる。 提案分布の選択を用いた適応MCMC法は収束を高速化するこの問題に対処できる。 本稿では,マルコフ連鎖の最初の提案としてベイズニューラルネットワークの結果を用いて,適応MCMCの実行方法を示す。 この組み合わせアプローチは、メトロポリス・ハスティングアルゴリズムの受け入れ率を高め、MCMCの収束を加速し、同じ最終的な精度に達する。 最後に、宇宙マイクロ波背景マップから直接宇宙パラメータを制約することにより、このアプローチの主な利点を示す。

Markov Chain Monte Carlo (MCMC) algorithms are commonly used for their versatility in sampling from complicated probability distributions. However, as the dimension of the distribution gets larger, the computational costs for a satisfactory exploration of the sampling space become challenging. Adaptive MCMC methods employing a choice of proposal distribution can address this issue speeding up the convergence. In this paper we show an alternative way of performing adaptive MCMC, by using the outcome of Bayesian Neural Networks as the initial proposal for the Markov Chain. This combined approach increases the acceptance rate in the Metropolis-Hasting algorithm and accelerate the convergence of the MCMC while reaching the same final accuracy. Finally, we demonstrate the main advantages of this approach by constraining the cosmological parameters directly from Cosmic Microwave Background maps.
翻訳日:2021-06-07 13:26:53 公開日:2020-11-29
# (参考訳) 3次元点雲生成のための幾何学画像の学習 [全文訳有]

Learning geometry-image representation for 3D point cloud generation ( http://arxiv.org/abs/2011.14289v1 )

ライセンス: CC BY 4.0
Lei Wang, Yuchun Huang, Pengjie Tao, Yaolin Hou, Yuxuan Liu(参考訳) 3次元物体の点雲生成の問題点について考察する。 計算コストと解像度の制約を伴ってオブジェクトを3次元ボクセルに識別する代わりに、3次元点雲生成問題を2次元幾何画像生成問題に変換するための新しい幾何画像ベースジェネレータ(GIG)を提案する。 幾何学像は3dオブジェクトの表面点を含む完全に正則な2dアレイであるため、2dアレイの正則性と3d表面の測地線近傍の両方を利用する。 したがって、GIGの大きな利点の1つは、効率的な2D画像生成ネットワークを用いて、3Dポイントクラウドを直接生成できることです。 剛性および非剛性の両方の3Dオブジェクトデータセットの実験は、可塑性および新規な3Dオブジェクトを作成するだけでなく、補間や算術のような形状編集をうまくサポートする確率的潜在空間を学習するために、我々の手法の有望な性能を実証した。

We study the problem of generating point clouds of 3D objects. Instead of discretizing the object into 3D voxels with huge computational cost and resolution limitations, we propose a novel geometry image based generator (GIG) to convert the 3D point cloud generation problem to a 2D geometry image generation problem. Since the geometry image is a completely regular 2D array that contains the surface points of the 3D object, it leverages both the regularity of the 2D array and the geodesic neighborhood of the 3D surface. Thus, one significant benefit of our GIG is that it allows us to directly generate the 3D point clouds using efficient 2D image generation networks. Experiments on both rigid and non-rigid 3D object datasets have demonstrated the promising performance of our method to not only create plausible and novel 3D objects, but also learn a probabilistic latent space that well supports the shape editing like interpolation and arithmetic.
翻訳日:2021-06-07 13:20:29 公開日:2020-11-29
# (参考訳) イデオロギーと話題の関連性 : 社会的話題検出モデルにおける政治的イデオロギーバイアスのケーススタディ [全文訳有]

Inflating Topic Relevance with Ideology: A Case Study of Political Ideology Bias in Social Topic Detection Models ( http://arxiv.org/abs/2011.14293v1 )

ライセンス: CC BY 4.0
Meiqi Guo, Rebecca Hwa, Yu-Ru Lin, Wen-Ting Chung(参考訳) トレーニングデータにおける政治的イデオロギーバイアスの影響について検討する。 比較研究を通じて, 広く使用されているNLPモデルにおけるバイアスの伝播と, 総合的検索精度への影響について検討した。 本研究は,人間の選択した入力からのバイアスを伝達する,大規模で複雑なモデルの感受性に着目し,検索精度の低下と,これらのバイアスに対する制御の重要性について考察した。 最後に、バイアスを軽減する方法として、政治イデオロギーに不変なテキスト表現を学習し、トピックの関連性を判断することを提案する。

We investigate the impact of political ideology biases in training data. Through a set of comparison studies, we examine the propagation of biases in several widely-used NLP models and its effect on the overall retrieval accuracy. Our work highlights the susceptibility of large, complex models to propagating the biases from human-selected input, which may lead to a deterioration of retrieval accuracy, and the importance of controlling for these biases. Finally, as a way to mitigate the bias, we propose to learn a text representation that is invariant to political ideology while still judging topic relevance.
翻訳日:2021-06-07 13:03:03 公開日:2020-11-29
# (参考訳) マラリアの検出と分類 [全文訳有]

Malaria Detection and Classificaiton ( http://arxiv.org/abs/2011.14329v1 )

ライセンス: CC BY 4.0
Ruskin Raj Manku and Ayush Sharma and Anand Panchbhai(参考訳) 世界保健機関(who)によると、マラリアは世界的な懸念の病である。 世界中の何十億という人々が マラリアのリスクにさらされています 顕微鏡検査はマラリア診断における金の基準と考えられている。 血液サンプルの微視的評価には、マラリアが問題となっている農村部では使用できない訓練を受けた専門家が必要となる。 マラリア診断の完全自動化は難しい課題である。 本研究では,マラリアの診断のための枠組みを提唱した。 我々は,第1層のFaster-RCNNを用いて感染細胞を検知し,収穫した細胞を分離したニューラルネットワークに供給して分類する2層アプローチを採用する。 提案手法は公開されているデータセットでテストされ、マラリア診断の結果が報告される一般的なデータセットがないため、将来のメソッドのベースラインとして機能する。

Malaria is a disease of global concern according to the World Health Organization. Billions of people in the world are at risk of Malaria today. Microscopy is considered the gold standard for Malaria diagnosis. Microscopic assessment of blood samples requires the need of trained professionals who at times are not available in rural areas where Malaria is a problem. Full automation of Malaria diagnosis is a challenging task. In this work, we put forward a framework for diagnosis of malaria. We adopt a two layer approach, where we detect infected cells using a Faster-RCNN in the first layer, crop them out, and feed the cropped cells to a seperate neural network for classification. The proposed methodology was tested on an openly available dataset, this will serve as a baseline for the future methods as currently there is no common dataset on which results are reported for Malaria Diagnosis.
翻訳日:2021-06-07 12:08:27 公開日:2020-11-29
# (参考訳) ProtoPShare: 解釈可能な画像分類と類似性発見のためのプロトタイプ共有 [全文訳有]

ProtoPShare: Prototype Sharing for Interpretable Image Classification and Similarity Discovery ( http://arxiv.org/abs/2011.14340v1 )

ライセンス: CC BY 4.0
Dawid Rymarczyk, {\L}ukasz Struski, Jacek Tabor, Bartosz Zieli\'nski(参考訳) 本稿では,その予測を説明するために,原型的部分のパラダイムを取り入れた自己説明型手法 protopshare を提案する。 ProtoPShareの主な特徴は、データ依存のマージプルーニングのおかげで、クラス間でプロトタイプ部品を効率的に共有できることである。 さらに、プロトタイプはより一貫性があり、モデルはartメソッドのprotopnetの状態よりも画像の摂動に頑健である。 CUB-200-2011とStanford Carsの2つのデータセットでこの結果を検証する。

In this paper, we introduce ProtoPShare, a self-explained method that incorporates the paradigm of prototypical parts to explain its predictions. The main novelty of the ProtoPShare is its ability to efficiently share prototypical parts between the classes thanks to our data-dependent merge-pruning. Moreover, the prototypes are more consistent and the model is more robust to image perturbations than the state of the art method ProtoPNet. We verify our findings on two datasets, the CUB-200-2011 and the Stanford Cars.
翻訳日:2021-06-07 12:02:22 公開日:2020-11-29
# (参考訳) 現実世界のアプリケーションのためのレーダーデータをシミュレートする学習 [全文訳有]

There and Back Again: Learning to Simulate Radar Data for Real-World Applications ( http://arxiv.org/abs/2011.14389v1 )

ライセンス: CC BY 4.0
Rob Weston, Oiwi Parker Jones and Ingmar Posner(参考訳) 現実的なレーダデータのシミュレーションは、レーダ処理に対するデータ駆動アプローチの開発を著しく加速する可能性がある。 しかし、画像形成の過程が複雑であることから、難易度が高い。 本研究では,高度マップシミュレーションに基づく忠実なレーダ観測を合成可能なレーダセンサモデルを提案する。 特に,不整合レーダの例から前方センサモデルを学習するための対角的アプローチを採用する。 さらに、後方モデルのモデリングは、循環的一貫性基準を通じて出力を世界状態と一致させるように促す。 後方モデルはさらに、対応するlidarスキャンから得られた部分的な測定によって接地された実際のレーダーデータから標高マップを予測するために制約される。 どちらのモデルも共同最適化で訓練されている。 実環境におけるシミュレーションデータに基づいて純粋に訓練された下流セグメンテーションモデルを評価することにより,本手法の有効性を実証する。 これにより、実際のデータに基づいてトレーニングされた同じモデルの4パーセントのパフォーマンスが得られる。

Simulating realistic radar data has the potential to significantly accelerate the development of data-driven approaches to radar processing. However, it is fraught with difficulty due to the notoriously complex image formation process. Here we propose to learn a radar sensor model capable of synthesising faithful radar observations based on simulated elevation maps. In particular, we adopt an adversarial approach to learning a forward sensor model from unaligned radar examples. In addition, modelling the backward model encourages the output to remain aligned to the world state through a cyclical consistency criterion. The backward model is further constrained to predict elevation maps from real radar data that are grounded by partial measurements obtained from corresponding lidar scans. Both models are trained in a joint optimisation. We demonstrate the efficacy of our approach by evaluating a down-stream segmentation model trained purely on simulated data in a real-world deployment. This achieves performance within four percentage points of the same model trained entirely on real data.
翻訳日:2021-06-07 10:49:32 公開日:2020-11-29
# (参考訳) クラウドソーシング型都市デリバリのための深層強化学習:システム状態評価、ヒューリスティックス誘導行動選択、ルール間統合

Deep Reinforcement Learning for Crowdsourced Urban Delivery: System States Characterization, Heuristics-guided Action Choice, and Rule-Interposing Integration ( http://arxiv.org/abs/2011.14430v1 )

ライセンス: CC BY 4.0
Tanvir Ahamed, Bo Zou, Nahid Parvez Farazi and Theja Tulabandhula(参考訳) 本稿では,クラウドソーシングによる都市配送において,アドホックな配送業者に配送要求を割り当てるという課題について検討する。 配送要求は、ピックアップの早い時間と配達の最新の時間の間に、それぞれ限られた時間枠で空間的に分散される。 crowdsourcees(クラウドソース)と呼ばれるアドホック・クーリエも、時間的可用性とキャパシティに制限がある。 本稿では,この課題に対処するための新しい深層強化学習(DRL)アプローチを提案する。 DRLトレーニングの効率性,収束性,安定性を高めるために,経験リプレイとターゲットネットワークの2つの優れた特徴を持つディープQネットワーク(DQN)アルゴリズムを訓練する。 More importantly, this paper makes three methodological contributions: 1) presenting a comprehensive and novel characterization of crowdshipping system states that encompasses spatial-temporal and capacity information of crowdsourcees and requests; 2) embedding heuristics that leverage the information offered by the state representation and are based on intuitive reasoning to guide specific actions to take, to preserve tractability and enhance efficiency of training; and 3) integrating rule-interposing to prevent repeated visiting of the same routes and node sequences during routing improvement, thereby further enhancing the training efficiency by accelerating learning. 提案手法の有効性を広範囲な数値解析により実証した。 以上の結果から,drl訓練におけるヒューリスティックス誘導行動選択と規則間相互作用の利点と,提案手法がソリューション品質,時間,スケーラビリティにおいて既存のヒューリスティックスよりも優れていることが示された。 クラウドシッピング作業計画の効率を向上させる可能性に加えて,提案手法は車両のルーティング状況における他の問題に対して,新たな経路と汎用的な枠組みを提供する。

This paper investigates the problem of assigning shipping requests to ad hoc couriers in the context of crowdsourced urban delivery. The shipping requests are spatially distributed each with a limited time window between the earliest time for pickup and latest time for delivery. The ad hoc couriers, termed crowdsourcees, also have limited time availability and carrying capacity. We propose a new deep reinforcement learning (DRL)-based approach to tackling this assignment problem. A deep Q network (DQN) algorithm is trained which entails two salient features of experience replay and target network that enhance the efficiency, convergence, and stability of DRL training. More importantly, this paper makes three methodological contributions: 1) presenting a comprehensive and novel characterization of crowdshipping system states that encompasses spatial-temporal and capacity information of crowdsourcees and requests; 2) embedding heuristics that leverage the information offered by the state representation and are based on intuitive reasoning to guide specific actions to take, to preserve tractability and enhance efficiency of training; and 3) integrating rule-interposing to prevent repeated visiting of the same routes and node sequences during routing improvement, thereby further enhancing the training efficiency by accelerating learning. The effectiveness of the proposed approach is demonstrated through extensive numerical analysis. The results show the benefits brought by the heuristics-guided action choice and rule-interposing in DRL training, and the superiority of the proposed approach over existing heuristics in both solution quality, time, and scalability. Besides the potential to improve the efficiency of crowdshipping operation planning, the proposed approach also provides a new avenue and generic framework for other problems in the vehicle routing context.
翻訳日:2021-06-07 09:41:58 公開日:2020-11-29
# (参考訳) パラメータ化近傍メモリ適応を用いた意味的役割ラベルの改善 [全文訳有]

Improved Semantic Role Labeling using Parameterized Neighborhood Memory Adaptation ( http://arxiv.org/abs/2011.14459v1 )

ライセンス: CC BY 4.0
Ishan Jindal, Ranit Aharonov, Siddhartha Brahma, Huaiyu Zhu, Yunyao Li(参考訳) ディープニューラルモデルは、セマンティックロールラベリングの最良の結果を達成する。 低周波文脈特化トレーニングサンプルの処理に近隣住民を利用したインスタンスベース学習に着想を得て,深部神経モデルにおけるメモリ適応技術の利用について検討した。 本稿では,アクティベーションメモリにおけるトークン近傍のパラメータ化表現を用いたパラメータ化近傍メモリ適応(PNMA)手法を提案し,トレーニングデータに最も類似したサンプルに基づいて予測を行う。 単語埋め込みの種類に関係なく,PNMAはベースモデルのSRL性能を一貫して改善することを示す。 PNMAは、BERTから派生した文脈化された単語埋め込みと組み合わせて、特にドメイン外のテキストで、スパンと依存性のセマンティックパーシングデータセットの既存のモデルの改善を行い、それぞれ80.2点、CoNLL2005で84.97点、CoNLL2009点に到達した。

Deep neural models achieve some of the best results for semantic role labeling. Inspired by instance-based learning that utilizes nearest neighbors to handle low-frequency context-specific training samples, we investigate the use of memory adaptation techniques in deep neural models. We propose a parameterized neighborhood memory adaptive (PNMA) method that uses a parameterized representation of the nearest neighbors of tokens in a memory of activations and makes predictions based on the most similar samples in the training data. We empirically show that PNMA consistently improves the SRL performance of the base model irrespective of types of word embeddings. Coupled with contextualized word embeddings derived from BERT, PNMA improves over existing models for both span and dependency semantic parsing datasets, especially on out-of-domain text, reaching F1 scores of 80.2, and 84.97 on CoNLL2005, and CoNLL2009 datasets, respectively.
翻訳日:2021-06-07 09:28:12 公開日:2020-11-29
# ソーシャルメディアにおける予備抑うつ状態推定のための新しい感性分析エンジン

A Novel Sentiment Analysis Engine for Preliminary Depression Status Estimation on Social Media ( http://arxiv.org/abs/2011.14280v1 )

ライセンス: Link先を確認
Sudhir Kumar Suman, Hrithwik Shalu, Lakshya A Agrawal, Archit Agrawal, Juned Kadiwala(参考訳) ソーシャルメディア上でのユーザの予備的な抑うつ状態推定のためのテキスト感情分析は、広く実行可能かつ実現可能な方法であるが、ソーシャルメディアwebサイトへのアクセスや語彙の多種多様な混合によって、深層学習に基づく分類器が一般的に適用されることは困難である。 さらに、従来の教師付き機械学習の適応性の欠如は多くのレベルで問題となる可能性がある。 本稿では,twitterソーシャルメディア上で主に抑うつ検出を行うための,ディープラーニングベースのバックエンドを備えた,クラウドベースのスマートフォンアプリケーションを提案する。 バックエンドモデルは、所定のツイート(クエリ)とラベル付きツイートのセットを既知の感情(標準コーパス)と比較するRoBERTaベースのシアム文分類器で構成されている。 標準コーパスは、モデルの信頼性を改善するために、専門家の意見によって時間とともに変化する。 心理学者(患者の許可を得て)は、カウンセリングの前に患者の抑うつ状態を評価するためにこの応用を活用し、患者の精神状態に関するより良い洞察を提供することができる。 さらに、同じように、心理学者は、より効果的な治療に役立つ同様の特徴の事例を参照することができる。 公開データセットで微調整した後、バックエンドモデルを評価します。 探索調律モデルは、ランダムなノイズ要因を持つ大量のツイートサンプルに対して抑うつを予測する。 このモデルは、試験精度87.23%、auc 0.8621でピンナクル結果を達成した。

Text sentiment analysis for preliminary depression status estimation of users on social media is a widely exercised and feasible method, However, the immense variety of users accessing the social media websites and their ample mix of vocabularies makes it difficult for commonly applied deep learning-based classifiers to perform. To add to the situation, the lack of adaptability of traditional supervised machine learning could hurt at many levels. We propose a cloud-based smartphone application, with a deep learning-based backend to primarily perform depression detection on Twitter social media. The backend model consists of a RoBERTa based siamese sentence classifier that compares a given tweet (Query) with a labeled set of tweets with known sentiment ( Standard Corpus ). The standard corpus is varied over time with expert opinion so as to improve the model's reliability. A psychologist ( with the patient's permission ) could leverage the application to assess the patient's depression status prior to counseling, which provides better insight into the mental health status of a patient. In addition, to the same, the psychologist could be referred to cases of similar characteristics, which could in turn help in more effective treatment. We evaluate our backend model after fine-tuning it on a publicly available dataset. The find tuned model is made to predict depression on a large set of tweet samples with random noise factors. The model achieved pinnacle results, with a testing accuracy of 87.23% and an AUC of 0.8621.
翻訳日:2021-06-07 09:07:31 公開日:2020-11-29
# 検索と分類のための大容量メモリマッチング

Coarse-to-Fine Memory Matching for Joint Retrieval and Classification ( http://arxiv.org/abs/2012.02287v1 )

ライセンス: Link先を確認
Allen Schmaltz and Andrew Beam(参考訳) 本稿では,双方向およびクロスエンコーダの強みを,学習と推論のための大雑把なメモリマッチング探索手順を通じて単一言語モデルに統一した,統合検索と分類のための新しいエンド・ツー・エンド言語モデルを提案する。 FEVERファクト検証データセットの標準的なブラインドテストセットに基づいて評価すると、分類精度は、言語モデルパラメータを知識ベースとしてのみ依存するアプローチよりも著しく高く、メモリ層を付加した単一のBERTベースモデルのみを使用して、最近の複数のモデルパイプラインシステムにアプローチする。 我々はさらに,低信頼なインスタンスを識別するために検索と分類の結合をどのように活用するかを実証し,モデルの分析と制約のためにexemplar auditingをこの設定に拡張する。 その結果,提案手法は2つの異なるメカニズムによって言語モデルの振る舞いを更新する手段が得られた。

We present a novel end-to-end language model for joint retrieval and classification, unifying the strengths of bi- and cross- encoders into a single language model via a coarse-to-fine memory matching search procedure for learning and inference. Evaluated on the standard blind test set of the FEVER fact verification dataset, classification accuracy is significantly higher than approaches that only rely on the language model parameters as a knowledge base, and approaches some recent multi-model pipeline systems, using only a single BERT base model augmented with memory layers. We further demonstrate how coupled retrieval and classification can be leveraged to identify low confidence instances, and we extend exemplar auditing to this setting for analyzing and constraining the model. As a result, our approach yields a means of updating language model behavior through two distinct mechanisms: The retrieved information can be updated explicitly, and the model behavior can be modified via the exemplar database.
翻訳日:2021-06-07 09:07:08 公開日:2020-11-29
# クラスタに基づくトップk勧告のための深層文脈強化学習

Cluster Based Deep Contextual Reinforcement Learning for top-k Recommendations ( http://arxiv.org/abs/2012.02291v1 )

ライセンス: Link先を確認
Anubha Kabra, Anu Agarwal, Anil Singh Parihar(参考訳) 過去数十年間のEコマース分野の急速な進歩は、パーソナライズされ、効率的で、ダイナミックなレコメンデーションシステムの必要性を差し迫った。 このニーズを十分に満たすために,強化学習によるクラスタリングのアンサンブルを作成することにより,トップk推薦を生成する新しい手法を提案する。 我々は,DB Scanクラスタリングを導入し,膨大なアイテム空間に対処した。 さらに, 深層文脈強化学習を用いて, ユーザ特徴を最大限に活用する手法を提案する。 部分的な更新とバッチ更新によって、モデルはユーザパターンを継続的に学習する。 デュエル・バンディットに基づく探検は、その適応性による最先端の戦略と比較して、堅牢な探査を提供する。 公開データセット上で実施した詳細な実験は,既存の技術と同等の手法の効率性について,我々の主張を検証するものである。

Rapid advancements in the E-commerce sector over the last few decades have led to an imminent need for personalised, efficient and dynamic recommendation systems. To sufficiently cater to this need, we propose a novel method for generating top-k recommendations by creating an ensemble of clustering with reinforcement learning. We have incorporated DB Scan clustering to tackle vast item space, hence in-creasing the efficiency multi-fold. Moreover, by using deep contextual reinforcement learning, our proposed work leverages the user features to its full potential. With partial updates and batch updates, the model learns user patterns continuously. The Duelling Bandit based exploration provides robust exploration as compared to the state-of-art strategies due to its adaptive nature. Detailed experiments conducted on a public dataset verify our claims about the efficiency of our technique as com-pared to existing techniques.
翻訳日:2021-06-07 09:06:51 公開日:2020-11-29
# 畳み込みニューラルネットワークを用いたグリアソン評価に基づく前立腺癌自動診断

Automated Prostate Cancer Diagnosis Based on Gleason Grading Using Convolutional Neural Network ( http://arxiv.org/abs/2011.14301v1 )

ライセンス: Link先を確認
Haotian Xie, Yong Zhang, Jun Wang, Jingjing Zhang, Yifan Ma, Zhaogang Yang(参考訳) 組織像を用いたGleason grading systemは前立腺癌の診断および予後予測の最も強力な方法である。 現在の標準検査は、病理学者によるGleason H&Eによる病理像の評価である。 しかし、それは複雑で、時間がかかり、観察対象となる。 画像特徴を自動的に学習し,高度な一般化能力を実現するディープラーニング(DL)ベースの手法が注目されている。 しかしながら、現在の診断における主要な臨床ソースであるスライド画像全体(WSI)のトレーニングには、数十億画素のピクセル、形態的不均一性、アーティファクトをDLで用い続けている。 そこで本研究では,PCaの精度向上のための畳み込みニューラルネットワーク(CNN)を用いた自動分類法を提案する。 本稿では,高分解能化とWSIの多様性向上のために,PBIR(Patch-Based Image Reconstruction)というデータ拡張手法を提案する。 さらに,データ分布を調整することにより,事前学習したモデルのターゲットデータセットへの適応性を高めるために,分布補正(DC)モジュールを開発した。 さらに, 重み付き平均角誤差(QWMSE)関数を提示し, ユークリッド距離による誤診を低減した。 実験の結果, pbir, dc, qwmse関数の組み合わせは, 優れたエキスパートレベル性能を達成するために必要であり, 最高の結果(0.8885倍重み付きkappa係数)をもたらした。

The Gleason grading system using histological images is the most powerful diagnostic and prognostic predictor of prostate cancer. The current standard inspection is evaluating Gleason H&E-stained histopathology images by pathologists. However, it is complicated, time-consuming, and subject to observers. Deep learning (DL) based-methods that automatically learn image features and achieve higher generalization ability have attracted significant attention. However, challenges remain especially using DL to train the whole slide image (WSI), a predominant clinical source in the current diagnostic setting, containing billions of pixels, morphological heterogeneity, and artifacts. Hence, we proposed a convolutional neural network (CNN)-based automatic classification method for accurate grading of PCa using whole slide histopathology images. In this paper, a data augmentation method named Patch-Based Image Reconstruction (PBIR) was proposed to reduce the high resolution and increase the diversity of WSIs. In addition, a distribution correction (DC) module was developed to enhance the adaption of pretrained model to the target dataset by adjusting the data distribution. Besides, a Quadratic Weighted Mean Square Error (QWMSE) function was presented to reduce the misdiagnosis caused by equal Euclidean distances. Our experiments indicated the combination of PBIR, DC, and QWMSE function was necessary for achieving superior expert-level performance, leading to the best results (0.8885 quadratic-weighted kappa coefficient).
翻訳日:2021-06-07 09:06:40 公開日:2020-11-29
# ターン型確率ゲームにおけるミニマックスサンプル複雑さ

Minimax Sample Complexity for Turn-based Stochastic Game ( http://arxiv.org/abs/2011.14267v1 )

ライセンス: Link先を確認
Qiwen Cui and Lin F. Yang(参考訳) マルチエージェント強化学習の実証的な成功は奨励されているが、理論的な保証はほとんど明らかにされていない。 本研究では,おそらく最も自然な強化学習アルゴリズムであるプラグインソルバ手法が,ターンベース確率ゲーム(TBSG)の最小値サンプル複雑性を実現することを証明する。 具体的には、任意の状態-作用対からのサンプリングが可能な「シミュレータ」を利用して、実証的なTBSGを計画する。 実験的なナッシュ均衡戦略は、真のTBSGにおける近似ナッシュ均衡戦略であり、問題依存的および問題非依存的境界を与えることを示す。 複雑な統計依存性に取り組むために,吸収性tbsgと報酬摂動法を開発した。 鍵となる考え方は、人工的にTBSGに準最適ギャップを導入し、ナッシュ均衡戦略は有限集合にある。

The empirical success of Multi-agent reinforcement learning is encouraging, while few theoretical guarantees have been revealed. In this work, we prove that the plug-in solver approach, probably the most natural reinforcement learning algorithm, achieves minimax sample complexity for turn-based stochastic game (TBSG). Specifically, we plan in an empirical TBSG by utilizing a `simulator' that allows sampling from arbitrary state-action pair. We show that the empirical Nash equilibrium strategy is an approximate Nash equilibrium strategy in the true TBSG and give both problem-dependent and problem-independent bound. We develop absorbing TBSG and reward perturbation techniques to tackle the complex statistical dependence. The key idea is artificially introducing a suboptimality gap in TBSG and then the Nash equilibrium strategy lies in a finite set.
翻訳日:2021-06-07 09:06:02 公開日:2020-11-29
# 機械学習によるヘモグロビンレベルの非侵襲的推定のためのスマートフォン型マルチ入力ワークフロー

A smartphone based multi input workflow for non-invasive estimation of haemoglobin levels using machine learning techniques ( http://arxiv.org/abs/2011.14370v1 )

ライセンス: Link先を確認
Sarah, S.Sidhartha Narayan, Irfaan Arif, Hrithwik Shalu, Juned Kadiwala(参考訳) 我々は,低費用で非侵襲的にヘモグロビン濃度を測定し,貧血の予備診断試験として使用できる医療システムを提案する。 画像処理、機械学習、ディープラーニング技術を組み合わせて、ヘモグロビンレベルを測定するための予測モデルを開発した。 これは、患者の指爪床、頭蓋結膜、舌の色解析によって達成される。 この予測モデルは、医療アプリケーションにカプセル化される。 このアプリケーションはデータ収集を迅速化し、モデルのアクティブな学習を促進する。 また,各患者のヘモグロビン濃度の連続的なモニタリングを支援するため,各患者ごとに個別にモデルのキャリブレーションを行う。 データを用いてこのフレームワークを検証すると、アナ血症の高精度な予備診断テストとして機能する。

We suggest a low cost, non invasive healthcare system that measures haemoglobin levels in patients and can be used as a preliminary diagnostic test for anaemia. A combination of image processing, machine learning and deep learning techniques are employed to develop predictive models to measure haemoglobin levels. This is achieved through the color analysis of the fingernail beds, palpebral conjunctiva and tongue of the patients. This predictive model is then encapsulated in a healthcare application. This application expedites data collection and facilitates active learning of the model. It also incorporates personalized calibration of the model for each patient, assisting in the continual monitoring of the haemoglobin levels of the patient. Upon validating this framework using data, it can serve as a highly accurate preliminary diagnostic test for anaemia.
翻訳日:2021-06-07 09:05:48 公開日:2020-11-29
# 建築上の対立性ロバスト性--Deep Pursuitの場合

Architectural Adversarial Robustness: The Case for Deep Pursuit ( http://arxiv.org/abs/2011.14427v1 )

ライセンス: Link先を確認
George Cazenavette, Calvin Murdock, Simon Lucey(参考訳) 適合しない性能にもかかわらず、深いニューラルネットワークは、ほとんど認識不能なレベルの敵対的ノイズによる標的攻撃の影響を受けやすいままである。 この感度の根本的な原因はよく理解されていないが、スパース符号問題に対する近似解としてフィードフォワードネットワークの各層をフレーミングすることで理論解析を単純化することができる。 基底探索を用いた反復解は理論上より安定であり、対向ロバスト性を改善している。 しかしcascading layer-wise pursuit実装は深いネットワークでエラーの蓄積に苦しむ。 対照的に,新しい深層追跡手法では,単一のグローバル最適化問題として全層活性化を近似し,残差ネットワークなどのスキップ接続を用いたより深い実世界のアーキテクチャを検討することができる。 実験により, 対向雑音に対するロバスト性の改善が示された。

Despite their unmatched performance, deep neural networks remain susceptible to targeted attacks by nearly imperceptible levels of adversarial noise. While the underlying cause of this sensitivity is not well understood, theoretical analyses can be simplified by reframing each layer of a feed-forward network as an approximate solution to a sparse coding problem. Iterative solutions using basis pursuit are theoretically more stable and have improved adversarial robustness. However, cascading layer-wise pursuit implementations suffer from error accumulation in deeper networks. In contrast, our new method of deep pursuit approximates the activations of all layers as a single global optimization problem, allowing us to consider deeper, real-world architectures with skip connections such as residual networks. Experimentally, our approach demonstrates improved robustness to adversarial noise.
翻訳日:2021-06-07 09:05:36 公開日:2020-11-29
# 中国語モデルの内在的知識評価

Intrinsic Knowledge Evaluation on Chinese Language Models ( http://arxiv.org/abs/2011.14277v1 )

ライセンス: Link先を確認
Zhiruo Wang, Renfen Hu(参考訳) 最近のNLPタスクは、様々な側面の知識をエンコードできるため、事前訓練された言語モデル(LM)から多くの恩恵を受けている。 しかし、現在のLM評価は下流のパフォーマンスに重点を置いているため、どの側面とどの程度の知識をコード化しているかを包括的に検査することができない。 本稿では,中国語における言語知識と世界知識の両方を網羅する合計39,308ドルの質問に対して,構文,意味,常識,事実知識の4つのタスクを提案する。 実験を通して、我々の調査と知識データは、事前訓練された中国のLMを評価するための信頼性の高いベンチマークであることが証明された。 私たちの作品はhttps://github.com/Z hiruoWang/ChnEval.co mで公開されています。

Recent NLP tasks have benefited a lot from pre-trained language models (LM) since they are able to encode knowledge of various aspects. However, current LM evaluations focus on downstream performance, hence lack to comprehensively inspect in which aspect and to what extent have they encoded knowledge. This paper addresses both queries by proposing four tasks on syntactic, semantic, commonsense, and factual knowledge, aggregating to a total of $39,308$ questions covering both linguistic and world knowledge in Chinese. Throughout experiments, our probes and knowledge data prove to be a reliable benchmark for evaluating pre-trained Chinese LMs. Our work is publicly available at https://github.com/Z hiruoWang/ChnEval.
翻訳日:2021-06-07 09:05:23 公開日:2020-11-29
# スペンスの表現と予測によるパラフレーズ生成のための生成事前学習

Generative Pre-training for Paraphrase Generation by Representing and Predicting Spans in Exemplars ( http://arxiv.org/abs/2011.14344v1 )

ライセンス: Link先を確認
Tien-Cuong Bui, Van-Duc Le, Hai-Thien To and Sang Kyun Cha(参考訳) パラフレーズ生成は長年の問題であり、多くの自然言語処理問題において重要な役割を果たす。 奨励的な結果にもかかわらず、最近の手法では、ジェネリックな発話を好むという問題に直面したり、新しいデータセットごとにモデルをスクラッチから再トレーニングする必要がある。 本稿では, GPT-2モデルから拡張した言い換え文に対する新しいアプローチを提案する。 本研究では,POSタグを用いたテンプレートマスキング手法を開発し,無関係な単語をマスクアウトする。 そのため、パラフレーズタスクは、マスク付きテンプレートでスパンを予測するように変更される。 提案手法は,特に意味保存の面で,競争ベースラインを上回っている。 モデルが与えられたテンプレートに偏りを生じないように,Bernolli分布を用いた2次マスキングと呼ばれる手法を導入し,その1次マスキングテンプレートのトークンの可視性を制御する。 さらに,この手法により,2次マスキングレベルを調整することで,様々なパラフレーズ文をテストで提供することができる。 本稿では,2種類のテンプレート選択手法の性能を比較し,意味情報の保存に等価であることを示す。

Paraphrase generation is a long-standing problem and serves an essential role in many natural language processing problems. Despite some encouraging results, recent methods either confront the problem of favoring generic utterance or need to retrain the model from scratch for each new dataset. This paper presents a novel approach to paraphrasing sentences, extended from the GPT-2 model. We develop a template masking technique, named first-order masking, to masked out irrelevant words in exemplars utilizing POS taggers. So that, the paraphrasing task is changed to predicting spans in masked templates. Our proposed approach outperforms competitive baselines, especially in the semantic preservation aspect. To prevent the model from being biased towards a given template, we introduce a technique, referred to as second-order masking, which utilizes Bernoulli distribution to control the visibility of the first-order-masked template's tokens. Moreover, this technique allows the model to provide various paraphrased sentences in testing by adjusting the second-order-masking level. For scale-up objectives, we compare the performance of two alternatives template-selection methods, which shows that they were equivalent in preserving semantic information.
翻訳日:2021-06-07 09:05:11 公開日:2020-11-29
# 深部画像マッチングのための学習親和性を考慮したアップサンプリング

Learning Affinity-Aware Upsampling for Deep Image Matting ( http://arxiv.org/abs/2011.14288v1 )

ライセンス: Link先を確認
Yutong Dai, Hao Lu, Chunhua Shen(参考訳) upsamplingにおける学習親和性は,ディープネットワークにおけるペアワイズインタラクションを利用するための効果的かつ効率的なアプローチを提供する。 2階機能は、非局所ブロックのようなアップサンプリング後の学習可能なモジュールとの隣接関係を構築するために、密接な予測に一般的に使用される。 アップサンプリングが不可欠であるため、アップサンプリングにおける学習親和性は、さらなる伝播層を避けることができ、コンパクトなモデルを構築する可能性を提供する。 統一数学的観点から既存のアップサンプリング演算子を二階形式に一般化し、親和性アウェアアップサンプリング(a2u)を導入し、アップサンプリングカーネルを軽量低ランク双線型モデルを用いて生成し、二階特徴を条件とする。 アップサンプリング演算子もダウンサンプリングに拡張できます。 a2uの代替実装について検討し,おもちゃデータセット上の画像再構成と,親和性に基づくアイデアがメインストリームのマットングアプローチを構成する大規模イメージマットングタスクという,2つのディテールに敏感なタスクの有効性を検証する。 特に, コンポジション1kマッチングデータセットの結果から, A2Uはパラメータの無視できる増加率(0.5%)の強いベースラインに対して, SAD測定値の14%の相対的な改善を達成していることがわかった。 最先端のマッティングネットワークと比較すると、モデルの複雑さはたった40%で8%高いパフォーマンスを実現しています。

We show that learning affinity in upsampling provides an effective and efficient approach to exploit pairwise interactions in deep networks. Second-order features are commonly used in dense prediction to build adjacent relations with a learnable module after upsampling such as non-local blocks. Since upsampling is essential, learning affinity in upsampling can avoid additional propagation layers, offering the potential for building compact models. By looking at existing upsampling operators from a unified mathematical perspective, we generalize them into a second-order form and introduce Affinity-Aware Upsampling (A2U) where upsampling kernels are generated using a light-weight lowrank bilinear model and are conditioned on second-order features. Our upsampling operator can also be extended to downsampling. We discuss alternative implementations of A2U and verify their effectiveness on two detail-sensitive tasks: image reconstruction on a toy dataset; and a largescale image matting task where affinity-based ideas constitute mainstream matting approaches. In particular, results on the Composition-1k matting dataset show that A2U achieves a 14% relative improvement in the SAD metric against a strong baseline with negligible increase of parameters (<0.5%). Compared with the state-of-the-art matting network, we achieve 8% higher performance with only 40% model complexity.
翻訳日:2021-06-07 09:04:29 公開日:2020-11-29
# BSNet: きめ細かい画像分類のための二相性ネットワーク

BSNet: Bi-Similarity Network for Few-shot Fine-grained Image Classification ( http://arxiv.org/abs/2011.14311v1 )

ライセンス: Link先を確認
Xiaoxu Li, Jijie Wu, Zhuo Sun, Zhanyu Ma, Jie Cao, Jing-Hao Xue(参考訳) 微粒化画像分類のための画像学習はコンピュータビジョンにおいて近年注目されている。 単純さと有効性のため、最小ショット学習のアプローチの中で、メトリックベースのメソッドは多くのタスクにおいて最先端の手法である。 計量に基づく手法の多くは単一の類似度尺度を仮定し、単一の特徴空間を得る。 しかし、もしサンプルを2つの異なる類似度尺度で同時に分類できるなら、クラス内のサンプルはより小さな特徴空間でよりコンパクトに分布し、より識別的な特徴写像を生成することができる。 そこで本研究では, 単一の埋め込みモジュールと2つの類似度尺度を持つ双類似性モジュールからなるいわゆる \textit{Bi-Similarity Network} (\textit{BSNet}) を提案する。 サポート画像とクエリ画像が畳み込みベースの埋め込みモジュールを通過した後、双方向モジュールは、多様な特徴の2つの類似度尺度に従って特徴マップを学習する。 このようにして、このモデルは、微粒画像のわずかなショットからより識別的で類似度の低い特徴を学習することができ、モデル一般化能力を大幅に改善することができる。 確立されたメトリック/類似性ベースのネットワークを少し変更することで、広範囲な実験を通じて、提案手法がいくつかのきめ細かな画像ベンチマークデータセットに対して大幅に改善することを示す。 https://github.com/s praise/bsnet

Few-shot learning for fine-grained image classification has gained recent attention in computer vision. Among the approaches for few-shot learning, due to the simplicity and effectiveness, metric-based methods are favorably state-of-the-art on many tasks. Most of the metric-based methods assume a single similarity measure and thus obtain a single feature space. However, if samples can simultaneously be well classified via two distinct similarity measures, the samples within a class can distribute more compactly in a smaller feature space, producing more discriminative feature maps. Motivated by this, we propose a so-called \textit{Bi-Similarity Network} (\textit{BSNet}) that consists of a single embedding module and a bi-similarity module of two similarity measures. After the support images and the query images pass through the convolution-based embedding module, the bi-similarity module learns feature maps according to two similarity measures of diverse characteristics. In this way, the model is enabled to learn more discriminative and less similarity-biased features from few shots of fine-grained images, such that the model generalization ability can be significantly improved. Through extensive experiments by slightly modifying established metric/similarity based networks, we show that the proposed approach produces a substantial improvement on several fine-grained image benchmark datasets. Codes are available at: https://github.com/s praise/BSNet
翻訳日:2021-06-07 09:03:26 公開日:2020-11-29
# 深層ニューラルネットワークのためのファジブル残差畳み込みブロックによる層破砕

Layer Pruning via Fusible Residual Convolutional Block for Deep Neural Networks ( http://arxiv.org/abs/2011.14356v1 )

ライセンス: Link先を確認
Pengtao Xu, Jian Cao, Fanhua Shang, Wenyu Sun, Pu Li(参考訳) リソース制限されたデバイスにディープ畳み込みニューラルネットワーク(CNN)をデプロイするために、フィルタと重み付けのための多くのモデルプルーニング法が開発され、レイヤープルーニングはごくわずかである。 しかし,フィルタプルーニングやウェイトプルーニングと比較して,レイヤプルーニングによって得られるコンパクトモデルは,同じFLOPとパラメータ数がメモリ内での移動が少ないため,推論時間や実行時のメモリ使用量が少なくなる。 本稿では,学習可能な情報制御パラメータとのショートカット接続を単一畳み込み層に挿入して実装した,可溶性残差畳み込みブロック(ResConv)を用いた単純な層切断法を提案する。 ResConv構造をトレーニングに使用すると、ネットワークの精度が向上し、ディーププレーンネットワークのトレーニングが可能になる。 レイヤプルーニングでは,ネットワークの畳み込み層をレイヤスケーリング係数でresconvに変換する。 トレーニング工程では、L1正則化を採用してスケーリング係数を小さくし、重要でない層を自動的に識別して除去し、その結果、層縮小のモデルとなる。 本手法は, 異なるデータセット上での圧縮と加速の優れた性能を実現し, 低プルーニング率の場合の再学習は不要である。 例えば、ResNet-110では、パラメータの55.5%を除去することで65.5%のFLOPを削減でき、CIFAR-10でトップ1の精度が0.13%しか失われていない。

In order to deploy deep convolutional neural networks (CNNs) on resource-limited devices, many model pruning methods for filters and weights have been developed, while only a few to layer pruning. However, compared with filter pruning and weight pruning, the compact model obtained by layer pruning has less inference time and run-time memory usage when the same FLOPs and number of parameters are pruned because of less data moving in memory. In this paper, we propose a simple layer pruning method using fusible residual convolutional block (ResConv), which is implemented by inserting shortcut connection with a trainable information control parameter into a single convolutional layer. Using ResConv structures in training can improve network accuracy and train deep plain networks, and adds no additional computation during inference process because ResConv is fused to be an ordinary convolutional layer after training. For layer pruning, we convert convolutional layers of network into ResConv with a layer scaling factor. In the training process, the L1 regularization is adopted to make the scaling factors sparse, so that unimportant layers are automatically identified and then removed, resulting in a model of layer reduction. Our pruning method achieves excellent performance of compression and acceleration over the state-of-the-arts on different datasets, and needs no retraining in the case of low pruning rate. For example, with ResNet-110, we achieve a 65.5%-FLOPs reduction by removing 55.5% of the parameters, with only a small loss of 0.13% in top-1 accuracy on CIFAR-10.
翻訳日:2021-06-07 09:03:02 公開日:2020-11-29
# 大規模3次元シーン理解のための深部3次元空間符号化の探索

Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene Understanding ( http://arxiv.org/abs/2011.14358v1 )

ライセンス: Link先を確認
Saqib Ali Khan, Yilei Shi, Muhammad Shahzad, Xiao Xiang Zhu(参考訳) 生の3D点雲のセマンティックセグメンテーションは3Dシーン解析において重要な要素であるが、主に3D点雲の非ユークリッド性のためにいくつかの課題が生じる。 しかし、そのほとんどが従来の畳み込みニューラルネットワーク(cnn)からの潜在的(グローバル)特徴表現を使うことに重点を置いており、空間情報の深刻な損失をもたらし、それによって基盤となる3dオブジェクトの形状のモデル化に失敗し、3dシーンのリモートセンシングにおいて重要な役割を果たす。 本稿では,生の3次元点雲の空間的特徴を非向対称グラフモデルにエンコードすることにより,cnnに基づくアプローチの限界を克服するための代替手法を提案する。 これらのエンコーディングは、従来のCNNから抽出された高次元特徴ベクトルと結合して、必要な3次元分割マップを出力する局所グラフ畳み込み演算子となる。 2つの標準ベンチマークデータセット(屋外空中リモートセンシングデータセットと屋内合成データセットを含む)について実験を行った。 提案手法は,訓練時間とモデルの安定性を向上し,同等の精度を実現し,3次元シーン理解のための一般化された最先端手法へのさらなる研究の可能性を示唆する。

Semantic segmentation of raw 3D point clouds is an essential component in 3D scene analysis, but it poses several challenges, primarily due to the non-Euclidean nature of 3D point clouds. Although, several deep learning based approaches have been proposed to address this task, but almost all of them emphasized on using the latent (global) feature representations from traditional convolutional neural networks (CNN), resulting in severe loss of spatial information, thus failing to model the geometry of the underlying 3D objects, that plays an important role in remote sensing 3D scenes. In this letter, we have proposed an alternative approach to overcome the limitations of CNN based approaches by encoding the spatial features of raw 3D point clouds into undirected symmetrical graph models. These encodings are then combined with a high-dimensional feature vector extracted from a traditional CNN into a localized graph convolution operator that outputs the required 3D segmentation map. We have performed experiments on two standard benchmark datasets (including an outdoor aerial remote sensing dataset and an indoor synthetic dataset). The proposed method achieves on par state-of-the-art accuracy with improved training time and model stability thus indicating strong potential for further research towards a generalized state-of-the-art method for 3D scene understanding.
翻訳日:2021-06-07 09:02:32 公開日:2020-11-29
# 肺CTの学習画像登録におけるボリューム変化の抑制

Constraining Volume Change in Learned Image Registration for Lung CTs ( http://arxiv.org/abs/2011.14372v1 )

ライセンス: Link先を確認
Alessa Hering, Stephanie H\"ager, Jan Moltz, Nikolas Lessmann, Stefan Heldmann and Bram van Ginneken(参考訳) ディープラーニングに基づく登録手法は,従来の登録方式の高速代替として出現した。 しかし、これらの手法は、小さな変形に制限されたり、大きな変形や小さな変形の重ね合わせに対処できず、内部に折りたたみのある目立たない変形場を生じさせることなく、従来の登録法と同等の性能を達成できないことが多い。 本稿では,従来の肺登録法の重要な戦略を特定し,深層学習法の開発に成功した。 我々は,gaussian-pyramid-ba sed multilevel frameworkを用いて画像登録の最適化を粗い方法で解決する。 さらに, 変形場の折り畳みを防止し, 損失関数における体積変化ペナルティと曲率調整器を組み合わせることにより, ヤコビアンを生理的に有意義な値に限定する。 キーポイント対応は、より小さな構造のアライメントに集中するために統合される。 我々は, 登録手法の精度, 頑健性, 推定変形場の可能性, 移動性を評価するため, 広範囲な評価を行った。 本研究は, COPDGeneデータセット上で, 従来の登録方式と比較して, より短い実行時間で, 結果のアーカイブを行うことを示す。

Deep-learning-based registration methods emerged as a fast alternative to conventional registration methods. However, these methods often still cannot achieve the same performance as conventional registration methods, because they are either limited to small deformation or they fail to handle a superposition of large and small deformations without producing implausible deformation fields with foldings inside. In this paper, we identify important strategies of conventional registration methods for lung registration and successfully developed the deep-learning counterpart. We employ a Gaussian-pyramid-bas ed multilevel framework that can solve the image registration optimization in a coarse-to-fine fashion. Furthermore, we prevent foldings of the deformation field and restrict the determinant of the Jacobian to physiologically meaningful values by combining a volume change penalty with a curvature regularizer in the loss function. Keypoint correspondences are integrated to focus on the alignment of smaller structures. We perform an extensive evaluation to assess the accuracy, the robustness, the plausibility of the estimated deformation fields, and the transferability of our registration approach. We show that it archives state-of-the-art results on the COPDGene dataset compared to the challenge winning conventional registration method with much shorter execution time.
翻訳日:2021-06-07 09:02:11 公開日:2020-11-29
# 文書画像の内在的分解

Intrinsic Decomposition of Document Images In-the-Wild ( http://arxiv.org/abs/2011.14447v1 )

ライセンス: Link先を確認
Sagnik Das, Hassan Ahmed Sial, Ke Ma, Ramon Baldrich, Maria Vanrell, Dimitris Samaras(参考訳) 自動文書コンテンツ処理は、紙の形状、不均一で多様な照明条件によって引き起こされるアーティファクトに影響される。 実データ上の完全な教師付きメソッドは、大量のデータを必要とするため不可能である。 したがって、アートディープラーニングモデルの現状は、完全にあるいは部分的に合成された画像で訓練される。 しかし、文書陰影やシェーディング除去の結果は、 (a) 従来の手法は局所的な色統計の均一性に依存しており、これは、複雑な文書形状とテクスチャを持つ実シナリオへの適用を制限するものであり、 (b) 非現実的でシミュレートされた照明条件を持つ合成またはハイブリッドデータセットは、モデルを訓練するために使用される。 本稿では,これらの課題を2つの大きな貢献で解決する。 第1に,本質的画像形成に基づく文書反射率を直接推定し,照明条件の課題に一般化する,物理的制約のある学習に基づく手法である。 第2に、さまざまな現実的なシェーディングと多様な多照度条件を追加して、従来の合成データを明確に改善する新しいデータセット。 提案アーキテクチャは, 合成テクスチャのみを弱い訓練信号として使用する自己教師型方式で機能する(シェーディングと反射の非絡み合いバージョンによる, 非常にコストのかかる真実の必要性を回避)。 提案手法は,現実のシーンにおける文書反射率推定の顕著な一般化につながる。 本研究は,本質的な画像分解および文書陰影除去作業に利用可能な実ベンチマークデータセットを広範囲に評価する。 ocrパイプラインの前処理ステップとして使用する際の反射率推定手法では,文字誤り率(cer)が26%向上し,実用性が実証された。

Automatic document content processing is affected by artifacts caused by the shape of the paper, non-uniform and diverse color of lighting conditions. Fully-supervised methods on real data are impossible due to the large amount of data needed. Hence, the current state of the art deep learning models are trained on fully or partially synthetic images. However, document shadow or shading removal results still suffer because: (a) prior methods rely on uniformity of local color statistics, which limit their application on real-scenarios with complex document shapes and textures and; (b) synthetic or hybrid datasets with non-realistic, simulated lighting conditions are used to train the models. In this paper we tackle these problems with our two main contributions. First, a physically constrained learning-based method that directly estimates document reflectance based on intrinsic image formation which generalizes to challenging illumination conditions. Second, a new dataset that clearly improves previous synthetic ones, by adding a large range of realistic shading and diverse multi-illuminant conditions, uniquely customized to deal with documents in-the-wild. The proposed architecture works in a self-supervised manner where only the synthetic texture is used as a weak training signal (obviating the need for very costly ground truth with disentangled versions of shading and reflectance). The proposed approach leads to a significant generalization of document reflectance estimation in real scenes with challenging illumination. We extensively evaluate on the real benchmark datasets available for intrinsic image decomposition and document shadow removal tasks. Our reflectance estimation scheme, when used as a pre-processing step of an OCR pipeline, shows a 26% improvement of character error rate (CER), thus, proving the practical applicability.
翻訳日:2021-06-07 09:01:33 公開日:2020-11-29
# カテゴリ簡易キーポイント検出の条件付きリンク予測

Conditional Link Prediction of Category-Implicit Keypoint Detection ( http://arxiv.org/abs/2011.14462v1 )

ライセンス: Link先を確認
Ellen Yi-Ge, Rui Fan, Zechun Liu, Zhiqiang Shen(参考訳) オブジェクトのキーポイントはその簡潔な抽象化を反映し、対応する接続リンク(CL)はキーポイント間の固有の関係を検出してスケルトンを構築する。 既存のアプローチは典型的には計算集約的であり、複数のクラスに属するインスタンスには適用できない。 上記の課題に対処するため,マルチクラスインスタンスの同時意味的キーポイント検出とCL再生のための最初のアプローチである,エンドツーエンドのキーポイントとリンク予測ネットワーク(KLPNet)を提案する。 KLPNetでは、予め定義されたカテゴリに付随するキーポイント間のリンク予測のために、新しい条件付きリンク予測グラフを提案する。 さらに、粗いキーポイントローカライゼーションのための特徴集約を探索するために、CKLM(Cross-stage Keypoint Localization Module)を導入する。 3つの公開ベンチマークで実施された総合的な実験は、我々のKLPNetが他の最先端のアプローチよりも一貫して優れていることを示している。 さらに, CL予測実験の結果から, 閉塞問題に対するKLPNetの有効性が示された。

Keypoints of objects reflect their concise abstractions, while the corresponding connection links (CL) build the skeleton by detecting the intrinsic relations between keypoints. Existing approaches are typically computationally-inte nsive, inapplicable for instances belonging to multiple classes, and/or infeasible to simultaneously encode connection information. To address the aforementioned issues, we propose an end-to-end category-implicit Keypoint and Link Prediction Network (KLPNet), which is the first approach for simultaneous semantic keypoint detection (for multi-class instances) and CL rejuvenation. In our KLPNet, a novel Conditional Link Prediction Graph is proposed for link prediction among keypoints that are contingent on a predefined category. Furthermore, a Cross-stage Keypoint Localization Module (CKLM) is introduced to explore feature aggregation for coarse-to-fine keypoint localization. Comprehensive experiments conducted on three publicly available benchmarks demonstrate that our KLPNet consistently outperforms all other state-of-the-art approaches. Furthermore, the experimental results of CL prediction also show the effectiveness of our KLPNet with respect to occlusion problems.
翻訳日:2021-06-07 09:00:35 公開日:2020-11-29
# ラベルシフト下の領域適応における重み付け量の推定と一般化

Importance Weight Estimation and Generalization in Domain Adaptation under Label Shift ( http://arxiv.org/abs/2011.14251v1 )

ライセンス: Link先を確認
Kamyar Azizzadenesheli(参考訳) 本研究では,学習者が対象領域からラベル付きサンプルにアクセス可能な領域適応におけるラベルシフトの下での一般化について検討する。 以前の作業ではラベル分類器をデプロイし、ソースからターゲットドメインへの重み付けを見積もるために様々な方法を導入する。 彼らはこれらの推定値を重み付けされた経験的リスク最小化で分類器を学習する。 本研究では,従来の手法を理論的に比較し,その強い仮定を緩和し,ラベル分類器から一般関数へ一般化する。 この後者の一般化は、フォワード作用素のスペクトルをより広く活用することで、誘導された逆問題に対する逆作用素の条件付けを改善する。 ラベルシフトの研究における先行研究は分類ラベル空間に限られている。 本研究では,任意のノルムラベル空間に対する重み関数の重要性を推定する一連の手法を提案する。 ラベル上で定義される(共変量ではなく)ヒルベルト空間間の新しい作用素学習手法を導入し、コンパクト作用素の摂動逆問題を引き起こすことを示す。 摂動の存在下で逆問題を解くための新しい手法を提案する。 このような問題は偏微分方程式や強化学習でよく発生するため、この解析は独自の関心を持っている。 圏と一般ノルム空間の両方に対して、提案された推定量に対して濃度境界を与える。 Rademacher複雑性に基づく既存の一般化解析、R'enyi divergence、MDFR lemma in Azizzadenesheli et al。 [2019]では、重要度重み付けされた実験的リスク最小化の一般化特性を示す。

We study generalization under label shift in domain adaptation where the learner has access to labeled samples from the source domain but unlabeled samples from the target domain. Prior works deploy label classifiers and introduce various methods to estimate the importance weights from source to target domains. They use these estimates in importance weighted empirical risk minimization to learn classifiers. In this work, we theoretically compare the prior approaches, relax their strong assumptions, and generalize them from requiring label classifiers to general functions. This latter generalization improves the conditioning on the inverse operator of the induced inverse problems by allowing for broader exploitation of the spectrum of the forward operator. The prior works in the study of label shifts are limited to categorical label spaces. In this work, we propose a series of methods to estimate the importance weight functions for arbitrary normed label spaces. We introduce a new operator learning approach between Hilbert spaces defined on labels (rather than covariates) and show that it induces a perturbed inverse problem of compact operators. We propose a novel approach to solve the inverse problem in the presence of perturbation. This analysis has its own independent interest since such problems commonly arise in partial differential equations and reinforcement learning. For both categorical and general normed spaces, we provide concentration bounds for the proposed estimators. Using the existing generalization analysis based on Rademacher complexity, R\'enyi divergence, and MDFR lemma in Azizzadenesheli et al. [2019], we show the generalization property of the importance weighted empirical risk minimization on the unseen target domain.
翻訳日:2021-06-07 09:00:17 公開日:2020-11-29
# 複数学習回帰モデルのためのアクティブアウトプット選択戦略

Active Output Selection Strategies for Multiple Learning Regression Models ( http://arxiv.org/abs/2011.14307v1 )

ライセンス: Link先を確認
Adrian Prochaska and Julien Pillas and Bernard B\"aker(参考訳) アクティブラーニングはモデルベースドレイバビリティキャリブレーションにおけるテストベンチ時間の短縮を約束している。 本稿では,キャリブレーションタスクのニーズに合わせて,アクティブな出力選択のための新しい戦略を提案する。 戦略は同じ入力空間で複数の出力を積極的に学習する。 高いクロスバリデーションエラーをリードとして出力モデルを選択する。 提案手法は,実世界範囲のノイズを伴う3つの異なる玩具例と,ベンチマークデータセットに適用する。 結果は分析され、他の既存の戦略と比較される。 最良のシナリオでは、提示された戦略は、他の既存のアクティブな学習戦略を上回りながら、逐次的な空間充足設計と比較してポイント数を最大30%削減することができる。 結果は有望だが,雑音環境に対するロバスト性を高めるためにはアルゴリズムの改善が必要であることも示している。 さらなる研究は、アルゴリズムの改善と現実世界の例に適用に焦点をあてる。

Active learning shows promise to decrease test bench time for model-based drivability calibration. This paper presents a new strategy for active output selection, which suits the needs of calibration tasks. The strategy is actively learning multiple outputs in the same input space. It chooses the output model with the highest cross-validation error as leading. The presented method is applied to three different toy examples with noise in a real world range and to a benchmark dataset. The results are analyzed and compared to other existing strategies. In a best case scenario, the presented strategy is able to decrease the number of points by up to 30% compared to a sequential space-filling design while outperforming other existing active learning strategies. The results are promising but also show that the algorithm has to be improved to increase robustness for noisy environments. Further research will focus on improving the algorithm and applying it to a real-world example.
翻訳日:2021-06-07 08:59:51 公開日:2020-11-29
# 複数行動ポリシーを用いたオフポリシィ評価のための最適混合重量

Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior Policies ( http://arxiv.org/abs/2011.14359v1 )

ライセンス: Link先を確認
Jinlin Lai, Lixin Zou, Jiaxing Song(参考訳) オフポリシー評価は、行動ポリシーから収集したオフラインデータを用いてターゲットポリシーを評価する強化学習の重要な要素である。 安全強化学習への重要なステップであり、広告やレコメンデーションシステムなど、多くのアプリケーションで使用されている。 これらのアプリケーションでは、オフラインデータは複数の行動ポリシーから収集されることがある。 以前の研究では、異なる行動ポリシーからのデータを等しく扱う。 それでも、いくつかの行動方針は優れた推定器を作り出すのに優れているが、他の政策はそうではない。 本稿では,行動ポリシーの異なる推定器を正しく混合する方法について論じる。 我々は,すべてのサブ推定器が偏りのない場合や漸近的に偏りのない場合,混合推定器の分散を減少させる3つの方法を提案する。 さらに,シミュレーションリコメンデータシステムを用いた実験により,提案手法は推定平均二乗誤差の低減に有効であることが示された。

Off-policy evaluation is a key component of reinforcement learning which evaluates a target policy with offline data collected from behavior policies. It is a crucial step towards safe reinforcement learning and has been used in advertisement, recommender systems and many other applications. In these applications, sometimes the offline data is collected from multiple behavior policies. Previous works regard data from different behavior policies equally. Nevertheless, some behavior policies are better at producing good estimators while others are not. This paper starts with discussing how to correctly mix estimators produced by different behavior policies. We propose three ways to reduce the variance of the mixture estimator when all sub-estimators are unbiased or asymptotically unbiased. Furthermore, experiments on simulated recommender systems show that our methods are effective in reducing the Mean-Square Error of estimation.
翻訳日:2021-06-07 08:59:38 公開日:2020-11-29
# リカレントニューラルネットワークによる局所ロカスト群分布の予測

Predicting Regional Locust Swarm Distribution with Recurrent Neural Networks ( http://arxiv.org/abs/2011.14371v1 )

ライセンス: Link先を確認
Hadia Mohmmed Osman Ahmed Samil, Annabelle Martin, Arnav Kumar Jain, Susan Amin and Samira Ebrahimi Kahou(参考訳) アフリカ、アジア、中東を含む世界の一部の地域での流行は、何百万人もの人々の健康と生活に影響を与える可能性がある問題となっている。 この点に関して、衛星やセンサーを用いたロカスト繁殖領域の検出とモニタリング、あるいは群れの形成を防ぐための化学物質の使用により、この問題の深刻さを解消または軽減する試みがある。 しかし,このような手法はロカストの出現や集団行動を抑えることはできなかった。 一方、形成前にロカスト群の位置を予測できる能力は、人々がより効果的に感染の問題を準備し対処するのに役立ちます。 ここでは、国連食糧農業機関が公表した利用可能なデータを用いて、機械学習を用いてロカスト群の位置を予測する。 データは、観測された群れの位置と、土壌の水分や植生の密度を含む環境情報を含んでいる。 得られた結果から,提案モデルでは,ロカスト群の位置を精度良く予測できるだけでなく,密度の概念による損傷の程度も予測できることがわかった。

Locust infestation of some regions in the world, including Africa, Asia and Middle East has become a concerning issue that can affect the health and the lives of millions of people. In this respect, there have been attempts to resolve or reduce the severity of this problem via detection and monitoring of locust breeding areas using satellites and sensors, or the use of chemicals to prevent the formation of swarms. However, such methods have not been able to suppress the emergence and the collective behaviour of locusts. The ability to predict the location of the locust swarms prior to their formation, on the other hand, can help people get prepared and tackle the infestation issue more effectively. Here, we use machine learning to predict the location of locust swarms using the available data published by the Food and Agriculture Organization of the United Nations. The data includes the location of the observed swarms as well as environmental information, including soil moisture and the density of vegetation. The obtained results show that our proposed model can successfully, and with reasonable precision, predict the location of locust swarms, as well as their likely level of damage using a notion of density.
翻訳日:2021-06-07 08:59:26 公開日:2020-11-29
# オフライン強化学習ハンズオン

Offline Reinforcement Learning Hands-On ( http://arxiv.org/abs/2011.14379v1 )

ライセンス: Link先を確認
Louis Monier, Jakub Kmec, Alexandre Laterre, Thomas Pierrot, Valentin Courgeau, Olivier Sigaud and Karim Beguir(参考訳) オフライン強化学習(RL)は、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。 この大きな約束は、RLがシミュレーション設定で経験した成功を再現したいと考えている多くの研究の動機となった。 この仕事は、実践者の視点からこれらの取り組みを反映する野心がある。 まず、最も成功したオフラインメソッドのタイプを特徴付けることができると仮定するデータセットプロパティについて議論する。 次に、これらの主張を一連の実験を通して検証し、離散的かつ連続的なアクション空間を持つ環境から生成されたデータセットを設計する。 データの多様性と高復帰例がオフラインRLの成功に不可欠であることを実験的に検証し、現在よりも行動的クローンが強力な競合相手であることを示す。 全体として、この作業は、今日のオフラインのRLメソッドとその適用性に関する直感の構築を支援するためのチュートリアルである。

Offline Reinforcement Learning (RL) aims to turn large datasets into powerful decision-making engines without any online interactions with the environment. This great promise has motivated a large amount of research that hopes to replicate the success RL has experienced in simulation settings. This work ambitions to reflect upon these efforts from a practitioner viewpoint. We start by discussing the dataset properties that we hypothesise can characterise the type of offline methods that will be the most successful. We then verify these claims through a set of experiments and designed datasets generated from environments with both discrete and continuous action spaces. We experimentally validate that diversity and high-return examples in the data are crucial to the success of offline RL and show that behavioural cloning remains a strong contender compared to its contemporaries. Overall, this work stands as a tutorial to help people build their intuition on today's offline RL methods and their applicability.
翻訳日:2021-06-07 08:59:05 公開日:2020-11-29
# オブジェクト中心表現を用いた自己教師付き視覚強化学習

Self-supervised Visual Reinforcement Learning with Object-centric Representations ( http://arxiv.org/abs/2011.14381v1 )

ライセンス: Link先を確認
Andrii Zadaianchuk, Maximilian Seitzer, Georg Martius(参考訳) 自律エージェントは、これまで見たことのない新しいタスクで合理的に振る舞うために、大きなスキルのレパートリーを必要とします。 しかし、これらのスキルは、高次元、非構造、ラベルなしの観察ストリームのみを使用して取得することは、自律エージェントにとって難しい課題である。 以前の手法では変分オートエンコーダを使用してシーンを低次元ベクトルに符号化し、エージェントが新しいスキルを発見するための目標として使用できる。 それでも、構成的/多重対象環境においては、すべての要因をシーン全体の固定長表現に分解することは困難である。 合成生成世界モデルを用いて学習したモジュラー・構造化された観測空間としてオブジェクト中心表現を用いることを提案する。 目標条件付注意政策と組み合わせた表現の構造は,自律エージェントが有用なスキルを発見し,学習するのに役立つことを示す。 これらのスキルは、いくつかの異なるオブジェクトの操作のような構成的なタスクにさらに組み合わせることができる。

Autonomous agents need large repertoires of skills to act reasonably on new tasks that they have not seen before. However, acquiring these skills using only a stream of high-dimensional, unstructured, and unlabeled observations is a tricky challenge for any autonomous agent. Previous methods have used variational autoencoders to encode a scene into a low-dimensional vector that can be used as a goal for an agent to discover new skills. Nevertheless, in compositional/multi- object environments it is difficult to disentangle all the factors of variation into such a fixed-length representation of the whole scene. We propose to use object-centric representations as a modular and structured observation space, which is learned with a compositional generative world model. We show that the structure in the representations in combination with goal-conditioned attention policies helps the autonomous agent to discover and learn useful skills. These skills can be further combined to address compositional tasks like the manipulation of several different objects.
翻訳日:2021-06-07 08:58:52 公開日:2020-11-29
# 新型コロナウイルスの自動検出のための胸部X線画像に人工知能を適用する。 思慮深い評価アプローチ

Artificial Intelligence applied to chest X-Ray images for the automatic detection of COVID-19. A thoughtful evaluation approach ( http://arxiv.org/abs/2011.14259v1 )

ライセンス: Link先を確認
Julian D. Arias-Londo\~no, Jorge A. Gomez-Garcia, Laureano Moro-Velazquez, Juan I. Godino-Llorente(参考訳) 新型コロナウイルスの診断に使用される現在の標準プロトコルには、分子または抗原検査が含まれており、通常は平たい胸部X線で補完される。 この組み合わせ分析は、これらの検査のかなりの数の偽陰性を減らし、また疾患の存在と重症度に関する補完的な証拠を提供することを目的としている。 しかし、この手順には誤りはなく、胸部x線解釈はその複雑さのため、放射線科医にのみ制限されている。 本稿では,この診断の新たなエビデンスを提供するための長期的目標として,深層ニューラルネットワークに基づく異なる手法の評価を提案する。 これらは、胸部x線画像を用いた新型コロナウイルスの自動診断ツールを開発する最初のステップであり、コントロール、肺炎、およびcovid-19グループを区別する。 論文は、さまざまなソースからコンパイルされた79,500以上のx線画像のデータセットで畳み込みニューラルネットワークをトレーニングするためのプロセスについて説明している。 モデルの評価と比較のために、3つの前処理方式で3つの異なる実験を行った。 目的は、データの事前処理が結果に与える影響を評価し、その説明可能性を改善することである。 同様に、システムと性能への影響を損なう可能性のある様々な変数の問題について、批判的な分析が行われる。 採用法では、91.5%の分類精度が得られ、最低でも最も説明可能な実験は87.4%の平均的リコールで、以前の肺領域の自動分節を必要とする。

Current standard protocols used in the clinic for diagnosing COVID-19 include molecular or antigen tests, generally complemented by a plain chest X-Ray. The combined analysis aims to reduce the significant number of false negatives of these tests, but also to provide complementary evidence about the presence and severity of the disease. However, the procedure is not free of errors, and the interpretation of the chest X-Ray is only restricted to radiologists due to its complexity. With the long term goal to provide new evidence for the diagnosis, this paper presents an evaluation of different methods based on a deep neural network. These are the first steps to develop an automatic COVID-19 diagnosis tool using chest X-Ray images, that would additionally differentiate between controls, pneumonia or COVID-19 groups. The paper describes the process followed to train a Convolutional Neural Network with a dataset of more than 79,500 X-Ray images compiled from different sources, including more than 8,500 COVID-19 examples. For the sake of evaluation and comparison of the models developed, three different experiments were carried out following three preprocessing schemes. The aim is to evaluate how preprocessing the data affects the results and improves its explainability. Likewise, a critical analysis is carried out about different variability issues that might compromise the system and the effects on the performance. With the employed methodology, a 91.5% classification accuracy is obtained, with a 87.4% average recall for the worst but most explainable experiment, which requires a previous automatic segmentation of the lungs region.
翻訳日:2021-06-07 08:58:37 公開日:2020-11-29
# 自己注意を伴う点雲のより深い、より広いネットワーク?

Deeper or Wider Networks of Point Clouds with Self-attention? ( http://arxiv.org/abs/2011.14285v1 )

ライセンス: Link先を確認
Haoxi Ran, Li Lu(参考訳) セルフ・アテンションによる深いネットワークの普及は、未熟なポイントベース手法とは全く対照的である。 本稿では,ネットワーク構築のための基本ブロックとしてグループ的自己意識を提案する: SepNet。 提案モジュールは,ローカルおよびグローバル両方の依存関係を効果的にキャプチャする。 このモジュールは、グループ内の任意の点の重み付けされた特徴の和に基づいて、グループの特徴を計算する。 利便性のため、このモジュールを組み立てるためにグループ操作を一般化する。 ネットワークをさらに促進するため、セグメンテーションと分類のタスクについてSepNetを深く拡張し、その実用性を検証する。 特にsepnetは、ほとんどのデータセットの分類とセグメンテーションのタスクの最先端を実現する。 SepNetは, 幅や深さの増大により, 分類やセグメンテーションの精度が向上することを示す。

Prevalence of deeper networks driven by self-attention is in stark contrast to underexplored point-based methods. In this paper, we propose groupwise self-attention as the basic block to construct our network: SepNet. Our proposed module can effectively capture both local and global dependencies. This module computes the features of a group based on the summation of the weighted features of any point within the group. For convenience, we generalize groupwise operations to assemble this module. To further facilitate our networks, we deepen and widen SepNet on the tasks of segmentation and classification respectively, and verify its practicality. Specifically, SepNet achieves state-of-the-art for the tasks of classification and segmentation on most of the datasets. We show empirical evidence that SepNet can obtain extra accuracy in classification or segmentation from increased width or depth, respectively.
翻訳日:2021-06-07 08:57:50 公開日:2020-11-29
# 衛星画像用スイッチ型ハイブリッドネットワークを用いた単一画像超解像

Single Image Super-resolution with a Switch Guided Hybrid Network for Satellite Images ( http://arxiv.org/abs/2011.14380v1 )

ライセンス: Link先を確認
Shreya Roy, Anirban Chakraborty (Indian Institute of Science, Bangalore)(参考訳) 衛星画像の主な欠点は低解像度であり、低解像度は衛星画像に存在する物体を特定するのを困難にしている。 我々は,spacenetデータセット上で単一画像の超解像が可能な深層モデルをいくつか実験し,衛星画像データにおける各画像の性能評価を行った。 この数年間、SISRの文脈における深層モデルの最近の進化を掘り下げ、これらのモデルの比較研究を示す。 エリアの衛星画像全体は等サイズのパッチに分割される。 各パッチは独立してトレーニングに使用される。 これらのパッチは本質的に異なります。 例えば、都市部のパッチには、車、建物、道路など、さまざまな種類のオブジェクトがあるため、非均質な背景があります。 一方、ジャングル上のパッチは自然界においてより均質である。 したがって、異なるディープモデルが異なる種類のパッチに適合する。 本研究では,スイッチング畳み込みネットワークの助けを借りて,この問題をさらに探究する。 そのアイデアは、パッチを最も適した1つのカテゴリに自動的に分類するスイッチ分類器をトレーニングすることだ。

The major drawbacks with Satellite Images are low resolution, Low resolution makes it difficult to identify the objects present in Satellite images. We have experimented with several deep models available for Single Image Superresolution on the SpaceNet dataset and have evaluated the performance of each of them on the satellite image data. We will dive into the recent evolution of the deep models in the context of SISR over the past few years and will present a comparative study between these models. The entire Satellite image of an area is divided into equal-sized patches. Each patch will be used independently for training. These patches will differ in nature. Say, for example, the patches over urban areas have non-homogeneous backgrounds because of different types of objects like vehicles, buildings, roads, etc. On the other hand, patches over jungles will be more homogeneous in nature. Hence, different deep models will fit on different kinds of patches. In this study, we will try to explore this further with the help of a Switching Convolution Network. The idea is to train a switch classifier that will automatically classify a patch into one category of models best suited for it.
翻訳日:2021-06-07 08:57:11 公開日:2020-11-29
# RGBD-Net:新しいビュー合成のための色と深度画像の予測

RGBD-Net: Predicting color and depth images for novel views synthesis ( http://arxiv.org/abs/2011.14398v1 )

ライセンス: Link先を確認
Phong Nguyen, Animesh Karnewar, Lam Huynh, Esa Rahtu, Jiri Matas, Janne Heikkila(参考訳) 本稿では,非構造化参照画像からの新規ビュー合成の問題に対処する。 rgbd-netと呼ばれる新しい手法により、深度マップとターゲットのカラーイメージをマルチスケールで予測する。 参照ビューはターゲットのポーズにワープされ、マルチスケールの平面スイープボリュームを取得し、その後、新しいビューの深さマップを予測する階層的な深度回帰ネットワークである第1モジュールに渡される。 第二に、深度対応ジェネレータネットワークは、歪んだ新規ビューを洗練し、最終ターゲットイメージをレンダリングする。 これら2つのネットワークは、深度監視の有無に関わらずトレーニングすることができる。 実験評価において,RGBD-Netは従来の最先端手法よりも高品質な新規なビューを生成するだけでなく,得られた深度マップにより,既存のマルチビューステレオ方式よりも高精度な3次元点雲の再構成を可能にする。 その結果、rgbd-netは、未発見のデータに対して十分に一般化していることが示された。

We address the problem of novel view synthesis from an unstructured set of reference images. A new method called RGBD-Net is proposed to predict the depth map and the color images at the target pose in a multi-scale manner. The reference views are warped to the target pose to obtain multi-scale plane sweep volumes, which are then passed to our first module, a hierarchical depth regression network which predicts the depth map of the novel view. Second, a depth-aware generator network refines the warped novel views and renders the final target image. These two networks can be trained with or without depth supervision. In experimental evaluation, RGBD-Net not only produces novel views with higher quality than the previous state-of-the-art methods, but also the obtained depth maps enable reconstruction of more accurate 3D point clouds than the existing multi-view stereo methods. The results indicate that RGBD-Net generalizes well to previously unseen data.
翻訳日:2021-06-07 08:56:56 公開日:2020-11-29
# スマートビデオサーベイランスによるスマートシティにおけるクリティカルインフラストラクチャ保護のための再構成可能なサイバー物理システム

Reconfigurable Cyber-Physical System for Critical Infrastructure Protection in Smart Cities via Smart Video-Surveillance ( http://arxiv.org/abs/2011.14416v1 )

ライセンス: Link先を確認
Juan Isern, Francisco Barranco, Daniel Deniz, Juho Lesonen, Jari Hannuksela, Richard R. Carrillo(参考訳) 自動化された監視は、将来のスマートシティにおけるクリティカルインフラストラクチャ(CI)の保護に不可欠である。 動的環境と帯域幅要求は、関心のあるイベントが発生したときに反応するシステムを要求する。 分散クラウドエッジスマートビデオ監視を用いたCI保護のための再構成可能なサイバー物理システムを提案する。 ローカルエッジノードは、Deep Learningを介して人検出を行います。 処理はハイパフォーマンスなsoc(system-on-chip)に埋め込まれ、リアルタイムのパフォーマンスを実現し(約100fps - フレーム/秒)、より少ないフレームレートでより多くのカメラソースのビデオストリームを効率的に管理できる。 cloud serverは、生体認証、追跡、周囲監視を行うために、ノードから結果を収集する。 Quality and Resource Managementモジュールは、データ帯域幅を監視し、送信されたビデオ解像度に適応した再構成をトリガーする。 これにより、生体認証の精度を維持しつつ、複数のカメラによるネットワークの柔軟な利用が可能になる。 実例では、無再構成シナリオに対する帯域幅使用量の約75\%削減を示す。

Automated surveillance is essential for the protection of Critical Infrastructures (CIs) in future Smart Cities. The dynamic environments and bandwidth requirements demand systems that adapt themselves to react when events of interest occur. We present a reconfigurable Cyber Physical System for the protection of CIs using distributed cloud-edge smart video surveillance. Our local edge nodes perform people detection via Deep Learning. Processing is embedded in high performance SoCs (System-on-Chip) achieving real-time performance ($\approx$ 100 fps - frames per second) which enables efficiently managing video streams of more cameras source at lower frame rate. Cloud server gathers results from nodes to carry out biometric facial identification, tracking, and perimeter monitoring. A Quality and Resource Management module monitors data bandwidth and triggers reconfiguration adapting the transmitted video resolution. This also enables a flexible use of the network by multiple cameras while maintaining the accuracy of biometric identification. A real-world example shows a reduction of $\approx$ 75\% bandwidth use with respect to the no-reconfiguration scenario.
翻訳日:2021-06-07 08:56:38 公開日:2020-11-29
# 医用画像生成によるデータ共有の障壁を克服する:包括的評価

Overcoming Barriers to Data Sharing with Medical Image Generation: A Comprehensive Evaluation ( http://arxiv.org/abs/2012.03769v1 )

ライセンス: Link先を確認
August DuMont Sch\"utte, J\"urgen Hetzel, Sergios Gatidis, Tobias Hepp, Benedikt Dietz, Stefan Bauer and Patrick Schwab(参考訳) 個人識別可能な情報の共有に関するプライバシー上の懸念は、医学研究におけるデータ共有の大きな障壁である。 しかし、多くの場合、研究者は特定の個人の情報に興味がなく、むしろコホートレベルでの洞察を導き出そうとしている。 本稿では、GAN(Generative Adversarial Networks)を用いて、合成患者データからなる医用画像データセットを作成する。 合成画像は、理想的には、ソースデータセットと類似した統計特性を持つが、機密性の高い個人情報は含まない。 胸部x線写真における2種類のganモデルによる合成データの品質について検討し,14種類の放射線画像と6種類の頭蓋内出血を伴う脳ctスキャンについて検討した。 合成データと実データの両方で訓練された予測モデルの性能差から合成画像品質を測定する。 合成データの性能は,一意のラベルの組み合わせを減らし,クラスごとの過剰適合効果がGANトレーニングに支配的になるかどうかを判断する。 オープンソースベンチマークの結果は、合成データ生成が空間分解能の高レベルから恩恵を受けることを示唆している。 また,データモダリティを統計的に有意な範囲で合成画像と実際の医用画像の判別において,訓練された放射線技師がランダムに評価しない読者調査を行った。 本研究は, 医用画像から得られた洞察が, 実際の画像データから得られたものと類似しているという実践的条件を概説し, 有用なガイドラインを提供する。 以上の結果から, 人工的データ共有は, 患者レベルのデータを適切な設定で共有するよりも, 魅力的かつプライバシ保護的な手段である可能性が示唆された。

Privacy concerns around sharing personally identifiable information are a major practical barrier to data sharing in medical research. However, in many cases, researchers have no interest in a particular individual's information but rather aim to derive insights at the level of cohorts. Here, we utilize Generative Adversarial Networks (GANs) to create derived medical imaging datasets consisting entirely of synthetic patient data. The synthetic images ideally have, in aggregate, similar statistical properties to those of a source dataset but do not contain sensitive personal information. We assess the quality of synthetic data generated by two GAN models for chest radiographs with 14 different radiology findings and brain computed tomography (CT) scans with six types of intracranial hemorrhages. We measure the synthetic image quality by the performance difference of predictive models trained on either the synthetic or the real dataset. We find that synthetic data performance disproportionately benefits from a reduced number of unique label combinations and determine at what number of samples per class overfitting effects start to dominate GAN training. Our open-source benchmark findings also indicate that synthetic data generation can benefit from higher levels of spatial resolution. We additionally conducted a reader study in which trained radiologists do not perform better than random on discriminating between synthetic and real medical images for both data modalities to a statistically significant extent. Our study offers valuable guidelines and outlines practical conditions under which insights derived from synthetic medical images are similar to those that would have been derived from real imaging data. Our results indicate that synthetic data sharing may be an attractive and privacy-preserving alternative to sharing real patient-level data in the right settings.
翻訳日:2021-06-07 08:56:23 公開日:2020-11-29
# グラフ畳み込みネットワークにおける汎用的攻撃

A Targeted Universal Attack on Graph Convolutional Network ( http://arxiv.org/abs/2011.14365v1 )

ライセンス: Link先を確認
Jiazhu Dai, Weifeng Zhu, Xiangfeng Luo(参考訳) グラフ構造化データは、現実の多くのアプリケーションに存在する。 最先端のグラフニューラルネットワークとして、グラフ畳み込みネットワーク(GCN)は、グラフ構造化データの処理において重要な役割を果たす。 しかし、最近の研究では、GCNは敵の攻撃にも弱いことが報告されており、これはGCNモデルがデータに目立たない変更を加えると悪意のある攻撃を受ける可能性があることを意味している。 gcnに対するすべての敵の攻撃の中で、universal adversarial attackと呼ばれる特殊な攻撃方法があり、任意のサンプルに適用可能な摂動を生成し、gcnモデルが不正確な結果を出力する。 コンピュータビジョンにおける普遍的敵攻撃は広く研究されているが、グラフ構造データに対する普遍的敵攻撃に関する研究は少ない。 本稿では,GCNに対する汎用的攻撃を提案する。 本手法は攻撃ノードとしていくつかのノードを用いる。 攻撃ノードの攻撃能力は、接続された少数の偽ノードを通じて強化される。 攻撃中、任意の犠牲者ノードは、GCNによってそれらにリンクされている限り、攻撃ノードクラスとして誤って分類される。 3つの一般的なデータセットに対する実験では、3つの攻撃ノードと6つの偽ノードのみを使用すると、グラフ内の任意の犠牲者ノードに対する攻撃が平均83%に達することが示されている。 我々は、このタイプの攻撃の脅威をコミュニティに認識させ、将来の防衛に向けられた注意を喚起することを期待している。

Graph-structured data exist in numerous applications in real life. As a state-of-the-art graph neural network, the graph convolutional network (GCN) plays an important role in processing graph-structured data. However, a recent study reported that GCNs are also vulnerable to adversarial attacks, which means that GCN models may suffer malicious attacks with unnoticeable modifications of the data. Among all the adversarial attacks on GCNs, there is a special kind of attack method called the universal adversarial attack, which generates a perturbation that can be applied to any sample and causes GCN models to output incorrect results. Although universal adversarial attacks in computer vision have been extensively researched, there are few research works on universal adversarial attacks on graph structured data. In this paper, we propose a targeted universal adversarial attack against GCNs. Our method employs a few nodes as the attack nodes. The attack capability of the attack nodes is enhanced through a small number of fake nodes connected to them. During an attack, any victim node will be misclassified by the GCN as the attack node class as long as it is linked to them. The experiments on three popular datasets show that the average attack success rate of the proposed attack on any victim node in the graph reaches 83% when using only 3 attack nodes and 6 fake nodes. We hope that our work will make the community aware of the threat of this type of attack and raise the attention given to its future defense.
翻訳日:2021-06-07 08:55:57 公開日:2020-11-29
# 対角的視覚表現を用いた音声・視覚音声分離

Audio-visual Speech Separation with Adversarially Disentangled Visual Representation ( http://arxiv.org/abs/2011.14334v1 )

ライセンス: Link先を確認
Peng Zhang, Jiaming Xu, Jing shi, Yunzhe Hao, Bo Xu(参考訳) 音声分離は、複数の同時話者の音声混合から個々の音声を分離することを目的としている。 オーディオのみのアプローチは十分な性能を発揮するが、事前定義された条件を扱う戦略を構築し、複雑な聴覚シーンでの使用を制限する。 カクテルパーティ問題に向けて,新しい音声・視覚音声分離モデルを提案する。 本モデルでは,顔検出器を用いてシーン内の話者数を検知し,視覚情報を用いて順列問題を回避する。 未知話者に対するモデルの一般化能力を向上させるため,逆アンタングル法による視覚入力から音声関連視覚特徴を抽出し,この特徴を用いて音声分離を支援する。 さらに、時間領域アプローチを採用することで、時間周波数ドメインモデルに存在する位相再構成の問題を回避することができる。 モデルの性能を他のモデルと比較するため、GRIDとTCDTIMITのオーディオ・ビジュアル・データセットから2話者混合のベンチマークデータセットを作成する。 実験により,提案モデルが最先端の音声のみのモデルと3つのオーディオ視覚モデルより優れていることを示す。

Speech separation aims to separate individual voice from an audio mixture of multiple simultaneous talkers. Although audio-only approaches achieve satisfactory performance, they build on a strategy to handle the predefined conditions, limiting their application in the complex auditory scene. Towards the cocktail party problem, we propose a novel audio-visual speech separation model. In our model, we use the face detector to detect the number of speakers in the scene and use visual information to avoid the permutation problem. To improve our model's generalization ability to unknown speakers, we extract speech-related visual features from visual inputs explicitly by the adversarially disentangled method, and use this feature to assist speech separation. Besides, the time-domain approach is adopted, which could avoid the phase reconstruction problem existing in the time-frequency domain models. To compare our model's performance with other models, we create two benchmark datasets of 2-speaker mixture from GRID and TCDTIMIT audio-visual datasets. Through a series of experiments, our proposed model is shown to outperform the state-of-the-art audio-only model and three audio-visual models.
翻訳日:2021-06-07 08:55:27 公開日:2020-11-29
# 新型コロナウイルス(covid-19)の音声・音声・言語・信号処理

Audio, Speech, Language, & Signal Processing for COVID-19: A Comprehensive Overview ( http://arxiv.org/abs/2011.14445v1 )

ライセンス: Link先を確認
Gauri Deshpande, Bj\"orn W. Schuller(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが2020年の世界的研究の中心となっている。 新型コロナウイルス患者のデータ収集からウイルス検出のための検査まで、いくつかの取り組みが厳格に行われている。 新型コロナウイルスの症状の大部分は、人間の音声生成システムに重要な影響を与える呼吸器系の機能に関連している。 これにより、covid-19のマーカーを音声や他の人間が生成した音声信号で識別する研究が進められている。 本稿では,人工知能を用いた音声およびその他の音声信号,言語,一般信号処理に基づく作業の概要について述べる。 また、これまでに行われた新型コロナウイルスの症状の一致を検出するための研究についても簡単に説明します。 私たちは、この集団的な情報が、covid-19のコンテキストにおいて、音声、音声、言語といった非強迫的かつ使いやすいモダリティを使用して役立つ自動システムの開発に有用であると確信しています。

The Coronavirus (COVID-19) pandemic has been the research focus world-wide in the year 2020. Several efforts, from collection of COVID-19 patients' data to screening them for the virus's detection are taken with rigour. A major portion of COVID-19 symptoms are related to the functioning of the respiratory system, which in-turn critically influences the human speech production system. This drives the research focus towards identifying the markers of COVID-19 in speech and other human generated audio signals. In this paper, we give an overview of the speech and other audio signal, language and general signal processing-based work done using Artificial Intelligence techniques to screen, diagnose, monitor, and spread the awareness aboutCOVID-19. We also briefly describe the research related to detect accord-ing COVID-19 symptoms carried out so far. We aspire that this collective information will be useful in developing automated systems, which can help in the context of COVID-19 using non-obtrusive and easy to use modalities such as audio, speech, and language.
翻訳日:2021-06-07 08:54:56 公開日:2020-11-29
# センサデータと機械学習を用いたビデオゲームプレーヤーのバーンアウト検出

Detecting Video Game Player Burnout with the Use of Sensor Data and Machine Learning ( http://arxiv.org/abs/2012.02299v1 )

ライセンス: Link先を確認
Anton Smerdov, Andrey Somov, Evgeny Burnaev, Bo Zhou, Paul Lukowicz(参考訳) eSportsの現在の研究は、適切なゲーム練習とパフォーマンス分析のためのツールが欠けている。 以前の作業の大半は、プレイヤーにより良いパフォーマンスをアドバイスするためのゲーム内データにのみ依存していた。 しかし、ゲーム内ログのみにトレーニングされたモデルの寿命を制限する新しいパッチによって、ゲーム内力学とトレンドは頻繁に変化する。 本稿では,センサデータ分析に基づいて,プレイヤーが今後の出会いに勝つかどうかを予測する手法を提案する。 センサデータはリーグ・オブ・レジェンドの22試合の参加者10名から収集された。 われわれはTransformerやGated Recurrent Unitといった機械学習モデルを訓練し、将来一定時間後にプレイヤーが遭遇するかどうかを予測する。 水平線予測の10秒間、トランスフォーマーニューラルネットワークアーキテクチャはROC AUCスコア0.706を達成する。 このモデルは、73.5%の精度で88.3%のケースでプレイヤーが10秒で発生した遭遇を予測できる検出器にさらに開発されている。 これはプレイヤーのバーンアウトまたは疲労検知装置として使用され、プレイヤーが撤退するよう助言する。 また,どの生理的特徴が勝敗に影響を及ぼすかについても検討した。

Current research in eSports lacks the tools for proper game practising and performance analytics. The majority of prior work relied only on in-game data for advising the players on how to perform better. However, in-game mechanics and trends are frequently changed by new patches limiting the lifespan of the models trained exclusively on the in-game logs. In this article, we propose the methods based on the sensor data analysis for predicting whether a player will win the future encounter. The sensor data were collected from 10 participants in 22 matches in League of Legends video game. We have trained machine learning models including Transformer and Gated Recurrent Unit to predict whether the player wins the encounter taking place after some fixed time in the future. For 10 seconds forecasting horizon Transformer neural network architecture achieves ROC AUC score 0.706. This model is further developed into the detector capable of predicting that a player will lose the encounter occurring in 10 seconds in 88.3% of cases with 73.5% accuracy. This might be used as a players' burnout or fatigue detector, advising players to retreat. We have also investigated which physiological features affect the chance to win or lose the next in-game encounter.
翻訳日:2021-06-07 08:54:21 公開日:2020-11-29