このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210122)

# (参考訳) ダンクかノーか? --redditのミーム人気の分析と予測 [全文訳有]

Dank or Not? -- Analyzing and Predicting the Popularity of Memes on Reddit ( http://arxiv.org/abs/2011.14326v2 )

ライセンス: CC BY 4.0
Kate Barnes, Tiernon Riesenmy, Minh Duc Trinh, Eli Lleshi, N\'ora Balogh, Roland Molontay(参考訳) インターネットミームは、近年多くの研究の関心を惹きつける現代社会コミュニケーションの広まりつつある形態になりつつある。 本稿では、2020年3月中旬にRedditから収集された129,326ミームのデータを分析し、世界で最も深刻な新型コロナウイルスの規制が世界中で導入されている。 この記事は、新型コロナウイルス(COVID-19)パンデミックにおけるインターネットユーザの考えを垣間見るだけでなく、ミームがバイラルに広まる理由に関するコンテンツベースの予測分析も行います。 また,機械学習手法を用いて,ミーム人気に関するテキスト属性よりも,画像関連属性のインクリメンタル予測について検討した。 AUC=0.68では,その内容のみに基づいてミームの成功を予測することができ,最高の機械学習モデルによりバイラルミームを予測することができる。 また,画像関連属性とテキスト属性の両方が,相互に有意な漸進的な予測能力を持っていることもわかった。

Internet memes have become an increasingly pervasive form of contemporary social communication that attracted a lot of research interest recently. In this paper, we analyze the data of 129,326 memes collected from Reddit in the middle of March, 2020, when the most serious coronavirus restrictions were being introduced around the world. This article not only provides a looking glass into the thoughts of Internet users during the COVID-19 pandemic but we also perform a content-based predictive analysis of what makes a meme go viral. Using machine learning methods, we also study what incremental predictive power image related attributes have over textual attributes on meme popularity. We find that the success of a meme can be predicted based on its content alone moderately well, our best performing machine learning model predicts viral memes with AUC=0.68. We also find that both image related and textual attributes have significant incremental predictive power over each other.
翻訳日:2021-06-07 12:31:11 公開日:2021-01-22
# 確率的プログラミングを伴う複素座標に基づくメタ解析

Complex Coordinate-Based Meta-Analysis with Probabilistic Programming ( http://arxiv.org/abs/2012.01303v2 )

ライセンス: Link先を確認
Valentin Iovene (NEUROSPIN, PARIETAL), Gaston Zanitti (NEUROSPIN, PARIETAL), Demian Wassermann (NEUROSPIN, PARIETAL)(参考訳) 機能的磁気共鳴イメージング(fmri)の研究が増えているため、メタ分析データベースやモデルが脳のマッピング研究の不可欠な部分となっている。 自然言語処理(NLP)技術を用いて,報告されたピークアクティベーションの座標と用語関連を自動的に抽出することにより,コーディネートベースメタ分析(CBMA)データベースを構築する。 これらのデータベース上で項ベースのクエリを解くことで、特定の認知過程に関連する脳の統計地図を得ることができる。 しかし、neurosynthのようなツールでは、単項クエリだけが統計的に信頼できる結果をもたらす。 よりリッチなクエリを解決するには、データベースからの研究が多すぎることが統計的推定に寄与する。 我々は、Datalog上に立つ確率的ドメイン固有言語(DSL)と、リッチなロジックベースのクエリを表現および解決するための確率的拡張であるCP-Logicを設計する。 CBMAデータベースを確率的プログラムにエンコードする。 ベイジアンネットワーク翻訳の合同分布を用いて,このプログラムにおけるクエリの解が,voxelアクティベーションの正しい確率分布を計算することを示す。 そこでは,最先端のart knowledge compilation (kc)技術が実用的応用に十分な速さで問合せを解決できない状況において,問合せ処理アルゴリズムが大規模画像データのサイズにスケールできることを説明する。 最後に,論文を確率論的に関連づける手法を導入し,より小さなデータベース上での接続型クエリの解法を改良する。 メタ分析データベースと広く使用されているニューロシンスデータベースの両方において,2項の結合性問合せの結果を示す。

With the growing number of published functional magnetic resonance imaging (fMRI) studies, meta-analysis databases and models have become an integral part of brain mapping research. Coordinate-based meta-analysis (CBMA) databases are built by automatically extracting both coordinates of reported peak activations and term associations using natural language processing (NLP) techniques. Solving term-based queries on these databases make it possible to obtain statistical maps of the brain related to specific cognitive processes. However, with tools like Neurosynth, only singleterm queries lead to statistically reliable results. When solving richer queries, too few studies from the database contribute to the statistical estimations. We design a probabilistic domain-specific language (DSL) standing on Datalog and one of its probabilistic extensions, CP-Logic, for expressing and solving rich logic-based queries. We encode a CBMA database into a probabilistic program. Using the joint distribution of its Bayesian network translation, we show that solutions of queries on this program compute the right probability distributions of voxel activations. We explain how recent lifted query processing algorithms make it possible to scale to the size of large neuroimaging data, where state of the art knowledge compilation (KC) techniques fail to solve queries fast enough for practical applications. Finally, we introduce a method for relating studies to terms probabilistically, leading to better solutions for conjunctive queries on smaller databases. We demonstrate results for two-term conjunctive queries, both on simulated meta-analysis databases and on the widely-used Neurosynth database.
翻訳日:2021-05-25 03:48:57 公開日:2021-01-22
# (参考訳) 特徴グラフ保存によるクラスインクリメンタル学習 [全文訳有]

Class-incremental Learning with Rectified Feature-Graph Preservation ( http://arxiv.org/abs/2012.08129v2 )

ライセンス: CC BY 4.0
Cheng-Hsun Lei, Yi-Hsin Chen, Wen-Hsiao Peng, Wei-Chen Chiu(参考訳) 本稿では,1つの頭を用いた蒸留法に基づくクラス増分学習の問題に対処する。 このタスクの中心的なテーマは、シーケンシャルなフェーズで到着する新しいクラスを学習し、参照データサンプルを保存するためのメモリ制限のある参照クラスを認識できるモデルの能力を維持することである。 壊滅的な忘れる現象を緩和するために多くの規則化戦略が提案されている。 これらの正規化の本質をよりよく理解するために,特徴グラフ保存の観点から紹介する。 彼らのメリットと欠点に対する洞察は、古い知識保存のための重み付きユークリッド正規化を動機付ける。 さらに,正規化コサイン正規化を提案し,新しいクラスを効果的に学習するためのクラス分離を増加させるために,バイナリクロスエントロピーとどのように連携するかを示す。 CIFAR-100とImageNetの2つのデータセットによる実験結果から,本手法は分類誤差の低減,破滅的忘れの緩和,各クラスに対する等バランスの取れた精度の向上など,最先端の手法よりも優れていることが示された。 プロジェクトページはhttps://github.com/y hchen12101/fgp-icl。

In this paper, we address the problem of distillation-based class-incremental learning with a single head. A central theme of this task is to learn new classes that arrive in sequential phases over time while keeping the model's capability of recognizing seen classes with only limited memory for preserving seen data samples. Many regularization strategies have been proposed to mitigate the phenomenon of catastrophic forgetting. To understand better the essence of these regularizations, we introduce a feature-graph preservation perspective. Insights into their merits and faults motivate our weighted-Euclidean regularization for old knowledge preservation. We further propose rectified cosine normalization and show how it can work with binary cross-entropy to increase class separation for effective learning of new classes. Experimental results on both CIFAR-100 and ImageNet datasets demonstrate that our method outperforms the state-of-the-art approaches in reducing classification error, easing catastrophic forgetting, and encouraging evenly balanced accuracy over different classes. Our project page is at : https://github.com/y hchen12101/FGP-ICL.
翻訳日:2021-05-08 11:37:29 公開日:2021-01-22
# 正確なシミュレーションによる神経培養のパターン認識性能の評価

Assessing Pattern Recognition Performance of Neuronal Cultures through Accurate Simulation ( http://arxiv.org/abs/2012.10355v2 )

ライセンス: Link先を確認
Gabriele Lagani, Raffaele Mazziotti, Fabrizio Falchi, Claudio Gennaro, Guido Marco Cicchini, Tommaso Pizzorusso, Federico Cremisi, Giuseppe Amato(参考訳) これまでの研究では、MEA(Multi-Electrode Arrays)で神経培養を訓練し、非常に単純なパターンを認識できることが示されている。 しかし, この研究は主に, パターン認識性能の厳密な評価を行うのではなく, 文化の可塑性を誘導できることを実証することに焦点を当てた。 本稿では,学習課題における神経細胞培養のパフォーマンスを評価する手法の開発により,このギャップを解消する。 具体的には、実際の培養ニューロンネットワークのディジタルモデルを提案し、実文化の挙動を確実に再現できる生物学的に妥当なシミュレーションパラメータを特定し、シミュレートされた文化を用いて手書きの数字認識を行い、その性能を厳格に評価する。

Previous work has shown that it is possible to train neuronal cultures on Multi-Electrode Arrays (MEAs), to recognize very simple patterns. However, this work was mainly focused to demonstrate that it is possible to induce plasticity in cultures, rather than performing a rigorous assessment of their pattern recognition performance. In this paper, we address this gap by developing a methodology that allows us to assess the performance of neuronal cultures on a learning task. Specifically, we propose a digital model of the real cultured neuronal networks; we identify biologically plausible simulation parameters that allow us to reliably reproduce the behavior of real cultures; we use the simulated culture to perform handwritten digit recognition and rigorously evaluate its performance; we also show that it is possible to find improved simulation parameters for the specific task, which can guide the creation of real cultures.
翻訳日:2021-05-01 18:10:40 公開日:2021-01-22
# Barzilai-Borwein法のより高速な$R$-Linear収束率について

On a Faster $R$-Linear Convergence Rate of the Barzilai-Borwein Method ( http://arxiv.org/abs/2101.00205v2 )

ライセンス: Link先を確認
Dawei Li and Ruoyu Sun(参考訳) Barzilai-Borwein (BB) 法は非線形最適化において実験的な成功を収めた。 しかし,二次問題に対するbb法の既知の収束速度は,最急降下法 (sd) よりもかなり悪いため,bb法の収束速度はよく分かっていない。 そのため、理論と実践には大きな相違点がある。 このギャップを縮小するために、bb 法は 1-1/\kappa$ のレートで r$-線形収束し、ここで $\kappa$ は条件数であり、強凸二次問題に対して収束する。 さらに、理論的な収束率を持つ例が構成され、我々の束縛の厳密さを示している。

The Barzilai-Borwein (BB) method has demonstrated great empirical success in nonlinear optimization. However, the convergence speed of BB method is not well understood, as the known convergence rate of BB method for quadratic problems is much worse than the steepest descent (SD) method. Therefore, there is a large discrepancy between theory and practice. To shrink this gap, we prove that the BB method converges $R$-linearly at a rate of $1-1/\kappa$, where $\kappa$ is the condition number, for strongly convex quadratic problems. In addition, an example with the theoretical rate of convergence is constructed, indicating the tightness of our bound.
翻訳日:2021-04-16 11:06:58 公開日:2021-01-22
# ミリ波通信システムのためのDeep Learning Assisted Calibrated Beam Training

Deep Learning Assisted Calibrated Beam Training for Millimeter-Wave Communication Systems ( http://arxiv.org/abs/2101.05206v2 )

ライセンス: Link先を確認
Ke Ma, Dongxuan He, Hancun Sun, Zhaocheng Wang, Sheng Chen(参考訳) ビームトレーニングの膨大なオーバーヘッドはミリ波(mmWave)無線通信において大きな課題となる。 この問題に対処するため,本稿では,狭ビーム方向をチャネルパワーリークに応じて校正するための広ビームベーストレーニング手法を提案する。 チャネルパワーリークの複雑な非線形特性に対処するために、ディープラーニングを用いて最適な狭ビームを直接予測する。 具体的には,3つの深層学習支援ビーム訓練方式を提案する。 第1のスキームは畳み込みニューラルネットワークを採用し、広ビームトレーニングの瞬時受信信号に基づく予測を実装する。 また,さらなるビーム方向校正のための予測確率に基づく狭ビーム訓練も実施した。 第2のスキームは、騒音に対するロバスト性を高めるために、ユーザの動きを追跡し、事前ビームトレーニングの受信信号に従ってビーム方向を調整するための長期記憶(LSTM)ネットワークを採用する。 ワイドビームトレーニングのオーバーヘッドをさらに軽減するため、適応ビームトレーニング戦略である第3のスキームでは、先行受信信号に基づいてトレーニング対象とする部分ワイドビームを選択する。 最適隣接基準と最大確率基準の2つの基準が選択のために設計されている。 さらに、移動シナリオを扱うために、選択したワイドビームの方向をより正確に調整するために補助LSTMを導入する。 シミュレーションの結果,提案手法は従来の深層学習方式に比べてビームトレーニングのオーバーヘッドを小さくし,ビームフォーミングゲインを著しく向上することが示された。

Huge overhead of beam training imposes a significant challenge in millimeter-wave (mmWave) wireless communications. To address this issue, in this paper, we propose a wide beam based training approach to calibrate the narrow beam direction according to the channel power leakage. To handle the complex nonlinear properties of the channel power leakage, deep learning is utilized to predict the optimal narrow beam directly. Specifically, three deep learning assisted calibrated beam training schemes are proposed. The first scheme adopts convolution neural network to implement the prediction based on the instantaneous received signals of wide beam training. We also perform the additional narrow beam training based on the predicted probabilities for further beam direction calibrations. The second scheme adopts long-short term memory (LSTM) network for tracking the movement of users and calibrating the beam direction according to the received signals of prior beam training, in order to enhance the robustness to noise. To further reduce the overhead of wide beam training, our third scheme, an adaptive beam training strategy, selects partial wide beams to be trained based on the prior received signals. Two criteria, namely, optimal neighboring criterion and maximum probability criterion, are designed for the selection. Furthermore, to handle mobile scenarios, auxiliary LSTM is introduced to calibrate the directions of the selected wide beams more precisely. Simulation results demonstrate that our proposed schemes achieve significantly higher beamforming gain with smaller beam training overhead compared with the conventional and existing deep-learning based counterparts.
翻訳日:2021-04-10 05:00:02 公開日:2021-01-22
# 教室における顔映像からのマルチモーダルエンゲージメント分析

Multimodal Engagement Analysis from Facial Videos in the Classroom ( http://arxiv.org/abs/2101.04215v2 )

ライセンス: Link先を確認
\"Omer S\"umer, Patricia Goldberg, Sidney D'Mello, Peter Gerjets, Ulrich Trautwein, Enkelejda Kasneci(参考訳) 学生のエンゲージメントは学習と教育の重要な構成要素である。 本稿は,学生参加分析をコンピュータ・ベース・セッティングで調べるものであるが,本論文は教室の授業に焦点を絞ったものである。 教室における学生の視覚的エンゲージメントを最もよく調査するために,小学校の授業の聴覚的記録を1ヶ月半にわたって活用し,繰り返しセッションで学生毎の連続的エンゲージメントラベル(N=15)を取得し,教室内の顔からエンゲージメントレベルを分類するためのコンピュータビジョン手法を検討した。 我々は,注意的および感情的特徴の深い埋め込みを訓練し,頭部ポーズ推定のためのアテンションネットと表情認識のためのインフルエントネットを訓練した。 また,Support Vector Machines,Random Forest,Multilayer Perceptron,Long Short-Term Memoryの2つの機能で,異なるエンゲージメント分類器を訓練した。 最も優れたエンゲージメント分類器は、それぞれグレード8と12の.620と.720のAUCを達成した。 さらに, 融合戦略について検討し, スコアレベル融合はエンゲージメント分類器を改善するか, 最高のモダリティに匹敵するかを見出した。 また、パーソナライズの効果についても検討し、基本分類器のマージン不確実性によって選択された60秒の個人データを使用することで平均AUC改善率は.084。 本研究の主な目的は,授業の質や教員養成の文脈において,授業ビデオの手動データ分析を容易にするための技術手段を提供することである。

Student engagement is a key construct for learning and teaching. While most of the literature explored the student engagement analysis on computer-based settings, this paper extends that focus to classroom instruction. To best examine student visual engagement in the classroom, we conducted a study utilizing the audiovisual recordings of classes at a secondary school over one and a half month's time, acquired continuous engagement labeling per student (N=15) in repeated sessions, and explored computer vision methods to classify engagement levels from faces in the classroom. We trained deep embeddings for attentional and emotional features, training Attention-Net for head pose estimation and Affect-Net for facial expression recognition. We additionally trained different engagement classifiers, consisting of Support Vector Machines, Random Forest, Multilayer Perceptron, and Long Short-Term Memory, for both features. The best performing engagement classifiers achieved AUCs of .620 and .720 in Grades 8 and 12, respectively. We further investigated fusion strategies and found score-level fusion either improves the engagement classifiers or is on par with the best performing modality. We also investigated the effect of personalization and found that using only 60-seconds of person-specific data selected by margin uncertainty of the base classifier yielded an average AUC improvement of .084. 4.Our main aim with this work is to provide the technical means to facilitate the manual data analysis of classroom videos in research on teaching quality and in the context of teacher training.
翻訳日:2021-04-04 14:31:45 公開日:2021-01-22
# Denoiser epistemic Uncertainty and Decoupled Dual-Attention Fusion

Deep Gaussian Denoiser Epistemic Uncertainty and Decoupled Dual-Attention Fusion ( http://arxiv.org/abs/2101.04631v2 )

ライセンス: Link先を確認
Xiaoqi Ma, Xiaoyu Lin, Majed El Helou, Sabine S\"usstrunk(参考訳) ネットワークのデノベーションのパフォーマンスのブレークスルーに続いて、改善は主に新しいアーキテクチャ設計と深度の向上によって行われた。 新たなデノイジングネットワークは、異なる分布からの実際の画像や特定の用途のために設計されたが、ガウスのデノイジングでは、比較的小さな改善が達成された。 デノナイジングソリューションは、さらなる進歩を制限することができるてんかんの不確実性に悩まされる。 この不確実性は伝統的に異なるアンサンブルアプローチによって緩和される。 しかし、そのようなアンサンブルは、既に大きなネットワークを持つディープネットワークでは、非常にコストがかかる。 我々の研究は、ガウス法における最先端法の性能限界を押し上げることに焦点を当てている。 本稿では,1つの事前学習ネットワークのみを用いながら,疫学的不確実性を低減するためのモデル非依存アプローチを提案する。 拡張・周波数制御画像による認識の不確かさを抽出し,誤りの異なる有意な画像を得る。 ピクセル領域上と異なる操作上の2つの分離したアテンションパスを用いたアンサンブル法を提案する。 その結果,最先端のベースラインや様々なノイズレベルに対して有意に改善した。

Following the performance breakthrough of denoising networks, improvements have come chiefly through novel architecture designs and increased depth. While novel denoising networks were designed for real images coming from different distributions, or for specific applications, comparatively small improvement was achieved on Gaussian denoising. The denoising solutions suffer from epistemic uncertainty that can limit further advancements. This uncertainty is traditionally mitigated through different ensemble approaches. However, such ensembles are prohibitively costly with deep networks, which are already large in size. Our work focuses on pushing the performance limits of state-of-the-art methods on Gaussian denoising. We propose a model-agnostic approach for reducing epistemic uncertainty while using only a single pretrained network. We achieve this by tapping into the epistemic uncertainty through augmented and frequency-manipulate d images to obtain denoised images with varying error. We propose an ensemble method with two decoupled attention paths, over the pixel domain and over that of our different manipulations, to learn the final fusion. Our results significantly improve over the state-of-the-art baselines and across varying noise levels.
翻訳日:2021-04-04 01:36:49 公開日:2021-01-22
# (参考訳) Houseer Dice:ガウスおよびランダム直交アンサンブルのダイナミクスをマトリックスフリーでシミュレーションするアルゴリズム [全文訳有]

Householder Dice: A Matrix-Free Algorithm for Simulating Dynamics on Gaussian and Random Orthogonal Ensembles ( http://arxiv.org/abs/2101.07464v2 )

ライセンス: CC BY 4.0
Yue M. Lu(参考訳) 本稿では,変換不変な性質を持つ密度乱数行列アンサンブルのダイナミクスをシミュレートする,houseer dice (hd) という新しいアルゴリズムを提案する。 例えば、ガウスアンサンブル、ハール分布のランダム直交アンサンブル、それらの複素値アンサンブルなどがある。 最初にアンサンブルから密な$n \times n$行列を生成するシミュレーションへの「直接」アプローチは、空間と時間において少なくとも$\mathcal{o}(n^2)$リソースを必要とする。 hdアルゴリズムは、遅延決定の原理を用いて、この$\mathcal{o}(n^2)$のボトルネックを克服する。 このマトリクスフリーアルゴリズムの中心は、(ランダムな)ハウスリフレクターの適応的かつ再帰的な構成である。 これらの直交変換は行列アンサンブルの群対称性を利用し、同時にダイナミクスによって引き起こされる統計相関を維持している。 HDアルゴリズムのメモリと計算コストはそれぞれ$\mathcal{O}(nT)$と$\mathcal{O}(nT^2)$であり、$T$は反復数である。 ほぼ常にそうである$T \ll n$の場合、新しいアルゴリズムは実行時とメモリフットプリントを大幅に削減する。 数値実験により,高次元ランダム系の研究における新しい計算ツールとしてのhdアルゴリズムの期待が示された。

This paper proposes a new algorithm, named Householder Dice (HD), for simulating dynamics on dense random matrix ensembles with translation-invarian t properties. Examples include the Gaussian ensemble, the Haar-distributed random orthogonal ensemble, and their complex-valued counterparts. A "direct" approach to the simulation, where one first generates a dense $n \times n$ matrix from the ensemble, requires at least $\mathcal{O}(n^2)$ resource in space and time. The HD algorithm overcomes this $\mathcal{O}(n^2)$ bottleneck by using the principle of deferred decisions: rather than fixing the entire random matrix in advance, it lets the randomness unfold with the dynamics. At the heart of this matrix-free algorithm is an adaptive and recursive construction of (random) Householder reflectors. These orthogonal transformations exploit the group symmetry of the matrix ensembles, while simultaneously maintaining the statistical correlations induced by the dynamics. The memory and computation costs of the HD algorithm are $\mathcal{O}(nT)$ and $\mathcal{O}(nT^2)$, respectively, with $T$ being the number of iterations. When $T \ll n$, which is nearly always the case in practice, the new algorithm leads to significant reductions in runtime and memory footprint. Numerical results demonstrate the promise of the HD algorithm as a new computational tool in the study of high-dimensional random systems.
翻訳日:2021-03-26 07:55:13 公開日:2021-01-22
# 自然言語推論の仮説限定モデルにおける語彙不規則性の検討

Exploring Lexical Irregularities in Hypothesis-Only Models of Natural Language Inference ( http://arxiv.org/abs/2101.07397v3 )

ライセンス: Link先を確認
Qingyuan Hu, Yi Zhang, Kanishka Misra, Julia Rayz(参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、一対の文(前提と仮説)の間の関係を予測するタスクである。 このタスクは意味表現の開発に有用なテスト基盤として説明され、自然言語理解評価ベンチマークにおいて重要な要素である。 包含を理解するモデルは前提と仮説の両方をエンコードするべきである。 しかし、poliakらは実験を行った。 仮説でのみ観察されるパターンに対して、これらのモデルの強い嗜好を、データセット比較に基づいて明らかにした。 これらの結果は、モデルが芸術の状況と競争的に振る舞うように偏る仮説に存在する統計的不規則性の存在を示唆した。 リキャストデータセットは、人間の介入を最小限に抑えて大規模なNLIインスタンスを生成するが、それらを生成する論文は、NLIモデルに偏る可能性のある潜在的な統計パターンの詳細な分析を提供していない。 本研究では,Poliakらが提供するリキャストデータセットの1つでトレーニングされた仮説のみのモデルを解析する。 単語レベルのパターン。 その結果,モデル性能の増大に寄与する潜在的な語彙バイアスの存在が示唆された。

Natural Language Inference (NLI) or Recognizing Textual Entailment (RTE) is the task of predicting the entailment relation between a pair of sentences (premise and hypothesis). This task has been described as a valuable testing ground for the development of semantic representations, and is a key component in natural language understanding evaluation benchmarks. Models that understand entailment should encode both, the premise and the hypothesis. However, experiments by Poliak et al. revealed a strong preference of these models towards patterns observed only in the hypothesis, based on a 10 dataset comparison. Their results indicated the existence of statistical irregularities present in the hypothesis that bias the model into performing competitively with the state of the art. While recast datasets provide large scale generation of NLI instances due to minimal human intervention, the papers that generate them do not provide fine-grained analysis of the potential statistical patterns that can bias NLI models. In this work, we analyze hypothesis-only models trained on one of the recast datasets provided in Poliak et al. for word-level patterns. Our results indicate the existence of potential lexical biases that could contribute to inflating the model performance.
翻訳日:2021-03-22 11:23:05 公開日:2021-01-22
# DyLoc:予測リカレントニューラルネットワークを用いたMIMOの動的位置推定

DyLoc: Dynamic Localization for Massive MIMO Using Predictive Recurrent Neural Networks ( http://arxiv.org/abs/2101.07848v2 )

ライセンス: Link先を確認
Farzam Hejazi, Katarina Vuckovic, Nazanin Rahnavard(参考訳) 本稿では,GPSやモデルに基づくローカライゼーション技術が不足する都市部や屋内など,時間変化のある複雑なマルチパス環境において,高精度なデータ駆動型ローカライゼーションフレームワークを提案する。 大規模MIMOシステムにおけるチャネル状態情報(CSI)の線形変換であるアングル遅延プロファイル(ADP)について検討し,時間的に積み重ねられた場合,ADPがユーザの動きを保存することを示す。 映像フレーム予測アルゴリズムを用いて, 静的環境下では, adp時系列の将来フレームが予測可能であることを考察する。 背景静的散乱環境を学習するために,深層畳み込みニューラルネットワーク(dcnn)が利用できることを示す。 経路遮断や追加に対応する環境における前景変化を検出するために,訓練されたdcnnを利用したアルゴリズムを提案する。 さらに,前景変化による歪みADPを復元し,正確な位置推定を行うためのデータ駆動型フレームワークDyLocを提案する。 dylocの性能を,deepmimoデータセットを用いて屋内および屋外環境向けに地理タグ付きcsiデータセットを生成する動的シナリオで評価する。 我々は,DyLocが正確なローカライゼーションを追求するのに対して,従来のDCNNベースの手法は動的環境において望ましい精度で動作しないことを示す。 さらにシミュレーションにより、マルチパスの数で環境が豊かになるにつれて、DyLocは前景の変化に対してより堅牢になることが示された。

This paper presents a data-driven localization framework with high precision in time-varying complex multipath environments, such as dense urban areas and indoors, where GPS and model-based localization techniques come short. We consider the angle-delay profile (ADP), a linear transformation of channel state information (CSI), in massive MIMO systems and show that ADPs preserve users' motion when stacked temporally. We discuss that given a static environment, future frames of ADP time-series are predictable employing a video frame prediction algorithm. We express that a deep convolutional neural network (DCNN) can be employed to learn the background static scattering environment. To detect foreground changes in the environment, corresponding to path blockage or addition, we introduce an algorithm taking advantage of the trained DCNN. Furthermore, we present DyLoc, a data-driven framework to recover distorted ADPs due to foreground changes and to obtain precise location estimations. We evaluate the performance of DyLoc in several dynamic scenarios employing DeepMIMO dataset to generate geo-tagged CSI datasets for indoor and outdoor environments. We show that previous DCNN-based techniques fail to perform with desirable accuracy in dynamic environments, while DyLoc pursues localization precisely. Moreover, simulations show that as the environment gets richer in terms of the number of multipath, DyLoc gets more robust to foreground changes.
翻訳日:2021-03-22 11:12:57 公開日:2021-01-22
# 境界プレサイエンスでアタリゲームをシールドする

Shielding Atari Games with Bounded Prescience ( http://arxiv.org/abs/2101.08153v2 )

ライセンス: Link先を確認
Mirco Giacobbe, Mohammadhosein Hasanbeig, Daniel Kroening, Hjalmar Wijk(参考訳) 深層強化学習(drl)はロボット工学や自動運転といった安全クリティカルな分野に適用される。 これは多くのタスクで超人的な能力を達成するが、drlエージェントが安全に行動できるかどうかは未解決の問題である。 アタリゲームは、DRLエージェントの安全性を評価し、多種多様なゲームメカニックのポートフォリオを特徴とするシンプルだが挑戦的な例である。 神経エージェントの安全性は、システムダイナミクスのモデルや抽象化を必要とする手法を使う前に研究されてきたが、残念ながら、これらはアタリゲームには適さない。 そこで本研究では,アタリゲームにおけるDRLエージェントの安全性の確保と分析を行う。 本手法はエミュレータへのアクセスのみを必要とする。 まず、30ゲームに対して「安全な動作」を特徴付ける43のプロパティのセットを与える。 第2に,エージェントとゲームによって誘導されるすべてのトレースを探索する手法を開発し,ゲーム非決定性の諸源を検討する。 もっとも有効なDRLエージェントは、非常に少数の特性しか確実に満たさないことが観察された。 最後に,包括的明示状態探索と遮蔽を組み合わせた対策を提案する。 提案手法は,複数の特性にまたがる全てのエージェントの安全性を向上させる。

Deep reinforcement learning (DRL) is applied in safety-critical domains such as robotics and autonomous driving. It achieves superhuman abilities in many tasks, however whether DRL agents can be shown to act safely is an open problem. Atari games are a simple yet challenging exemplar for evaluating the safety of DRL agents and feature a diverse portfolio of game mechanics. The safety of neural agents has been studied before using methods that either require a model of the system dynamics or an abstraction; unfortunately, these are unsuitable to Atari games because their low-level dynamics are complex and hidden inside their emulator. We present the first exact method for analysing and ensuring the safety of DRL agents for Atari games. Our method only requires access to the emulator. First, we give a set of 43 properties that characterise "safe behaviour" for 30 games. Second, we develop a method for exploring all traces induced by an agent and a game and consider a variety of sources of game non-determinism. We observe that the best available DRL agents reliably satisfy only very few properties; several critical properties are violated by all agents. Finally, we propose a countermeasure that combines a bounded explicit-state exploration with shielding. We demonstrate that our method improves the safety of all agents over multiple properties.
翻訳日:2021-03-22 01:26:57 公開日:2021-01-22
# スケーラブルなDeep Compressive Sensing

Scalable Deep Compressive Sensing ( http://arxiv.org/abs/2101.08024v2 )

ライセンス: Link先を確認
Zhonghao Zhang and Yipeng Liu and Xingyu Cao and Fei Wen and Ce Zhu(参考訳) 深層学習は画像圧縮センシング(cs)に用いられており、再構成性能が向上している。 しかし、既存のディープラーニング手法の多くは、異なるサブサンプリング比率で異なるモデルをトレーニングしており、ハードウェアの負担が増している。 本稿では,拡張性深部圧縮センシング(SDCS)と呼ばれる,既存のエンドツーエンド学習モデルの拡張性サンプリング・再構成(SSR)のための汎用フレームワークを開発する。 提案手法では,画像の測定と初期化を線形に行う。 2つのサンプリングマスクを導入し、それぞれサンプリングと再構成に使用されるサブサンプリング比を柔軟に制御する。 再構成モデルを任意のサブサンプリング比率に適応させるため、スケーラブルトレーニングと呼ばれるトレーニング戦略を開発する。 スケーラブルなトレーニングでは、異なるサンプリング行列マスクを統合することで、サンプル行列と初期化行列を様々なサブサンプリング比でトレーニングする。 実験の結果,SDCSを用いたモデルでは,良好な性能を維持しながら構造を変更せずにSSRを達成でき,SDCSは他のSSR法よりも優れていた。

Deep learning has been used to image compressive sensing (CS) for enhanced reconstruction performance. However, most existing deep learning methods train different models for different subsampling ratios, which brings additional hardware burden. In this paper, we develop a general framework named scalable deep compressive sensing (SDCS) for the scalable sampling and reconstruction (SSR) of all existing end-to-end-trained models. In the proposed way, images are measured and initialized linearly. Two sampling masks are introduced to flexibly control the subsampling ratios used in sampling and reconstruction, respectively. To make the reconstruction model adapt to any subsampling ratio, a training strategy dubbed scalable training is developed. In scalable training, the model is trained with the sampling matrix and the initialization matrix at various subsampling ratios by integrating different sampling matrix masks. Experimental results show that models with SDCS can achieve SSR without changing their structure while maintaining good performance, and SDCS outperforms other SSR methods.
翻訳日:2021-03-22 01:19:00 公開日:2021-01-22
# OFDMから脂肪をトリミングする:エンドツーエンド学習によるパイロットとCPなしコミュニケーション

Trimming the Fat from OFDM: Pilot- and CP-less Communication with End-to-end Learning ( http://arxiv.org/abs/2101.08213v2 )

ライセンス: Link先を確認
Fay\c{c}al Ait Aoudia and Jakob Hoydis(参考訳) 直交周波数分割多重化(OFDM)は、無線通信システムにおいて、その効率的な実装により支配的な波形の1つである。 しかし、インターシンボリック干渉 (isi) を緩和するには循環プレフィックス (cp) が必要であり、パイロットはチャネルを推定する必要があるため、スペクトル効率が低下する。 そこで本研究では,ニューラルネットワーク(nn)ベースの受信機をコンステレーションジオメトリとビットラベリングと共同で学習し,ビット誤り率(ber)の大幅な低下を伴わずにofdm上でcpレス,パイロットレスの通信を実現することを提案する。 提案手法では,パイロットとCPベースのベースラインに対して,少なくとも18%のスループット向上が可能であり,パイロットによるニューラルレシーバを用いたシステムに比べて,少なくとも4%のスループット向上を実現している。

Orthogonal frequency division multiplexing (OFDM) is one of the dominant waveforms in wireless communication systems due to its efficient implementation. However, it suffers from a loss of spectral efficiency as it requires a cyclic prefix (CP) to mitigate inter-symbol interference (ISI) and pilots to estimate the channel. We propose in this work to address these drawbacks by learning a neural network (NN)-based receiver jointly with a constellation geometry and bit labeling at the transmitter, that allows CP-less and pilotless communication on top of OFDM without a significant loss in bit error rate (BER). Our approach enables at least 18% throughput gains compared to a pilot and CP-based baseline, and at least 4% gains compared to a system that uses a neural receiver with pilots but no CP.
翻訳日:2021-03-22 01:14:36 公開日:2021-01-22
# (参考訳) エンサンブルラーニングと反復学習(ELIT)機械学習:原子分解顕微鏡における不確実性定量化と自動実験への応用 [全文訳有]

Ensemble learning and iterative training (ELIT) machine learning: applications towards uncertainty quantification and automated experiment in atom-resolved microscopy ( http://arxiv.org/abs/2101.08449v2 )

ライセンス: CC BY 4.0
Ayana Ghosh, Bobby G. Sumpter, Ondrej Dyck, Sergei V. Kalinin, and Maxim Ziatdinov(参考訳) ディープラーニングは、画像分野をまたがる迅速な特徴抽出の手法として登場し、データストリームを空間的あるいは時空間的特徴の配列に迅速に変換することを可能にする。 しかし、実験領域におけるディープラーニングの応用は、実験間の分配外流によって制限されることが多く、そこでは、1組の撮像条件のために訓練されたネットワークが、異なる領域に対して準最適となる。 この制限は、人間の介入や関連するレイテンシの必要性により、再訓練や転校生の学習が非現実的になるような、自動的な実験環境の追求において特に厳しい。 本稿では,原子分解電子顕微鏡における特徴抽出のための深層学習の再現性について検討し,アンサンブル学習と反復学習に基づくワークフローを導入して特徴検出を大幅に改善する。 このアプローチは、ディープラーニング分析に不確実性定量化を取り入れることを可能にし、また、画像条件の微妙な変化による分散ドリフトを補償するためにネットワークの再トレーニングを人間の操作者やアンサンブルからのネットワークのプログラム的選択に置き換える、迅速な自動実験ワークフローを可能にする。 この方法論は、光学および化学イメージングを含む他のイメージング分野の機械学習ワークフローにさらに適用することができる。

Deep learning has emerged as a technique of choice for rapid feature extraction across imaging disciplines, allowing rapid conversion of the data streams to spatial or spatiotemporal arrays of features of interest. However, applications of deep learning in experimental domains are often limited by the out-of-distribution drift between the experiments, where the network trained for one set of imaging conditions becomes sub-optimal for different ones. This limitation is particularly stringent in the quest to have an automated experiment setting, where retraining or transfer learning becomes impractical due to the need for human intervention and associated latencies. Here we explore the reproducibility of deep learning for feature extraction in atom-resolved electron microscopy and introduce workflows based on ensemble learning and iterative training to greatly improve feature detection. This approach both allows incorporating uncertainty quantification into the deep learning analysis and also enables rapid automated experimental workflows where retraining of the network to compensate for out-of-distribution drift due to subtle change in imaging conditions is substituted for a human operator or programmatic selection of networks from the ensemble. This methodology can be further applied to machine learning workflows in other imaging areas including optical and chemical imaging.
翻訳日:2021-03-21 20:34:51 公開日:2021-01-22
# どうやって説明者を選べる? ポストホック説明の応用的評価

How can I choose an explainer? An Application-grounded Evaluation of Post-hoc Explanations ( http://arxiv.org/abs/2101.08758v2 )

ライセンス: Link先を確認
S\'ergio Jesus, Catarina Bel\'em, Vladimir Balayan, Jo\~ao Bento, Pedro Saleiro, Pedro Bizarro, Jo\~ao Gama(参考訳) 特定の特性を持つモデル説明を生成するために設計された新しい説明可能なAI(XAI)手法や、忠実性、堅牢性、人間解釈可能性などのデシダータを提案する研究がいくつかある。 しかし、意思決定タスクに対する実際の影響に基づいて説明が評価されることはめったにない。 この評価がなければ、mlモデル+エンドユーザの複合システム全体のパフォーマンスを損なうという説明が選択されるかも知れません。 本研究の目的は、エンドユーザーに対して異なるレベルの情報を提供する影響を分離するために、アプリケーションによる評価手法であるXAI Testを提案し、このギャップを埋めることである。 我々は,実データ,デプロイされたMLモデル,不正アナリストを用いて,実世界の不正検出タスクにおいて,LIME,SHAP,TreeInter preterの3つの一般的なポストホック説明手法を評価する実験を行った。 データのみ、つまり、モデルスコアや説明へのアクセスのないトランザクションデータ、データ+MLモデルスコア、データ+MLモデルスコア+説明です。 強固な統計分析を用いて, 一般に, これらの一般的な説明者は, 所望よりも悪い影響を持つことを示した。 結論のハイライトは以下のとおりである。 i) データのみを最も高い決定精度と最も遅い決定時間で示し、i) すべての説明者はData + ML Model Scoreの変種よりも正確性を改善するが、それでもデータのみと比較して精度は低い;iii) LIMEはおそらく、ケースからケースへの説明の実質的な多様性のために、ユーザによって最も好まれていない。

There have been several research works proposing new Explainable AI (XAI) methods designed to generate model explanations having specific properties, or desiderata, such as fidelity, robustness, or human-interpretabili ty. However, explanations are seldom evaluated based on their true practical impact on decision-making tasks. Without that assessment, explanations might be chosen that, in fact, hurt the overall performance of the combined system of ML model + end-users. This study aims to bridge this gap by proposing XAI Test, an application-grounded evaluation methodology tailored to isolate the impact of providing the end-user with different levels of information. We conducted an experiment following XAI Test to evaluate three popular post-hoc explanation methods -- LIME, SHAP, and TreeInterpreter -- on a real-world fraud detection task, with real data, a deployed ML model, and fraud analysts. During the experiment, we gradually increased the information provided to the fraud analysts in three stages: Data Only, i.e., just transaction data without access to model score nor explanations, Data + ML Model Score, and Data + ML Model Score + Explanations. Using strong statistical analysis, we show that, in general, these popular explainers have a worse impact than desired. Some of the conclusion highlights include: i) showing Data Only results in the highest decision accuracy and the slowest decision time among all variants tested, ii) all the explainers improve accuracy over the Data + ML Model Score variant but still result in lower accuracy when compared with Data Only; iii) LIME was the least preferred by users, probably due to its substantially lower variability of explanations from case to case.
翻訳日:2021-03-21 07:57:34 公開日:2021-01-22
# (参考訳) 重み付き高次特異値正規化に基づくスナップショットハイパースペクトルイメージング [全文訳有]

Snapshot Hyperspectral Imaging Based on Weighted High-order Singular Value Regularization ( http://arxiv.org/abs/2101.08923v1 )

ライセンス: CC BY 4.0
Niankai Cheng, Hua Huang, Lei Zhang, and Lizhi Wang(参考訳) スナップショットハイパースペクトル画像は、単一の2次元計測で3次元ハイパースペクトル画像(HSI)を撮影でき、近年注目を集めている。 圧縮測定から基礎となるHSIを復元することは不適切な問題であり、この不適切な問題の解決には画像の事前利用が不可欠である。 しかし、既存の再構成手法は常に1次元ベクトルや2次元行列に先立って画像のモデリングから始まり、3次元HSIの構造的スペクトル空間特性を完全に活用できないため、忠実度は低い。 本稿では,高次テンソル最適化を効果的に行うことにより,スナップショットハイパースペクトルイメージングの再構成精度を向上させる手法を提案する。 まず,hsiの空間スペクトル相関を利用して高次テンソルを構築する。 そこで本研究では,HSI以前の構造を特徴付けるために,WHOSVRに基づく高次特異値正規化モデルを提案する。 WHOSVRに先行する構造をシステムイメージングプロセスと統合することにより,HSI再構成のための最適化フレームワークを開発し,そのアルゴリズムを交互に最小化することで最終的に解決する。 2つの代表的なシステムで実施した広範囲な実験により,本手法が最先端手法よりも優れていることが証明された。

Snapshot hyperspectral imaging can capture the 3D hyperspectral image (HSI) with a single 2D measurement and has attracted increasing attention recently. Recovering the underlying HSI from the compressive measurement is an ill-posed problem and exploiting the image prior is essential for solving this ill-posed problem. However, existing reconstruction methods always start from modeling image prior with the 1D vector or 2D matrix and cannot fully exploit the structurally spectral-spatial nature in 3D HSI, thus leading to a poor fidelity. In this paper, we propose an effective high-order tensor optimization based method to boost the reconstruction fidelity for snapshot hyperspectral imaging. We first build high-order tensors by exploiting the spatial-spectral correlation in HSI. Then, we propose a weight high-order singular value regularization (WHOSVR) based low-rank tensor recovery model to characterize the structure prior of HSI. By integrating the structure prior in WHOSVR with the system imaging process, we develop an optimization framework for HSI reconstruction, which is finally solved via the alternating minimization algorithm. Extensive experiments implemented on two representative systems demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2021-03-21 07:03:27 公開日:2021-01-22
# (参考訳) 非滑らかな損失を有する差分プライベートSGD [全文訳有]

Differentially Private SGD with Non-Smooth Loss ( http://arxiv.org/abs/2101.08925v1 )

ライセンス: CC BY 4.0
Puyu Wang, Yunwen Lei, Yiming Ying, Hai Zhang(参考訳) 本稿では,確率凸最適化(sco)の設定において,微分プライベートなsgdアルゴリズムに関心を持つ。 既存の作業の多くはリプシッツ連続かつ強滑らかな損失を必要とし、モデルパラメータは一様有界である。 しかしながら、これらの仮定は、多くの一般的な損失が、SVMのヒンジ損失、ロバスト回帰の絶対損失、そして非有界領域の最小二乗損失など、これらの条件に反するので制限的である。 我々はこれらの制約的仮定を著しく緩和し、非滑らか凸損失に伴う出力と勾配の摂動を用いたプライベートSGDアルゴリズムのプライバシーと一般化(ユーティリティ)の保証を確立する。 具体的には、損失関数は $\alpha$-H\"{o}lder 連続勾配 ($\alpha$-H\"{o}lder smoothness) として緩和され、リプシッツ連続性(英語版)(\alpha=0$)と強滑らか性(英語版)(\alpha=1$)をインスタンス化する。 α$-h\"older のノイズの多い sgd の勾配摂動による滑らかな損失は、$(\epsilon,\delta)$- differential privacy (dp) を保証し、最適な余剰人口リスク $o\big(\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}+\frac{1}{\sqrt{n}}\big)$ を、対数項まで、勾配複雑性(例えば)を達成する。 繰り返しの総数)$T = O( n^{2-\alpha\over 1+\alpha}+ n)$ これは、損失のより古い滑らかさと統計的に最適な性能を持つプライベートSGDの計算複雑性$T$の間の重要なトレードオフを示す。 特に、我々の結果は、$\alpha$-H\'older smoothness with $\alpha\ge {1/2}$は、線形勾配複雑性$T = O(n)$で最適余剰リスクを達成しつつ、ノイズの多いSGDアルゴリズムの$(\epsilon,\delta)$- DPを保証するのに十分であることを示している。

In this paper, we are concerned with differentially private SGD algorithms in the setting of stochastic convex optimization (SCO). Most of existing work requires the loss to be Lipschitz continuous and strongly smooth, and the model parameter to be uniformly bounded. However, these assumptions are restrictive as many popular losses violate these conditions including the hinge loss for SVM, the absolute loss in robust regression, and even the least square loss in an unbounded domain. We significantly relax these restrictive assumptions and establish privacy and generalization (utility) guarantees for private SGD algorithms using output and gradient perturbations associated with non-smooth convex losses. Specifically, the loss function is relaxed to have $\alpha$-H\"{o}lder continuous gradient (referred to as $\alpha$-H\"{o}lder smoothness) which instantiates the Lipschitz continuity ($\alpha=0$) and strong smoothness ($\alpha=1$). We prove that noisy SGD with $\alpha$-H\"older smooth losses using gradient perturbation can guarantee $(\epsilon,\delta)$- differential privacy (DP) and attain optimal excess population risk $O\Big(\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}+\frac{1}{\sqrt{n}}\Big)$, up to logarithmic terms, with gradient complexity (i.e. the total number of iterations) $T =O( n^{2-\alpha\over 1+\alpha}+ n).$ This shows an important trade-off between $\alpha$-H\"older smoothness of the loss and the computational complexity $T$ for private SGD with statistically optimal performance. In particular, our results indicate that $\alpha$-H\"older smoothness with $\alpha\ge {1/2}$ is sufficient to guarantee $(\epsilon,\delta)$- DP of noisy SGD algorithms while achieving optimal excess risk with linear gradient complexity $T = O(n).$
翻訳日:2021-03-21 06:49:04 公開日:2021-01-22
# (参考訳) Pose-based Hand Gesture Recognitionのための2ストリームニューラルネットワーク [全文訳有]

A Two-stream Neural Network for Pose-based Hand Gesture Recognition ( http://arxiv.org/abs/2101.08926v1 )

ライセンス: CC BY 4.0
Chuankun Li, Shuai Li, Yanbo Gao, Xiang Zhang, Wanqing Li(参考訳) 近年,ポーズに基づくジェスチャー認識が広く研究されている。 全身動作認識と比較すると、手の動きはより空間的に密に分布し、より強い協調を伴う関節を伴う。 この性質は、複雑な空間的特徴を捉えるための行動認識とは異なるアプローチを必要とする。 グラブ(grab)やピンチ(pinch)のような多くのジェスチャーカテゴリは、時間処理に挑戦する非常に類似した動きや時間パターンを持っている。 そこで本稿では,短期時間情報と階層的空間情報を抽出するsagcn(self-attention based graph convolutional network)と,長期時間情報を抽出するrbi-indrnn(extrest-c onnection enhanced bidirectional independent recurrent neural network)の2つのストリームニューラルネットワークを提案する。 自己アテンションに基づくグラフ畳み込みネットワークは、GCNの固定位相と局所特徴抽出に加えて、すべての手関節の関係を適応的に活用する動的自己アテンション機構を有する。 一方、残留接続強化Bi-IndRNNは、時間モデリングのための双方向処理機能を備えたIndRNNを拡張している。 2つのストリームは、認識のために融合されます。 Dynamic Hand Gesture データセットと First-Person Hand Action データセットを用いてその有効性を検証する。

Pose based hand gesture recognition has been widely studied in the recent years. Compared with full body action recognition, hand gesture involves joints that are more spatially closely distributed with stronger collaboration. This nature requires a different approach from action recognition to capturing the complex spatial features. Many gesture categories, such as "Grab" and "Pinch", have very similar motion or temporal patterns posing a challenge on temporal processing. To address these challenges, this paper proposes a two-stream neural network with one stream being a self-attention based graph convolutional network (SAGCN) extracting the short-term temporal information and hierarchical spatial information, and the other being a residual-connection enhanced bidirectional Independently Recurrent Neural Network (RBi-IndRNN) for extracting long-term temporal information. The self-attention based graph convolutional network has a dynamic self-attention mechanism to adaptively exploit the relationships of all hand joints in addition to the fixed topology and local feature extraction in the GCN. On the other hand, the residual-connection enhanced Bi-IndRNN extends an IndRNN with the capability of bidirectional processing for temporal modelling. The two streams are fused together for recognition. The Dynamic Hand Gesture dataset and First-Person Hand Action dataset are used to validate its effectiveness, and our method achieves state-of-the-art performance.
翻訳日:2021-03-21 05:10:34 公開日:2021-01-22
# (参考訳) テキスト支援正規化による知識グラフ補完 [全文訳有]

Knowledge Graph Completion with Text-aided Regularization ( http://arxiv.org/abs/2101.08962v1 )

ライセンス: CC BY-SA 4.0
Tong Chen, Sirou Zhu, Yiming Wen, Zhaomin Zheng(参考訳) 知識グラフコンプリート(英: Knowledge Graph Completion)とは、2つの物事の相互関係を記述する動詞や述語を用いて接続できる、可能なエンティティや固有名詞を推定することで知識グラフ/ベースを拡張するタスクである。 一般に、この問題を、頂点と辺の現在のネットワークに新しいエッジを追加していると記述する。 従来のアプローチでは、グラフに内在する既存のグラフィカルな情報を使用し、対応する埋め込みをトレーニングして情報を記述するのが主だが、エンティティに関連するコーパスには、より優れた予測のために埋め込みに影響を与える情報も含むべきである。 提案手法では,損失関数の正規化部に類似度関数を追加することにより,既存のkg組込みフレームワークがより良い予測結果に達するのを助けるために,抽出あるいは生のテキスト情報を利用する多くの方法を試みる。 その結果, ベースラインのKG埋め込み法よりも良好な改善が得られた。

Knowledge Graph Completion is a task of expanding the knowledge graph/base through estimating possible entities, or proper nouns, that can be connected using a set of predefined relations, or verb/predicates describing interconnections of two things. Generally, we describe this problem as adding new edges to a current network of vertices and edges. Traditional approaches mainly focus on using the existing graphical information that is intrinsic of the graph and train the corresponding embeddings to describe the information; however, we think that the corpus that are related to the entities should also contain information that can positively influence the embeddings to better make predictions. In our project, we try numerous ways of using extracted or raw textual information to help existing KG embedding frameworks reach better prediction results, in the means of adding a similarity function to the regularization part in the loss function. Results have shown that we have made decent improvements over baseline KG embedding methods.
翻訳日:2021-03-21 04:47:59 公開日:2021-01-22
# (参考訳) 非定常確率的多腕バンディット:ucb政策とミニマックス後悔 [全文訳有]

Nonstationary Stochastic Multiarmed Bandits: UCB Policies and Minimax Regret ( http://arxiv.org/abs/2101.08980v1 )

ライセンス: CC0 1.0
Lai Wei and Vaibhav Srivastava(参考訳) 本稿では,各アームに関連付けられた報酬の分布を時間的変化と仮定し,期待される報酬の総変動を変動予算に含める非定常確率的マルチアーメッドバンド(MAB)問題について検討する。 ポリシーの後悔は、ポリシーを使って得られた期待される累積報酬と、各時点の最大平均報酬を持つ腕を選択するオラクルとの差によって定義される。 提案手法は, 変動予算を満たした報酬分配系列の組に対する後悔の前提となる, 最悪の場合の後悔という観点から, 提案手法の性能を特徴付ける。 我々は, 周期的リセット, スライディング観察窓, ディスカウント係数という3つのアプローチにより, 上信頼境界(ucb)に基づく政策を拡張し, ミニマックスの後悔, すなわち, いかなる政策でも達成される最低の最悪の後悔について, 秩序最適であることを示す。 また,報奨分布に対する下位ゲージの仮定を緩和し,重み付き報奨分布を処理し,その性能保証を維持することのできる,提案された警察の堅牢なバージョンを開発する。

We study the nonstationary stochastic Multi-Armed Bandit (MAB) problem in which the distribution of rewards associated with each arm are assumed to be time-varying and the total variation in the expected rewards is subject to a variation budget. The regret of a policy is defined by the difference in the expected cumulative rewards obtained using the policy and using an oracle that selects the arm with the maximum mean reward at each time. We characterize the performance of the proposed policies in terms of the worst-case regret, which is the supremum of the regret over the set of reward distribution sequences satisfying the variation budget. We extend Upper-Confidence Bound (UCB)-based policies with three different approaches, namely, periodic resetting, sliding observation window and discount factor and show that they are order-optimal with respect to the minimax regret, i.e., the minimum worst-case regret achieved by any policy. We also relax the sub-Gaussian assumption on reward distributions and develop robust versions the proposed polices that can handle heavy-tailed reward distributions and maintain their performance guarantees.
翻訳日:2021-03-21 04:38:12 公開日:2021-01-22
# (参考訳) ソーシャルメディアを用いた株価の人工知能予測 [全文訳有]

Artificial intelligence prediction of stock prices using social media ( http://arxiv.org/abs/2101.08986v1 )

ライセンス: CC BY 4.0
Kavyashree Ranawat and Stefano Giani(参考訳) この研究の主な目的は、ツイートを用いて株式市場の動きを予測するLSTMに基づくニューラルネットワークを開発することである。 lstmネットワークで使用される単語埋め込みは、スタンフォードのグラブ埋め込みを使用して初期化され、特に20億ツイートに事前学習されている。 データセットの限られたサイズを克服するために、各入力シーケンスを150個のサブセットに分割する拡張戦略を提案する。 元の構成をさらに改善するために、ハイパーパラメータ最適化を行う。 落下速度,バッチサイズ,LSTM隠れ状態出力サイズなどのハイパーパラメータの変動の影響を個別に評価する。 さらに,パラメータの組み合わせを網羅的に検討し,最適なモデル構成を決定する。 検証データセット上で最高のパフォーマンスは、それぞれドロップアウト、バッチサイズ、隠蔽ユニットのハイパーパラメータの組み合わせ0.4,8,100によって達成される。 このモデルの最終的なテスト精度は76.14%である。

The primary objective of this work is to develop a Neural Network based on LSTM to predict stock market movements using tweets. Word embeddings, used in the LSTM network, are initialised using Stanford's GloVe embeddings, pretrained specifically on 2 billion tweets. To overcome the limited size of the dataset, an augmentation strategy is proposed to split each input sequence into 150 subsets. To achieve further improvements in the original configuration, hyperparameter optimisation is performed. The effects of variation in hyperparameters such as dropout rate, batch size, and LSTM hidden state output size are assessed individually. Furthermore, an exhaustive set of parameter combinations is examined to determine the optimal model configuration. The best performance on the validation dataset is achieved by hyperparameter combination 0.4,8,100 for the dropout, batch size, and hidden units respectively. The final testing accuracy of the model is 76.14%.
翻訳日:2021-03-21 02:44:46 公開日:2021-01-22
# (参考訳) cmsaone@dravidian-co demix-fire2020:ソーシャルメディアテキストにおけるコード混合感情分析のためのメタ埋め込みおよびトランスフォーマーモデル [全文訳有]

CMSAOne@Dravidian-Co deMix-FIRE2020: A Meta Embedding and Transformer model for Code-Mixed Sentiment Analysis on Social Media Text ( http://arxiv.org/abs/2101.09004v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) コード混合(cm)は、発話または文において複数の言語を使用する頻繁に観察される現象である。 CMは主に様々なソーシャルメディアプラットフォームや非公式な会話で行われている。 感性分析(SA)はNLPの基本ステップであり、モノリンガルテキストでよく研究されている。 code-mixingは、その非標準表現のために感情分析に挑戦する。 本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。 提案手法では,リッチテキスト表現のキャプチャにメタ埋め込みを用いた。 提案手法は,「コード混合テキストにおけるドビダ語言語の強調分析」であり,与えられたドヴィダ語コード混合データセットに対して0.58$と0.66$のf1スコアを得た。 コードはGithub https://github.com/s uman101112/fire-2020 -Dravidian-CodeMixで公開されている。

Code-mixing(CM) is a frequently observed phenomenon that uses multiple languages in an utterance or sentence. CM is mostly practiced on various social media platforms and in informal conversations. Sentiment analysis (SA) is a fundamental step in NLP and is well studied in the monolingual text. Code-mixing adds a challenge to sentiment analysis due to its non-standard representations. This paper proposes a meta embedding with a transformer method for sentiment analysis on the Dravidian code-mixed dataset. In our method, we used meta embeddings to capture rich text representations. We used the proposed method for the Task: "Sentiment Analysis for Dravidian Languages in Code-Mixed Text", and it achieved an F1 score of $0.58$ and $0.66$ for the given Dravidian code mixed data sets. The code is provided in the Github https://github.com/s uman101112/fire-2020 -Dravidian-CodeMix.
翻訳日:2021-03-21 02:05:41 公開日:2021-01-22
# (参考訳) HASOCOne@FIRE-HASOC2 020:Hate音声検出のためのBERTモデルと多言語BERTモデル [全文訳有]

HASOCOne@FIRE-HASOC2 020: Using BERT and Multilingual BERT models for Hate Speech Detection ( http://arxiv.org/abs/2101.09007v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) ソーシャルメディアの急激な増加により、現在の世界では、憎しみや有害なコンテンツが重要な関心事となっている。 ヘイトスピーチと有害コンテンツの増加は、研究者がヘイトフルなコンテンツ識別の困難な方向性に多大な努力を捧げるきっかけとなった。 本研究では,ヘイトスピーチと攻撃的コンテンツを自動的に分類する手法を提案する。 FIRE 2019と2020の共有タスクから得られたデータセットを使用しました。 我々は移動学習モデルを利用して実験を行う。 事前学習したBERTモデルと多言語BERTモデルが最良の結果となった。 コードはhttps://github.com/s uman101112/hasoc-fir e-2020で公開されている。

Hateful and Toxic content has become a significant concern in today's world due to an exponential rise in social media. The increase in hate speech and harmful content motivated researchers to dedicate substantial efforts to the challenging direction of hateful content identification. In this task, we propose an approach to automatically classify hate speech and offensive content. We have used the datasets obtained from FIRE 2019 and 2020 shared tasks. We perform experiments by taking advantage of transfer learning models. We observed that the pre-trained BERT model and the multilingual-BERT model gave the best results. The code is made publically available at https://github.com/s uman101112/hasoc-fir e-2020.
翻訳日:2021-03-21 01:53:55 公開日:2021-01-22
# (参考訳) ハイブリッドニューラルネットワークによる特徴選択モデルはテキスト分類を改善するか? [全文訳有]

Does a Hybrid Neural Network based Feature Selection Model Improve Text Classification? ( http://arxiv.org/abs/2101.09009v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) テキスト分類は自然言語処理の分野における根本的な問題である。 テキスト分類は主に、テキストデータを分類するのに役立つすべての関連する特徴をより重要視することに焦点を当てている。 これらとは別に、テキストには冗長性や高い相関性がある。 これらの特徴は分類アルゴリズムの複雑さを高める。 そこで,従来の機械学習分類器を用いて次元削減手法を多数提案した。 機械学習分類器を用いた次元削減手法は良好な結果を得た。 本稿では,様々なフィルタベースの特徴選択手法と高速テキスト分類器を組み合わせることで,関連する特徴を抽出するハイブリッド特徴選択手法を提案する。 次に、特徴選択とニューラルネットワークパイプラインを実装する3つの方法を示す。 ニューラルネットワークと共に特徴選択法を用いる場合のトレーニング時間の短縮を観察した。 また,いくつかのデータセットの精度も若干向上した。

Text classification is a fundamental problem in the field of natural language processing. Text classification mainly focuses on giving more importance to all the relevant features that help classify the textual data. Apart from these, the text can have redundant or highly correlated features. These features increase the complexity of the classification algorithm. Thus, many dimensionality reduction methods were proposed with the traditional machine learning classifiers. The use of dimensionality reduction methods with machine learning classifiers has achieved good results. In this paper, we propose a hybrid feature selection method for obtaining relevant features by combining various filter-based feature selection methods and fastText classifier. We then present three ways of implementing a feature selection and neural network pipeline. We observed a reduction in training time when feature selection methods are used along with neural networks. We also observed a slight increase in accuracy on some datasets.
翻訳日:2021-03-21 01:47:16 公開日:2021-01-22
# (参考訳) 技術領域識別のための多言語事前学習トランスと畳み込みnn分類モデル [全文訳有]

Multilingual Pre-Trained Transformers and Convolutional NN Classification Models for Technical Domain Identification ( http://arxiv.org/abs/2101.09012v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) 本稿では,多言語テキストデータに対して技術領域識別を行うトランスファー学習システムを提案する。 1つは変換器モデルBERTを使用し、もう1つはテキスト分類にXLM-ROBERTaとCNNモデルを用いる。 これらのモデルによって、アイコン2020の共有タスクであるtechdofication: technical domain identificationの与えられた文のドメインを識別することができます。 当社のシステムは,TechDOficationデータセットのサブタスク1d,1gで最良である。

In this paper, we present a transfer learning system to perform technical domain identification on multilingual text data. We have submitted two runs, one uses the transformer model BERT, and the other uses XLM-ROBERTa with the CNN model for text classification. These models allowed us to identify the domain of the given sentences for the ICON 2020 shared Task, TechDOfication: Technical Domain Identification. Our system ranked the best for the subtasks 1d, 1g for the given TechDOfication dataset.
翻訳日:2021-03-21 01:46:25 公開日:2021-01-22
# (参考訳) 個人固定型オブジェクトセグメンテーション : オブジェクトの局在と境界保存 [全文訳有]

Personal Fixations-Based Object Segmentation with Object Localization and Boundary Preservation ( http://arxiv.org/abs/2101.09014v1 )

ライセンス: CC BY 4.0
Gongyang Li and Zhi Liu and Ran Shi and Zheng Hu and Weijie Wei and Yong Wu and Mengke Huang and Haibin Ling(参考訳) 人-コンピュータインタラクションの自然な方法として、修正はインタラクティブなイメージセグメンテーションに有望なソリューションを提供する。 本稿では、PFOS(Personal Fixations-based Object Segmentation)に着目し、適切なデータセットの欠如や修正ベースのインタラクションの曖昧さなど、過去の研究における課題に対処する。 特に,既存の固定化予測データセット上でピクセルレベルのバイナリアノテーションデータを注意深く収集することにより,新しいpfosデータセットを構築する。 そこで, 個人固定の特徴を考慮し, 目視対象を分割する対象局所化と境界保存(OLBP)に基づく新しいネットワークを提案する。 特に、olbpネットワークは、個人固定を解析するためにオブジェクト・ローカライゼーション・モジュール(olm)を使用し、その解釈に基づいて注視されたオブジェクトを見つけ出す。 次に、境界保存モジュール(BPM)は、目視対象の完全性を保護するために追加の境界情報を導入するように設計されている。 さらに,OLBPはボトムアップとトップダウンの混在した方法で構成され,複数の種類の深い監視を行う。 構築されたPFOSデータセットに対する大規模な実験は、提案したOLBPネットワークが17以上の最先端の手法よりも優れていることを示し、提案したOLMおよびBPMコンポーネントの有効性を示す。 構築されたPFOSデータセットと提案されたOLBPネットワークはhttps://github.com/M athLee/OLBPNet4PFOSで利用可能である。

As a natural way for human-computer interaction, fixation provides a promising solution for interactive image segmentation. In this paper, we focus on Personal Fixations-based Object Segmentation (PFOS) to address issues in previous studies, such as the lack of appropriate dataset and the ambiguity in fixations-based interaction. In particular, we first construct a new PFOS dataset by carefully collecting pixel-level binary annotation data over an existing fixation prediction dataset, such dataset is expected to greatly facilitate the study along the line. Then, considering characteristics of personal fixations, we propose a novel network based on Object Localization and Boundary Preservation (OLBP) to segment the gazed objects. Specifically, the OLBP network utilizes an Object Localization Module (OLM) to analyze personal fixations and locates the gazed objects based on the interpretation. Then, a Boundary Preservation Module (BPM) is designed to introduce additional boundary information to guard the completeness of the gazed objects. Moreover, OLBP is organized in the mixed bottom-up and top-down manner with multiple types of deep supervision. Extensive experiments on the constructed PFOS dataset show the superiority of the proposed OLBP network over 17 state-of-the-art methods, and demonstrate the effectiveness of the proposed OLM and BPM components. The constructed PFOS dataset and the proposed OLBP network are available at https://github.com/M athLee/OLBPNet4PFOS.
翻訳日:2021-03-21 01:41:29 公開日:2021-01-22
# (参考訳) 用語エクストラクタを用いた教師なし技術領域用語抽出 [全文訳有]

Unsupervised Technical Domain Terms Extraction using Term Extractor ( http://arxiv.org/abs/2101.09015v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) 用語抽出は、用語抽出としても知られ、情報抽出のサブタスクである。 用語抽出の目標は、与えられたコーパスから関連する単語やフレーズを自動的に抽出することである。 本稿では,アイコン2020共有タスク2における相関関数と凝集関数を用いて,チャンキング,前処理,ランク付けを行う非教師なしのドメイン項抽出手法について述べる。

Terminology extraction, also known as term extraction, is a subtask of information extraction. The goal of terminology extraction is to extract relevant words or phrases from a given corpus automatically. This paper focuses on the unsupervised automated domain term extraction method that considers chunking, preprocessing, and ranking domain-specific terms using relevance and cohesion functions for ICON 2020 shared task 2: TermTraction.
翻訳日:2021-03-21 01:08:41 公開日:2021-01-22
# (参考訳) SkillNER:任意のテキストからのソフトスキルのマイニングとマッピング [全文訳有]

SkillNER: Mining and Mapping Soft Skills from any Text ( http://arxiv.org/abs/2101.11431v1 )

ライセンス: CC BY 4.0
Silvia Fareri, Nicola Melluso, Filippo Chiarello, Gualtiero Fantoni(参考訳) 今日のデジタル世界ではソフトスキルに重点が置かれている。 理由は多々あるが、主な要因は労働市場のダイナミクスの複雑さの増加とデジタル化へのシフトにさかのぼることができる。 デジタル化は、人工知能システムズに買収されることがほとんどないため、ソフトスキルにも焦点を絞っている。 この関心が高まっているにもかかわらず、研究者はソフトスキルの概念を正確に定義し、ソフトスキルの完全な共有リストを作成するのに苦労している。 そこで本論文の目的は,非構造化テキストからソフトスキルを抽出する自動ツールの開発である。 ソフトスキルの最初のシードリストから始めると、ソフトスキルに関するテキスト表現のセットを自動的に収集し、ソフトスキルリストを作成します。 これは、新しいアプローチを開発する科学論文のコーパスに名前付きエンティティ認識(NER)を適用し、テキストからソフトスキルを自動的に抽出できるソフトウェアアプリケーションであるSkillNERを適用することで実現されている。 異なるトレーニングモデルを考慮したツールの性能を測定し,ソフトスキルのリストとesco(european skills/competence qualification and occupation)におけるtransversalとラベルづけされたスキルを比較した。 最後に、ソフトスキルの共有に基づくESCOジョブプロファイル間の関係と、ジョブプロファイルに基づくソフトスキル間の関係を共通して同定し、SkillNERをどのように利用できるかを示す。 ソフトスキルジャーブプロファイルの最終的なマップは、ソフトスキルとは何かを明確に定義し、そのトピックに関する将来の定量的研究を促進する上で、アッカデミアの助けになるかもしれない。

In today's digital world there is an increasing focus on soft skills. The reasons are many, however the main ones can be traced down to the increased complexity of labor market dynamics and the shift towards digitalisation. Digitalisation has also increased the focus on soft skills, since such competencies are hardly acquired by Artificial Intelligence Systems. Despite this growing interest, researchers struggle in accurately defining the soft skill concept and in creating a complete and shared list of soft skills. Therefore, the aim of the present paper is the development of an automated tool capable of extracting soft skills from unstructured texts. Starting from an initial seed list of soft skills, we automatically collect a set of possible textual expressions referring to soft skills, thus creating a Soft Skills list. This has been done by applying Named Entity Recognition (NER) on a corpus of scientific papers developing a novel approach and a software application able to perform the automatic extraction of soft skills from text: the SkillNER. We measured the performance of the tools considering different training models and validated our approach comparing our list of soft skills with the skills labelled as transversal in ESCO (European Skills/Competence Qualification and Occupation). Finally we give a first example of how the SkillNER can be used, identifying the relationships among ESCO job profiles based on soft skills shared, and the relationships among soft skills based on job profiles in common. The final map of soft skills-job profiles may help accademia in achieving and sharing a clearer definition of what soft skills are and fuel future quantitative research on the topic.
翻訳日:2021-03-21 00:48:34 公開日:2021-01-22
# (参考訳) 評価不一致発見 : 文圧縮事例研究 [全文訳有]

Evaluation Discrepancy Discovery: A Sentence Compression Case-study ( http://arxiv.org/abs/2101.09079v1 )

ライセンス: CC BY-SA 4.0
Yevgeniy Puzikov(参考訳) 信頼性評価プロトコルは再現可能なNLP研究において最も重要である。 本研究では,システム性能に関する結論を導き出すには,測定値も従来の評価値も不十分な場合があることを示す。 文圧縮を例題として, システムが確立したデータセットをゲームして最先端の結果を得る方法を示す。 人間の判断と測定値の相関関係を示す以前の研究結果とは対照的に、我々の手動による最先端のシステム出力の分析では、高い測定値がデータに適合するだけでなく、人間の認識した結果よりも良い結果を示すことが示されている。

Reliable evaluation protocols are of utmost importance for reproducible NLP research. In this work, we show that sometimes neither metric nor conventional human evaluation is sufficient to draw conclusions about system performance. Using sentence compression as an example task, we demonstrate how a system can game a well-established dataset to achieve state-of-the-art results. In contrast with the results reported in previous work that showed correlation between human judgements and metric scores, our manual analysis of state-of-the-art system outputs demonstrates that high metric scores may only indicate a better fit to the data, but not better outputs, as perceived by humans.
翻訳日:2021-03-21 00:23:41 公開日:2021-01-22
# (参考訳) ディープフェイクと2020年米大統領選:何が起こるのか [全文訳有]

Deepfakes and the 2020 US elections: what (did not) happen ( http://arxiv.org/abs/2101.09092v1 )

ライセンス: CC BY 4.0
Jo\~ao Paulo Meneses(参考訳) 2016年の米大統領選で起きたと推定される偽情報量に悩まされ、学者、政治、ジャーナリストらは2018年に最初のディープフェイクが発覚した最悪の事態を予測した。 結局のところ、2020年のアメリカ大統領選挙は、アメリカ史上最も安全だと信じられていた。 この論文は、明らかな矛盾についての説明を求めている:我々は、悪意ある政治的ディープフェイクが2020年の米大統領選に影響を及ぼすのを阻止する条件を生み出した、さまざまな種類の警告と恐怖の多角化と共役であると考えている。 これらの警告から,ソーシャルネットワークの積極的な役割,新しい法律,人工知能へのアクセスの困難さ,社会意識の向上の4つの要因を特定した。 しかし、この公式は、米国、2020年の場合に有効であることが証明されているが、他の政治的文脈で繰り返すことができると仮定するのは正しくない。

Alarmed by the volume of disinformation that was assumed to have taken place during the 2016 US elections, scholars, politics and journalists predicted the worst when the first deepfakes began to emerge in 2018. After all, US Elections 2020 were believed to be the most secure in American history. This paper seeks explanations for an apparent contradiction: we believe that it was precisely the multiplication and conjugation of different types of warnings and fears that created the conditions that prevented malicious political deepfakes from affecting the 2020 US elections. From these warnings, we identified four factors (more active role of social networks, new laws, difficulties in accessing Artificial Intelligence and better awareness of society). But while this formula has proven to be effective in the case of the United States, 2020, it is not correct to assume that it can be repeated in other political contexts.
翻訳日:2021-03-21 00:07:46 公開日:2021-01-22
# (参考訳) 動的システムの最適化のためのサロゲートモデル [全文訳有]

Surrogate Models for Optimization of Dynamical Systems ( http://arxiv.org/abs/2101.10189v1 )

ライセンス: CC BY 4.0
Kainat Khowaja, Mykhaylo Shcherbatyy, Wolfgang Karl H\"ardle(参考訳) 力学系の複雑性の増大により、最適化問題における数値シミュレーションによる微分方程式の解法は計算コストが高くなっている。 本稿では,低次元サロゲートモデルを構築するためのスマートデータ駆動機構を提供する。 これらのサロゲートモデルは、真の目的関数の評価から得られたトレーニングインスタンスを使用することで、複雑な最適化問題の解の計算時間を短縮する。 代理モデルは、正規直交分解と放射基底関数を組み合わせて構成され、単純な行列乗算によるシステム応答を提供する。 相対的な絶対誤差を近似の精度の尺度として用いて、ラテンハイパーキューブサンプリングとスプラインラジアル基底関数が精度を保ちながら、最適化の計算時間において変数順序法を支配していることを示す。 これらの代理モデルは、モデル非線型性の存在において堅牢性を示す。 したがって,これらの計算効率の高い予測サーロゲートモデルは様々な分野,特に逆問題や最適制御問題の解法に適用できる。

Driven by increased complexity of dynamical systems, the solution of system of differential equations through numerical simulation in optimization problems has become computationally expensive. This paper provides a smart data driven mechanism to construct low dimensional surrogate models. These surrogate models reduce the computational time for solution of the complex optimization problems by using training instances derived from the evaluations of the true objective functions. The surrogate models are constructed using combination of proper orthogonal decomposition and radial basis functions and provides system responses by simple matrix multiplication. Using relative maximum absolute error as the measure of accuracy of approximation, it is shown surrogate models with latin hypercube sampling and spline radial basis functions dominate variable order methods in computational time of optimization, while preserving the accuracy. These surrogate models also show robustness in presence of model non-linearities. Therefore, these computational efficient predictive surrogate models are applicable in various fields, specifically to solve inverse problems and optimal control problems, some examples of which are demonstrated in this paper.
翻訳日:2021-03-20 23:50:27 公開日:2021-01-22
# (参考訳) 人工知能は地球システムと気候モデルに取って代わるのか? [全文訳有]

Will Artificial Intelligence supersede Earth System and Climate Models? ( http://arxiv.org/abs/2101.09126v1 )

ライセンス: CC BY 4.0
Christopher Irrgang (1), Niklas Boers (2 and 3 and 4), Maike Sonnewald (5 and 6 and 7), Elizabeth A. Barnes (8), Christopher Kadow (9), Joanna Staneva (10), Jan Saynisch-Wagner (1) ((1) Helmholtz Centre Potsdam, German Research Centre for Geosciences GFZ, Potsdam, Germany, (2) Department of Mathematics and Computer Science, Free University of Berlin, Germany, (3) Potsdam Institute for Climate Impact Research, Potsdam, Germany (4) Department of Mathematics and Global Systems Institute, University of Exeter, Exeter, UK (5) Program in Atmospheric and Oceanic Sciences, Princeton University, Princeton, USA (6) NOAA/OAR Geophysical Fluid Dynamics Laboratory, Ocean and Cryosphere Division, Princeton, USA (7) University of Washington, School of Oceanography, Seattle, USA (8) Colorado State University, Fort Collins, USA (9) German Climate Computing Center DKRZ, Hamburg, Germany (10) Helmholtz-Zentrum Geesthacht, Center for Material and Coastal Research HZG, Geesthacht, Germany)(参考訳) 我々は、深層ニューラルネットワークと地球系モデルが個別の方法論的アプローチとして分解され、学習、自己検証、解釈可能な地球系モデル-ネットワークハイブリッドとして再組み立てされる、地球と気候科学における全く新しい研究分野の視点を概説する。 この道を辿って、我々は"Neural Earth System Modelling"(NESYM)という用語を作り、地球と気候の科学者、ビッグデータアナリスト、AI専門家をまとめて、学際的な議論プラットフォームの必要性を強調します。 我々はニューラルアース・システム・モデリングの同時可能性と落とし穴について検討し、人工知能がアース・システム・モデリングを注入するだけでなく、最終的に時代遅れにするかどうかというオープンな疑問を議論する。

We outline a perspective of an entirely new research branch in Earth and climate sciences, where deep neural networks and Earth system models are dismantled as individual methodological approaches and reassembled as learning, self-validating, and interpretable Earth system model-network hybrids. Following this path, we coin the term "Neural Earth System Modelling" (NESYM) and highlight the necessity of a transdisciplinary discussion platform, bringing together Earth and climate scientists, big data analysts, and AI experts. We examine the concurrent potential and pitfalls of Neural Earth System Modelling and discuss the open question whether artificial intelligence will not only infuse Earth system modelling, but ultimately render them obsolete.
翻訳日:2021-03-20 23:27:53 公開日:2021-01-22
# (参考訳) LTEラジオ周波数カウンタと機械学習を用いた交通流推定 [全文訳有]

Traffic Flow Estimation using LTE Radio Frequency Counters and Machine Learning ( http://arxiv.org/abs/2101.09143v1 )

ライセンス: CC BY 4.0
Forough Yaghoubi (1), Armin Catovic (2), Arthur Gusmao (1), Jan Pieczkowski (1), Peter Boros (1) ((1) Ericsson AB, (2) Schibsted Media Group)(参考訳) 車両需要が新道路の建設を上回り続ける中、既存の交通インフラの活用を改善する戦略を実施することが不可欠となる。 交通センサーは多くの戦略の重要な部分を形成し、道路利用に関する貴重な洞察を与えてくれます。 しかし、交通センサの設置と整備に伴うコストとリード時間により、自治体や交通当局は安価でスケーラブルな代替手段を模索している。 ユビキタスな性質と広範なグローバル展開のため、セルラーネットワークはそのような代替手段を提供する。 本稿では,LTE/4G無線周波数性能測定カウンタを用いたトラフィックフロー推定手法を提案する。 この問題は古典的手法と深層学習法の両方を用いて教師付き回帰タスクとしてキャストされる。 さらに、多くのロケーションにトレーニングに使用できるトラフィックセンサデータがないことを補うために、転送学習を適用する。 われわれのアプローチは、時間だけでなく空間(すなわち都市の様々な部分)でも解を一般化するために移動学習を適用することの利点を示す。 結果は非常に有望であり、競合するソリューションとは異なり、当社のアプローチはLTEの電波カウンタデータを利用しており、これは本質的にプライバシーを保護し、容易に利用できる。

As the demand for vehicles continues to outpace construction of new roads, it becomes imperative we implement strategies that improve utilization of existing transport infrastructure. Traffic sensors form a crucial part of many such strategies, giving us valuable insights into road utilization. However, due to cost and lead time associated with installation and maintenance of traffic sensors, municipalities and traffic authorities look toward cheaper and more scalable alternatives. Due to their ubiquitous nature and wide global deployment, cellular networks offer one such alternative. In this paper we present a novel method for traffic flow estimation using standardized LTE/4G radio frequency performance measurement counters. The problem is cast as a supervised regression task using both classical and deep learning methods. We further apply transfer learning to compensate that many locations lack traffic sensor data that could be used for training. We show that our approach benefits from applying transfer learning to generalize the solution not only in time but also in space (i.e., various parts of the city). The results are very promising and, unlike competing solutions, our approach utilizes aggregate LTE radio frequency counter data that is inherently privacy-preserving, readily available, and scales globally without any additional network impact.
翻訳日:2021-03-20 23:08:23 公開日:2021-01-22
# (参考訳) 共同音声認識と翻訳のためのストリーミングモデル [全文訳有]

Streaming Models for Joint Speech Recognition and Translation ( http://arxiv.org/abs/2101.09149v1 )

ライセンス: CC BY 4.0
Orion Weller and Matthias Sperber and Christian Gollan and Joris Kluivers(参考訳) 音声翻訳(ST)のエンドツーエンドモデルの使用がSTコミュニティの焦点となっている。 これらのモデルは、音波を直接翻訳テキストに変換することによって、以前にカスケードされたシステムを凝縮する。 しかし、カスケードモデルには自動音声認識出力を含める利点があり、翻訳と共にユーザに対してしばしば書き起こしを表示する様々な実用的なSTシステムに有用である。 このギャップを埋めるために、最近の研究は、両方の出力を生成するエンド・ツー・エンド・モデルの実現可能性に関する最初の進歩を示している。 しかしながら、以前のすべての作業は、この問題を連続的な観点からのみ検討しており、これらのアプローチがより困難なストリーミング環境において有効であるかどうかに不確実性を残している。 我々は,再翻訳方式に基づくエンドツーエンドストリーミングstモデルを開発し,標準カスケード方式と比較する。 また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。 我々の評価は、精度、レイテンシ、一貫性を計測する様々な指標において、我々のエンドツーエンドモデルは統計的にカスケードモデルに似ており、パラメータの数が半分であることを示している。 また、両方のシステムが低レイテンシで強力な翻訳品質を提供し、連続品質の99%を1秒未満の遅延で保持していることも分かりました。

Using end-to-end models for speech translation (ST) has increasingly been the focus of the ST community. These models condense the previously cascaded systems by directly converting sound waves into translated text. However, cascaded models have the advantage of including automatic speech recognition output, useful for a variety of practical ST systems that often display transcripts to the user alongside the translations. To bridge this gap, recent work has shown initial progress into the feasibility for end-to-end models to produce both of these outputs. However, all previous work has only looked at this problem from the consecutive perspective, leaving uncertainty on whether these approaches are effective in the more challenging streaming setting. We develop an end-to-end streaming ST model based on a re-translation approach and compare against standard cascading approaches. We also introduce a novel inference method for the joint case, interleaving both transcript and translation in generation and removing the need to use separate decoders. Our evaluation across a range of metrics capturing accuracy, latency, and consistency shows that our end-to-end models are statistically similar to cascading models, while having half the number of parameters. We also find that both systems provide strong translation quality at low latency, keeping 99% of consecutive quality at a lag of just under a second.
翻訳日:2021-03-20 22:55:28 公開日:2021-01-22
# (参考訳) 高次元データからのコムーブメントネットワークのスパーシスタントフィルタリング

Sparsistent filtering of comovement networks from high-dimensional data ( http://arxiv.org/abs/2101.09174v1 )

ライセンス: CC BY 4.0
Arnab Chakrabarti and Anindya S. Chakrabarti(参考訳) ネットワークフィルタリングは、大規模かつ相互接続された複雑なシステムの中核成分を分離するための次元減少の重要な形態である。 本稿では,構成ノードの動的挙動から発生する大次元ネットワークをフィルタリングし,そのスペクトル特性を生かした新しい手法を提案する。 実現したネットワークの重要トポロジ特性の保存に依存するよく知られたネットワークフィルタとは対照的に,本手法ではスペクトルを基本対象として扱い,スペクトル特性の保存を行う。 フィルタの高次元データに対する漸近理論を適用し、線形収縮推定器から最小スペクトル距離を持ちながら、空間性と一貫性を誘導するゼロフィルタから最大フィルタへの補間を調整可能であることを示す。 提案するフィルタを金融データから構築した共分散ネットワークに適用し,全サンプルネットワークに埋め込まれた鍵サブネットワークを抽出する。

Network filtering is an important form of dimension reduction to isolate the core constituents of large and interconnected complex systems. We introduce a new technique to filter large dimensional networks arising out of dynamical behavior of the constituent nodes, exploiting their spectral properties. As opposed to the well known network filters that rely on preserving key topological properties of the realized network, our method treats the spectrum as the fundamental object and preserves spectral properties. Applying asymptotic theory for high dimensional data for the filter, we show that it can be tuned to interpolate between zero filtering to maximal filtering that induces sparsity and consistency while having the least spectral distance from a linear shrinkage estimator. We apply our proposed filter to covariance networks constructed from financial data, to extract the key subnetwork embedded in the full sample network.
翻訳日:2021-03-20 22:40:43 公開日:2021-01-22
# (参考訳) gravity optimizer: ディープラーニングにおける最適化に関するキネマティックなアプローチ

Gravity Optimizer: a Kinematic Approach on Optimization in Deep Learning ( http://arxiv.org/abs/2101.09192v1 )

ライセンス: CC BY 4.0
Dariush Bahrami, Sadegh Pouriyan Zadeh(参考訳) グラデーションに基づく最適化のための別のアルゴリズムであるgravityを紹介する。 本稿では,ディープラーニングモデルの損失を減らすために,新しいアイデアがパラメータをどう変えるかを説明する。 直感的な3つのハイパーパラメータを持ち、それらの最良の値が提案されます。 また,移動平均の代替案を提案する。 GravityオプティマイザのパフォーマンスをAdamとRMSPropの2つの一般的なオプティマイザと比較するために、5つの標準データセットを2つのVGGNetモデルでトレーニングした。 重力ハイパーパラメータは異なるモデルのために調整される必要はない。 本稿で説明するように、最適化器自体の損失低減効果を直接検討するためにオーバーフィッティング防止技術は使用されなかった。 その結果,GravityオプティマイザはAdamやRMSPropよりも安定した性能を示し,CIFAR-100(Fine)のような出力クラスを持つデータセットに対する検証精度が向上した。

We introduce Gravity, another algorithm for gradient-based optimization. In this paper, we explain how our novel idea change parameters to reduce the deep learning model's loss. It has three intuitive hyper-parameters that the best values for them are proposed. Also, we propose an alternative to moving average. To compare the performance of the Gravity optimizer with two common optimizers, Adam and RMSProp, five standard datasets were trained on two VGGNet models with a batch size of 128 for 100 epochs. Gravity hyper-parameters did not need to be tuned for different models. As will be explained more in the paper, to investigate the direct impact of the optimizer itself on loss reduction no overfitting prevention technique was used. The obtained results show that the Gravity optimizer has more stable performance than Adam and RMSProp and gives greater values of validation accuracy for datasets with more output classes like CIFAR-100 (Fine).
翻訳日:2021-03-20 22:39:46 公開日:2021-01-22
# (参考訳) 金融時系列とポートフォリオ選択のためのグラフィカルモデル [全文訳有]

Graphical Models for Financial Time Series and Portfolio Selection ( http://arxiv.org/abs/2101.09214v1 )

ライセンス: CC BY 4.0
Ni Zhan, Yijia Sun, Aman Jakhar, He Liu(参考訳) 最適なポートフォリオを構築するために,様々なグラフィカルモデルを検討する。 PCA-KMeans、オートエンコーダ、動的クラスタリング、構造学習などのグラフィカルモデルは、共分散行列の時間変化パターンをキャプチャし、最適かつ堅牢なポートフォリオを作成することができる。 異なるモデルから得られたポートフォリオをベースラインメソッドと比較した。 多くの場合、我々のグラフィカル戦略はリスクの低いリターンを着実に増加させ、S&P 500指数を上回ります。 この研究は、グラフィックモデルが時系列データの時間依存性を効果的に学習でき、アセットマネジメントにおいて有用であることが証明されている。

We examine a variety of graphical models to construct optimal portfolios. Graphical models such as PCA-KMeans, autoencoders, dynamic clustering, and structural learning can capture the time varying patterns in the covariance matrix and allow the creation of an optimal and robust portfolio. We compared the resulting portfolios from the different models with baseline methods. In many cases our graphical strategies generated steadily increasing returns with low risk and outgrew the S&P 500 index. This work suggests that graphical models can effectively learn the temporal dependencies in time series data and are proved useful in asset management.
翻訳日:2021-03-20 22:38:42 公開日:2021-01-22
# (参考訳) 限られたデータによる生成モデルの連続学習--wasserstein-1 barycenterから適応的合体へ [全文訳有]

Continual Learning of Generative Models with Limited Data: From Wasserstein-1 Barycenter to Adaptive Coalescence ( http://arxiv.org/abs/2101.09225v1 )

ライセンス: CC BY 4.0
Mehmet Dedeoglu, Sen Lin, Zhaofeng Zhang, Junshan Zhang(参考訳) データと計算能力に制限のあるネットワークエッジノードでは、生成モデルの学習が難しい。 類似した環境におけるタスクはモデル類似性を共有するため、クラウドや他のエッジノードから事前訓練された生成モデルを活用することは可能である。 本研究は,WGAN(Wasserstein-1 Generative Adversarial Network)に適合する最適輸送理論に特化して,事前学習した生成モデルの適応的合理化を生かしながら,エッジノードにおける局所データを用いた生成モデルの連続的学習を体系的に最適化するフレームワークを開発することを目的とする。 具体的には、事前学習されたモデルを中心に、他のノードからの知識伝達をwasserstein ballとして扱うことにより、生成モデルの継続的な学習を制約付き最適化問題としてキャストし、さらにwasserstein-1のバリセンタ問題に還元する。 1)事前学習したモデルのバリセンタをオフラインで計算し、そこで変位補間を「再帰的」なWGAN構成により適応的なバリセンタを見つけるための理論基盤として使用し、2)連続学習のためのメタモデル初期化として計算したバリセンタをオフラインとし、次に高速適応を行い、ターゲットエッジノードの局所サンプルを用いて生成モデルを求める。 最後に、重みの連成最適化と量子化しきい値に基づく重み三元化法を開発し、生成モデルをさらに圧縮する。

Learning generative models is challenging for a network edge node with limited data and computing power. Since tasks in similar environments share model similarity, it is plausible to leverage pre-trained generative models from the cloud or other edge nodes. Appealing to optimal transport theory tailored towards Wasserstein-1 generative adversarial networks (WGAN), this study aims to develop a framework which systematically optimizes continual learning of generative models using local data at the edge node while exploiting adaptive coalescence of pre-trained generative models. Specifically, by treating the knowledge transfer from other nodes as Wasserstein balls centered around their pre-trained models, continual learning of generative models is cast as a constrained optimization problem, which is further reduced to a Wasserstein-1 barycenter problem. A two-stage approach is devised accordingly: 1) The barycenters among the pre-trained models are computed offline, where displacement interpolation is used as the theoretic foundation for finding adaptive barycenters via a "recursive" WGAN configuration; 2) the barycenter computed offline is used as meta-model initialization for continual learning and then fast adaptation is carried out to find the generative model using the local samples at the target edge node. Finally, a weight ternarization method, based on joint optimization of weights and threshold for quantization, is developed to compress the generative model further.
翻訳日:2021-03-20 22:30:11 公開日:2021-01-22
# (参考訳) Stimulusはどこへ行くのか? 商業銀行預金の深部生成モデル [全文訳有]

Where does the Stimulus go? Deep Generative Model for Commercial Banking Deposits ( http://arxiv.org/abs/2101.09230v1 )

ライセンス: CC BY 4.0
Ni Zhan(参考訳) 本稿では,米国の銀行業における個人(「リテール」)と大企業(「wholesale」)の預金状況と,量的緩和(qe)などのマクロ経済要因の影響について検討する。 ホルダーによる預金の実際のデータは利用できない。 我々は、銀行の財務情報と確率的生成モデルに基づくデータセットを用いて、2000年から2020年にかけての業界小売店預金の予測を行う。 我々のモデルは、実際の銀行のメトリクスとモデルの生成過程を用いたシミュレーションメトリクスの誤差を最小化することにより、小売店のログ正規分布と流通の適合パラメータから口座残高を推定する。 我々は、金融当局の融資、小売ローン、準備残高の関数として、リテール・wholesale depositsを予測するために時系列回帰を利用する。 備蓄量の増加(QEの表れ)は、売り場を増やすが小売地ではなく、売り場と小売地の両方を均等に増加させる。 その結果、2008年の金融危機後のqeは、平均的個人以上の大企業に利益をもたらし、経済的な意思決定に関連する発見となった。 さらに、この作業は、小売店預金の予測能力を提供することで、銀行経営戦略の恩恵を受ける。

This paper examines deposits of individuals ("retail") and large companies ("wholesale") in the U.S. banking industry, and how these deposit types are impacted by macroeconomic factors, such as quantitative easing (QE). Actual data for deposits by holder are unavailable. We use a dataset on banks' financial information and probabilistic generative model to predict industry retail-wholesale deposit split from 2000 to 2020. Our model assumes account balances arise from separate retail and wholesale lognormal distributions and fit parameters of distributions by minimizing error between actual bank metrics and simulated metrics using the model's generative process. We use time-series regression to forward predict retail-wholesale deposits as function of loans, retail loans, and reserve balances at Fed banks. We find increase in reserves (representing QE) increases wholesale but not retail deposits, and increase in loans increase both wholesale and retail deposits evenly. The result shows that QE following the 2008 financial crisis benefited large companies more than average individuals, a relevant finding for economic decision making. In addition, this work benefits bank management strategy by providing forecasting capability for retail-wholesale deposits.
翻訳日:2021-03-20 21:32:34 公開日:2021-01-22
# (参考訳) 深層学習を用いたTOF-MRAにおける脳血管の自動抽出 [全文訳有]

Automatic Cerebral Vessel Extraction in TOF-MRA Using Deep Learning ( http://arxiv.org/abs/2101.09253v1 )

ライセンス: CC BY 4.0
V. de Vos, K.M. Timmins, I.C. van der Schaaf, Y. Ruigrok, B.K. Velthuis, H.J. Kuijf(参考訳) 深層学習アプローチは、脳血管疾患の早期診断とタイムリーな治療に役立つ可能性がある。 Time-of-light Magnetic Resonance Angiographs (TOF-MRAs) の正確な脳血管分割は、この過程において重要なステップである。 本研究では,TOF-MRAの自動,高速,高精度な脳血管セグメンテーションのためのディープラーニングアプローチについて検討した。 a) 血管分割のための2dおよび3d u-net訓練のためのデータ拡張および選択手法の性能を, a) 拡張なし, b) ガウス的ボケ, c) 回転とフリップ, d) ガウス的ボケ, 回転とフリップ, e) 異なる入力パッチサイズで検討した。 全ての実験は2Dと3DのU-Netのパッチトレーニングによって行われ、MRAのテストセットで予測された。 ground truthはインタラクティブなしきい値と領域成長法を用いて手動で定義した。 Dice similarity Coefficient (DSC), Modified Hausdorff Distance and Volumetric similarity を用いて, 予測画像と対話的に定義された接地真実を比較検討した。 テストセット上のすべてのトレーニングされたネットワークのセグメンテーション性能は良好であり、dscスコアは 0.72 から 0.83 である。 2Dと3DのU-Netはどちらも、強化されていない他の実験と比べ、ガウスのぼかし、回転、反転で最高のセグメンテーション性能を持っていた。 さらに、より大きなパッチやスライスをトレーニングすることで、最適なセグメンテーション結果が得られる。 以上の結果から,TOF-MRAでは,ガウスのぼかし,回転,旋回などのデータ拡張を行う3次元U-Netを用いて血管分割を最適に行うことができた。

Deep learning approaches may help radiologists in the early diagnosis and timely treatment of cerebrovascular diseases. Accurate cerebral vessel segmentation of Time-of-Flight Magnetic Resonance Angiographs (TOF-MRAs) is an essential step in this process. This study investigates deep learning approaches for automatic, fast and accurate cerebrovascular segmentation for TOF-MRAs. The performance of several data augmentation and selection methods for training a 2D and 3D U-Net for vessel segmentation was investigated in five experiments: a) without augmentation, b) Gaussian blur, c) rotation and flipping, d) Gaussian blur, rotation and flipping and e) different input patch sizes. All experiments were performed by patch-training both a 2D and 3D U-Net and predicted on a test set of MRAs. Ground truth was manually defined using an interactive threshold and region growing method. The performance was evaluated using the Dice Similarity Coefficient (DSC), Modified Hausdorff Distance and Volumetric Similarity, between the predicted images and the interactively defined ground truth. The segmentation performance of all trained networks on the test set was found to be good, with DSC scores ranging from 0.72 to 0.83. Both the 2D and 3D U-Net had the best segmentation performance with Gaussian blur, rotation and flipping compared to other experiments without augmentation or only one of those augmentation techniques. Additionally, training on larger patches or slices gave optimal segmentation results. In conclusion, vessel segmentation can be optimally performed on TOF-MRAs using a trained 3D U-Net on larger patches, where data augmentation including Gaussian blur, rotation and flipping was performed on the training data.
翻訳日:2021-03-20 21:09:51 公開日:2021-01-22
# (参考訳) 観測・干渉データを用いた文脈特化因数モデルの表現と学習

Representation and Learning of Context-Specific Causal Models with Observational and Interventional Data ( http://arxiv.org/abs/2101.09271v1 )

ライセンス: CC BY 4.0
Eliana Duarte, Liam Solus(参考訳) 本稿では,文脈固有の情報を離散データにエンコードする因果モデルの表現と学習の問題を考える。 そのようなモデルを表現するために、CStreesのクラスを定義します。 このクラスはステージドツリーモデルのサブクラスであり、DAGモデルのコンテキスト固有の情報をステージドツリーまたは同等にDAGのコレクションによって取得する。 我々は、DAGのグローバルマルコフ特性を一般化するCStreeで符号化された非対称な条件独立関係の完全集合を特徴づける。 その結果,DAGモデルに対してVermaとPearlを一般化したCSツリーのモデル等価性のグラフィカルな特徴付けが得られる。 また, cstree の最大確率推定器に対する閉形式式を提供し, ベイズ情報量基準がこのモデルクラスに対して局所的に一貫したスコア関数であることを示す。 次に、段階木モデルにおける一般介入の理論を用いて、大域マルコフ特性と cstree における一般介入に対するモデル同値のキャラクタリゼーションを提供する。 例えば、これらの結果を2つの実際のデータセットに適用し、それぞれのbic-optimal cstreeを学習し、コンテキスト固有の因果構造を分析する。

We consider the problem of representation and learning of causal models that encode context-specific information for discrete data. To represent such models we define the class of CStrees. This class is a subclass of staged tree models that captures context-specific information in a DAG model by the use of a staged tree, or equivalently, by a collection of DAGs. We provide a characterization of the complete set of asymmetric conditional independence relations encoded by a CStree that generalizes the global Markov property for DAGs. As a consequence, we obtain a graphical characterization of model equivalence for CStrees generalizing that of Verma and Pearl for DAG models. We also provide a closed-form formula for the maximum likelihood estimator of a CStree and use it to show that the Bayesian Information Criterion is a locally consistent score function for this model class. We then use the theory for general interventions in staged tree models to provide a global Markov property and a characterization of model equivalence for general interventions in CStrees. As examples, we apply these results to two real data sets, learning BIC-optimal CStrees for each and analyzing their context-specific causal structure.
翻訳日:2021-03-20 21:01:56 公開日:2021-01-22
# (参考訳) オンライン百科事典の検閲:NLPモデルへの示唆 [全文訳有]

Censorship of Online Encyclopedias: Implications for NLP Models ( http://arxiv.org/abs/2101.09294v1 )

ライセンス: CC BY 4.0
Eddie Yang, Margaret E. Roberts(参考訳) 人工知能は、世界中の人々が使っている多くのツールのバックボーンを提供するが、最近の研究は、AIを動かすアルゴリズムには政治、ステレオタイプ、バイアスがないことに注意を向けている。 この分野のほとんどの研究は、AIが既存の不平等と差別を悪化させる方法に焦点を当ててきたが、政府がトレーニングデータを積極的に形成する方法を研究する研究はほとんどない。 検閲がウィキペディアコーパス(NLPアルゴリズムへの事前学習入力に定期的に使用されるテキストデータ)の開発にどのように影響したかを述べる。 百度百科事典(百度百科事典)でトレーニングされた単語埋め込みは、通常ブロックされているが検閲されていない中国語ウィキペディアとは大きく異なる形容詞と、民主主義、自由、集団行動、平等、そして中国の歴史的出来事に関する様々な概念の関連があることを示している。 本稿では、下流AIアプリケーションにおけるそれらの利用について研究することによって、これらの不一致の影響について検討する。 本稿は、政府による抑圧、検閲、および自己検閲が、トレーニングデータおよびそれらから引き出すアプリケーションにどのように影響するかを示す。

While artificial intelligence provides the backbone for many tools people use around the world, recent work has brought to attention that the algorithms powering AI are not free of politics, stereotypes, and bias. While most work in this area has focused on the ways in which AI can exacerbate existing inequalities and discrimination, very little work has studied how governments actively shape training data. We describe how censorship has affected the development of Wikipedia corpuses, text data which are regularly used for pre-trained inputs into NLP algorithms. We show that word embeddings trained on Baidu Baike, an online Chinese encyclopedia, have very different associations between adjectives and a range of concepts about democracy, freedom, collective action, equality, and people and historical events in China than its regularly blocked but uncensored counterpart - Chinese language Wikipedia. We examine the implications of these discrepancies by studying their use in downstream AI applications. Our paper shows how government repression, censorship, and self-censorship may impact training data and the applications that draw from them.
翻訳日:2021-03-20 20:54:48 公開日:2021-01-22
# (参考訳) 児童文学のフィリピン可読性向上に向けた語彙的特徴の適用 [全文訳有]

Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature ( http://arxiv.org/abs/2101.10537v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial, Ethel Ong(参考訳) 児童の読書教材の適度な識別は,効果的な学習に向けた重要なステップである。 英語領域における可読性評価の最近の研究は、機械学習(ML)技術などの自然言語処理(NLP)に現代的なアプローチを適用してプロセスを自動化する。 また、可読性の公式をモデル化するときに正しい言語的特徴を抽出する必要もある。 フィリピン語の文脈では、特に語彙の複雑さを主な特徴として考慮して、限られた作業が [1, 2] 行われている。 本稿では,フィリピン語で書かれた児童書の可読性識別性向上のための語彙特徴の利用について検討する。 その結果, 文長, 平均音節長, 多音節語, 単語, 文数, 句数など, 従来からある特徴量 (TRAD) を用いた語彙的特徴量 (LEX) は, 可読性モデルの性能をほぼ5%(42%から47.2%)向上させた。 最も重要な機能のさらなる分析とランキングが示され、どの機能が読みの複雑さの点で最も寄与するかが特定された。

Proper identification of grade levels of children's reading materials is an important step towards effective learning. Recent studies in readability assessment for the English domain applied modern approaches in natural language processing (NLP) such as machine learning (ML) techniques to automate the process. There is also a need to extract the correct linguistic features when modeling readability formulas. In the context of the Filipino language, limited work has been done [1, 2], especially in considering the language's lexical complexity as main features. In this paper, we explore the use of lexical features towards improving the development of readability identification of children's books written in Filipino. Results show that combining lexical features (LEX) consisting of type-token ratio, lexical density, lexical variation, foreign word count with traditional features (TRAD) used by previous works such as sentence length, average syllable length, polysyllabic words, word, sentence, and phrase counts increased the performance of readability models by almost a 5% margin (from 42% to 47.2%). Further analysis and ranking of the most important features were shown to identify which features contribute the most in terms of reading complexity.
翻訳日:2021-03-20 20:10:02 公開日:2021-01-22
# (参考訳) シーケンス予測のためのk$-neighborに基づくカリキュラムサンプリング [全文訳有]

$k$-Neighbor Based Curriculum Sampling for Sequence Prediction ( http://arxiv.org/abs/2101.09313v1 )

ライセンス: CC BY 4.0
James O' Neill and Danushka Bollegala(参考訳) 言語モデルにおける多段階の事前予測は、トレーニングとテスト時間プロセスの相違により困難である。 テスト時には、トレーニング中に提供される過去のターゲットではなく、過去の予測を入力として予測するためにシーケンス予測器が必要とされる。 この違いは、露光バイアスとして知られるが、テスト時に生成されたシーケンスに沿ってエラーが複合される可能性がある。 ニューラルネットワークモデルの一般化と複合化エラーに対処するために,まずは決定論的教師方針を徐々に確率的方針に変更するカリキュラム学習に基づく手法である \textit{nearest-neighbor replacement sampling} を提案する。 与えられた時間ステップのトークンは、元の単語と最上位の$k$の類似語との間のコサイン類似度に比例する断続確率を持つ過去のターゲットの最も近い近傍のサンプルに置き換えられる。 これにより、教師が提供した現在の方針が最適でない場合や学習が難しい場合、学習者は代替案を探索することができる。 提案手法は簡単で、オンラインであり、追加のメモリ要求はほとんど不要である。 本稿では,2つの言語モデルベンチマークについて報告し,提案手法がスケジュールされたサンプリングと併用することで,さらなる性能向上が期待できることを示す。

Multi-step ahead prediction in language models is challenging due to the discrepancy between training and test time processes. At test time, a sequence predictor is required to make predictions given past predictions as the input, instead of the past targets that are provided during training. This difference, known as exposure bias, can lead to the compounding of errors along a generated sequence at test time. To improve generalization in neural language models and address compounding errors, we propose \textit{Nearest-Neighbor Replacement Sampling} -- a curriculum learning-based method that gradually changes an initially deterministic teacher policy to a stochastic policy. A token at a given time-step is replaced with a sampled nearest neighbor of the past target with a truncated probability proportional to the cosine similarity between the original word and its top $k$ most similar words. This allows the learner to explore alternatives when the current policy provided by the teacher is sub-optimal or difficult to learn from. The proposed method is straightforward, online and requires little additional memory requirements. We report our findings on two language modelling benchmarks and find that the proposed method further improves performance when used in conjunction with scheduled sampling.
翻訳日:2021-03-20 20:00:01 公開日:2021-01-22
# (参考訳) ワッサーシュタイン距離によるタイター予測一般化誤差境界 [全文訳有]

Tighter expected generalization error bounds via Wasserstein distance ( http://arxiv.org/abs/2101.09315v1 )

ライセンス: CC BY 4.0
Borja Rodr\'iguez-G\'alvez, Germ\'an Bassi, Ragnar Thobaben, and Mikael Skoglund(参考訳) 本研究では,wasserstein距離に基づくいくつかの一般化誤差境界を導入する。 より正確には、steinke と zakynthinou [2020] の標準設定とランダム化サブサンプル設定の両方において、フルデータセット、シングルレター、ランダムサブセット境界を示す。 さらに、損失関数が有界であれば、相対エントロピーに基づいて下方(したがってより)の電流境界からこれらの境界が回復し、標準設定では、相対エントロピーにもとづいて、新しい空でない境界を生成することを示した。 そこで,提案手法を用いて,逆流路を特徴とする類似境界を導出できることを示す。 最後に、異なる情報測度(例えば、ラウタム情報またはいくつかの$f$-divergences)に基づく様々な新しい境界が、提示された境界から導出できることを示す。

In this work, we introduce several expected generalization error bounds based on the Wasserstein distance. More precisely, we present full-dataset, single-letter, and random-subset bounds on both the standard setting and the randomized-subsample setting from Steinke and Zakynthinou [2020]. Moreover, we show that, when the loss function is bounded, these bounds recover from below (and thus are tighter than) current bounds based on the relative entropy and, for the standard setting, generate new, non-vacuous bounds also based on the relative entropy. Then, we show how similar bounds featuring the backward channel can be derived with the proposed proof techniques. Finally, we show how various new bounds based on different information measures (e.g., the lautum information or several $f$-divergences) can be derived from the presented bounds.
翻訳日:2021-03-20 19:58:23 公開日:2021-01-22
# (参考訳) LiDARの3Dポイントクラウドにおける機械学習 [全文訳有]

Machine Learning in LiDAR 3D point clouds ( http://arxiv.org/abs/2101.09318v1 )

ライセンス: CC BY 4.0
F. Patricia Medina, Randy Paffenroth(参考訳) LiDAR点雲には複雑な自然景観の測定が含まれており、デジタル標高モデル、氷河モニタリング、断層の検出、隆起検出、森林在庫、海岸線と海浜の体積変化の検出、地すべりリスク分析、生息地マッピング、都市開発などの更新に利用できる。 非常に重要な応用は、3dクラウドを初等クラスに分類することです。 例えば、植生、人工構造物、水との区別に使用できる。 我々の目標は,複数種類の特徴工学を含む3DポイントクラウドLiDARデータの分類に関する予備的な比較研究を行うことである。 特に,LiDAR点クラウドの各点に隣接する点に関する情報を付加することで,下流学習アルゴリズムの性能を向上させることができることを示す。 また、主成分分析(PCA)からニューラルネットワークベースのオートエンコーダまで、いくつかの次元削減戦略を実験し、LiDAR点雲の分類性能にどのように影響するかを実証した。 例えば、機能工学とPCAのような手法の次元削減を組み合わせることで、生データとの直接的な分類を行う上で、分類の精度が向上することが観察できる。

LiDAR point clouds contain measurements of complicated natural scenes and can be used to update digital elevation models, glacial monitoring, detecting faults and measuring uplift detecting, forest inventory, detect shoreline and beach volume changes, landslide risk analysis, habitat mapping, and urban development, among others. A very important application is the classification of the 3D cloud into elementary classes. For example, it can be used to differentiate between vegetation, man-made structures, and water. Our goal is to present a preliminary comparison study for the classification of 3D point cloud LiDAR data that includes several types of feature engineering. In particular, we demonstrate that providing context by augmenting each point in the LiDAR point cloud with information about its neighboring points can improve the performance of downstream learning algorithms. We also experiment with several dimension reduction strategies, ranging from Principal Component Analysis (PCA) to neural network-based auto-encoders, and demonstrate how they affect classification performance in LiDAR point clouds. For instance, we observe that combining feature engineering with a dimension reduction a method such as PCA, there is an improvement in the accuracy of the classification with respect to doing a straightforward classification with the raw data.
翻訳日:2021-03-20 19:03:43 公開日:2021-01-22
# (参考訳) ハナビにおける深層強化学習の心の理論 [全文訳有]

Theory of Mind for Deep Reinforcement Learning in Hanabi ( http://arxiv.org/abs/2101.09328v1 )

ライセンス: CC BY 4.0
Andrew Fuchs, Michael Walton, Theresa Chadwick, Doug Lange(参考訳) 部分的に観察可能なカードゲームであるハナビは、暗黙のコミュニケーション慣行への依存と、効果的なプレーのためのマインド推論の理論の必要性から、新しいAI課題として最近提案されている。 本研究では,強化学習エージェントに心の理論を付与し,効率的な協調戦略を見出すためのメカニズムを提案する。 この研究の主な貢献は次の3つである: 第一に、ハナビにおけるハンド確率の計算可能機構の正式な定義。 第二に、従来の深層強化学習の拡張であり、有限ネストされた心的信念階層の理論を推論する。 最後に、エージェントに戦略的に関連するプライベート知識をチームメイトと共有させるインセンティブを与える心の理論によって実現される本質的な報酬メカニズム。 我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。

The partially observable card game Hanabi has recently been proposed as a new AI challenge problem due to its dependence on implicit communication conventions and apparent necessity of theory of mind reasoning for efficient play. In this work, we propose a mechanism for imbuing Reinforcement Learning agents with a theory of mind to discover efficient cooperative strategies in Hanabi. The primary contributions of this work are threefold: First, a formal definition of a computationally tractable mechanism for computing hand probabilities in Hanabi. Second, an extension to conventional Deep Reinforcement Learning that introduces reasoning over finitely nested theory of mind belief hierarchies. Finally, an intrinsic reward mechanism enabled by theory of mind that incentivizes agents to share strategically relevant private knowledge with their teammates. We demonstrate the utility of our algorithm against Rainbow, a state-of-the-art Reinforcement Learning agent.
翻訳日:2021-03-20 18:42:38 公開日:2021-01-22
# (参考訳) BERT変換を用いたアラビア語GPT2自動生成ツイートの検出 [全文訳有]

BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets ( http://arxiv.org/abs/2101.09345v1 )

ライセンス: CC BY 4.0
Fouzi Harrag, Maria Debbah, Kareem Darwish, Ahmed Abdelali(参考訳) 過去20年間、私たちは徐々にインターネットやソーシャルメディアに目を向け、ニュースを見つけ、会話を楽しませ、意見を共有してきた。 最近,OpenAI は GPT-2 for Generative Pre-trained Transformer-2 というマシーン学習システムを開発した。 簡単な文章のプロンプトに基づいてテキストのブロックを生成し、人間が書いたように見え、偽造や自動生成のテキストの拡散を容易にする。 この進歩と潜在的な危険に対処するために、これらの言語モデルによって書かれたテキストを検出するいくつかの方法が提案されている。 本稿では,アラビア語文が人間によって書かれたり,ボットによって自動生成されたりするかどうかを検知できる移動学習モデルを提案する。 データセットは、Twitter APIを使ってクロールして拡張した以前の作業からのつぶやきに基づいています。 gpt2-small-arabicを用いて偽アラビア語文を作成した。 評価のために、異なるリカレントニューラルネットワーク(RNN)ワード埋め込みベースのベースラインモデル、すなわちLSTM、BI-LSTM、GRU、BI-GRUを比較した。 新しいトランスファーラーニングモデルは、最大98%の精度を得ました。 我々の知る限り、この研究は、アラビア語の自動生成テキストを検出し分類するためにARABERTとGPT2を組み合わせた最初の研究である。

During the last two decades, we have progressively turned to the Internet and social media to find news, entertain conversations and share opinion. Recently, OpenAI has developed a ma-chine learning system called GPT-2 for Generative Pre-trained Transformer-2, which can pro-duce deepfake texts. It can generate blocks of text based on brief writing prompts that look like they were written by humans, facilitating the spread false or auto-generated text. In line with this progress, and in order to counteract potential dangers, several methods have been pro-posed for detecting text written by these language models. In this paper, we propose a transfer learning based model that will be able to detect if an Arabic sentence is written by humans or automatically generated by bots. Our dataset is based on tweets from a previous work, which we have crawled and extended using the Twitter API. We used GPT2-Small-Arabic to generate fake Arabic Sentences. For evaluation, we compared different recurrent neural network (RNN) word embeddings based baseline models, namely: LSTM, BI-LSTM, GRU and BI-GRU, with a transformer-based model. Our new transfer-learning model has obtained an accuracy up to 98%. To the best of our knowledge, this work is the first study where ARABERT and GPT2 were combined to detect and classify the Arabic auto-generated texts.
翻訳日:2021-03-20 18:26:00 公開日:2021-01-22
# (参考訳) スティフェル多様体上のコンセンサスの局所直線速度について

On the Local Linear Rate of Consensus on the Stiefel Manifold ( http://arxiv.org/abs/2101.09346v1 )

ライセンス: CC BY 4.0
Shixiang Chen, Alfredo Garcia, Mingyi Hong, Shahin Shahrampour(参考訳) リーマン勾配法の収束特性を調べ、スティフェル多様体上のコンセンサス問題(非有向連結グラフ)を解く。 スティーフェル多様体は非凸集合であり、ユークリッド空間における平均化の標準概念はこの問題には効かない。 stiefel manifold (drcs) 上の分散リーマン的コンセンサスを提案し,大域的コンセンサスに対して局所線形収束率を享受することを示す。 さらに重要なことに、この局所速度は、ユークリッド空間のよく知られた速度と同等の、通信行列の第二の最大の特異値と漸近的にスケールする。 私たちの知る限りでは、これは2つのレートの平等を示す最初の作品です。 主な技術的課題は、(i)収束解析のためのリーマン制限された離散不等式の開発、(ii)アルゴリズムが常に局所領域に留まっている条件(例えば、適切なステップサイズと初期化)を特定することである。

We study the convergence properties of Riemannian gradient method for solving the consensus problem (for an undirected connected graph) over the Stiefel manifold. The Stiefel manifold is a non-convex set and the standard notion of averaging in the Euclidean space does not work for this problem. We propose Distributed Riemannian Consensus on Stiefel Manifold (DRCS) and prove that it enjoys a local linear convergence rate to global consensus. More importantly, this local rate asymptotically scales with the second largest singular value of the communication matrix, which is on par with the well-known rate in the Euclidean space. To the best of our knowledge, this is the first work showing the equality of the two rates. The main technical challenges include (i) developing a Riemannian restricted secant inequality for convergence analysis, and (ii) to identify the conditions (e.g., suitable step-size and initialization) under which the algorithm always stays in the local region.
翻訳日:2021-03-20 18:19:30 公開日:2021-01-22
# 神経機械翻訳のための構文および意味構造を用いた非自己回帰トランスフォーマーの強化

Enriching Non-Autoregressive Transformer with Syntactic and SemanticStructures for Neural Machine Translation ( http://arxiv.org/abs/2101.08942v1 )

ライセンス: Link先を確認
Ye Liu, Yao Wan, Jian-Guo Zhang, Wenting Zhao, Philip S. Yu(参考訳) 非自己回帰モデルにより、自己回帰モデルと比較した場合の有効性を犠牲にして、並列復号による神経機械翻訳の効率が向上した。 本稿では,自然言語間の構文構造と意味構造が非自己回帰機械翻訳に不可欠であり,さらに性能を向上させることができると主張する。 しかし、これらの構造は既存の非自己回帰モデルではめったに考慮されない。 この直観に触発されて、神経機械翻訳のタスクのために、言語の明示的な構文と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。 さらに,長期トークンの依存関係をよりよく学習するために,対象文内の中間潜時アライメントも検討する。 実世界の2つのデータセット(WMT14 En-DeとWMT16 En-Ro)の実験結果から、我々のモデルは、最先端の非自己回帰モデルと比較すると、翻訳品質が著しく向上することが示された。

The non-autoregressive models have boosted the efficiency of neural machine translation through parallelized decoding at the cost of effectiveness when comparing with the autoregressive counterparts. In this paper, we claim that the syntactic and semantic structures among natural language are critical for non-autoregressive machine translation and can further improve the performance. However, these structures are rarely considered in the existing non-autoregressive models. Inspired by this intuition, we propose to incorporate the explicit syntactic and semantic structures of languages into a non-autoregressive Transformer, for the task of neural machine translation. Moreover, we also consider the intermediate latent alignment within target sentences to better learn the long-term token dependencies. Experimental results on two real-world datasets (i.e., WMT14 En-De and WMT16 En-Ro) show that our model achieves a significantly faster speed, as well as keeps the translation quality when compared with several state-of-the-art non-autoregressive models.
翻訳日:2021-03-20 17:32:34 公開日:2021-01-22
# 頭部仮説:BERTにおける多面的注意理解への統一統計的アプローチ

The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT ( http://arxiv.org/abs/2101.09115v1 )

ライセンス: Link先を確認
Madhura Pande, Aakriti Budhraja, Preksha Nema, Pratyush Kumar and Mitesh M. Khapra(参考訳) マルチヘッドアテンションヘッドは、トランスフォーマーベースモデルのメインステイである。 対方向の注意度が高いトークン間の関係に基づいて各注意ヘッドの役割を分類するために異なる方法が提案されている。 これらの役割には、構文(いくつかの構文的関係を持つトークン)、局所(近傍トークン)、ブロック(同じ文のトークン)、デリミタ(特別な[CLS]、[SEP]トークン)が含まれる。 既存の分類法には2つの大きな課題がある: (a) 研究や機能的役割に標準スコアがない; (b) 統計学的意義を捉えずに、文全体で測定された平均スコアであることが多い。 本研究では,注意ヘッドのすべての役割を一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。 これにより、注意ヘッドを体系的に分析し、BERTモデルの解析に関する多くの一般的な疑問に自信を持ってコメントできる適切なレンズが提供されます。 特に,同一のアテンションヘッドにおける複数の機能的役割の同時配置,レイヤ間のアテンションヘッドの分布,特定のNLPタスクの微調整が機能的役割に与える影響について述べる。

Multi-headed attention heads are a mainstay in transformer-based models. Different methods have been proposed to classify the role of each attention head based on the relations between tokens which have high pair-wise attention. These roles include syntactic (tokens with some syntactic relation), local (nearby tokens), block (tokens in the same sentence) and delimiter (the special [CLS], [SEP] tokens). There are two main challenges with existing methods for classification: (a) there are no standard scores across studies or across functional roles, and (b) these scores are often average quantities measured across sentences without capturing statistical significance. In this work, we formalize a simple yet effective score that generalizes to all the roles of attention heads and employs hypothesis testing on this score for robust inference. This provides us the right lens to systematically analyze attention heads and confidently comment on many commonly posed questions on analyzing the BERT model. In particular, we comment on the co-location of multiple functional roles in the same attention head, the distribution of attention heads across layers, and effect of fine-tuning for specific NLP tasks on these functional roles.
翻訳日:2021-03-20 17:32:16 公開日:2021-01-22
# Slot Self-Attentive Dialogue State Tracking

Slot Self-Attentive Dialogue State Tracking ( http://arxiv.org/abs/2101.09374v1 )

ライセンス: Link先を確認
Fanghua Ye, Jarana Manotumruksa, Qiang Zhang, Shenghui Li, Emine Yilmaz(参考訳) タスク指向の対話システムで不可欠なコンポーネントは、会話の過程でユーザの意図を追跡する対話状態トラッカである。 この目標への典型的なアプローチは、タスクの完了に不可欠な複数の事前定義されたスロットを埋めることである。 近年,様々な対話状態追跡手法が提案されているが,そのほとんどは個別にスロットの値を予測するものであり,スロット間の相関を考慮できない。 本稿では,スロット相関を自動的に学習するスロット自己認識機構を提案する。 具体的には、まずスロットに注意を払って対話コンテキストからスロット固有の特徴を得る。 そして、これらの特徴に積み重ねられたスロット自己注意を適用し、スロット間の相関関係を学習する。 multiwoz 2.0 と multiwoz 2.1 を含む2つのマルチドメインタスク指向対話データセットについて包括的な実験を行う。 実験の結果,本手法は両データセットにおける最先端性能を実現し,スロット相関を考慮に入れる必要性と有効性を検証した。

An indispensable component in task-oriented dialogue systems is the dialogue state tracker, which keeps track of users' intentions in the course of conversation. The typical approach towards this goal is to fill in multiple pre-defined slots that are essential to complete the task. Although various dialogue state tracking methods have been proposed in recent years, most of them predict the value of each slot separately and fail to consider the correlations among slots. In this paper, we propose a slot self-attention mechanism that can learn the slot correlations automatically. Specifically, a slot-token attention is first utilized to obtain slot-specific features from the dialogue context. Then a stacked slot self-attention is applied on these features to learn the correlations among slots. We conduct comprehensive experiments on two multi-domain task-oriented dialogue datasets, including MultiWOZ 2.0 and MultiWOZ 2.1. The experimental results demonstrate that our approach achieves state-of-the-art performance on both datasets, verifying the necessity and effectiveness of taking slot correlations into consideration.
翻訳日:2021-03-20 17:31:54 公開日:2021-01-22
# 古代ギリシアのヘキサメーターの自動スキャンに有限状態機械を使う

Using Finite-State Machines to Automatically Scan Classical Greek Hexameter ( http://arxiv.org/abs/2101.11437v1 )

ライセンス: Link先を確認
Anne-Kathrin Schumann, Christoph Beierle, Norbert Bl\"o{\ss}ner(参考訳) 本稿では,古典ギリシア語ヘキサメートル詩のスキャニングに対する完全自動的アプローチを提案する。 特に, 決定論的有限状態オートマトンと局所言語規則を用いて有効なスポンデウスパターンの探索を行い, 重み付き有限状態トランスデューサを用いて部分解析を正し, 不正な候補を拒絶するアルゴリズムについて述べる。 本論文は,手書きデータに対するこのアプローチによるアノテーション品質の実証的評価結果についても詳述する。 有限状態アプローチは、ヘキサメーターの詩を迅速かつ言語的に解析し、言語知識の効率的な形式化を提供する。 プロジェクトコードは、https://github.com/a netschka/greek_scans ionを参照)。

This paper presents a fully automatic approach to the scansion of Classical Greek hexameter verse. In particular, the paper describes an algorithm that uses deterministic finite-state automata and local linguistic rules to implement a targeted search for valid spondeus patterns and, in addition, a weighted finite-state transducer to correct and complete partial analyses and to reject invalid candidates. The paper also details the results of an empirical evaluation of the annotation quality resulting from this approach on hand-annotated data. It is shown that a finite-state approach provides quick and linguistically sound analyses of hexameter verses as well as an efficient formalisation of linguistic knowledge. The project code is available (see https://github.com/a netschka/greek_scans ion).
翻訳日:2021-03-20 17:31:37 公開日:2021-01-22
# 語彙連鎖による多意味表現を用いた単語埋め込み

Enhanced word embeddings using multi-semantic representation through lexical chains ( http://arxiv.org/abs/2101.09023v1 )

ライセンス: Link先を確認
Terry Ruas, Charles Henrique Porto Ferreira, William Grosky, Fabr\'icio Olivetti de Fran\c{c}a, D\'ebora Maria Rossi Medeiros(参考訳) 文中の単語間の関係は、個々の単語よりも文書の根底にある意味的内容についてより深く語られることが多い。 本研究では,フレキシブルレキシカルチェインIIと固定レキシカルチェインIIという2つの新しいアルゴリズムを提案する。 これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの事前知識、単語埋め込みにおける分布仮説の頑健さを単一のシステムを構成するブロックとして組み合わせている。 要するに、我々のアプローチには3つの大きな貢献がある: (i) 単語埋め込みと語彙連鎖を完全に統合する一連の技術、 (ii) 文書中の単語間の潜在関係を考えるより堅牢な意味表現、そして (iii) 任意の自然言語タスクに拡張可能な軽量な単語埋め込みモデル。 文書分類タスクにおけるロバスト性を評価するために,事前学習したモデルの知識を評価する。 提案手法は,文書分類タスクにおいて,5つの異なる機械学習分類器を用いた7つの単語埋め込みアルゴリズムに対してテストを行う。 以上の結果から,語彙連鎖と単語埋め込み表現の統合は,より複雑なシステムに対してさえ,最先端の結果を維持できることが示された。

The relationship between words in a sentence often tells us more about the underlying semantic content of a document than its actual words, individually. In this work, we propose two novel algorithms, called Flexible Lexical Chain II and Fixed Lexical Chain II. These algorithms combine the semantic relations derived from lexical chains, prior knowledge from lexical databases, and the robustness of the distributional hypothesis in word embeddings as building blocks forming a single system. In short, our approach has three main contributions: (i) a set of techniques that fully integrate word embeddings and lexical chains; (ii) a more robust semantic representation that considers the latent relation between words in a document; and (iii) lightweight word embeddings models that can be extended to any natural language task. We intend to assess the knowledge of pre-trained models to evaluate their robustness in the document classification task. The proposed techniques are tested against seven word embeddings algorithms using five different machine learning classifiers over six scenarios in the document classification task. Our results show the integration between lexical chains and word embeddings representations sustain state-of-the-art results, even against more complex systems.
翻訳日:2021-03-20 17:31:26 公開日:2021-01-22
# 古代ギリシア語とラテン語の語彙意味変化

Lexical semantic change for Ancient Greek and Latin ( http://arxiv.org/abs/2101.09069v1 )

ライセンス: Link先を確認
Valerio Perrone and Simon Hengchen and Marco Palma and Alessandro Vatri and Jim Q. Smith and Barbara McGillivray(参考訳) 変化とその前提条件である変動は言語に固有のものだ。 時間が経つにつれて、新しい単語が語彙に入り、他の単語は時代遅れになり、既存の単語は新しい感覚を得る。 歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。 古代ギリシア語やラテン語のような古典言語の歴史的コーパスは、典型的にはリッチなメタデータを持ち、既存のモデルは、文書のタイムスタンプを超えて文脈情報を活用できないため、制限されている。 埋め込みベースのメソッドは、現在のアートシステムの中で特徴付けられるが、解釈能力に欠ける。 対照的に、ベイズモデルは意味変化現象の明示的かつ解釈可能な表現を提供する。 この章では、動的ベイズ混合モデルに基づく意味変化に対する最近の計算手法であるGASCに基づいて構築する。 このモデルでは、単語感覚の時間的進化は、語彙の性質の分布情報だけでなく、テキストジャンルにも基づいている。 本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。 意味変化の完全な説明を提供する上で,ベイズ混合モデルは古代ギリシア語とラテン語の両方において,二項意味変化を検出するための非常に競争力のあるアプローチであることを示す。

Change and its precondition, variation, are inherent in languages. Over time, new words enter the lexicon, others become obsolete, and existing words acquire new senses. Associating a word's correct meaning in its historical context is a central challenge in diachronic research. Historical corpora of classical languages, such as Ancient Greek and Latin, typically come with rich metadata, and existing models are limited by their inability to exploit contextual information beyond the document timestamp. While embedding-based methods feature among the current state of the art systems, they are lacking in the interpretative power. In contrast, Bayesian models provide explicit and interpretable representations of semantic change phenomena. In this chapter we build on GASC, a recent computational approach to semantic change based on a dynamic Bayesian mixture model. In this model, the evolution of word senses over time is based not only on distributional information of lexical nature, but also on text genres. We provide a systematic comparison of dynamic Bayesian mixture models for semantic change with state-of-the-art embedding-based models. On top of providing a full description of meaning change over time, we show that Bayesian mixture models are highly competitive approaches to detect binary semantic change in both Ancient Greek and Latin.
翻訳日:2021-03-20 17:31:07 公開日:2021-01-22
# 関係予測のための浅層神経モデル

A shallow neural model for relation prediction ( http://arxiv.org/abs/2101.09090v1 )

ライセンス: Link先を確認
Caglar Demir and Diego Moussallem and Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフ補完は、欠落した三重項を予測することを指す。 ほとんどのアプローチは、与えられたエンティティと関係を予測することによって、この目標を達成する。 我々は関係予測を通じて三重項の欠落を予測する。 そこで本研究では, 関係予測問題を多ラベル分類問題とみなし, 実体間の関係を正確に推定する浅部ニューラルネットワーク(SHALLOM)を提案する。 SHALLOM は C-BOW と類似しており、両方のアプローチは、周囲のトークン (s,o) が与えられた中心トークン (p) を予測する。 実験の結果,SHALLOM は FB15K-237 と WN18RR の最先端のアプローチをそれぞれ 3 %$ と 8 %$ (絶対) のマージンで上回り,これらのデータセットでは最大 8 分間のトレーニング時間を必要とすることがわかった。 我々は、トレーニングと評価スクリプトを含むオープンソース実装を {\url{https://github.com/d ice-group/Shallom} で提供することにより、結果の再現性を確保する。

Knowledge graph completion refers to predicting missing triples. Most approaches achieve this goal by predicting entities, given an entity and a relation. We predict missing triples via the relation prediction. To this end, we frame the relation prediction problem as a multi-label classification problem and propose a shallow neural model (SHALLOM) that accurately infers missing relations from entities. SHALLOM is analogous to C-BOW as both approaches predict a central token (p) given surrounding tokens ((s,o)). Our experiments indicate that SHALLOM outperforms state-of-the-art approaches on the FB15K-237 and WN18RR with margins of up to $3\%$ and $8\%$ (absolute), respectively, while requiring a maximum training time of 8 minutes on these datasets. We ensure the reproducibility of our results by providing an open-source implementation including training and evaluation scripts at {\url{https://github.com/d ice-group/Shallom}.}
翻訳日:2021-03-20 17:30:46 公開日:2021-01-22
# 中国の手続き用語正規化のための多視点的リコールとランクフレームワーク

A multi-perspective combined recall and rank framework for Chinese procedure terminology normalization ( http://arxiv.org/abs/2101.09101v1 )

ライセンス: Link先を確認
Ming Liang and Kui Xue and Tong Ruan(参考訳) 医学用語の正規化は、電子健康記録(EHR)と多くの下流タスクの分析において重要な役割を果たす知識ベースから得られた用語の臨床的言及をマッピングすることを目的としている。 本稿では,中国の手続き用語の正規化に焦点をあてる。 用語の表現は様々であり、医学的言及は複数の用語に関連付けられることがある。 文献や意味情報から用語を分類する手法として,複数クラス分類やランク付け学習(LTR)について検討した。 しかし、これらの情報は、特にマルチインプリケーションの場合、適切な用語を見つけるには不十分である。 そこで本研究では,上記の問題を解決するためのリコールとランクの組み合わせフレームワークを提案する。 このフレームワークは、マルチタスク候補生成器(mtcg)、キーワードの注意ランク付け器(kar)、および融合ブロック(fb)で構成されている。 MTCGは、参照含意数を予測し、セマンティックな類似性を持つ候補をリコールするために使用される。 KARはBertをベースにしており、プロシージャサイトやプロシージャタイプなどのキーワードに焦点を当てたキーワード注意機構を備えている。 FB は MTCG と KAR の類似性を融合させ、異なる視点から用語を分類する。 詳細な実験分析の結果,提案するフレームワークは性能と効率の両方において顕著に改善されている。

Medical terminology normalization aims to map the clinical mention to terminologies come from a knowledge base, which plays an important role in analyzing Electronic Health Record(EHR) and many downstream tasks. In this paper, we focus on Chinese procedure terminology normalization. The expression of terminologies are various and one medical mention may be linked to multiple terminologies. Previous study explores some methods such as multi-class classification or learning to rank(LTR) to sort the terminologies by literature and semantic information. However, these information is inadequate to find the right terminologies, particularly in multi-implication cases. In this work, we propose a combined recall and rank framework to solve the above problems. This framework is composed of a multi-task candidate generator(MTCG), a keywords attentive ranker(KAR) and a fusion block(FB). MTCG is utilized to predict the mention implication number and recall candidates with semantic similarity. KAR is based on Bert with a keywords attentive mechanism which focuses on keywords such as procedure sites and procedure types. FB merges the similarity come from MTCG and KAR to sort the terminologies from different perspectives. Detailed experimental analysis shows our proposed framework has a remarkable improvement on both performance and efficiency.
翻訳日:2021-03-20 17:30:28 公開日:2021-01-22
# 良い対物:解釈可能・可塑性・多元的対物説明の生成

A Few Good Counterfactuals: Generating Interpretable, Plausible and Diverse Counterfactual Explanations ( http://arxiv.org/abs/2101.09056v1 )

ライセンス: Link先を確認
Barry Smyth and Mark T Keane(参考訳) 対物的説明は、説明可能なAI(XAI)問題に対する潜在的に重要な解決策を提供するが、良い、ネイティブな対物的説明がほとんどのデータセットで稀に発生することが示されている。 したがって、最も一般的な方法はブラインド摂動を用いて合成偽物を生成する。 しかし、このような手法にはいくつかの欠点がある: 結果の反事実 (i) が有効なデータポイントではない場合(自然に発生しない特徴を使う場合が多い)、 (ii) 優れた反事実の空間が欠如している場合(もし多くの特徴を変更すれば)、 (iii) は多様性がない場合(生成した反事実が互いに最小の変種である場合)。 本稿では,これらの問題を克服するための手法について述べる。本手法は,自然に発生する特徴から,スパースで多様な合成反事実を生成するために,原データセットにネイティブな反事実を適応させるものである。 最適性能の条件を確立するために、この新しい手法を共通データセット上で系統的にパラメトリックなバリエーションを探索する一連の実験が報告されている。

Counterfactual explanations provide a potentially significant solution to the Explainable AI (XAI) problem, but good, native counterfactuals have been shown to rarely occur in most datasets. Hence, the most popular methods generate synthetic counterfactuals using blind perturbation. However, such methods have several shortcomings: the resulting counterfactuals (i) may not be valid data-points (they often use features that do not naturally occur), (ii) may lack the sparsity of good counterfactuals (if they modify too many features), and (iii) may lack diversity (if the generated counterfactuals are minimal variants of one another). We describe a method designed to overcome these problems, one that adapts native counterfactuals in the original dataset, to generate sparse, diverse synthetic counterfactuals from naturally occurring features. A series of experiments are reported that systematically explore parametric variations of this novel method on common datasets to establish the conditions for optimal performance.
翻訳日:2021-03-20 17:29:40 公開日:2021-01-22
# スコアベース生成モデルの最大確率トレーニングについて

On Maximum Likelihood Training of Score-Based Generative Models ( http://arxiv.org/abs/2101.09258v1 )

ライセンス: Link先を確認
Conor Durkan and Yang Song(参考訳) スコアベース生成モデリングは、最近、従来の可能性ベースや暗黙のアプローチに代わる有望な代替手段として登場した。 スコアベースモデルでの学習は、まず連続時間確率過程でデータを摂動させ、次にスコアマッチング損失の連続混合を用いて、ノイズデータ密度の対数(スコア関数)の時間依存勾配をマッチングする。 本稿では,このような目的が混合重み付けの特定の選択に対する最大確率と同値であることを示す。 この接続は目的関数の重み付けの原則的な方法を提供し、異なるスコアベースの生成モデルを比較するのにその使用を正当化する。 これまでの研究と合わせて, 最大確率トレーニングとテスト時間ログ類似度評価は, 濃度関数を明示的にパラメータ化することなく, スコア関数のみのパラメータ化によって達成できることを明らかにした。

Score-based generative modeling has recently emerged as a promising alternative to traditional likelihood-based or implicit approaches. Learning in score-based models involves first perturbing data with a continuous-time stochastic process, and then matching the time-dependent gradient of the logarithm of the noisy data density - or score function - using a continuous mixture of score matching losses. In this note, we show that such an objective is equivalent to maximum likelihood for certain choices of mixture weighting. This connection provides a principled way to weight the objective function, and justifies its use for comparing different score-based generative models. Taken together with previous work, our result reveals that both maximum likelihood training and test-time log-likelihood evaluation can be achieved through parameterization of the score function alone, without the need to explicitly parameterize a density function.
翻訳日:2021-03-20 17:29:16 公開日:2021-01-22
# 再生型連続ゼロショット学習

Generative Replay-based Continual Zero-Shot Learning ( http://arxiv.org/abs/2101.08894v1 )

ライセンス: Link先を確認
Chandan Gautam, Sethupathy Parameswaran, Ashish Mishra, Suresh Sundaram(参考訳) ゼロショット学習は、トレーニング時に使用できないクラスからオブジェクトを分類する新しいパラダイムである。 ゼロショットラーニング (ZSL) 手法は, 目に見えないクラスやノーベルクラスを分類できるため, 近年注目されている。 ZSLの既存のアプローチのほとんどは、見たクラスのすべてのサンプルがモデルをトレーニングするために利用可能で、実際の生活に合わない場合に有効です。 本稿では,再生型連続ZSL(GRCZSL)の開発により,この障害に対処する。 提案手法は,ストリーミングデータから学習するために従来のzslをエンドウズし,それまでの経験を忘れることなく新たな知識を得る。 本研究は, GRCZSLにおける破滅的な忘れを, 初期の課題に現れた授業の合成サンプルを再生することで処理する。 これらの合成サンプルは、直近のタスクで訓練された条件変動オートエンコーダ(vae)を用いて合成される。 さらに、トレーニングとテストのためには、いつでも、現在および直近のvaeのみが必要です。 GRZSL法は,実世界の問題設定をシミュレートした連続学習の単一ヘッド設定のために開発された。 この設定では、タスクのアイデンティティはトレーニング中に与えられるが、テスト中は利用できない。 GRCZSLの性能は、連続学習の固定および漸進的なクラス設定によるZSLの一般化セットアップのための5つのベンチマークデータセットで評価される。 実験の結果,提案手法はベースライン法を著しく上回り,実世界の応用に適していることがわかった。

Zero-shot learning is a new paradigm to classify objects from classes that are not available at training time. Zero-shot learning (ZSL) methods have attracted considerable attention in recent years because of their ability to classify unseen/novel class examples. Most of the existing approaches on ZSL works when all the samples from seen classes are available to train the model, which does not suit real life. In this paper, we tackle this hindrance by developing a generative replay-based continual ZSL (GRCZSL). The proposed method endows traditional ZSL to learn from streaming data and acquire new knowledge without forgetting the previous tasks' gained experience. We handle catastrophic forgetting in GRCZSL by replaying the synthetic samples of seen classes, which have appeared in the earlier tasks. These synthetic samples are synthesized using the trained conditional variational autoencoder (VAE) over the immediate past task. Moreover, we only require the current and immediate previous VAE at any time for training and testing. The proposed GRZSL method is developed for a single-head setting of continual learning, simulating a real-world problem setting. In this setting, task identity is given during training but unavailable during testing. GRCZSL performance is evaluated on five benchmark datasets for the generalized setup of ZSL with fixed and incremental class settings of continual learning. Experimental results show that the proposed method significantly outperforms the baseline method and makes it more suitable for real-world applications.
翻訳日:2021-03-20 17:29:01 公開日:2021-01-22
# DSAL: バイオメディカルイメージセグメンテーションのための強いラベルと弱いラベルからの深い監視されたアクティブラーニング

DSAL: Deeply Supervised Active Learning from Strong and Weak Labelers for Biomedical Image Segmentation ( http://arxiv.org/abs/2101.09057v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Zeng Zeng, Kaixin Xu, Cen Chen, Cuntai Guan(参考訳) 画像分割は、internet-of-medical- things(iomt)ドメインの顕微鏡やx線を含む、異なる画像モードに対する最も不可欠なバイオメディカル画像処理問題の1つである。 しかし、バイオメディカル画像の注釈付けは知識駆動、時間消費、労働集約であり、限られたコストで豊富なラベルを得るのが困難である。 アクティブな学習戦略は、アノテーションのためのトレーニングデータのサブセットのみをクエリするヒューマンアノテーションの負担を軽減します。 注意を引いたにもかかわらず、アクティブな学習手法の多くは、通常、膨大な計算コストを必要とし、ラベルのないデータを非効率に利用する。 また、ネットワーク内の中間知識を無視する傾向がある。 本研究では,能動学習と半教師付き学習戦略を組み合わせた深層能動型半教師付き学習フレームワークDSALを提案する。 DSALでは, 強いラベルと弱いラベルのそれぞれに対して, 高い不確実性と低い不確実性を有する情報的サンプルを選択するために, 深層監視機構に基づく新しい基準を提案する。 内部基準は、アクティブなサンプル選択のためにディープラーニングネットワーク内の中間機能の不一致を利用して、計算コストを削減している。 提案した基準を用いて,IoMTプラットフォームで検証可能な,活発な学習イテレーション毎に,強ラベルと弱ラベルのサンプルを選択して,オラクルラベルと擬似ラベルを同時に生成する。 複数の医用画像データセットに関する広範囲な実験により,提案手法が最先端アクティブラーニング法よりも優れていることが示された。

Image segmentation is one of the most essential biomedical image processing problems for different imaging modalities, including microscopy and X-ray in the Internet-of-Medical- Things (IoMT) domain. However, annotating biomedical images is knowledge-driven, time-consuming, and labor-intensive, making it difficult to obtain abundant labels with limited costs. Active learning strategies come into ease the burden of human annotation, which queries only a subset of training data for annotation. Despite receiving attention, most of active learning methods generally still require huge computational costs and utilize unlabeled data inefficiently. They also tend to ignore the intermediate knowledge within networks. In this work, we propose a deep active semi-supervised learning framework, DSAL, combining active learning and semi-supervised learning strategies. In DSAL, a new criterion based on deep supervision mechanism is proposed to select informative samples with high uncertainties and low uncertainties for strong labelers and weak labelers respectively. The internal criterion leverages the disagreement of intermediate features within the deep learning network for active sample selection, which subsequently reduces the computational costs. We use the proposed criteria to select samples for strong and weak labelers to produce oracle labels and pseudo labels simultaneously at each active learning iteration in an ensemble learning manner, which can be examined with IoMT Platform. Extensive experiments on multiple medical image datasets demonstrate the superiority of the proposed method over state-of-the-art active learning methods.
翻訳日:2021-03-20 17:28:22 公開日:2021-01-22
# AI/MLシステムの脆弱性管理について

On managing vulnerabilities in AI/ML systems ( http://arxiv.org/abs/2101.10865v1 )

ライセンス: Link先を確認
Jonathan M. Spring and April Galyardt and Allen D. Householder and Nathan VanHoudnos(参考訳) 機械学習(ML)の欠陥が共通脆弱性・露出(CVE)識別子(CVE-ID)に割り当てられた場合はどうか。 MLアルゴリズムとモデルオブジェクトの両方を考慮する。 仮説上のシナリオは、発見、報告、分析、調整、開示、応答という6つの脆弱性管理領域の変更を検討することを中心に構成されている。 アルゴリズムの欠陥は学術研究コミュニティでよく知られていますが、この研究コミュニティとMLを使用するシステムのデプロイと管理を行う運用コミュニティとの間には明確なコミュニケーション線はありません。 思考実験により,CVE-IDがこれらの2つのコミュニティ間のコミュニケーションに有用な線を確立する方法が明らかになった。 特に、既存の取り組みで残されたギャップのように見える運用上のセキュリティ概念に研究コミュニティを導入し始める。

This paper explores how the current paradigm of vulnerability management might adapt to include machine learning systems through a thought experiment: what if flaws in machine learning (ML) were assigned Common Vulnerabilities and Exposures (CVE) identifiers (CVE-IDs)? We consider both ML algorithms and model objects. The hypothetical scenario is structured around exploring the changes to the six areas of vulnerability management: discovery, report intake, analysis, coordination, disclosure, and response. While algorithm flaws are well-known in the academic research community, there is no apparent clear line of communication between this research community and the operational communities that deploy and manage systems that use ML. The thought experiments identify some ways in which CVE-IDs may establish some useful lines of communication between these two communities. In particular, it would start to introduce the research community to operational security concepts, which appears to be a gap left by existing efforts.
翻訳日:2021-03-20 17:27:47 公開日:2021-01-22
# SGA:雑音サンプルを用いた木構造図形モデルの部分復元のためのロバストアルゴリズム

SGA: A Robust Algorithm for Partial Recovery of Tree-Structured Graphical Models with Noisy Samples ( http://arxiv.org/abs/2101.08917v1 )

ライセンス: Link先を確認
Anshoo Tandon, Aldric H. J. Yuan, Vincent Y. F. Tan(参考訳) 我々は,ノードからの観測結果が,未知の統計値を持つ独立に分布しないノイズによって損なわれる場合,Isingツリーモデルを学習することを検討する。 Katiyarら。 (2020) は, 正確な木構造は復元できないが, 部分木構造, すなわち, 真木を含む同値類に属する構造を復元できることを示した。 本稿では,Katiyar et alの体系的改善について述べる。 (2020). まず, 部分回収に必要なサンプル数に制約を課すことにより, 新たな不確実性を示す。 第二に、サンプルの複雑さが大幅に改善され、最小相関値$\rho_{\min}$が$\rho_{\min}^{-24}$ではなく$\rho_{\min}^{-8}$となる。 最後に,より統計的にロバストな部分木回復アルゴリズムである対称性幾何平均化(sga)を提案する。 我々は,SGAのサンプル複雑性がKatiyarらのアルゴリズムよりもはるかに優れていることを示すために,様々な木に対する誤差指数解析と広範な数値結果を提供する。 (2020). SGAはガウスモデルに容易に拡張でき、数値実験によっても同様に優れていることを示す。

We consider learning Ising tree models when the observations from the nodes are corrupted by independent but non-identically distributed noise with unknown statistics. Katiyar et al. (2020) showed that although the exact tree structure cannot be recovered, one can recover a partial tree structure; that is, a structure belonging to the equivalence class containing the true tree. This paper presents a systematic improvement of Katiyar et al. (2020). First, we present a novel impossibility result by deriving a bound on the necessary number of samples for partial recovery. Second, we derive a significantly improved sample complexity result in which the dependence on the minimum correlation $\rho_{\min}$ is $\rho_{\min}^{-8}$ instead of $\rho_{\min}^{-24}$. Finally, we propose Symmetrized Geometric Averaging (SGA), a more statistically robust algorithm for partial tree recovery. We provide error exponent analyses and extensive numerical results on a variety of trees to show that the sample complexity of SGA is significantly better than the algorithm of Katiyar et al. (2020). SGA can be readily extended to Gaussian models and is shown via numerical experiments to be similarly superior.
翻訳日:2021-03-20 17:27:34 公開日:2021-01-22
# ベイズ階層的積み重ね

Bayesian hierarchical stacking ( http://arxiv.org/abs/2101.08954v1 )

ライセンス: Link先を確認
Yuling Yao, Gregor Pir\v{s}, Aki Vehtari, Andrew Gelman(参考訳) 積み重ねは、すべての線形平均に対して漸近的に最適な予測をもたらす、広く使われているモデル平均化手法である。 モデル予測性能が不均一な場合の積み重ねは最も効果的であることを示し、階層モデルによる積み重ね混合をさらに改善できることを示す。 入力変動が部分的にプールされたモデル重み付けにより、階層的積み重ねは平均および条件付き予測を改善する。 ベイズ的定式化は、特別の場合として定重(完全プール)積み重ねを含む。 離散的および連続的な入力、他の構造化事前データ、時系列および縦断データを取り込むことを一般化する。 いくつかの応用問題を実証する。

Stacking is a widely used model averaging technique that yields asymptotically optimal prediction among all linear averages. We show that stacking is most effective when the model predictive performance is heterogeneous in inputs, so that we can further improve the stacked mixture with a hierarchical model. With the input-varying yet partially-pooled model weights, hierarchical stacking improves average and conditional predictions. Our Bayesian formulation includes constant-weight (complete-pooling) stacking as a special case. We generalize to incorporate discrete and continuous inputs, other structured priors, and time-series and longitudinal data. We demonstrate on several applied problems.
翻訳日:2021-03-20 17:27:13 公開日:2021-01-22
# 分散学習による線形回帰:一般化エラーの視点から

Linear Regression with Distributed Learning: A Generalization Error Perspective ( http://arxiv.org/abs/2101.09001v1 )

ライセンス: Link先を確認
Martin Hellkvist and Ay\c{c}a \"Oz\c{c}elikkale and Anders Ahl\'en(参考訳) 分散学習は、ネットワーク内の複数のノードで計算負荷を共有することによって学習タスクをスケールするための魅力的なフレームワークを提供する。 本稿では,モデルパラメータ,すなわち未知数をネットワーク上に分散させた大規模線形回帰における分散学習の性能について検討する。 私たちは統計的学習アプローチを採用しています。 トレーニングデータの性能に焦点を当てた作業とは対照的に、一般化誤差、すなわち目に見えないデータのパフォーマンスに焦点を当てる。 等方性および相関性ガウスデータとサブガウスデータの両方について一般化誤差の高確率境界を与える。 これらの結果は,ネットワーク上のモデルの分割に対する一般化性能の依存性を明らかにする。 特に,本研究の結果から,集中型および分散型両方の手法において,トレーニングデータの誤差が同一レベルである場合でも,分散型ソリューションの一般化誤差は集中型ソリューションよりも著しく高い値を示す。 その結果,実世界の画像データと合成データの両方での性能が示される。

Distributed learning provides an attractive framework for scaling the learning task by sharing the computational load over multiple nodes in a network. Here, we investigate the performance of distributed learning for large-scale linear regression where the model parameters, i.e., the unknowns, are distributed over the network. We adopt a statistical learning approach. In contrast to works that focus on the performance on the training data, we focus on the generalization error, i.e., the performance on unseen data. We provide high-probability bounds on the generalization error for both isotropic and correlated Gaussian data as well as sub-gaussian data. These results reveal the dependence of the generalization performance on the partitioning of the model over the network. In particular, our results show that the generalization error of the distributed solution can be substantially higher than that of the centralized solution even when the error on the training data is at the same level for both the centralized and distributed approaches. Our numerical results illustrate the performance with both real-world image data as well as synthetic data.
翻訳日:2021-03-20 17:27:06 公開日:2021-01-22
# 野生における表現認識解析

Expression Recognition Analysis in the Wild ( http://arxiv.org/abs/2101.09231v1 )

ライセンス: Link先を確認
Donato Cafarelli, Fabio Valerio Massoli, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 表情認識(FER)はヒューマン・コンピュータ・インタラクション(HCI)において最も重要なトピックの一つである。 本稿では,最先端手法に基づく表情認識法の詳細と実験結果について報告する。 我々は、有名なvggface2データセット、afwild2顔認識データセットで事前トレーニングされたsenetディープラーニングアーキテクチャを微調整した。 この研究の主な目標は、近い将来に提案する新しいメソッドのベースラインを定義することです。 また,本手法の有効性を評価するためには,ABAW(Affective Behavior Analysis in-the-wild)コンペティションも必要である。 本研究の結果は, 検証セット上で, コンペティションの表現課題部(基本的な7つの感情認識)に関連している。 テストセットの実際の結果がリーダボードに公開されたら、すぐに更新します。

Facial Expression Recognition(FER) is one of the most important topic in Human-Computer interactions(HCI). In this work we report details and experimental results about a facial expression recognition method based on state-of-the-art methods. We fine-tuned a SeNet deep learning architecture pre-trained on the well-known VGGFace2 dataset, on the AffWild2 facial expression recognition dataset. The main goal of this work is to define a baseline for a novel method we are going to propose in the near future. This paper is also required by the Affective Behavior Analysis in-the-wild (ABAW) competition in order to evaluate on the test set this approach. The results reported here are on the validation set and are related on the Expression Challenge part (seven basic emotion recognition) of the competition. We will update them as soon as the actual results on the test set will be published on the leaderboard.
翻訳日:2021-03-20 17:26:50 公開日:2021-01-22
# オンライン分類における大数の逆法則と最適後悔

Adversarial Laws of Large Numbers and Optimal Regret in Online Classification ( http://arxiv.org/abs/2101.09054v1 )

ライセンス: Link先を確認
Noga Alon, Omri Ben-Eliezer, Yuval Dagan, Shay Moran, Moni Naor, Eylon Yogev(参考訳) 大きな数の法則により、ある集団から十分な量のサンプルが与えられた場合、固定されたサブ集団の測度は標本の頻度によってよく推定される。 サンプリングプロセスにおける多数の法則について検討し,それらが作用し,相互作用する環境に影響を及ぼす可能性について検討した。 具体的には、ben-eliezer と yogev (2020) によって提案された逐次サンプリングモデルを検討し、このモデルで大数の一様法則を許すクラスを特徴づける: これらはちょうど \emph{online learnable} である。 我々の特徴は,統計的学習における学習可能性と一様収束の等価性のオンラインアナログとして解釈できる。 サンプル-複素性境界は、多くのパラメーターレジームに対して厳密であり、応用として、オンライン学習において最適の後悔境界を決定する。これは、'emph{Littlestone's dimension} の項で述べられており、Ben-David, P\'al, and Shalev-Shwartz (2009) から主要な開質問を解き、Rahlin, Sridharan, Tewari (2015) によっても提起された。

Laws of large numbers guarantee that given a large enough sample from some population, the measure of any fixed sub-population is well-estimated by its frequency in the sample. We study laws of large numbers in sampling processes that can affect the environment they are acting upon and interact with it. Specifically, we consider the sequential sampling model proposed by Ben-Eliezer and Yogev (2020), and characterize the classes which admit a uniform law of large numbers in this model: these are exactly the classes that are \emph{online learnable}. Our characterization may be interpreted as an online analogue to the equivalence between learnability and uniform convergence in statistical (PAC) learning. The sample-complexity bounds we obtain are tight for many parameter regimes, and as an application, we determine the optimal regret bounds in online learning, stated in terms of \emph{Littlestone's dimension}, thus resolving the main open question from Ben-David, P\'al, and Shalev-Shwartz (2009), which was also posed by Rakhlin, Sridharan, and Tewari (2015).
翻訳日:2021-03-20 17:26:38 公開日:2021-01-22
# ポースリファインメントのための革新CNNによる反復最適化

Iterative Optimisation with an Innovation CNN for Pose Refinement ( http://arxiv.org/abs/2101.08895v1 )

ライセンス: Link先を確認
Gerard Kennedy, Zheyu Zhuang, Xin Yu, Robert Mahony(参考訳) 単一のRGB画像からのオブジェクトポーズ推定は、可変照明条件と視点変化のために難しい問題である。 最も正確なポーズ推定ネットワークは、既知のテクスチャ化された3Dモデルの再投影によるポーズ改善を実装しているが、観察対象の高品質な3Dモデルなしでは適用できない。 本研究では,テクスチャ化された3Dモデルの再計画の要件を克服するオブジェクトポーズ推定の改良手法であるInnovation CNNを提案する。 提案手法は,確率勾配降下(SGD)フレームワークにおいて,Innovation CNNを反復的に適用することにより,初期ポーズ推定を段階的に改善する。 本手法は,人気のLINEMODおよびOcclusion LINEMODデータセット上で評価し,両データセットの最先端性能を得る。

Object pose estimation from a single RGB image is a challenging problem due to variable lighting conditions and viewpoint changes. The most accurate pose estimation networks implement pose refinement via reprojection of a known, textured 3D model, however, such methods cannot be applied without high quality 3D models of the observed objects. In this work we propose an approach, namely an Innovation CNN, to object pose estimation refinement that overcomes the requirement for reprojecting a textured 3D model. Our approach improves initial pose estimation progressively by applying the Innovation CNN iteratively in a stochastic gradient descent (SGD) framework. We evaluate our method on the popular LINEMOD and Occlusion LINEMOD datasets and obtain state-of-the-art performance on both datasets.
翻訳日:2021-03-20 17:26:03 公開日:2021-01-22
# 相互作用する身体部分の注意に基づくヒューマンインタラクション認識フレームワーク

Human Interaction Recognition Framework based on Interacting Body Part Attention ( http://arxiv.org/abs/2101.08967v1 )

ライセンス: Link先を確認
Dong-Gyu Lee, Seong-Whan Lee(参考訳) ビデオにおける人間の行動認識は、広く研究され、近年、深層学習のアプローチによって大きな進歩を遂げてきたが、依然として困難な課題である。 本稿では,対話が活発な局所画像の情報,個人の身体部位の姿勢による原始的な動き,全体的な外観変化の共起といった情報を融合させることにより,人的インタラクションの暗黙的表現と明示的表現を同時に考える新しい枠組みを提案する。 人間の相互作用は、人間の身体部分同士の相互作用の仕方によって変化する。 提案手法は, 相互作用する身体部分の注意力を用いて, 異なる相互作用間の微妙な差を捉える。 他のオブジェクトと相互作用するセマンティックに重要なボディパーツは、特徴表現中により重みが与えられる。 対話体部分の注目に基づく個人表現と、フルボディの外観変化の共起記述器との組み合わせ特徴を長期記憶に入力し、時間経過に伴う時間的ダイナミクスを1つのフレームワークでモデル化する。 提案手法の有効性を検証するために,提案手法の有効性を4つの公開データセットを用いて検証した。

Human activity recognition in videos has been widely studied and has recently gained significant advances with deep learning approaches; however, it remains a challenging task. In this paper, we propose a novel framework that simultaneously considers both implicit and explicit representations of human interactions by fusing information of local image where the interaction actively occurred, primitive motion with the posture of individual subject's body parts, and the co-occurrence of overall appearance change. Human interactions change, depending on how the body parts of each human interact with the other. The proposed method captures the subtle difference between different interactions using interacting body part attention. Semantically important body parts that interact with other objects are given more weight during feature representation. The combined feature of interacting body part attention-based individual representation and the co-occurrence descriptor of the full-body appearance change is fed into long short-term memory to model the temporal dynamics over time in a single framework. We validate the effectiveness of the proposed method using four widely used public datasets by outperforming the competing state-of-the-art method.
翻訳日:2021-03-20 17:25:26 公開日:2021-01-22
# 局所シーン認識参照表現生成に基づく視覚的質問応答

Visual Question Answering based on Local-Scene-Aware Referring Expression Generation ( http://arxiv.org/abs/2101.08978v1 )

ライセンス: Link先を確認
Jung-Jun Kim, Dong-Gyu Lee, Jialin Wu, Hong-Gyu Jung, Seong-Whan Lee(参考訳) 視覚的な質問応答には、画像と自然言語の両方を深く理解する必要がある。 しかし、ほとんどのメソッドは視覚的な概念(例えば様々なオブジェクト間の関係など)に焦点を当てている。 オブジェクトカテゴリとそれらの関係や単純な質問埋め込みの組み合わせは、複雑なシーンを表現し、決定を説明するのに不十分である。 この制限に対処するため,画像に生成するテキスト表現は構造的制約が少なく,よりリッチな画像記述を提供することができるため,その利用を提案する。 生成した式には視覚的特徴と質問埋め込みが組み込まれ、質問関連回答が得られる。 また、3つの異なる情報モダリティをコアテンションでモデル化するマルチヘッドアテンションネットワークを提案する。 提案手法をVQA v2データセット上で定量的に定性的に評価し,回答予測の観点から最先端の手法と比較した。 生成された式の品質は、RefCOCO、RefCOCO+、RefCOCOgデータセットでも評価された。 実験により,提案手法の有効性を実証し,定量的および定性的な結果の両面で競合する手法のすべてを上回る性能を示した。

Visual question answering requires a deep understanding of both images and natural language. However, most methods mainly focus on visual concept; such as the relationships between various objects. The limited use of object categories combined with their relationships or simple question embedding is insufficient for representing complex scenes and explaining decisions. To address this limitation, we propose the use of text expressions generated for images, because such expressions have few structural constraints and can provide richer descriptions of images. The generated expressions can be incorporated with visual features and question embedding to obtain the question-relevant answer. A joint-embedding multi-head attention network is also proposed to model three different information modalities with co-attention. We quantitatively and qualitatively evaluated the proposed method on the VQA v2 dataset and compared it with state-of-the-art methods in terms of answer prediction. The quality of the generated expressions was also evaluated on the RefCOCO, RefCOCO+, and RefCOCOg datasets. Experimental results demonstrate the effectiveness of the proposed method and reveal that it outperformed all of the competing methods in terms of both quantitative and qualitative results.
翻訳日:2021-03-20 17:25:06 公開日:2021-01-22
# 画像マット加工の細粒度向上に向けて

Towards Enhancing Fine-grained Details for Image Matting ( http://arxiv.org/abs/2101.09095v1 )

ライセンス: Link先を確認
Chang Liu, Henghui Ding, Xudong Jiang(参考訳) 近年,高レベルな文脈特徴をモデルに抽出することで,深層自然画像のマット化が急速に進展している。 しかし、現在の方法の多くは、毛髪や毛皮のような細部を扱うのに依然として難しい。 本稿では,これらの微視的詳細の復元は,低レベルだが高精細なテクスチャ特徴に依存すると論じる。 しかしながら、これらの特徴は現在のエンコーダデコーダベースのモデルにおいて非常に初期の段階でダウンサンプリングされ、顕微鏡的詳細が失われる。 この問題に対処するため,細部まで細部を拡大する深部画像マッチングモデルを設計する。 本モデルは,従来のエンコーダデコーダセマンティックパスと,独立したダウンサンプリングフリーなテクスチュラル補償パス(TCP)の2つの並列パスからなる。 TCPは、元の画像サイズにおける線やエッジなどの細かな詳細を抽出し、予測の微妙さを大幅に向上させる。 一方、高レベルのコンテキストの利点を活用するために、意味経路からマルチスケール機能を融合してTCPに注入する機能融合ユニット(FFU)を提案する。 さらに,アノテーションの少ないトリマップがモデルの性能に深刻な影響を与えていることも確認した。 そこで本研究では,新たな損失関数とトリマップ生成手法を提案し,モデルのトリマップに対するロバスト性を改善する。 実験の結果,本手法はコンポジション1kデータセットの先行手法よりも優れていた。

In recent years, deep natural image matting has been rapidly evolved by extracting high-level contextual features into the model. However, most current methods still have difficulties with handling tiny details, like hairs or furs. In this paper, we argue that recovering these microscopic details relies on low-level but high-definition texture features. However, {these features are downsampled in a very early stage in current encoder-decoder-base d models, resulting in the loss of microscopic details}. To address this issue, we design a deep image matting model {to enhance fine-grained details. Our model consists of} two parallel paths: a conventional encoder-decoder Semantic Path and an independent downsampling-free Textural Compensate Path (TCP). The TCP is proposed to extract fine-grained details such as lines and edges in the original image size, which greatly enhances the fineness of prediction. Meanwhile, to leverage the benefits of high-level context, we propose a feature fusion unit(FFU) to fuse multi-scale features from the semantic path and inject them into the TCP. In addition, we have observed that poorly annotated trimaps severely affect the performance of the model. Thus we further propose a novel term in loss function and a trimap generation method to improve our model's robustness to the trimaps. The experiments show that our method outperforms previous start-of-the-art methods on the Composition-1k dataset.
翻訳日:2021-03-20 17:24:50 公開日:2021-01-22
# 畳み込みニューラルネットワークによる同一課題の解法

Solving the Same-Different Task with Convolutional Neural Networks ( http://arxiv.org/abs/2101.09129v1 )

ライセンス: Link先を確認
Nicola Messina, Giuseppe Amato, Fabio Carrara, Claudio Gennaro, Fabrizio Falchi(参考訳) 深層学習はコンピュータビジョン文学における様々な現実世界の問題を解く上で大きな能力を示した。 しかし、それらは人間が容易に解決できると考える単純な推論タスクに悩まされている。 本研究では,現在最先端の畳み込みニューラルネットワークを,同種差分問題として知られる困難なタスクの集合上で探索する。 すべての問題は、同じ画像内の2つのランダムな形状が同じかどうかを理解するという、同じ前提条件を正しく解く必要がある。 本研究で実施した実験により, 残差接続, より一般的にはスキップ接続は, 提案した問題の学習に限られた影響しか与えないことを示した。 特に,我々はDenseNetsを実験し,すでにテスト済みアーキテクチャであるResNet-18,CorNet-Sにおける残差および繰り返し接続の寄与について検討した。 実験の結果,古いフィードフォワードネットワークであるAlexNetとVGGは,特定のシナリオを除いて,提案した問題をほとんど学習できないことがわかった。 最近導入されたアーキテクチャは、アーキテクチャの重要な部分が取り除かれても収束できることを示す。 最終的にゼロショットの一般化テストを実施し、これらのシナリオでは、残差と繰り返し接続が全体のテスト精度に強い影響を与えることが判明した。 SVRTデータセットから得られた4つの難解な問題に対して、従来のアプローチに関して最先端の結果に到達し、4つの問題のうち3つについて超人的な性能を得る。

Deep learning demonstrated major abilities in solving many kinds of different real-world problems in computer vision literature. However, they are still strained by simple reasoning tasks that humans consider easy to solve. In this work, we probe current state-of-the-art convolutional neural networks on a difficult set of tasks known as the same-different problems. All the problems require the same prerequisite to be solved correctly: understanding if two random shapes inside the same image are the same or not. With the experiments carried out in this work, we demonstrate that residual connections, and more generally the skip connections, seem to have only a marginal impact on the learning of the proposed problems. In particular, we experiment with DenseNets, and we examine the contribution of residual and recurrent connections in already tested architectures, ResNet-18, and CorNet-S respectively. Our experiments show that older feed-forward networks, AlexNet and VGG, are almost unable to learn the proposed problems, except in some specific scenarios. We show that recently introduced architectures can converge even in the cases where the important parts of their architecture are removed. We finally carry out some zero-shot generalization tests, and we discover that in these scenarios residual and recurrent connections can have a stronger impact on the overall test accuracy. On four difficult problems from the SVRT dataset, we can reach state-of-the-art results with respect to the previous approaches, obtaining super-human performances on three of the four problems.
翻訳日:2021-03-20 17:24:11 公開日:2021-01-22
# 雑音負画像を用いた訓練に基づく高密度外乱検出と開集合認識

Dense outlier detection and open-set recognition based on training with noisy negative images ( http://arxiv.org/abs/2101.09193v1 )

ライセンス: Link先を確認
Petra Bevandi\'c, Ivan Kre\v{s}o, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 深層畳み込みモデルはしばしば、トレーニング分布と異なる入力に対する不適切な予測を生成する。 その結果,最近,外乱画像の検出に多くの注目が集まっている。 これまでのほとんどの仕事とは異なり、我々は分布の背景の前で異常な物体を見つけるために、密集した予測コンテキストでこの問題に対処した。 我々のアプローチは2つの合理的な仮定に基づいている。 まず、inlierデータセットは、いくつかの狭いアプリケーションフィールド(例えば、-road driving)に関連していると仮定する。 次に、インリエデータセット(例えば~ImageNet-1k)よりもはるかに多様な汎用データセットが存在すると仮定する。 汎用データセットのピクセルは、ほとんど(すべてではない)が異常値であるため、ノイズの多い負のトレーニングサンプルだと考えています。 我々は,不整合トレーニング画像に散らばった負のパッチを貼り付けることで,未知と未知の境界を認識することを奨励する。 実験では,WildDash 1 と Fishyscapes の2つの密集した開集合認識ベンチマークと,密集した開集合認識データセット (StreetHazard) を対象とした。 性能評価は,提案手法の競争力を示す。

Deep convolutional models often produce inadequate predictions for inputs foreign to the training distribution. Consequently, the problem of detecting outlier images has recently been receiving a lot of attention. Unlike most previous work, we address this problem in the dense prediction context in order to be able to locate outlier objects in front of in-distribution background. Our approach is based on two reasonable assumptions. First, we assume that the inlier dataset is related to some narrow application field (e.g.~road driving). Second, we assume that there exists a general-purpose dataset which is much more diverse than the inlier dataset (e.g.~ImageNet-1k). We consider pixels from the general-purpose dataset as noisy negative training samples since most (but not all) of them are outliers. We encourage the model to recognize borders between known and unknown by pasting jittered negative patches over inlier training images. Our experiments target two dense open-set recognition benchmarks (WildDash 1 and Fishyscapes) and one dense open-set recognition dataset (StreetHazard). Extensive performance evaluation indicates competitive potential of the proposed approach.
翻訳日:2021-03-20 17:23:48 公開日:2021-01-22
# 英語母国語・非母国語作家のメール入力と構成行動に及ぼす複数パラレル句提案の影響

The Impact of Multiple Parallel Phrase Suggestions on Email Input and Composition Behaviour of Native and Non-Native English Writers ( http://arxiv.org/abs/2101.09157v1 )

ライセンス: Link先を確認
Daniel Buschek, Martin Z\"urn, Malin Eiband(参考訳) 本稿では,eメールライティングにおける入力とテキスト合成に関するユーザの行動に対するニューラルネットワークモデルからの多語提案の影響について詳細に分析する。 本研究は,近年の文献から生まれた「効率対観念」のトレードオフを探るため,異なる数の並行提案と,ネイティブおよび非ネイティブな英語作家による使用を比較した。 ニューラルネットワークモデル(GPT-2)を用いたテキストエディタのプロトタイプを構築した。 オンライン研究(n=156)では、4つの条件(0/1/3/6並列提案)で電子メールを作成した。 その結果,(1)複数のフレーズを提案する場合のアイデアのメリット,および効率のコスト,(2)非ネイティブ話者がより多くの提案から恩恵を受けること,(3)行動パターンに関するさらなる洞察が得られた。 本稿では,研究の意味,インタラクティブな提案システムの設計,AIによる著者支援のビジョンについて論じる。

We present an in-depth analysis of the impact of multi-word suggestion choices from a neural language model on user behaviour regarding input and text composition in email writing. Our study for the first time compares different numbers of parallel suggestions, and use by native and non-native English writers, to explore a trade-off of "efficiency vs ideation", emerging from recent literature. We built a text editor prototype with a neural language model (GPT-2), refined in a prestudy with 30 people. In an online study (N=156), people composed emails in four conditions (0/1/3/6 parallel suggestions). Our results reveal (1) benefits for ideation, and costs for efficiency, when suggesting multiple phrases; (2) that non-native speakers benefit more from more suggestions; and (3) further insights into behaviour patterns. We discuss implications for research, the design of interactive suggestion systems, and the vision of supporting writers with AI instead of replacing them.
翻訳日:2021-03-20 17:22:39 公開日:2021-01-22
# 生体組織表現トランスフォーマを用いた薬物・疾患解釈学習

Drug and Disease Interpretation Learning with Biomedical Entity Representation Transformer ( http://arxiv.org/abs/2101.09311v1 )

ライセンス: Link先を確認
Zulfat Miftahutdinov, Artur Kadurin, Roman Kudrin, and Elena Tutubalina(参考訳) 自由形式のテキストにおける概念正規化は、すべてのテキストマイニングパイプラインにおいて重要なステップである。 変換器(BERT)からの双方向エンコーダ表現に基づくニューラルアーキテクチャは、バイオメディカル領域において最先端の結果を得た。 創薬・開発の分野では、医薬品の有効性と安全性を確立するために臨床試験が必要である。 ラベル付きデータがないゼロショット設定において,一般バイオメディカル領域から臨床試験領域への概念正規化の移行の有効性を検討した。 本稿では,微調整bertアーキテクチャに基づく,単純かつ効果的な2段階ニューラルアプローチを提案する。 最初の段階では、三重項損失による言及や概念の相対的類似性を最適化する計量学習モデルを訓練する。 このモデルは、概念名のベクトル埋め込みとテキストからの実体参照を得るために、利用可能なラベル付き科学抽象のコーパスに基づいて訓練される。 第2段階では, 埋め込み空間において, 特定の臨床文献に最も近い概念名表現を見いだす。 我々は,抽象のデータセットや,薬物や疾患の用語にマッピングされた介入や条件を伴う実世界の治験記録データセット上で,最先端のアーキテクチャを含むいくつかのモデルを評価した。 科学的文献から臨床試験への知識伝達における我々のアプローチの有効性を検証する。

Concept normalization in free-form texts is a crucial step in every text-mining pipeline. Neural architectures based on Bidirectional Encoder Representations from Transformers (BERT) have achieved state-of-the-art results in the biomedical domain. In the context of drug discovery and development, clinical trials are necessary to establish the efficacy and safety of drugs. We investigate the effectiveness of transferring concept normalization from the general biomedical domain to the clinical trials domain in a zero-shot setting with an absence of labeled data. We propose a simple and effective two-stage neural approach based on fine-tuned BERT architectures. In the first stage, we train a metric learning model that optimizes relative similarity of mentions and concepts via triplet loss. The model is trained on available labeled corpora of scientific abstracts to obtain vector embeddings of concept names and entity mentions from texts. In the second stage, we find the closest concept name representation in an embedding space to a given clinical mention. We evaluated several models, including state-of-the-art architectures, on a dataset of abstracts and a real-world dataset of trial records with interventions and conditions mapped to drug and disease terminologies. Extensive experiments validate the effectiveness of our approach in knowledge transfer from the scientific literature to clinical trials.
翻訳日:2021-03-20 17:22:20 公開日:2021-01-22
# フリンジニュースネットワーク:2020年の大統領選挙後の米国のニュース視聴のダイナミクス

Fringe News Networks: Dynamics of US News Viewership following the 2020 Presidential Election ( http://arxiv.org/abs/2101.10112v1 )

ライセンス: Link先を確認
Ashiqur R. KhudaBukhsh, Rupak Sarkar, Mark S. Kamlet, Tom M. Mitchell(参考訳) 過去数十年間、アメリカの選挙人による政治的偏見は、広く研究され、記録されている。 ドナルド・トランプ米大統領の政権下で、「フェイクニュース」の告発は、ソーシャルメディアやニュースメディアを手段だけでなく、前例のないほど政治的コミュニケーションの話題にした。 2020年11月3日の米大統領選挙以前のデータを用いて、最近の研究は、YouTubeのソーシャルメディアエコシステムを使用して、米国の政治的分極の程度と、この分極と、異なる米国のニュースネットワークによって提供されるコンテンツとコメントの関係に関する洞察を得る可能性を示している。 この動きを背景として、1月6日に米国議会議事堂で起こった米国大統領選挙と暴力の間の64日間における、ニュース消費者と現在の「違法」ニュースメディアチャンネルとの関係の急激な変容を考察する。 本稿は2つの異なるタイプの貢献について述べる。 1つ目は、ソーシャルメディアデータを分析し、社会的政治ニュースネットワークとその視聴者のダイナミクスを研究する新しい手法を導入することである。 2つめは、この不安定な64日間に、米国の政治ソーシャルメディアチャンネルとその視聴者について、実際に何が起こったのかを知ることだ。

The growing political polarization of the American electorate over the last several decades has been widely studied and documented. During the administration of President Donald Trump, charges of "fake news" made social and news media not only the means but, to an unprecedented extent, the topic of political communication. Using data from before the November 3rd, 2020 US Presidential election, recent work has demonstrated the viability of using YouTube's social media ecosystem to obtain insights into the extent of US political polarization as well as the relationship between this polarization and the nature of the content and commentary provided by different US news networks. With that work as background, this paper looks at the sharp transformation of the relationship between news consumers and here-to-fore "fringe" news media channels in the 64 days between the US presidential election and the violence that took place at US Capitol on January 6th. This paper makes two distinct types of contributions. The first is to introduce a novel methodology to analyze large social media data to study the dynamics of social political news networks and their viewers. The second is to provide insights into what actually happened regarding US political social media channels and their viewerships during this volatile 64 day period.
翻訳日:2021-03-20 17:22:04 公開日:2021-01-22
# 対向例発見のための適応型近隣地域

Adaptive Neighbourhoods for the Discovery of Adversarial Examples ( http://arxiv.org/abs/2101.09108v1 )

ライセンス: Link先を確認
Jay Morgan, Adeline Paiement, Arno Pauly, Monika Seisenberger(参考訳) ディープニューラルネットワーク(DNN)は、しばしばパターン認識タスクにおいて最先端の結果を提供する。 しかし、その進歩にもかかわらず、敵対的な例の存在はコミュニティの注目を集めている。 既存の多くの研究は、訓練点付近の固定サイズの領域における敵例を探索する手法を提案している。 我々の研究は、これらの領域のサイズを問題複雑性とデータサンプリング密度に基づいて調整し、既存のアプローチを補完し改善する。 これにより、そのようなアプローチは他の種類のデータに対してより適切になり、誤ったラベルを作成することなく、領域のサイズを拡大して敵の訓練方法を改善することができる。

Deep Neural Networks (DNNs) have often supplied state-of-the-art results in pattern recognition tasks. Despite their advances, however, the existence of adversarial examples have caught the attention of the community. Many existing works have proposed methods for searching for adversarial examples within fixed-sized regions around training points. Our work complements and improves these existing approaches by adapting the size of these regions based on the problem complexity and data sampling density. This makes such approaches more appropriate for other types of data and may further improve adversarial training methods by increasing the region sizes without creating incorrect labels.
翻訳日:2021-03-20 17:21:28 公開日:2021-01-22
# Pareto GAN:GANの表現力を重層分布に拡張する

Pareto GAN: Extending the Representational Power of GANs to Heavy-Tailed Distributions ( http://arxiv.org/abs/2101.09113v1 )

ライセンス: Link先を確認
Todd Huster, Jeremy E.J. Cohen, Zinan Lin, Kevin Chan, Charles Kamhoua, Nandi Leslie, Cho-Yu Jason Chiang, Vyas Sekar(参考訳) generative adversarial network (gans) はしばしば "universal distribution learner" と称されるが、正確には彼らが表現し学習できる分布は、まだ未解決の問題である。 重み付き分布は、金融リスク評価、物理学、疫学など、多くの異なる領域で広く見られる。 我々は,既存のGANアーキテクチャが重み付き分布の漸近的挙動と整合性に乏しいことを観察する。 さらに、無限のモーメントと重尾分布の特徴である外接点の間の大きな距離に直面した場合、共通損失関数は不安定あるいは近ゼロ勾配を生成する。 これらの問題をPareto GANで解決する。 パレートganは、極端な値理論とニューラルネットワークの機能的性質を利用して、特徴の限界分布の漸近的挙動に一致する分布を学習する。 標準損失関数の問題を特定し,安定かつ効率的な学習を可能にする代替距離空間を提案する。 最後に,様々な重み付きデータセットに対する提案手法の評価を行った。

Generative adversarial networks (GANs) are often billed as "universal distribution learners", but precisely what distributions they can represent and learn is still an open question. Heavy-tailed distributions are prevalent in many different domains such as financial risk-assessment, physics, and epidemiology. We observe that existing GAN architectures do a poor job of matching the asymptotic behavior of heavy-tailed distributions, a problem that we show stems from their construction. Additionally, when faced with the infinite moments and large distances between outlier points that are characteristic of heavy-tailed distributions, common loss functions produce unstable or near-zero gradients. We address these problems with the Pareto GAN. A Pareto GAN leverages extreme value theory and the functional properties of neural networks to learn a distribution that matches the asymptotic behavior of the marginal distributions of the features. We identify issues with standard loss functions and propose the use of alternative metric spaces that enable stable and efficient learning. Finally, we evaluate our proposed approach on a variety of heavy-tailed datasets.
翻訳日:2021-03-20 17:21:19 公開日:2021-01-22
# 定理証明のための連続ベクトル表現に関する研究

A Study of Continuous Vector Representationsfor Theorem Proving ( http://arxiv.org/abs/2101.09142v1 )

ライセンス: Link先を確認
Stanis{\l}aw Purga{\l}, Julian Parsert, Cezary Kaliszyk(参考訳) 機械学習を数学的用語や公式に適用するには、AI手法に適した公式の表現が必要である。 本稿では,論理特性を保存し,さらに可逆性を持たせるエンコーディングを開発する。 つまり、すべての記号を含む公式の木の形状は、濃密なベクトル表現から再構成できる。 これは2つのデコーダをトレーニングすることで実現します。1つは木の一番上のシンボルを抽出し、もう1つは部分木の埋め込みベクトルを抽出します。 私たちが予約しようとしている構文的および意味的論理特性には、構造的公式性、自然推論ステップの適用性、さらにユニフィラビリティのようなより複雑な操作が含まれる。 これらの構文的および意味的特性のトレーニングに使用できるデータセットを提案する。 提案したデータセット間での符号化の実現可能性と,Mizar corpusにおける前提選択の実践的定理証明問題について検討した。

Applying machine learning to mathematical terms and formulas requires a suitable representation of formulas that is adequate for AI methods. In this paper, we develop an encoding that allows for logical properties to be preserved and is additionally reversible. This means that the tree shape of a formula including all symbols can be reconstructed from the dense vector representation. We do that by training two decoders: one that extracts the top symbol of the tree and one that extracts embedding vectors of subtrees. The syntactic and semantic logical properties that we aim to reserve include both structural formula properties, applicability of natural deduction steps, and even more complex operations like unifiability. We propose datasets that can be used to train these syntactic and semantic properties. We evaluate the viability of the developed encoding across the proposed datasets as well as for the practical theorem proving problem of premise selection in the Mizar corpus.
翻訳日:2021-03-20 17:21:02 公開日:2021-01-22
# 多次元データの予測モデル学習のためのテンソルトレインネットワーク

Tensor-Train Networks for Learning Predictive Modeling of Multidimensional Data ( http://arxiv.org/abs/2101.09184v1 )

ライセンス: Link先を確認
M. Nazareth da Costa, R. Attux, A. Cichocki, J. M. T. Romano(参考訳) 深層ニューラルネットワークは、その魅力的なデータ駆動フレームワークと、いくつかのパターン認識タスクにおけるそのパフォーマンスのために、機械学習コミュニティの注目を集めている。 一方、ネットワークの内部動作、特定の層の必要性、ハイパーパラメータ選択など、多くのオープンな理論的問題が存在する。 有望な戦略は、物理的および化学的応用において非常に成功したテンソルネットワークに基づいている。 一般に、高階テンソルは疎結合な下階テンソルに分解される。 これは次元の呪いを避け、データテンソルの高度に圧縮された表現を提供する数値的に信頼性の高い方法であり、近似の所望の精度を制御できる優れた数値特性を提供する。 テンソルとニューラルネットワークを比較するために,まずテンソルトレインを用いた古典的多層パーセプトロンの同定を検討する。 また、マッキーグラスの騒がしいカオス時系列とnasdaq指数の予測の文脈で比較分析を行った。 ニューラルネットワークの精度を維持する強力なコンパクト表現を実現するために, テンソルネットワークを用いて多次元回帰モデルの重みを学習できることが示されている。 さらに,tt-形式の重みを計算量の減少とともに近似するために,交互最小二乗法に基づくアルゴリズムが提案されている。 直接表現を用いて, 一般回帰モデルの従来の解としてコア推定を近似し, テンソル構造の適用性を異なるアルゴリズムに適用可能とした。

Deep neural networks have attracted the attention of the machine learning community because of their appealing data-driven framework and of their performance in several pattern recognition tasks. On the other hand, there are many open theoretical problems regarding the internal operation of the network, the necessity of certain layers, hyperparameter selection etc. A promising strategy is based on tensor networks, which have been very successful in physical and chemical applications. In general, higher-order tensors are decomposed into sparsely interconnected lower-order tensors. This is a numerically reliable way to avoid the curse of dimensionality and to provide highly compressed representation of a data tensor, besides the good numerical properties that allow to control the desired accuracy of approximation. In order to compare tensor and neural networks, we first consider the identification of the classical Multilayer Perceptron using Tensor-Train. A comparative analysis is also carried out in the context of prediction of the Mackey-Glass noisy chaotic time series and NASDAQ index. We have shown that the weights of a multidimensional regression model can be learned by means of tensor networks with the aim of performing a powerful compact representation retaining the accuracy of neural networks. Furthermore, an algorithm based on alternating least squares has been proposed for approximating the weights in TT-format with a reduction of computational calculus. By means of a direct expression, we have approximated the core estimation as the conventional solution for a general regression model, which allows to extend the applicability of tensor structures to different algorithms.
翻訳日:2021-03-20 17:20:50 公開日:2021-01-22
# Chemistry42:デノボ分子設計のためのAIベースのプラットフォーム

Chemistry42: An AI-based platform for de novo molecular design ( http://arxiv.org/abs/2101.09050v1 )

ライセンス: Link先を確認
Yan A. Ivanenkov, Alex Zhebrak, Dmitry Bezrukov, Bogdan Zagribelnyy, Vladimir Aladinskiy, Daniil Polykovskiy, Evgeny Putin, Petrina Kamya, Alexander Aliper, Alex Zhavoronkov(参考訳) Chemistry42は、人工知能(AI)技術と計算および医学的な化学手法を統合する、デノボ小分子設計のためのソフトウェアプラットフォームである。 ケミカル42は、in vitroおよびin vivo研究によって事前に定義された性質を持つ新規な分子構造を生成する能力に特有である。 化学42は、Insilico Medicine Pharma.aiドラッグ発見スイートの中核的なコンポーネントであり、ターゲット発見とマルチオミクスデータ分析(PandaOmics)、臨床試験結果予測(InClinico)も含む。

Chemistry42 is a software platform for de novo small molecule design that integrates Artificial Intelligence (AI) techniques with computational and medicinal chemistry methods. Chemistry42 is unique in its ability to generate novel molecular structures with predefined properties validated through in vitro and in vivo studies. Chemistry42 is a core component of Insilico Medicine Pharma.ai drug discovery suite that also includes target discovery and multi-omics data analysis (PandaOmics) and clinical trial outcomes predictions (InClinico).
翻訳日:2021-03-20 17:20:15 公開日:2021-01-22
# ネットワークレジリエンスのためのコスト損失効率ソリューションとしてのaiによるvnfマイグレーション

AI-Empowered VNF Migration as a Cost-Loss-Effective Solution for Network Resilience ( http://arxiv.org/abs/2101.09343v1 )

ライセンス: Link先を確認
Amina Lejla Ibrahimpasic, Bin Han, and Hans D. Schotten(参考訳) 第5世代(5G)モバイルネットワークにおけるMulti-Access Edge Computing(MEC)の広範な展開により、仮想ネットワーク機能(VNF)は、異なるロケーション間で柔軟に移行することが可能となり、ネットワーク機能停止によるサービス品質(QoS)の低下に対処するネットワークレジリエンスが大幅に向上する。 VNFマイグレーションによる損失と、それによって発生する運用コストとの間には、バランスを慎重に取らなければならない。 これを現実的なユーザ動作で現実的なシナリオで実現するために、コストとユーザモビリティの両方のモデルが必要です。 本稿では,機能停止に伴う運用コストと潜在的な損失の総和を最小化し,複雑な現実的なユーザモビリティパターンを扱うことのできる,ステートフルなVNFの合理的マイグレーションのための,新しいコストモデルとAIを活用したアプローチを提案する。

With a wide deployment of Multi-Access Edge Computing (MEC) in the Fifth Generation (5G) mobile networks, virtual network functions (VNF) can be flexibly migrated between difference locations, and therewith significantly enhances the network resilience to counter the degradation in quality of service (QoS) due to network function outages. A balance has to be taken carefully, between the loss reduced by VNF migration and the operations cost generated thereby. To achieve this in practical scenarios with realistic user behavior, it calls for models of both cost and user mobility. This paper proposes a novel cost model and a AI-empowered approach for a rational migration of stateful VNFs, which minimizes the sum of operations cost and potential loss caused by outages, and is capable to deal with the complex realistic user mobility patterns.
翻訳日:2021-03-20 17:19:35 公開日:2021-01-22
# 電子健康記録を用いた人工知能時代の健康の社会的決定要因:体系的レビュー

Social determinants of health in the era of artificial intelligence with electronic health records: A systematic review ( http://arxiv.org/abs/2102.04216v1 )

ライセンス: Link先を確認
Anusha Bompelli, Yanshan Wang, Ruyuan Wan, Esha Singh, Yuqi Zhou, Lin Xu, David Oniani, Bhavani Singh Agnikula Kshatriya, Joyce (Joy) E. Balls-Berry, and Rui Zhang(参考訳) 健康の社会的決定因子(SDOH)が様々な健康結果に重要な役割を果たすことを示す証拠が増えている。 人工知能(AI)の時代には、電子健康記録(EHR)が観察研究に広く用いられてきた。 しかし、EHRからSDOH情報を最大限に活用する方法はまだ研究されていない。 本稿では、最近発表された論文を体系的にレビューし、EHRデータにおけるSDOH情報を用いたAI手法の方法論的レビューを行った。 2010年から2020年にかけて、文献から合計1250の論文が抽出され、74の論文が要約と全文スクリーニングの後にこのレビューに含まれた。 我々は,これらの論文を,出版年,会場,国など,一般的な特徴の観点から要約した。 ) SDOHタイプ, 疾患領域, 研究成果, EHRからSDOHを抽出するAIメソッド, 医療結果にSDOHを用いたAIメソッド。 最後に,EHRからSDOHを使用する際の現在の傾向,課題,今後の方向性について論じる。

There is growing evidence showing the significant role of social determinant of health (SDOH) on a wide variety of health outcomes. In the era of artificial intelligence (AI), electronic health records (EHRs) have been widely used to conduct observational studies. However, how to make the best of SDOH information from EHRs is yet to be studied. In this paper, we systematically reviewed recently published papers and provided a methodology review of AI methods using the SDOH information in EHR data. A total of 1250 articles were retrieved from the literature between 2010 and 2020, and 74 papers were included in this review after abstract and full-text screening. We summarized these papers in terms of general characteristics (including publication years, venues, countries etc.), SDOH types, disease areas, study outcomes, AI methods to extract SDOH from EHRs and AI methods using SDOH for healthcare outcomes. Finally, we conclude this paper with discussion on the current trends, challenges, and future directions on using SDOH from EHRs.
翻訳日:2021-03-20 17:19:18 公開日:2021-01-22
# エネルギー効率の良い音声認識のための爆発的ビーム探索信頼度

Exploiting Beam Search Confidence for Energy-Efficient Speech Recognition ( http://arxiv.org/abs/2101.09083v1 )

ライセンス: Link先を確認
Dennis Pinto, Jose-Mar\'ia Arnau, Antonio Gonz\'alez(参考訳) コンピュータが日々の生活にますます強力で統合されていくにつれて、焦点はますます人間フレンドリーなインターフェースへとシフトし、自動音声認識(ASR)が機械との対話の理想的な手段となる。 その結果、ここ数年で音声技術への関心が高まり、より多くのシステムが提案され、より高い精度が達成され、さらには \textit{human accuracy} を超えている。 ASRシステムはますます強力になるが、計算の複雑さも増大し、ハードウェアサポートはペースを維持する必要がある。 本稿では,エッジデバイス用低消費電力ハードウェアに着目し,ASRシステムのエネルギー効率と性能を向上させる手法を提案する。 我々は,dnnに基づく音響モデル評価の最適化に重点を置いており,ビームサーチからの実行時間情報を活用することで,最先端asrシステムにおける主要なボトルネックであると考えられる。 これにより、音響モデル評価のエネルギーと実行時間をそれぞれ25.6%削減し、25.9%削減する。

With computers getting more and more powerful and integrated in our daily lives, the focus is increasingly shifting towards more human-friendly interfaces, making Automatic Speech Recognition (ASR) a central player as the ideal means of interaction with machines. Consequently, interest in speech technology has grown in the last few years, with more systems being proposed and higher accuracy levels being achieved, even surpassing \textit{Human Accuracy}. While ASR systems become increasingly powerful, the computational complexity also increases, and the hardware support have to keep pace. In this paper, we propose a technique to improve the energy-efficiency and performance of ASR systems, focusing on low-power hardware for edge devices. We focus on optimizing the DNN-based Acoustic Model evaluation, as we have observed it to be the main bottleneck in state-of-the-art ASR systems, by leveraging run-time information from the Beam Search. By doing so, we reduce energy and execution time of the acoustic model evaluation by 25.6% and 25.9%, respectively, with negligible accuracy loss.
翻訳日:2021-03-20 17:19:05 公開日:2021-01-22
# ワッサーシュタイン計量を用いた実数直線上の分布データの投影統計法

Projected Statistical Methods for Distributional Data on the Real Line with the Wasserstein Metric ( http://arxiv.org/abs/2101.09039v1 )

ライセンス: Link先を確認
Matteo Pegoraro and Mario Beraha(参考訳) 実数直線上の確率分布のデータセットを2-ワッサーシュタイン計量を用いて統計的に解析する新しい手法のクラスを提案する。 特に、主成分分析(PCA)と回帰に注目します。 これらのモデルを定義するために、ワッサーシュタイン空間の弱リーマン構造と密接に関連する表現を利用して、データを適当な線型空間にマッピングし、計量射影作用素を用いてワッサーシュタイン空間の結果を制約する。 接点を慎重に選択することで、制約付きB-スプライン近似を利用して高速な経験的手法を導出することができる。 提案手法の副産物として,配電用PCAにおける以前の作業よりも高速なルーチンを導出することができる。 シミュレーション研究により,提案手法との比較を行い,予測PCAは計算コストのごく一部で類似した性能を示し,予測回帰は不特定条件下でも極めて柔軟であることを示した。 モデルのいくつかの理論的特性が研究され、漸近的一貫性が証明された。 米国におけるCovid-19死亡率と風速予測の2つの現実的応用について論じる。

We present a novel class of projected methods, to perform statistical analysis on a data set of probability distributions on the real line, with the 2-Wasserstein metric. We focus in particular on Principal Component Analysis (PCA) and regression. To define these models, we exploit a representation of the Wasserstein space closely related to its weak Riemannian structure, by mapping the data to a suitable linear space and using a metric projection operator to constrain the results in the Wasserstein space. By carefully choosing the tangent point, we are able to derive fast empirical methods, exploiting a constrained B-spline approximation. As a byproduct of our approach, we are also able to derive faster routines for previous work on PCA for distributions. By means of simulation studies, we compare our approaches to previously proposed methods, showing that our projected PCA has similar performance for a fraction of the computational cost and that the projected regression is extremely flexible even under misspecification. Several theoretical properties of the models are investigated and asymptotic consistency is proven. Two real world applications to Covid-19 mortality in the US and wind speed forecasting are discussed.
翻訳日:2021-03-20 17:18:47 公開日:2021-01-22
# 3次元光学顕微鏡画像からの補助骨格損失を用いたグラフベースグローバル推論を用いた単一ニューロン分割

Single Neuron Segmentation using Graph-based Global Reasoning with Auxiliary Skeleton Loss from 3D Optical Microscope Images ( http://arxiv.org/abs/2101.08910v1 )

ライセンス: Link先を確認
Heng Wang, Yang Song, Chaoyi Zhang, Jianhui Yu, Siqi Liu, Hanchuan Peng, Weidong Cai(参考訳) 3次元(3D)光学顕微鏡画像から正確な単一ニューロン再構成を改善する重要なステップの1つは、神経構造セグメンテーションである。 しかし、品質の欠如のため、セグメント化が常に難しい。 畳み込みニューラルネットワーク(convolutional neural networks, cnns)をこのタスクに適用しようという試みは相変わらず行われたが、ノイズと断線ギャップは、グラフのような管状神経構造の非局所的な特徴を無視することの軽減に依然として困難である。 そこで我々は,局所的な外観とグローバルな幾何学的特徴をグラフ推論と骨格に基づく補助的損失を通じて共同で考慮し,エンドツーエンドのセグメンテーションネットワークを提案する。 The evaluation results on the Janelia dataset from the BigNeuron project showed that our proposed method is over the other algorithm in performance。

One of the critical steps in improving accurate single neuron reconstruction from three-dimensional (3D) optical microscope images is the neuronal structure segmentation. However, they are always hard to segment due to the lack in quality. Despite a series of attempts to apply convolutional neural networks (CNNs) on this task, noise and disconnected gaps are still challenging to alleviate with the neglect of the non-local features of graph-like tubular neural structures. Hence, we present an end-to-end segmentation network by jointly considering the local appearance and the global geometry traits through graph reasoning and a skeleton-based auxiliary loss. The evaluation results on the Janelia dataset from the BigNeuron project demonstrate that our proposed method exceeds the counterpart algorithms in performance.
翻訳日:2021-03-20 17:18:29 公開日:2021-01-22
# AS-Net:スパースデータからの多機能融合による高速光音響再構成

AS-Net: Fast Photoacoustic Reconstruction with Multi-feature Fusion from Sparse Data ( http://arxiv.org/abs/2101.08934v1 )

ライセンス: Link先を確認
Mengjie Guo, Hengrong Lan, Changchun Yang, and Fei Gao(参考訳) 光音響イメージング(英語: photoacoustic imaging)は、従来の光学イメージング技術よりもはるかに大きな深さで光吸収の高コントラスト画像を取得することができる生体医用イメージングモードである。 しかし、実用的な計測と幾何学は、撮像対象を取り囲む利用可能な音響センサの数を制限し、センサデータのスパース性が低下する。 従来のpa画像再構成手法は、これらのスパースデータに直接適用した場合に深刻なアーティファクトを与える。 本稿では,まず,スパースPA生データをニューラルネットワークに適合させ,画像再構成を同時に高速化する新しい信号処理手法を提案する。 次に,多機能融合を用いたpa再構成のための注意ステアリングネットワーク(as-net)を提案する。 AS-Netは、基底血管ファントムからの光音響データや、生体内魚とマウスのイメージング実験の実際のデータなど、さまざまなデータセットで検証されている。 特に、この方法は、生体データのために地中に存在するいくつかのアーティファクトを除去できる。 その結果,提案手法はより高速に再現できることを示した。

Photoacoustic (PA) imaging is a biomedical imaging modality capable of acquiring high contrast images of optical absorption at depths much greater than traditional optical imaging techniques. However, practical instrumentation and geometry limit the number of available acoustic sensors surrounding the imaging target, which results in sparsity of sensor data. Conventional PA image reconstruction methods give severe artifacts when they are applied directly to these sparse data. In this paper, we first employ a novel signal processing method to make sparse PA raw data more suitable for the neural network, and concurrently speeding up image reconstruction. Then we propose Attention Steered Network (AS-Net) for PA reconstruction with multi-feature fusion. AS-Net is validated on different datasets, including simulated photoacoustic data from fundus vasculature phantoms and real data from in vivo fish and mice imaging experiments. Notably, the method is also able to eliminate some artifacts present in the ground-truth for in vivo data. Results demonstrated that our method provides superior reconstructions at a faster speed.
翻訳日:2021-03-20 17:18:14 公開日:2021-01-22
# 3次元u-netによる添加物製造欠陥の自動分割

Automatic Volumetric Segmentation of Additive Manufacturing Defects with 3D U-Net ( http://arxiv.org/abs/2101.08993v1 )

ライセンス: Link先を確認
Vivian Wen Hui Wong, Max Ferguson, Kincho H. Law, Yung-Tsun Tina Lee, Paul Witherell(参考訳) X-ray Computed Tomography (XCT) 画像における添加性製造 (AM) 欠陥の分離は, コントラストの低さ, 小型化, 外観の変動により困難である。 しかし、自動セグメンテーションは添加物製造のための品質管理を提供することができる。 近年,3次元畳み込みニューラルネットワーク(3d cnn)が医療画像のボリュームセグメンテーションにおいて良好に機能している。 本研究では,医用画像領域の技法を活用し,AMサンプルのXCT画像の欠陥を自動的に識別する3次元U-Netモデルを提案する。 この研究は、AM欠陥検出のための機械学習の使用に寄与するだけでなく、AMにおける3次元ボリュームセグメンテーションを初めて示す。 AMデータセット上で、3D U-Netの3つの変種をトレーニングし、テストし、平均的結合(IOU)値88.4%を達成する。

Segmentation of additive manufacturing (AM) defects in X-ray Computed Tomography (XCT) images is challenging, due to the poor contrast, small sizes and variation in appearance of defects. Automatic segmentation can, however, provide quality control for additive manufacturing. Over recent years, three-dimensional convolutional neural networks (3D CNNs) have performed well in the volumetric segmentation of medical images. In this work, we leverage techniques from the medical imaging domain and propose training a 3D U-Net model to automatically segment defects in XCT images of AM samples. This work not only contributes to the use of machine learning for AM defect detection but also demonstrates for the first time 3D volumetric segmentation in AM. We train and test with three variants of the 3D U-Net on an AM dataset, achieving a mean intersection of union (IOU) value of 88.4%.
翻訳日:2021-03-20 17:17:58 公開日:2021-01-22
# 超音波画像のリアルタイムDenoisingのためのユニバーサルディープラーニングフレームワーク

A Universal Deep Learning Framework for Real-Time Denoising of Ultrasound Images ( http://arxiv.org/abs/2101.09122v1 )

ライセンス: Link先を確認
Simone Cammarasana, Paolo Nicolardi, Giuseppe Patan\`e(参考訳) 超音波画像は, 筋骨格疾患, 心臓疾患, 産科疾患の診断において, 取得法の有効性と非侵襲性から広く用いられている。 しかし、超音波の取得は信号のスペックルノイズを導入し、その結果の画像が劣化し、さらなる処理操作に影響を及ぼし、医療専門家が患者の病気を推定するために行う視覚的分析が引き起こされる。 我々の主な目的は、超音波画像のリアルタイムdenoisingのための普遍的なディープラーニングフレームワークを定義することである。 超音波画像の平滑化(スペクトル,低ランク,深層学習など)に関する最先端の手法を解析・比較し,精度,解剖学的特徴の保存,計算コストの観点から最適な手法を選択する。 そこで,本研究では,画像の品質向上と超音波画像への適用性向上のために,選択した最先端デノナイズ手法(WNNMなど)のチューニング版を提案する。 超音波画像の大規模データセットをアプリケーションや産業的要求に対して処理するために,ディープラーニングとHPCツールを活用するデノナイジングフレームワークを導入し,リアルタイムに最先端のデノナイジング手法の結果を再現する。

Ultrasound images are widespread in medical diagnosis for muscle-skeletal, cardiac, and obstetrical diseases, due to the efficiency and non-invasiveness of the acquisition methodology. However, ultrasound acquisition introduces a speckle noise in the signal, that corrupts the resulting image and affects further processing operations, and the visual analysis that medical experts conduct to estimate patient diseases. Our main goal is to define a universal deep learning framework for real-time denoising of ultrasound images. We analyse and compare state-of-the-art methods for the smoothing of ultrasound images (e.g., spectral, low-rank, and deep learning denoising algorithms), in order to select the best one in terms of accuracy, preservation of anatomical features, and computational cost. Then, we propose a tuned version of the selected state-of-the-art denoising methods (e.g., WNNM), to improve the quality of the denoised images, and extend its applicability to ultrasound images. To handle large data sets of ultrasound images with respect to applications and industrial requirements, we introduce a denoising framework that exploits deep learning and HPC tools, and allows us to replicate the results of state-of-the-art denoising methods in a real-time execution.
翻訳日:2021-03-20 17:17:43 公開日:2021-01-22
# モバイルユーザインタフェースにおけるビジュアル・サリエンシの理解

Understanding Visual Saliency in Mobile User Interfaces ( http://arxiv.org/abs/2101.09176v1 )

ライセンス: Link先を確認
Luis A. Leiva, Yunfei Xue, Avya Bansal, Hamed R. Tavakoli, Tu\u{g}\c{c}e K\"oro\u{g}lu, Niraj R. Dayama, Antti Oulasvirta(参考訳) グラフィカルユーザインタフェース(ui)設計では、視覚的な注意を引き付けるものを理解することが重要である。 saliencyはこれまでデスクトップとwebベースのuiにフォーカスしてきたが、モバイルアプリのuiはいくつかの点で異なる。 被験者30名,モバイルUI193名を対象に対照研究を行った。 結果は、ユーザが見る方向を導く上で、期待する役割を物語っている。 ディスプレイの左上隅、テキスト、画像への強い偏りは明らかであったが、色やサイズといったボトムアップ機能は塩分濃度に影響を及ぼさなかった。 古典的でパラメータフリーのサリエンシモデルはデータに適合せず、データ駆動モデルはデータセットに特化してトレーニングすると大幅に改善された(例えば、NASは0.66から0.84に増加した)。 また、モバイルUIの視覚的正当性を調べるための最初の注釈付きデータセットもリリースしました。

For graphical user interface (UI) design, it is important to understand what attracts visual attention. While previous work on saliency has focused on desktop and web-based UIs, mobile app UIs differ from these in several respects. We present findings from a controlled study with 30 participants and 193 mobile UIs. The results speak to a role of expectations in guiding where users look at. Strong bias toward the top-left corner of the display, text, and images was evident, while bottom-up features such as color or size affected saliency less. Classic, parameter-free saliency models showed a weak fit with the data, and data-driven models improved significantly when trained specifically on this dataset (e.g., NSS rose from 0.66 to 0.84). We also release the first annotated dataset for investigating visual saliency in mobile UIs.
翻訳日:2021-03-20 17:17:23 公開日:2021-01-22
# 線引き知覚におけるエッジの役割

The Role of Edges in Line Drawing Perception ( http://arxiv.org/abs/2101.09376v1 )

ライセンス: Link先を確認
Aaron Hertzmann(参考訳) 線描の有効性は、エッジ画像と線描との類似性によって説明できるとしばしば推測されている。 本稿では,辺の観点で線引き知覚を説明する際のいくつかの問題と,ヘルツマン(2020)の最近提唱されたリアリズム仮説が,これらの問題をいかに解決するかを示す。 それにもかかわらず、エッジはしばしば人々が線を描く場所を予測するのに最適な特徴である、という証拠は存在する。

It has often been conjectured that the effectiveness of line drawings can be explained by the similarity of edge images to line drawings. This paper presents several problems with explaining line drawing perception in terms of edges, and how the recently-proposed Realism Hypothesis of Hertzmann (2020) resolves these problems. There is nonetheless existing evidence that edges are often the best features for predicting where people draw lines; this paper describes how the Realism Hypothesis can explain this evidence.
翻訳日:2021-03-20 17:17:09 公開日:2021-01-22
# HANA: オフライン手書き文字認識のためのHand written NAme Database

HANA: A HAndwritten NAme Database for Offline Handwritten Text Recognition ( http://arxiv.org/abs/2101.10862v1 )

ライセンス: Link先を確認
Christian M. Dahl, Torben Johansen, Emil N. S{\o}rensen, Simon Wittrock(参考訳) 個人を歴史的データセットにリンクする方法は、典型的にはAIベースの転写モデルと組み合わせて、急速に発展している。 おそらくリンクする上で最も重要な識別子は、個人名である。 しかし、個人名は列挙や書き起こしの誤りが多いため、現代のリンク手法はそのような問題に対処するために設計されているが、これらのエラー源は重要であり、最小化されるべきである。 この目的のために、改良された転写法と大規模データベースが重要なコンポーネントである。 本論文は,手書きの単語群の111万以上の画像からなる,新たに構築された大規模データベースhanaについて記述し,その資料を提供する。 データベースは1万5千以上の個人名と合計330万以上のサンプルを含む個人名を集めたデータベースである。 さらに,スキャンされた文書から個人名を自動的に書き起こせるディープラーニングモデルのベンチマーク結果も提示する。 主に個人名に焦点をあてることで、より高度で正確で堅牢な手書き文字認識モデルを育成し、より挑戦的な大規模データベースを公開したいと思っています。 本稿では,手書きの個人名や手書きのテキストを形式から抽出するためのデータソース,収集プロセス,画像処理手順および手法について述べる。

Methods for linking individuals across historical data sets, typically in combination with AI based transcription models, are developing rapidly. Probably the single most important identifier for linking is personal names. However, personal names are prone to enumeration and transcription errors and although modern linking methods are designed to handle such challenges these sources of errors are critical and should be minimized. For this purpose, improved transcription methods and large-scale databases are crucial components. This paper describes and provides documentation for HANA, a newly constructed large-scale database which consists of more than 1.1 million images of handwritten word-groups. The database is a collection of personal names, containing more than 105 thousand unique names with a total of more than 3.3 million examples. In addition, we present benchmark results for deep learning models that automatically can transcribe the personal names from the scanned documents. Focusing mainly on personal names, due to its vital role in linking, we hope to foster more sophisticated, accurate, and robust models for handwritten text recognition through making more challenging large-scale databases publicly available. This paper describes the data source, the collection process, and the image-processing procedures and methods that are involved in extracting the handwritten personal names and handwritten text in general from the forms.
翻訳日:2021-03-20 17:17:01 公開日:2021-01-22
# 情報ゲインの最大化による$\alpha$-Rankの推定

Estimating $\alpha$-Rank by Maximizing Information Gain ( http://arxiv.org/abs/2101.09178v1 )

ライセンス: Link先を確認
Tabish Rashid, Cheng Zhang, Kamil Ciosek(参考訳) ゲーム理論は、ゲームが正確には知られていないがサンプリングによって見積もる必要がある設定において、ますます適用されている。 例えば、マルチエージェント評価で生じるメタゲームは、複数のエージェントの同時デプロイを含む高価な実験を連続して実行することでのみアクセスすることができる。 本稿では,このようなシナリオでよく動作するように設計されたゲーム理論のコンセプトである$\alpha$-rankに着目した。 できるだけ少数のサンプルを用いて,ゲームの$\alpha$-rankを推定することを目指している。 本アルゴリズムは,$\alpha$-ranks に対する認識論的信念と観察されたペイオフとの間の情報ゲインを最大化する。 このアプローチには2つの大きなメリットがあります。 まず、$\alpha$-rankを識別する上で最も重要なエントリにサンプリングを集中させることができます。 第二に、ベイズの定式化は、事前のゲームペイオフを使用して、モデリングの仮定を構築するための施設を提供する。 本稿では,ResponseGraphUCB (Rowland et al) の信頼区間基準と比較し,情報ゲインの利点を示す。 提案手法を正当化する理論的結果を提供する。

Game theory has been increasingly applied in settings where the game is not known outright, but has to be estimated by sampling. For example, meta-games that arise in multi-agent evaluation can only be accessed by running a succession of expensive experiments that may involve simultaneous deployment of several agents. In this paper, we focus on $\alpha$-rank, a popular game-theoretic solution concept designed to perform well in such scenarios. We aim to estimate the $\alpha$-rank of the game using as few samples as possible. Our algorithm maximizes information gain between an epistemic belief over the $\alpha$-ranks and the observed payoff. This approach has two main benefits. First, it allows us to focus our sampling on the entries that matter the most for identifying the $\alpha$-rank. Second, the Bayesian formulation provides a facility to build in modeling assumptions by using a prior over game payoffs. We show the benefits of using information gain as compared to the confidence interval criterion of ResponseGraphUCB (Rowland et al. 2019), and provide theoretical results justifying our method.
翻訳日:2021-03-20 17:16:23 公開日:2021-01-22
# i-Algebra: ディープニューラルネットワークの対話的解釈可能性を目指して

i-Algebra: Towards Interactive Interpretability of Deep Neural Networks ( http://arxiv.org/abs/2101.09301v1 )

ライセンス: Link先を確認
Xinyang Zhang, Ren Pang, Shouling Ji, Fenglong Ma, Ting Wang(参考訳) 深層ニューラルネットワーク(DNN)の説明を提供することは、決定の解釈可能性が重要な前提条件であるドメインでの使用に不可欠である。 DNNの解釈に関する多くの取り組みにもかかわらず、既存のソリューションの多くは、エンドユーザーの認識、理解、応答を考慮せずに、アドホック、ワンショット、静的な方法での解釈可能性を提供しており、実際のユーザビリティは低下している。 本稿では,ユーザとモデル間のインタラクションとして,DNNの解釈可能性を実装するべきである。 DNNを解釈するための対話型フレームワークi-Algebraを提案する。 中心となるのは原子的で構成可能な作用素のライブラリであり、様々な入力粒度、異なる推論段階、異なる解釈の観点からモデル挙動を説明する。 宣言型クエリ言語を利用することで、ユーザーは様々な分析ツール(例えば、"drill-down", "comparative", "what-if" analysis)を柔軟に構成することで構築することができる。 我々はi-algebraのプロトタイプを作成し,そのユーザビリティを実証するために,敵の入力の検査,モデル不整合の解消,汚染データのクリーン化など,一連の代表的分析タスクにおいてユーザ研究を行う。

Providing explanations for deep neural networks (DNNs) is essential for their use in domains wherein the interpretability of decisions is a critical prerequisite. Despite the plethora of work on interpreting DNNs, most existing solutions offer interpretability in an ad hoc, one-shot, and static manner, without accounting for the perception, understanding, or response of end-users, resulting in their poor usability in practice. In this paper, we argue that DNN interpretability should be implemented as the interactions between users and models. We present i-Algebra, a first-of-its-kind interactive framework for interpreting DNNs. At its core is a library of atomic, composable operators, which explain model behaviors at varying input granularity, during different inference stages, and from distinct interpretation perspectives. Leveraging a declarative query language, users are enabled to build various analysis tools (e.g., "drill-down", "comparative", "what-if" analysis) via flexibly composing such operators. We prototype i-Algebra and conduct user studies in a set of representative analysis tasks, including inspecting adversarial inputs, resolving model inconsistency, and cleansing contaminated data, all demonstrating its promising usability.
翻訳日:2021-03-20 17:16:07 公開日:2021-01-22
# ReLUニューラルネットワークのロバスト性証明のための分割型凸緩和法

Partition-Based Convex Relaxations for Certifying the Robustness of ReLU Neural Networks ( http://arxiv.org/abs/2101.09306v1 )

ライセンス: Link先を確認
Brendon G. Anderson, Ziye Ma, Jingqi Li, Somayeh Sojoudi(参考訳) 本稿では,ReLUニューラルネットワークの逆入力摂動に対する堅牢性を検証する。 一般の線形プログラミング (LP) と半定値プログラミング (SDP) の認証手法が抱える緩和誤差を低減させるため,入力の不確実性セットの分割と各部分での緩和の解法を提案する。 この手法はリラクゼーションエラーを低減し、lpリラクゼーションをインテリジェントに設計されたパーティションで実行するとエラーが完全に排除されることを示す。 このアプローチを大規模ネットワークに拡張するために、このモチベーション・パーティションと同じ形態のスケジューラパーティションを考える。 LP緩和誤差を直接最小化する分割計算がNPハードであることを証明する。 最悪ケースのLP緩和誤差を最小化する代わりに、閉形式最適2部分割を用いた計算可能スキームを開発する。 解析をSDPに拡張し、実現可能な集合形状を利用して、最悪のSDP緩和誤差を最小限に抑える2部分割を設計する。 IRIS分類器の実験では緩和誤差が大幅に減少し、パーティショニングなしで無効な証明書が提供される。 入力サイズと層数を独立に増加させることで、分割されたLPとSDPがどの状態に最も適しているかを実証的に示す。

In this paper, we study certifying the robustness of ReLU neural networks against adversarial input perturbations. To diminish the relaxation error suffered by the popular linear programming (LP) and semidefinite programming (SDP) certification methods, we propose partitioning the input uncertainty set and solving the relaxations on each part separately. We show that this approach reduces relaxation error, and that the error is eliminated entirely upon performing an LP relaxation with an intelligently designed partition. To scale this approach to large networks, we consider courser partitions that take the same form as this motivating partition. We prove that computing such a partition that directly minimizes the LP relaxation error is NP-hard. By instead minimizing the worst-case LP relaxation error, we develop a computationally tractable scheme with a closed-form optimal two-part partition. We extend the analysis to the SDP, where the feasible set geometry is exploited to design a two-part partition that minimizes the worst-case SDP relaxation error. Experiments on IRIS classifiers demonstrate significant reduction in relaxation error, offering certificates that are otherwise void without partitioning. By independently increasing the input size and the number of layers, we empirically illustrate under which regimes the partitioned LP and SDP are best applied.
翻訳日:2021-03-20 17:15:45 公開日:2021-01-22
# スパースドメインにおけるブラックボックス対応例の生成

Generating Black-Box Adversarial Examples in Sparse Domain ( http://arxiv.org/abs/2101.09324v1 )

ライセンス: Link先を確認
Hadi Zanddizari and J. Morris Chang(参考訳) 機械学習(ML)モデルと畳み込みニューラルネットワーク(CNN)の応用は急速に増加している。 MLモデルは、多くのアプリケーションにおいて高い精度を提供するが、最近の調査では、このようなネットワークは敵の攻撃に対して非常に脆弱であることが示されている。 ブラックボックスの敵攻撃は、攻撃者がモデルやトレーニングデータセットについて何も知らない攻撃の一種である。 本稿では,画像の最も重要な情報を観察できる一方,スパース領域におけるブラックボックス攻撃を発生させる新しい手法を提案する。 本研究では,画像分類器の性能において大きなスパース成分が重要な役割を担っていることを示す。 この仮定の下で、逆の例を生成するために、イメージをスパースドメインに転送し、しきい値を設定して最大成分kだけを選択する。 ランダムに摂動する k 個の低周波成分(LoF)とは対照的に、我々は k 個の最大のスパース成分(LaS)をランダムに(クエリベース)または異なるクラスの最も相関したスパース信号の方向に摂動する。 LaS コンポーネントには中あるいは高頻度のコンポーネント情報が含まれており、少ないクエリ数で分類器を騙すのに役立ちます。 また,Google Cloud VisionプラットフォームのTensorFlow Lite(TFLite)モデルを騙して,このアプローチの有効性を示す。 品質指標として平均二乗誤差(MSE)とピーク信号対雑音比(PSNR)を用いる。 本稿では,これらの指標をスパース領域の摂動レベルに接続する理論的証明を提案する。 カラーおよびグレースケールの画像データセット上で、最先端のCNNとサポートベクターマシン(SVM)分類器の逆例を検証した。 その結果,提案手法は分類器の誤分類率を高く評価できることがわかった。

Applications of machine learning (ML) models and convolutional neural networks (CNNs) have been rapidly increased. Although ML models provide high accuracy in many applications, recent investigations show that such networks are highly vulnerable to adversarial attacks. The black-box adversarial attack is one type of attack that the attacker does not have any knowledge about the model or the training dataset. In this paper, we propose a novel approach to generate a black-box attack in sparse domain whereas the most important information of an image can be observed. Our investigation shows that large sparse components play a critical role in the performance of the image classifiers. Under this presumption, to generate adversarial example, we transfer an image into a sparse domain and put a threshold to choose only k largest components. In contrast to the very recent works that randomly perturb k low frequency (LoF) components, we perturb k largest sparse (LaS)components either randomly (query-based) or in the direction of the most correlated sparse signal from a different class. We show that LaS components contain some middle or higher frequency components information which can help us fool the classifiers with a fewer number of queries. We also demonstrate the effectiveness of this approach by fooling the TensorFlow Lite (TFLite) model of Google Cloud Vision platform. Mean squared error (MSE) and peak signal to noise ratio (PSNR) are used as quality metrics. We present a theoretical proof to connect these metrics to the level of perturbation in the sparse domain. We tested our adversarial examples to the state-of-the-art CNNs and support vector machine (SVM) classifiers on color and grayscale image datasets. The results show the proposed method can highly increase the misclassification rate of the classifiers.
翻訳日:2021-03-20 17:15:23 公開日:2021-01-22
# ハードウェアアウェアニューラルアーキテクチャ探索に関する包括的調査

A Comprehensive Survey on Hardware-Aware Neural Architecture Search ( http://arxiv.org/abs/2101.09336v1 )

ライセンス: Link先を確認
Hadjer Benmeziane, Kaoutar El Maghraoui, Hamza Ouarnoughi, Smail Niar, Martin Wistuba, Naigang Wang(参考訳) neural architecture search (nas) メソッドの人気が高まっている。 これらの技術は、新しいディープラーニング(DL)アーキテクチャを合成する時間とエラーが発生しやすいプロセスの自動化と高速化に基礎を置いている。 NASは近年広く研究されている。 彼らの最も大きな影響は、画像の分類と、アート結果が得られたオブジェクト検出タスクである。 これまでに達成された大きな成功にもかかわらず、NASを現実世界の問題に適用することは依然として重大な課題であり、広く実用的ではない。 一般的に、合成畳み込みニューラルネットワーク(CNN)アーキテクチャは複雑すぎて、IoTやモバイル、組み込みシステムといったリソース制限のプラットフォームにデプロイできない。 人気が高まっている1つのソリューションは、実行遅延、エネルギー消費、メモリフットプリントなどを考慮して、NAS検索戦略で多目的最適化アルゴリズムを使用することである。 ハードウェア対応NAS(HW-NAS)と呼ばれるこの種のNASは、最も効率的なアーキテクチャの探索をより複雑にし、いくつかの疑問を提起する。 本調査では,既存のHW-NAS研究を詳細にレビューし,検索空間,探索戦略,高速化手法,ハードウェアコスト推定戦略の4つの重要な側面に分類する。 さらに,既存アプローチの課題と限界,今後の方向性についても論じる。 これはハードウェア対応NASに焦点を当てた最初の調査論文である。 ハードウェアを意識したNASに向けた今後の研究への道のりを、様々な技術やアルゴリズムの参考にしたい。

Neural Architecture Search (NAS) methods have been growing in popularity. These techniques have been fundamental to automate and speed up the time consuming and error-prone process of synthesizing novel Deep Learning (DL) architectures. NAS has been extensively studied in the past few years. Arguably their most significant impact has been in image classification and object detection tasks where the state of the art results have been obtained. Despite the significant success achieved to date, applying NAS to real-world problems still poses significant challenges and is not widely practical. In general, the synthesized Convolution Neural Network (CNN) architectures are too complex to be deployed in resource-limited platforms, such as IoT, mobile, and embedded systems. One solution growing in popularity is to use multi-objective optimization algorithms in the NAS search strategy by taking into account execution latency, energy consumption, memory footprint, etc. This kind of NAS, called hardware-aware NAS (HW-NAS), makes searching the most efficient architecture more complicated and opens several questions. In this survey, we provide a detailed review of existing HW-NAS research and categorize them according to four key dimensions: the search space, the search strategy, the acceleration technique, and the hardware cost estimation strategies. We further discuss the challenges and limitations of existing approaches and potential future directions. This is the first survey paper focusing on hardware-aware NAS. We hope it serves as a valuable reference for the various techniques and algorithms discussed and paves the road for future research towards hardware-aware NAS.
翻訳日:2021-03-20 17:14:54 公開日:2021-01-22
# SGD-Net:理論的保証を伴う効率的なモデルベースディープラーニング

SGD-Net: Efficient Model-Based Deep Learning with Theoretical Guarantees ( http://arxiv.org/abs/2101.09379v1 )

ライセンス: Link先を確認
Jiaming Liu, Yu Sun, Weijie Gan, Xiaojian Xu, Brendt Wohlberg, and Ulugbek S. Kamilov(参考訳) 近年、画像逆問題解決の文脈で、ディープ展開ネットワークが人気を集めている。 しかし、従来の深層展開ネットワークにおけるデータ一貫性層の計算とメモリの複雑さは、測定数とともにスケールし、大規模なイメージング逆問題に適用可能である。 本稿では,データ一貫性層の確率的近似による深部展開効率の向上手法としてSGD-Netを提案する。 理論的解析により,SGD-Netはバッチの深部展開ネットワークを任意の精度で近似できることがわかった。 回折トモグラフィーとスパースビュー計算トモグラフィーの数値計算結果から,SGD-Netはバッチネットワークの性能を少数の訓練とテストの複雑さで一致させることができることがわかった。

Deep unfolding networks have recently gained popularity in the context of solving imaging inverse problems. However, the computational and memory complexity of data-consistency layers within traditional deep unfolding networks scales with the number of measurements, limiting their applicability to large-scale imaging inverse problems. We propose SGD-Net as a new methodology for improving the efficiency of deep unfolding through stochastic approximations of the data-consistency layers. Our theoretical analysis shows that SGD-Net can be trained to approximate batch deep unfolding networks to an arbitrary precision. Our numerical results on intensity diffraction tomography and sparse-view computed tomography show that SGD-Net can match the performance of the batch network at a fraction of training and testing complexity.
翻訳日:2021-03-20 17:14:31 公開日:2021-01-22
# 解剖学的治療化学(ATC)のためのニューラルネットワーク

Neural networks for Anatomical Therapeutic Chemical (ATC) ( http://arxiv.org/abs/2101.11713v1 )

ライセンス: Link先を確認
Loris Nanni, Alessandra Lumini and Sheryl Brahnam(参考訳) 動機:atc(automatic anatomical therapeutic chemical)分類は、薬物開発と研究の迅速化の可能性から、バイオインフォマティクスの研究において重要かつ競争性の高い分野である。 これらの特徴が複数の臓器やシステムにどのように影響するかによって、未知の化合物の治療的および化学的特性を予測することにより、自動ATC分類が課題となる。 結果:本稿では,双方向長短期記憶ネットワーク(bilstm)から抽出したセットを含む,特徴の異なるセットで学習された複数のマルチラベル分類器を組み合わせることを提案する。 実験はこのアプローチの力を示し、Fast.ai研究グループによって開発された最先端技術を含む、文献で報告された最良の手法を上回ります。 可用性: この研究のために開発されたすべてのソースコードはhttps://github.com/L orisNanni.comで入手できる。 連絡先:loris.nanni@unipd.i t

Motivation: Automatic Anatomical Therapeutic Chemical (ATC) classification is a critical and highly competitive area of research in bioinformatics because of its potential for expediting drug develop-ment and research. Predicting an unknown compound's therapeutic and chemical characteristics ac-cording to how these characteristics affect multiple organs/systems makes automatic ATC classifica-tion a challenging multi-label problem. Results: In this work, we propose combining multiple multi-label classifiers trained on distinct sets of features, including sets extracted from a Bidirectional Long Short-Term Memory Network (BiLSTM). Experiments demonstrate the power of this approach, which is shown to outperform the best methods reported in the literature, including the state-of-the-art developed by the fast.ai research group. Availability: All source code developed for this study is available at https://github.com/L orisNanni. Contact: loris.nanni@unipd.it
翻訳日:2021-03-20 17:14:19 公開日:2021-01-22
# ATLAS小惑星探査のための2段階深層学習検出器

A Two-Stage Deep Learning Detection Classifier for the ATLAS Asteroid Survey ( http://arxiv.org/abs/2101.08912v1 )

ライセンス: Link先を確認
Amandin Chyba Rabeendran and Larry Denneau(参考訳) 本稿では,地球近傍の小惑星スカイサーベイシステム (arXiv:1802.00879) である "Asteroid Terrestrial-impact Last Alert System" (ATLAS) で得られたデータから,太陽系天体を光学的および電子的に検出する2段階のニューラルネットワークモデルを提案する。 畳み込みニューラルネットワーク(arxiv:1807.10912)は、天文学的源の候補検出の小さな「postage-stamp」画像を8つのクラスに分類し、次に4つの候補検出の時間系列が実際の天文学的源を表す確率を与える多層パーセプトロンを用いる。 この研究の目的は、地球近傍天体(NEO)の検出と小さな惑星センターへの提出の間の時間遅延を減らすことである。 NEOs (Harris and D'Abramo, 2015) の稀で有害な性質のため, 低偽陰性率はモデルにとって最優先事項である。 このモデルは、ATLASデータ中の実際の小惑星において、0.4\%の偽陰率で99.6\%の精度に達する。 ATLASにこのモデルを展開することで、天文学者が90%の精度で観測しなければならないNEO候補の数を削減した。

In this paper we present a two-step neural network model to separate detections of solar system objects from optical and electronic artifacts in data obtained with the "Asteroid Terrestrial-impact Last Alert System" (ATLAS), a near-Earth asteroid sky survey system [arXiv:1802.00879]. A convolutional neural network [arXiv:1807.10912] is used to classify small "postage-stamp" images of candidate detections of astronomical sources into eight classes, followed by a multi-layered perceptron that provides a probability that a temporal sequence of four candidate detections represents a real astronomical source. The goal of this work is to reduce the time delay between Near-Earth Object (NEO) detections and submission to the Minor Planet Center. Due to the rare and hazardous nature of NEOs [Harris and D'Abramo, 2015], a low false negative rate is a priority for the model. We show that the model reaches 99.6\% accuracy on real asteroids in ATLAS data with a 0.4\% false negative rate. Deployment of this model on ATLAS has reduced the amount of NEO candidates that astronomers must screen by 90%, thereby bringing ATLAS one step closer to full autonomy.
翻訳日:2021-03-20 17:13:49 公開日:2021-01-22
# マウスカーソル運動の繰り返しニューラルモデルを用いた問合せ解除予測

Query Abandonment Prediction with Recurrent Neural Models of Mouse Cursor Movements ( http://arxiv.org/abs/2101.09066v1 )

ライセンス: Link先を確認
Lukas Br\"uckner and Ioannis Arapakis and Luis A. Leiva(参考訳) 最も成功した検索クエリは、ユーザーが直接serpで必要な情報を満たせるような場合、クリックしない。 クリックスルーデータがない場合のクエリ放棄のモデル化は、検索エンジンが基礎となる検索意図を理解するために他の行動信号に依存する必要があるため、難しい。 マウスのカーソル運動は, 良質かつ悪質な放棄を識別できる, 安価な行動信号であることを示す。 我々は、繰り返しニューラルネットワークを用いてSERP上でのマウスの動きをモデル化し、高価な手作り機能に依存しず、特定のSERP構造に依存しない複数のデータ表現を探索する。 また、シーケンシャルデータに採用するデータ再サンプリングおよび拡張技術についても実験を行った。 検索結果は、クリックせずにクエリに対するユーザの満足度を判断し、最終的に検索エンジンのパフォーマンスをよりよく理解するのに役立ちます。

Most successful search queries do not result in a click if the user can satisfy their information needs directly on the SERP. Modeling query abandonment in the absence of click-through data is challenging because search engines must rely on other behavioral signals to understand the underlying search intent. We show that mouse cursor movements make a valuable, low-cost behavioral signal that can discriminate good and bad abandonment. We model mouse movements on SERPs using recurrent neural nets and explore several data representations that do not rely on expensive hand-crafted features and do not depend on a particular SERP structure. We also experiment with data resampling and augmentation techniques that we adopt for sequential data. Our results can help search providers to gauge user satisfaction for queries without clicks and ultimately contribute to a better understanding of search engine performance.
翻訳日:2021-03-20 17:13:24 公開日:2021-01-22
# マルチホップris-empowered terahertz communications: drlに基づくハイブリッドビームフォーミング設計

Multi-hop RIS-Empowered Terahertz Communications: A DRL-based Hybrid Beamforming Design ( http://arxiv.org/abs/2101.09137v1 )

ライセンス: Link先を確認
Chongwen Huang, Zhaohui Yang, George C. Alexandropoulos, Kai Xiong, Li Wei, Chau Yuen, Zhaoyang Zhang, and Merouane Debbah(参考訳) テラヘルツ帯における無線通信 (0.1-10thz) は、大規模複数入力多重出力 (massive-mimo) 技術を超えて、将来の第6世代 (6g) 無線通信システムの主要な実現可能な技術の一つとして考えられている。 しかし、非常に高い伝搬減衰とTHz周波数の分子吸収は、しばしば信号伝達距離と範囲を制限する。 スマート無線伝搬環境を実現するための再構成可能なインテリジェントサーフェス(RIS)の最近の進歩を活かした,マルチホップRIS支援通信ネットワークのための新しいハイブリッドビームフォーミング方式を提案する。 特に、基地局(BS)と複数のシングルアンテナユーザ間の送信を支援するために、複数の受動的および制御可能なRISが配置される。 本稿では,BSにおけるディジタルビームフォーミング行列とRISにおけるアナログビームフォーミング行列の接合設計について,近年の深部強化学習(DRL)の進歩を活用して検討した。 DRLアルゴリズムの収束性を改善するため、2つのアルゴリズムを設計し、交代最適化手法を用いてデジタルビームフォーミングとアナログビームフォーミング行列を初期化する。 シミュレーションの結果,提案手法はTHz通信の網羅範囲を50倍に向上させることができることがわかった。 さらに,提案手法はNPハードビームフォーミング問題を解決するための最先端手法であり,特にRIS支援THz通信ネットワークの信号が複数のホップを経験する場合に有効であることを示す。

Wireless communication in the TeraHertz band (0.1--10 THz) is envisioned as one of the key enabling technologies for the future sixth generation (6G) wireless communication systems scaled up beyond massive multiple input multiple output (Massive-MIMO) technology. However, very high propagation attenuations and molecular absorptions of THz frequencies often limit the signal transmission distance and coverage range. Benefited from the recent breakthrough on the reconfigurable intelligent surfaces (RIS) for realizing smart radio propagation environment, we propose a novel hybrid beamforming scheme for the multi-hop RIS-assisted communication networks to improve the coverage range at THz-band frequencies. Particularly, multiple passive and controllable RISs are deployed to assist the transmissions between the base station (BS) and multiple single-antenna users. We investigate the joint design of digital beamforming matrix at the BS and analog beamforming matrices at the RISs, by leveraging the recent advances in deep reinforcement learning (DRL) to combat the propagation loss. To improve the convergence of the proposed DRL-based algorithm, two algorithms are then designed to initialize the digital beamforming and the analog beamforming matrices utilizing the alternating optimization technique. Simulation results show that our proposed scheme is able to improve 50\% more coverage range of THz communications compared with the benchmarks. Furthermore, it is also shown that our proposed DRL-based method is a state-of-the-art method to solve the NP-hard beamforming problem, especially when the signals at RIS-assisted THz communication networks experience multiple hops.
翻訳日:2021-03-20 17:13:11 公開日:2021-01-22
# 燃料トラックの転がり回避を目的とした拘束システムの安全学習基準管理

Safe Learning Reference Governor for Constrained Systems with Application to Fuel Truck Rollover Avoidance ( http://arxiv.org/abs/2101.09298v1 )

ライセンス: Link先を確認
Kaiwen Liu, Nan Li, Ilya Kolmanovsky, Denise Rizzo, and Anouck Girard(参考訳) 本稿では、正確なモデルが利用できないシステムにおいて、状態と制御の制約を強制するための学習基準ガバナ(lrg)アプローチを提案し、学習中と学習終了後の制約を強制しながら、学習を通じて徐々にコマンド追跡性能を向上させる手法を提案する。 学習はシステムのブラックボックス型モデルまたはハードウェア上で直接行うことができる。 本稿では,LRGアルゴリズムを導入し,その理論的特性を概説した後,燃料トラックのロールオーバー回避へのLRGの適用について検討する。 液体燃料スロッシング効果を考慮した燃料トラックモデルに基づくシミュレーションにより,提案するlrgは,様々な運転条件下での燃料トラックのロールオーバー事故から効果的に保護できることを示す。

This paper proposes a learning reference governor (LRG) approach to enforce state and control constraints in systems for which an accurate model is unavailable; and this approach enables the reference governor to gradually improve command tracking performance through learning while enforcing the constraints during learning and after learning is completed. The learning can be performed either on a black-box type model of the system or directly on the hardware. After introducing the LRG algorithm and outlining its theoretical properties, this paper investigates LRG application to fuel truck rollover avoidance. Through simulations based on a fuel truck model that accounts for liquid fuel sloshing effects, we show that the proposed LRG can effectively protect fuel trucks from rollover accidents under various operating conditions.
翻訳日:2021-03-20 17:12:07 公開日:2021-01-22