このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210414となっている論文です。

PDF登録状況(公開日: 20210414)

TitleAuthorsAbstract論文公表日・翻訳日
# 低照度環境下での撮影のためのフラッシュとノーフラッシュペアのディープデノイング

Deep Denoising of Flash and No-Flash Pairs for Photography in Low-Light Environments ( http://arxiv.org/abs/2012.05116v2 )

ライセンス: Link先を確認
Zhihao Xia, Micha\"el Gharbi, Federico Perazzi, Kalyan Sunkavalli, Ayan Chakrabarti(参考訳) 低照度環境では、フラッシュの有無にかかわらず、素早く連続して撮影された画像のペアを識別するニューラルネットワークベースの手法を導入する。 我々のゴールは、フラッシュによって表面のテクスチャとディテールを回復しながら、ノイズの多いノーフラッシュ画像の周囲の照明から色と気分を保存できる高品質なシーンレンダリングを作ることである。 このネットワークはゲインマップとカーネルのフィールドを出力し、後者は画像単位の低ランクカーネル基底の要素を線形に混合して得られる。 まずカーネルフィールドをno-flash画像に適用し、次にゲインマップで結果を乗算して最終的な出力を生成する。 本ネットワークは,フラッシュ入力から抽出した高周波アルベドディテールと非フラッシュ画像からシーンの周囲外観の平滑化推定を組み合わせることで,高品質な画像の生成を効果的に行う。 我々の実験では、フラッシュ無しの代替キャプチャやフラッシュノーフラッシュペアを使用するベースラインデノイザよりも大幅に改善されている。 特に,フラッシュ画像に鮮明な影や強い鏡のハイライトを生じさせることなく,ノイズのない正確な環境色を含む画像を生成する。

We introduce a neural network-based method to denoise pairs of images taken in quick succession, with and without a flash, in low-light environments. Our goal is to produce a high-quality rendering of the scene that preserves the color and mood from the ambient illumination of the noisy no-flash image, while recovering surface texture and detail revealed by the flash. Our network outputs a gain map and a field of kernels, the latter obtained by linearly mixing elements of a per-image low-rank kernel basis. We first apply the kernel field to the no-flash image, and then multiply the result with the gain map to create the final output. We show our network effectively learns to produce high-quality images by combining a smoothed out estimate of the scene's ambient appearance from the no-flash image, with high-frequency albedo details extracted from the flash input. Our experiments show significant improvements over alternative captures without a flash, and baseline denoisers that use flash no-flash pairs. In particular, our method produces images that are both noise-free and contain accurate ambient colors without the sharp shadows or strong specular highlights visible in the flash image.
翻訳日:2021-05-16 02:01:42 公開日:2021-04-14
# オープンおよびクローズド設定におけるビジュアル検索の対応

Addressing Visual Search in Open and Closed Set Settings ( http://arxiv.org/abs/2012.06509v2 )

ライセンス: Link先を確認
Nathan Drenkow, Philippe Burlina, Neil Fendley, Onyekachi Odoemene, Jared Markowitz(参考訳) 大規模画像における小さな物体の探索は、現在のディープラーニングシステムでは難しい課題であり、リモートセンシングや医療画像などの多くの現実世界の応用において重要である。 非常に大きな画像の粗い走査は計算に高価であり、特に小さな物体を捉えるのに十分な解像度である。 興味の対象が小さければ小さいほど、散らかったり、無意味と見なされる可能性が高くなる。 これらの問題をクローズドセットオブジェクト検出とオープンセットターゲット探索という2つの相補的問題の文脈で検討する。 まず,低解像度のgist画像から画素レベルの被写体を予測し,高分解能で局所的に被写体検出を行う領域を選択する手法を提案する。 このアプローチは、所定のグリッドに固定されない利点があり、既存の方法よりもコストのかかる高解像度の垣根を必要とする。 第2に,これまで見つからず,単一の画像で定義されていた対象クラスの全インスタンスを探索する,オープンセットビジュアル検索の新しい手法を提案する。 両検出問題を確率的ベイズレンズを用いて解釈し,提案手法が生成する対象性マップが検出ステップに対する最大ポストエリリアプローチの先行として機能することを示す。 我々は,この目標探索手法によるパッチ選択戦略と,パッチ選択戦略と標準オブジェクト検出手法の組み合わせを組み合わせることで,エンド・ツー・エンドの性能を評価する。 私たちのアプローチの2つの要素は、ベースライン戦略を大幅に上回っています。

Searching for small objects in large images is a task that is both challenging for current deep learning systems and important in numerous real-world applications, such as remote sensing and medical imaging. Thorough scanning of very large images is computationally expensive, particularly at resolutions sufficient to capture small objects. The smaller an object of interest, the more likely it is to be obscured by clutter or otherwise deemed insignificant. We examine these issues in the context of two complementary problems: closed-set object detection and open-set target search. First, we present a method for predicting pixel-level objectness from a low resolution gist image, which we then use to select regions for performing object detection locally at high resolution. This approach has the benefit of not being fixed to a predetermined grid, thereby requiring fewer costly high-resolution glimpses than existing methods. Second, we propose a novel strategy for open-set visual search that seeks to find all instances of a target class which may be previously unseen and is defined by a single image. We interpret both detection problems through a probabilistic, Bayesian lens, whereby the objectness maps produced by our method serve as priors in a maximum-a-posteriori approach to the detection step. We evaluate the end-to-end performance of both the combination of our patch selection strategy with this target search approach and the combination of our patch selection strategy with standard object detection methods. Both elements of our approach are seen to significantly outperform baseline strategies.
翻訳日:2021-05-11 03:12:18 公開日:2021-04-14
# GridToPix:最小限のスーパービジョンによる身体エージェントのトレーニング

GridToPix: Training Embodied Agents with Minimal Supervision ( http://arxiv.org/abs/2105.00931v1 )

ライセンス: Link先を確認
Unnat Jain, Iou-Jen Liu, Svetlana Lazebnik, Aniruddha Kembhavi, Luca Weihs, Alexander Schwing(参考訳) 深層強化学習(RL)は手書きデータから自由を約束するが、特にEmbodied AIにとって大きな成功は、注意深く形づくられた報酬を通じて監督を作成するために多大な作業を必要とする。 実際には、端末報酬のみを伴わず、現在のEmbodied AIの結果は、シングルエージェントのHabitatベースのPointGoal Navigation(SPLドロップは55から0)と2エージェントのAI2-THORベースのFurniture moving(58%から1%)から3エージェントのGoogle Footballベースの3対1(ゲームスコアは0.6から0.1)のEmbodied AI問題から大きく低下している。 形の報酬によるトレーニングがより現実的なタスクにスケールしないため、コミュニティはターミナル報酬によるトレーニングの成功を改善する必要がある。 この目的のために、GridToPix: 1)グリッドワールドにおける終末報酬を持つ訓練エージェント、すなわち、それらがタスクから独立していること、2)複雑な視覚世界に存在するエージェントに学習ポリシーを蒸留することを提案する。 同一のモデルとrlアルゴリズムで端末の報酬だけを学ぶと、gridtopixはタスク間の結果を大幅に改善する。ポイントゴーアナビゲーション(splは0から64に改善)と家具の移動(成功は1%から25%に向上)からフットボールゲームプレイ(ゲームスコアは0.1から0.6に改善)。 GridToPixは、字型の報酬訓練の結果も改善する。

While deep reinforcement learning (RL) promises freedom from hand-labeled data, great successes, especially for Embodied AI, require significant work to create supervision via carefully shaped rewards. Indeed, without shaped rewards, i.e., with only terminal rewards, present-day Embodied AI results degrade significantly across Embodied AI problems from single-agent Habitat-based PointGoal Navigation (SPL drops from 55 to 0) and two-agent AI2-THOR-based Furniture Moving (success drops from 58% to 1%) to three-agent Google Football-based 3 vs. 1 with Keeper (game score drops from 0.6 to 0.1). As training from shaped rewards doesn't scale to more realistic tasks, the community needs to improve the success of training with terminal rewards. For this we propose GridToPix: 1) train agents with terminal rewards in gridworlds that generically mirror Embodied AI environments, i.e., they are independent of the task; 2) distill the learned policy into agents that reside in complex visual worlds. Despite learning from only terminal rewards with identical models and RL algorithms, GridToPix significantly improves results across tasks: from PointGoal Navigation (SPL improves from 0 to 64) and Furniture Moving (success improves from 1% to 25%) to football gameplay (game score improves from 0.1 to 0.6). GridToPix even helps to improve the results of shaped reward training.
翻訳日:2021-05-04 20:43:23 公開日:2021-04-14
# ダイアクロニックな感覚変化の測定--ベイズ推定のための新しいモデルとモンテカルロ法

Measuring diachronic sense change: new models and Monte Carlo methods for Bayesian inference ( http://arxiv.org/abs/2105.00819v1 )

ライセンス: Link先を確認
Schyan Zafar and Geoff Nicholls(参考訳) bag-of-wordsモデルでは、単語の感覚には複数の意味がある。 バンク(川岸または施設感覚で用いられる)は文脈語の確率分布として表現され、感覚の頻度分布は感覚の確率分布として表現される。 どちらも時間とともに変わる可能性がある。 このような感覚変化のモデル化と測定は、一般的に高次元のパラメータ空間とスパースデータセットのために難しい。 最近出版された古代ギリシア語のテキストのコーパスには、選択されたターゲット語の専門的な注釈付きセンスラベルが含まれている。 コスモス(kosmos、装飾、秩序、世界を意味する)という単語の自動アノテーションは、最近、関連する生成モデルやモンテカルロ法を用いてテストケースとして使われている。 我々は、既存の生成感覚変化モデルを適用し、感覚と時間の主な効果に対するより単純なモデルを開発し、既存の手法よりも効率的であるこれらのモデルに対して、ベイズ推定のためのMCMC法を与える。 我々は,このモデルを用いて「コスモス」を含むスニペットの自動認識を行い,その3つの感覚の時間進化とその頻度を測定する。 我々の知る限り、このデータの最初の分析は、我々が考慮する生成モデルの中で、不確実性を定量化し、専門家のアノテーションによって与えられたものとうまく一致して、感覚の有病率を進化させるための信頼できる集合を返すものである。

In a bag-of-words model, the senses of a word with multiple meanings, e.g. "bank" (used either in a river-bank or an institution sense), are represented as probability distributions over context words, and sense prevalence is represented as a probability distribution over senses. Both of these may change with time. Modelling and measuring this kind of sense change is challenging due to the typically high-dimensional parameter space and sparse datasets. A recently published corpus of ancient Greek texts contains expert-annotated sense labels for selected target words. Automatic sense-annotation for the word "kosmos" (meaning decoration, order or world) has been used as a test case in recent work with related generative models and Monte Carlo methods. We adapt an existing generative sense change model to develop a simpler model for the main effects of sense and time, and give MCMC methods for Bayesian inference on all these models that are more efficient than existing methods. We carry out automatic sense-annotation of snippets containing "kosmos" using our model, and measure the time-evolution of its three senses and their prevalence. As far as we are aware, ours is the first analysis of this data, within the class of generative models we consider, that quantifies uncertainty and returns credible sets for evolving sense prevalence in good agreement with those given by expert annotation.
翻訳日:2021-05-04 20:42:01 公開日:2021-04-14
# (参考訳) 単一の病院におけるcovid-19数予測:階層的ベイズ的アプローチ [全文訳有]

Forecasting COVID-19 Counts At A Single Hospital: A Hierarchical Bayesian Approach ( http://arxiv.org/abs/2104.09327v1 )

ライセンス: CC BY 4.0
Alexandra Hope Lee, Panagiotis Lymperopoulos, Joshua T. Cohen, John B. Wong, and Michael C. Hughes(参考訳) 我々は,1つの病院で1日当たりの入院患者数を予測することで,管理者の物流や計画を支援する問題を考える。 本研究では, 一般化されたポアソン推定法を用いてデータのカウント特性を直接把握し, 自己回帰的およびガウス的プロセスによる時系列依存性をモデル化し, 関連サイト間で統計強度を共有できる候補階層ベイズモデルを開発した。 マサチューセッツ州の8つの病院とイギリスの10の病院のパブリックデータセットに対する我々のアプローチを実証する。 また,3つの病院の利害関係者が現在使っているベースラインと比較し,国家レベルの予測の再スケーリングによる2週間前需要の予測を行った。

We consider the problem of forecasting the daily number of hospitalized COVID-19 patients at a single hospital site, in order to help administrators with logistics and planning. We develop several candidate hierarchical Bayesian models which directly capture the count nature of data via a generalized Poisson likelihood, model time-series dependencies via autoregressive and Gaussian process latent processes, and share statistical strength across related sites. We demonstrate our approach on public datasets for 8 hospitals in Massachusetts, U.S.A. and 10 hospitals in the United Kingdom. Further prospective evaluation compares our approach favorably to baselines currently used by stakeholders at 3 related hospitals to forecast 2-week-ahead demand by rescaling state-level forecasts.
翻訳日:2021-05-04 07:51:32 公開日:2021-04-14
# (参考訳) 脳波と深層学習に基づく言語理解課題における精神的疲労の同定 [全文訳有]

Identification of mental fatigue in language comprehension tasks based on EEG and deep learning ( http://arxiv.org/abs/2104.08337v1 )

ライセンス: CC BY 4.0
Chunhua Ye, Zhong Yin, Chenxi Wu, Xiayidai Abulaiti, Yixing Zhang, Zhenqi Sun, and Jianhua Zhang(参考訳) 精神的疲労は言語理解タスクにおけるオペレータエラーのリスクを増加させる。 オペレーターのパフォーマンス低下を防止するために,人間-コンピュータシステムにおけるオペレーターの精神的疲労を評価するために脳波信号を用いた。 本研究は,言語理解課題における疲労検出のための実験設計を提案する。 健常者15名を対象に14チャンネル無線脳波検出器から脳波信号を得た。 各参加者は、複数の選択質問の形式で言語理解タスクの認知テストを受け、代名詞の参照を名目と代名詞の文の間で選択した。 本稿では,2400個のEEGフラグメントを,利用率の異なる3つのデータセット,すなわち,利用率50%の1200sデータセット,利用率62.5%の1500sデータセット,利用率75%の1800sデータセットに分割した。 特徴抽出の観点では,時間領域特徴,周波数領域特徴,エントロピー特徴を含む異なる脳波特徴を抽出し,その特徴と特徴の組み合わせが分類精度に及ぼす影響を検討した。 分類法として畳み込みニューラルネットワーク(convolutional neural network, cnn)法を推奨手法として導入し,畳み込みニューラルネットワーク(convolutional neural network, cnn)の分類精度が他の分類法よりも高いこと, 最小2乗支援ベクトル機械(lssvm), サポートベクター機械(svm), 統計回帰(lr), ランダムフォレスト(rf), ナイーブベイズ(nb), k-nearest neighbor(knn), 決定木(dt)と比較した。 分類の結果,1200sデータセットの分類精度は他の2つのデータセットよりも高いことがわかった。 周波数とエントロピーの特徴とCNNの組み合わせが最も高い分類精度があり、85.34%である。

Mental fatigue increases the risk of operator error in language comprehension tasks. In order to prevent operator performance degradation, we used EEG signals to assess the mental fatigue of operators in human-computer systems. This study presents an experimental design for fatigue detection in language comprehension tasks. We obtained EEG signals from a 14-channel wireless EEG detector in 15 healthy participants. Each participant was given a cognitive test of a language comprehension task, in the form of multiple choice questions, in which pronoun references were selected between nominal and surrogate sentences. In this paper, the 2400 EEG fragments collected are divided into three data sets according to different utilization rates, namely 1200s data set with 50% utilization rate, 1500s data set with 62.5% utilization rate, and 1800s data set with 75% utilization rate. In the aspect of feature extraction, different EEG features were extracted, including time domain features, frequency domain features and entropy features, and the effects of different features and feature combinations on classification accuracy were explored. In terms of classification, we introduced the Convolutional Neural Network (CNN) method as the preferred method, It was compared with Least Squares Support Vector Machines(LSSVM),Supp ort Vector Machines(SVM),Logist ic Regression (LR), Random Forest(RF), Naive Bayes (NB), K-Nearest Neighbor (KNN) and Decision Tree(DT).According to the results, the classification accuracy of convolutional neural network (CNN) is higher than that of other classification methods. The classification results show that the classification accuracy of 1200S dataset is higher than the other two datasets. The combination of Frequency and entropy feature and CNN has the highest classification accuracy, which is 85.34%.
翻訳日:2021-05-04 07:30:19 公開日:2021-04-14
# Demystifying BERT: アクセラレータ設計における意味

Demystifying BERT: Implications for Accelerator Design ( http://arxiv.org/abs/2104.08335v1 )

ライセンス: Link先を確認
Suchita Pati, Shaizeen Aga, Nuwan Jayasena, Matthew D. Sinclair(参考訳) BERT (Bi-directional Encoder Representation from Transformer) のようなモデルを用いて実現された自然言語処理(NLP)における伝達学習は、言語問題に対処可能なモデルで言語表現を大幅に改善した。 その結果、これらのアプリケーションは将来のシステムの要件を推し進めている。 そこで我々は,最も人気のあるNLP転送学習アルゴリズムであるBERTに着目し,そのアルゴリズム的振る舞いが将来の加速器設計をどのように導くかを明らかにする。 この目的のために,bertトレーニングを注意深くプロファイリングし,アクセラレーション設計において注目に値する重要なアルゴリズム行動を特定する。 多くの畳み込みニューラルネットワークと同様に、行列の乗算として表される計算がbertのランタイム全体を支配する一方で、メモリ集約計算も顕著である。 これまでにほとんど注目されていないこれらの計算を特徴付ける。 さらに,計算集約BERT計算における不均一性を同定し,これらの計算をさらに最適化するためのソフトウェアとハードウェア機構について議論する。 最後に,ネットワークの大規模化と分散トレーニング環境の利用,マイクロバッチや混合精度トレーニングスケールといった手法の活用について論じる。 本分析では,BERT系モデルのシステム最適化のための全体解を同定する。

Transfer learning in natural language processing (NLP), as realized using models like BERT (Bi-directional Encoder Representation from Transformer), has significantly improved language representation with models that can tackle challenging language problems. Consequently, these applications are driving the requirements of future systems. Thus, we focus on BERT, one of the most popular NLP transfer learning algorithms, to identify how its algorithmic behavior can guide future accelerator design. To this end, we carefully profile BERT training and identify key algorithmic behaviors which are worthy of attention in accelerator design. We observe that while computations which manifest as matrix multiplication dominate BERT's overall runtime, as in many convolutional neural networks, memory-intensive computations also feature prominently. We characterize these computations, which have received little attention so far. Further, we also identify heterogeneity in compute-intensive BERT computations and discuss software and possible hardware mechanisms to further optimize these computations. Finally, we discuss implications of these behaviors as networks get larger and use distributed training environments, and how techniques such as micro-batching and mixed-precision training scale. Overall, our analysis identifies holistic solutions to optimize systems for BERT-like models.
翻訳日:2021-05-03 19:44:42 公開日:2021-04-14
# 生成逆ネットワークの収束ダイナミクス:双対計量フロー

Convergence dynamics of Generative Adversarial Networks: the dual metric flows ( http://arxiv.org/abs/2012.10410v2 )

ライセンス: Link先を確認
Gabriel Turinici(参考訳) ニューラルネットワークのフィッティングはしばしば、勾配降下ダイナミクスの雑音耐性(および効率的な)分解能である確率的(または類似した)勾配降下を利用する。 ネットワークパラメータのシーケンスを出力し、トレーニングステップ中にシーケンスが進化する。 勾配降下は、学習率が小さく、バッチサイズが無限である場合の限界であり、トレーニング中に得られる最適なネットワークパラメータのセットである。 そこで本研究では,機械学習における生成的逆ネットワークの収束について検討する。 我々は,学習速度の限界について検討し,単一のネットワークトレーニングと同様に,学習速度をある程度の制限ダイナミクスに消耗させる傾向にあることを示す。 これにより、双対流れと呼ばれる距離空間(確率論の発展の自然な枠組み)における進化方程式を考えることができる。 解の形式的定義を与え、収束を証明する。 この理論はGANの特定の事例に適用され、この洞察がモード崩壊の理解と緩和にどのように役立つかについて議論する。 キーワード:gan, metric flow, generative network

Fitting neural networks often resorts to stochastic (or similar) gradient descent which is a noise-tolerant (and efficient) resolution of a gradient descent dynamics. It outputs a sequence of networks parameters, which sequence evolves during the training steps. The gradient descent is the limit, when the learning rate is small and the batch size is infinite, of this set of increasingly optimal network parameters obtained during training. In this contribution, we investigate instead the convergence in the Generative Adversarial Networks used in machine learning. We study the limit of small learning rate, and show that, similar to single network training, the GAN learning dynamics tend, for vanishing learning rate to some limit dynamics. This leads us to consider evolution equations in metric spaces (which is the natural framework for evolving probability laws) that we call dual flows. We give formal definitions of solutions and prove the convergence. The theory is then applied to specific instances of GANs and we discuss how this insight helps understand and mitigate the mode collapse. Keywords: GAN; metric flow; generative network
翻訳日:2021-05-01 18:19:20 公開日:2021-04-14
# 結核と多剤耐性結核の高能率・高能率・高能率・高能率人工知能による核酸増幅診断技術の設計

Design of an Efficient, Ease-of-use and Affordable Artificial Intelligence based Nucleic Acid Amplification Diagnosis Technology for Tuberculosis and Multi-drug Resistant Tuberculosis ( http://arxiv.org/abs/2104.08178v1 )

ライセンス: Link先を確認
Arastu Sharma, Rakesh Jain(参考訳) 結核菌の同時検出と抗結核薬(isoniazidおよびrifampicim)耐性の診断を容易にする最近の技術は、ラボベースの設定のために設計されており、大規模な試験実施には耐えられない。 低リソース環境において一般的に必要とされるtb診断装置の適合性は、製造コスト、使いやすさ、自動化、ポータビリティに依存する。 本稿では,スマートフォンを用いた新しい画像処理と色度検出アルゴリズムを用いた蛍光検出を応用した,ポータブルで低コストな自動核酸増幅試験(naat)デバイスについて述べる。 この装置をテストするために, 2つの濃度(40 ng/ulおよび200 ng/ul)にわたるcdna希釈のリアルタイムポリメラーゼ連鎖反応(qpcr)実験を行い, マルチプレックス正制御アッセイの感度を検証した。

Current technologies that facilitate diagnosis for simultaneous detection of Mycobacterium tuberculosis and its resistance to first-line anti-tuberculosis drugs (Isoniazid and Rifampicim) are designed for lab-based settings and are unaffordable for large scale testing implementations. The suitability of a TB diagnosis instrument, generally required in low-resource settings, to be implementable in point-of-care last mile public health centres depends on manufacturing cost, ease-of-use, automation and portability. This paper discusses a portable, low-cost, machine learning automated Nucleic acid amplification testing (NAAT) device that employs the use of a smartphone-based fluorescence detection using novel image processing and chromaticity detection algorithms. To test the instrument, real time polymerase chain reaction (qPCR) experiment on cDNA dilution spanning over two concentrations (40 ng/uL and 200 ng/uL) was performed and sensitive detection of multiplexed positive control assay was verified.
翻訳日:2021-04-19 14:08:09 公開日:2021-04-14
# (参考訳) 根拠のない学習セグメントによる解剖誘導型マルチモーダルレジストレーション : 声道内CBCT/MR肝分離とレジストレーションへの応用 [全文訳有]

Anatomy-guided Multimodal Registration by Learning Segmentation without Ground Truth: Application to Intraprocedural CBCT/MR Liver Segmentation and Registration ( http://arxiv.org/abs/2104.07056v1 )

ライセンス: CC BY 4.0
Bo Zhou, Zachary Augenfeld, Julius Chapiro, S. Kevin Zhou, Chi Liu, James S. Duncan(参考訳) マルチモーダル画像登録は,肝癌に対する経カテーテル動脈塞栓術(TACE)や術前MR検査など,診断的画像診断や画像誘導療法に多くの応用がある。 周術期獲得診断画像を周術期内環境に登録する能力は、周術期内腫瘍ターゲティングを改善させ、治療成績を著しく改善する可能性がある。 しかし、手続き中のcbctは、hounsfieldユニット、限定fov、モーション/メタルアーティファクトの信号キャリブレーションの欠如により、しばしば最適な画像品質を損なう。 これらの非理想的条件により、標準強度に基づくマルチモーダル登録法は、モダリティ間の正確な変換を生成できない。 セグメンテーションやランドマークのような解剖学的構造に基づく登録は効率的な代替手段を提供するが、そのような解剖学的構造情報は必ずしも利用できない。 深層学習に基づく解剖抽出器を訓練することは可能だが、特定の形態について大規模な手動アノテーションを必要とする。 これらの課題に対処するために、既にソースモダリティに存在する注釈付きデータセットを活用し、ターゲットモダリティ基礎真理を含まないセグメンテーションを学習するためのセグメンテーションネットワーク(APA2Seg-Net)への解剖保存ドメイン適応を提案する。 次に、ロバストな点マッチングマシンに基づいて、セグメンタを解剖誘導型マルチモーダル登録に統合する。 APA2Seg-Netは堅牢なCBCTおよびMR肝セグメンテーションを生成でき、これらのセグメンタを用いた解剖学的誘導型登録フレームワークは高品質なマルチモーダル登録を実現することができる。 私たちのコードはhttps://github.com/b bbbzhou/apa2seg-netで利用可能です。

Multimodal image registration has many applications in diagnostic medical imaging and image-guided interventions, such as Transcatheter Arterial Chemoembolization (TACE) of liver cancer guided by intraprocedural CBCT and pre-operative MR. The ability to register peri-procedurally acquired diagnostic images into the intraprocedural environment can potentially improve the intra-procedural tumor targeting, which will significantly improve therapeutic outcomes. However, the intra-procedural CBCT often suffers from suboptimal image quality due to lack of signal calibration for Hounsfield unit, limited FOV, and motion/metal artifacts. These non-ideal conditions make standard intensity-based multimodal registration methods infeasible to generate correct transformation across modalities. While registration based on anatomic structures, such as segmentation or landmarks, provides an efficient alternative, such anatomic structure information is not always available. One can train a deep learning-based anatomy extractor, but it requires large-scale manual annotations on specific modalities, which are often extremely time-consuming to obtain and require expert radiological readers. To tackle these issues, we leverage annotated datasets already existing in a source modality and propose an anatomy-preserving domain adaptation to segmentation network (APA2Seg-Net) for learning segmentation without target modality ground truth. The segmenters are then integrated into our anatomy-guided multimodal registration based on the robust point matching machine. Our experimental results on in-house TACE patient data demonstrated that our APA2Seg-Net can generate robust CBCT and MR liver segmentation, and the anatomy-guided registration framework with these segmenters can provide high-quality multimodal registrations. Our code is available at https://github.com/b bbbbbzhou/APA2Seg-Ne t.
翻訳日:2021-04-17 09:21:48 公開日:2021-04-14
# (参考訳) トランスフォーマティブ・ニューラル・サマリーサによる談話木の推定 [全文訳有]

Predicting Discourse Trees from Transformer-based Neural Summarizers ( http://arxiv.org/abs/2104.07058v1 )

ライセンス: CC BY 4.0
Wen Xiao, Patrick Huber, Giuseppe Carenini(参考訳) 以前の研究は、談話情報は要約に役立つことを示している。 本稿では,事前学習した神経要約者から文書レベルの談話木を推定することで,談話と要約の相乗効果が双方向であるかどうかを検討する。 特に,トランスフォーマーモデルの自己対応行列からラベルなしのrst型談話木を生成する。 モデルとデータセットをまたいだ実験では、要約者が依存関係と選挙区スタイルの談話情報の両方を学び、通常は1つのヘッドにエンコードされ、長距離と短距離の談話の依存関係をカバーする。 実験結果から,学習した談話情報は汎用的かつ伝達可能なドメイン間情報であることが示唆された。

Previous work indicates that discourse information benefits summarization. In this paper, we explore whether this synergy between discourse and summarization is bidirectional, by inferring document-level discourse trees from pre-trained neural summarizers. In particular, we generate unlabeled RST-style discourse trees from the self-attention matrices of the transformer model. Experiments across models and datasets reveal that the summarizer learns both, dependency- and constituency-style discourse information, which is typically encoded in a single head, covering long- and short-distance discourse dependencies. Overall, the experimental results suggest that the learned discourse information is general and transferable inter-domain.
翻訳日:2021-04-17 09:02:21 公開日:2021-04-14
# (参考訳) 神経集団幾何:生物と人工のニューラルネットワークを理解するためのアプローチ [全文訳有]

Neural population geometry: An approach for understanding biological and artificial neural networks ( http://arxiv.org/abs/2104.07059v1 )

ライセンス: CC BY 4.0
SueYeon Chung, L. F. Abbott(参考訳) 実験神経科学の進歩は、神経回路の構造と機能を調べる能力を変えた。 同時に、機械学習の進歩は、人工ニューラルネットワーク(ANN)の驚くべき計算能力を生み出した。 これら2つの分野は異なるツールとアプリケーションを持っているが、同様の課題を提示する:すなわち、複雑なタスクを解決するために、情報がどのように埋め込まれ、どのように処理されるかを理解する。 この課題に対処する1つのアプローチは、数学的および計算的なツールを使ってこれらの高次元表現、すなわち神経集団幾何学の幾何学を分析することである。 本稿では,生物学的ニューラルネットワークと人工ニューラルネットワークの機能に関する洞察を提供する幾何学的アプローチの例を概説する。認識における表現の解き方,認知システムにおける分類能力の幾何学的理論,認識マップに基づくトポロジ的表現,運動系における動的解き方,認識に対する動的アプローチである。 これらの知見は、機械学習、神経科学、および幾何学の交点においてエキサイティングな傾向を示しており、そこでは、神経集団幾何がタスク実装の基礎となる人口レベルの機械的な記述子を提供する。 重要なことは、幾何学的記述は、知覚的モダリティ、脳領域、ネットワークアーキテクチャ、時間スケールにまたがる。 このように、神経集団幾何学は、生物学的および人工ニューラルネットワークにおける構造と機能の理解を統一し、単一ニューロンと個体群と行動の間のギャップを埋める可能性がある。

Advances in experimental neuroscience have transformed our ability to explore the structure and function of neural circuits. At the same time, advances in machine learning have unleashed the remarkable computational power of artificial neural networks (ANNs). While these two fields have different tools and applications, they present a similar challenge: namely, understanding how information is embedded and processed through high-dimensional representations to solve complex tasks. One approach to addressing this challenge is to utilize mathematical and computational tools to analyze the geometry of these high-dimensional representations, i.e., neural population geometry. We review examples of geometrical approaches providing insight into the function of biological and artificial neural networks: representation untangling in perception, a geometric theory of classification capacity, disentanglement and abstraction in cognitive systems, topological representations underlying cognitive maps, dynamic untangling in motor systems, and a dynamical approach to cognition. Together, these findings illustrate an exciting trend at the intersection of machine learning, neuroscience, and geometry, in which neural population geometry provides a useful population-level mechanistic descriptor underlying task implementation. Importantly, geometric descriptions are applicable across sensory modalities, brain regions, network architectures and timescales. Thus, neural population geometry has the potential to unify our understanding of structure and function in biological and artificial neural networks, bridging the gap between single neurons, populations and behavior.
翻訳日:2021-04-17 08:46:38 公開日:2021-04-14
# (参考訳) データ表現学習のためのメンバーシップ・マッピング

Membership-Mappings for Data Representation Learning ( http://arxiv.org/abs/2104.07060v1 )

ライセンス: CC BY 4.0
Mohit Kumar, Bernhard A. Moser, Lukas Fischer, Bernhard Freudenthaler(参考訳) 本研究では,データポイントを属性値(ファジィ理論による動機付け)で表すためのメンバシップマッピングの概念を測度論的基礎を用いて導入する。 データ表現学習に活用できるメンバシップマッピングの特性は、データ空間内の与えられたデータポイントに対する補間を提供することである。 本研究は,メンバーシップ・マッピングに基づくデータ表現モデルの変分学習に対する分析的アプローチを概説する。 ディープオートエンコーダの別のアイデアとして、Bregman Divergence Based Conditionally Deep Autoencoder(各レイヤがメンバシップマッピングベースのオートエンコーダを通じて、ある抽象化レベルでデータ表現を学習する層で構成される)がある。 提案するフレームワークの高次元特徴ベクトルの分類における競合性能と,その分類に対するロバスト性を示す実験を行った。

This study introduces using measure theoretic basis the notion of membership-mapping for representing data points through attribute values (motivated by fuzzy theory). A property of the membership-mapping, that can be exploited for data representation learning, is of providing an interpolation on the given data points in the data space. The study outlines an analytical approach to the variational learning of a membership-mappings based data representation model. An alternative idea of deep autoencoder, referred to as Bregman Divergence Based Conditionally Deep Autoencoder (that consists of layers such that each layer learns data representation at certain abstraction level through a membership-mappings based autoencoder), is presented. Experiments are provided to demonstrate the competitive performance of the proposed framework in classifying high-dimensional feature vectors and in rendering robustness to the classification.
翻訳日:2021-04-17 08:36:45 公開日:2021-04-14
# (参考訳) データアソシエーションによる3次元オブジェクト理解の自己教師型学習と画像系列のランドマーク推定 [全文訳有]

Self-supervised Learning of 3D Object Understanding by Data Association and Landmark Estimation for Image Sequence ( http://arxiv.org/abs/2104.07077v1 )

ライセンス: CC BY 4.0
Hyeonwoo Yu and Jean Oh(参考訳) 本稿では,多目的ポーズ推定のための自己教師あり学習手法を提案する。 2次元画像から起立する3次元オブジェクトは,減次元情報からad次元を推定する困難な課題である。特に,オブジェクトの3次元位置推定やorien-tationの推定には,オブジェクト分類などの他の単純なクラスタリングタスクとは異なり,正確な推論が必要である。 そのため、トレーニングデータセットの規模は、よりcru-cialになります。 しかし、3Dアノテーションの達成は高価で時間を要するため、大量の3Dデータセットを得ることは困難である。 単純なナビゲーションから得られた画像シーケンスを伴ってトレーニングデータセットのスケールが向上すれば、データセットのスケールリムイテーションを克服し、新しい環境に効率的に適応することができる。 しかし、ネットワーク自体が単一画像上で自己アノテーションを動作させると、ネットワークのトレーニング性能は自己パーフォルマンスに拘束される。 そこで本稿では,自己性能を上回るために,画像シーケンス内のオブジェクトの多重観測を利用する手法を提案する。まず,ネットワーク述語とデータアソシエーションを用いて,グローバルオブジェクトマップのランドマークを推定し,単一のフレームの修正アノテーションを得る。 そして、自己注釈により得られたデータセットを含むネットワークの微調整を、ネットワークit自体の性能境界を超えることにより、一体化する。 提案手法はkittidriving sceneデータセット上で評価され, 3次元空間におけるマルチオブジェクトのポーズ推定における性能改善効果を示す。

In this paper, we propose a self-supervised learningmethod for multi-object pose estimation. 3D object under-standing from 2D image is a challenging task that infers ad-ditional dimension from reduced-dimensional information.In particular, the estimation of the 3D localization or orien-tation of an object requires precise reasoning, unlike othersimple clustering tasks such as object classification. There-fore, the scale of the training dataset becomes more cru-cial. However, it is challenging to obtain large amount of3D dataset since achieving 3D annotation is expensive andtime-consuming. If the scale of the training dataset can beincreased by involving the image sequence obtained fromsimple navigation, it is possible to overcome the scale lim-itation of the dataset and to have efficient adaptation tothe new environment. However, when the self annotation isconducted on single image by the network itself, trainingperformance of the network is bounded to the self perfor-mance. Therefore, we propose a strategy to exploit multipleobservations of the object in the image sequence in orderto surpass the self-performance: first, the landmarks for theglobal object map are estimated through network predic-tion and data association, and the corrected annotation fora single frame is obtained. Then, network fine-tuning is con-ducted including the dataset obtained by self-annotation,ther eby exceeding the performance boundary of the networkitself. The proposed method was evaluated on the KITTIdriving scene dataset, and we demonstrate the performanceimproveme nt in the pose estimation of multi-object in 3D space.
翻訳日:2021-04-17 08:35:47 公開日:2021-04-14
# (参考訳) TWEAC:拡張型QAエージェント分類器 [全文訳有]

TWEAC: Transformer with Extendable QA Agent Classifiers ( http://arxiv.org/abs/2104.07081v1 )

ライセンス: CC BY-SA 4.0
Gregor Geigle and Nils Reimers and Andreas R\"uckl\'e and Iryna Gurevych(参考訳) 質問応答システムは、ユーザが幅広いトピックに関する知識にアクセスし、さまざまな質問に回答するのに役立ちます。 ほとんどのシステムは、ウィキペディアのデータで事実の質問に答えるなど、特定の設定のみに特化しているため、この期待には届かない。 この制限を克服するために,メタQAシステム内で複数のQAエージェントを構成することを提案する。 文献には多岐にわたる専門的なQAエージェントが存在すると論じる。 そこで我々は,特定の質問に対して適切なqaエージェントを効果的かつ効率的に特定する方法に関する中心的な研究課題を提起する。 エージェント分類器を拡張可能なトランスフォーマーであるtweacが全体の94%の精度で最高の性能を達成できることを示し,教師なしと教師なしの両方のアプローチを検証した。 TWEACのスケーラビリティに関する広範な洞察を提供し、100以上のQAエージェントに堅牢にスケールできることを示し、それぞれが答えられる質問のたった1000の例を提供しています。

Question answering systems should help users to access knowledge on a broad range of topics and to answer a wide array of different questions. Most systems fall short of this expectation as they are only specialized in one particular setting, e.g., answering factual questions with Wikipedia data. To overcome this limitation, we propose composing multiple QA agents within a meta-QA system. We argue that there exist a wide range of specialized QA agents in literature. Thus, we address the central research question of how to effectively and efficiently identify suitable QA agents for any given question. We study both supervised and unsupervised approaches to address this challenge, showing that TWEAC - Transformer with Extendable Agent Classifiers - achieves the best performance overall with 94% accuracy. We provide extensive insights on the scalability of TWEAC, demonstrating that it scales robustly to over 100 QA agents with each providing just 1000 examples of questions they can answer.
翻訳日:2021-04-17 08:23:37 公開日:2021-04-14
# (参考訳) SummScreen: 抽象的な画面要約のためのデータセット [全文訳有]

SummScreen: A Dataset for Abstractive Screenplay Summarization ( http://arxiv.org/abs/2104.07091v1 )

ライセンス: CC BY-SA 4.0
Mingda Chen, Zewei Chu, Sam Wiseman, Kevin Gimpel(参考訳) 本研究では,テレビシリーズの台本と人間の書き直しデータからなる要約データセットであるsummscreenを紹介する。 データセットはいくつかの理由で抽象的な要約のための挑戦的なテストベッドを提供する。 プロットの詳細はしばしば文字対話で間接的に表現され、書き起こしの全体にわたって散らばることがある。 これらの詳細は、recapsの簡潔なプロット記述を形成するために見つけて統合する必要がある。 また、テレビの脚本には中央のプロットに直接関係しない内容が含まれており、キャラクターの開発やコミックのリリーフに役立っている。 この情報はrecapsにはほとんど含まれない。 キャラクタはテレビシリーズの基本であるため,2つのエンティティ中心評価指標も提案する。 実験的に,ニューラルネットワークや近接する近傍のモデルなど,いくつかの手法を評価することにより,データセットを特徴付ける。 オラクル抽出アプローチは、すべてのベンチマークモデルを自動メトリクスで上回り、ニューラルモデルが入力書き起こしを十分に活用できないことを示す。 人的評価と質的分析によって、当社の非oracleモデルは、忠実なプロットイベントを生成するという点で、oracleのモデルと競合することが分かり、より良いコンテンツセレクタの恩恵を受けることができます。 oracleと非oracleの両方のモデルが不利な事実を生み出し、将来の研究の方向性を示唆している。

We introduce SummScreen, a summarization dataset comprised of pairs of TV series transcripts and human written recaps. The dataset provides a challenging testbed for abstractive summarization for several reasons. Plot details are often expressed indirectly in character dialogues and may be scattered across the entirety of the transcript. These details must be found and integrated to form the succinct plot descriptions in the recaps. Also, TV scripts contain content that does not directly pertain to the central plot but rather serves to develop characters or provide comic relief. This information is rarely contained in recaps. Since characters are fundamental to TV series, we also propose two entity-centric evaluation metrics. Empirically, we characterize the dataset by evaluating several methods, including neural models and those based on nearest neighbors. An oracle extractive approach outperforms all benchmarked models according to automatic metrics, showing that the neural models are unable to fully exploit the input transcripts. Human evaluation and qualitative analysis reveal that our non-oracle models are competitive with their oracle counterparts in terms of generating faithful plot events and can benefit from better content selectors. Both oracle and non-oracle models generate unfaithful facts, suggesting future research directions.
翻訳日:2021-04-17 08:05:09 公開日:2021-04-14
# (参考訳) 音声によるCOVID-19患者検出のための音声機能ランキング [全文訳有]

Audio feature ranking for sound-based COVID-19 patient detection ( http://arxiv.org/abs/2104.07128v1 )

ライセンス: CC BY 4.0
Julia A. Meister and Khuong An Nguyen and Zhiyuan Luo(参考訳) 息のサンプルを用いた音声分類は、最近、低コストで非侵襲的でアクセス可能な新型コロナウイルススクリーニング方法として登場した。 しかし、重要な医療環境の厳格な信頼性と精度の要求のため、執筆時点では公式使用の申請は認められていない。 機械学習の分類モデルの開発を支援するため、あまり知られていないものを含む15の音声特徴の広範な比較調査とランキングを行った。 結果は、2つの独立したCOVID-19サウンドデータセットで検証された。 特定されたトップパフォーマンス機能を使用することで、私たちは、Cambridgeデータセットで最大17%、Cosawaraデータセットで最大10%、COVID-19の分類精度を、私たちの特徴ランキングなしでオリジナルのベースライン精度と比較して向上させました。

Audio classification using breath and cough samples has recently emerged as a low-cost, non-invasive, and accessible COVID-19 screening method. However, no application has been approved for official use at the time of writing due to the stringent reliability and accuracy requirements of the critical healthcare setting. To support the development of the Machine Learning classification models, we performed an extensive comparative investigation and ranking of 15 audio features, including less well-known ones. The results were verified on two independent COVID-19 sound datasets. By using the identified top-performing features, we have increased the COVID-19 classification accuracy by up to 17% on the Cambridge dataset, and up to 10% on the Coswara dataset, compared to the original baseline accuracy without our feature ranking.
翻訳日:2021-04-17 07:47:05 公開日:2021-04-14
# (参考訳) $\mathbb{R}^d$における区間積のVapnik-Chervonenkis次元について [全文訳有]

On the Vapnik-Chervonenkis dimension of products of intervals in $\mathbb{R}^d$ ( http://arxiv.org/abs/2104.07136v1 )

ライセンス: CC BY 4.0
Alirio G\'omez G\'omez, Pedro L. Kaufmann(参考訳) Vapnik-Chervonenkis幾何学の観点から、$\mathbb{R}^d$ の区間積のある種のクラスの組み合わせ複雑性について検討する。 その結果, 球の集合の Vapnik-Chervonenkis 次元が $\ell_\infty^d$ であり, sup ノルムを備えた $\R^d$ は $\lfloor (3d+1)/2\rfloor$ となる。

We study combinatorial complexity of certain classes of products of intervals in $\mathbb{R}^d$, from the point of view of Vapnik-Chervonenkis geometry. As a consequence of the obtained results, we conclude that the Vapnik-Chervonenkis dimension of the set of balls in $\ell_\infty^d$ -- which denotes $\R^d$ equipped with the sup norm -- equals $\lfloor (3d+1)/2\rfloor$.
翻訳日:2021-04-17 07:31:03 公開日:2021-04-14
# (参考訳) FedGraphNN: グラフニューラルネットワークのためのフェデレーション学習システムとベンチマーク [全文訳有]

FedGraphNN: A Federated Learning System and Benchmark for Graph Neural Networks ( http://arxiv.org/abs/2104.07145v1 )

ライセンス: CC BY 4.0
Chaoyang He, Keshav Balasubramanian, Emir Ceyani, Yu Rong, Peilin Zhao, Junzhou Huang, Murali Annavaram, Salman Avestimehr(参考訳) グラフニューラルネットワーク(GNN)の研究は、グラフ構造化データから表現を学習するGNNの能力のおかげで急速に増加している。 しかし、GNNトレーニングのための大量の実世界のグラフデータの集中化は、ユーザ側のプライバシの懸念、規制規制、商業的競争のために禁止されている。 分散学習パラダイムであるフェデレーション学習(fl)は、プライバシを維持しながらこの課題を解決することを目的としている。 近年のビジョンと言語領域の進歩にもかかわらず、GNNの連携トレーニングに適したプラットフォームは存在しない。 この目的のために,オープンリサーチフェデレーション学習システムであるFedGraphNNと,GNNベースのFL研究を促進するベンチマークを紹介する。 FedGraphNNは、フェデレーション付きGNNの統一的な定式化に基づいて構築されており、一般的に使用されるデータセット、GNNモデル、FLアルゴリズム、フレキシブルAPIをサポートする。 我々はまた、新しい分子データセットhERGを研究の促進に貢献する。 フェデレートされたGNNは、集中型GNNよりも非I.Dスプリットのほとんどのデータセットでは、フェデレートされたGNNトレーニングにおいて、最も優れた結果が得られるGNNモデルは、フェデレーションされた設定では、その優位性を保たない可能性がある。 これらの結果は、federated gnnトレーニングの背後にある謎を解明するために、さらなる研究努力が必要であることを示唆している。 さらに,本システムの性能解析により,FedGraphNNシステムはGPUに制限のあるほとんどの研究室で計算コストが安いことを示した。 ソースコードはhttps://github.com/F edML-AI/FedGraphNNで管理しています。

Graph Neural Network (GNN) research is rapidly growing thanks to the capacity of GNNs to learn representations from graph-structured data. However, centralizing a massive amount of real-world graph data for GNN training is prohibitive due to user-side privacy concerns, regulation restrictions, and commercial competition. Federated learning (FL), a trending distributed learning paradigm, aims to solve this challenge while preserving privacy. Despite recent advances in vision and language domains, there is no suitable platform for the federated training of GNNs. To this end, we introduce FedGraphNN, an open research federated learning system and a benchmark to facilitate GNN-based FL research. FedGraphNN is built on a unified formulation of federated GNNs and supports commonly used datasets, GNN models, FL algorithms, and flexible APIs. We also contribute a new molecular dataset, hERG, to promote research exploration. Our experimental results present significant challenges in federated GNN training: federated GNNs perform worse in most datasets with a non-I.I.D split than centralized GNNs; the GNN model that attains the best result in the centralized setting may not hold its advantage in the federated setting. These results imply that more research efforts are needed to unravel the mystery behind federated GNN training. Moreover, our system performance analysis demonstrates that the FedGraphNN system is computationally affordable to most research labs with limited GPUs. We maintain the source code at https://github.com/F edML-AI/FedGraphNN.
翻訳日:2021-04-17 07:22:19 公開日:2021-04-14
# (参考訳) マスキングトランスフォーマーによるテキストの非絡み込み表現 [全文訳有]

Disentangling Representations of Text by Masking Transformers ( http://arxiv.org/abs/2104.07155v1 )

ライセンス: CC BY-SA 4.0
Xiongyi Zhang, Jan-Willem van de Meent, Byron C. Wallace(参考訳) BERTのような事前訓練された大規模なモデルからの表現は、様々な機能をモノリシックなベクトルにエンコードし、下流のタスクに強い予測精度を与える。 本稿では,分離された相補的なアスペクト表現を符号化する事前学習モデル内で既存のサブネットワークを識別することにより,異種表現を学習できるかどうかを検討する。 具体的には、変圧器の重みや隠れた単位の2値マスクを学習し、変動の特定の要因と相関する特徴のサブセットを明らかにする。 本稿では,映画評論における感情表現をジャンルから切り離す能力,つぶやきにおける方言からの「毒性」,意味論からの構文について評価する。 マスクとマグニチュードプルーニングを組み合わせることで、特定の側面(例えば毒性)を強くエンコードし、他の側面(例えば人種)を弱エンコードするスパースサブネットをBERT内で特定できることが分かる。 さらに,マスクを学習しただけでは,前述した変分オートエンコーダと逆行訓練に基づく方法よりも,乱れからマスキングが機能するだけでなく,前述した手法よりもよく機能することが分かった。

Representations from large pretrained models such as BERT encode a range of features into monolithic vectors, affording strong predictive accuracy across a multitude of downstream tasks. In this paper we explore whether it is possible to learn disentangled representations by identifying existing subnetworks within pretrained models that encode distinct, complementary aspect representations. Concretely, we learn binary masks over transformer weights or hidden units to uncover subsets of features that correlate with a specific factor of variation; this eliminates the need to train a disentangled model from scratch for a particular task. We evaluate this method with respect to its ability to disentangle representations of sentiment from genre in movie reviews, "toxicity" from dialect in Tweets, and syntax from semantics. By combining masking with magnitude pruning we find that we can identify sparse subnetworks within BERT that strongly encode particular aspects (e.g., toxicity) while only weakly encoding others (e.g., race). Moreover, despite only learning masks, we find that disentanglement-via- masking performs as well as -- and often better than -- previously proposed methods based on variational autoencoders and adversarial training.
翻訳日:2021-04-17 07:03:28 公開日:2021-04-14
# エンティティに基づくナラティブグラフによる人間の精神状態のモデル化

Modeling Human Mental States with an Entity-based Narrative Graph ( http://arxiv.org/abs/2104.07079v1 )

ライセンス: Link先を確認
I-Ta Lee, Maria Leonor Pacheco and Dan Goldwasser(参考訳) 物語の文章を理解するには、登場人物の動機、目標、精神状態を理解する必要がある。 本稿では,物語中の文字の内部状態をモデル化するEntity-based Narrative Graph (ENG)を提案する。 エンティティ、それらのインタラクション、それらが現れるコンテキストを明示的にモデル化し、それらのリッチな表現を学びます。 我々は、異なるタスク適応事前学習目標、ドメイン内トレーニング、シンボリック推論を用いて、出力空間における異なる決定間の依存関係をキャプチャする実験を行う。 我々は,性格的精神状態の予測,欲求充足,質的分析という2つのナラティブ理解課題についてモデルを評価した。

Understanding narrative text requires capturing characters' motivations, goals, and mental states. This paper proposes an Entity-based Narrative Graph (ENG) to model the internal-states of characters in a story. We explicitly model entities, their interactions and the context in which they appear, and learn rich representations for them. We experiment with different task-adaptive pre-training objectives, in-domain training, and symbolic inference to capture dependencies between different decisions in the output space. We evaluate our model on two narrative understanding tasks: predicting character mental states, and desire fulfillment, and conduct a qualitative analysis.
翻訳日:2021-04-16 15:19:55 公開日:2021-04-14
# muse 2021 multimodal sentiment analysis challenge: sentiment, emotion, physiological-emotio n, and stress

The MuSe 2021 Multimodal Sentiment Analysis Challenge: Sentiment, Emotion, Physiological-Emotio n, and Stress ( http://arxiv.org/abs/2104.07123v1 )

ライセンス: Link先を確認
Lukas Stappen, Alice Baird, Lukas Christ, Lea Schumann, Benjamin Sertolli, Eva-Maria Messner, Erik Cambria, Guoying Zhao, and Bj\"orn W. Schuller(参考訳) マルチモーダル・センティメント・アナリティクス(MuSe)2021は、音声・視覚・言語・生物学的信号モダリティをより包括的に統合することで、感情と感情のタスク、および生理的感情と感情に基づくストレス認識に焦点を当てる課題である。 MuSe 2021の目的は、主に音声・視覚的感情認識コミュニティ(シグナルベース)、感情分析コミュニティ(シンボルベース)、健康情報コミュニティといった、さまざまな分野のコミュニティをまとめることである。 本研究では,連続的な感情(原子価と覚醒)の予測に焦点を当てた MuSe-Wilder と MuSe-Stress と,参加者が原子価と覚醒の5つのクラスを認識する MuSe-Sent と,「生理的感情」の新たな側面を予測する MuSe-Physio の4つのサブチャンジを提示する。 今年の課題として,ユーザ生成レビューに着目したmuse-carデータセットを活用したulm-tsstデータセットを提案する。 本稿では,これらデータセットから抽出した最先端の機能セットについて,長期間のメモリリカレントニューラルネットワークであるベースラインモデルを用いて詳細に述べる。 各サブチャレンジに対して、参加者の競争基準線が設定され、テストでは、MuSe-Wilderの.4616 CCC、MuSe-Stressの.4717 CCC、MuSe-Physioの.4606 CCCが報告される。 MuSe-Sentの場合、F1スコアは32.82%となる。

Multimodal Sentiment Analysis (MuSe) 2021 is a challenge focusing on the tasks of sentiment and emotion, as well as physiological-emotio n and emotion-based stress recognition through more comprehensively integrating the audio-visual, language, and biological signal modalities. The purpose of MuSe 2021 is to bring together communities from different disciplines; mainly, the audio-visual emotion recognition community (signal-based), the sentiment analysis community (symbol-based), and the health informatics community. We present four distinct sub-challenges: MuSe-Wilder and MuSe-Stress which focus on continuous emotion (valence and arousal) prediction; MuSe-Sent, in which participants recognise five classes each for valence and arousal; and MuSe-Physio, in which the novel aspect of `physiological-emotio n' is to be predicted. For this years' challenge, we utilise the MuSe-CaR dataset focusing on user-generated reviews and introduce the Ulm-TSST dataset, which displays people in stressful depositions. This paper also provides detail on the state-of-the-art feature sets extracted from these datasets for utilisation by our baseline model, a Long Short-Term Memory-Recurrent Neural Network. For each sub-challenge, a competitive baseline for participants is set; namely, on test, we report a Concordance Correlation Coefficient (CCC) of .4616 CCC for MuSe-Wilder; .4717 CCC for MuSe-Stress, and .4606 CCC for MuSe-Physio. For MuSe-Sent an F1 score of 32.82 % is obtained.
翻訳日:2021-04-16 15:17:41 公開日:2021-04-14
# ゴール指向対話システムの実環境騒音に対するロバスト性について

On the Robustness of Goal Oriented Dialogue Systems to Real-world Noise ( http://arxiv.org/abs/2104.07149v1 )

ライセンス: Link先を確認
Jason Krone, Sailik Sengupta, Saab Mansoor(参考訳) リアルワード環境で対話するゴール指向の対話システムは、しばしばノイズの多いデータに遭遇する。 本研究では,目標指向型対話システムの雑音データに対する頑健性について検討する。 具体的には、ほとんどの対話システムの基礎となる意図分類(IC)とスロットラベリング(SL)モデルについて考察する。 実生活における人間同士の会話で見られる6つの共通現象(省略、ケーシング、ミススペル、形態的変種、パラフレーズ、同義語)のテストスーツを収集し、これらの現象が最先端のBERTモデルにおけるIC/SL性能を低下させることができることを示す。 合成データ拡張により,実世界の雑音に対するic/slモデルのロバスト性が +11.5,slが+17.3 ポイント向上する。 ダイアログシステムの堅牢性に関するさらなる研究を可能にするため、ノイズの多いテストデータのスイートを公開します。

Goal oriented dialogue systems, that interact in real-word environments, often encounter noisy data. In this work, we investigate how robust goal oriented dialogue systems are to noisy data. Specifically, our analysis considers intent classification (IC) and slot labeling (SL) models that form the basis of most dialogue systems. We collect a test-suite for six common phenomena found in live human-to-bot conversations (abbreviations, casing, misspellings, morphological variants, paraphrases, and synonyms) and show that these phenomena can degrade the IC/SL performance of state-of-the-art BERT based models. Through the use of synthetic data augmentation, we are improve IC/SL model's robustness to real-world noise by +11.5 for IC and +17.3 points for SL on average across noise types. We make our suite of noisy test data public to enable further research into the robustness of dialog systems.
翻訳日:2021-04-16 15:17:07 公開日:2021-04-14
# BERTの解釈可能性イリュージョン

An Interpretability Illusion for BERT ( http://arxiv.org/abs/2104.07143v1 )

ライセンス: Link先を確認
Tolga Bolukbasi, Adam Pearce, Ann Yuan, Andy Coenen, Emily Reif, Fernanda Vi\'egas, Martin Wattenberg(参考訳) BERTモデルを解析する際に生じる「解釈可能性錯覚」について述べる。 ネットワーク内の個々のニューロンの活性化は、1つの単純な概念をコードしているように思えるかもしれません。 同じ効果は、活性化の線形結合である。 この錯覚の源は、BERTの埋め込み空間の幾何学的性質と、共通テキストコーパスが可能な英文の狭いスライスのみを表すという事実に遡る。 本稿では,モデル学習概念の分類学を提供し,解釈可能性研究の方法論的意義,特に複数のデータセット上での仮説の検証の重要性について論じる。

We describe an "interpretability illusion" that arises when analyzing the BERT model. Activations of individual neurons in the network may spuriously appear to encode a single, simple concept, when in fact they are encoding something far more complex. The same effect holds for linear combinations of activations. We trace the source of this illusion to geometric properties of BERT's embedding space as well as the fact that common text corpora represent only narrow slices of possible English sentences. We provide a taxonomy of model-learned concepts and discuss methodological implications for interpretability research, especially the importance of testing hypotheses on multiple data sets.
翻訳日:2021-04-16 15:14:06 公開日:2021-04-14
# アニーリング知識蒸留

Annealing Knowledge Distillation ( http://arxiv.org/abs/2104.07163v1 )

ライセンス: Link先を確認
Aref Jafari, Mehdi Rezagholizadeh, Pranav Sharma, Ali Ghodsi(参考訳) 大きなディープニューラルネットワークの重要なメモリと計算要件は、エッジデバイスでの応用を制限する。 知識蒸留(KD)は、訓練された大きな教師モデルの知識をより小さな学生モデルに移すディープニューラルネットワークのための顕著なモデル圧縮技術である。 知識蒸留の成功は、トレーニングセットに与えられた通常のハードラベルに加えて、ソフトターゲット情報(ダークナレッジとも呼ばれる)を利用する訓練目的関数に起因している。 しかし,教師と学生のネットワーク間のギャップが大きいほど,知識蒸留による訓練が困難であることが文献で示されている。 そこで本研究では,教師のソフトターゲットが提供する豊富な情報を段階的に,より効率的に供給し,知識蒸留の改良手法(Anaaling-KD)を提案する。 このアニーリングkd手法は,教師が異なる温度で生成したアニーリングソフトターゲティングを段階的に段階的に変化させることにより,アニーリングした教師の出力を段階的に追従するように訓練するものである。 本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用実験を含む。 GLUEベンチマークでは,画像分類(CIFAR-10,100)やBERTモデルを用いたNLP言語推論など,さまざまなタスクに関する総合的な実験を行い,優れた結果を得た。

Significant memory and computational requirements of large deep neural networks restrict their application on edge devices. Knowledge distillation (KD) is a prominent model compression technique for deep neural networks in which the knowledge of a trained large teacher model is transferred to a smaller student model. The success of knowledge distillation is mainly attributed to its training objective function, which exploits the soft-target information (also known as "dark knowledge") besides the given regular hard labels in a training set. However, it is shown in the literature that the larger the gap between the teacher and the student networks, the more difficult is their training using knowledge distillation. To address this shortcoming, we propose an improved knowledge distillation method (called Annealing-KD) by feeding the rich information provided by the teacher's soft-targets incrementally and more efficiently. Our Annealing-KD technique is based on a gradual transition over annealed soft-targets generated by the teacher at different temperatures in an iterative process, and therefore, the student is trained to follow the annealed teacher output in a step-by-step manner. This paper includes theoretical and empirical evidence as well as practical experiments to support the effectiveness of our Annealing-KD method. We did a comprehensive set of experiments on different tasks such as image classification (CIFAR-10 and 100) and NLP language inference with BERT-based models on the GLUE benchmark and consistently got superior results.
翻訳日:2021-04-16 15:13:56 公開日:2021-04-14
# A*を用いたエクササイズと近似階層クラスタリング

Exact and Approximate Hierarchical Clustering Using A* ( http://arxiv.org/abs/2104.07061v1 )

ライセンス: Link先を確認
Craig S. Greenberg, Sebastian Macaluso, Nicholas Monath, Avinava Dubey, Patrick Flaherty, Manzil Zaheer, Amr Ahmed, Kyle Cranmer, Andrew McCallum(参考訳) 階層的クラスタリングは、多くのドメインにおいて重要なタスクです。 多くのアプローチはヒューリスティックスに基づいており、その結果のクラスタリングの性質はポストホックで研究されている。 しかし、いくつかのアプリケーションでは、クラスタリングの品質を特徴付けるために使用できる自然なコスト関数がある。 このような場合、階層的クラスタリングは組合せ最適化問題と見なすことができる。 そこで我々は,A*検索に基づく新しいアプローチを提案する。 我々は、a* と新しい \emph{trellis} データ構造を組み合わせることで、強制的に大きい探索空間を克服する。 10^{12}$ツリーの探索空間から10^{15}$ツリーの探索空間、そして10^{1000}$ツリーを含む巨大な探索空間でさえもベースラインを上回る近似アルゴリズムまで、この組み合わせによって、以前の状態を超える正確なアルゴリズムが実現されます。 実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。 本稿では,クラスタリングにおけるA*の時間と空間の複雑さに関する理論的境界について述べる。

Hierarchical clustering is a critical task in numerous domains. Many approaches are based on heuristics and the properties of the resulting clusterings are studied post hoc. However, in several applications, there is a natural cost function that can be used to characterize the quality of the clustering. In those cases, hierarchical clustering can be seen as a combinatorial optimization problem. To that end, we introduce a new approach based on A* search. We overcome the prohibitively large search space by combining A* with a novel \emph{trellis} data structure. This combination results in an exact algorithm that scales beyond previous state of the art, from a search space with $10^{12}$ trees to $10^{15}$ trees, and an approximate algorithm that improves over baselines, even in enormous search spaces that contain more than $10^{1000}$ trees. We empirically demonstrate that our method achieves substantially higher quality results than baselines for a particle physics use case and other clustering benchmarks. We describe how our method provides significantly improved theoretical bounds on the time and space complexity of A* for clustering.
翻訳日:2021-04-16 15:09:07 公開日:2021-04-14
# 離散最適化によるグループ変数選択:計算と統計の展望

Grouped Variable Selection with Discrete Optimization: Computational and Statistical Perspectives ( http://arxiv.org/abs/2104.07084v1 )

ライセンス: Link先を確認
Hussein Hazimeh, Rahul Mazumder, Peter Radchenko(参考訳) 本稿では,離散数理最適化に基づくグループ変数選択のための新しいアルゴリズムフレームワークを提案する。 凸緩和と非凸ヒューリスティックに基づくいくつかの魅力的なアプローチが存在するが、計算上の課題により比較的未解決な問題である $\ell_0$-regularized formula の最適解に焦点を当てている。 本研究では,高次元線形回帰法と平滑成分を用いた非パラメトリックスパース加法モデリングについて述べる。 我々のアルゴリズムフレームワークは近似と厳密なアルゴリズムで構成されている。 近似アルゴリズムは座標降下と局所探索に基づいており、ランタイムは一般的なスパース学習アルゴリズムに匹敵する。 提案手法は,関連する混合整数計画問題(mip)を解き,最適性が証明できるスタンドアロンの分岐・境界(bnb)フレームワークに基づいている。 我々のカスタムBnBアルゴリズムは、問題構造を利用することにより、現在最先端の商用MIP解決器で実現されているものよりも1,000ドル以上、分から数時間で5ドル=10^6$の機能を持つ最適性問題インスタンスを解くことができる。 また、$\ell_0$ ベースの推定器の統計特性についても検討する。 我々は,理論上,実証的に,提案した推定器が,様々な制度における統計的性能の観点から,一般的なグループスパース推定器よりも優位であることを示す。

We present a new algorithmic framework for grouped variable selection that is based on discrete mathematical optimization. While there exist several appealing approaches based on convex relaxations and nonconvex heuristics, we focus on optimal solutions for the $\ell_0$-regularized formulation, a problem that is relatively unexplored due to computational challenges. Our methodology covers both high-dimensional linear regression and nonparametric sparse additive modeling with smooth components. Our algorithmic framework consists of approximate and exact algorithms. The approximate algorithms are based on coordinate descent and local search, with runtimes comparable to popular sparse learning algorithms. Our exact algorithm is based on a standalone branch-and-bound (BnB) framework, which can solve the associated mixed integer programming (MIP) problem to certified optimality. By exploiting the problem structure, our custom BnB algorithm can solve to optimality problem instances with $5 \times 10^6$ features in minutes to hours -- over $1000$ times larger than what is currently possible using state-of-the-art commercial MIP solvers. We also explore statistical properties of the $\ell_0$-based estimators. We demonstrate, theoretically and empirically, that our proposed estimators have an edge over popular group-sparse estimators in terms of statistical performance in various regimes.
翻訳日:2021-04-16 15:07:32 公開日:2021-04-14
# グッドチューリング推定器の平均二乗精度

Mean-Squared Accuracy of Good-Turing Estimator ( http://arxiv.org/abs/2104.07029v1 )

ライセンス: Link先を確認
Maciej Skorski(参考訳) Good and Turingによる素晴らしい方法では、サンプルに存在しないオブジェクトを推定することができる。 この問題は、"sample coverage" や "missing mass" という名前で知られ、第二次世界大戦の暗号作業に遡るが、長年にわたり、言語モデリング、生態学における推論、分布特性の推定など、多くの応用が認められてきた。 この研究は、任意のサンプル \emph{and} アルファベットサイズに対して、グッドチューリング推定器の最大平均二乗誤差を特徴づける。

The brilliant method due to Good and Turing allows for estimating objects not occurring in a sample. The problem, known under names "sample coverage" or "missing mass" goes back to their cryptographic work during WWII, but over years has found has many applications, including language modeling, inference in ecology and estimation of distribution properties. This work characterizes the maximal mean-squared error of the Good-Turing estimator, for any sample \emph{and} alphabet size.
翻訳日:2021-04-16 15:07:00 公開日:2021-04-14
# 条件付きテキスト生成における文順の修正

Reformulating Sentence Ordering as Conditional Text Generation ( http://arxiv.org/abs/2104.07064v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Faeze Brahman, Snigdha Chaturvedi(参考訳) 文のシャッフルセットをコヒーレントテキストに整理する作業は、NLPにおいて重要であり、機械の因果関係と時間的関係の理解を評価するために用いられてきた。 本稿では、事前学習したトランスフォーマーモデルを用いて、与えられたシャッフル文集合のコヒーレント順序を識別する文順序付けフレームワークであるReorder-BART(RE-BART )を提案する。 入力が文固有のマーカーを持つシャッフル文の集合であり、出力は順序付けられたテキストの位置マーカーのシーケンスである条件付きテキスト-マーカー生成設定としてタスクを再構築する。 我々のフレームワークは、PMR(Perfect Match Ratio)とKendall's tau(\tau$)の6つのデータセットにわたる最先端のパフォーマンスを実現する。 ゼロショット設定で評価を行い、モデルが他のデータセットをまたいでうまく一般化できることを示します。 さらに、機能を理解し、フレームワークの限界を探求するための一連の実験も行います。

The task of organizing a shuffled set of sentences into a coherent text is important in NLP and has been used to evaluate a machine's understanding of causal and temporal relations. We present Reorder-BART (RE-BART), a sentence ordering framework which leverages a pre-trained transformer-based model to identify a coherent order for a given set of shuffled sentences. We reformulate the task as a conditional text-to-marker generation setup where the input is a set of shuffled sentences with sentence-specific markers and output is a sequence of position markers of the ordered text. Our framework achieves the state-of-the-art performance across six datasets in Perfect Match Ratio (PMR) and Kendall's tau ($\tau$) metric. We perform evaluations in a zero-shot setting, showcasing that our model is able to generalize well across other datasets. We additionally perform a series of experiments to understand the functioning and explore the limitations of our framework.
翻訳日:2021-04-16 15:06:50 公開日:2021-04-14
# UDALM:言語モデリングによる教師なしドメイン適応

UDALM: Unsupervised Domain Adaptation through Language Modeling ( http://arxiv.org/abs/2104.07078v1 )

ライセンス: Link先を確認
Constantinos Karouzos, Georgios Paraskevopoulos and Alexandros Potamianos(参考訳) 本研究では、下流タスクのための事前訓練された言語モデルの教師なしドメイン適応(UDA)について検討する。 本稿では,対象領域分布にロバストかつサンプル効率のよい方法で適応可能な,混合分類とマスキング言語モデル損失を用いた,微調整手順であるudalmを紹介する。 実験の結果, 混合損失量と混合損失量とを混合損失尺度で学習したモデルの性能は, UDA訓練における停止基準として有効に利用できることがわかった。 さらに,A距離と目標誤差の関係について考察し,ドメイン適応学習手法の限界について考察する。 この手法は、Amazon Reviews Sentimentデータセットの12のドメインペアで評価され、911.74\%の精度で、最先端よりも1.11\%の絶対的な改善である。

In this work we explore Unsupervised Domain Adaptation (UDA) of pretrained language models for downstream tasks. We introduce UDALM, a fine-tuning procedure, using a mixed classification and Masked Language Model loss, that can adapt to the target domain distribution in a robust and sample efficient manner. Our experiments show that performance of models trained with the mixed loss scales with the amount of available target data and the mixed loss can be effectively used as a stopping criterion during UDA training. Furthermore, we discuss the relationship between A-distance and the target error and explore some limitations of the Domain Adversarial Training approach. Our method is evaluated on twelve domain pairs of the Amazon Reviews Sentiment dataset, yielding $91.74\%$ accuracy, which is an $1.11\%$ absolute improvement over the state-of-the-art.
翻訳日:2021-04-16 15:06:32 公開日:2021-04-14
# 静的埋め込みは効果的な知識ベースか?

Static Embeddings as Efficient Knowledge Bases? ( http://arxiv.org/abs/2104.07094v1 )

ライセンス: Link先を確認
Philipp Dufter, Nora Kassner, Hinrich Sch\"utze(参考訳) 最近の研究は、大規模事前学習言語モデル(plm)に格納された事実知識について研究している。 構造知識ベース(KB)クエリの代わりに、「パリは[MASK]の首都である」といったマスキング文がプローブとして使用される。 この分析タスクの優れた性能は、plmが事実知識の潜在的なリポジトリとなると解釈されている。 言語学的に多様な10言語を対象とした実験では,静的埋め込みに含まれる知識について検討した。 出力空間を候補集合に制限する場合、静的埋め込みを用いた単純な近接マッチングの方がPLMよりも優れていることを示す。 例えば、静的な埋め込みは、トレーニングに0.3%のエネルギーを使用しながら、BERTよりも1.6%良いポイントを達成している。 彼らの優れた比較性能の1つの重要な要因は、静的埋め込みが大語彙で標準的に学習されることである。 対照的にBERTは、より洗練されたが高価な能力を利用して、より小さなサブワード語彙から意味のある表現を構成する。

Recent research investigates factual knowledge stored in large pretrained language models (PLMs). Instead of structural knowledge base (KB) queries, masked sentences such as "Paris is the capital of [MASK]" are used as probes. The good performance on this analysis task has been interpreted as PLMs becoming potential repositories of factual knowledge. In experiments across ten linguistically diverse languages, we study knowledge contained in static embeddings. We show that, when restricting the output space to a candidate set, simple nearest neighbor matching using static embeddings performs better than PLMs. E.g., static embeddings perform 1.6% points better than BERT while just using 0.3% of energy for training. One important factor in their good comparative performance is that static embeddings are standardly learned for a large vocabulary. In contrast, BERT exploits its more sophisticated, but expensive ability to compose meaningful representations from a much smaller subword vocabulary.
翻訳日:2021-04-16 15:06:18 公開日:2021-04-14
# 科学論文が出版物として受け入れられる理由

What Makes a Scientific Paper be Accepted for Publication? ( http://arxiv.org/abs/2104.07112v1 )

ライセンス: Link先を確認
Panagiotis Fytas, Georgios Rizos, Lucia Specia(参考訳) ピアレビューは1600年代からアカデミアの不可欠な要素であったが、透明性と一貫性の欠如に対する批判を繰り返し受けてきた。 我々は、機械学習と説明可能なAIにおける最近の研究が、与えられたピアレビュープロセスからの意思決定に対する洞察を可能にするツールを提供していると仮定する。 まず、オープンなピアレビューデータセット上での科学論文の出版に影響を及ぼす言語的特徴の形で、グローバルな説明を抽出することから始める。 第2に,このような大域的な説明は因果解釈を正当化するものではないため,自然言語における共起効果の検出方法を提供し,仮説に基づく因果的説明をレキシコンの形で生成する。 提案する言語学的説明手法は,ICLR提出の事例データセットにおいて,以下のことを示唆している。 (a) 組織委員会は,主にレビュアーの推薦, (b) 出版の受理を推奨するレビュアーの主な特徴は,独創性,明快性,物質である。

Despite peer-reviewing being an essential component of academia since the 1600s, it has repeatedly received criticisms for lack of transparency and consistency. We posit that recent work in machine learning and explainable AI provide tools that enable insights into the decisions from a given peer review process. We start by extracting global explanations in the form of linguistic features that affect the acceptance of a scientific paper for publication on an open peer-review dataset. Second, since such global explanations do not justify causal interpretations, we provide a methodology for detecting confounding effects in natural language in order to generate causal explanations, under assumptions, in the form of lexicons. Our proposed linguistic explanation methodology indicates the following on a case dataset of ICLR submissions: a) the organising committee follows, for the most part, the recommendations of reviewers, and, b) the paper's main characteristics that led to reviewers recommending acceptance for publication are originality, clarity and substance.
翻訳日:2021-04-16 15:06:06 公開日:2021-04-14
# コントラストマルチビュー符号化によるリモートセンシングシーン表現の自己教師あり学習

Self-Supervised Learning of Remote Sensing Scene Representations Using Contrastive Multiview Coding ( http://arxiv.org/abs/2104.07070v1 )

ライセンス: Link先を確認
Vladan Stojni\'c (1), Vladimir Risojevi\'c (1) ((1) Faculty of Electrical Engineering, University of Banja Luka, Bosnia and Herzegovina)(参考訳) 近年,教師なし表現学習の候補として自己教師あり学習が登場している。 視覚領域では、その応用は主に自然シーンの画像の文脈で研究されている。 しかし、リモートセンシングや医療など、大量のラベル付きデータを取得するのが難しい分野において、その適用性は特に興味深い。 本研究では,リモートセンシング画像分類における自己教師あり学習の適用性について広範囲に分析する。 自己教師付き事前学習に使用する画像の数と領域がダウンストリームタスクの性能に及ぼす影響を解析した。 リモートセンシング画像分類の下流課題において,リモートセンシング画像の自己教師付き事前学習は,自然シーン画像の教師付き事前学習よりも優れた結果が得られることを示す。 さらに, 自己教師付き事前学習をマルチスペクトル画像に容易に拡張し, 下流タスクにおいてより優れた結果が得られることを示す。

In recent years self-supervised learning has emerged as a promising candidate for unsupervised representation learning. In the visual domain its applications are mostly studied in the context of images of natural scenes. However, its applicability is especially interesting in specific areas, like remote sensing and medicine, where it is hard to obtain huge amounts of labeled data. In this work, we conduct an extensive analysis of the applicability of self-supervised learning in remote sensing image classification. We analyze the influence of the number and domain of images used for self-supervised pre-training on the performance on downstream tasks. We show that, for the downstream task of remote sensing image classification, using self-supervised pre-training on remote sensing images can give better results than using supervised pre-training on images of natural scenes. Besides, we also show that self-supervised pre-training can be easily extended to multispectral images producing even better results on our downstream tasks.
翻訳日:2021-04-16 14:58:41 公開日:2021-04-14
# StEP:マルチモーダル画像合成のためのスタイルベースエンコーダ事前学習

StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis ( http://arxiv.org/abs/2104.07098v1 )

ライセンス: Link先を確認
Moustafa Meshry, Yixuan Ren, Larry S Davis, Abhinav Shrivastava(参考訳) マルチモーダル画像画像変換(I2I)のための新しい手法を提案する。 入力領域と出力領域の間の一対一の関係に取り組むために、前者は複雑な訓練目的を用いて、出力領域の変動性をモデル化するジェネレータと共同で潜在埋め込みを学ぶ。 対照的に,画像合成タスクとは無関係に,画像のスタイル変動を直接モデル化する。 具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元スタイル潜在空間への画像の埋め込みを学習する。 学習された潜在空間は、従来のマルチモーダルI2I翻訳のアプローチよりもいくつかの利点をもたらす。 まず、ターゲットデータセットに依存せず、複数のドメインにわたってうまく一般化する。 第二に、より強力で表現力のある潜在空間を学習し、スタイルキャプチャーと転送の忠実さを向上させる。 提案手法はトレーニング目標を単純化し,トレーニングを高速化する。 さらに,多モーダルI2I翻訳の課題に対する異なる損失項の寄与に関する詳細な研究を行い,制約のない潜在空間からのサンプリングを可能にするために,VAEの簡単な代替案を提案する。 最後に,gan損失と再構成損失のみを含む単純なトレーニング目標を用いて,6つの難易度ベンチマークで最新の結果を得る。

We propose a novel approach for multi-modal Image-to-image (I2I) translation. To tackle the one-to-many relationship between input and output domains, previous works use complex training objectives to learn a latent embedding, jointly with the generator, that models the variability of the output domain. In contrast, we directly model the style variability of images, independent of the image synthesis task. Specifically, we pre-train a generic style encoder using a novel proxy task to learn an embedding of images, from arbitrary domains, into a low-dimensional style latent space. The learned latent space introduces several advantages over previous traditional approaches to multi-modal I2I translation. First, it is not dependent on the target dataset, and generalizes well across multiple domains. Second, it learns a more powerful and expressive latent space, which improves the fidelity of style capture and transfer. The proposed style pre-training also simplifies the training objective and speeds up the training significantly. Furthermore, we provide a detailed study of the contribution of different loss terms to the task of multi-modal I2I translation, and propose a simple alternative to VAEs to enable sampling from unconstrained latent spaces. Finally, we achieve state-of-the-art results on six challenging benchmarks with a simple training objective that includes only a GAN loss and a reconstruction loss.
翻訳日:2021-04-16 14:58:29 公開日:2021-04-14
# 映像理解のための適応的中間表現

Adaptive Intermediate Representations for Video Understanding ( http://arxiv.org/abs/2104.07135v1 )

ライセンス: Link先を確認
Juhana Kangaspunta, AJ Piergiovanni, Rico Jonschkowski, Michael Ryoo, Anelia Angelova(参考訳) ビデオ理解の一般的な戦略は、rgbフレームと光学フローから得られた特徴を融合させることで空間的および動きの情報を取り入れることである。 本研究では,映像理解のための中間表現として意味セグメンテーションを活用し,付加的なラベル付けを必要としない手法を提案する。 第2に,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習し,その表現を最終目標に適応させる汎用フレームワークを提案する。 ネットワーク内で中間表現を使用するにもかかわらず、推論中にRGBシーケンス以外の追加データを必要としないため、単一のネットワークで効率的な認識が可能となる。 最後に,最良損失重み付けを進化を通じて探索し,最適な学習構成を求める方法を提案する。 我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。

A common strategy to video understanding is to incorporate spatial and motion information by fusing features derived from RGB frames and optical flow. In this work, we introduce a new way to leverage semantic segmentation as an intermediate representation for video understanding and use it in a way that requires no additional labeling. Second, we propose a general framework which learns the intermediate representations (optical flow and semantic segmentation) jointly with the final video understanding task and allows the adaptation of the representations to the end goal. Despite the use of intermediate representations within the network, during inference, no additional data beyond RGB sequences is needed, enabling efficient recognition with a single network. Finally, we present a way to find the optimal learning configuration by searching the best loss weighting via evolution. We obtain more powerful visual representations for videos which lead to performance gains over the state-of-the-art.
翻訳日:2021-04-16 14:58:06 公開日:2021-04-14
# モバイルデバイス上でのフェデレーション学習に基づくアクティブ認証

Federated Learning-based Active Authentication on Mobile Devices ( http://arxiv.org/abs/2104.07158v1 )

ライセンス: Link先を確認
Poojan Oza, Vishal M. Patel(参考訳) モバイルデバイス上のユーザアクティブ認証は、デバイスセンサ情報に基づいて登録ユーザを正しく認識できるモデルを学ぶことを目的としている。 負のクラスデータがないため、しばしば一級分類問題としてモデル化される。 実際には、モバイルデバイスは中央サーバーに接続されている。例えば、すべてのアンドロイドベースのデバイスはインターネットを介してGoogleサーバーに接続されている。 このデバイスサーバ構造は、最近提案されたフェデレートラーニング(FL)とスプリットラーニング(SL)フレームワークによって、複数のデバイスに分散したデータ上で協調学習を行うことができる。 fl/slフレームワークを使用することで、デバイスに分散した複数のユーザデータに対してユーザ認証モデルをトレーニングすることで、負のデータ問題の欠如を軽減できる。 そこで本研究では,FL/SLの原則を応用した,新しいユーザアクティブ認証トレーニングをFAA(Federated Active Authentication)として提案する。 まず, 既存のFL/SL法は, 均質に分散するデータに依存するため, FAAに最適であることを示す。 FAAの場合はそうではない。 その後、FAAにおける異種/非IIDデータの分散に対処できる新しい手法を提案する。 具体的には、まず、各ユーザからのデータに対応する平均と分散などの特徴統計を抽出し、後に中央サーバに結合して多クラス分類器を学習し、各デバイスに送信する。 我々は3つのアクティブ認証ベンチマークデータセット(MOBIO, UMDAA-01, UMDAA-02)を用いて広範な実験を行い、この手法が最先端の1クラスベースFAA法よりも優れた性能を示し、従来のFL/SL法よりも優れた性能を示す。

User active authentication on mobile devices aims to learn a model that can correctly recognize the enrolled user based on device sensor information. Due to lack of negative class data, it is often modeled as a one-class classification problem. In practice, mobile devices are connected to a central server, e.g, all android-based devices are connected to Google server through internet. This device-server structure can be exploited by recently proposed Federated Learning (FL) and Split Learning (SL) frameworks to perform collaborative learning over the data distributed among multiple devices. Using FL/SL frameworks, we can alleviate the lack of negative data problem by training a user authentication model over multiple user data distributed across devices. To this end, we propose a novel user active authentication training, termed as Federated Active Authentication (FAA), that utilizes the principles of FL/SL. We first show that existing FL/SL methods are suboptimal for FAA as they rely on the data to be distributed homogeneously (i.e. IID) across devices, which is not true in the case of FAA. Subsequently, we propose a novel method that is able to tackle heterogeneous/non-II D distribution of data in FAA. Specifically, we first extract feature statistics such as mean and variance corresponding to data from each user which are later combined in a central server to learn a multi-class classifier and sent back to the individual devices. We conduct extensive experiments using three active authentication benchmark datasets (MOBIO, UMDAA-01, UMDAA-02) and show that such approach performs better than state-of-the-art one-class based FAA methods and is also able to outperform traditional FL/SL methods.
翻訳日:2021-04-16 14:57:51 公開日:2021-04-14
# 深層クラスタリングによるラベルなしデータからの連続学習

Continual Learning From Unlabeled Data Via Deep Clustering ( http://arxiv.org/abs/2104.07164v1 )

ライセンス: Link先を確認
Jiangpeng He and Fengqing Zhu(参考訳) 有望な将来の学習戦略である継続学習は、新しいタスクが到着するたびにモデルをスクラッチから再トレーニングするのではなく、少ない計算とメモリリソースを使ってインクリメンタルに新しいタスクを学習することを目的としている。 しかし、既存のアプローチは、新しいタスクからのすべてのデータが注釈付けされていると仮定して、監督された方法で設計されている。 本研究では,クラスタ割り当てから得られた擬似ラベルを用いて,教師なしモードで連続学習を実現するための新しいフレームワークを提案する。 学習段階ごとに学習にクラスラベルが与えられていないことを仮定し,学習段階ごとに画像分類タスクに焦点をあてる。 図示目的では,k-平均クラスタリング,知識蒸留損失,および模範集合をベースラインソリューションとして適用し,挑戦的CIFAR-100とイメージネット(ILSVRC)データセットに対する教師ありアプローチと比較しても,競争力のある結果が得られる。 また,最近開発された教師付き連続学習手法を取り入れることで,ベースラインソリューションの性能をさらに改善できることを実証し,教師付き学習と教師なし連続学習のギャップを最小限に抑えるためのフレームワークの可能性を示した。

Continual learning, a promising future learning strategy, aims to learn new tasks incrementally using less computation and memory resources instead of retraining the model from scratch whenever new task arrives. However, existing approaches are designed in supervised fashion assuming all data from new tasks have been annotated, which are not practical for many real-life applications. In this work, we introduce a new framework to make continual learning feasible in unsupervised mode by using pseudo label obtained from cluster assignments to update model. We focus on image classification task under class-incremental setting and assume no class label is provided for training in each incremental learning step. For illustration purpose, we apply k-means clustering, knowledge distillation loss and exemplar set as our baseline solution, which achieves competitive results even compared with supervised approaches on both challenging CIFAR-100 and ImageNet (ILSVRC) datasets. We also demonstrate that the performance of our baseline solution can be further improved by incorporating recently developed supervised continual learning techniques, showing great potential for our framework to minimize the gap between supervised and unsupervised continual learning.
翻訳日:2021-04-16 14:57:23 公開日:2021-04-14
# 音声感情認識のための教師なし低ランク表現

Unsupervised low-rank representations for speech emotion recognition ( http://arxiv.org/abs/2104.07072v1 )

ライセンス: Link先を確認
Georgios Paraskevopoulos, Efthymios Tzinis, Nikolaos Ellinas, Theodoros Giannakopoulos and Alexandros Potamianos(参考訳) 音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。 低レベルディスクリプタとアグリゲーション(IS10)をベースとした2つの特徴セットと,その融合に加えてRQAの再現ダイナミクスをモデル化する1つの特徴セットが使用される。 異なる分類法を用いて2つのデータベース上で学習した表現に対する音声感情認識(SER)結果を報告する。 低次元表現の分類は、様々な設定で性能改善をもたらす。 これは、次元の縮小はサーの次元の呪いと戦う効果的な方法であることを示している。 2次元の特徴の可視化は、縮小された特徴集合の識別能力に関する洞察を与える。

We examine the use of linear and non-linear dimensionality reduction algorithms for extracting low-rank feature representations for speech emotion recognition. Two feature sets are used, one based on low-level descriptors and their aggregations (IS10) and one modeling recurrence dynamics of speech (RQA), as well as their fusion. We report speech emotion recognition (SER) results for learned representations on two databases using different classification methods. Classification with low-dimensional representations yields performance improvement in a variety of settings. This indicates that dimensionality reduction is an effective way to combat the curse of dimensionality for SER. Visualization of features in two dimensions provides insight into discriminatory abilities of reduced feature sets.
翻訳日:2021-04-16 14:52:57 公開日:2021-04-14
# 変化する環境におけるいつ、誰がコラボレートするか:協調的動的バンドソリューション

When and Whom to Collaborate with in a Changing Environment: A Collaborative Dynamic Bandit Solution ( http://arxiv.org/abs/2104.07150v1 )

ライセンス: Link先を確認
Chuanhao Li, Qingyun Wu, Hongning Wang(参考訳) コラボレーティブバンディット学習(collaborative bandit learning)とは、オンラインインタラクティブなレコメンデーションにおいてサンプル効率を向上させるために協調フィルタリング技術を利用するバンディットアルゴリズムである。 しかし、既存のすべての協調的帯域学習ソリューションは、環境について定常的な仮定を課している。 残念なことに、この仮定はユーザーの関心や依存関係が絶え間なく変化するため、実際にはほとんど成立しない。 本研究では,環境変化に対応するための協調的動的バンドイットソリューションを開発する。 ユーザの好みと依存関係の関係の両方を確率的プロセスとして明示的にモデル化します。 個々のユーザの好みは、前にdirichletプロセスとグローバルに共有されたコンテキストバンディットモデルの混合によってモデル化される。 ユーザ間のコラボレーションは,グローバルバンディットモデルに対するベイズ推定を通じて達成される。 各ユーザのモデル選択とアーム選択は、Thompsonサンプリングを通じて行われ、エクスプロイトと探索のバランスをとる。 我々の解は、そのような困難な環境でも標準の$\tilde o(\sqrt{t})$ sublinear regretを維持することが証明されている。 また,合成データと実世界データの両方に対する広範な実験評価により,変化環境のモデル化の必要性と,最先端のオンライン学習ソリューションに対するアルゴリズムの実用的優位性が確認された。

Collaborative bandit learning, i.e., bandit algorithms that utilize collaborative filtering techniques to improve sample efficiency in online interactive recommendation, has attracted much research attention as it enjoys the best of both worlds. However, all existing collaborative bandit learning solutions impose a stationary assumption about the environment, i.e., both user preferences and the dependency among users are assumed static over time. Unfortunately, this assumption hardly holds in practice due to users' ever-changing interests and dependence relations, which inevitably costs a recommender system sub-optimal performance in practice. In this work, we develop a collaborative dynamic bandit solution to handle a changing environment for recommendation. We explicitly model the underlying changes in both user preferences and their dependency relation as a stochastic process. Individual user's preference is modeled by a mixture of globally shared contextual bandit models with a Dirichlet Process prior. Collaboration among users is thus achieved via Bayesian inference over the global bandit models. Model selection and arm selection for each user are done via Thompson sampling to balance exploitation and exploration. Our solution is proved to maintain a standard $\tilde O(\sqrt{T})$ sublinear regret even in such a challenging environment. And extensive empirical evaluations on both synthetic and real-world datasets further confirmed the necessity of modeling a changing environment and our algorithm's practical advantages against several state-of-the-art online learning solutions.
翻訳日:2021-04-16 14:52:47 公開日:2021-04-14
# Cayley変換を用いた直交型畳み込み層

Orthogonalizing Convolutional Layers with the Cayley Transform ( http://arxiv.org/abs/2104.07167v1 )

ライセンス: Link先を確認
Asher Trockman, J. Zico Kolter(参考訳) 最近の研究は、活性化の安定性の維持、勾配ノルムの保存、低リプシッツ定数の強制による対向ロバスト性の向上など、ディープネットワークの重み層の直交性を強化するいくつかの利点を強調している。 完全連結層を直交する多くの方法が存在するが、畳み込み層は本質的によりヒューリスティックであり、しばしばペナルティ法や畳み込みの限られたクラスに焦点を当てている。 本研究では,直交に制約された畳み込み層を直接パラメータ化するための代替手法を提案し,評価する。 具体的には、フーリエ領域のスキュー対称畳み込みにケイリー変換を適用し、ケイリー変換で必要とされる逆畳み込みを効率的に計算できるようにする。 我々は,従来のリプシッツ拘束層と直交畳み込み層との比較を行い,大きな畳み込みに対しても高い直交性を維持することを示す。 認証された敵のロバスト性の問題に適用すると、この層を組み込んだネットワークは、以前の研究よりも大規模なアーキテクチャにスケールしながら、$$$\ell_2$-normの敵に対する認証された防御のために既存の決定論的手法より優れていることを示す。 コードはhttps://github.com/l ocuslab/orthogonal-c onvolutionsで入手できる。

Recent work has highlighted several advantages of enforcing orthogonality in the weight layers of deep networks, such as maintaining the stability of activations, preserving gradient norms, and enhancing adversarial robustness by enforcing low Lipschitz constants. Although numerous methods exist for enforcing the orthogonality of fully-connected layers, those for convolutional layers are more heuristic in nature, often focusing on penalty methods or limited classes of convolutions. In this work, we propose and evaluate an alternative approach to directly parameterize convolutional layers that are constrained to be orthogonal. Specifically, we propose to apply the Cayley transform to a skew-symmetric convolution in the Fourier domain, so that the inverse convolution needed by the Cayley transform can be computed efficiently. We compare our method to previous Lipschitz-constraine d and orthogonal convolutional layers and show that it indeed preserves orthogonality to a high degree even for large convolutions. Applied to the problem of certified adversarial robustness, we show that networks incorporating the layer outperform existing deterministic methods for certified defense against $\ell_2$-norm-bounde d adversaries, while scaling to larger architectures than previously investigated. Code is available at https://github.com/l ocuslab/orthogonal-c onvolutions.
翻訳日:2021-04-16 14:52:13 公開日:2021-04-14
# RIS支援通信のためのチャネル推定とハイブリッドアーキテクチャ

Channel Estimation and Hybrid Architectures for RIS-Assisted Communications ( http://arxiv.org/abs/2104.07115v1 )

ライセンス: Link先を確認
Jiguang He and Nhan Thanh Nguyen and Rafaela Schroeder and Visa Tapio and Joonas Kokkoniemi and Markku Juntti(参考訳) 再構成可能なインテリジェントサーフェス(ris)は、次期第6世代(6g)無線通信システムの潜在的な技術と考えられている。 1つまたは複数のRISをデプロイすることで得られる様々な利点は、スペクトルとエネルギー効率の向上、接続性の向上、通信範囲の拡大、トランシーバーの複雑さの低減、さらにはローカライズ精度の向上である。 しかしながら、その潜在能力を解き明かすためには、物理層(PHY)モデリングからRIS位相制御まで、RISに関する基礎を徹底的に解決する必要がある。 本稿では,RIS技術,すなわちPHYモデリング(物理を含む),チャネル推定,潜在的なRISアーキテクチャ,RIS位相制御(モデルベースとデータ駆動の両アプローチによる)に関するタイムリーな研究課題の概要と,最近の数値結果について述べる。 我々は、risによって実現されるインテリジェントなワイヤレス環境へのさらなる取り組みを期待する。

Reconfigurable intelligent surfaces (RISs) are considered as potential technologies for the upcoming sixth-generation (6G) wireless communication system. Various benefits brought by deploying one or multiple RISs include increased spectrum and energy efficiency, enhanced connectivity, extended communication coverage, reduced complexity at transceivers, and even improved localization accuracy. However, to unleash their full potential, fundamentals related to RISs, ranging from physical-layer (PHY) modelling to RIS phase control, need to be addressed thoroughly. In this paper, we provide an overview of some timely research problems related to the RIS technology, i.e., PHY modelling (including also physics), channel estimation, potential RIS architectures, and RIS phase control (via both model-based and data-driven approaches), along with recent numerical results. We envision that more efforts will be devoted towards intelligent wireless environments, enabled by RISs.
翻訳日:2021-04-16 14:51:28 公開日:2021-04-14
# SVS-net:光コヒーレンストモグラフィー画像における新しいセマンティックセグメンテーションネットワーク

SVS-net: A Novel Semantic Segmentation Network in Optical Coherence Tomography Angiography Images ( http://arxiv.org/abs/2104.07083v1 )

ライセンス: Link先を確認
Yih-Cherng Lee, Ling Yeung(参考訳) 光コヒーレンス断層撮影血管造影(OCTA)における血管分画の自動化は,網膜および全身疾患における網膜微小血管の定量的解析に重要である。 最近の改善にもかかわらず、アーティファクトはセグメンテーションに挑戦し続けている。 セグメンテーションを行う際にオクタ画像からスペックルノイズアーティファクトを除去することに着目した。 スペックルノイズはオクターブで一般的であり、特に大きな非灌流領域で顕著である。 網膜血管の適切な評価を妨げる可能性がある。 本研究では,異なる大きさの容器を検出するために,SVS-net(Supervision Vessel Segmentation Network)を提案する。 SVS-netは、容器の位置を記述し、ネットワーク学習プロセスの理解を容易にする新しい注目ベースのモジュールを含んでいる。 このモデルは効率的かつ説明可能であり、手動ラベリングの必要性を減らすために利用できる。 我々のSVS-netは、他のよく知られたモデルと比較して精度、リコール、F1スコア、Kappaスコアが向上した。

Automated vascular segmentation on optical coherence tomography angiography (OCTA) is important for the quantitative analyses of retinal microvasculature in neuroretinal and systemic diseases. Despite recent improvements, artifacts continue to pose challenges in segmentation. Our study focused on removing the speckle noise artifact from OCTA images when performing segmentation. Speckle noise is common in OCTA and is particularly prominent over large non-perfusion areas. It may interfere with the proper assessment of retinal vasculature. In this study, we proposed a novel Supervision Vessel Segmentation network (SVS-net) to detect vessels of different sizes. The SVS-net includes a new attention-based module to describe vessel positions and facilitate the understanding of the network learning process. The model is efficient and explainable and could be utilized to reduce the need for manual labeling. Our SVS-net had better performance in accuracy, recall, F1 score, and Kappa score when compared to other well recognized models.
翻訳日:2021-04-16 14:49:50 公開日:2021-04-14
# ディープニューラルネットワークにおける高速walsh-hadamard変換とスムースthresholdingに基づくバイナリ層

Fast Walsh-Hadamard Transform and Smooth-Thresholding Based Binary Layers in Deep Neural Networks ( http://arxiv.org/abs/2104.07085v1 )

ライセンス: Link先を確認
Hongyi Pan, Diaa Dabawi and Ahmet Enis Cetin(参考訳) 本稿では, 高速ウォルシュ・アダマール変換(WHT)とスムーズなスムーズスリーホールディングに基づく新しい層を提案し, ディープニューラルネットワークにおける1\times 1$畳み込み層を置き換える。 wht領域では、新しい滑らかなthresholding non-linearity(よく知られたソフトthresholding operatorの平滑化バージョン)を用いて変換領域係数を除算する。 また、基本的な2$\times$2 Hadamard変換から3$3$の分離可能な畳み込み層を実装する乗算自由作用素群も導入する。 これら2つのタイプのレイヤを使うことで、MobileNet-V2のボトルネックレイヤを置き換えることで、ネットワークのパラメータ数をわずかに削減できる。 例えば、最終3番目のボトルネック層を置き換えることで、パラメータの数を2.270mから947kに削減します。 これにより、CIFAR-10データセットの精度は95.21\%から92.88\%に低下する。 我々の手法はデータ処理の速度を大幅に改善する。 高速ウォルシュ・アダマール変換は計算複雑性が$O(m\log_2 m)$である。 その結果、計算効率は$1\times1$畳み込み層よりも向上した。 高速なWalsh-Hadamard層は、NVIDIA Jetson Nanoコンピュータボード上で、$\mathbb{R}^{10\times32\times1024 }$1\times1$畳み込み層よりも約2倍高速なテンソルを処理している。

In this paper, we propose a novel layer based on fast Walsh-Hadamard transform (WHT) and smooth-thresholding to replace $1\times 1$ convolution layers in deep neural networks. In the WHT domain, we denoise the transform domain coefficients using the new smooth-thresholding non-linearity, a smoothed version of the well-known soft-thresholding operator. We also introduce a family of multiplication-free operators from the basic 2$\times$2 Hadamard transform to implement $3\times 3$ depthwise separable convolution layers. Using these two types of layers, we replace the bottleneck layers in MobileNet-V2 to reduce the network's number of parameters with a slight loss in accuracy. For example, by replacing the final third bottleneck layers, we reduce the number of parameters from 2.270M to 947K. This reduces the accuracy from 95.21\% to 92.88\% on the CIFAR-10 dataset. Our approach significantly improves the speed of data processing. The fast Walsh-Hadamard transform has a computational complexity of $O(m\log_2 m)$. As a result, it is computationally more efficient than the $1\times1$ convolution layer. The fast Walsh-Hadamard layer processes a tensor in $\mathbb{R}^{10\times32\times32\t imes1024}$ about 2 times faster than $1\times1$ convolution layer on NVIDIA Jetson Nano computer board.
翻訳日:2021-04-16 14:49:34 公開日:2021-04-14
# アグリフード分野におけるデータ共有促進におけるクロスサイロフェデレート学習の役割

The Role of Cross-Silo Federated Learning in Facilitating Data Sharing in the Agri-Food Sector ( http://arxiv.org/abs/2104.07468v1 )

ライセンス: Link先を確認
Aiden Durrant, Milan Markovic, David Matthews, David May, Jessica Enright and Georgios Leontidis(参考訳) データ共有は、AI技術全般、特にアグリフード分野の採用に関して、依然として大きな障害となっている。 データはデータ所有者にとって貴重な商品であり、適切に使用すれば、競争上の優位性につながる操作やプロセスについての有用な洞察を提供することができる。 残念なことに、新しいAI技術は、よく機能するために大量のトレーニングデータを必要とすることが多い。 しかし、最近の機械学習は進歩している。 フェデレーション学習とプライバシ保護テクノロジは、さまざまなソースからのデータを使用してモデルをトレーニングするために必要なインフラストラクチャと基盤技術を提供することで、この問題に対するソリューションを提供することができる。 本稿では,分散データを用いたフェデレーション学習に基づく技術ソリューションを提案する。 サプライチェーン間でのデータ共有を容易にするクロスサイロマシンラーニングモデルを開発するために、交換や共有は行なわないが、所有者が保持するデータ)。 我々は、大豆収量予測による生産最適化の改善にデータ共有の提案を集中させ、そのような手法が他の問題設定を補助できる潜在的なユースケースを提供する。 私たちの手法は、個々のデータソースでトレーニングされた各モデルよりも優れているだけでなく、データ交換の代替手段を通じてアグリフードセクターのデータ共有を可能にし、同時に、新たな機械学習技術を採用して生産性を向上する効果も示しています。

Data sharing remains a major hindering factor when it comes to adopting emerging AI technologies in general, but particularly in the agri-food sector. Protectiveness of data is natural in this setting; data is a precious commodity for data owners, which if used properly can provide them with useful insights on operations and processes leading to a competitive advantage. Unfortunately, novel AI technologies often require large amounts of training data in order to perform well, something that in many scenarios is unrealistic. However, recent machine learning advances, e.g. federated learning and privacy-preserving technologies, can offer a solution to this issue via providing the infrastructure and underpinning technologies needed to use data from various sources to train models without ever sharing the raw data themselves. In this paper, we propose a technical solution based on federated learning that uses decentralized data, (i.e. data that are not exchanged or shared but remain with the owners) to develop a cross-silo machine learning model that facilitates data sharing across supply chains. We focus our data sharing proposition on improving production optimization through soybean yield prediction, and provide potential use-cases that such methods can assist in other problem settings. Our results demonstrate that our approach not only performs better than each of the models trained on an individual data source, but also that data sharing in the agri-food sector can be enabled via alternatives to data exchange, whilst also helping to adopt emerging machine learning technologies to boost productivity.
翻訳日:2021-04-16 14:46:34 公開日:2021-04-14
# 株式市場予測のための異なる機械学習回帰器の比較研究

A comparative study of Different Machine Learning Regressors For Stock Market Prediction ( http://arxiv.org/abs/2104.07469v1 )

ライセンス: Link先を確認
Nazish Ashfaq, Zubair Nawaz, Muhammad Ilyas(参考訳) 株式トレーディング戦略を成功させるためには、株価指数の行動過程を予測することが重要である。 株価の終値の効果的な予測は投資家の魅力を保証できる。 機械学習アルゴリズムは、過去のストックパターンのほぼ信頼できるクローズ価格の処理と予測を行うことができる。 本稿では,NASDAQ株市場を集中的に研究し,異なる分野に属する10社のポートフォリオを選択することを目的とした。 目標は、履歴データを用いて翌日の株式の公開価格を計算することである。 このタスクを達成するために、このデータに適用された9つの異なる機械学習回帰器を使用し、MSEとR2をパフォーマンス指標として評価した。

For the development of successful share trading strategies, forecasting the course of action of the stock market index is important. Effective prediction of closing stock prices could guarantee investors attractive benefits. Machine learning algorithms have the ability to process and forecast almost reliable closing prices for historical stock patterns. In this article, we intensively studied NASDAQ stock market and targeted to choose the portfolio of ten different companies belongs to different sectors. The objective is to compute opening price of next day stock using historical data. To fulfill this task nine different Machine Learning regressor applied on this data and evaluated using MSE and R2 as performance metric.
翻訳日:2021-04-16 14:46:10 公開日:2021-04-14
# 教師なしオーディオ復元のための深部事前設計について

On the Design of Deep Priors for Unsupervised Audio Restoration ( http://arxiv.org/abs/2104.07161v1 )

ライセンス: Link先を確認
Vivek Sivaraman Narayanaswamy, Jayaraman J. Thiagarajan, Andreas Spanias(参考訳) オーディオ復元問題を解決する教師なしのディープラーニング手法は、時間やスペクトル領域の定義に強い帰納バイアスを持つ、注意深く調整されたニューラルネットワークアーキテクチャに依存している。 この文脈では、スペクトル領域の音声信号を復元する高度な畳み込みネットワーク構築によって、最近の成功が数多く達成されている。 しかし、実際には、オーディオプライオリエントでは、コンボリューションカーネルの注意深いエンジニアリングが必要であり、不適切な修復タスクの解決に効果的でありながら、訓練も容易である。 そこで本稿では,既存の畳み込みアーキテクチャのネットワーク複雑性や収束挙動には影響しないが,復元性が著しく向上する新しいu-net ベース pre を提案する。 特に,u-netアーキテクチャにおける拡張スケジュールと密接な接続を念入りに設計し,強力なオーディオプリエントを取得することを推奨する。 提案手法は,標準ベンチマークの実証研究や,音声の復調,インペインティング,ソース分離など,さまざまな不正な復元作業を用いて,広く採用されているオーディオ先行アーキテクチャを一貫して上回っていることを示す。

Unsupervised deep learning methods for solving audio restoration problems extensively rely on carefully tailored neural architectures that carry strong inductive biases for defining priors in the time or spectral domain. In this context, lot of recent success has been achieved with sophisticated convolutional network constructions that recover audio signals in the spectral domain. However, in practice, audio priors require careful engineering of the convolutional kernels to be effective at solving ill-posed restoration tasks, while also being easy to train. To this end, in this paper, we propose a new U-Net based prior that does not impact either the network complexity or convergence behavior of existing convolutional architectures, yet leads to significantly improved restoration. In particular, we advocate the use of carefully designed dilation schedules and dense connections in the U-Net architecture to obtain powerful audio priors. Using empirical studies on standard benchmarks and a variety of ill-posed restoration tasks, such as audio denoising, in-painting and source separation, we demonstrate that our proposed approach consistently outperforms widely adopted audio prior architectures.
翻訳日:2021-04-16 14:45:44 公開日:2021-04-14
# (参考訳) ノイズラベルからのロバスト分類:胸部x線異常評価のための追加知識の統合

Robust Classification from Noisy Labels: Integrating Additional Knowledge for Chest Radiography Abnormality Assessment ( http://arxiv.org/abs/2104.05261v2 )

ライセンス: CC BY 4.0
Sebastian G\"undel, Arnaud A. A. Setio, Florin C. Ghesu, Sasa Grbic, Bogdan Georgescu, Andreas Maier, Dorin Comaniciu(参考訳) 胸部X線撮影は, 種々の心臓および肺の異常を診断するための日常臨床で実施される最も一般的な放射線検査である。 大量のデータを読み、報告し、単一の放射線科医に対して1日に100件以上の研究を行い、高い解釈精度を維持することが課題となる。 大規模な公開データセットの導入により、自動異常分類のための一連の新しいシステムが生まれた。 しかし、これらのデータセットのラベルは、自然言語処理された医療報告を用いて取得され、性能に影響を及ぼすような大量のラベルノイズが生じる。 本研究では,このようなサブ最適データからラベルノイズを処理する新しいトレーニング戦略を提案する。 4名の放射線技師によって再読まれた訓練データのサブセットで事前ラベルの確率を測定し,訓練中にラベルノイズに対するトレーニングモデルの堅牢性を高めるために使用した。 さらに,胸部x線撮影で観察された異常の高一致を活用し,この情報を用いてラベルノイズの影響をさらに低減する。 さらに、解剖学的知識は、肺と心臓のセグメンテーションを予測するためのシステムと空間的知識ラベルを訓練することで取り入れられる。 異なる処理技術を適用した各種スキャナから派生した複数のデータセットと画像を扱うため,新たな画像正規化手法を提案する。 86,876人の患者の胸部x線写真297,541点の広範な収集実験を行い,2つのデータセットから17点の異常に対して最先端のパフォーマンスレベルが得られた。 平均AUCスコアが0.880の全ての異常に対して、提案したトレーニング戦略は、パフォーマンススコアを大幅に改善するために使用できる。

Chest radiography is the most common radiographic examination performed in daily clinical practice for the detection of various heart and lung abnormalities. The large amount of data to be read and reported, with more than 100 studies per day for a single radiologist, poses a challenge in consistently maintaining high interpretation accuracy. The introduction of large-scale public datasets has led to a series of novel systems for automated abnormality classification. However, the labels of these datasets were obtained using natural language processed medical reports, yielding a large degree of label noise that can impact the performance. In this study, we propose novel training strategies that handle label noise from such suboptimal data. Prior label probabilities were measured on a subset of training data re-read by 4 board-certified radiologists and were used during training to increase the robustness of the training model to the label noise. Furthermore, we exploit the high comorbidity of abnormalities observed in chest radiography and incorporate this information to further reduce the impact of label noise. Additionally, anatomical knowledge is incorporated by training the system to predict lung and heart segmentation, as well as spatial knowledge labels. To deal with multiple datasets and images derived from various scanners that apply different post-processing techniques, we introduce a novel image normalization strategy. Experiments were performed on an extensive collection of 297,541 chest radiographs from 86,876 patients, leading to a state-of-the-art performance level for 17 abnormalities from 2 datasets. With an average AUC score of 0.880 across all abnormalities, our proposed training strategies can be used to significantly improve performance scores.
翻訳日:2021-04-16 09:16:39 公開日:2021-04-14
# 起源の族と選択の族--重度低リソース機械翻訳のための超並列レキシコン化反復事前学習

Family of Origin and Family of Choice: Massively Parallel Lexiconized Iterative Pretraining for Severely Low Resource Machine Translation ( http://arxiv.org/abs/2104.05848v2 )

ライセンス: Link先を確認
Zhong Zhou, Alex Waibel(参考訳) 我々は、大量のソース並列性を利用して、あらかじめ知られている閉じたテキストを極めて低いリソース言語に翻訳する。 私たちの貢献は4倍です。 まず、124のソース言語を経験的にランク付けし、低リソース言語に近づき、上位数を選択する。 我々は、言語ファミリー・オブ・オリジン(FAMO)の言語定義を、我々のメトリクス・オブ・チョイス(FAMC)を用いて、上位言語を実証的に定義する。 次に,低資源データ約1,000行(約3.5%)のトレーニングを行うために,逐次事前学習された多言語順序保存レキシコン化トランスフォーマ(ipml)を構築した。 英語をスペイン語から翻訳する仮定的な低資源言語として用いると、多言語ベースラインより+24.7 bleu増加、聖書データセットにおける非対称ベースラインより+10.2 bleu増加が得られる。 第3に、非常に低資源のマヤ語であるEast Pokomchiも使用しています。 最後に、名前付きエンティティを正確に翻訳するために、注文保存の語彙化コンポーネントを追加します。 我々は124のソース言語で2,939の聖書名を持つエンティティを巨大な辞書テーブルとして構築し、66以上のリソース言語をカバーしている。 ランダムにサンプリングされた1,093行の低リソースデータをトレーニングし、30.022行の聖書のスペイン語翻訳試験で30.3BLEUスコア、医療EMEAデータセットでポルトガル語翻訳の42.8BLEUスコアに達した。

We translate a closed text that is known in advance into a severely low resource language by leveraging massive source parallelism. Our contribution is four-fold. Firstly, we rank 124 source languages empirically to determine their closeness to the low resource language and select the top few. We call the linguistic definition of language family Family of Origin (FAMO), and we call the empirical definition of higher-ranked languages using our metrics Family of Choice (FAMC). Secondly, we build an Iteratively Pretrained Multilingual Order-preserving Lexiconized Transformer (IPML) to train on ~1,000 lines (~3.5%) of low resource data. Using English as a hypothetical low resource language to translate from Spanish, we obtain a +24.7 BLEU increase over a multilingual baseline, and a +10.2 BLEU increase over our asymmetric baseline in the Bible dataset. Thirdly, we also use a real severely low resource Mayan language, Eastern Pokomchi. Finally, we add an order-preserving lexiconized component to translate named entities accurately. We build a massive lexicon table for 2,939 Bible named entities in 124 source languages, and include many that occur once and covers more than 66 severely low resource languages. Training on randomly sampled 1,093 lines of low resource data, we reach a 30.3 BLEU score for Spanish-English translation testing on 30,022 lines of Bible, and a 42.8 BLEU score for Portuguese-English translation on the medical EMEA dataset.
翻訳日:2021-04-16 09:15:36 公開日:2021-04-14
# 完全分解階層型タッカー構造を用いたビデオ認識のための超小型RNNの実現に向けて

Towards Extremely Compact RNNs for Video Recognition with Fully Decomposed Hierarchical Tucker Structure ( http://arxiv.org/abs/2104.05758v2 )

ライセンス: Link先を確認
Miao Yin, Siyu Liao, Xiao-Yang Liu, Xiaodong Wang and Bo Yuan(参考訳) リカレントニューラルネットワーク(RNN)はシーケンス解析やモデリングに広く利用されている。 しかしながら、高次元データを処理する場合、RNNは通常、非常に大きなモデルサイズを必要とするため、一連のデプロイメント課題が発生する。 RNNモデルのサイズを減らすために様々な先行研究が提案されているが、資源制限環境でのRNNモデルの実行は依然として非常に難しい問題である。 本稿では,完全分解階層型タッカー(fdht)構造を持つ超コンパクトなrnnモデルを開発することを提案する。 HT分解は、他のテンソル分解法よりもはるかに高いストレージコスト削減を提供するだけでなく、コンパクトなRNNモデルの精度向上をもたらす。 一方、RNNの入力-隠蔽層のみを分解できる既存のテンソル分解法とは異なり、本提案手法により、RNNモデル全体の包括的圧縮を極めて高精度に行うことができる。 いくつかのビデオ認識データセットを用いた実験結果から,提案した完全分解階層型タッカーベースLSTM(FDHT-LSTM)は極めてコンパクトで高効率であることがわかった。 我々の知る限りでは、FDHT-LSTMは、異なるデータセット上で数千のパラメータ(3,132~8,808)しか持たずに、常に非常に高い精度を達成する。 TT-LSTMやTR-LSTM、BT-LSTMといった最先端の圧縮RNNモデルと比較して、FDHT-LSTMは、パラメータの次数(3,985xから10,711x)と精度の大幅な改善(0.6%から12.7%)の両方を同時に享受する。

Recurrent Neural Networks (RNNs) have been widely used in sequence analysis and modeling. However, when processing high-dimensional data, RNNs typically require very large model sizes, thereby bringing a series of deployment challenges. Although various prior works have been proposed to reduce the RNN model sizes, executing RNN models in resource-restricted environments is still a very challenging problem. In this paper, we propose to develop extremely compact RNN models with fully decomposed hierarchical Tucker (FDHT) structure. The HT decomposition does not only provide much higher storage cost reduction than the other tensor decomposition approaches but also brings better accuracy performance improvement for the compact RNN models. Meanwhile, unlike the existing tensor decomposition-based methods that can only decompose the input-to-hidden layer of RNNs, our proposed fully decomposition approach enables the comprehensive compression for the entire RNN models with maintaining very high accuracy. Our experimental results on several popular video recognition datasets show that our proposed fully decomposed hierarchical tucker-based LSTM (FDHT-LSTM) is extremely compact and highly efficient. To the best of our knowledge, FDHT-LSTM, for the first time, consistently achieves very high accuracy with only few thousand parameters (3,132 to 8,808) on different datasets. Compared with the state-of-the-art compressed RNN models, such as TT-LSTM, TR-LSTM and BT-LSTM, our FDHT-LSTM simultaneously enjoys both order-of-magnitude (3,985x to 10,711x) fewer parameters and significant accuracy improvement (0.6% to 12.7%).
翻訳日:2021-04-16 09:14:59 公開日:2021-04-14
# シェイクスピア時代劇の初演日時をモデル化するための多重回帰手法

Multiple regression techniques for modeling dates of first performances of Shakespeare-era plays ( http://arxiv.org/abs/2104.05929v2 )

ライセンス: Link先を確認
Pablo Moscato, Hugh Craig, Gabriel Egan, Mohammad Nazmul Haque, Kevin Huang, Julia Sloan, Jon Corrales de Oliveira(参考訳) シェイクスピアの時代の戯曲の最初の上演日は、通常、複数の間接的な外部ソース、あるいは劇の内容や様式のいくつかの側面を参照して推測しなければならない。 これらの日付を特定することは文学史やシェイクスピアなどの著作様式の発展に重要である。 本研究では,シェークスピア時代の戯曲(181年,1585年~1610年)のセットを取り上げ,標準参考作品から最高のゲーミング日をメタデータとして追加し,それらのサンプル中の個々の単語の確率を計算した。 80/20のトレーニング/テストスプリットでプレイの日時を予測するため,11の回帰手法を適用した。 私たちは一度にひとつのプレーを削除し、確率と重み付けを備えた最高の日付メタデータを使用して、日付と確率の相互作用のモデルを構築しました。 我々は,少数の変数を用いてモデルを伝達し,解釈可能なモデルと次元の縮小をもたらす,メメティックアルゴリズムに基づく連続的フラクション回帰(CFR)を導入した。 100インディペンデントランにおけるcfrモデルで最も一般的に発生する20単語の詳細な分析は、言語的および様式的用語の傾向を説明するのに役立つ。 単語のサブセットによる分析は、シェイクスピア時代の劇のジャンルと署名語の興味深い相関関係を明らかにした。

The date of the first performance of a play of Shakespeare's time must usually be guessed with reference to multiple indirect external sources, or to some aspect of the content or style of the play. Identifying these dates is important to literary history and to accounts of developing authorial styles, such as Shakespeare's. In this study, we took a set of Shakespeare-era plays (181 plays from the period 1585--1610), added the best-guess dates for them from a standard reference work as metadata, and calculated a set of probabilities of individual words in these samples. We applied 11 regression methods to predict the dates of the plays at an 80/20 training/test split. We withdrew one play at a time, used the best-guess date metadata with the probabilities and weightings to infer its date, and thus built a model of date-probabilities interaction. We introduced a memetic algorithm-based Continued Fraction Regression (CFR) which delivered models using a small number of variables, leading to an interpretable model and reduced dimensionality. An in-depth analysis of the most commonly occurring 20 words in the CFR models in 100 independent runs helps explain the trends in linguistic and stylistic terms. The analysis with the subset of words revealed an interesting correlation of signature words with the Shakespeare-era play's genre.
翻訳日:2021-04-16 09:14:03 公開日:2021-04-14
# (参考訳) ABEM:オンラインソーシャルネットワークにおけるマイニングインフルエンサーのための適応エージェントベースの進化的アプローチ [全文訳有]

ABEM: An Adaptive Agent-based Evolutionary Approach for Mining Influencers in Online Social Networks ( http://arxiv.org/abs/2104.06563v1 )

ライセンス: CC BY 4.0
Weihua Li, Yuxuan Hu, Shiqing Wu, Quan Bai, Edmund Lai(参考訳) オンラインソーシャルネットワークにおける影響力の最大化の鍵となるステップは、インフルエンサーとして知られる少数のユーザーの識別であり、他のユーザーに素早く広く影響力を広めることができる。 これらのネットワークのトポロジカル構造の進化は、これらのインフルエンサーの特定と同定を困難にしている。 本稿では,静的ネットワークと動的ネットワークの両方の文脈でこの問題に対処するための適応エージェントベースの進化的アプローチを提案する。 このアプローチは、ネットワークが進化するにつれて、ソリューションに適応できることが示されている。 分散フレームワークのため、大規模ネットワークにも適用可能である。 本手法の評価は合成ネットワークと実世界のデータセットの両方を用いて行う。 実験の結果, 提案手法は, 影響最大化の観点から, 最先端の播種アルゴリズムよりも優れていることがわかった。

A key step in influence maximization in online social networks is the identification of a small number of users, known as influencers, who are able to spread influence quickly and widely to other users. The evolving nature of the topological structure of these networks makes it difficult to locate and identify these influencers. In this paper, we propose an adaptive agent-based evolutionary approach to address this problem in the context of both static and dynamic networks. This approach is shown to be able to adapt the solution as the network evolves. It is also applicable to large-scale networks due to its distributed framework. Evaluation of our approach is performed by using both synthetic networks and real-world datasets. Experimental results demonstrate that the proposed approach outperforms state-of-the-art seeding algorithms in terms of maximizing influence.
翻訳日:2021-04-16 00:32:31 公開日:2021-04-14
# (参考訳) voronoi basic zone octonion framework による任意の粒界の5自由度特性補間

Five Degree-of-Freedom Property Interpolation of Arbitrary Grain Boundaries via Voronoi Fundamental Zone Octonion Framework ( http://arxiv.org/abs/2104.06575v1 )

ライセンス: CC BY 4.0
Sterling G. Baird, Eric R. Homer, David T. Fullwood, Oliver K. Johnson(参考訳) 本稿では,粒界構造モデルとサロゲートに対するボロノイ基本帯オクトニオン補間フレームワークを提案する。 VFZOフレームワークは、多様体内の点として構成されるので、他の5つの自由度に基づく特性補間法よりも有利である。 つまり、直接計算されたユークリッド距離は、計算実行時間を大幅に削減した元のオクタニオン距離に近似する(ペアワイズ距離行列50000x50000の場合の7cpu分対153cpu日)。 この効率の向上により、より多くの入力データを使用することで補間誤差の低減が図られる。 粒界エネルギー補間法を4つの補間法(barycentric interpolation, gaussian process regression (gpr), 逆距離重み付け法, 近距離補間法) を用いてfeとniの非smoothバリデーション関数とシミュレーションバイクリスタルデータセットに適用し, 粒界エネルギー補間結果を示す。 これらは、50000のランダム入力gbと10000のランダム予測gbで評価される。 最適性能はGPRで達成され, 定数平均モデルのRMSEに対して根平均二乗誤差(RMSE)が83.0%削減された。 同様に、大きくノイズの多い分子スタティックスFeシミュレーションデータセットの補間も、以前の21.2%と比べて34.4%向上している。 小型で低ノイズのMS Niシミュレーションデータセットの補間は、元のオクトニオンメートル法(57.6%対56.4%)の補間結果と似ている。 ベクトル化,並列化,MATLAB補間関数(interp5DOF.m)および関連ルーチンは,他の結晶点群に適用可能なVFZOリポジトリ(github.com/sgbaird- 5dof/interp)で利用可能である。 VFZOフレームワークは、GB間の距離の計算、任意のGBのプロパティ値の推定、計算コストのかかる5DOF関数とシミュレーションのモデリングの利点を提供する。

We introduce the Voronoi fundamental zone octonion interpolation framework for grain boundary (GB) structure-property models and surrogates. The VFZO framework offers an advantage over other five degree-of-freedom based property interpolation methods because it is constructed as a point set in a manifold. This means that directly computed Euclidean distances approximate the original octonion distance with significantly reduced computation runtime (~7 CPU minutes vs. 153 CPU days for a 50000x50000 pairwise-distance matrix). This increased efficiency facilitates lower interpolation error through the use of significantly more input data. We demonstrate grain boundary energy interpolation results for a non-smooth validation function and simulated bi-crystal datasets for Fe and Ni using four interpolation methods: barycentric interpolation, Gaussian process regression (GPR), inverse-distance weighting, and nearest-neighbor interpolation. These are evaluated for 50000 random input GBs and 10 000 random prediction GBs. The best performance was achieved with GPR, which resulted in a reduction of the root mean square error (RMSE) by 83.0% relative to RMSE of a constant, average model. Likewise, interpolation on a large, noisy, molecular statics Fe simulation dataset improves performance by 34.4% compared to 21.2% in prior work. Interpolation on a small, low-noise MS Ni simulation dataset is similar to interpolation results for the original octonion metric (57.6% vs. 56.4%). A vectorized, parallelized, MATLAB interpolation function (interp5DOF.m) and related routines are available in our VFZO repository (github.com/sgbaird- 5dof/interp) which can be applied to other crystallographic point groups. The VFZO framework offers advantages for computing distances between GBs, estimating property values for arbitrary GBs, and modeling surrogates of computationally expensive 5DOF functions and simulations.
翻訳日:2021-04-16 00:11:19 公開日:2021-04-14
# (参考訳) zero-resource multi-dialectal arabic natural language understanding [全文訳有]

Zero-Resource Multi-Dialectal Arabic Natural Language Understanding ( http://arxiv.org/abs/2104.06591v1 )

ライセンス: CC BY 4.0
Muhammad Khalifa and Hesham Hassan and Aly Fahmy(参考訳) ダウンストリームタスクで事前学習された言語モデル(plm)を微調整するには、適切な量のアノテートデータが必要である。 しかし、異なる言語品種のラベル付き例を得るにはコストがかかる。 本稿では,現代の標準アラビア(MSA)データにのみ PLM を微調整した場合の方言アラビア(DA)のゼロショット性能について検討する。 このような性能低下を補うために,ラベルのないDAデータを用いた自己学習を提案し,それを名前付きエンティティ認識(NER,Part-of-speech, POS)タグ,およびSRD(Sarcasm detection, SRD)のコンテキストに適用する。 以上の結果から, ゼロショットMSA-to-DA転送を10\% F$_1$ (NER), 2\%精度 (POSタグ付け), 4.5\% F$_1$ (SRD) に向上させることで, ラベル付きDAデータによる自己学習の有効性が示された。 アブレーション実験を行い, 自己学習に用いたラベルなしのda例から, 直接観察した性能向上結果を示す。 我々の研究は、比較的豊富なラベル付きMSAデータセットを活用する機会を開き、ゼロおよび低リソース方言のためのDAモデルを開発する。 また,3つのタスクすべてに対する最新のパフォーマンスについて報告し,研究コミュニティ向けの微調整モデルをオープンソース化した。

A reasonable amount of annotated data is required for fine-tuning pre-trained language models (PLM) on downstream tasks. However, obtaining labeled examples for different language varieties can be costly. In this paper, we investigate the zero-shot performance on Dialectal Arabic (DA) when fine-tuning a PLM on modern standard Arabic (MSA) data only -- identifying a significant performance drop when evaluating such models on DA. To remedy such performance drop, we propose self-training with unlabeled DA data and apply it in the context of named entity recognition (NER), part-of-speech (POS) tagging, and sarcasm detection (SRD) on several DA varieties. Our results demonstrate the effectiveness of self-training with unlabeled DA data: improving zero-shot MSA-to-DA transfer by as large as \texttildelow 10\% F$_1$ (NER), 2\% accuracy (POS tagging), and 4.5\% F$_1$ (SRD). We conduct an ablation experiment and show that the performance boost observed directly results from the unlabeled DA examples used for self-training. Our work opens up opportunities for leveraging the relatively abundant labeled MSA datasets to develop DA models for zero and low-resource dialects. We also report new state-of-the-art performance on all three tasks and open-source our fine-tuned models for the research community.
翻訳日:2021-04-16 00:10:02 公開日:2021-04-14
# (参考訳) 質問の仕方を学ぶ:ソフトプロンプトの混合によるLMのクエリ [全文訳有]

Learning How to Ask: Querying LMs with Mixtures of Soft Prompts ( http://arxiv.org/abs/2104.06599v1 )

ライセンス: CC BY 4.0
Guanghui Qin, Jason Eisner(参考訳) 自然言語のプロンプトは、最近、事前訓練された言語モデルをコークスして他のAIタスクを実行するために使われ、例えば、埋め込んだブランクパラダイム(Petroni et al., 2019)や数ショットの外挿パラダイム(Brown et al., 2020)を使用する。 例えば、言語モデルはトレーニングコーパスから事実的な知識を保持しており、センテンシブプロンプトで「空白に埋もれ」と要求することで抽出することができる。 しかし、このプロンプトはどこから来るのか? グラデーション降下による学習プロンプト(以前の作業から得られた微調整プロンプトか、ランダム初期化から始めるか)のアイデアを探求する。 我々のプロンプトは「ソフトワード」すなわち、必ずしも言語モデルからの単語型埋め込みではない連続ベクトルから成り立っている。 さらに、各タスクに対して、プロンプトの混合を最適化し、最も効果的なプロンプトを学習し、それらをアンサンブルする方法を学習する。 複数の英語の LM やタスクに対して,従来の手法をはるかに上回り,言語モデルにおける暗黙の事実知識が以前過小評価されていたことを示す。 ランダム初期化はインフォームド初期化と同程度に優れている。

Natural-language prompts have recently been used to coax pretrained language models into performing other AI tasks, using a fill-in-the-blank paradigm (Petroni et al., 2019) or a few-shot extrapolation paradigm (Brown et al., 2020). For example, language models retain factual knowledge from their training corpora that can be extracted by asking them to "fill in the blank" in a sentential prompt. However, where does this prompt come from? We explore the idea of learning prompts by gradient descent -- either fine-tuning prompts taken from previous work, or starting from random initialization. Our prompts consist of "soft words," i.e., continuous vectors that are not necessarily word type embeddings from the language model. Furthermore, for each task, we optimize a mixture of prompts, learning which prompts are most effective and how to ensemble them. Across multiple English LMs and tasks, our approach hugely outperforms previous methods, showing that the implicit factual knowledge in language models was previously underestimated. Moreover, this knowledge is cheap to elicit: random initialization is nearly as good as informed initialization.
翻訳日:2021-04-15 22:48:48 公開日:2021-04-14
# (参考訳) donsker-varadhan表現による深部データ密度推定 [全文訳有]

Deep Data Density Estimation through Donsker-Varadhan Representation ( http://arxiv.org/abs/2104.06612v1 )

ライセンス: CC BY 4.0
Seonho Park, Panos M. Pardalos(参考訳) データ密度の推定は、ディープラーニングの難しい問題のひとつだ。 本稿では,深層ニューラルネットワークとkl分岐におけるdonsker-varadhan変分下限を用いて,簡易かつ効果的なデータ密度推定法を提案する。 データと均一分布のKL分散に関するDonsker-Varadhan表現に付随する最適批判関数がデータ密度を推定可能であることを示す。 また,深層ニューラルネットワークに基づくモデリングとその確率的学習について述べる。 提案手法の実験結果と応用の可能性は, 従来の手法と競合し, 様々な用途に適用できる可能性が高いことを示している。

Estimating the data density is one of the challenging problems in deep learning. In this paper, we present a simple yet effective method for estimating the data density using a deep neural network and the Donsker-Varadhan variational lower bound on the KL divergence. We show that the optimal critic function associated with the Donsker-Varadhan representation on the KL divergence between the data and the uniform distribution can estimate the data density. We also present the deep neural network-based modeling and its stochastic learning. The experimental results and possible applications of the proposed method demonstrate that it is competitive with the previous methods and has a lot of possibilities in applied to various applications.
翻訳日:2021-04-15 22:32:06 公開日:2021-04-14
# (参考訳) 解釈可能なサブゴールによる好奇心と説明可能な強化学習への新しいアプローチ [全文訳有]

A Novel Approach to Curiosity and Explainable Reinforcement Learning via Interpretable Sub-Goals ( http://arxiv.org/abs/2104.06630v1 )

ライセンス: CC BY 4.0
Connor van Rossum, Candice Feinberg, Adam Abu Shumays, Kyle Baxter, Benedek Bartha(参考訳) 強化学習における2つの重要な課題は、(a)疎外報酬を伴う環境におけるエージェント学習の改善と(b)エージェント行動の説明可能性である。 これらの課題に対処するために、興味深いサブゴールに焦点を当てたエージェントについて説明する。 確率的環境遷移にロバストな環境遷移モデルとして,gan(generative adversarial network)を用いた新たな好奇心評価手法を提案する。 さらに,ナビゲーションのガイドにはサブゴール生成ネットワークを用いる。 エージェントの動作の説明性は、複雑なタスクを手作業で設計する必要のない一連の解釈可能なサブゴールに分解することで向上する。 本手法は,他の最先端手法よりも確率的遷移を含む手続き的生成課題を,エージェントが解決できることを示す。

Two key challenges within Reinforcement Learning involve improving (a) agent learning within environments with sparse extrinsic rewards and (b) the explainability of agent actions. We describe a curious subgoal focused agent to address both these challenges. We use a novel method for curiosity produced from a Generative Adversarial Network (GAN) based model of environment transitions that is robust to stochastic environment transitions. Additionally, we use a subgoal generating network to guide navigation. The explainability of the agent's behavior is increased by decomposing complex tasks into a sequence of interpretable subgoals that do not require any manual design. We show that this method also enables the agent to solve challenging procedurally-generat ed tasks that contain stochastic transitions above other state-of-the-art methods.
翻訳日:2021-04-15 22:21:34 公開日:2021-04-14
# (参考訳) グラフニューラルネットワークのための生成因果説明 [全文訳有]

Generative Causal Explanations for Graph Neural Networks ( http://arxiv.org/abs/2104.06643v1 )

ライセンス: CC BY 4.0
Wanyu Lin and Hao Lan and Baochun Li(参考訳) 本稿では,各種グラフ学習タスクにおけるGNNの解釈可能な説明を提供するモデルに依存しないGemを提案する。 具体的には,gnnの意思決定を因果学習タスクとして説明する問題を定式化する。 そして、グラガー因果関係に基づく損失関数を備えた因果説明モデルを訓練する。 GNNの既存の説明とは異なり、Gemは因果的な観点からグラフ構造化データについてGNNを説明する。 gnnの内部構造やグラフ学習タスクの事前知識に関する要件がないため、より一般化された機能を備えている。 さらに、一度トレーニングされたGemは、ターゲットのGNNを非常に高速に説明するために使用することができる。 理論的解析により,最近のいくつかの説明者が,特徴属性帰属法の統一的枠組みに陥っていることが示された。 合成データと実世界のデータセットに関する実験結果は、gemが説明精度を最大30\%$で向上させ、その最先端の代替品と比較して説明プロセスを最大110\times$で高速化することを示している。

This paper presents Gem, a model-agnostic approach for providing interpretable explanations for any GNNs on various graph learning tasks. Specifically, we formulate the problem of providing explanations for the decisions of GNNs as a causal learning task. Then we train a causal explanation model equipped with a loss function based on Granger causality. Different from existing explainers for GNNs, Gem explains GNNs on graph-structured data from a causal perspective. It has better generalization ability as it has no requirements on the internal structure of the GNNs or prior knowledge on the graph learning tasks. In addition, Gem, once trained, can be used to explain the target GNN very quickly. Our theoretical analysis shows that several recent explainers fall into a unified framework of additive feature attribution methods. Experimental results on synthetic and real-world datasets show that Gem achieves a relative increase of the explanation accuracy by up to $30\%$ and speeds up the explanation process by up to $110\times$ as compared to its state-of-the-art alternatives.
翻訳日:2021-04-15 22:11:10 公開日:2021-04-14
# (参考訳) 並列アテンションを用いた真相記述と接地を共同学習する [全文訳有]

Jointly Learning Truth-Conditional Denotations and Groundings using Parallel Attention ( http://arxiv.org/abs/2104.06645v1 )

ライセンス: CC BY 4.0
Leon Bergen, Dzmitry Bahdanau, Timothy J. O'Donnell(参考訳) 本稿では,真理条件のセマンティクスを用いて,単語の表記と基礎を共同で学習するモデルを提案する。 我々のモデルはMaoらのニューロシンボリックアプローチに基づいている。 (2019) CLEVRデータセット(Johnson et al., 2017)で新たな並列アテンション機構を用いて物体のグラウンド学習を行った。 このモデルは、視覚的質問応答、学習、質問応答を伴う物体の検出および接地を唯一の訓練信号として、芸術性能の状態を達成する。 また、トレーニングセットの質問に対する回答を調整するだけで、柔軟な非標準的グラウンドディングを学習できることを示す。

We present a model that jointly learns the denotations of words together with their groundings using a truth-conditional semantics. Our model builds on the neurosymbolic approach of Mao et al. (2019), learning to ground objects in the CLEVR dataset (Johnson et al., 2017) using a novel parallel attention mechanism. The model achieves state of the art performance on visual question answering, learning to detect and ground objects with question performance as the only training signal. We also show that the model is able to learn flexible non-canonical groundings just by adjusting answers to questions in the training set.
翻訳日:2021-04-15 22:07:00 公開日:2021-04-14
# (参考訳) 計算等角予測集合に対するルートフィンディング手法 [全文訳有]

Root-finding Approaches for Computing Conformal Prediction Set ( http://arxiv.org/abs/2104.06648v1 )

ライセンス: CC BY 4.0
Eugene Ndiaye and Ichiro Takeuchi(参考訳) 共形予測は、応答と特徴の同じ分布と交換可能な観測に基づいて、特徴ベクトルの観測できない応答に対する信頼領域を構成する。 それは、その分布について追加の仮定なしに、いかなる名目レベルでも保証される。 しかし、ターゲット応答の全ての置換候補に対して、修正手続きが必要である。 回帰設定では、これは無限数のモデル適合に対応する。 反応の線型関数として記述できる比較的単純な推定器とは別に、そのような集合の効率的な計算は困難であり、依然として開問題とみなされている。 共形予測集合 \emph{often} は、古典的なルート探索ソフトウェアによって効率的に境界を近似できる区間である。 提案手法は,これまで使用されてきた戦略の多くの制約を克服し,これまで実現不可能であった計算を実現する。 その複雑さとその欠点について考察し,数値実験によりその効率を評価する。

Conformal prediction constructs a confidence region for an unobserved response of a feature vector based on previous identically distributed and exchangeable observations of responses and features. It has a coverage guarantee at any nominal level without additional assumptions on their distribution. However, it requires a refitting procedure for all replacement candidates of the target response. In regression settings, this corresponds to an infinite number of model fit. Apart from relatively simple estimators that can be written as pieces of linear function of the response, efficiently computing such sets is difficult and is still considered as an open problem. We exploit the fact that, \emph{often}, conformal prediction sets are intervals whose boundaries can be efficiently approximated by classical root-finding software. We investigate how this approach can overcome many limitations of formerly used strategies and achieves calculations that have been unattainable so far. We discuss its complexity as well as its drawbacks and evaluate its efficiency through numerical experiments.
翻訳日:2021-04-15 21:52:27 公開日:2021-04-14
# (参考訳) 協調型マルチエージェント強化学習のための分解ソフトアクタークリティカル法 [全文訳有]

Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2104.06655v1 )

ライセンス: CC BY 4.0
Yuan Pu, Shaochen Wang, Rui Yang, Xin Yao, Bin Li(参考訳) 深層強化学習法は,協調型マルチエージェント課題の多くにおいて優れた性能を示している。 2つの主要な研究方向は、マルチエージェント値関数分解とマルチエージェントポリシー勾配である。 本稿では,マルチエージェント価値関数分解とソフトポリシー反復フレームワークのアイデアを効果的に組み込んだ,分解q値ネットワークアーキテクチャ,分散確率的ポリシ,反事実的利益関数(オプション)などの新技術と既存技術を組み合わせた,分解型マルチエージェント・ソフトアクタ-クリティック(msac)手法を提案する。 理論的には、msacは効率的なオフポリシー学習をサポートし、部分的には離散的および連続的なアクションスペースでクレジット割り当て問題に対処する。 StarCraft IIマイクロマネジメント協調型マルチエージェントベンチマークを用いて,mSACの変動に対する性能を実験的に検討し,異なる成分の影響を解析した。 実験結果から,mSACはポリシーベースアプローチのCOMAを著しく上回り,漸近的パーフォマンス指標の観点から,ほとんどのタスクにおいてSOTA値ベースアプローチのQmixと競合する結果が得られた。 さらに、mSACは2c_vs_64zgやMMM2のような大きなアクション空間のタスクでかなり良い結果を得る。

Deep reinforcement learning methods have shown great performance on many challenging cooperative multi-agent tasks. Two main promising research directions are multi-agent value function decomposition and multi-agent policy gradients. In this paper, we propose a new decomposed multi-agent soft actor-critic (mSAC) method, which incorporates the idea of the multi-agent value function decomposition and soft policy iteration framework effectively and is a combination of novel and existing techniques, including decomposed Q value network architecture, decentralized probabilistic policy, and counterfactual advantage function (optional). Theoretically, mSAC supports efficient off-policy learning and addresses credit assignment problem partially in both discrete and continuous action spaces. Tested on StarCraft II micromanagement cooperative multiagent benchmark, we empirically investigate the performance of mSAC against its variants and analyze the effects of the different components. Experimental results demonstrate that mSAC significantly outperforms policy-based approach COMA, and achieves competitive results with SOTA value-based approach Qmix on most tasks in terms of asymptotic perfomance metric. In addition, mSAC achieves pretty good results on large action space tasks, such as 2c_vs_64zg and MMM2.
翻訳日:2021-04-15 21:37:47 公開日:2021-04-14
# (参考訳) nareor: 物語の再注文問題 [全文訳有]

NAREOR: The Narrative Reordering Problem ( http://arxiv.org/abs/2104.06669v1 )

ライセンス: CC BY 4.0
Varun Gangal, Steven Y. Feng, Eduard Hovy, Teruko Mitamura(参考訳) 本研究では,物語の書き直しを伴うナラティブ・リフォーダリング(NAREOR)の課題について,そのプロット,意味,時間的側面を保存しながら,異なる物語順序で書き直すことを提案する。 我々は,ROCStories内の1000以上のストーリーを非線形順序で書き直したデータセットNAREORCを提案し,その詳細な分析を行う。 さらに,タスク固有のトレーニング手法と評価指標を提案する。 GPT-2およびTransformerモデルを用いたNAREORC実験を行い,広範囲な評価を行った。 我々は、NAREORがさらなる探索の可能性を秘めていることを実証する。

We propose the task of Narrative Reordering(NAREOR) which involves rewriting a given story in a different narrative order while preserving its plot, semantic, and temporal aspects. We present a dataset, NAREORC, with over 1000 human rewritings of stories within ROCStories in non-linear orders, and conduct a detailed analysis of it. Further, we propose novel initial task-specific training methods and evaluation metrics. We perform experiments on NAREORC using GPT-2 and Transformer models and conduct an extensive human evaluation. We demonstrate that NAREOR is a challenging task with potential for further exploration.
翻訳日:2021-04-15 21:02:12 公開日:2021-04-14
# (参考訳) 音声翻訳のための大規模自己教師あり学習 [全文訳有]

Large-Scale Self- and Semi-Supervised Learning for Speech Translation ( http://arxiv.org/abs/2104.06678v1 )

ライセンス: CC BY 4.0
Changhan Wang, Anne Wu, Juan Pino, Alexei Baevski, Michael Auli, Alexis Conneau(参考訳) 本稿では,大量のラベルなし音声とテキストデータを異なる補完的方法で効果的に活用することにより,音声翻訳(st)を改善する。 大規模なLibri-Light音声コーパスとCommonCrawlを用いた言語モデリングを用いて,事前学習と自己学習の両方について検討する。 我々の実験は、wav2vec 2.0事前学習と言語モデルによる1回の自己学習と復号を組み合わせた簡単なレシピにより、CoVoST 2言語対を平均2.6 BLEUで比較して改善した。 既存の作業と異なり、我々のアプローチはSTデータ以外の監督を生かしていない。 コードとモデルは公開される予定だ。

In this paper, we improve speech translation (ST) through effectively leveraging large quantities of unlabeled speech and text data in different and complementary ways. We explore both pretraining and self-training by using the large Libri-Light speech audio corpus and language modeling with CommonCrawl. Our experiments improve over the previous state of the art by 2.6 BLEU on average on all four considered CoVoST 2 language pairs via a simple recipe of combining wav2vec 2.0 pretraining, a single iteration of self-training and decoding with a language model. Different to existing work, our approach does not leverage any other supervision than ST data. Code and models will be publicly released.
翻訳日:2021-04-15 20:45:46 公開日:2021-04-14
# (参考訳) デュアルドメインネットワークを用いた合成開口レーダ画像の変化検出 [全文訳有]

Change Detection in Synthetic Aperture Radar Images Using a Dual-Domain Network ( http://arxiv.org/abs/2104.06699v1 )

ライセンス: CC BY 4.0
Xiaofan Qu, Feng Gao, Junyu Dong, Qian Du, Heng-Chao Li(参考訳) 合成開口レーダ(SAR)画像からの変化検出は、非常に重要な課題である。 既存の手法は主に空間領域の特徴抽出に重点を置いており、周波数領域にはほとんど注目されていない。 さらに,パッチワイズ特徴解析では,限界領域におけるノイズ特性の導入も考えられる。 上記の2つの課題に取り組むため,我々はデュアルドメインネットワークを提案する。 具体的には、離散コサイン変換領域の特徴を考慮に入れ、変形したDCT係数を周波数領域分岐として提案モデルに統合する。 周波数領域と空間領域の両方の特徴表現を用いてスペックルノイズを軽減する。 さらに,各パッチの中央領域を強調するマルチリージョン畳み込みモジュールを提案する。 文脈情報と中心領域特徴を適応的にモデル化する。 3つのSARデータセットに対する実験結果から,提案モデルの有効性が示された。 私たちのコードはhttps://github.com/s ummitgao/sar_cd_ddne tで利用可能です。

Change detection from synthetic aperture radar (SAR) imagery is a critical yet challenging task. Existing methods mainly focus on feature extraction in spatial domain, and little attention has been paid to frequency domain. Furthermore, in patch-wise feature analysis, some noisy features in the marginal region may be introduced. To tackle the above two challenges, we propose a Dual-Domain Network. Specifically, we take features from the discrete cosine transform domain into consideration and the reshaped DCT coefficients are integrated into the proposed model as the frequency domain branch. Feature representations from both frequency and spatial domain are exploited to alleviate the speckle noise. In addition, we further propose a multi-region convolution module, which emphasizes the central region of each patch. The contextual information and central region features are modeled adaptively. The experimental results on three SAR datasets demonstrate the effectiveness of the proposed model. Our codes are available at https://github.com/s ummitgao/SAR_CD_DDNe t.
翻訳日:2021-04-15 20:33:18 公開日:2021-04-14
# (参考訳) DistGNN: 大規模グラフニューラルネットワークのためのスケーラブルな分散トレーニング [全文訳有]

DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks ( http://arxiv.org/abs/2104.06700v1 )

ライセンス: CC BY 4.0
Vasimuddin Md, Sanchit Misra, Guixiang Ma, Ramanarayan Mohanty, Evangelos Georganas, Alexander Heinecke, Dhiraj Kalamkar, Nesreen K. Ahmed, Sasikanth Avancha(参考訳) グラフニューラルネットワーク(GNN)による大規模グラフの構造を学ぶためのフルバッチトレーニングは、数百の計算ノードにスケールする必要がある重要な問題である。 単一の計算ノードにおける大きなメモリ容量と帯域幅の要求と、複数のノードにわたる高い通信量のため、これは難しい。 本稿では,効率的な共有メモリ実装によるcpuクラスタのフルバッチトレーニングのためによく知られたディープグラフライブラリ(dgl)を最適化するdistgnn,最小頂点カットグラフ分割アルゴリズムを用いた通信削減,遅延更新アルゴリズムのファミリを用いた通信回避を提案する。 Reddit, OGB-Products, OGB-Papers, Proteinsの4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップを示し、128のCPUソケットを使用して最大97倍のスピードアップを実現した。

Full-batch training on Graph Neural Networks (GNN) to learn the structure of large graphs is a critical problem that needs to scale to hundreds of compute nodes to be feasible. It is challenging due to large memory capacity and bandwidth requirements on a single compute node and high communication volumes across multiple nodes. In this paper, we present DistGNN that optimizes the well-known Deep Graph Library (DGL) for full-batch training on CPU clusters via an efficient shared memory implementation, communication reduction using a minimum vertex-cut graph partitioning algorithm and communication avoidance using a family of delayed-update algorithms. Our results on four common GNN benchmark datasets: Reddit, OGB-Products, OGB-Papers and Proteins, show up to 3.7x speed-up using a single CPU socket and up to 97x speed-up using 128 CPU sockets, respectively, over baseline DGL implementations running on a single CPU socket
翻訳日:2021-04-15 20:24:20 公開日:2021-04-14
# (参考訳) アンサンブル蒸留による文埋め込み [全文訳有]

Sentence Embeddings by Ensemble Distillation ( http://arxiv.org/abs/2104.06719v1 )

ライセンス: CC BY 4.0
Fredrik Carlsson Magnus Sahlgren(参考訳) 本稿では,Semantic Textual similarity (STS) のための新しい最先端技術 (SOTA) を提案する。 我々は,最近提案されたSTSの文埋め込み法を比較し,組み合わせて,従来の手法を改良した,新しい簡単なアンサンブル知識蒸留法を提案する。 実験により,複数のアンサンブル学生から平均埋め込み空間を学習するために訓練されたモデルが,強靭性のある他のモデルよりも優れた性能を示した。 蒸留法を従来の方法と組み合わせることで,SOTA非教師付きSTSを大幅に改善し,従来の方法の適切なハイパーパラメータチューニングにより,教師付きSOTAスコアを改善する。

This paper contributes a new State Of The Art (SOTA) for Semantic Textual Similarity (STS). We compare and combine a number of recently proposed sentence embedding methods for STS, and propose a novel and simple ensemble knowledge distillation scheme that improves on previous approaches. Our experiments demonstrate that a model trained to learn the average embedding space from multiple ensemble students outperforms all the other individual models with high robustness. Utilizing our distillation method in combination with previous methods, we significantly improve on the SOTA unsupervised STS, and by proper hyperparameter tuning of previous methods we improve the supervised SOTA scores.
翻訳日:2021-04-15 20:03:13 公開日:2021-04-14
# (参考訳) 疑似オピニオンダイナミクスの自然言語マルチエージェントシミュレーション [全文訳有]

Natural-Language Multi-Agent Simulations of Argumentative Opinion Dynamics ( http://arxiv.org/abs/2104.06737v1 )

ライセンス: CC BY-SA 4.0
Gregor Betz(参考訳) 本稿では、自然言語エージェントに基づく議論モデル(ABMA)を開発する。 その人工的な熟考エージェント(ADA)は、AIや計算言語学で最近開発されたいわゆるニューラル言語モデルの助けを借りて構築されている。 ADAは最小主義の信念システムを備えており、会話に新しい貢献をし、提出することができる。 自然言語ABMAは、英語で集合的な議論をシミュレートすることを可能にする。 数学的表現(形式的モデルのように)ではなく、議論、理由、主張そのもので。 本稿では自然言語abmaを用いて,議論の形式的推論モデル(maes & flache 2013 singer et al)のロバスト性を検証する。 2019年] まず第一に、adasがパッシブである限り、確認バイアスと、正式なモデルの結果と一致するトリガー偏光を均等に更新する。 しかし、ADAが新しいコントリビューションを積極的に生成し始めると、保存の進化はエージェントの*著者として*によって支配される。 これは、新しい議論、理由、主張の作成が会話に重大な影響を与え、集合的議論の力学を理解する上で重要なものであることを示唆している。 この論文は、将来の研究におけるモデルと課題のさらなる実りある応用を指摘することで締めくくっている。

This paper develops a natural-language agent-based model of argumentation (ABMA). Its artificial deliberative agents (ADAs) are constructed with the help of so-called neural language models recently developed in AI and computational linguistics. ADAs are equipped with a minimalist belief system and may generate and submit novel contributions to a conversation. The natural-language ABMA allows us to simulate collective deliberation in English, i.e. with arguments, reasons, and claims themselves -- rather than with their mathematical representations (as in formal models). This paper uses the natural-language ABMA to test the robustness of formal reason-balancing models of argumentation [Maes & Flache 2013, Singer et al. 2019]: First of all, as long as ADAs remain passive, confirmation bias and homophily updating trigger polarization, which is consistent with results from formal models. However, once ADAs start to actively generate new contributions, the evolution of a conservation is dominated by properties of the agents *as authors*. This suggests that the creation of new arguments, reasons, and claims critically affects a conversation and is of pivotal importance for understanding the dynamics of collective deliberation. The paper closes by pointing out further fruitful applications of the model and challenges for future research.
翻訳日:2021-04-15 19:50:17 公開日:2021-04-14
# (参考訳) グラフ分類のための二次GCN [全文訳有]

Quadratic GCN for Graph Classification ( http://arxiv.org/abs/2104.06750v1 )

ライセンス: CC BY 4.0
Omer Nagar, Shoval Frydman, Ori Hochman and Yoram Louzoun(参考訳) グラフ畳み込みネットワーク(GCN)は、頂点をグラフで分類するために広く使われ、他の頂点分類法よりも優れていることが示されている。 GCNはグラフ分類タスク(GCT)に拡張されている。 GCTでは、エッジと頂点の数が異なるグラフは異なるクラスに属し、グラフクラスを予測しようとする試みがある。 GCNベースのGCTは主にプールとアテンションベースのモデルを使用している。 既存のGCT法の精度はまだ限られている。 本稿では,GCNに基づくGCTの精度を大幅に向上させるために,GCN,知識グラフからの手法,および新たな自己正規化活性化関数を組み合わせた新しい解を提案する。 本稿では, 二次層をもつ2次GCN(QGCN)について述べる。 そのような層はグラフ頂点数に依存しない固定次元の出力を生成する。 本手法を広範囲のグラフ分類問題に適用し,自己正規化アクティベーション関数を用いた場合,各グラフの外部入力の有無に関わらずテストされたすべてのグラフ分類タスクにおいて,qgcnがart法の状態を上回っていることを示す。 QGCNのコードは以下の通りである。

Graph Convolutional Networks (GCNs) have been extensively used to classify vertices in graphs and have been shown to outperform other vertex classification methods. GCNs have been extended to graph classification tasks (GCT). In GCT, graphs with different numbers of edges and vertices belong to different classes, and one attempts to predict the graph class. GCN based GCT have mostly used pooling and attention-based models. The accuracy of existing GCT methods is still limited. We here propose a novel solution combining GCN, methods from knowledge graphs, and a new self-regularized activation function to significantly improve the accuracy of the GCN based GCT. We present quadratic GCN (QGCN) - A GCN formalism with a quadratic layer. Such a layer produces an output with fixed dimensions, independent of the graph vertex number. We applied this method to a wide range of graph classification problems, and show that when using a self regularized activation function, QGCN outperforms the state of the art methods for all graph classification tasks tested with or without external input on each graph. The code for QGCN is available at: https://github.com/U nknown-Data/QGCN .
翻訳日:2021-04-15 19:31:38 公開日:2021-04-14
# (参考訳) マルチホップ推論は本当に説明できるのか? ベンチマーク推論の解釈可能性に向けて [全文訳有]

Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking Reasoning Interpretability ( http://arxiv.org/abs/2104.06751v1 )

ライセンス: CC0 1.0
Xin Lv, Yixin Cao, Lei Hou, Juanzi Li, Zhiyuan Liu, Yichi Zhang, Zelin Dai(参考訳) 近年、より解釈可能なリンク予測を得るために、マルチホップ推論が広く研究されている。 しかし、これらのモデルが与える多くの経路は実際には理にかなわないが、解釈可能性評価に関する研究はほとんど行われていない。 本稿では,マルチホップ推論モデルの解釈可能性を定量的に評価し,開発を進めるための統一的な枠組みを提案する。 具体的には、パスリコール、局所解釈可能性、評価のためのグローバル解釈可能性の3つの指標を定義し、ルールの解釈可能性スコアを用いてそれらを計算する近似戦略を設計する。 さらに,可能なすべてのルールを手動でアノテートし,BIMR(Multi-hop Reasoning)の解釈可能性を検出するベンチマークを確立する。 実験では、ベンチマークで9つのベースラインを実行します。 実験の結果,現行のマルチホップ推論モデルの解釈性は満足度が低く,ベンチマークによる上限値からは程遠いことがわかった。 さらに、ルールベースモデルは、パフォーマンスと解釈可能性の観点から、マルチホップ推論モデルよりも優れており、将来の研究の方向性、すなわち、ルール情報をマルチホップ推論モデルにうまく組み込む方法を検討する必要がある。 コードとデータセットはhttps://github.com/T HU-KEG/BIMRから取得できます。

Multi-hop reasoning has been widely studied in recent years to obtain more interpretable link prediction. However, we find in experiments that many paths given by these models are actually unreasonable, while little works have been done on interpretability evaluation for them. In this paper, we propose a unified framework to quantitatively evaluate the interpretability of multi-hop reasoning models so as to advance their development. In specific, we define three metrics including path recall, local interpretability, and global interpretability for evaluation, and design an approximate strategy to calculate them using the interpretability scores of rules. Furthermore, we manually annotate all possible rules and establish a Benchmark to detect the Interpretability of Multi-hop Reasoning (BIMR). In experiments, we run nine baselines on our benchmark. The experimental results show that the interpretability of current multi-hop reasoning models is less satisfactory and is still far from the upper bound given by our benchmark. Moreover, the rule-based models outperform the multi-hop reasoning models in terms of performance and interpretability, which points to a direction for future research, i.e., we should investigate how to better incorporate rule information into the multi-hop reasoning model. Our codes and datasets can be obtained from https://github.com/T HU-KEG/BIMR.
翻訳日:2021-04-15 19:20:30 公開日:2021-04-14
# (参考訳) VTGAN:視覚変換器を用いた半教師付き網膜画像合成と疾患予測 [全文訳有]

VTGAN: Semi-supervised Retinal Image Synthesis and Disease Prediction using Vision Transformers ( http://arxiv.org/abs/2104.06757v1 )

ライセンス: CC BY-SA 4.0
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, Stewart Lee Zuckerbrod, Kenton M. Sanders, Salah A. Baker(参考訳) Fluorescein Angiography (FA)では、血流中に外因性色素を注入し、網膜の血管構造を画像化する。 注射された染料は、吐き気、吐き気、アナフィラキシーショック、さらには死などの有害反応を引き起こすことがある。 対照的に、カラーファンドスイメージングは網膜の撮影に使用される非侵襲的手法であるが、その血管構造を捉えるのに十分な忠実さを持っていない。 光コヒーレンス・トモグラフィー・アンジオグラフィー(OCTA)は、網膜血管を捕捉する唯一の非侵襲的方法である。 しかし、OCTA装置は非常に高価であり、安定した画像撮影は網膜の小さな領域に限られている。 本稿では,眼底画像からFA画像を同時に合成し,網膜変性を予測できる新しい条件生成対向ネットワーク(GAN)を提案する。 提案するシステムは、非侵襲的な方法で網膜血管をイメージングする問題に対処するとともに、網膜異常の存在を予測できるという利点がある。 我々は、データの種類によって重み付けされた複数の損失を用いてGANを訓練するために、半教師付きアプローチを用いる。 提案手法は, 基礎-アンギオグラフィ合成のための最近の最先端生成ネットワークを超えている。 さらに,視覚トランスフォーマベースの判別器は,網膜疾患予測のための分布外データセットに非常によく対応している。

In Fluorescein Angiography (FA), an exogenous dye is injected in the bloodstream to image the vascular structure of the retina. The injected dye can cause adverse reactions such as nausea, vomiting, anaphylactic shock, and even death. In contrast, color fundus imaging is a non-invasive technique used for photographing the retina but does not have sufficient fidelity for capturing its vascular structure. The only non-invasive method for capturing retinal vasculature is optical coherence tomography-angiograp hy (OCTA). However, OCTA equipment is quite expensive, and stable imaging is limited to small areas on the retina. In this paper, we propose a novel conditional generative adversarial network (GAN) capable of simultaneously synthesizing FA images from fundus photographs while predicting retinal degeneration. The proposed system has the benefit of addressing the problem of imaging retinal vasculature in a non-invasive manner as well as predicting the existence of retinal abnormalities. We use a semi-supervised approach to train our GAN using multiple weighted losses on different modalities of data. Our experiments validate that the proposed architecture exceeds recent state-of-the-art generative networks for fundus-to-angiograph y synthesis. Moreover, our vision transformer-based discriminators generalize quite well on out-of-distribution data sets for retinal disease prediction.
翻訳日:2021-04-15 19:06:02 公開日:2021-04-14
# (参考訳) VOLDOR:log-logistic Dense Optical Flow Residualsによる視覚計測 [全文訳有]

VOLDOR: Visual Odometry from Log-logistic Dense Optical flow Residuals ( http://arxiv.org/abs/2104.06789v1 )

ライセンス: CC BY 4.0
Zhixiang Min, Yiding Yang, Enrique Dunn(参考訳) そこで本稿では,手作り特徴対応の代わりに,入力された外部推定光流場を考慮した高密度間接視覚計測手法を提案する。 我々は,この問題を確率モデルとして定義し,カメラ動作,画素深度,モーショントラック信頼度の共同推定のための一般化em法を開発した。 ガウス分布の観測誤差を仮定する従来の手法とは対照的に、我々は(経験的に検証された)適応対数分布モデルの下で、推論フレームワークを監督する。 さらに, ログロジクス残差モデルでは, 異なる現状の光学的フロー法によく対応し, 光学的フロー推定器の選択にモジュール性や非依存性を持たせることができる。 提案手法は,TUM RGB-DとKITTIオドメトリーのベンチマークで上位評価を得た。 当社のオープンソース実装は本質的にGPUフレンドリで、線形計算とストレージの成長のみに対応しています。

We propose a dense indirect visual odometry method taking as input externally estimated optical flow fields instead of hand-crafted feature correspondences. We define our problem as a probabilistic model and develop a generalized-EM formulation for the joint inference of camera motion, pixel depth, and motion-track confidence. Contrary to traditional methods assuming Gaussian-distributed observation errors, we supervise our inference framework under an (empirically validated) adaptive log-logistic distribution model. Moreover, the log-logistic residual model generalizes well to different state-of-the-art optical flow methods, making our approach modular and agnostic to the choice of optical flow estimators. Our method achieved top-ranking results on both TUM RGB-D and KITTI odometry benchmarks. Our open-sourced implementation is inherently GPU-friendly with only linear computational and storage growth.
翻訳日:2021-04-15 18:50:34 公開日:2021-04-14
# (参考訳) VOLDOR-SLAM: 機能ベースのメソッドや直接メソッドが十分ではない時間について [全文訳有]

VOLDOR-SLAM: For the Times When Feature-Based or Direct Methods Are Not Good Enough ( http://arxiv.org/abs/2104.06800v1 )

ライセンス: CC BY 4.0
Zhixiang Min, Enrique Dunn(参考訳) 本稿では,外部高密度光流を用いた高密度間接SLAMシステムを提案する。 我々は,最近の確率論的視覚計測モデルVOLDOR [Min et al]を拡張した。 CVPR'20] は,1) 単分子捕獲からのブートストラップ推定を頑健に行い,2) ステレオおよび/またはRGB-D入力画像のシームレスなサポートを行う。 我々のカスタマイズしたバックエンドは、中間幾何推定を漸進的なポーズグラフの接続性を管理する適応優先スキームと密に結合する。 我々は, 高密度光フロー手法の最近の進歩を利用して, 高精度でロバストなカメラポーズ推定を実現するとともに, グローバルに一貫性のある高密度環境マップを構築した。 我々のオープンソース実装(https://github.com/ htkseason/VOLDOR)は、1つのGTX1080Ti GPU上で約15FPSで動作する。

We present a dense-indirect SLAM system using external dense optical flows as input. We extend the recent probabilistic visual odometry model VOLDOR [Min et al. CVPR'20], by incorporating the use of geometric priors to 1) robustly bootstrap estimation from monocular capture, while 2) seamlessly supporting stereo and/or RGB-D input imagery. Our customized back-end tightly couples our intermediate geometric estimates with an adaptive priority scheme managing the connectivity of an incremental pose graph. We leverage recent advances in dense optical flow methods to achieve accurate and robust camera pose estimates, while constructing fine-grain globally-consistent dense environmental maps. Our open source implementation [https://github.com/h tkseason/VOLDOR] operates online at around 15 FPS on a single GTX1080Ti GPU.
翻訳日:2021-04-15 18:32:56 公開日:2021-04-14
# (参考訳) インテリジェント不確実性ハンドリングを用いた転送同期のための短期バス走行時間予測 [全文訳有]

Short-term bus travel time prediction for transfer synchronization with intelligent uncertainty handling ( http://arxiv.org/abs/2104.06819v1 )

ライセンス: CC BY 4.0
Niklas Christoffer Petersen, Anders Parslov, Filipe Rodrigues(参考訳) 本稿では,複数リンクバスの走行時間問題に適応し,拡張した不確実性推定のための2つの新しい手法を提案する。 この不確実性は、リカレントニューラルネットワークの一部として直接モデル化されるが、Deep Quantile Regression(DQR)とBayesian Recurrent Neural Networks(BRNN)の2つの基本的なアプローチを使用する。 どちらのモデルも未来への複数の時間ステップを予測するが、時間依存の不確実性推定は異なる。 本稿では,車両が現在位置から特定の下流停止地点や移動地点へ移動するのに必要な多リンク移動時間分布を実現するために,リンクレベル移動時間に対する質的推定値を集計するサンプリング手法を提案する。 ドメインにおける不確実性認識モデルの関連性を動機付けるために,バスドライバが接続サービスを保持して待機すべきかどうかを判断するエキスパートシステムや,接続を切断して遅延を低減するエキスパートシステムといったケーススタディとしてコネクション保証アプリケーションに焦点を当てる。 以上の結果から,DQRモデルは,未来への15分間の地平線(t+1)と,30~45分間の時間地平線(t+2,t+3)において,一定であるが,不確定区間の過小評価(1~4pp)において,全体の80%,90%,95%の予測区間において,総合的に最良であることがわかった。 しかし、BRNNモデルが特定のケースでDQRより優れていることも示している。 最後に, 簡易意思決定支援システムが, 不確実性を考慮した旅行時間モデルを利用して, 戦略的地点でのバス保持における移動時間の不確実性の違いを優先し, 接続保証アプリケーションの導入遅延を低減できることを示す。

This paper presents two novel approaches for uncertainty estimation adapted and extended for the multi-link bus travel time problem. The uncertainty is modeled directly as part of recurrent artificial neural networks, but using two fundamentally different approaches: one based on Deep Quantile Regression (DQR) and the other on Bayesian Recurrent Neural Networks (BRNN). Both models predict multiple time steps into the future, but handle the time-dependent uncertainty estimation differently. We present a sampling technique in order to aggregate quantile estimates for link level travel time to yield the multi-link travel time distribution needed for a vehicle to travel from its current position to a specific downstream stop point or transfer site. To motivate the relevance of uncertainty-aware models in the domain, we focus on the connection assurance application as a case study: An expert system to determine whether a bus driver should hold and wait for a connecting service, or break the connection and reduce its own delay. Our results show that the DQR-model performs overall best for the 80%, 90% and 95% prediction intervals, both for a 15 minute time horizon into the future (t + 1), but also for the 30 and 45 minutes time horizon (t + 2 and t + 3), with a constant, but very small underestimation of the uncertainty interval (1-4 pp.). However, we also show, that the BRNN model still can outperform the DQR for specific cases. Lastly, we demonstrate how a simple decision support system can take advantage of our uncertainty-aware travel time models to prioritize the difference in travel time uncertainty for bus holding at strategic points, thus reducing the introduced delay for the connection assurance application.
翻訳日:2021-04-15 18:16:53 公開日:2021-04-14
# (参考訳) 不足点と有用点を問う:グローバル知識を用いた明確化質問生成の改善 [全文訳有]

Ask what's missing and what's useful: Improving Clarification Question Generation using Global Knowledge ( http://arxiv.org/abs/2104.06828v1 )

ライセンス: CC BY 4.0
Bodhisattwa Prasad Majumder, Sudha Rao, Michel Galley, Julian McAuley(参考訳) 明確化問題、すなわち、与えられた文脈で有用な情報を特定する質問を生成する能力は、曖昧さを減らす上で重要である。 人間は、同じコンテキストを持つ以前の経験を使って、グローバルビューを形成し、与えられたコンテキストと比較し、何が欠けているか、そのコンテキストで何が役に立つかを確認する。 そこで本研究では,まずグローバルビューとローカルビューの差異から何が欠けているのかを識別し,何が役に立つのかを識別するためにモデルを訓練し,それに関する質問を生成するモデルを提案する。 我々のモデルは、自動測定と人間の両方で判断されるように、いくつかのベースラインを上回ります。

The ability to generate clarification questions i.e., questions that identify useful missing information in a given context, is important in reducing ambiguity. Humans use previous experience with similar contexts to form a global view and compare it to the given context to ascertain what is missing and what is useful in the context. Inspired by this, we propose a model for clarification question generation where we first identify what is missing by taking a difference between the global and the local view and then train a model to identify what is useful and generate a question about it. Our model outperforms several baselines as judged by both automatic metrics and humans.
翻訳日:2021-04-15 17:57:16 公開日:2021-04-14
# (参考訳) 不確実性対策:全体像 [全文訳有]

Uncertainty measures: The big picture ( http://arxiv.org/abs/2104.06839v1 )

ライセンス: CC BY-SA 4.0
Fabio Cuzzolin(参考訳) 確率論は不確かさの最も一般的な数学的理論とは程遠い。 多くの議論は、二階 ('knightian') の不確実性を記述することができないことを指摘している。 これに対し、多くの不確実性理論が提案され、その多くは古典的確率の一般化である。 ここで示すように、そのようなフレームワークは共通の論理を共有し、複雑なリンクを示し、異なるレベルの一般性によって特徴づけられるクラスタにまとめることができる。 我々の目標は不確実性理論における現在の風景を批判的に評価することである。

Probability theory is far from being the most general mathematical theory of uncertainty. A number of arguments point at its inability to describe second-order ('Knightian') uncertainty. In response, a wide array of theories of uncertainty have been proposed, many of them generalisations of classical probability. As we show here, such frameworks can be organised into clusters sharing a common rationale, exhibit complex links, and are characterised by different levels of generality. Our goal is a critical appraisal of the current landscape in uncertainty theory.
翻訳日:2021-04-15 17:40:49 公開日:2021-04-14
# (参考訳) 深層学習と決定木を用いた交通異常検出のための視覚ベースシステム [全文訳有]

A Vision-based System for Traffic Anomaly Detection using Deep Learning and Decision Trees ( http://arxiv.org/abs/2104.06856v1 )

ライセンス: CC BY 4.0
Armstrong Aboah, Maged Shoman, Vishal Mandal, Sayedomidreza Davami, Yaw Adu-Gyamfi, Anuj Sharma(参考訳) インテリジェントな交通監視システムは、交通事故などの異常をリアルタイムで検出できなければならない。 本稿では,交通カメラから異常を抽出し,異常事象の開始時刻と終了時刻を正確に推定するディープ・ラーニングを用いた意思決定型アプローチを提案する。 提案手法では,検出モデルの作成と異常検出と解析を行った。 YOLOv5は我々の検出モデルの基礎となった。 異常検出・分析ステップは、交通シーンの背景推定、道路マスク抽出、適応しきい値設定を伴う。 候補異常は決定木を通過して最終異常を検出し解析した。 提案手法では,f1 スコア 0.8571 と s4 スコア 0.5686 の検証結果を得た。

Any intelligent traffic monitoring system must be able to detect anomalies such as traffic accidents in real time. In this paper, we propose a Decision-Tree - enabled approach powered by Deep Learning for extracting anomalies from traffic cameras while accurately estimating the start and end time of the anomalous event. Our approach included creating a detection model, followed by anomaly detection and analysis. YOLOv5 served as the foundation for our detection model. The anomaly detection and analysis step entail traffic scene background estimation, road mask extraction, and adaptive thresholding. Candidate anomalies were passed through a decision tree to detect and analyze final anomalies. The proposed approach yielded an F1 score of 0.8571, and an S4 score of 0.5686, per the experimental validation.
翻訳日:2021-04-15 17:07:40 公開日:2021-04-14
# (参考訳) 健康のためのAIシステムの安全性、受容性、有効性を評価するための枠組み--最初の合成 [全文訳有]

Towards a framework for evaluating the safety, acceptability and efficacy of AI systems for health: an initial synthesis ( http://arxiv.org/abs/2104.06910v1 )

ライセンス: CC BY 4.0
Jessica Morley, Caroline Morton, Kassandra Karpathakis, Mariarosaria Taddeo, Luciano Floridi(参考訳) 医療のための人工知能(AI)によって提示されるポテンシャルは、長い間技術コミュニティによって認識されてきた。 最近では、このポテンシャルは政策立案者によって認識され、世界中で医療用AIの開発に、かなりの公的および私的な投資がなされている。 それにもかかわらず、限られた成功ストーリーを除いて、フロントラインヘルスケアへのAIシステムの現実の実装は限られている。 これには多くの理由があるが、主な貢献要因は、AIの安全性と影響と有効性を評価するための国際的に受け入れられた、または公式化された規制基準の欠如である。 これは広く認識されている問題であり、それを克服するために進行中の多くの研究と政策計画がある。 ここでの私たちの意図は、医療におけるaiシステムの安全性、受容性、有効性を評価するための最小限のフレームワークを確立することで、この問題解決の取り組みに貢献することです。 私たちは、1970年1月から2020年11月までに発行された、aiシステムのアウトプットパフォーマンス、有効性、実世界の利用に関するすべての関連文献を体系的に調査し、評価段階(理論段階)、探索段階、決定段階、および市場監視段階(監視)に従って主要なテーマを合成することで、スコプス、pubmed、google scholarを横断的に調査する。 その結果は、医療で使用するように設計されたAIシステムの十分な評価を通じて、AIシステム開発者、政策立案者、規制当局を導くためのフレームワークである。

The potential presented by Artificial Intelligence (AI) for healthcare has long been recognised by the technical community. More recently, this potential has been recognised by policymakers, resulting in considerable public and private investment in the development of AI for healthcare across the globe. Despite this, excepting limited success stories, real-world implementation of AI systems into front-line healthcare has been limited. There are numerous reasons for this, but a main contributory factor is the lack of internationally accepted, or formalised, regulatory standards to assess AI safety and impact and effectiveness. This is a well-recognised problem with numerous ongoing research and policy projects to overcome it. Our intention here is to contribute to this problem-solving effort by seeking to set out a minimally viable framework for evaluating the safety, acceptability and efficacy of AI systems for healthcare. We do this by conducting a systematic search across Scopus, PubMed and Google Scholar to identify all the relevant literature published between January 1970 and November 2020 related to the evaluation of: output performance; efficacy; and real-world use of AI systems, and synthesising the key themes according to the stages of evaluation: pre-clinical (theoretical phase); exploratory phase; definitive phase; and post-market surveillance phase (monitoring). The result is a framework to guide AI system developers, policymakers, and regulators through a sufficient evaluation of an AI system designed for use in healthcare.
翻訳日:2021-04-15 17:00:30 公開日:2021-04-14
# (参考訳) 双曲-双曲グラフ畳み込みネットワーク [全文訳有]

A Hyperbolic-to-Hyperb olic Graph Convolutional Network ( http://arxiv.org/abs/2104.06942v1 )

ライセンス: CC BY 4.0
Jindou Dai, Yuwei Wu, Zhi Gao, and Yunde Jia(参考訳) 双曲グラフ畳み込みネットワーク(GCN)は階層構造を持つグラフをモデル化する強力な表現能力を示す。 既存の双曲型 gcn は双曲多様体上のグラフ畳み込みを実現するために接空間に依存するが、これは接空間が多様体の局所近似であるから劣る。 本稿では,双曲多様体に直接作用する双曲型-双曲型グラフ畳み込みネットワーク(H2H-GCN)を提案する。 具体的には,双曲的特徴変換と双曲的近傍集合からなる多様体保存グラフ畳み込みを開発した。 双曲的特徴変換は双曲多様体上の線型変換として働く。 これは変換部分行列に直交の制約を課すことにより、変換されたノード表現が双曲多様体上にまだ存在することを保証する。 双曲近傍の集約はアインシュタイン中間点を介して各ノード表現を更新する。 H2H-GCNは接空間近似による歪みを回避し、大域的な双曲構造を維持する。 大規模な実験により,H2H-GCNはリンク予測,ノード分類,グラフ分類タスクを大幅に改善した。

Hyperbolic graph convolutional networks (GCNs) demonstrate powerful representation ability to model graphs with hierarchical structure. Existing hyperbolic GCNs resort to tangent spaces to realize graph convolution on hyperbolic manifolds, which is inferior because tangent space is only a local approximation of a manifold. In this paper, we propose a hyperbolic-to-hyperb olic graph convolutional network (H2H-GCN) that directly works on hyperbolic manifolds. Specifically, we developed a manifold-preserving graph convolution that consists of a hyperbolic feature transformation and a hyperbolic neighborhood aggregation. The hyperbolic feature transformation works as linear transformation on hyperbolic manifolds. It ensures the transformed node representations still lie on the hyperbolic manifold by imposing the orthogonal constraint on the transformation sub-matrix. The hyperbolic neighborhood aggregation updates each node representation via the Einstein midpoint. The H2H-GCN avoids the distortion caused by tangent space approximations and keeps the global hyperbolic structure. Extensive experiments show that the H2H-GCN achieves substantial improvements on the link prediction, node classification, and graph classification tasks.
翻訳日:2021-04-15 16:45:41 公開日:2021-04-14
# (参考訳) 誤情報検出のための簡易ベースラインのサプライズ性能 [全文訳有]

The Surprising Performance of Simple Baselines for Misinformation Detection ( http://arxiv.org/abs/2104.06952v1 )

ライセンス: CC BY 4.0
Kellin Pelrine, Jacob Danovitch, Reihaneh Rabbany(参考訳) ソーシャルメディアが日々の生活で顕著になるにつれて、情報的コンテンツを検出し、偽情報や未確認の噂の拡散を防ぐことがますます重要である。 多くの洗練されたモデルが文献で提案されているが、SVM、CNN、LSTMといった古いNLPベースラインと比較されることが多い。 本稿では, 最新のトランスフォーマティブ言語モデルの性能について検討し, 基本的な微調整により, これらのモデルが最近提案された最先端手法に匹敵する性能を持つことを示す。 我々は,新しい誤情報検出手法の作成と評価のためのベースラインとして,このフレームワークを提案する。 さらに,ベンチマークデータセットの包括的集合を調査し,潜在的データ漏洩と実験の注意深く設計することの必要性,変数の結合を考慮したデータセットの理解について論じる。 極端な事例として、日付に関する情報を含む最初の3桁のつぶやきIDのみに基づいて分類すると、偽ニュース検出に一般的に使用されるベンチマークデータセット --Twitter16で最先端のパフォーマンスが得られることを示す。 この問題を検出するシンプルなツールを提供し、将来のデータセットでそれを緩和するためのステップを提案する。

As social media becomes increasingly prominent in our day to day lives, it is increasingly important to detect informative content and prevent the spread of disinformation and unverified rumours. While many sophisticated and successful models have been proposed in the literature, they are often compared with older NLP baselines such as SVMs, CNNs, and LSTMs. In this paper, we examine the performance of a broad set of modern transformer-based language models and show that with basic fine-tuning, these models are competitive with and can even significantly outperform recently proposed state-of-the-art methods. We present our framework as a baseline for creating and evaluating new methods for misinformation detection. We further study a comprehensive set of benchmark datasets, and discuss potential data leakage and the need for careful design of the experiments and understanding of datasets to account for confounding variables. As an extreme case example, we show that classifying only based on the first three digits of tweet ids, which contain information on the date, gives state-of-the-art performance on a commonly used benchmark dataset for fake news detection --Twitter16. We provide a simple tool to detect this problem and suggest steps to mitigate it in future datasets.
翻訳日:2021-04-15 16:30:28 公開日:2021-04-14
# (参考訳) 接続不能を接続するための潜伏空間と画像空間の整列化 [全文訳有]

Aligning Latent and Image Spaces to Connect the Unconnectable ( http://arxiv.org/abs/2104.06954v1 )

ライセンス: CC BY 4.0
Ivan Skorokhodov, Grigorii Sotnikov, Mohamed Elhoseiny(参考訳) 本研究では,多様で複雑なコンテンツを含む無限高分解能画像を生成する手法を開発した。 これは、画像と潜在空間に同期的な補間を持つ完全同変発生器に基づいている。 潜時符号は、サンプリングされると座標格子上に位置決めされ、各画素は、近傍のスタイル符号の補間から計算される。 我々は、AdaIN機構をこのような設定で動作させ、逆の設定でジェネレータを訓練し、2つの潜伏ベクトルの間に位置する画像を生成する。 テスト時には、複雑で多様な無限の画像を生成し、2つの無関係なシーンを任意に大きなパノラマに繋げることができる。 これとは別に、高解像度の自然景観を示す新しいデータセットであるLHQを紹介します。 LHQ, LSUN Tower, LSUN Bridgeのアプローチを検証し, 生成した無限画像の品質と多様性に関して, ベースラインを少なくとも4倍上回った。 プロジェクトページはhttps://universome.g ithub.io/alisにある。

In this work, we develop a method to generate infinite high-resolution images with diverse and complex content. It is based on a perfectly equivariant generator with synchronous interpolations in the image and latent spaces. Latent codes, when sampled, are positioned on the coordinate grid, and each pixel is computed from an interpolation of the nearby style codes. We modify the AdaIN mechanism to work in such a setup and train the generator in an adversarial setting to produce images positioned between any two latent vectors. At test time, this allows for generating complex and diverse infinite images and connecting any two unrelated scenes into a single arbitrarily large panorama. Apart from that, we introduce LHQ: a new dataset of \lhqsize high-resolution nature landscapes. We test the approach on LHQ, LSUN Tower and LSUN Bridge and outperform the baselines by at least 4 times in terms of quality and diversity of the produced infinite images. The project page is located at https://universome.g ithub.io/alis.
翻訳日:2021-04-15 16:10:36 公開日:2021-04-14
# (参考訳) K-PLUG:Eコマースにおける自然言語理解・生成のための知識注入型事前学習言語モデル [全文訳有]

K-PLUG: Knowledge-injected Pre-trained Language Model for Natural Language Understanding and Generation in E-Commerce ( http://arxiv.org/abs/2104.06960v1 )

ライセンス: CC BY 4.0
Song Xu, Haoran Li, Peng Yuan, Yujia Wang, Youzheng Wu, Xiaodong He, Ying Liu, Bowen Zhou(参考訳) 既存の訓練済み言語モデル (PLM) は、幅広い自然言語処理(NLP)タスクに対する自己教師型学習の有効性を実証している。 しかし、その多くはドメイン固有の知識を明示的に認識していないため、eコマースシナリオのタスクなど、多くのドメインのダウンストリームタスクに不可欠である。 本稿では,自然言語理解と生成タスクの両方に変換可能なエンコーダ・デコーダ変換器に基づく,知識注入型事前学習型言語モデルK-PLUGを提案する。 ドメイン固有の知識を必要とするさまざまなeコマースシナリオにおいて、我々の手法を検証する。 具体的には、eコマースドメイン固有の知識ベース、製品エンティティの側面、製品エンティティのカテゴリ、製品エンティティのユニークな販売提案を含む、ドメイン固有の知識の学習を定式化する5つの知識認識自己教師付き事前学習目標を提案する。 k-plugは、製品知識ベースコンプリート、抽象的製品要約、マルチターン対話を含む一連のドメイン固有のnlpタスクにおいて、新たな最先端の成果を達成し、提案手法が言語理解と生成タスクの両方において、ドメイン固有の知識の多種多様なセットを効果的に学習できることを実証する。

Existing pre-trained language models (PLMs) have demonstrated the effectiveness of self-supervised learning for a broad range of natural language processing (NLP) tasks. However, most of them are not explicitly aware of domain-specific knowledge, which is essential for downstream tasks in many domains, such as tasks in e-commerce scenarios. In this paper, we propose K-PLUG, a knowledge-injected pre-trained language model based on the encoder-decoder transformer that can be transferred to both natural language understanding and generation tasks. We verify our method in a diverse range of e-commerce scenarios that require domain-specific knowledge. Specifically, we propose five knowledge-aware self-supervised pre-training objectives to formulate the learning of domain-specific knowledge, including e-commerce domain-specific knowledge-bases, aspects of product entities, categories of product entities, and unique selling propositions of product entities. K-PLUG achieves new state-of-the-art results on a suite of domain-specific NLP tasks, including product knowledge base completion, abstractive product summarization, and multi-turn dialogue, significantly outperforms baselines across the board, which demonstrates that the proposed method effectively learns a diverse set of domain-specific knowledge for both language understanding and generation tasks.
翻訳日:2021-04-15 15:48:07 公開日:2021-04-14
# (参考訳) エンティティ情報を用いた質問応答としてのイベント検出 [全文訳有]

Event Detection as Question Answering with Entity Information ( http://arxiv.org/abs/2104.06969v1 )

ライセンス: CC BY 4.0
Emanuela Boros, Jose G. Moreno, Antoine Doucet(参考訳) 本稿では,複数回答の可能性とエンティティのサポートを考慮した質問応答(QA)問題として,イベント検出(ED)の課題に対する最近かつ未検討のパラダイムを提案する。 イベントトリガーの抽出は、コンテキストから回答の範囲を識別するタスクに変換されると同時に、周囲のエンティティにもフォーカスされる。 アーキテクチャは、事前学習された微調整された言語モデルに基づいており、入力コンテキストは、異なるレベル、位置、型、そして最後に引数ロールでマークされたエンティティによって拡張される。 ACE~2005コーパスの実験は、提案されたパラダイムがEDタスクの実行可能なソリューションであることを示し、最先端のモデルよりも大幅に優れていることを示した。 さらに,本手法が未知のイベントタイプを抽出可能であることも証明した。

In this paper, we propose a recent and under-researched paradigm for the task of event detection (ED) by casting it as a question-answering (QA) problem with the possibility of multiple answers and the support of entities. The extraction of event triggers is, thus, transformed into the task of identifying answer spans from a context, while also focusing on the surrounding entities. The architecture is based on a pre-trained and fine-tuned language model, where the input context is augmented with entities marked at different levels, their positions, their types, and, finally, the argument roles. Experiments on the ACE~2005 corpus demonstrate that the proposed paradigm is a viable solution for the ED task and it significantly outperforms the state-of-the-art models. Moreover, we prove that our methods are also able to extract unseen event types.
翻訳日:2021-04-15 15:16:33 公開日:2021-04-14
# (参考訳) TSDAE:教師なし文埋め込み学習のためのトランスフォーマーに基づくシークエンシング自動エンコーダ [全文訳有]

TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning ( http://arxiv.org/abs/2104.06979v1 )

ライセンス: CC BY-SA 4.0
Kexin Wang, Nils Reimers, Iryna Gurevych(参考訳) 文埋め込みの学習には、しばしば大量のラベル付きデータが必要である。 しかし、ほとんどのタスクやドメインでは、ラベル付きデータはほとんど利用できず、作成は高価である。 本稿では,事前学習されたトランスフォーマと逐次デノージングオートエンコーダ(tsdae)に基づく,従来のアプローチを最大6.4ポイント上回る,最先端の非教師なし手法を提案する。 ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。 さらに, TSDAEは文の埋め込みを学習するための強力な事前学習手法であり, Masked Language Model などの他の手法よりも優れていることを示す。 従来の研究の重大な欠点は、狭い評価である: ほとんどの仕事は、ドメイン知識を必要としないセマンティックテキスト類似性(sts)の1つのタスクで主に評価される。 提案手法が他の領域やタスクに一般化されるかどうかは不明である。 このギャップを埋め、異種ドメインの4つの異なるデータセットに対するtsdaeや他の最近のアプローチを評価します。

Learning sentence embeddings often requires large amount of labeled data. However, for most tasks and domains, labeled data is seldom available and creating it is expensive. In this work, we present a new state-of-the-art unsupervised method based on pre-trained Transformers and Sequential Denoising Auto-Encoder (TSDAE) which outperforms previous approaches by up to 6.4 points. It can achieve up to 93.1% of the performance of in-domain supervised approaches. Further, we show that TSDAE is a strong pre-training method for learning sentence embeddings, significantly outperforming other approaches like Masked Language Model. A crucial shortcoming of previous studies is the narrow evaluation: Most work mainly evaluates on the single task of Semantic Textual Similarity (STS), which does not require any domain knowledge. It is unclear if these proposed methods generalize to other domains and tasks. We fill this gap and evaluate TSDAE and other recent approaches on four different datasets from heterogeneous domains.
翻訳日:2021-04-15 15:05:27 公開日:2021-04-14
# (参考訳) UPB at SemEval-2021 Task 1: 語彙複雑度予測のための深層学習と手作り特徴の組み合わせ [全文訳有]

UPB at SemEval-2021 Task 1: Combining Deep Learning and Hand-Crafted Features for Lexical Complexity Prediction ( http://arxiv.org/abs/2104.06983v1 )

ライセンス: CC BY 4.0
George-Eduard Zaharia, Dumitru-Clementin Cercel, Mihai Dascalu(参考訳) 読みは複雑なプロセスであり、コヒーレントな心的表現を作り出すためにテキストの適切な理解を必要とする。 しかし、理解の難しいセクションが、特定の言語スキルを考慮しながら読者にとって厄介な問題となるため、理解上の問題が生じる可能性がある。 このように、難しい構造を正確に同定し、評価することにより、これらのセクションを単純化するためのステップを実行できる。 本稿では,SemEval-2021 Task 1: Lexical Complexity Prediction competitionという,トランスフォーマーベース言語モデル,事前学習語埋め込み,グラフ畳み込みネットワーク,カプセルネットワークなど,高度なNLP技術を組み合わせたコンペティションについて述べる。 本モデルは両サブタスクに適用可能で,0.07未満のmae,単一単語識別の.73,0.08未満のmae,複数単語ターゲットの.79のperson相関を持つ。 第1のサブタスクと第2のサブタスクのコンペティションで得られたトップスコアより、それぞれ5.46%と6.5%低い結果でした。

Reading is a complex process which requires proper understanding of texts in order to create coherent mental representations. However, comprehension problems may arise due to hard-to-understand sections, which can prove troublesome for readers, while accounting for their specific language skills. As such, steps towards simplifying these sections can be performed, by accurately identifying and evaluating difficult structures. In this paper, we describe our approach for the SemEval-2021 Task 1: Lexical Complexity Prediction competition that consists of a mixture of advanced NLP techniques, namely Transformer-based language models, pre-trained word embeddings, Graph Convolutional Networks, Capsule Networks, as well as a series of hand-crafted textual complexity features. Our models are applicable on both subtasks and achieve good performance results, with a MAE below 0.07 and a Person correlation of .73 for single word identification, as well as a MAE below 0.08 and a Person correlation of .79 for multiple word targets. Our results are just 5.46% and 6.5% lower than the top scores obtained in the competition on the first and the second subtasks, respectively.
翻訳日:2021-04-15 14:44:07 公開日:2021-04-14
# (参考訳) 時間制約は、画像検査中の形状に対する注意を再び刺激するか? [全文訳有]

Do Time Constraints Re-Prioritize Attention to Shapes During Visual Photo Inspection? ( http://arxiv.org/abs/2104.06984v1 )

ライセンス: CC BY 4.0
Yiyuan Yang, Kenneth Li, Fernanda Eliott, Maithilee Kunda(参考訳) 世界の人々の視覚的体験は、例えばカテゴリラベルや属性ラベルなどによって、自然言語境界に沿って彫り上げ、調査することが容易である。 しかし、例えば樹木の特定の形など、ある人が何に出席しているかを詳細に知ることはより困難である。 物の形状に注意を払えば、視覚的なカテゴリ学習のような明確に定義されたタスクに目を向けるだけでなく、同じような名前のついたオブジェクトを区別したり、物の形を詩的に記述したり、雲や星の形状を見つけるといった創造的な視覚的な追求にも役立ちます。 本研究では,画像の重要部分を時間的制約で追跡することにより,視覚的写真検査における人物の注意を形状に反映する新たなデータ収集手法を提案する。 187枚の写真からクラウドソーシングによって収集したデータを用いて,個人,画像タイプ,時間的制約による視覚的注意パターンの変化を検討した。

People's visual experiences of the world are easy to carve up and examine along natural language boundaries, e.g., by category labels, attribute labels, etc. However, it is more difficult to elicit detailed visuospatial information about what a person attends to, e.g., the specific shape of a tree. Paying attention to the shapes of things not only feeds into well defined tasks like visual category learning, but it is also what enables us to differentiate similarly named objects and to take on creative visual pursuits, like poetically describing the shape of a thing, or finding shapes in the clouds or stars. We use a new data collection method that elicits people's prioritized attention to shapes during visual photo inspection by asking them to trace important parts of the image under varying time constraints. Using data collected via crowdsourcing over a set of 187 photographs, we examine changes in patterns of visual attention across individuals, across image types, and across time constraints.
翻訳日:2021-04-15 14:35:32 公開日:2021-04-14
# (参考訳) 民法引用資源の更新 [全文訳有]

An Update to the Minho Quotation Resource ( http://arxiv.org/abs/2104.06987v1 )

ライセンス: CC BY 4.0
Brett Drury and Samuel Morais Drury(参考訳) Minho Quotation Resourceは2012年にリリースされた。 2008年から2012年までの期間に、ビジネスリーダー、アナリスト、政治家から50万件の引用を提供した。 元々の資料には、多くの不足した職名や所属、また同じ職の綴りや形式に大きな変化をもたらした非正規の職名など、いくつかの失敗があった。 また、重複する役職も多かった。 このアップデートは、ジョブタイトルのテキストの標準化と、ジョブタイトルやアフィリエーションの欠落を暗示している。 重複した引用が削除された。 このアップデートは、いくつかのメタファーとシミュレート抽出、および引用の感情分布も提供する。 このアップデートでは、旧式のLucene indexをJSONLフォーマットに置き換え、リソースから供給されたデータをクエリできる初歩的なインターフェースも追加された。 この更新により、金融危機時のビジネスコミュニケーションの研究が促進されることが期待されている。

The Minho Quotation Resource was originally released in 2012. It provided approximately 500,000 quotes from business leaders, analysts and politicians that spanned the period from 2008 to 2012. The original resource had several failings which include a large number of missing job titles and affiliations as well as unnormalised job titles which produced a large variation in spellings and formats of the same employment position. Also, there were numerous duplicate posts. This update has standardised the job title text as well as the imputation of missing job titles and affiliations. Duplicate quotes have been deleted. This update also provides some metaphor and simile extraction as well as an emotion distribution of the quotes. This update has also replaced an antiquated version of Lucene index with a JSONL format as well as a rudimentary interface that can query the data supplied with the resource. It is hoped that this update will encourage the study of business communication in a time of a financial crisis.
翻訳日:2021-04-15 14:27:15 公開日:2021-04-14
# (参考訳) 地理空間データベースにおける土地利用オブジェクトの一貫した分類のための階層的深層学習フレームワーク

A hierarchical deep learning framework for the consistent classification of land use objects in geospatial databases ( http://arxiv.org/abs/2104.06991v1 )

ライセンス: CC BY 4.0
Chun Yang, Franz Rottensteiner, Christian Heipke(参考訳) 地理空間データベースに含まれる土地利用は, 都市管理, 地域計画, 環境モニタリングなど, さまざまな用途に欠かせないインプットとなっている。 本稿では,土地利用情報を検証するための階層型ディープラーニングフレームワークを提案する。 この目的のために2段階の戦略が適用される。 まず、高分解能空中画像から土地被覆情報を決定する。 これを実現するために、エンコーダデコーダに基づく畳み込みニューラルネットワーク(CNN)を提案する。 第2に、画素単位での土地被覆情報と航空画像が、他のcnnの土地利用分類の入力となる。 地理空間データベースのオブジェクトカタログは階層的に構築されることが多いため,複数の階層的かつ同時に土地利用を予測するための新しいcnnベースの手法を提案する。 ジョイント・オプティフィケーション(jo)と呼ばれる手法では,最大ジョイントクラススコアを持つすべてのレベルに対して階層的タプルを選択し,異なるレベルに対して一貫した結果を提供する。 実験の結果、CNNはJOに依存しており、全体の精度は92.5%まで向上した。 2つの試験場における個別実験に加えて,異なる特性を示すデータによって土地被覆と土地利用分類の結果が向上するかどうかについて検討した。 そのために、2つのデータセットを結合し、いくつかの追加実験を行います。 その結果,データの追加が土地被覆と土地利用の分類,特に未熟なカテゴリーの識別に寄与することがわかった。

Land use as contained in geospatial databases constitutes an essential input for different applica-tions such as urban management, regional planning and environmental monitoring. In this paper, a hierarchical deep learning framework is proposed to verify the land use information. For this purpose, a two-step strategy is applied. First, given high-resolution aerial images, the land cover information is determined. To achieve this, an encoder-decoder based convolutional neural net-work (CNN) is proposed. Second, the pixel-wise land cover information along with the aerial images serves as input for another CNN to classify land use. Because the object catalogue of geospatial databases is frequently constructed in a hierarchical manner, we propose a new CNN-based method aiming to predict land use in multiple levels hierarchically and simultaneously. A so called Joint Optimization (JO) is proposed where predictions are made by selecting the hier-archical tuple over all levels which has the maximum joint class scores, providing consistent results across the different levels. The conducted experiments show that the CNN relying on JO outperforms previous results, achieving an overall accuracy up to 92.5%. In addition to the individual experiments on two test sites, we investigate whether data showing different characteristics can improve the results of land cover and land use classification, when processed together. To do so, we combine the two datasets and undertake some additional experiments. The results show that adding more data helps both land cover and land use classification, especially the identification of underrepre-sented categories, despite their different characteristics.
翻訳日:2021-04-15 14:20:29 公開日:2021-04-14
# (参考訳) 毒性モデリングにおけるクロスジオグラフィーバイアス検出 [全文訳有]

Cross-geographic Bias Detection in Toxicity Modeling ( http://arxiv.org/abs/2104.06999v1 )

ライセンス: CC BY 4.0
Sayan Ghosh, Dylan Baker, David Jurgens, Vinodkumar Prabhakaran(参考訳) オンラインソーシャルメディアプラットフォームは、ユーザに対する害を軽減するために、大規模な乱用コンテンツを検出するために自然言語処理(NLP)技術にますます依存している。 しかし、これらのテクニックはトレーニングデータに存在する様々なサンプリングや関連バイアスに悩まされ、しばしば限界グループに関連するコンテンツのサブパーパフォーマンスをもたらし、それらに対する不釣り合いな被害を増大させる可能性がある。 このようなバイアスの研究は、アノテーションやレキシコンが利用可能ないくつかの相違点と部分群にのみ焦点を当てている。 その結果、非西洋的文脈に関する偏見は文学においてほとんど無視される。 本稿では,より広い地学的文脈における語彙バイアスを頑健に検出する弱教師付き手法を提案する。 地形的毒性の検出に関するケーススタディを通じて,本手法は誤りの有意義なグループを識別することを示し,その結果,これらのグループ化が,地理的文脈における攻撃的・非攻撃的言語に対する人間の判断を反映していることを示す。

Online social media platforms increasingly rely on Natural Language Processing (NLP) techniques to detect abusive content at scale in order to mitigate the harms it causes to their users. However, these techniques suffer from various sampling and association biases present in training data, often resulting in sub-par performance on content relevant to marginalized groups, potentially furthering disproportionate harms towards them. Studies on such biases so far have focused on only a handful of axes of disparities and subgroups that have annotations/lexicons available. Consequently, biases concerning non-Western contexts are largely ignored in the literature. In this paper, we introduce a weakly supervised method to robustly detect lexical biases in broader geocultural contexts. Through a case study on cross-geographic toxicity detection, we demonstrate that our method identifies salient groups of errors, and, in a follow up, demonstrate that these groupings reflect human judgments of offensive and inoffensive language in those geographic contexts.
翻訳日:2021-04-15 14:19:15 公開日:2021-04-14
# (参考訳) 高速化非凸計画による高速量子状態再構成

Fast quantum state reconstruction via accelerated non-convex programming ( http://arxiv.org/abs/2104.07006v1 )

ライセンス: CC BY 4.0
Junhyung Lyle Kim, George Kollias, Amir Kalev, Ken X. Wei, Anastasios Kyrillidis(参考訳) 本稿では,圧縮センシング,非凸最適化,加速度法のアイデアを組み合わせた新しい量子状態再構成法を提案する。 このアルゴリズムは Momentum-Inspired Factored Gradient Descent (\texttt{MiFGD}) と呼ばれ、大規模システムに対する量子トモグラフィーの適用性を高める。 非凸法であるにもかかわらず、 \texttt{MiFGD} は、実験的および統計的ノイズの欠如、そして共通の仮定の下で、真の密度行列に線型速度で収束する。 この原稿では、この方法を示し、その収束性を証明するとともに、真の密度行列に関してフロベニウスノルム束縛保証を与える。 実用の観点からは、IBMの量子処理ユニットで実行される合成実験と実実験の両方において、既存の手法と比較してアルゴリズム性能をベンチマークする。 提案アルゴリズムは,同じあるいはより高精度で,最先端の手法よりも桁違いに高速に処理可能であることがわかった。 合成, 実実験ともに, トモグラフィーデータにおける実験的, 統計的ノイズにもかかわらず, 正確かつ堅牢な再構成を観察した。 最後に,マルチキュービットシステムの状態トモグラフィに使用可能なコードを提案する。

We propose a new quantum state reconstruction method that combines ideas from compressed sensing, non-convex optimization, and acceleration methods. The algorithm, called Momentum-Inspired Factored Gradient Descent (\texttt{MiFGD}), extends the applicability of quantum tomography for larger systems. Despite being a non-convex method, \texttt{MiFGD} converges \emph{provably} to the true density matrix at a linear rate, in the absence of experimental and statistical noise, and under common assumptions. With this manuscript, we present the method, prove its convergence property and provide Frobenius norm bound guarantees with respect to the true density matrix. From a practical point of view, we benchmark the algorithm performance with respect to other existing methods, in both synthetic and real experiments performed on an IBM's quantum processing unit. We find that the proposed algorithm performs orders of magnitude faster than state of the art approaches, with the same or better accuracy. In both synthetic and real experiments, we observed accurate and robust reconstruction, despite experimental and statistical noise in the tomographic data. Finally, we provide a ready-to-use code for state tomography of multi-qubit systems.
翻訳日:2021-04-15 14:07:34 公開日:2021-04-14
# (参考訳) 神経機械翻訳における幻覚の奇妙な事例 [全文訳有]

The Curious Case of Hallucinations in Neural Machine Translation ( http://arxiv.org/abs/2104.06683v1 )

ライセンス: CC BY 4.0
Vikas Raunak, Arul Menezes and Marcin Junczys-Dowmunt(参考訳) 本研究は神経機械翻訳(NMT)における幻覚の研究であり,NMTの病態のスペクトルの極端に位置する。 まず,ソース摂動の下での幻覚現象をフェルドマンのロングテール理論(2020年)と結びつけ,ソース摂動下での幻覚を説明する経験的検証仮説を提案する。 第二に,コーパスレベルの雑音下での幻覚について検討し,特定のコーパスレベルの雑音パターンを用いて2種類の顕著な自然幻覚(デテードと振動の出力)を生成・説明できることを示す。 最後に,バックトランスレーションやシーケンスレベルの知識蒸留といった一般的なデータ生成プロセスにおける幻覚増幅現象を解明する。

In this work, we study hallucinations in Neural Machine Translation (NMT), which lie at an extreme end on the spectrum of NMT pathologies. Firstly, we connect the phenomenon of hallucinations under source perturbation to the Long-Tail theory of Feldman (2020), and present an empirically validated hypothesis that explains hallucinations under source perturbation. Secondly, we consider hallucinations under corpus-level noise (without any source perturbation) and demonstrate that two prominent types of natural hallucinations (detached and oscillatory outputs) could be generated and explained through specific corpus-level noise patterns. Finally, we elucidate the phenomenon of hallucination amplification in popular data-generation processes such as Backtranslation and sequence-level Knowledge Distillation.
翻訳日:2021-04-15 13:51:47 公開日:2021-04-14
# 私はこの製品が大好きだったかもしれないが、製品レビューで偽物検出のための多言語データセットは好きではなかった

I Wish I Would Have Loved This One, But I Didn't -- A Multilingual Dataset for Counterfactual Detection in Product Reviews ( http://arxiv.org/abs/2104.06893v1 )

ライセンス: Link先を確認
James O'Neill and Polina Rozenshtein and Ryuichi Kiryo and Motoko Kubota and Danushka Bollegala(参考訳) 事実上のステートメントは、起こらなかったり、起こらなかったりするイベントを記述します。 製品レビューにおいて, 反事実検出(cfd)の問題を考える。 この目的のために、Amazon製品レビューから、英語、ドイツ語、日本語で書かれた偽造語に関する多言語CFDデータセットを注釈付けする。 データセットは、複数の言語で偽造物を含み、Eコマースレビューの新しいアプリケーション領域をカバーし、高品質のプロフェッショナルアノテーションを提供するため、ユニークなものだ。 異なるテキスト表現法と分類器を用いてcfdモデルを訓練する。 これらのモデルは,cue句に基づく文選択による選択バイアスに対して頑健であることがわかった。 さらに、我々のCFDデータセットは、以前のデータセットと互換性があり、正確なCFDモデルを学ぶためにマージすることができる。 機械翻訳を英語の反実例に適用して多言語データを作成することは、これまで無視されてきたこの問題の言語特異性を示すために、不十分に機能する。

Counterfactual statements describe events that did not or cannot take place. We consider the problem of counterfactual detection (CFD) in product reviews. For this purpose, we annotate a multilingual CFD dataset from Amazon product reviews covering counterfactual statements written in English, German, and Japanese languages. The dataset is unique as it contains counterfactuals in multiple languages, covers a new application area of e-commerce reviews, and provides high quality professional annotations. We train CFD models using different text representation methods and classifiers. We find that these models are robust against the selectional biases introduced due to cue phrase-based sentence selection. Moreover, our CFD dataset is compatible with prior datasets and can be merged to learn accurate CFD models. Applying machine translation on English counterfactual examples to create multilingual data performs poorly, demonstrating the language-specificity of this problem, which has been ignored so far.
翻訳日:2021-04-15 13:37:33 公開日:2021-04-14
# tsetlinマシンにおける分散単語表現

Distributed Word Representation in Tsetlin Machine ( http://arxiv.org/abs/2104.06901v1 )

ライセンス: Link先を確認
Rohan Kumar Yadav, Lei Jiao, Ole-Christoffer Granmo, and Morten Goodwin(参考訳) Tsetlin Machine (TM) は命題論理に基づく解釈可能なパターン認識アルゴリズムである。 このアルゴリズムは、感情分析、テキスト分類、Word Sense Disambiguation(WSD)など、多くの自然言語処理(NLP)タスクにおいて競合性能を示した。 ヒューマンレベルの解釈性を得るために、レガシーTMではback-of-words (BOW)のようなBoolean入力機能を採用している。 しかし、BOW表現は、例えば word2vec や GloVe などの事前訓練された情報を使用するのを困難にする。 この制限は、NLPのディープニューラルネットワーク(DNN)と比較してTMの性能を制限している。 性能ギャップを低減するため,本稿では,事前学習した単語表現をTMに使用する方法を提案する。 このアプローチはTM性能を大幅に向上させ、同時に解釈可能性を維持する。 tmの入力特徴として,事前学習した単語表現から意味的に関連した単語を抽出することにより,これを実現する。 実験の結果,提案手法の精度は従来のBOWベースTMよりも有意に高く,DNNベースモデルのレベルに達することがわかった。

Tsetlin Machine (TM) is an interpretable pattern recognition algorithm based on propositional logic. The algorithm has demonstrated competitive performance in many Natural Language Processing (NLP) tasks, including sentiment analysis, text classification, and Word Sense Disambiguation (WSD). To obtain human-level interpretability, legacy TM employs Boolean input features such as bag-of-words (BOW). However, the BOW representation makes it difficult to use any pre-trained information, for instance, word2vec and GloVe word representations. This restriction has constrained the performance of TM compared to deep neural networks (DNNs) in NLP. To reduce the performance gap, in this paper, we propose a novel way of using pre-trained word representations for TM. The approach significantly enhances the TM performance and maintains interpretability at the same time. We achieve this by extracting semantically related words from pre-trained word representations as input features to the TM. Our experiments show that the accuracy of the proposed approach is significantly higher than the previous BOW-based TM, reaching the level of DNN-based models.
翻訳日:2021-04-15 13:37:19 公開日:2021-04-14
# BERTベースの自動ICD符号化に向けて:限界と機会

Towards BERT-based Automatic ICD Coding: Limitations and Opportunities ( http://arxiv.org/abs/2104.06709v1 )

ライセンス: Link先を確認
Damian Pascual, Sandro Luck, Roger Wattenhofer(参考訳) 自動icdコーディング(automatic icd coding)は、国際疾病分類(icd)から医療記録へのコード割り当ての作業である。 これらのコードは患者の状態を記述しており、コンピュータ支援診断や疫学研究など、複数の応用がある。 ICD符号化は、医療メモの複雑さと長さのために難しい課題である。 言語処理の一般的な傾向とは異なり、このタスクで高い性能に達するトランスフォーマーモデルは報告されていない。 本稿では,バイオメディカル言語理解のための最先端トランスフォーマモデルであるPubMedBERTを用いたICD符号化について詳細に検討する。 ICD符号化におけるBERTモデルの主な制限は,長いテキストでモデルを微調整することの難しさにある。 我々は,現在最先端の変圧器との差があるにもかかわらず,比較的少数のテキストを用いて,競争性能に到達できることを示す。 我々は長文からの情報を集約するより良い手法をBERTベースのICD符号化の改善の要点として挙げる。

Automatic ICD coding is the task of assigning codes from the International Classification of Diseases (ICD) to medical notes. These codes describe the state of the patient and have multiple applications, e.g., computer-assisted diagnosis or epidemiological studies. ICD coding is a challenging task due to the complexity and length of medical notes. Unlike the general trend in language processing, no transformer model has been reported to reach high performance on this task. Here, we investigate in detail ICD coding using PubMedBERT, a state-of-the-art transformer model for biomedical language understanding. We find that the difficulty of fine-tuning the model on long pieces of text is the main limitation for BERT-based models on ICD coding. We run extensive experiments and show that despite the gap with current state-of-the-art, pretrained transformers can reach competitive performance using relatively small portions of text. We point at better methods to aggregate information from long texts as the main need for improving BERT-based ICD coding.
翻訳日:2021-04-15 13:37:04 公開日:2021-04-14
# [RE]Double-Hard Debias:ジェンダーバイアス軽減のための単語埋め込み

[RE] Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation ( http://arxiv.org/abs/2104.06973v1 )

ライセンス: Link先を確認
Haswanth Aekula, Sugam Garg, Animesh Gupta(参考訳) 自然言語処理(nlp)のタスクで広く使われているにもかかわらず、単語埋め込みは訓練コーパスから意図しない性別バイアスを継承したとして批判されている。 プログラマは男性とより密接な関係を持ち ホームメイカーは女性とより密接な関係があります このようなジェンダーバイアスは下流のタスクで伝播することが示されている。

Despite widespread use in natural language processing (NLP) tasks, word embeddings have been criticized for inheriting unintended gender bias from training corpora. programmer is more closely associated with man and homemaker is more closely associated with woman. Such gender bias has also been shown to propagate in downstream tasks.
翻訳日:2021-04-15 13:36:47 公開日:2021-04-14
# コントラスト学習戦略を用いたアピコンプレックス寄生虫と宿主細胞の半教師あり分類法

A Semi-Supervised Classification Method of Apicomplexan Parasites and Host Cell Using Contrastive Learning Strategy ( http://arxiv.org/abs/2104.06593v1 )

ライセンス: Link先を確認
Yanni Ren and Hangyu Deng and Hao Jiang and Jinglu Hu(参考訳) 医療画像のための教師付き学習の共通する欠点は、しばしば高価で時間を要する人間のアノテーションの必要性である。 本稿では,少数のラベル付きデータと多数のラベル付きデータを用いた3種類のapicomplexan parasitesおよび非感染宿主細胞顕微鏡画像の半教師付き分類法を提案する。 顕微鏡画像認識には2つの課題がある。 ひとつは、顕微鏡画像の健全な構造が現実のスケールで自然画像よりもファジィで複雑であることです。 第2に、背景染色、明度、コントラストレベルといった重要なテクスチャは、異なる臨床シナリオのサンプルによって大きく異なります。 これらの課題に対処するため,我々はコントラスト学習戦略によって識別可能で外観不変な表現を学ぶことを目指している。 一方, 形態学的に類似した形状特性を有するマクロ画像を導入し, 構造強化を図っている。 一方,色歪みやフラッタリングなどの異なる外観変換は,テクスチャ除去のためのコントラストとして利用される。 顕微鏡画像の1%しかラベル付けされていない場合、一般化されたテストセットにおいて、提案手法は94.90%の精度に達する。

A common shortfall of supervised learning for medical imaging is the greedy need for human annotations, which is often expensive and time-consuming to obtain. This paper proposes a semi-supervised classification method for three kinds of apicomplexan parasites and non-infected host cells microscopic images, which uses a small number of labeled data and a large number of unlabeled data for training. There are two challenges in microscopic image recognition. The first is that salient structures of the microscopic images are more fuzzy and intricate than natural images' on a real-world scale. The second is that insignificant textures, like background staining, lightness, and contrast level, vary a lot in samples from different clinical scenarios. To address these challenges, we aim to learn a distinguishable and appearance-invariant representation by contrastive learning strategy. On one hand, macroscopic images, which share similar shape characteristics in morphology, are introduced to contrast for structure enhancement. On the other hand, different appearance transformations, including color distortion and flittering, are utilized to contrast for texture elimination. In the case where only 1% of microscopic images are labeled, the proposed method reaches an accuracy of 94.90% in a generalized testing set.
翻訳日:2021-04-15 13:36:41 公開日:2021-04-14
# 多視点マルチスケール監視による画像操作検出

Image Manipulation Detection by Multi-View Multi-Scale Supervision ( http://arxiv.org/abs/2104.06832v1 )

ライセンス: Link先を確認
Xinru Chen, Chengbo Dong, Jiaqi Ji, Juan Cao, Xirong Li(参考訳) 画像操作検出の鍵となる課題は、新しいデータの操作に敏感な一般化可能な特徴を学習する方法である。 現在の研究は、感度を強調し、特異性を見落としている。 本稿では,多視点特徴学習とマルチスケール監視による両面の考察を行う。 タンパー付き領域を囲むノイズ分布と境界アーチファクトを利用することで、前者は意味に依存しない、より一般化可能な特徴を学習することを目指している。 後者では,現在のセマンティックセグメンテーションネットワークに基づく手法で考慮しにくい,真の画像から学習することができる。 我々の思考はMVSS-Netと呼ばれる新しいネットワークによって実現される。 5つのベンチマークセットの大規模な実験により、MVSS-Netはピクセルレベルと画像レベルの操作検出の両方に有効である。

The key challenge of image manipulation detection is how to learn generalizable features that are sensitive to manipulations in novel data, whilst specific to prevent false alarms on authentic images. Current research emphasizes the sensitivity, with the specificity overlooked. In this paper we address both aspects by multi-view feature learning and multi-scale supervision. By exploiting noise distribution and boundary artifact surrounding tampered regions, the former aims to learn semantic-agnostic and thus more generalizable features. The latter allows us to learn from authentic images which are nontrivial to taken into account by current semantic segmentation network based methods. Our thoughts are realized by a new network which we term MVSS-Net. Extensive experiments on five benchmark sets justify the viability of MVSS-Net for both pixel-level and image-level manipulation detection.
翻訳日:2021-04-15 13:36:21 公開日:2021-04-14
# LEAP: 人々のArticulated Occupancyを学ぶ

LEAP: Learning Articulated Occupancy of People ( http://arxiv.org/abs/2104.06849v1 )

ライセンス: Link先を確認
Marko Mihajlovic, Yan Zhang, Michael J. Black, Siyu Tang(参考訳) 深い暗黙表現を用いた剛性のある3dオブジェクトのモデリングにおいて、かなりの進歩があった。 しかし、人間の形状のニューラルモデルを学ぶためにこれらの手法を拡張することは、まだ初期段階にある。 人間の身体は複雑で、目に見えない、高度に表現されたポーズで身体の形を表現できるように一般化する表現を学ぶことが重要な課題である。 この課題に対処するため,我々は,人体の新たな神経占有表現であるleap(learning articulated occupancy of people)を導入する。 骨変換のセット(例:骨変換)が与えられると ジョイントロケーションとローテーション)と空間内のクエリポイントは、まず、学習されたリニアブレンドスキニング(lbs)機能を介してクエリポイントを正準空間にマッピングし、その後、正準空間における正確なアイデンティティとポーズ依存の変形をモデル化する占有ネットワークを介して、効率的に占有値にクエリする。 実験の結果,学習したLBS関数による正規化占有率推定は,学習した占有率表現の様々な形状やポーズの一般化能力を大幅に向上し,既存のソリューションをあらゆる場面で上回ることがわかった。

Substantial progress has been made on modeling rigid 3D objects using deep implicit representations. Yet, extending these methods to learn neural models of human shape is still in its infancy. Human bodies are complex and the key challenge is to learn a representation that generalizes such that it can express body shape deformations for unseen subjects in unseen, highly-articulated, poses. To address this challenge, we introduce LEAP (LEarning Articulated occupancy of People), a novel neural occupancy representation of the human body. Given a set of bone transformations (i.e. joint locations and rotations) and a query point in space, LEAP first maps the query point to a canonical space via learned linear blend skinning (LBS) functions and then efficiently queries the occupancy value via an occupancy network that models accurate identity- and pose-dependent deformations in the canonical space. Experiments show that our canonicalized occupancy estimation with the learned LBS functions greatly improves the generalization capability of the learned occupancy representation across various human shapes and poses, outperforming existing solutions in all settings.
翻訳日:2021-04-15 13:36:08 公開日:2021-04-14
# CelebHair: CelebAに基づいたヘアスタイル勧告のための大規模データセット

CelebHair: A New Large-Scale Dataset for Hairstyle Recommendation based on CelebA ( http://arxiv.org/abs/2104.06885v1 )

ライセンス: Link先を確認
Yutao Chen, Yuxuan Zhang, Zhongrui Huang, Zhenyao Luo, Jinpeng Chen(参考訳) 本稿では,セレブの顔属性データセットcelebaに基づいて,ヘアスタイル推薦のための大規模データセットcelebhairを提案する。 我々のデータセットはCelebAの顔の特徴とともに顔画像の大部分を継承した。 さらに, 顔形状や髪型分類のための深部畳み込みニューラルネットワークを用いて, 鼻の長さや瞳孔距離などの余分な特徴を抽出した。 経験的比較により,本データセットは,他のヘアスタイル関連データセットと比較して,多様性,妥当性,容積に関する優位性を示した。 その堅牢性とユーザビリティを評価するために,データセットの解析と実験を行った。

In this paper, we present a new large-scale dataset for hairstyle recommendation, CelebHair, based on the celebrity facial attributes dataset, CelebA. Our dataset inherited the majority of facial images along with some beauty-related facial attributes from CelebA. Additionally, we employed facial landmark detection techniques to extract extra features such as nose length and pupillary distance, and deep convolutional neural networks for face shape and hairstyle classification. Empirical comparison has demonstrated the superiority of our dataset to other existing hairstyle-related datasets regarding variety, veracity, and volume. Analysis and experiments have been conducted on the dataset in order to evaluate its robustness and usability.
翻訳日:2021-04-15 13:35:44 公開日:2021-04-14
# ComBiNet:イメージセグメンテーションのためのコンパクト畳み込みベイズニューラルネットワーク

ComBiNet: Compact Convolutional Bayesian Neural Network for Image Segmentation ( http://arxiv.org/abs/2104.06957v1 )

ライセンス: Link先を確認
Martin Ferianc, Divyansh Manocha, Hongxiang Fan, Miguel Rodrigues(参考訳) 完全な畳み込み型U字型ニューラルネットワークは、ピクセルワイド画像セグメンテーションの主要なアプローチである。 本研究では,1)多くの意思決定システムにおいて重要な不確実な定量化が欠如していること,2)大規模なメモリストレージとハードウェアリソースを必要とする計算消費,の2つの欠陥に対処する。 これらの問題に対処し、それらの実用性を改善するために、数パラメータのコンパクトなベイズ畳み込みアーキテクチャを実証し、より少ないパラメータと計算演算を用いて、関連する作業と比較して精度を極端に向上させる。 このアーキテクチャは、分離可能な畳み込み、双線型補間、マルチスケール特徴伝播、モンテカルロドロップアウトによるピクセル単位の不確かさの定量化のためのベイズ推定といったパラメータ効率の良い演算を組み合わせる。 最高のパフォーマンス設定では、観測の少ない多様な挑戦的なデータセットに対して、250万以上のパラメータが必要でした。

Fully convolutional U-shaped neural networks have largely been the dominant approach for pixel-wise image segmentation. In this work, we tackle two defects that hinder their deployment in real-world applications: 1) Predictions lack uncertainty quantification that may be crucial to many decision making systems; 2) Large memory storage and computational consumption demanding extensive hardware resources. To address these issues and improve their practicality we demonstrate a few-parameter compact Bayesian convolutional architecture, that achieves a marginal improvement in accuracy in comparison to related work using significantly fewer parameters and compute operations. The architecture combines parameter-efficient operations such as separable convolutions, bi-linear interpolation, multi-scale feature propagation and Bayesian inference for per-pixel uncertainty quantification through Monte Carlo Dropout. The best performing configurations required fewer than 2.5 million parameters on diverse challenging datasets with few observations.
翻訳日:2021-04-15 13:35:34 公開日:2021-04-14
# マスキング言語モデルと分布仮説--リトルの事前学習における順序語の重要性

Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little ( http://arxiv.org/abs/2104.06644v1 )

ライセンス: Link先を確認
Koustuv Sinha, Robin Jia, Dieuwke Hupkes, Joelle Pineau, Adina Williams, Douwe Kiela(参考訳) マスク付き言語モデル(MLM)の事前学習における印象的な性能は、古典的なNLPパイプラインでよく見られる構文構造を表現することを学習したと説明できる。 本稿では,MLMがダウンストリームタスクで成功する理由として,高次単語共起統計をモデル化できることを挙げる。 これを示すために、ランダムにシャッフルされた単語順の文にMLMを事前訓練し、これらのモデルが多くの下流タスクを微調整した後も高い精度を達成することを示す。 私たちのモデルは、いくつかのパラメトリックな構文プローブに従って驚くほどよく動作し、構文情報に対する表現のテスト方法の欠陥を示唆しています。 全体として,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。

A possible explanation for the impressive performance of masked language model (MLM) pre-training is that such models have learned to represent the syntactic structures prevalent in classical NLP pipelines. In this paper, we propose a different explanation: MLMs succeed on downstream tasks almost entirely due to their ability to model higher-order word co-occurrence statistics. To demonstrate this, we pre-train MLMs on sentences with randomly shuffled word order, and show that these models still achieve high accuracy after fine-tuning on many downstream tasks -- including on tasks specifically designed to be challenging for models that ignore word order. Our models perform surprisingly well according to some parametric syntactic probes, indicating possible deficiencies in how we test representations for syntactic information. Overall, our results show that purely distributional information largely explains the success of pre-training, and underscore the importance of curating challenging evaluation datasets that require deeper linguistic knowledge.
翻訳日:2021-04-15 13:35:18 公開日:2021-04-14
# 数学用語問題を解くための弱教師付きモデル

A Weakly Supervised Model for Solving Math word Problems ( http://arxiv.org/abs/2104.06722v1 )

ライセンス: Link先を確認
Oishik Chatterjee, Aashish Waikar, Vishwajeet Kumar, Ganesh Ramakrishnan, Kavi Arya(参考訳) 数学語問題(MWP)の解法は自然言語処理において重要かつ困難な問題である。 mwp を解く既存のアプローチは、中間方程式の形で完全な監視を必要とする。 しかし、全ての数学用語問題を対応する方程式でラベル付けすることは、時間と費用のかかる作業である。 この方程式アノテーションの課題に対処するために,最終回答のみを監督として必要とすることで,数学用語問題を解くための弱教師付きモデルを提案する。 本稿では,まず問題記述と最終解法を用いて方程式を生成することでこの問題にアプローチし,教師付きMWPソルバを訓練する。 本稿では,問題記述と解答から直接方程式を生成することを学ぶために,様々な弱教師付き手法を提案し,比較する。 広範な実験を通じて,本手法が標準の math23k データセット上で 56.0 の精度を達成することを実証した。 また、弱教師付きモデルのトレーニングに適した10227インスタンスからなるMWPの新しいデータセットを英語でキュレートしてリリースする。

Solving math word problems (MWPs) is an important and challenging problem in natural language processing. Existing approaches to solve MWPs require full supervision in the form of intermediate equations. However, labeling every math word problem with its corresponding equations is a time-consuming and expensive task. In order to address this challenge of equation annotation, we propose a weakly supervised model for solving math word problems by requiring only the final answer as supervision. We approach this problem by first learning to generate the equation using the problem description and the final answer, which we then use to train a supervised MWP solver. We propose and compare various weakly supervised techniques to learn to generate equations directly from the problem description and answer. Through extensive experiment, we demonstrate that even without using equations for supervision, our approach achieves an accuracy of 56.0 on the standard Math23K dataset. We also curate and release a new dataset for MWPs in English consisting of 10227 instances suitable for training weakly supervised models.
翻訳日:2021-04-15 13:35:00 公開日:2021-04-14
# リニアユニットによるスパース注意

Sparse Attention with Linear Units ( http://arxiv.org/abs/2104.07012v1 )

ライセンス: Link先を確認
Biao Zhang, Ivan Titov, Rico Sennrich(参考訳) 近年,ソフトマックス関数をスパース変種に置き換えることで,エンコーダ・デコーダモデルをより解釈可能であることが議論されている。 本研究では, ソフトマックス活性化をreluに置き換え, スパーシティが自然に発生することを示す, 注意のスパース性を達成するための新しい簡便な方法を提案する。 訓練安定性は、特別な初期化または追加のゲーティング関数を持つ層正規化によって達成される。 我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。 ReLAをTransformerに適用し、5つの機械翻訳タスクの実験を行う。 ReLAは、バニラアテンションと同様のトレーニングとデコード速度で、いくつかの強力なベースラインに匹敵する翻訳性能を達成する。 解析の結果,ReLAは高い空間性率と頭部の多様性を実現し,近年の疎化ソフトマックスモデルよりも単語アライメントの精度が向上した。 興味深いことに、ReLAヘッドは、何も(つまり)参加することを学ぶ。 一部のクエリは、sprsified Softmax代替では不可能である。

Recently, it has been argued that encoder-decoder models can be made more interpretable by replacing the softmax function in the attention with its sparse variants. In this work, we introduce a novel, simple method for achieving sparsity in attention: we replace the softmax activation with a ReLU, and show that sparsity naturally emerges from such a formulation. Training stability is achieved with layer normalization with either a specialized initialization or an additional gating function. Our model, which we call Rectified Linear Attention (ReLA), is easy to implement and more efficient than previously proposed sparse attention mechanisms. We apply ReLA to the Transformer and conduct experiments on five machine translation tasks. ReLA achieves translation performance comparable to several strong baselines, with training and decoding speed similar to that of the vanilla attention. Our analysis shows that ReLA delivers high sparsity rate and head diversity, and the induced cross attention achieves better accuracy with respect to source-target word alignment than recent sparsified softmax-based models. Intriguingly, ReLA heads also learn to attend to nothing (i.e. 'switch off') for some queries, which is not possible with sparsified softmax alternatives.
翻訳日:2021-04-15 13:34:46 公開日:2021-04-14
# デバイス・クラウド協調学習のレコメンデーション

Device-Cloud Collaborative Learning for Recommendation ( http://arxiv.org/abs/2104.06624v1 )

ライセンス: Link先を確認
Jiangchao Yao and Feng Wang and KunYang Jia and Bo Han and Jingren Zhou and Hongxia Yang(参考訳) モバイルデバイス上でのストレージとコンピューティングパワーの急速な発展により、デバイスにモデルをデプロイすることで、煩雑な通信遅延を省き、リアルタイム機能をキャプチャすることが重要かつポピュラーになる。 デバイス上での学習と推論を促進するために、多くの作業が進められているが、その多くは応答遅延やプライバシ保護に重点を置いている。 デバイスとクラウドモデリングのコラボレーションをモデル化し、双方が共同で利益を得る方法はほとんどない。 このギャップを埋めるために、私たちはDevice-Cloud Collaborative Learning (DCCL)フレームワークを研究する最初の試みの1つです。 具体的には,集中型クラウドモデルによって「何千ものモデルを持つ人々」を効率的に達成するために,デバイス側で新しいメタパッチ学習手法を提案する。 次に、数十億の更新パーソナライズされたデバイスモデルを用いて、集中型クラウドモデルを更新するための「モデルオーバーモデル」蒸留アルゴリズム、すなわちMoMoDistillを提案する。 さまざまな設定のデータセットに関する広範な実験では、クラウドとデバイスの両方で、特にロングテールユーザをモデリングする上で、このようなコラボレーションの有効性が示されています。

With the rapid development of storage and computing power on mobile devices, it becomes critical and popular to deploy models on devices to save onerous communication latencies and to capture real-time features. While quite a lot of works have explored to facilitate on-device learning and inference, most of them focus on dealing with response delay or privacy protection. Little has been done to model the collaboration between the device and the cloud modeling and benefit both sides jointly. To bridge this gap, we are among the first attempts to study the Device-Cloud Collaborative Learning (DCCL) framework. Specifically, we propose a novel MetaPatch learning approach on the device side to efficiently achieve "thousands of people with thousands of models" given a centralized cloud model. Then, with billions of updated personalized device models, we propose a "model-over-models&qu ot; distillation algorithm, namely MoMoDistill, to update the centralized cloud model. Our extensive experiments over a range of datasets with different settings demonstrate the effectiveness of such collaboration on both cloud and device sides, especially its superiority in modeling long-tailed users.
翻訳日:2021-04-15 13:34:26 公開日:2021-04-14
# バックプロパゲーションを保存する相互情報: 忠実な帰属をめざす

Mutual Information Preserving Back-propagation: Learn to Invert for Faithful Attribution ( http://arxiv.org/abs/2104.06629v1 )

ライセンス: Link先を確認
Huiqi Deng, Na Zou, Weifu Chen, Guocan Feng, Mengnan Du, Xia Hu(参考訳) バック伝搬に基づく可視化はディープニューラルネットワーク(DNN)を解釈するために提案されている。 しかし、これらの直感的な視覚化がネットワーク決定に関係しているかどうかには疑問がある。 最近の研究は、これらの修正されたバックプロパゲーションの可視化がモデルの意思決定プロセスに忠実でないことを検証することで、この疑いを裏付けている。 さらに、これらの視覚化はあいまいな「相対的重要度スコア」を生み出し、その中の低値が最終予測から独立することを保証できない。 したがって、理論的忠実性を保証する新しいバックプロパゲーションフレームワークを開発し、明確な理解で量的帰属スコアを生成することが非常に望ましい。 この目的を達成するために、我々は相互情報理論を用いて解釈を生成し、各入力ニューロンにどれだけの出力情報がエンコードされているかを研究する。 基本的な考え方は、入力と出力の相互情報が入力とソース信号の相互情報に可能な限り保存されるように、バックプロパゲーションによってソース信号を学ぶことである。 さらに,MIP-INと呼ばれる相互情報保存逆ネットワークを提案する。 反転の間、フォワード relu 演算は、特定の入力に一般的な解釈を適用するために採用される。 そして、逆元信号が完全性と最小性を満たすことを実証的に示し、忠実な解釈に不可欠である。 さらに,MIP-INによる解釈の有効性を実証的に検証した。

Back propagation based visualizations have been proposed to interpret deep neural networks (DNNs), some of which produce interpretations with good visual quality. However, there exist doubts about whether these intuitive visualizations are related to the network decisions. Recent studies have confirmed this suspicion by verifying that almost all these modified back-propagation visualizations are not faithful to the model's decision-making process. Besides, these visualizations produce vague "relative importance scores", among which low values can't guarantee to be independent of the final prediction. Hence, it's highly desirable to develop a novel back-propagation framework that guarantees theoretical faithfulness and produces a quantitative attribution score with a clear understanding. To achieve the goal, we resort to mutual information theory to generate the interpretations, studying how much information of output is encoded in each input neuron. The basic idea is to learn a source signal by back-propagation such that the mutual information between input and output should be as much as possible preserved in the mutual information between input and the source signal. In addition, we propose a Mutual Information Preserving Inverse Network, termed MIP-IN, in which the parameters of each layer are recursively trained to learn how to invert. During the inversion, forward Relu operation is adopted to adapt the general interpretations to the specific input. We then empirically demonstrate that the inverted source signal satisfies completeness and minimality property, which are crucial for a faithful interpretation. Furthermore, the empirical study validates the effectiveness of interpretations generated by MIP-IN.
翻訳日:2021-04-15 13:34:06 公開日:2021-04-14
# 説明可能な多人数学習に向けて : コントラスト的知識共有フレームワーク

Towards Explainable Multi-Party Learning: A Contrastive Knowledge Sharing Framework ( http://arxiv.org/abs/2104.06670v1 )

ライセンス: Link先を確認
Yuan Gao, Jiawei Li, Maoguo Gong, Yu Xie and A. K. Qin(参考訳) マルチパーティ学習は、法的および実践的な制約の下で、分散化されたデータでジョイントモデルをトレーニングするためのソリューションを提供する。 しかしながら、従来の多人数学習アプローチは、システムの不均一性、統計的不均一性、インセンティブ設計といった障害に直面している。 これらの課題にどう対処し、マルチパーティラーニングの効率と性能をさらに向上するかは、緊急の課題となっている。 本稿では,知識の洗練と共有のための,説明可能なインセンティブ機構を備えたコントラスト型多人数学習フレームワークを提案する。 既存のナイーブモデルパラメータ平均化法は、ニューラルネットワークの学習パラダイムと矛盾するので、人間の認知とコミュニケーションの過程をシミュレートし、多人数学習を多対一の知識共有問題として類似させる。 このアプローチは、各クライアントの取得した明示的な知識を、プライバシー開示なしに透過的に統合することができ、データ配布や通信環境への依存を減らすことができる。 提案手法は,いくつかの実世界のデータセットで実験を行い,様々なシナリオにおけるモデル性能の大幅な向上を実現する。

Multi-party learning provides solutions for training joint models with decentralized data under legal and practical constraints. However, traditional multi-party learning approaches are confronted with obstacles such as system heterogeneity, statistical heterogeneity, and incentive design. How to deal with these challenges and further improve the efficiency and performance of multi-party learning has become an urgent problem to be solved. In this paper, we propose a novel contrastive multi-party learning framework for knowledge refinement and sharing with an accountable incentive mechanism. Since the existing naive model parameter averaging method is contradictory to the learning paradigm of neural networks, we simulate the process of human cognition and communication, and analogy multi-party learning as a many-to-one knowledge sharing problem. The approach is capable of integrating the acquired explicit knowledge of each client in a transparent manner without privacy disclosure, and it reduces the dependence on data distribution and communication environments. The proposed scheme achieves significant improvement in model performance in a variety of scenarios, as we demonstrated through experiments on several real-world datasets.
翻訳日:2021-04-15 13:33:42 公開日:2021-04-14
# 敵対的模倣学習における報酬関数形状探索--経験的研究

Reward function shape exploration in adversarial imitation learning: an empirical study ( http://arxiv.org/abs/2104.06687v1 )

ライセンス: Link先を確認
Yawei Wang and Xiu Li(参考訳) 敵対的模倣学習アルゴリズム(AIL)では、戦略を学ぶための環境から真の報酬が得られない。 しかし、判別器の出力に基づく疑似報酬は依然として必要である。 AILの暗黙的な報酬バイアス問題を考えると、いくつかの代表報酬関数形状を設計し、それらの性能を大規模実験で比較する。 結果の信頼性を確保するため、4つの異なるAILに基づく一連のMujocoおよびBox2D連続制御タスクについて実験を行った。 また,様々な特徴量を用いて様々な報酬関数形状の性能を比較する。 実験の結果、正対数報酬関数は典型的な連続制御タスクでうまく機能することが明らかとなった。 対照的に、いわゆるunbiased reward関数は、特定の種類のタスクに制限される。 さらに、これらの環境においても、いくつかのデザインされた報酬関数が優れた性能を発揮する。

For adversarial imitation learning algorithms (AILs), no true rewards are obtained from the environment for learning the strategy. However, the pseudo rewards based on the output of the discriminator are still required. Given the implicit reward bias problem in AILs, we design several representative reward function shapes and compare their performances by large-scale experiments. To ensure our results' reliability, we conduct the experiments on a series of Mujoco and Box2D continuous control tasks based on four different AILs. Besides, we also compare the performance of various reward function shapes using varying numbers of expert trajectories. The empirical results reveal that the positive logarithmic reward function works well in typical continuous control tasks. In contrast, the so-called unbiased reward function is limited to specific kinds of tasks. Furthermore, several designed reward functions perform excellently in these environments as well.
翻訳日:2021-04-15 13:33:24 公開日:2021-04-14
# Disentanglementは必要なだけか? 概念ベースと絡み合いのアプローチの比較

Is Disentanglement all you need? Comparing Concept-based & Disentanglement Approaches ( http://arxiv.org/abs/2104.06917v1 )

ライセンス: Link先を確認
Dmitry Kazhdan, Botty Dimanov, Helena Andres Terre, Mateja Jamnik, Pietro Li\`o, Adrian Weller(参考訳) 概念に基づく説明は、深い識別モデルから人間の解釈可能な表現を抽出する一般的な方法として現れてきた。 同時に、散在学習文献は、深層生成モデルを用いて、教師なしまたは弱教師付き方法で類似した表現を抽出することに焦点を当てている。 重複する目標と潜在的なシナジーにもかかわらず、我々の知識では、概念に基づく説明と絡み合いアプローチの間の制限とトレードオフを体系的に比較していない。 本稿では,これらの分野を概観し,その特性と振る舞いを多種多様なタスク群で比較・比較し,潜在的な強みと限界を強調した。 特に、両クラスからの最先端のアプローチは、データ非効率、分類/回帰タスクの特定の性質に敏感、あるいは採用した概念表現に敏感であることを示す。

Concept-based explanations have emerged as a popular way of extracting human-interpretable representations from deep discriminative models. At the same time, the disentanglement learning literature has focused on extracting similar representations in an unsupervised or weakly-supervised way, using deep generative models. Despite the overlapping goals and potential synergies, to our knowledge, there has not yet been a systematic comparison of the limitations and trade-offs between concept-based explanations and disentanglement approaches. In this paper, we give an overview of these fields, comparing and contrasting their properties and behaviours on a diverse set of tasks, and highlighting their potential strengths and limitations. In particular, we demonstrate that state-of-the-art approaches from both classes can be data inefficient, sensitive to the specific nature of the classification/regre ssion task, or sensitive to the employed concept representation.
翻訳日:2021-04-15 13:33:12 公開日:2021-04-14
# 雑音ラベルに対する共同否定学習と肯定学習

Joint Negative and Positive Learning for Noisy Labels ( http://arxiv.org/abs/2104.06574v1 )

ライセンス: Link先を確認
Youngdong Kim, Juseung Yun, Hyounguk Shon, Junmo Kim(参考訳) ノイズラベル付きデータによる畳み込みニューラルネットワーク(CNN)のトレーニングは難しいことが知られている。 ラベルをデータに直接提供すること(Positive Learning; PL)は、CNNがノイズデータの場合の汚染ラベルを記憶するリスクがあるという事実に基づいて、補完ラベル(Negative Learning for Noisy Labels; NLNL)を使用する間接学習アプローチは、ノイズデータへの過度な適合を防止するのに非常に有効であることが証明された。 NLNLはさらに収束を改善するために3段階のパイプラインを使用している。 その結果、NLNLパイプラインによるノイズの多いデータのフィルタリングは困難であり、トレーニングコストが増大する。 本研究では,NLNLの新たな改良手法であるJNPL(Joint Negative and Positive Learning)を提案する。 JNPL は NL+ と PL+ の2つの損失により CNN を訓練し、それぞれ NL と PL の損失関数を改善した。 nl損失関数の基本問題を分析し,雑音データの収束性を高める新しいnl+損失関数生成勾配を開発した。 さらに、PL+損失関数は、期待されるクリーンデータへのより高速な収束を可能にするように設計されている。 NL+とPL+は同時にCNNを訓練し、パイプラインを大幅に単純化し、NLNLと比較して実用的な使用が容易になった。 本手法は,単純な半教師付き学習手法を用いて,優れたフィルタリング能力に基づくノイズデータ分類の最先端精度を実現する。

Training of Convolutional Neural Networks (CNNs) with data with noisy labels is known to be a challenge. Based on the fact that directly providing the label to the data (Positive Learning; PL) has a risk of allowing CNNs to memorize the contaminated labels for the case of noisy data, the indirect learning approach that uses complementary labels (Negative Learning for Noisy Labels; NLNL) has proven to be highly effective in preventing overfitting to noisy data as it reduces the risk of providing faulty target. NLNL further employs a three-stage pipeline to improve convergence. As a result, filtering noisy data through the NLNL pipeline is cumbersome, increasing the training cost. In this study, we propose a novel improvement of NLNL, named Joint Negative and Positive Learning (JNPL), that unifies the filtering pipeline into a single stage. JNPL trains CNN via two losses, NL+ and PL+, which are improved upon NL and PL loss functions, respectively. We analyze the fundamental issue of NL loss function and develop new NL+ loss function producing gradient that enhances the convergence of noisy data. Furthermore, PL+ loss function is designed to enable faster convergence to expected-to-be-clean data. We show that the NL+ and PL+ train CNN simultaneously, significantly simplifying the pipeline, allowing greater ease of practical use compared to NLNL. With a simple semi-supervised training technique, our method achieves state-of-the-art accuracy for noisy data classification based on the superior filtering ability.
翻訳日:2021-04-15 13:32:57 公開日:2021-04-14
# Eluder Dimension と Generalized Rank

Eluder Dimension and Generalized Rank ( http://arxiv.org/abs/2104.06970v1 )

ライセンス: Link先を確認
Gene Li, Pritish Kamath, Dylan J. Foster, Nathan Srebro(参考訳) 汎線型モデルとしてクラスを表現するのに必要な最小次元に対応する任意の単調 "アクティベーション" $\sigma : \mathbb{r} \to \mathbb{r}$ に対して定義される関数クラスのエルダー次元とランクの一般化された概念との関係について検討する。 $\sigma$-rank が 0$ から有界な微分を持つとき、$\sigma$-rank は任意の函数類において、任意のユーラダー次元上の上限となることが知られているが、しかしながら、ユーラダー次元は $\sigma$-rank よりも指数関数的に小さいことが示される。 すなわち、$\sigma$ が $\mathrm{relu}$ 活性化であるとき、可溶性次元が $\sigma$-rank よりも指数関数的に大きいことを示す。

We study the relationship between the eluder dimension for a function class and a generalized notion of rank, defined for any monotone "activation" $\sigma : \mathbb{R} \to \mathbb{R}$, which corresponds to the minimal dimension required to represent the class as a generalized linear model. When $\sigma$ has derivatives bounded away from $0$, it is known that $\sigma$-rank gives rise to an upper bound on eluder dimension for any function class; we show however that eluder dimension can be exponentially smaller than $\sigma$-rank. We also show that the condition on the derivative is necessary; namely, when $\sigma$ is the $\mathrm{relu}$ activation, we show that eluder dimension can be exponentially larger than $\sigma$-rank.
翻訳日:2021-04-15 13:32:32 公開日:2021-04-14
# 運動からの深い置換同変構造

Deep Permutation Equivariant Structure from Motion ( http://arxiv.org/abs/2104.06703v1 )

ライセンス: Link先を確認
Dror Moran, Hodaya Koslowsky, Yoni Kasten, Haggai Maron, Meirav Galun, Ronen Basri(参考訳) 既存のディープメソッドは、ステレオとマルチビューのステレオ設定、すなわちカメラの内部と外部のキャリブレーションの両方において、高精度な3d再構成を生成する。 それにもかかわらず、ディープネットワークを用いたマルチビュー設定におけるカメラポーズと3dシーン構造の同時リカバリの課題はいまだに未解決である。 本研究では, 静的シーンの複数の画像に一組の点線を配置し, 教師なし再投影損失を最小限に抑えて, カメラパラメータと(スパース)シーン構造の両方を復元するニューラルネットワークアーキテクチャを提案する。 我々のネットワークアーキテクチャは問題の構造を尊重するように設計されており、要求される出力はカメラとシーンポイントの両方の置換に同値である。 特に,カメラパラメータや3Dポイント位置の初期化は不要である。 1)単一シーン再構築と(2)複数のシーンからの学習の2つのセットアップでアーキテクチャをテストする。 本手法は,内部校正と非校正設定の両方において,様々なデータセット上で実験を行い,従来の手法と同等の姿勢と構造を正確に復元することを示す。 さらに,事前学習ネットワークを用いて,安価で高精度な微調整を行なわずに新しいシーンを再構築できることを示す。

Existing deep methods produce highly accurate 3D reconstructions in stereo and multiview stereo settings, i.e., when cameras are both internally and externally calibrated. Nevertheless, the challenge of simultaneous recovery of camera poses and 3D scene structure in multiview settings with deep networks is still outstanding. Inspired by projective factorization for Structure from Motion (SFM) and by deep matrix completion techniques, we propose a neural network architecture that, given a set of point tracks in multiple images of a static scene, recovers both the camera parameters and a (sparse) scene structure by minimizing an unsupervised reprojection loss. Our network architecture is designed to respect the structure of the problem: the sought output is equivariant to permutations of both cameras and scene points. Notably, our method does not require initialization of camera parameters or 3D point locations. We test our architecture in two setups: (1) single scene reconstruction and (2) learning from multiple scenes. Our experiments, conducted on a variety of datasets in both internally calibrated and uncalibrated settings, indicate that our method accurately recovers pose and structure, on par with classical state of the art methods. Additionally, we show that a pre-trained network can be used to reconstruct novel scenes using inexpensive fine-tuning with no loss of accuracy.
翻訳日:2021-04-15 13:31:16 公開日:2021-04-14
# 低高度交通監視のためのコンテキスト依存異常検出

Context-Dependent Anomaly Detection for Low Altitude Traffic Surveillance ( http://arxiv.org/abs/2104.06781v1 )

ライセンス: Link先を確認
Ilker Bozcan and Erdal Kayacan(参考訳) コンテキスト異常の検出は、特定の環境コンテキストにおいて観察を異常または正常と見なすことができるため、監視の難しい課題である。 無人航空機(UAV)は、その空中監視機能を利用して、複数のセンサーを使用して環境に関するコンテキスト情報を収集し、コンテキスト異常検出を行う。 本稿では,uavを用いた環境における点異常(例:単一インスタンス異常データ)と文脈異常(例:コンテキスト特異的異常)を見つけるための,深層ニューラルネットワークに基づく手法(cadnet)を提案する。 この方法はコンテキストサブネットワークを備えた変分オートエンコーダ(vae)に基づいている。 コンテキストサブネットワークは、GPSと時間データを使用して環境に関するコンテキスト情報を抽出し、VAEに送信し、コンテキスト上で条件付けられた異常を予測する。 我々の知る限り、我々の方法はUAV支援空中監視のための最初のコンテキスト異常検出方法である。 交通監視シナリオにおけるAU-AIRデータセット上での手法の評価を行った。 いくつかのベースラインに対する定量的比較は、異常検出タスクにおける我々のアプローチの優位性を示している。 コードとデータはhttps://bozcani.gith ub.io/cadnetで入手できる。

The detection of contextual anomalies is a challenging task for surveillance since an observation can be considered anomalous or normal in a specific environmental context. An unmanned aerial vehicle (UAV) can utilize its aerial monitoring capability and employ multiple sensors to gather contextual information about the environment and perform contextual anomaly detection. In this work, we introduce a deep neural network-based method (CADNet) to find point anomalies (i.e., single instance anomalous data) and contextual anomalies (i.e., context-specific abnormality) in an environment using a UAV. The method is based on a variational autoencoder (VAE) with a context sub-network. The context sub-network extracts contextual information regarding the environment using GPS and time data, then feeds it to the VAE to predict anomalies conditioned on the context. To the best of our knowledge, our method is the first contextual anomaly detection method for UAV-assisted aerial surveillance. We evaluate our method on the AU-AIR dataset in a traffic surveillance scenario. Quantitative comparisons against several baselines demonstrate the superiority of our approach in the anomaly detection tasks. The codes and data will be available at https://bozcani.gith ub.io/cadnet.
翻訳日:2021-04-15 13:30:55 公開日:2021-04-14
# ステレオラジアンス場(SRF):新しいシーンのスパースビューのための学習ビュー合成

Stereo Radiance Fields (SRF): Learning View Synthesis for Sparse Views of Novel Scenes ( http://arxiv.org/abs/2104.06935v1 )

ライセンス: Link先を確認
Julian Chibane, Aayush Bansal, Verica Lazova, Gerard Pons-Moll(参考訳) 最近のニューラルビュー合成法は、マルチビュー再構成に依存する古典的なパイプラインを超越し、印象的な品質とリアリズムを達成した。 NeRFのような最先端の手法は、ニューラルネットワークで単一のシーンを学習し、密集したマルチビュー入力を必要とするように設計されている。 新しいシーンでテストするには、スクラッチから再トレーニングする必要があります。 本研究では,Stereo Radiance Fields (SRF)を紹介した。これは,エンドツーエンドにトレーニングされたニューラルビュー合成アプローチで,新しいシーンに一般化し,テスト時にスパースビューしか必要としない。 コアとなるアイデアは、古典的なマルチビューステレオ法にインスパイアされたニューラルアーキテクチャであり、ステレオ画像に類似した画像領域を見つけることで表面ポイントを推定する。 SRFでは,入力画像中のステレオ対応を符号化した3次元点ごとに色と密度を推定する。 エンコーディングは、古典ステレオを模倣するペアワイズ類似性のアンサンブルによって暗黙的に学習される。 実験では、SRFはシーンに過度に収まるのではなく構造を学ぶ。 DTUデータセットの複数のシーンをトレーニングし、再トレーニングせずに新しいシーンに一般化する。 10~15分間の微調整により結果がさらに改善し,シーン特化モデルよりもはるかにシャープで詳細な結果が得られた。 コード、モデル、ビデオはhttps://virtualhuman s.mpi-inf.mpg.de/srf /で入手できる。

Recent neural view synthesis methods have achieved impressive quality and realism, surpassing classical pipelines which rely on multi-view reconstruction. State-of-the-Art methods, such as NeRF, are designed to learn a single scene with a neural network and require dense multi-view inputs. Testing on a new scene requires re-training from scratch, which takes 2-3 days. In this work, we introduce Stereo Radiance Fields (SRF), a neural view synthesis approach that is trained end-to-end, generalizes to new scenes, and requires only sparse views at test time. The core idea is a neural architecture inspired by classical multi-view stereo methods, which estimates surface points by finding similar image regions in stereo images. In SRF, we predict color and density for each 3D point given an encoding of its stereo correspondence in the input images. The encoding is implicitly learned by an ensemble of pair-wise similarities -- emulating classical stereo. Experiments show that SRF learns structure instead of overfitting on a scene. We train on multiple scenes of the DTU dataset and generalize to new ones without re-training, requiring only 10 sparse and spread-out views as input. We show that 10-15 minutes of fine-tuning further improve the results, achieving significantly sharper, more detailed results than scene-specific models. The code, model, and videos are available at https://virtualhuman s.mpi-inf.mpg.de/srf /.
翻訳日:2021-04-15 13:30:38 公開日:2021-04-14
# ニューラルネットワークの重みは授業センターを占めるか?

Do Neural Network Weights account for Classes Centers? ( http://arxiv.org/abs/2104.07004v1 )

ライセンス: Link先を確認
Ioannis Kansizoglou, Loukas Bampis, and Antonios Gasteratos(参考訳) 機能学習課題における記述子としてのディープニューラルネットワーク(DNN)の利用は、ここ数年で明らかな人気を享受している。 上記の傾向は、異なるクラス間の高い特徴識別と、与えられたクラスの特徴ベクトル間の低測地距離を保証する効果的な損失関数の開発に焦点を当てている。 現代の作品の大多数は、ネットワークの最後の隠れた層の特徴空間に関する経験的仮定に依拠しており、クラスの重みベクトルが研究された空間の幾何学的中心を成すと主張している。 論文は理論的なアプローチに従い、上記の仮説が排他的に満たされていないことを示す。 この事実は,実験研究で示されたように,dnnのトレーニング手順に関する安定性の問題を引き起こす。 その結果、上記の仮定を満たす解析的および経験的両方の対称性が提案され、確立された収束問題に対処する。

The exploitation of Deep Neural Networks (DNNs) as descriptors in feature learning challenges enjoys apparent popularity over the past few years. The above tendency focuses on the development of effective loss functions that ensure both high feature discrimination among different classes, as well as low geodesic distance between the feature vectors of a given class. The vast majority of the contemporary works rely their formulation on an empirical assumption about the feature space of a network's last hidden layer, claiming that the weight vector of a class accounts for its geometrical center in the studied space. The paper at hand follows a theoretical approach and indicates that the aforementioned hypothesis is not exclusively met. This fact raises stability issues regarding the training procedure of a DNN, as shown in our experimental study. Consequently, a specific symmetry is proposed and studied both analytically and empirically that satisfies the above assumption, addressing the established convergence issues.
翻訳日:2021-04-15 13:30:15 公開日:2021-04-14
# Deep Evaluation Metric: 自律運転の仮想テストのためのシミュレーションレーダポイントクラウドの評価を学ぶ

Deep Evaluation Metric: Learning to Evaluate Simulated Radar Point Clouds for Virtual Testing of Autonomous Driving ( http://arxiv.org/abs/2104.06772v1 )

ライセンス: Link先を確認
Anthony Ngo, Max Paul Bauer, Michael Resch(参考訳) 仮想テストにおける環境センサモデルの利用は、自動運転のテスト労力を減らすための有望なアプローチである。 しかし、シミュレーションに基づく自動運転機能の性能に関する記述を推測するには、合成センサと実センサデータとの差を判定するために、センサモデルを検証する必要がある。 ある程度のばらつきが存在すると仮定できるので、十分な忠実度が決定されなければならず、これは大きな挑戦となる。 特に、センサモデルの忠実度を定量化する方法は存在せず、適切な計量を定義する問題が残っている。 本研究では,実際のレーダポイント雲の潜伏特性を学習するために,実および模擬レーダセンサデータを識別するためにニューラルネットワークを訓練する。 さらに,'real radar point cloud'クラスに対する分類器の信頼度スコアを,合成したレーダデータの忠実度を決定する指標として提案する。 提案手法を評価した結果,提案手法は実レーダデータとシミュレートされたレーダデータの特徴的差異を識別する能力において,従来の測定値よりも優れていることが示された。

The usage of environment sensor models for virtual testing is a promising approach to reduce the testing effort of autonomous driving. However, in order to deduce any statements regarding the performance of an autonomous driving function based on simulation, the sensor model has to be validated to determine the discrepancy between the synthetic and real sensor data. Since a certain degree of divergence can be assumed to exist, the sufficient level of fidelity must be determined, which poses a major challenge. In particular, a method for quantifying the fidelity of a sensor model does not exist and the problem of defining an appropriate metric remains. In this work, we train a neural network to distinguish real and simulated radar sensor data with the purpose of learning the latent features of real radar point clouds. Furthermore, we propose the classifier's confidence score for the `real radar point cloud' class as a metric to determine the degree of fidelity of synthetically generated radar data. The presented approach is evaluated and it can be demonstrated that the proposed deep evaluation metric outperforms conventional metrics in terms of its capability to identify characteristic differences between real and simulated radar data.
翻訳日:2021-04-15 13:30:02 公開日:2021-04-14
# 合成自然言語をデータベースクエリに翻訳する:多言語ディープラーニングフレームワーク

Translating synthetic natural language to database queries: a polyglot deep learning framework ( http://arxiv.org/abs/2104.07010v1 )

ライセンス: Link先を確認
Adri\'an Bazaga and Nupur Gunwant and Gos Micklem(参考訳) データベースの数と、そのサイズと複雑さが増えている。 これは、特にデータの性質、データベースで表現されている方法、データにアクセスする特定のクエリ言語やユーザインターフェースを把握しなくてはならない非専門家のために使用するための障壁を生み出します。 これらの困難は、多くの異なるデータベースを扱うのが一般的である研究環境において悪化する。 この状況を改善する1つのアプローチは、ユーザーが自然言語でクエリを入力できるようにすることである。 本稿では,自然言語検索からデータベースクエリへのマッピングを汎用的にサポートする機械学習フレームワークであるPolyglotterについて述べる。 重要なのは、トレーニングのために手動で注釈付きデータを作成する必要はなく、複数のドメインに簡単に適用できることだ。 このフレームワークは、SQLやCypherなど、さまざまなクエリ言語でアクセスされる複数の異なるデータベースエンジンをサポートするという意味で、多言語である。 さらに、Polyglotterはマルチクラスクエリもサポートする。 その結果,本フレームワークは合成データベースと実データベースの両方で良好に動作し,データベースメンテナがリソースへのアクセシビリティを向上させる機会を提供する可能性が示唆された。

The number of databases as well as their size and complexity is increasing. This creates a barrier to use especially for non-experts, who have to come to grips with the nature of the data, the way it has been represented in the database, and the specific query languages or user interfaces by which data are accessed. These difficulties worsen in research settings, where it is common to work with many different databases. One approach to improving this situation is to allow users to pose their queries in natural language. In this work we describe a machine learning framework, Polyglotter, that in a general way supports the mapping of natural language searches to database queries. Importantly, it does not require the creation of manually annotated data for training and therefore can be applied easily to multiple domains. The framework is polyglot in the sense that it supports multiple different database engines that are accessed with a variety of query languages, including SQL and Cypher. Furthermore Polyglotter also supports multi-class queries. Our results indicate that our framework performs well on both synthetic and real databases, and may provide opportunities for database maintainers to improve accessibility to their resources.
翻訳日:2021-04-15 13:29:25 公開日:2021-04-14
# ロバストネスとプライバシ向上のための因果フェデレーション学習に向けて

Towards Causal Federated Learning For Enhanced Robustness and Privacy ( http://arxiv.org/abs/2104.06557v1 )

ライセンス: Link先を確認
Sreya Francis, Irene Tenison, Irina Rish(参考訳) Federated Learningは、参加するデバイス(クライアント)上でローカルに分散トレーニングを実行し、ローカルモデルをグローバルなモデルに集約することで、共有モデルを構築するための、新たなプライバシ保護型分散機械学習アプローチである。 このアプローチはデータの収集と集約を防ぐため、関連するプライバシのリスクを大幅に削減するのに役立つ。 しかしながら、参加する全クライアントにまたがるデータサンプルは通常独立ではなく、同じ分散(非iid)であり、学習モデルの分散(ood)の一般化は貧弱である。 この課題に加えて、フェデレーション学習は、いくつかの悪意のある関係者がバックドアを挿入したり、生成された集約モデルを分解したり、関係者が所有するデータを推測したりする、セキュリティに対するさまざまな攻撃にも脆弱である。 本稿では,連帯学習環境において,参加するすべてのクライアントに共通する不変性(causal)特徴を学習する手法を提案し,分散性(out of distribution, ood)の精度と最終学習モデルのプライバシを実証的に解析する。

Federated Learning is an emerging privacy-preserving distributed machine learning approach to building a shared model by performing distributed training locally on participating devices (clients) and aggregating the local models into a global one. As this approach prevents data collection and aggregation, it helps in reducing associated privacy risks to a great extent. However, the data samples across all participating clients are usually not independent and identically distributed (non-iid), and Out of Distribution(OOD) generalization for the learned models can be poor. Besides this challenge, federated learning also remains vulnerable to various attacks on security wherein a few malicious participating entities work towards inserting backdoors, degrading the generated aggregated model as well as inferring the data owned by participating entities. In this paper, we propose an approach for learning invariant (causal) features common to all participating clients in a federated learning setup and analyze empirically how it enhances the Out of Distribution (OOD) accuracy as well as the privacy of the final learned model.
翻訳日:2021-04-15 13:28:52 公開日:2021-04-14
# GANに基づく対話型強化学習と人的評価フィードバック

GAN-Based Interactive Reinforcement Learning from Demonstration and Human Evaluative Feedback ( http://arxiv.org/abs/2104.06600v1 )

ライセンス: Link先を確認
Jie Huang, Rongshun Juan, Randy Gomez, Keisuke Nakamura, Qixin Sha, Bo He, Guangliang Li(参考訳) 深部強化学習(DRL)は多くの模擬課題で大きな成功を収めた。 サンプルの非効率性問題は、従来のDRL法を現実世界のロボットに適用することが大きな課題となる。 GAIL(Generative Adversarial Imitation Learning) - モデルなしの模倣学習手法。 しかし、GAILは他の模倣学習手法の限界を共有しており、実演性能に勝ることはめったにない。 本稿では,GAILの限界に対処するため,GAILの利点と対話型強化学習を組み合わせることで,GAILの実証と人的評価フィードバックからGAAIRL(Interactive Reinforcement Learning)を提案する。 提案手法は,カートポールやマウンテンカーといった単純な低次元制御タスクから,逆二重振り子,月面着陸機,ホッパー,ハーフチータまで,6つの物理ベースの制御タスクで検証した。 以上の結果から,gairlエージェントは最適あるいは最適に近い安定なポリシーを常に学習できるが,gailエージェントの性能はデモンストレーションの性能によって上限が高くなるか,それ以上に悪くなっていることが示唆された。 また, GAIRLがGAILより優れている理由として, 実演と評価フィードバックの相補効果が示唆された。

Deep reinforcement learning (DRL) has achieved great successes in many simulated tasks. The sample inefficiency problem makes applying traditional DRL methods to real-world robots a great challenge. Generative Adversarial Imitation Learning (GAIL) -- a general model-free imitation learning method, allows robots to directly learn policies from expert trajectories in large environments. However, GAIL shares the limitation of other imitation learning methods that they can seldom surpass the performance of demonstrations. In this paper, to address the limit of GAIL, we propose GAN-Based Interactive Reinforcement Learning (GAIRL) from demonstration and human evaluative feedback by combining the advantages of GAIL and interactive reinforcement learning. We tested our proposed method in six physics-based control tasks, ranging from simple low-dimensional control tasks -- Cart Pole and Mountain Car, to difficult high-dimensional tasks -- Inverted Double Pendulum, Lunar Lander, Hopper and HalfCheetah. Our results suggest that with both optimal and suboptimal demonstrations, a GAIRL agent can always learn a more stable policy with optimal or close to optimal performance, while the performance of the GAIL agent is upper bounded by the performance of demonstrations or even worse than it. In addition, our results indicate the reason that GAIRL is superior over GAIL is the complementary effect of demonstrations and human evaluative feedback.
翻訳日:2021-04-15 13:28:33 公開日:2021-04-14
# 高スループット物理施設のためのデータ駆動トリガーシステムに向けて

Towards an Interpretable Data-driven Trigger System for High-throughput Physics Facilities ( http://arxiv.org/abs/2104.06622v1 )

ライセンス: Link先を確認
Chinmaya Mahesh, Kristin Dona, David W. Miller, Yuxin Chen(参考訳) データ集約型科学は、収集されるデータの極端な量をフィルタリングし分析するために、リアルタイム処理能力と機械学習ワークフローにますます依存している。 これは粒子物理学のエネルギーと強度のフロンティアにおいて特に当てはまり、原データの帯域幅は数億のセンサーから得られる100 Tb/sを超える。 本稿では,LHC(Large Hadron Collider)のような物理施設で使用される高スループットデータフィルタリングやトリガシステムの設計と最適化のための新しいデータ駆動方式を提案する。 具体的には、手書きトリガシステムによって生成された出力の分布を保存(そして潜在的に改善)しながら、どのデータイベントを保持するかを決定するための最小のランタイムコストでデータ駆動フィルタリングシステムを設計することである。 本研究では,現在のパラダイムにおける非局所的非効率を考慮した解釈可能な予測モデルとコスト依存学習から重要な知見を導入し,物理カバレッジを損なわないコスト効率の高いデータフィルタリングとトリガーモデルを構築した。

Data-intensive science is increasingly reliant on real-time processing capabilities and machine learning workflows, in order to filter and analyze the extreme volumes of data being collected. This is especially true at the energy and intensity frontiers of particle physics where bandwidths of raw data can exceed 100 Tb/s of heterogeneous, high-dimensional data sourced from hundreds of millions of individual sensors. In this paper, we introduce a new data-driven approach for designing and optimizing high-throughput data filtering and trigger systems such as those in use at physics facilities like the Large Hadron Collider (LHC). Concretely, our goal is to design a data-driven filtering system with a minimal run-time cost for determining which data event to keep, while preserving (and potentially improving upon) the distribution of the output as generated by the hand-designed trigger system. We introduce key insights from interpretable predictive modeling and cost-sensitive learning in order to account for non-local inefficiencies in the current paradigm and construct a cost-effective data filtering and trigger model that does not compromise physics coverage.
翻訳日:2021-04-15 13:28:08 公開日:2021-04-14
# クレディ・スコーリングのための機械学習アルゴリズムの実現 -- 複雑な予測モデルを明確に理解するための説明可能な人工知能(XAI)手法

Enabling Machine Learning Algorithms for Credit Scoring -- Explainable Artificial Intelligence (XAI) methods for clear understanding complex predictive models ( http://arxiv.org/abs/2104.06735v1 )

ライセンス: Link先を確認
Przemys{\l}aw Biecek, Marcin Chlebus, Janusz Gajda, Alicja Gosiewska, Anna Kozak, Dominik Ogonowski, Jakub Sztachelski, Piotr Wojewnik(参考訳) 高度なモデリング技術の迅速な開発は、より正確なツールを開発する機会を与える。 しかし、通常、全てに価格が伴うので、この場合の支払いの価格は、その正確さと精度を保ちながらモデルの可読性を緩めることである。 マネージャーが信用リスクをコントロールし、効果的に管理し、規制当局がモデルの品質を確信するためには、料金が高すぎる。 本稿では,評価分析を次のレベルに引き上げる方法,すなわち,様々な予測モデル(論理回帰,証拠変換の重み付きロジスティック回帰,現代の人工知能アルゴリズム)を比較し,高度な木に基づくモデルがクライアントデフォルトの予測に最適な結果をもたらすことを示す。 さらに、より重要で価値のあるのは、より複雑な「ブラックボックス」モデル、例えばランダムフォレスト、勾配ブースト、極端な勾配ブースト木といった、より複雑な「ブラックボックス」モデルの普及における重要な障害を解決するために、それらを解釈し、信用リスク実践者にとってよりアクセスしやすくする技術を使って、高度なモデルを強化する方法を示します。 これら全ては、ポーランド信用局が入手した大規模なデータセットに示され、国内の銀行や貸付会社の大半が信用ファイルを報告している。 本稿では、貸出会社からのデータを活用した。 この論文は、信用リスクモデリングにおける最先端のベストプラクティスと、人工知能アルゴリズムの解釈可能性と説明可能性の分野における最新の発展によって強化された最新の統計ツールを比較した。 さまざまなモデリングツールのプレゼンテーションに関して、これは価値ある貢献だと思いますが、さらに重要なのは、信用リスクコンテキストにおけるAIメソッドの洞察と理解を得るために、どのメソッドが使用されるかを示しています。

Rapid development of advanced modelling techniques gives an opportunity to develop tools that are more and more accurate. However as usually, everything comes with a price and in this case, the price to pay is to loose interpretability of a model while gaining on its accuracy and precision. For managers to control and effectively manage credit risk and for regulators to be convinced with model quality the price to pay is too high. In this paper, we show how to take credit scoring analytics in to the next level, namely we present comparison of various predictive models (logistic regression, logistic regression with weight of evidence transformations and modern artificial intelligence algorithms) and show that advanced tree based models give best results in prediction of client default. What is even more important and valuable we also show how to boost advanced models using techniques which allow to interpret them and made them more accessible for credit risk practitioners, resolving the crucial obstacle in widespread deployment of more complex, 'black box' models like random forests, gradient boosted or extreme gradient boosted trees. All this will be shown on the large dataset obtained from the Polish Credit Bureau to which all the banks and most of the lending companies in the country do report the credit files. In this paper the data from lending companies were used. The paper then compares state of the art best practices in credit risk modelling with new advanced modern statistical tools boosted by the latest developments in the field of interpretability and explainability of artificial intelligence algorithms. We believe that this is a valuable contribution when it comes to presentation of different modelling tools but what is even more important it is showing which methods might be used to get insight and understanding of AI methods in credit risk context.
翻訳日:2021-04-15 13:27:50 公開日:2021-04-14
# ニューラルアーキテクチャ探索と量子化を用いたエンドツーエンドキーワードスポッティング

End-to-end Keyword Spotting using Neural Architecture Search and Quantization ( http://arxiv.org/abs/2104.06666v1 )

ライセンス: Link先を確認
David Peter, Wolfgang Roth, Franz Pernkopf(参考訳) 本稿では、限られた資源環境下でのエンドツーエンドキーワードスポッティング(KWS)モデルの自動発見のためのニューラルネットワーク探索(NAS)を提案する。 我々は、生の音声波形で動作する畳み込みニューラルネットワーク(cnns)の構造を最適化するために、微分可能なnasアプローチを用いる。 NASで適切なKWSモデルが見つかると、メモリフットプリントを減らすために重みとアクティベーションの量子化を行う。 Google音声コマンドデータセットの広範な実験を行う。 特に,メル周波数ケプストラム係数(MFCC)に基づくシステムとエンドツーエンドのアプローチを比較した。 量子化では、固定ビット幅量子化と訓練ビット幅量子化を比較する。 NASのみを使用して、75.7kパラメータと13.6M演算を使用して95.55%の精度で高効率なモデルを得ることができた。 訓練されたビット幅量子化を用いて、同じモデルは平均2.91ビット、重量2.51ビットで93.76%の精度を達成する。

This paper introduces neural architecture search (NAS) for the automatic discovery of end-to-end keyword spotting (KWS) models in limited resource environments. We employ a differentiable NAS approach to optimize the structure of convolutional neural networks (CNNs) operating on raw audio waveforms. After a suitable KWS model is found with NAS, we conduct quantization of weights and activations to reduce the memory footprint. We conduct extensive experiments on the Google speech commands dataset. In particular, we compare our end-to-end approach to mel-frequency cepstral coefficient (MFCC) based systems. For quantization, we compare fixed bit-width quantization and trained bit-width quantization. Using NAS only, we were able to obtain a highly efficient model with an accuracy of 95.55% using 75.7k parameters and 13.6M operations. Using trained bit-width quantization, the same model achieves a test accuracy of 93.76% while using on average only 2.91 bits per activation and 2.51 bits per weight.
翻訳日:2021-04-15 13:26:50 公開日:2021-04-14
# BROADCAST:コミュニケーション効率の良いフェデレーション学習のロバスト化のための確率雑音と圧縮雑音の低減

BROADCAST: Reducing Both Stochastic and Compression Noise to Robustify Communication-Effici ent Federated Learning ( http://arxiv.org/abs/2104.06685v1 )

ライセンス: Link先を確認
Heng Zhu, Qing Ling(参考訳) 作業者とマスタノード間の通信によって局所確率勾配を収集することは,大規模なフェデレーション学習システムにおいて重要なボトルネックとなる。 近年,通信オーバーヘッドを軽減するため,局所確率勾配を圧縮する手法が提案されている。 しかし、このような状況では悪意のある攻撃に対する堅牢性はまれである。 本研究では,ビザンチン労働者による攻撃が任意に悪質な場合,圧縮を伴うビザンチン・ロバスト連関学習の問題点について検討する。 我々は,圧縮確率勾配降下 (sgd) と幾何学的中央値に基づくロバストアグリゲーションのバニラ結合は,ビザンチン攻撃の有無で確率的および圧縮的ノイズに苦しむことを指摘した。 この観察から, 確率的および圧縮的ノイズを共同で低減し, ビザンチンロバスト性を改善することを提案する。 確率的雑音に対しては,正規労働者の内的変動を徐々に排除するために,確率的平均勾配アルゴリズム(saga)を採用する。 圧縮雑音に対して,勾配差圧縮を適用し,自由圧縮を実現する。 提案アルゴリズムは線形収束速度で最適解の近傍に到達することを理論的に証明し,漸近学習誤差は最先端の非圧縮手法と同じ順序であることを示す。 最後に,提案手法の有効性を示す数値実験を行った。

Communication between workers and the master node to collect local stochastic gradients is a key bottleneck in a large-scale federated learning system. Various recent works have proposed to compress the local stochastic gradients to mitigate the communication overhead. However, robustness to malicious attacks is rarely considered in such a setting. In this work, we investigate the problem of Byzantine-robust federated learning with compression, where the attacks from Byzantine workers can be arbitrarily malicious. We point out that a vanilla combination of compressed stochastic gradient descent (SGD) and geometric median-based robust aggregation suffers from both stochastic and compression noise in the presence of Byzantine attacks. In light of this observation, we propose to jointly reduce the stochastic and compression noise so as to improve the Byzantine-robustness . For the stochastic noise, we adopt the stochastic average gradient algorithm (SAGA) to gradually eliminate the inner variations of regular workers. For the compression noise, we apply the gradient difference compression and achieve compression for free. We theoretically prove that the proposed algorithm reaches a neighborhood of the optimal solution at a linear convergence rate, and the asymptotic learning error is in the same order as that of the state-of-the-art uncompressed method. Finally, numerical experiments demonstrate effectiveness of the proposed method.
翻訳日:2021-04-15 13:26:34 公開日:2021-04-14
# ラグランジアン分解によるニューラルネットワーク検証のための分岐境界の改良

Improved Branch and Bound for Neural Network Verification via Lagrangian Decomposition ( http://arxiv.org/abs/2104.06718v1 )

ライセンス: Link先を確認
Alessandro De Palma, Rudy Bunel, Alban Desmaison, Krishnamurthy Dvijotham, Pushmeet Kohli, Philip H.S. Torr, M. Pawan Kumar(参考訳) ニューラルネットワークの入力出力特性を正式に証明するために,分岐境界(BaB)アルゴリズムのスケーラビリティを向上する。 まず,ラグランジアン分解に基づく新しい境界アルゴリズムを提案する。 これまでの研究では、BABツリーの各ノードでの緩和を解いたり、より弱い緩和を構築して効率よく解けるようにしてきたが、不必要に弱い境界に繋がった。 我々の定式化は最適化を最適を含むことが保証される双対領域の部分空間に制限し、加速収束をもたらす。 さらに、現代的なディープラーニングフレームワークを通じてGPUアクセラレーションに対応可能な、非常に並列な実装も可能だ。 第2に,新たなアクティベーションベースの分岐戦略を提案する。 安価なヒューリスティックと高速な双対境界を結合することで、この分岐方式は以前のヒューリスティック法に比べてbab木のサイズを大幅に削減する。 さらに、大規模なオフライントレーニングコストを伴わずに、学習アルゴリズムに基づく最近の戦略と競争的に機能する。 最後に,新しいバウンディングと分岐アルゴリズムに基づいて,分岐ネットワーク境界(BaDNB)と呼ばれるBaBフレームワークを設計する。 BaDNBは従来の完全検証システムよりも大きなマージンで優れており, 対向ロバスト性に関する要因によって平均検証時間を最大50に短縮している。

We improve the scalability of Branch and Bound (BaB) algorithms for formally proving input-output properties of neural networks. First, we propose novel bounding algorithms based on Lagrangian Decomposition. Previous works have used off-the-shelf solvers to solve relaxations at each node of the BaB tree, or constructed weaker relaxations that can be solved efficiently, but lead to unnecessarily weak bounds. Our formulation restricts the optimization to a subspace of the dual domain that is guaranteed to contain the optimum, resulting in accelerated convergence. Furthermore, it allows for a massively parallel implementation, which is amenable to GPU acceleration via modern deep learning frameworks. Second, we present a novel activation-based branching strategy. By coupling an inexpensive heuristic with fast dual bounding, our branching scheme greatly reduces the size of the BaB tree compared to previous heuristic methods. Moreover, it performs competitively with a recent strategy based on learning algorithms, without its large offline training cost. Finally, we design a BaB framework, named Branch and Dual Network Bound (BaDNB), based on our novel bounding and branching algorithms. We show that BaDNB outperforms previous complete verification systems by a large margin, cutting average verification times by factors up to 50 on adversarial robustness properties.
翻訳日:2021-04-15 13:26:10 公開日:2021-04-14
# エッジビデオ分析のための教師なしファインチューニングに向けて

Towards Unsupervised Fine-Tuning for Edge Video Analytics ( http://arxiv.org/abs/2104.06826v1 )

ライセンス: Link先を確認
Daniel Rivas, Francesc Guim, Jord\`a Polo, Josep Ll. Berral, Pubudu M. Silva, David Carrera(参考訳) ImageNetやPASCAL VOCのような一般的なコンピュータビジョンの課題から判断すると、ニューラルネットワークは認識タスクにおいて極めて正確であることが証明されている。 しかし、最先端の精度は計算コストが高く、リアルタイムに近い性能を達成するには最先端のハードウェアアクセラレーションとハイエンドのハードウェアアクセラレーションが必要となる。 同時に、スマートシティや自動運転車のようなユースケースでは、固定カメラからの画像をリアルタイムで自動分析する必要がある。 これらのストリームが生成するネットワーク帯域幅は巨大で一定なので、コンピュートをomnipresentおよびomnipotentクラウドにオフロードすることはできません。 したがって、分散エッジクラウドは、ローカルでイメージを処理する責任を負う必要がある。 しかし、Edge Cloudは本質的にリソースの制約を受けており、エッジで実行されるモデルの計算複雑性に制限がある。 それでも、Edge Cloudと正確なリアルタイムビデオ分析との間には、ミーティングポイントが必要である。 本稿では,自動モデル特殊化による余分な計算コストを伴わないエッジモデルの精度向上手法を提案する。 まず,静的カメラの唯一の仮定が,問題のスコープを大幅に単純化する一連の考察を可能にしていることを示す。 次に、モデルのエンドツーエンドの微調整を自動化するためにこれらの考慮事項を実装し、まとめるフレームワークであるEdge AutoTunerを紹介します。 最後に、複雑なニューラルネットワークは、より良い一般化が可能で、教師として、軽量ニューラルネットワークの微調整のためのデータセットをアノテートし、特定のエッジコンテキストに合わせて調整することで、一定の計算コストで精度を向上し、人間のインタラクションを必要とせずに、効果的に使用できることを示します。 その結果,本手法は,事前学習モデルの精度を平均21%向上できることがわかった。

Judging by popular and generic computer vision challenges, such as the ImageNet or PASCAL VOC, neural networks have proven to be exceptionally accurate in recognition tasks. However, state-of-the-art accuracy often comes at a high computational price, requiring equally state-of-the-art and high-end hardware acceleration to achieve anything near real-time performance. At the same time, use cases such as smart cities or autonomous vehicles require an automated analysis of images from fixed cameras in real-time. Due to the huge and constant amount of network bandwidth these streams would generate, we cannot rely on offloading compute to the omnipresent and omnipotent cloud. Therefore, a distributed Edge Cloud must be in charge to process images locally. However, the Edge Cloud is, by nature, resource-constrained , which puts a limit on the computational complexity of the models executed in the edge. Nonetheless, there is a need for a meeting point between the Edge Cloud and accurate real-time video analytics. In this paper, we propose a method for improving accuracy of edge models without any extra compute cost by means of automatic model specialization. First, we show how the sole assumption of static cameras allows us to make a series of considerations that greatly simplify the scope of the problem. Then, we present Edge AutoTuner, a framework that implements and brings these considerations together to automate the end-to-end fine-tuning of models. Finally, we show that complex neural networks - able to generalize better - can be effectively used as teachers to annotate datasets for the fine-tuning of lightweight neural networks and tailor them to the specific edge context, which boosts accuracy at constant computational cost, and do so without any human interaction. Results show that our method can automatically improve accuracy of pre-trained models by an average of 21%.
翻訳日:2021-04-15 13:25:36 公開日:2021-04-14
# AR-LSAT:テキストの分析的推論の検討

AR-LSAT: Investigating Analytical Reasoning of Text ( http://arxiv.org/abs/2104.06598v1 )

ライセンス: Link先を確認
Wanjun Zhong, Siyuan Wang, Duyu Tang, Zenan Xu, Daya Guo, Jiahai Wang, Jian Yin, Ming Zhou, Nan Duan(参考訳) 分析的推論は、システムが特定の状況を含むシナリオを分析し、結論を出すための推論を行う必要がある、不可欠で困難なタスクである。 本稿では,1991年から2016年までの法学校入学試験において,テキストの分析的推論の課題について検討し,新しいデータセットを導入する。 我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。 さらに,この推論課題に対処するために,(1)最先端の事前学習言語モデルを活用したトランスフォーマー方式と(2)記号的知識(例えば,参加者,事実,論理関数)を抽出して正当な解を推論する論理レベル推論フレームワークである解析推論機(arm)の設計を行った。 実験の結果,Transformerをベースとしたモデルでは,その性能がランダムな推測に近づき,ARMは記号的知識と解釈可能な推論ステップを活用して,より良い性能を達成するため,この課題を解決するのに苦労していることがわかった。 結果は、どちらの手法も人間のパフォーマンスよりはるかに遅れており、今後の研究に余地を残していることを示している。

Analytical reasoning is an essential and challenging task that requires a system to analyze a scenario involving a set of particular circumstances and perform reasoning over it to make conclusions. In this paper, we study the challenge of analytical reasoning of text and introduce a new dataset consisting of questions from the Law School Admission Test from 1991 to 2016. We analyze what knowledge understanding and reasoning abilities are required to do well on this task. Furthermore, to address this reasoning challenge, we design two different baselines: (1) a Transformer-based method which leverages the state-of-the-art pre-trained language models and (2) Analytical Reasoning Machine (ARM), a logical-level reasoning framework extracting symbolic knowledge (e.g, participants, facts, logical functions) to deduce legitimate solutions. In our experiments, we find that the Transformer-based models struggle to solve this task as their performance is close to random guess and ARM achieves better performance by leveraging symbolic knowledge and interpretable reasoning steps. Results show that both methods still lag far behind human performance, which leave further space for future research.
翻訳日:2021-04-15 13:24:01 公開日:2021-04-14
# 教師なしエンティティとイベントサージェンス推定の評価

Evaluation of Unsupervised Entity and Event Salience Estimation ( http://arxiv.org/abs/2104.06924v1 )

ライセンス: Link先を確認
Jiaying Lu, Jinho D. Choi(参考訳) Salience Estimationは、文書における用語の重要性を予測することを目的としている。 既存の人間の注釈付きデータセットがほとんどなく、主観的なサリエンスの概念のため、以前の研究は一般に評価のために擬似地下真実を生成する。 しかし,先行研究が提案する評価プロトコルを再現することは困難であり,追従研究は少ないことが判明した。 さらに、エンティティマッチングに使用されるエンティティリンクツールは非常にうるさいが、イベント評価のためのイベント引数の無知は、性能の向上につながる。 本研究では,より信頼性の高い構文依存パーサを組み込んだ,軽量で実用的なエンティティとイベントサリエンス評価プロトコルを提案する。 さらに、一般的なエンティティおよびイベント定義標準の包括的分析を行い、擬似的真実生成過程におけるノイズを低減するために、Salience Estimationタスクに対する独自の定義を示す。 さらに,エンティティとイベントの相互作用を捉えるために,依存性に基づくヘテロジニアスグラフを構築する。 実験結果から, ヘテロジニアスグラフを用いたベースライン法と新しいGNN法が, 提案した指標すべてにおいて, 従来のSOTAモデルより一貫して優れていることが示された。

Salience Estimation aims to predict term importance in documents. Due to few existing human-annotated datasets and the subjective notion of salience, previous studies typically generate pseudo-ground truth for evaluation. However, our investigation reveals that the evaluation protocol proposed by prior work is difficult to replicate, thus leading to few follow-up studies existing. Moreover, the evaluation process is problematic: the entity linking tool used for entity matching is very noisy, while the ignorance of event argument for event evaluation leads to boosted performance. In this work, we propose a light yet practical entity and event salience estimation evaluation protocol, which incorporates the more reliable syntactic dependency parser. Furthermore, we conduct a comprehensive analysis among popular entity and event definition standards, and present our own definition for the Salience Estimation task to reduce noise during the pseudo-ground truth generation process. Furthermore, we construct dependency-based heterogeneous graphs to capture the interactions of entities and events. The empirical results show that both baseline methods and the novel GNN method utilizing the heterogeneous graph consistently outperform the previous SOTA model in all proposed metrics.
翻訳日:2021-04-15 13:23:36 公開日:2021-04-14
# ニューラルネットワーク翻訳におけるドメイン適応とマルチドメイン適応:調査

Domain Adaptation and Multi-Domain Adaptation for Neural Machine Translation: A Survey ( http://arxiv.org/abs/2104.06951v1 )

ライセンス: Link先を確認
Danielle Saunders(参考訳) ディープラーニング技術の開発により、十分なトレーニングデータとトレーニング時間があれば、ニューラルネットワーク翻訳(NMT)モデルは極めて強力になった。 しかし、異なるスタイルや語彙で新しいドメインからテキストを翻訳する場合、システムは苦労する。 代表的トレーニングコーパスのチューニングはドメイン内翻訳に優れているが、そのようなデータ中心のアプローチは、新しいデータに過度に適合し、以前に学習した振る舞いの‘破滅的な忘れもの’を引き起こす可能性がある。 NMTのドメイン適応に対するより堅牢なアプローチ、特にシステムが複数のドメインからの文を翻訳する必要がある場合に焦点を当てる。 我々は,データ選択,モデルアーキテクチャ,パラメータ適応手順,推論手順に関連する技術に分割する。 最後に、nmt研究の他の分野に対する、ドメイン適応とマルチドメイン適応技術の利点を強調する。

The development of deep learning techniques has allowed Neural Machine Translation (NMT) models to become extremely powerful, given sufficient training data and training time. However, systems struggle when translating text from a new domain with a distinct style or vocabulary. Tuning on a representative training corpus allows good in-domain translation, but such data-centric approaches can cause over-fitting to new data and `catastrophic forgetting' of previously learned behaviour. We concentrate on more robust approaches to domain adaptation for NMT, particularly the case where a system may need to translate sentences from multiple domains. We divide techniques into those relating to data selection, model architecture, parameter adaptation procedure, and inference procedure. We finally highlight the benefits of domain adaptation and multi-domain adaptation techniques to other lines of NMT research.
翻訳日:2021-04-15 13:23:19 公開日:2021-04-14
# IGA : インテントガイドによるオーサリングアシスタント

IGA : An Intent-Guided Authoring Assistant ( http://arxiv.org/abs/2104.07000v1 )

ライセンス: Link先を確認
Simeng Sun, Wenlong Zhao, Varun Manjunatha, Rajiv Jain, Vlad Morariu, Franck Dernoncourt, Balaji Vasan Srinivasan, Mohit Iyyer(参考訳) 大規模事前訓練型言語モデルでは、自動補完などの書き込み支援機能が大幅に改善されているが、より複雑で制御可能な書き込みアシスタントはまだ検討されていない。 我々は、言語モデリングの進歩を活用して、詳細な著者仕様に従ってテキストを生成し、言い換えるインタラクティブな書き込みアシスタントを構築する。 Intent-Guided Assistant (IGA)への入力は、特定の修辞的指示(例えば、記述やコントラストの追加、あるいは特定の文の言い換えなど)に対応するタグが散りばめられたテキスト形式で提供される。 著者意図でヒューリスティックにラベル付けされたデータセット上で言語モデルを微調整することで、igaがこれらのタグを生成テキストで埋め込むことができ、ユーザはその後、好みに合わせて編集することができます。 IGAが生成するアウトプットの品質を自動的およびクラウドソースで評価する一方で,小規模なユーザスタディでは,クリエイティブな文章作成作業におけるベースラインメソッドよりもIGAの方が好まれることを示す。 データセット、コード、デモをリリースし、AI支援書き込みに関するさらなる研究を促します。

While large-scale pretrained language models have significantly improved writing assistance functionalities such as autocomplete, more complex and controllable writing assistants have yet to be explored. We leverage advances in language modeling to build an interactive writing assistant that generates and rephrases text according to fine-grained author specifications. Users provide input to our Intent-Guided Assistant (IGA) in the form of text interspersed with tags that correspond to specific rhetorical directives (e.g., adding description or contrast, or rephrasing a particular sentence). We fine-tune a language model on a dataset heuristically-labele d with author intent, which allows IGA to fill in these tags with generated text that users can subsequently edit to their liking. A series of automatic and crowdsourced evaluations confirm the quality of IGA's generated outputs, while a small-scale user study demonstrates author preference for IGA over baseline methods in a creative writing task. We release our dataset, code, and demo to spur further research into AI-assisted writing.
翻訳日:2021-04-15 13:23:05 公開日:2021-04-14
# 動的障害物を用いた時間最適任意の角度経路計画に向けて

Towards Time-Optimal Any-Angle Path Planning With Dynamic Obstacles ( http://arxiv.org/abs/2104.06681v1 )

ライセンス: Link先を確認
Konstantin Yakovlev, Anton Andreychuk(参考訳) パス探索はAIにおいてよく研究されている問題であり、しばしばグラフ探索として扱われる。 任意の角度の経路探索は、目標への短いパスを構築するために、エッジを追加して初期グラフを拡張するテクニックである。 実際、静的環境における任意の角度経路探索のための最適アルゴリズムが存在する。 しかし、動的障害が存在し、時間が最小化の目的である場合、これらのアルゴリズムはもはや最適性を保証することができない。 そこで本研究では,なぜこのような問題になるのか,どのような手法が最適に解決できるのかについて詳述する。 同じアイデアを基礎とした2つのアルゴリズムを提示し,検討した問題の最適解を求める。 そのうちの1つはナイーブアルゴリズムであり、もう1つはより深く関わっている。 我々は、ある設定において、後者のアルゴリズムは、より優れた品質のソリューションを提供しながら、既知のグリード非最適解法と同等に高速であることを示す、徹底的な経験的評価を行う。 一部の(まれに)ケースでは、コストの差は最大で76%、平均では1%以下である(静的環境では、最適と強欲な任意の角解法の間で同じコスト差が観察される)。

Path finding is a well-studied problem in AI, which is often framed as graph search. Any-angle path finding is a technique that augments the initial graph with additional edges to build shorter paths to the goal. Indeed, optimal algorithms for any-angle path finding in static environments exist. However, when dynamic obstacles are present and time is the objective to be minimized, these algorithms can no longer guarantee optimality. In this work, we elaborate on why this is the case and what techniques can be used to solve the problem optimally. We present two algorithms, grounded in the same idea, that can obtain provably optimal solutions to the considered problem. One of them is a naive algorithm and the other one is much more involved. We conduct a thorough empirical evaluation showing that, in certain setups, the latter algorithm might be as fast as the previously-known greedy non-optimal solver while providing solutions of better quality. In some (rare) cases, the difference in cost is up to 76%, while on average it is lower than one percent (the same cost difference is typically observed between optimal and greedy any-angle solvers in static environments).
翻訳日:2021-04-15 13:22:48 公開日:2021-04-14
# ミニアルファスターの紹介

An Introduction of mini-AlphaStar ( http://arxiv.org/abs/2104.06890v1 )

ライセンス: Link先を確認
Ruo-Ze Liu, Wenhai Wang, Yanjie Shen, Zhiqi Li, Yang Yu, Tong Lu(参考訳) StarCraft II (SC2) は、プレイヤーが複数のユニットを生産し、制御するリアルタイム戦略ゲームである。 巨大な状態空間、様々な行動空間、長期間の地平線、不完全な情報などの困難さから、SC2は強化学習研究における研究のハイライトとなっている。 近年,AlphaStarと呼ばれるSC2エージェントは優れた性能を示し,グランドマスターレベルの人間選手に対して99.8%の勝利率を得た。 論文と擬似コードに基づいてミニアルファスターと呼ばれるミニスケール版を実装した。 本技術報告では,その利用と分析について述べる。 AlphaStarとMini-AlphaStarの違いは、以前のバージョンのハイパーパラメータをミニスケールのトレーニング用にずっと小さいものに置き換えたことです。 mini-alphastarのコードはすべてオープンソースである。 mini-alphastarの目的は、オリジナルのalphastarの複製を提供し、大規模な問題に対するrlの今後の研究を容易にすることである。

StarCraft II (SC2) is a real-time strategy game, in which players produce and control multiple units to win. Due to its difficulties, such as huge state space, various action space, a long time horizon, and imperfect information, SC2 has been a research highlight in reinforcement learning research. Recently, an SC2 agent called AlphaStar is proposed which shows excellent performance, obtaining a high win-rates of 99.8% against Grandmaster level human players. We implemented a mini-scaled version of it called mini-AlphaStar based on their paper and the pseudocode they provided. The usage and analysis of it are shown in this technical report. The difference between AlphaStar and mini-AlphaStar is that we substituted the hyper-parameters in the former version with much smaller ones for mini-scale training. The codes of mini-AlphaStar are all open-sourced. The objective of mini-AlphaStar is to provide a reproduction of the original AlphaStar and facilitate the future research of RL on large-scale problems.
翻訳日:2021-04-15 13:22:29 公開日:2021-04-14
# 回帰因子を信頼するか否か:回帰予測の信頼性を推定し説明する

To Trust or Not to Trust a Regressor: Estimating and Explaining Trustworthiness of Regression Predictions ( http://arxiv.org/abs/2104.06982v1 )

ライセンス: Link先を確認
Kim de Bie, Ana Lucic, Hinda Haned(参考訳) ハイブリッドなヒューマンAIシステムでは、ユーザーは予測における真のエラーが不明である間にアルゴリズムの予測を信頼するかどうかを決定する必要がある。 このような設定に対応するため,回帰予測の信頼性を (i) 推定し, (ii) 説明するためのRETRO-VIZを導入する。 予測の信頼性を定量的に推定するレトロ(retro)と、予測の信頼性(lack of)の理由を特定するのに役立つ視覚的な説明(viz)で構成されている。 この結果から,RETROスコアは信頼できない予測と信頼できない予測を区別するのに有用な指標であることが示唆された。 41人の参加者によるユーザスタディにおいて、VZ-Explanationsは、予測が信頼できるかどうかを判断するのに役立ち、平均して、95.1%の参加者が、予測のペアからより信頼できる予測を正しく選択する。 さらに、平均75.6%の参加者が、なぜ予測が信頼に値するものではないかを正確に説明できる。 最後に,ほとんどのユーザがRETRO-VIZをアルゴリズム予測の信頼性を評価する有用なツールとして経験していることを見出した。

In hybrid human-AI systems, users need to decide whether or not to trust an algorithmic prediction while the true error in the prediction is unknown. To accommodate such settings, we introduce RETRO-VIZ, a method for (i) estimating and (ii) explaining trustworthiness of regression predictions. It consists of RETRO, a quantitative estimate of the trustworthiness of a prediction, and VIZ, a visual explanation that helps users identify the reasons for the (lack of) trustworthiness of a prediction. We find that RETRO-scores negatively correlate with prediction error across 117 experimental settings, indicating that RETRO provides a useful measure to distinguish trustworthy predictions from untrustworthy ones. In a user study with 41 participants, we find that VIZ-explanations help users identify whether a prediction is trustworthy or not: on average, 95.1% of participants correctly select the more trustworthy prediction, given a pair of predictions. In addition, an average of 75.6% of participants can accurately describe why a prediction seems to be (not) trustworthy. Finally, we find that the vast majority of users subjectively experience RETRO-VIZ as a useful tool to assess the trustworthiness of algorithmic predictions.
翻訳日:2021-04-15 13:22:12 公開日:2021-04-14
# フェデレーション一般化顔提示攻撃検出

Federated Generalized Face Presentation Attack Detection ( http://arxiv.org/abs/2104.06595v1 )

ライセンス: Link先を確認
Rui Shao, Pramuditha Perera, Pong C. Yuen, Vishal M. Patel(参考訳) 顔提示攻撃検出は、現代の顔認識パイプラインにおいて重要な役割を果たす。 異なる入力分布と異なる種類のスプーフ攻撃から顔画像で訓練した場合には、優れた一般化を伴う顔提示攻撃検出モデルが得られる。 実際、トレーニングデータ(実際の顔画像と偽画像の両方)は、法的およびプライバシー上の問題により、データ所有者間で直接共有されない。 本稿では,この課題を回避するために,データプライバシを維持しつつ,異なるデータ所有者で利用可能なfPAD情報を同時に活用するフェデレーション顔提示検出(FedPAD)フレームワークを提案する。 提案フレームワークでは,各データセンタが独自のfPADモデルをローカルにトレーニングする。 サーバは、各データセンタ内のプライベートデータにアクセスすることなく、すべてのデータセンタからモデル更新を反復的に集約することで、グローバルなfPADモデルを学ぶ。 サーバに集約されたfPADモデルを、FedPADの基本概念に従い、ユーザからの攻撃を発見できないような一般化能力を持たせるために、フェデレーション一般化顔提示検出(FedGPAD)フレームワークを提案する。 FedGPADでは、各データセンタをひとつのドメインとして扱い、fPADモデルを各データセンタのドメイン不変部分とドメイン固有部分に分解するフェデレートされたドメインアンタングル化戦略が導入されている。 2つの部分は、各ローカルデータセンターの画像からドメイン不変とドメイン固有の特徴をそれぞれ分離する。 サーバは、データセンターからfPADモデルのドメイン不変部分を集約するだけでグローバルなfPADモデルを学習し、より一般化されたfPADモデルをサーバに集約することができる。 提案するFedPADおよびFedGPADフレームワークを評価するための実験環境について紹介し、fPADのフェデレート学習に関する様々な知見を提供するための広範な実験を行う。

Face presentation attack detection plays a critical role in the modern face recognition pipeline. A face presentation attack detection model with good generalization can be obtained when it is trained with face images from different input distributions and different types of spoof attacks. In reality, training data (both real face images and spoof images) are not directly shared between data owners due to legal and privacy issues. In this paper, with the motivation of circumventing this challenge, we propose a Federated Face Presentation Attack Detection (FedPAD) framework that simultaneously takes advantage of rich fPAD information available at different data owners while preserving data privacy. In the proposed framework, each data center locally trains its own fPAD model. A server learns a global fPAD model by iteratively aggregating model updates from all data centers without accessing private data in each of them. To equip the aggregated fPAD model in the server with better generalization ability to unseen attacks from users, following the basic idea of FedPAD, we further propose a Federated Generalized Face Presentation Attack Detection (FedGPAD) framework. A federated domain disentanglement strategy is introduced in FedGPAD, which treats each data center as one domain and decomposes the fPAD model into domain-invariant and domain-specific parts in each data center. Two parts disentangle the domain-invariant and domain-specific features from images in each local data center, respectively. A server learns a global fPAD model by only aggregating domain-invariant parts of the fPAD models from data centers and thus a more generalized fPAD model can be aggregated in server. We introduce the experimental setting to evaluate the proposed FedPAD and FedGPAD frameworks and carry out extensive experiments to provide various insights about federated learning for fPAD.
翻訳日:2021-04-15 13:20:44 公開日:2021-04-14
# ゼロショットインスタンスセグメンテーション

Zero-Shot Instance Segmentation ( http://arxiv.org/abs/2104.06601v1 )

ライセンス: Link先を確認
Ye Zheng, Jiahong Wu, Yongqiang Qin, Faen Zhang, Li Cui(参考訳) ディープラーニングは、豊富なラベル付きデータによるインスタンスセグメンテーションの精度を大幅に向上させた。 しかし、医療や製造などの多くの分野では、十分なデータを集めることは極めて困難であり、このデータをラベル付けするには高い専門的スキルが必要である。 我々はこの動機に従い、ゼロショットインスタンスセグメンテーション(ZSI)と呼ばれる新しいタスクセットを提案する。 ZSIのトレーニングフェーズでは、モデルは可視データでトレーニングされるが、テストフェーズでは、すべての可視および不可視のインスタンスをセグメントするために使用される。 まず,zsiタスクを定式化し,ゼロショット検出器,セマンティクスマスクヘッド,背景認識rpn,同期背景戦略からなる課題に取り組む手法を提案する。 我々は,MS-COCOデータセットに基づくゼロショットインスタンスセグメンテーションのための新しいベンチマークを提案する。 このベンチマークで得られた実験結果から,本手法はゼロショットオブジェクト検出タスクの最先端結果を上回るだけでなく,ZSI上での有望な性能も達成できることがわかった。 当社のアプローチは,ゼロショットインスタンスセグメンテーションにおける強固なベースラインとして機能し,今後の研究を促進する。

Deep learning has significantly improved the precision of instance segmentation with abundant labeled data. However, in many areas like medical and manufacturing, collecting sufficient data is extremely hard and labeling this data requires high professional skills. We follow this motivation and propose a new task set named zero-shot instance segmentation (ZSI). In the training phase of ZSI, the model is trained with seen data, while in the testing phase, it is used to segment all seen and unseen instances. We first formulate the ZSI task and propose a method to tackle the challenge, which consists of Zero-shot Detector, Semantic Mask Head, Background Aware RPN and Synchronized Background Strategy. We present a new benchmark for zero-shot instance segmentation based on the MS-COCO dataset. The extensive empirical results in this benchmark show that our method not only surpasses the state-of-the-art results in zero-shot object detection task but also achieves promising performance on ZSI. Our approach will serve as a solid baseline and facilitate future research in zero-shot instance segmentation.
翻訳日:2021-04-15 13:20:15 公開日:2021-04-14
# 偽顔検出のための代表的偽造マイニング

Representative Forgery Mining for Fake Face Detection ( http://arxiv.org/abs/2104.06609v1 )

ライセンス: Link先を確認
Chengrui Wang, Weihong Deng(参考訳) バニラ畳み込みニューラルネットワーク(cnn)ベースの検出器は偽の顔検出において十分な性能を発揮することができるが、検出者は限られた顔領域で偽造を求める傾向があり、偽造の理解が不足していることが分かる。 そこで本研究では,検出器の改良と拡張のための注意に基づくデータ拡張フレームワークを提案する。 特に,本手法はトップnに敏感な顔領域を追跡し,検出者に対して,以前無視された領域にさらに深く侵入し,より代表的な偽造を行うよう促すものである。 特に,本手法は使いやすく,様々なCNNモデルと容易に統合できる。 広範な実験により, 異なる操作技術によって生成される偽顔の代表的偽造を別々に指摘することが可能であり, また, バニラcnnベースの検出装置では, 構造変更を伴わずに最先端の性能を実現することができることを示した。

Although vanilla Convolutional Neural Network (CNN) based detectors can achieve satisfactory performance on fake face detection, we observe that the detectors tend to seek forgeries on a limited region of face, which reveals that the detectors is short of understanding of forgery. Therefore, we propose an attention-based data augmentation framework to guide detector refine and enlarge its attention. Specifically, our method tracks and occludes the Top-N sensitive facial regions, encouraging the detector to mine deeper into the regions ignored before for more representative forgery. Especially, our method is simple-to-use and can be easily integrated with various CNN models. Extensive experiments show that the detector trained with our method is capable to separately point out the representative forgery of fake faces generated by different manipulation techniques, and our method enables a vanilla CNN-based detector to achieve state-of-the-art performance without structure modification.
翻訳日:2021-04-15 13:19:55 公開日:2021-04-14
# ビデオ塗装用デカップリング型時空間変圧器

Decoupled Spatial-Temporal Transformer for Video Inpainting ( http://arxiv.org/abs/2104.06637v1 )

ライセンス: Link先を確認
Rui Liu, Hanming Deng, Yangyi Huang, Xiaoyu Shi, Lewei Lu, Wenxiu Sun, Xiaogang Wang, Jifeng Dai, Hongsheng Li(参考訳) ビデオインペイントは、与えられた時空間の穴を現実的な外観で埋めることを目的としている。 最近の研究は、有望なTransformerアーキテクチャをディープビデオに取り入れ、より良いパフォーマンスを実現している。 しかし、いまだに曖昧なテクスチャの合成と膨大な計算コストに悩まされている。 そこで本研究では,映像の塗装効率を向上する新しいデカップリング型空間時間変換器(DSTT)を提案する。 提案するDSTTは,時間的に分離されたトランスフォーマーブロックと,時間的に分離されたトランスフォーマーブロックと,空間的に分離されたトランスフォーマーブロックによって実現された同じフレーム上で同じ背景テクスチャに,時間的に異なるフレーム上での時間的対象運動に参加するためのタスクである。 これら2つのブロックの干渉スタックにより,提案モデルが背景テクスチャや移動物体により正確に対応できるため,その穴を埋めるために,対応可能な時間的コヒーレントな外観を伝播させることができる。 さらにトランスフォーマーブロックのスタックの前に階層エンコーダを採用し、マルチレベルの局所的な空間構造を維持する堅牢で階層的な特徴を学習し、より代表的なトークンベクトルを生み出す。 これら2つの新デザインのシームレスな組み合わせは,空間的・時間的アテンション・スキームとして優れており,提案モデルは,最先端の映像塗装手法よりも優れた性能を実現し,効率を著しく向上させる。

Video inpainting aims to fill the given spatiotemporal holes with realistic appearance but is still a challenging task even with prosperous deep learning approaches. Recent works introduce the promising Transformer architecture into deep video inpainting and achieve better performance. However, it still suffers from synthesizing blurry texture as well as huge computational cost. Towards this end, we propose a novel Decoupled Spatial-Temporal Transformer (DSTT) for improving video inpainting with exceptional efficiency. Our proposed DSTT disentangles the task of learning spatial-temporal attention into 2 sub-tasks: one is for attending temporal object movements on different frames at same spatial locations, which is achieved by temporally-decoupled Transformer block, and the other is for attending similar background textures on same frame of all spatial positions, which is achieved by spatially-decoupled Transformer block. The interweaving stack of such two blocks makes our proposed model attend background textures and moving objects more precisely, and thus the attended plausible and temporally-coherent appearance can be propagated to fill the holes. In addition, a hierarchical encoder is adopted before the stack of Transformer blocks, for learning robust and hierarchical features that maintain multi-level local spatial structure, resulting in the more representative token vectors. Seamless combination of these two novel designs forms a better spatial-temporal attention scheme and our proposed model achieves better performance than state-of-the-art video inpainting approaches with significant boosted efficiency.
翻訳日:2021-04-15 13:19:38 公開日:2021-04-14
# 領域適応正規化による意味的人物画像生成の学習

Learning Semantic Person Image Generation by Region-Adaptive Normalization ( http://arxiv.org/abs/2104.06650v1 )

ライセンス: Link先を確認
Zhengyao Lv, Xiaoming Li, Xin Li, Fu Li, Tianwei Lin, Dongliang He and Wangmeng Zuo(参考訳) ヒトのポーズ転送は幅広い応用のために大きな注目を集めているが、まだ十分に解決されていない課題である。 近年の研究では、人物画像をソースからターゲットのポーズに転送することに成功した。 しかし、それらの多くは意味的な外観をうまく捉えられず、結果として再構成された結果に対して一貫性がなく、現実的でないテクスチャをもたらす。 この問題に対処するために,ポーズと外観の翻訳を扱う新しい2段階フレームワークを提案する。 第1段階では,ポーズ伝達の難しさを解消するために対象意味解析マップを予測し,さらに地域毎の出現パターンの後者の翻訳に便益を与える。 次に,予測対象セマンティックマップを用いて,地域適応正規化を取り入れた新たな人物画像生成手法を提案する。 大規模な実験により,提案したSPGNetはより意味的,一貫性があり,フォトリアリスティックな結果を生成することができ,定量的かつ定性的な評価の観点から技術手法の状況に対して好適に機能することが示された。 ソースコードとモデルはhttps://github.com/c szy98/spgnet.gitで入手できる。

Human pose transfer has received great attention due to its wide applications, yet is still a challenging task that is not well solved. Recent works have achieved great success to transfer the person image from the source to the target pose. However, most of them cannot well capture the semantic appearance, resulting in inconsistent and less realistic textures on the reconstructed results. To address this issue, we propose a new two-stage framework to handle the pose and appearance translation. In the first stage, we predict the target semantic parsing maps to eliminate the difficulties of pose transfer and further benefit the latter translation of per-region appearance style. In the second one, with the predicted target semantic maps, we suggest a new person image generation method by incorporating the region-adaptive normalization, in which it takes the per-region styles to guide the target appearance generation. Extensive experiments show that our proposed SPGNet can generate more semantic, consistent, and photo-realistic results and perform favorably against the state of the art methods in terms of quantitative and qualitative evaluation. The source code and model are available at https://github.com/c szy98/SPGNet.git.
翻訳日:2021-04-15 13:19:06 公開日:2021-04-14
# ADNet:サーベイランスビデオにおける時間的異常検出

ADNet: Temporal Anomaly Detection in Surveillance Videos ( http://arxiv.org/abs/2104.06653v1 )

ライセンス: Link先を確認
Halil \.Ibrahim \"Ozt\"urk, Ahmet Burak Can(参考訳) 監視ビデオにおける異常検出はコンピュータビジョンの重要な研究課題である。 本稿では,ビデオ内の異常を局所化する時間的畳み込みを利用した異常検出ネットワークadnetを提案する。 このモデルは、固定数のビデオクリップからなる連続したウィンドウを受け入れることで、オンラインで機能する。 ウィンドウ内のビデオクリップから抽出された機能はADNetに送られ、ビデオ内の異常を効果的にローカライズすることができる。 我々はADNetの異常セグメント検出性能を改善するためにADロス関数を提案する。 さらに、時間的異常検出にF1@kメトリックを用いることを提案する。 f1@kはaucよりも良い評価基準であり、時間的セグメントのマイナーシフトを罰し、短い偽正の時間的セグメント予測を罰しない。 さらに、さらに2つの異常クラスを追加し、すべてのクラスに対して時間的異常アノテーションを提供することで、UCF犯罪データセットを拡張します。 最後に、拡張されたUCF犯罪データセット上で、我々のモデルを徹底的に評価する。 ADNetはF1@kメトリックに関して有望な結果を生成する。 Datasetエクステンションとコードは公開時に公開される

Anomaly detection in surveillance videos is an important research problem in computer vision. In this paper, we propose ADNet, an anomaly detection network, which utilizes temporal convolutions to localize anomalies in videos. The model works online by accepting consecutive windows consisting of fixed-number of video clips. Features extracted from video clips in a window are fed to ADNet, which allows to localize anomalies in videos effectively. We propose the AD Loss function to improve abnormal segment detection performance of ADNet. Additionally, we propose to use F1@k metric for temporal anomaly detection. F1@k is a better evaluation metric than AUC in terms of not penalizing minor shifts in temporal segments and punishing short false positive temporal segment predictions. Furthermore, we extend UCF Crime dataset by adding two more anomaly classes and providing temporal anomaly annotations for all classes. Finally, we thoroughly evaluate our model on the extended UCF Crime dataset. ADNet produces promising results with respect to F1@k metric. Dataset extensions and code will be publicly available upon publishing
翻訳日:2021-04-15 13:18:45 公開日:2021-04-14
# メタプロトタイプネットワークを用いたビデオの正規ダイナミクスの学習

Learning Normal Dynamics in Videos with Meta Prototype Network ( http://arxiv.org/abs/2104.06689v1 )

ライセンス: Link先を確認
Hui Lv, Chen Chen, Zhen Cui, Chunyan Xu, Yong Li, Jian Yang(参考訳) オートエンコーダ(AE)に基づくフレーム再構成(現在または将来のフレーム)は、ビデオ異常検出の一般的な方法である。 通常のデータに基づいてトレーニングされたモデルでは、異常シーンの再構成エラーは通常、通常のものよりもはるかに大きい。 以前の方法では、トレーニングビデオのさまざまな通常のパターンをエンコードするために、メモリバンクをAEに導入していた。 しかし、これらはメモリ消費であり、テストデータで目に見えない新しいシナリオに対処できない。 本研究では,メモリの余分なコストを伴わずに,動的プロトタイプをプロトタイプとしてリアルタイムに符号化する動的プロトタイプユニット(DPU)を提案する。 さらに,DPUにメタラーニングを導入し,メタプロトタイプユニット(MPU)という,新しい数発の正規化学習システムを構築した。 新しいシーンへの高速な適応機能を実現するために、更新を数回繰り返すだけでよい。 様々なベンチマークで広範な実験が行われている。 最先端技術よりも優れた性能は,本手法の有効性を示す。

Frame reconstruction (current or future frame) based on Auto-Encoder (AE) is a popular method for video anomaly detection. With models trained on the normal data, the reconstruction errors of anomalous scenes are usually much larger than those of normal ones. Previous methods introduced the memory bank into AE, for encoding diverse normal patterns across the training videos. However, they are memory-consuming and cannot cope with unseen new scenarios in the testing data. In this work, we propose a dynamic prototype unit (DPU) to encode the normal dynamics as prototypes in real time, free from extra memory cost. In addition, we introduce meta-learning to our DPU to form a novel few-shot normalcy learner, namely Meta-Prototype Unit (MPU). It enables the fast adaption capability on new scenes by only consuming a few iterations of update. Extensive experiments are conducted on various benchmarks. The superior performance over the state-of-the-art demonstrates the effectiveness of our method.
翻訳日:2021-04-15 13:18:30 公開日:2021-04-14
# 長期映像予測における階層的アプローチの再検討

Revisiting Hierarchical Approach for Persistent Long-Term Video Prediction ( http://arxiv.org/abs/2104.06697v1 )

ライセンス: Link先を確認
Wonkwang Lee, Whie Jung, Han Zhang, Ting Chen, Jing Yu Koh, Thomas Huang, Hyungsuk Yoon, Honglak Lee, Seunghoon Hong(参考訳) ビデオフレームの長期的な未来を予測するための学習は、遠方の曖昧さと時間による予測誤差の劇的な増幅のために、悪名高い。 文献の最近の進歩にもかかわらず、既存のアプローチは適度に短期的な予測(数秒以内)に限定されている。 本研究では,映像予測において階層モデルを再検討する。 本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。 単純さにもかかわらず、確率的反復推定器を用いた離散的意味構造空間における構造とその力学が驚くほど長期的予測に成功することを示す。 我々は,自動車運転と人間のダンスを含む3つの挑戦的データセットについて評価し,非常に長い時間的水平線(例えば数千フレーム)で複雑なシーン構造と動きを生成できることを示し,既存のアプローチよりも桁違いに長い予測時間でビデオ予測の新しい標準を設定した。 完全なビデオとコードはhttps://1konny.githu b.io/hvp/で入手できる。

Learning to predict the long-term future of video frames is notoriously challenging due to inherent ambiguities in the distant future and dramatic amplifications of prediction error through time. Despite the recent advances in the literature, existing approaches are limited to moderately short-term prediction (less than a few seconds), while extrapolating it to a longer future quickly leads to destruction in structure and content. In this work, we revisit hierarchical models in video prediction. Our method predicts future frames by first estimating a sequence of semantic structures and subsequently translating the structures to pixels by video-to-video translation. Despite the simplicity, we show that modeling structures and their dynamics in the discrete semantic structure space with a stochastic recurrent estimator leads to surprisingly successful long-term prediction. We evaluate our method on three challenging datasets involving car driving and human dancing, and demonstrate that it can generate complicated scene structures and motions over a very long time horizon (i.e., thousands frames), setting a new standard of video prediction with orders of magnitude longer prediction time than existing approaches. Full videos and codes are available at https://1konny.githu b.io/HVP/.
翻訳日:2021-04-15 13:18:17 公開日:2021-04-14
# 実世界における顔認識のための有意義な対向ステッカー

Meaningful Adversarial Stickers for Face Recognition in Physical World ( http://arxiv.org/abs/2104.06728v1 )

ライセンス: Link先を確認
Ying Guo, Xingxing Wei, Guoqiu Wang, Bo Zhang(参考訳) 顔認識(FR)システムは、深層学習の導入により、安全クリティカルな分野に広く応用されている。 しかし、敵対的な例の存在はfrシステムに潜在的なセキュリティリスクをもたらす。 そこで本研究では,攻撃者が摂動パターンを設計して印刷する代わりに,顔に貼られたステッカーのペーストパラメータを操作するために,我々の生活に存在する有意義な実ステッカーを用いて,物理的に実現可能で容易に実装可能な攻撃方法である有意義な敵ステッカーを提案する。 我々は、より困難で実用的な限られた情報でブラックボックス設定で攻撃を行う。 ステッカーの貼付位置, 回転角, その他のパラメータを効果的に解くために, 有効解の局所的集約と評価基準の適応的調整戦略に基づく近交戦略を利用する領域ベースヒューリスティック微分アルゴリズムを設計した。 lfwとcelebaの2つのパブリックデータセットで、facenet、sphereface、cosfaceの3つの代表的なfrモデルを対象に、攻撃成功率81.78%、72.93%、79.26%をそれぞれ数百のクエリで達成した。 その結果, 複雑な物理条件下での本手法の有効性が確認できた。 テスタの顔の姿勢を継続的に変える際には、98.46%、91.30%、86.96%の攻撃を成功させることができる。

Face recognition (FR) systems have been widely applied in safety-critical fields with the introduction of deep learning. However, the existence of adversarial examples brings potential security risks to FR systems. To identify their vulnerability and help improve their robustness, in this paper, we propose Meaningful Adversarial Stickers, a physically feasible and easily implemented attack method by using meaningful real stickers existing in our life, where the attackers manipulate the pasting parameters of stickers on the face, instead of designing perturbation patterns and then printing them like most existing works. We conduct attacks in the black-box setting with limited information which is more challenging and practical. To effectively solve the pasting position, rotation angle, and other parameters of the stickers, we design Region based Heuristic Differential Algorithm, which utilizes the inbreeding strategy based on regional aggregation of effective solutions and the adaptive adjustment strategy of evaluation criteria. Extensive experiments are conducted on two public datasets including LFW and CelebA with respective to three representative FR models like FaceNet, SphereFace, and CosFace, achieving attack success rates of 81.78%, 72.93%, and 79.26% respectively with only hundreds of queries. The results in the physical world confirm the effectiveness of our method in complex physical conditions. When continuously changing the face posture of testers, the method can still perform successful attacks up to 98.46%, 91.30% and 86.96% in the time series.
翻訳日:2021-04-15 13:17:57 公開日:2021-04-14
# 弱くも深く教師付きオクルージョン共鳴パラメトリックレイアウト

Weakly But Deeply Supervised Occlusion-Reasoned Parametric Layouts ( http://arxiv.org/abs/2104.06730v1 )

ライセンス: Link先を確認
Buyu Liu, Bingbing Zhuang, Manmohan Chandraker(参考訳) 本稿では,複雑な道路シーンの1つの視点rgb画像を入力として,視点空間におけるオクルージョン調整レイアウトとトップビューパラメトリック空間を生成するエンド・ツー・エンドネットワークを提案する。 パースペクティブ・ビューにおけるセマンティック・ラベルなどの厳密な監督を必要とする先行研究とは対照的に,本手法で必要とされる注釈は,より安価で不明瞭なパラメトリック属性のみである。 この課題を解決するため,本設計では,帰納的バイアスを取り入れたモジュールでオクルージョン推論,幾何学的変換,セマンティック抽象化を学習し,各モジュールをパラメトリックアノテーションを適切に変換して管理することができる。 設計選択と深い監督が正確な予測と有意義な表現を達成する上でどのように役立つかを実証する。 我々は,kitti と nuscenes という2つの公開データセット上で,人間の監督をかなり低くして最新の結果を達成するためのアプローチを検証する。

We propose an end-to-end network that takes a single perspective RGB image of a complex road scene as input, to produce occlusion-reasoned layouts in perspective space as well as a top-view parametric space. In contrast to prior works that require dense supervision such as semantic labels in perspective view, the only human annotations required by our method are for parametric attributes that are cheaper and less ambiguous to obtain. To solve this challenging task, our design is comprised of modules that incorporate inductive biases to learn occlusion-reasoning, geometric transformation and semantic abstraction, where each module may be supervised by appropriately transforming the parametric annotations. We demonstrate how our design choices and proposed deep supervision help achieve accurate predictions and meaningful representations. We validate our approach on two public datasets, KITTI and NuScenes, to achieve state-of-the-art results with considerably lower human supervision.
翻訳日:2021-04-15 13:17:33 公開日:2021-04-14
# NIR-VIS Masked Face Recognition に向けて

Towards NIR-VIS Masked Face Recognition ( http://arxiv.org/abs/2104.06761v1 )

ライセンス: Link先を確認
Hang Du, Hailin Shi, Yinglu Liu, Dan Zeng, and Tao Mei(参考訳) 近赤外可視(NIR-VIS)顔認識は、異種顔認識において最も一般的であり、2つの異なるモードから取得した2つの顔画像のマッチングを目的としている。 NIR-VISの顔認識技術は、新型コロナウイルス(COVID-19)のパンデミック(パンデミック)で新たに流行した問題に遭遇する一方、既存のディープラーニングベースの手法は目覚ましい進歩を遂げている。 我々は,この課題をNIR-VISマスク顔認識と定義し,NIRプローブ画像のマスク顔に問題を見出した。 まず、マスクされた顔データの欠如は、ネットワークトレーニングにとって難しい問題である。 第二に、顔のほとんどの部分(ギーク、口、鼻など) マスクに完全に隠されているため、大量の情報を失うことになる。 第3に、残りの顔面部分にはドメインギャップが残っている。 このようなシナリオでは、既存の手法は上記の問題による大幅な性能劣化に悩まされる。 本稿では,NIR-VISマスクによる顔認識の課題を,トレーニングデータとトレーニング手法の観点から解決することを目的とする。 具体的には, セミシャムネットワークを用いて, 2つの領域の面表現で共有される相互情報を最大化する, 新たな異種学習手法を提案する。 さらに、既存のNIR画像からマスク面を合成するために、3次元顔再構成に基づくアプローチを用いる。 これらのプラクティスを頼りに、このソリューションはマスクオクルージョンにロバストなドメイン不変の顔表現を提供する。 3つのNIR-VIS顔データセットの大規模な実験により,本手法の有効性とクロスデータセット一般化能力が示された。

Near-infrared to visible (NIR-VIS) face recognition is the most common case in heterogeneous face recognition, which aims to match a pair of face images captured from two different modalities. Existing deep learning based methods have made remarkable progress in NIR-VIS face recognition, while it encounters certain newly-emerged difficulties during the pandemic of COVID-19, since people are supposed to wear facial masks to cut off the spread of the virus. We define this task as NIR-VIS masked face recognition, and find it problematic with the masked face in the NIR probe image. First, the lack of masked face data is a challenging issue for the network training. Second, most of the facial parts (cheeks, mouth, nose etc.) are fully occluded by the mask, which leads to a large amount of loss of information. Third, the domain gap still exists in the remaining facial parts. In such scenario, the existing methods suffer from significant performance degradation caused by the above issues. In this paper, we aim to address the challenge of NIR-VIS masked face recognition from the perspectives of training data and training method. Specifically, we propose a novel heterogeneous training method to maximize the mutual information shared by the face representation of two domains with the help of semi-siamese networks. In addition, a 3D face reconstruction based approach is employed to synthesize masked face from the existing NIR image. Resorting to these practices, our solution provides the domain-invariant face representation which is also robust to the mask occlusion. Extensive experiments on three NIR-VIS face datasets demonstrate the effectiveness and cross-dataset-genera lization capacity of our method.
翻訳日:2021-04-15 13:17:15 公開日:2021-04-14
# 人物再識別のためのグラフに基づく人物署名

Graph-based Person Signature for Person Re-Identifications ( http://arxiv.org/abs/2104.06770v1 )

ライセンス: Link先を確認
Binh X. Nguyen, Binh D. Nguyen, Tuong Do, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 人物再識別(reid)のタスクは、同一人物の画像を複数の重複しないカメラビューでマッチングすることである。 視覚的要因の変化により、過去の研究では、人物の身元、身体部分、属性がReID問題にどう影響するかが研究されている。 しかし、属性、本体部分、および各属性内の相関は、完全には利用されない。 本稿では、グラフに基づく人物シグネチャと呼ばれるグラフに、詳細な人物記述(属性ラベル)と視覚特徴(ボディ部分とグローバル特徴)を効果的に集約し、グラフ畳み込みネットワークを用いて人物の視覚シグネチャのトポロジー構造を学習する新しい手法を提案する。 このグラフは、人物の再識別のためのマルチブランチマルチタスクフレームワークに統合される。 本研究では,Market-1501とDukeMTMC-ReIDの2つの大規模データセットに対する提案手法の有効性を示す。 提案手法は,技術状況間での競争結果を達成し,他の属性ベースの手法やマスク誘導手法よりも優れる。

The task of person re-identification (ReID) is to match images of the same person over multiple non-overlapping camera views. Due to the variations in visual factors, previous works have investigated how the person identity, body parts, and attributes benefit the person ReID problem. However, the correlations between attributes, body parts, and within each attribute are not fully utilized. In this paper, we propose a new method to effectively aggregate detailed person descriptions (attributes labels) and visual features (body parts and global features) into a graph, namely Graph-based Person Signature, and utilize Graph Convolutional Networks to learn the topological structure of the visual signature of a person. The graph is integrated into a multi-branch multi-task framework for person re-identification. The extensive experiments are conducted to demonstrate the effectiveness of our proposed approach on two large-scale datasets, including Market-1501 and DukeMTMC-ReID. Our approach achieves competitive results among the state of the art and outperforms other attribute-based or mask-guided methods.
翻訳日:2021-04-15 13:16:50 公開日:2021-04-14
# HoughNet:視覚検出のための近距離および長距離証拠の統合

HoughNet: Integrating near and long-range evidence for visual detection ( http://arxiv.org/abs/2104.06773v1 )

ライセンス: Link先を確認
Nermin Samet, Samet Hicsonmez, Emre Akbas(参考訳) 本稿では,一段階のアンカーフリー,投票ベース,ボトムアップオブジェクト検出手法であるHoughNetを提案する。 一般化されたハフ変換にインスパイアされたHoughNetは、ある場所におけるオブジェクトの存在を、その場所に投じられた投票の合計によって決定する。 投票は、対極投票の場に基づいて、近距離と遠距離の両方の場所から集められる。 この投票機構のおかげで、HoughNetは視覚認識のための近距離および長距離のクラス条件のエビデンスを統合することができ、それによって現在のオブジェクト検出方法論を一般化し、拡張することができる。 COCOデータセットでは、HoughNetの最良のモデルは、46.4$$AP$(および6.5.1$$AP_{50}$)を達成し、ボトムアップオブジェクト検出の最先端と同等に動作し、主要な1段階と2段階のメソッドよりも優れている。 さらに,ビデオオブジェクトの検出,インスタンスのセグメンテーション,人間のポーズ推定のための3次元オブジェクト検出,キーポイント検出などの視覚的検出タスクにおける提案手法の有効性を検証し,画像生成タスクに ``labels to photo` を追加することで,投票モジュールの統合により,すべての場合のパフォーマンスが一貫して向上することを確認した。 コードは \url{https://github.com/n erminsamet/houghnet} で入手できる。

This paper presents HoughNet, a one-stage, anchor-free, voting-based, bottom-up object detection method. Inspired by the Generalized Hough Transform, HoughNet determines the presence of an object at a certain location by the sum of the votes cast on that location. Votes are collected from both near and long-distance locations based on a log-polar vote field. Thanks to this voting mechanism, HoughNet is able to integrate both near and long-range, class-conditional evidence for visual recognition, thereby generalizing and enhancing current object detection methodology, which typically relies on only local evidence. On the COCO dataset, HoughNet's best model achieves $46.4$ $AP$ (and $65.1$ $AP_{50}$), performing on par with the state-of-the-art in bottom-up object detection and outperforming most major one-stage and two-stage methods. We further validate the effectiveness of our proposal in other visual detection tasks, namely, video object detection, instance segmentation, 3D object detection and keypoint detection for human pose estimation, and an additional ``labels to photo`` image generation task, where the integration of our voting module consistently improves performance in all cases. Code is available at \url{https://github.com/n erminsamet/houghnet}.
翻訳日:2021-04-15 13:16:32 公開日:2021-04-14
# サッカー放送におけるアクションスポッティングのための時間的特徴ポーリング

Temporally-Aware Feature Pooling for Action Spotting in Soccer Broadcasts ( http://arxiv.org/abs/2104.06779v1 )

ライセンス: Link先を確認
Silvio Giancola, Bernard Ghanem(参考訳) スポーツ放送の自動制作の目標に向けて、パラマウントタスクはプレイ中のゲームの高レベルな意味情報を理解することにある。 例えば、ゲームのメインアクションを認識してローカライズすることで、プロデューサーはゲームの重要部分に集中し、観客のエンゲージメントを最大化することで、放送プロダクションを適応し、自動化することができる。 本稿では,サッカー放送における行動スポッティングの分析に焦点をあて,サッカーゲームにおける主動作の時間的局所化について述べる。 そこで我々はNetVLAD++と呼ばれるNetVLADに基づく,時間的知識を組み込んだ新しい機能プーリング手法を提案する。 時間的コンテキストをプールする単一のセットと考える以前のプールメソッドとは異なり、アクションの前後でコンテキストを分割します。 我々は、アクションスポット周辺のコンテキスト情報を単一のエンティティとして考えると、プールモジュールの準最適学習につながると論じる。 NetVLAD++では、コンテキストを過去と将来のフレームから切り離し、各サブセットのセマンティクスの特定の語彙を学習します。 このような事前知識の注入は、より有益なプーリングモジュールとより識別的なプーリング機能を生み出し、アクションの理解を深める。 我々は、最近の大規模データセット SoccerNet-v2 で方法論をトレーニングし、評価し、アクションスポッティングで平均 53.4% に達し、現在の最先端技術では +12.7% 改善した。

Toward the goal of automatic production for sports broadcasts, a paramount task consists in understanding the high-level semantic information of the game in play. For instance, recognizing and localizing the main actions of the game would allow producers to adapt and automatize the broadcast production, focusing on the important details of the game and maximizing the spectator engagement. In this paper, we focus our analysis on action spotting in soccer broadcast, which consists in temporally localizing the main actions in a soccer game. To that end, we propose a novel feature pooling method based on NetVLAD, dubbed NetVLAD++, that embeds temporally-aware knowledge. Different from previous pooling methods that consider the temporal context as a single set to pool from, we split the context before and after an action occurs. We argue that considering the contextual information around the action spot as a single entity leads to a sub-optimal learning for the pooling module. With NetVLAD++, we disentangle the context from the past and future frames and learn specific vocabularies of semantics for each subsets, avoiding to blend and blur such vocabulary in time. Injecting such prior knowledge creates more informative pooling modules and more discriminative pooled features, leading into a better understanding of the actions. We train and evaluate our methodology on the recent large-scale dataset SoccerNet-v2, reaching 53.4% Average-mAP for action spotting, a +12.7% improvement w.r.t the current state-of-the-art.
翻訳日:2021-04-15 13:16:08 公開日:2021-04-14
# クロスモーダル検索における連続学習

Continual learning in cross-modal retrieval ( http://arxiv.org/abs/2104.06806v1 )

ライセンス: Link先を確認
Kai Wang, Luis Herranz, Joost van de Weijer(参考訳) マルチモーダル表現と連続学習は、人間の知性と密接に関連する2つの分野である。 前者は、異なるモダリティからの情報を比較・統合できる共有表現空間の学習について考察する(言語と視覚表現間のクロスモーダル検索に焦点を当てる)。 後者は、新しいタスクを学ぶ際に学習したタスクを忘れるのを防ぐ方法を研究する。 人間はこの2つの面で優れているが、ディープニューラルネットワークはまだかなり限られている。 本稿では,両問題を連続的なクロスモーダル検索環境に組み合わせて,新しいタスクによる破滅的な干渉が,効果的な検索に必要な埋め込み空間とクロスモーダルアライメントに与える影響について検討する。 トレーニング,インデックス,クエリの段階を分離する一般的なフレームワークを提案する。 また、忘れることにつながるさまざまな要因を特定し、研究し、それを緩和するためのツールを提案します。 インデクシングの段階は重要な役割を担っており、データベースの再インデックスを更新された埋め込みネットワークで避けることによって大きな利益をもたらす可能性があることがわかった。 本手法を2つの画像テキスト検索データセットで評価し,微調整ベースラインに対して有意な利益を得た。

Multimodal representations and continual learning are two areas closely related to human intelligence. The former considers the learning of shared representation spaces where information from different modalities can be compared and integrated (we focus on cross-modal retrieval between language and visual representations). The latter studies how to prevent forgetting a previously learned task when learning a new one. While humans excel in these two aspects, deep neural networks are still quite limited. In this paper, we propose a combination of both problems into a continual cross-modal retrieval setting, where we study how the catastrophic interference caused by new tasks impacts the embedding spaces and their cross-modal alignment required for effective retrieval. We propose a general framework that decouples the training, indexing and querying stages. We also identify and study different factors that may lead to forgetting, and propose tools to alleviate it. We found that the indexing stage pays an important role and that simply avoiding reindexing the database with updated embedding networks can lead to significant gains. We evaluated our methods in two image-text retrieval datasets, obtaining significant gains with respect to the fine tuning baseline.
翻訳日:2021-04-15 13:15:42 公開日:2021-04-14
# グローバル情報誘導ビデオ異常検出

Global Information Guided Video Anomaly Detection ( http://arxiv.org/abs/2104.06813v1 )

ライセンス: Link先を確認
Hui Lv, Chunyan Xu, Zhen Cui(参考訳) ビデオ異常検出(VAD)は、現在、異常の複雑さと労働集約的な時間的アノテーションの欠如のために難しい課題である。 本稿では,ビデオレベルのアノテーション(弱ラベル)を用いた異常検出のためのgig(end-to-end global information guided)異常検出フレームワークを提案する。 GIGモジュールの弱いラベルを活用することにより,まずグローバルなパターンの手がかりを抽出する。 次に,空間領域におけるベクトル間の関係をグローバルキューベクトルで測る空間推論モジュールを構築し,時間的異常検出のための最も関連性の高い特徴ベクトルを選択する。 cityscene challengeの実験結果は,本モデルの有効性を示している。

Video anomaly detection (VAD) is currently a challenging task due to the complexity of anomaly as well as the lack of labor-intensive temporal annotations. In this paper, we propose an end-to-end Global Information Guided (GIG) anomaly detection framework for anomaly detection using the video-level annotations (i.e., weak labels). We propose to first mine the global pattern cues by leveraging the weak labels in a GIG module. Then we build a spatial reasoning module to measure the relevance between vectors in spatial domain with the global cue vectors, and select the most related feature vectors for temporal anomaly detection. The experimental results on the CityScene challenge demonstrate the effectiveness of our model.
翻訳日:2021-04-15 13:15:24 公開日:2021-04-14
# 完全畳み込みネットワークを用いた変位流推定による文書画像の変形

Dewarping Document Image By Displacement Flow Estimation with Fully Convolutional Network ( http://arxiv.org/abs/2104.06815v1 )

ライセンス: Link先を確認
Guo-Wang Xie, Fei Yin, Xu-Yao Zhang, and Cheng-Lin Liu(参考訳) カメラベースの文書が普及するにつれて、歪んだ文書画像の修正が認識性能の向上に必要となる。 本稿では,完全畳み込みネットワーク(fcn)を用いて画素単位の変位を推定し,歪文書画像の修正と背景除去の両方を行う新しい枠組みを提案する。 文書画像は画素の変位に応じて変換により補正される。 FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。 私たちのアプローチは実装が容易で、適度なコンピューティングリソースを消費します。 実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。

As camera-based documents are increasingly used, the rectification of distorted document images becomes a need to improve the recognition performance. In this paper, we propose a novel framework for both rectifying distorted document image and removing background finely, by estimating pixel-wise displacements using a fully convolutional network (FCN). The document image is rectified by transformation according to the displacements of pixels. The FCN is trained by regressing displacements of synthesized distorted documents, and to control the smoothness of displacements, we propose a Local Smooth Constraint (LSC) in regularization. Our approach is easy to implement and consumes moderate computing resource. Experiments proved that our approach can dewarp document images effectively under various geometric distortions, and has achieved the state-of-the-art performance in terms of local details and overall effect.
翻訳日:2021-04-15 13:15:14 公開日:2021-04-14
# 最大重み選択による高調波セマンティックライン検出

Harmonious Semantic Line Detection via Maximal Weight Clique Selection ( http://arxiv.org/abs/2104.06903v1 )

ライセンス: Link先を確認
Dongkwon Jin, Wonhui Park, Seong-Gyun Jeong and Chang-Su Kim(参考訳) 本研究では,最適意味線の組を検出する新しいアルゴリズムを提案する。 選択ネットワーク(S-Net)と調和ネットワーク(H-Net)の2つのネットワークを開発する。 まず、s-netは行候補の確率とオフセットを計算する。 第2に、無関係な線を選択除去プロセスでフィルタリングする。 第3に、エッジウェイトがh-netで計算される完全グラフを構築する。 最後に,最適意味線の集合を表す最大重みの傾きを決定する。 さらに,検出された線全体の調和性を評価するために,ヒウと呼ばれる新しい計量を提案する。 実験により,提案アルゴリズムは調和した意味線を効果的かつ効率的に検出できることを示した。 私たちのコードはhttps://github.com/d ongkwonjin/Semantic- Line-MWCSで公開されています。

A novel algorithm to detect an optimal set of semantic lines is proposed in this work. We develop two networks: selection network (S-Net) and harmonization network (H-Net). First, S-Net computes the probabilities and offsets of line candidates. Second, we filter out irrelevant lines through a selection-and-remova l process. Third, we construct a complete graph, whose edge weights are computed by H-Net. Finally, we determine a maximal weight clique representing an optimal set of semantic lines. Moreover, to assess the overall harmony of detected lines, we propose a novel metric, called HIoU. Experimental results demonstrate that the proposed algorithm can detect harmonious semantic lines effectively and efficiently. Our codes are available at https://github.com/d ongkwonjin/Semantic- Line-MWCS.
翻訳日:2021-04-15 13:15:00 公開日:2021-04-14
# IQDet:オブジェクト検出のためのインスタンス単位の品質分布サンプリング

IQDet: Instance-wise Quality Distribution Sampling for Object Detection ( http://arxiv.org/abs/2104.06936v1 )

ライセンス: Link先を確認
Yuchen Ma, Songtao Liu, Zeming Li, Jian Sun(参考訳) iqdetという,インスタンス毎のサンプリング戦略を持つ高密度物体検出器を提案する。 まず,人間の事前サンプリング戦略を用いる代わりに,各地盤の局所的特徴を抽出し,インスタンス単位の品質分布を推定する。 空間次元の混合モデルによれば、分布はよりノイズロバストであり、各インスタンスの意味的パターンに適合する。 そこで,本研究では,確率的にトレーニングサンプルを自動選択し,より高品質なサンプルを投入する品質サンプリング戦略を提案する。 広汎なMS COCO実験により,ベルや笛を使わずに2.4 AP近くでベースラインを改良した。 さらに,我々の最善のモデルは51.6 apを達成し,既存の最先端の1段階検出器よりも優れており,推定時間においてまったく費用がかからない。

We propose a dense object detector with an instance-wise sampling strategy, named IQDet. Instead of using human prior sampling strategies, we first extract the regional feature of each ground-truth to estimate the instance-wise quality distribution. According to a mixture model in spatial dimensions, the distribution is more noise-robust and adapted to the semantic pattern of each instance. Based on the distribution, we propose a quality sampling strategy, which automatically selects training samples in a probabilistic manner and trains with more high-quality samples. Extensive experiments on MS COCO show that our method steadily improves baseline by nearly 2.4 AP without bells and whistles. Moreover, our best model achieves 51.6 AP, outperforming all existing state-of-the-art one-stage detectors and it is completely cost-free in inference time.
翻訳日:2021-04-15 13:14:50 公開日:2021-04-14
# コンシューマグレード深度カメラを用いた高スループットブドウ品種表現

In-field high throughput grapevine phenotyping with a consumer-grade depth camera ( http://arxiv.org/abs/2104.06945v1 )

ライセンス: Link先を確認
Annalisa Milella, Roberto Marani, Antonio Petitti, Giulio Reina(参考訳) 植物表現型、すなわち、生育、形態、生理、収量を含む植物形質の定量的評価は、効率的かつ効果的な作物管理のための重要な側面である。 現在、植物表現型は手動で集中的かつ時間のかかるプロセスであり、視覚の推定やハンドヘルドデバイスの使用に基づいて、人間のオペレーターが現場で測定を行う。 本研究では,カノピー容積推定と束検出とカウントを目的とした,ブドウの自動表現法を開発した。 農業用車両に搭載されたコンシューマグレードの深度カメラを用いて,両測定を効果的に行うことができることを示した。

Plant phenotyping, that is, the quantitative assessment of plant traits including growth, morphology, physiology, and yield, is a critical aspect towards efficient and effective crop management. Currently, plant phenotyping is a manually intensive and time consuming process, which involves human operators making measurements in the field, based on visual estimates or using hand-held devices. In this work, methods for automated grapevine phenotyping are developed, aiming to canopy volume estimation and bunch detection and counting. It is demonstrated that both measurements can be effectively performed in the field using a consumer-grade depth camera mounted onboard an agricultural vehicle.
翻訳日:2021-04-15 13:14:37 公開日:2021-04-14
# Metric-Consistent Atlasによる表面の時間的コヒーレント再構築

Temporally-Coherent Surface Reconstruction via Metric-Consistent Atlases ( http://arxiv.org/abs/2104.06950v1 )

ライセンス: Link先を確認
Jan Bednarik, Vladimir G. Kim, Siddhartha Chaudhuri, Shaifali Parashar, Mathieu Salzmann, Pascal Fua, Noam Aigerman(参考訳) 本研究では,時間進化する点雲の列から時間的コヒーレントな面列を復元し,すべてのキーフレーム間の密接な意味的対応を導出する手法を提案する。 再建された表面をニューラルネットワークを用いてアトラスとして表現する。 atlasで定義された正準対応を用いることで、フレーム間で可能な限り等尺性を持たせることを奨励し、意味論的に意味的な再構築に繋がる。 実験と比較により,非教師なし対応の精度と表面再構成の精度において,本手法が技術水準を超える結果が得られることを実証的に示す。

We propose a method for the unsupervised reconstruction of a temporally-coherent sequence of surfaces from a sequence of time-evolving point clouds, yielding dense, semantically meaningful correspondences between all keyframes. We represent the reconstructed surface as an atlas, using a neural network. Using canonical correspondences defined via the atlas, we encourage the reconstruction to be as isometric as possible across frames, leading to semantically-meaning ful reconstruction. Through experiments and comparisons, we empirically show that our method achieves results that exceed that state of the art in the accuracy of unsupervised correspondences and accuracy of surface reconstruction.
翻訳日:2021-04-15 13:14:24 公開日:2021-04-14
# カスケードトランスフォーマによるポーズ認識

Pose Recognition with Cascade Transformers ( http://arxiv.org/abs/2104.06976v1 )

ライセンス: Link先を確認
Ke Li, Shijie Wang, Xiang Zhang, Yifan Xu, Weijian Xu, Zhuowen Tu(参考訳) 本稿では,カスケードトランスを用いた回帰型ポーズ認識手法を提案する。 このドメインの既存のアプローチを分類する1つの方法は、それらを1)に分けることです。 Heatmap-based と 2) 回帰ベース。 一般に、熱マップに基づく手法は高い精度を達成できるが、様々なヒューリスティックな設計(主にエンドツーエンドではない)の対象となっている。 本稿では,トランスフォーマのエンコーダ・デコーダ構造を用いて,回帰に基づく人物検出とキーポイント検出を行う。 変換器における再帰的自己注意機構を明らかにするために,異なる自己注意層にまたがるキーポイント仮説(クエリ)改善過程を示す。 実験では, 姿勢認識において, 競合する回帰法と比較した場合の競合結果について報告する。

In this paper, we present a regression-based pose recognition method using cascade Transformers. One way to categorize the existing approaches in this domain is to separate them into 1). heatmap-based and 2). regression-based. In general, heatmap-based methods achieve higher accuracy but are subject to various heuristic designs (not end-to-end mostly), whereas regression-based approaches attain relatively lower accuracy but they have less intermediate non-differentiable steps. Here we utilize the encoder-decoder structure in Transformers to perform regression-based person and keypoint detection that is general-purpose and requires less heuristic design compared with the existing approaches. We demonstrate the keypoint hypothesis (query) refinement process across different self-attention layers to reveal the recursive self-attention mechanism in Transformers. In the experiments, we report competitive results for pose recognition when compared with the competing regression-based methods.
翻訳日:2021-04-15 13:14:13 公開日:2021-04-14
# 奥行きマップ超解像のための離散コサイン変換ネットワーク

Discrete Cosine Transform Network for Guided Depth Map Super-Resolution ( http://arxiv.org/abs/2104.06977v1 )

ライセンス: Link先を確認
Zixiang Zhao, Jiangshe Zhang, Shuang Xu, Chunxia Zhang, Junmin Liu(参考訳) 誘導深度超解像(GDSR)は多モード画像処理におけるホットトピックである。 目標は、高解像度(HR)のRGB画像を使用して、エッジとオブジェクトの輪郭の余分な情報を提供することで、低解像度の深度マップをHRにアップサンプリングできるようにすることである。 従来の手法では,RGBテクスチャの過渡転送,クロスモーダルな特徴抽出の難しさ,モジュールの動作機構の不明といった問題を解消するために,4つのコンポーネントから構成されるDCTNet(Disdisrete Cosine Transform Network)を提案する。 まず、対のrgb/deep画像が半結合特徴抽出モジュールに入力される。 共用畳み込みカーネルはクロスモーダル共通特徴を抽出し、プライベートカーネルはそれぞれ独自の特徴を抽出する。 次にRGB機能はエッジアテンション機構に入力され、アップサンプリングに役立つエッジをハイライトする。 その後、離散コサイン変換(DCT)モジュールにおいて、画像領域GDSR用に設計された最適化問題を解決するためにDCTが使用される。 このソリューションは、DCTNetの合理性を高め、従来の方法よりも柔軟で効果的であるマルチチャネルRGB/deepth機能アップサンプリングを実装するために拡張される。 最終深度予測は再構成モジュールによって出力される。 多くの定性的、定量的な実験により、最先端の手法を超越して正確な人事深度マップを作成できる手法の有効性が示された。 一方、加群の合理性はアブレーション実験によって証明される。

Guided depth super-resolution (GDSR) is a hot topic in multi-modal image processing. The goal is to use high-resolution (HR) RGB images to provide extra information on edges and object contours, so that low-resolution depth maps can be upsampled to HR ones. To solve the issues of RGB texture over-transferred, cross-modal feature extraction difficulty and unclear working mechanism of modules in existing methods, we propose an advanced Discrete Cosine Transform Network (DCTNet), which is composed of four components. Firstly, the paired RGB/depth images are input into the semi-coupled feature extraction module. The shared convolution kernels extract the cross-modal common features, and the private kernels extract their unique features, respectively. Then the RGB features are input into the edge attention mechanism to highlight the edges useful for upsampling. Subsequently, in the Discrete Cosine Transform (DCT) module, where DCT is employed to solve the optimization problem designed for image domain GDSR. The solution is then extended to implement the multi-channel RGB/depth features upsampling, which increases the rationality of DCTNet, and is more flexible and effective than conventional methods. The final depth prediction is output by the reconstruction module. Numerous qualitative and quantitative experiments demonstrate the effectiveness of our method, which can generate accurate and HR depth maps, surpassing state-of-the-art methods. Meanwhile, the rationality of modules is also proved by ablation experiments.
翻訳日:2021-04-15 13:13:58 公開日:2021-04-14
# Dressing in Order: Recurrent Person Image Generation for Pose Transfer, Virtual Try-on and Outfit Editing

Dressing in Order: Recurrent Person Image Generation for Pose Transfer, Virtual Try-on and Outfit Editing ( http://arxiv.org/abs/2104.07021v1 )

ライセンス: Link先を確認
Aiyu Cui, Daniel McKee, Svetlana Lazebnik(参考訳) 本稿では,2次元ポーズ転送,仮想試行,ファッション編集タスクをサポートするDressing in Order(DiOr)と呼ばれるフレキシブルな人物生成フレームワークを提案する。 キー・トゥ・ダイオール(Key to DiOr)は、連続して衣服を身につける新しい生成パイプラインで、異なる順序で同じ衣服を試すと、異なる外観になる。 既存の作業では達成不可能なドレッシング効果が得られており、例えば、上着(下着、上着など)の異なる相互作用や、同じタイプの複数の衣服(Tシャツの上着など)の層化が可能である。 DiOrは、それぞれの衣服の形状とテクスチャを明示的にエンコードし、これらの要素を別々に編集することができる。 ポーズ転送と塗装に関する共同トレーニングは、生成された衣服の詳細な保存とコヒーレンスに役立つ。 大規模な評価では、DiOrは出力品質においてADGANのような最近の他の手法よりも優れており、直接の監督がない幅広い編集機能を扱う。

This paper proposes a flexible person generation framework called Dressing in Order (DiOr), which supports 2D pose transfer, virtual try-on, and several fashion editing tasks. Key to DiOr is a novel recurrent generation pipeline to sequentially put garments on a person, so that trying on the same garments in different orders will result in different looks. Our system can produce dressing effects not achievable by existing work, including different interactions of garments (e.g., wearing a top tucked into the bottom or over it), as well as layering of multiple garments of the same type (e.g., jacket over shirt over t-shirt). DiOr explicitly encodes the shape and texture of each garment, enabling these elements to be edited separately. Joint training on pose transfer and inpainting helps with detail preservation and coherence of generated garments. Extensive evaluations show that DiOr outperforms other recent methods like ADGAN in terms of output quality, and handles a wide range of editing functions for which there is no direct supervision.
翻訳日:2021-04-15 13:13:34 公開日:2021-04-14
# 会話探索のための知識駆動回答生成

Knowledge-driven Answer Generation for Conversational Search ( http://arxiv.org/abs/2104.06892v1 )

ライセンス: Link先を確認
Mariana Leite, Rafael Ferreira, David Semedo, Jo\~ao Magalh\~aes(参考訳) 対話型検索パラダイムは、ユーザがマルチターンで自然な方法で検索エージェントと対話できるようにすることによって、従来の検索パラダイムに対するステップ変更を導入する。 会話は自然に流れ、通常、対象の知識分野を中心に行われる。 本研究では,オープンドメイン対話型検索における知識駆動型回答生成手法を提案する。 まず、トランスベースの再ランク付け器で検索された上位通路から会話固有の知識グラフを抽出する。 エンティティナレッジグラフは、検索・アンサー生成器トランスフォーマーを情報豊かで簡潔な回答に偏らせるために使用される。 この会話固有のバイアスは、その特定の会話の最も有意義な実体に従って最も関連する節を特定することによって計算される。 実験により,提案手法が会話におけるエンティティ知識の活用に成功し,検索・アンサー生成タスクのベースラインを上回ったことを示す。

The conversational search paradigm introduces a step change over the traditional search paradigm by allowing users to interact with search agents in a multi-turn and natural fashion. The conversation flows naturally and is usually centered around a target field of knowledge. In this work, we propose a knowledge-driven answer generation approach for open-domain conversational search, where a conversation-wide entities' knowledge graph is used to bias search-answer generation. First, a conversation-specifi c knowledge graph is extracted from the top passages retrieved with a Transformer-based re-ranker. The entities knowledge-graph is then used to bias a search-answer generator Transformer towards information rich and concise answers. This conversation specific bias is computed by identifying the most relevant passages according to the most salient entities of that particular conversation. Experiments show that the proposed approach successfully exploits entities knowledge along the conversation, and outperforms a set of baselines on the search-answer generation task.
翻訳日:2021-04-15 13:12:55 公開日:2021-04-14
# バランスのとれたトピックアウェアサンプリングを用いた効率的な密集型検索法

Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware Sampling ( http://arxiv.org/abs/2104.06967v1 )

ライセンス: Link先を確認
Sebastian Hofst\"atter, Sheng-Chieh Lin, Jheng-Hong Yang, Jimmy Lin, Allan Hanbury(参考訳) ニューラルネットワークの検索モデルの普及に向けた重要なステップは、トレーニング、インデックス、クエリワークフロー全体のリソース効率です。 ニューラルIRコミュニティは、最近、効果的なデュアルエンコーダ密度検索(DR)モデルのトレーニングに大きく進歩した。 密集したテキスト検索モデルは、クエリとパッセージ毎に単一のベクトル表現を使用してマッチをスコアし、最寄りの検索で低遅延の第1段検索を可能にする。 継続的に更新されるリフレッシュインデックスから負の通路サンプリングを実行するか、バッチ内の負のサンプリングに非常に大きなバッチサイズを必要とするため、トレーニングアプローチはますます一般的になっている。 計算能力の向上に代えて,TAS-Balancedと呼ばれる,効率的なトピック対応クエリと平衡マージンサンプリング手法を導入する。 トレーニング前にクエリをクラスタ化し、バッチ毎にクラスタからクエリをサンプリングします。 ライトウェイトな6層drモデルを、ペアワイズとインバッチのネガティブな教師を組み合わせる、新しいデュアル教師の監督によってトレーニングします。 8x v100sの一般的な構成とは対照的に)48時間以内に1つのコンシューマグレードのgpuでトレーニングできる。 本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。 NDCG@10で評価したところ、BM25を44%上回り、訓練済みのDRを19%上回り、docT5queryを11%上回り、以前の最高のDRモデルを5%上回りました。 さらに、TAS-BalancedはTREC-DLの任意のカットオフにおいて、他のすべてのメソッドをリコールし、より多くのリソース集約された再ランクモデルがより少ない経路で動作し、結果をさらに改善する最初の高密度レトリバーを生成する。

A vital step towards the widespread adoption of neural retrieval models is their resource efficiency throughout the training, indexing and query workflows. The neural IR community made great advancements in training effective dual-encoder dense retrieval (DR) models recently. A dense text retrieval model uses a single vector representation per query and passage to score a match, which enables low-latency first stage retrieval with a nearest neighbor search. Increasingly common, training approaches require enormous compute power, as they either conduct negative passage sampling out of a continuously updating refreshing index or require very large batch sizes for in-batch negative sampling. Instead of relying on more compute capability, we introduce an efficient topic-aware query and balanced margin sampling technique, called TAS-Balanced. We cluster queries once before training and sample queries out of a cluster per batch. We train our lightweight 6-layer DR model with a novel dual-teacher supervision that combines pairwise and in-batch negative teachers. Our method is trainable on a single consumer-grade GPU in under 48 hours (as opposed to a common configuration of 8x V100s). We show that our TAS-Balanced training method achieves state-of-the-art low-latency (64ms per query) results on two TREC Deep Learning Track query sets. Evaluated on NDCG@10, we outperform BM25 by 44%, a plainly trained DR by 19%, docT5query by 11%, and the previous best DR model by 5%. Additionally, TAS-Balanced produces the first dense retriever that outperforms every other method on recall at any cutoff on TREC-DL and allows more resource intensive re-ranking models to operate on fewer passages to improve results further.
翻訳日:2021-04-15 13:12:42 公開日:2021-04-14
# グラフニューラルネットワークのためのアグリゲート近傍探索

Search to aggregate neighborhood for graph neural network ( http://arxiv.org/abs/2104.06608v1 )

ライセンス: Link先を確認
Huan Zhao, Quanming Yao, Weiwei Tu(参考訳) 近年、様々なシナリオでグラフニューラルネットワーク(GNN)の人気と成功を目撃している。 データ固有のgnnアーキテクチャを得るためには、畳み込みニューラルネットワークにおける効果的なアーキテクチャの発見で目覚ましい成功を収めたneural architecture search(nas)に目を向ける。 しかし,検索空間設計の課題や既存のNAS手法の高価な検索コストのため,NASアプローチをGNNに適用することは容易ではない。 本稿では,データ固有のgnnアーキテクチャを入手し,nasアプローチが直面する計算上の課題に対処するため,データ固有のgnnアーキテクチャを自動的に設計するsane(aggregate neighborhood)を探索するフレームワークを提案する。 新規で表現力豊かな探索空間を設計することにより,従来の強化学習法よりも効率的である識別可能な探索アルゴリズムを提案する。 4つのタスクと7つの実世界のデータセットの実験結果は、既存のGNNモデルやNASアプローチと比較して、SANEの有効性と効率性を示す。 (コードは、https://github.com/A utoML-4Paradigm/SANE )。

Recent years have witnessed the popularity and success of graph neural networks (GNN) in various scenarios. To obtain data-specific GNN architectures, researchers turn to neural architecture search (NAS), which has made impressive success in discovering effective architectures in convolutional neural networks. However, it is non-trivial to apply NAS approaches to GNN due to challenges in search space design and the expensive searching cost of existing NAS methods. In this work, to obtain the data-specific GNN architectures and address the computational challenges facing by NAS approaches, we propose a framework, which tries to Search to Aggregate NEighborhood (SANE), to automatically design data-specific GNN architectures. By designing a novel and expressive search space, we propose a differentiable search algorithm, which is more efficient than previous reinforcement learning based methods. Experimental results on four tasks and seven real-world datasets demonstrate the superiority of SANE compared to existing GNN models and NAS approaches in terms of effectiveness and efficiency. (Code is available at: https://github.com/A utoML-4Paradigm/SANE ).
翻訳日:2021-04-15 13:12:13 公開日:2021-04-14
# 回帰のための変分オートエンコーダを用いた学習型サイバー物理システムにおけるデータセットシフトの検出

Detection of Dataset Shifts in Learning-Enabled Cyber-Physical Systems using Variational Autoencoder for Regression ( http://arxiv.org/abs/2104.06613v1 )

ライセンス: Link先を確認
Feiyang Cai, Ali I. Ozdagli, Xenofon Koutsoukos(参考訳) サイバー物理システム(CPS)は、学習可能なコンポーネント(LEC)を広範囲に使用し、不確実な環境下で様々な複雑なタスクに対処する。 しかし、トレーニングとテストフェーズ間のデータセットシフトは、LECが大規模なエラー予測を行うのに効果がなくなり、さらにシステム全体の安全性を損なう可能性がある。 本稿ではまず,学習可能なCPSにおけるデータセットシフトの形式的定義について述べる。 次に,回帰問題に対して,データセットシフトを効果的に検出する手法を提案する。 提案手法は帰納的共形異常検出に基づいており,回帰モデルのための変分オートエンコーダを用いて,LEC入力と出力の両方を考慮し,データセットシフトを検出する。 さらに, 検出の堅牢性を向上させるため, レイヤワイド関連伝搬(LRP)を本手法に組み込んだ。 自動運転車のオープンソースシミュレータに実装された緊急ブレーキシステムを用いて,我々のアプローチを実証する。 評価の結果,提案手法は,システムのサンプリング期間よりも実行時間が小さい間に,少ない数の誤報で異なる種類のデータセットシフトを検出できることがわかった。

Cyber-physical systems (CPSs) use learning-enabled components (LECs) extensively to cope with various complex tasks under high-uncertainty environments. However, the dataset shifts between the training and testing phase may lead the LECs to become ineffective to make large-error predictions, and further, compromise the safety of the overall system. In our paper, we first provide the formal definitions for different types of dataset shifts in learning-enabled CPS. Then, we propose an approach to detect the dataset shifts effectively for regression problems. Our approach is based on the inductive conformal anomaly detection and utilizes a variational autoencoder for regression model which enables the approach to take into consideration both LEC input and output for detecting dataset shifts. Additionally, in order to improve the robustness of detection, layer-wise relevance propagation (LRP) is incorporated into our approach. We demonstrate our approach by using an advanced emergency braking system implemented in an open-source simulator for self-driving cars. The evaluation results show that our approach can detect different types of dataset shifts with a small number of false alarms while the execution time is smaller than the sampling period of the system.
翻訳日:2021-04-15 13:11:57 公開日:2021-04-14
# 多人数デュアルラーニング

Multi-Party Dual Learning ( http://arxiv.org/abs/2104.06677v1 )

ライセンス: Link先を確認
Maoguo Gong, Yuan Gao, Yu Xie, A. K. Qin, Ke Pan, and Yew-Soon Ong(参考訳) 機械学習アルゴリズムの性能は、大量のトレーニングデータの可用性に大きく依存している。 しかし実際には、データは異なる機関などの分散パーティに常駐し、さまざまなデータポリシー制約のために直接収集や統合はできない。 結果として、機械学習モデルをトレーニングするのに不十分なデータに悩まされることもある。 本稿では,孤立したパーティにおいて,品質の低い制限データの問題を軽減するために,MPDL(multi-party dual learning)フレームワークを提案する。 複数当事者の知識共有プロセスは常に2つの形式で現れるため、二重学習は自然にデータ不足の課題に対処するのに適しており、二重タスク間の確率的相関と構造的関係を明示的に活用してトレーニングプロセスを定式化する。 我々は,二元推論における生機能のプライバシー漏洩を回避するために,数学的証明による特徴指向の微分プライバシーを導入する。 このアプローチでは、既存のマルチパーティ学習構造への最小限の変更が必要であり、各パーティはフレキシブルでパワフルなモデルを別々に構築することができる。 このMPDLフレームワークは,実世界のデータセットのシミュレーションを通じて示すように,最先端のマルチパーティ学習手法と比較して,大幅な改善を実現している。

The performance of machine learning algorithms heavily relies on the availability of a large amount of training data. However, in reality, data usually reside in distributed parties such as different institutions and may not be directly gathered and integrated due to various data policy constraints. As a result, some parties may suffer from insufficient data available for training machine learning models. In this paper, we propose a multi-party dual learning (MPDL) framework to alleviate the problem of limited data with poor quality in an isolated party. Since the knowledge sharing processes for multiple parties always emerge in dual forms, we show that dual learning is naturally suitable to handle the challenge of missing data, and explicitly exploits the probabilistic correlation and structural relationship between dual tasks to regularize the training process. We introduce a feature-oriented differential privacy with mathematical proof, in order to avoid possible privacy leakage of raw features in the dual inference process. The approach requires minimal modifications to the existing multi-party learning structure, and each party can build flexible and powerful models separately, whose accuracy is no less than non-distributed self-learning approaches. The MPDL framework achieves significant improvement compared with state-of-the-art multi-party learning methods, as we demonstrated through simulations on real-world datasets.
翻訳日:2021-04-15 13:11:39 公開日:2021-04-14
# 深層事前学習のニューラルアーキテクチャ探索 : 破滅的干渉を伴わない連続学習に向けて

Neural Architecture Search of Deep Priors: Towards Continual Learning without Catastrophic Interference ( http://arxiv.org/abs/2104.06788v1 )

ライセンス: Link先を確認
Martin Mundt, Iuliia Pliushch, Visvanathan Ramesh(参考訳) 本稿では,パラメトリック推論を伴わないニューラルネットワーク構造の分類性能を解析する。 ニューラルネットワーク探索を用いることで、線形分類が完全に訓練された深層アーキテクチャと同等に実行できるような、より深い事前のランダムウェイトアーキテクチャを見つけることが可能であることを実証的に実証する。 アブレーション実験により, 重み初期化抽選を勝ち取る可能性を排除し, 適切な深部事前化は追加の推論を必要としないことを確認した。 継続学習の拡張として、破滅的干渉のない漸進学習の可能性を検討する。 同じデータ分布に由来するクラスを仮定すると、単純な線形分類子を訓練することで、クラスのサブセットのみに現れる深い事前が示され、さらなるクラスの識別が可能になる。

In this paper we analyze the classification performance of neural network structures without parametric inference. Making use of neural architecture search, we empirically demonstrate that it is possible to find random weight architectures, a deep prior, that enables a linear classification to perform on par with fully trained deep counterparts. Through ablation experiments, we exclude the possibility of winning a weight initialization lottery and confirm that suitable deep priors do not require additional inference. In an extension to continual learning, we investigate the possibility of catastrophic interference free incremental learning. Under the assumption of classes originating from the same data distribution, a deep prior found on only a subset of classes is shown to allow discrimination of further classes through training of a simple linear classifier.
翻訳日:2021-04-15 13:11:19 公開日:2021-04-14
# プロセスアウトカム予測 - CNN vs. LSTM (注意)

Process Outcome Prediction: CNN vs. LSTM (with Attention) ( http://arxiv.org/abs/2104.06934v1 )

ライセンス: Link先を確認
Hans Weytjens and Jochen De Weerdt(参考訳) 進行中または完了プロセスの早期の結果予測は、組織に競争上の優位性を与えます。 従来の機械学習と最近では,このような分類問題に対するLong Short-Term Memory (LSTM) などのディープラーニング技術の性能について検討している。 近年,畳み込みニューラルネットワーク(cnn)を分類を含む時系列問題に適用する研究が数多く行われているが,結果予測には至っていない。 本論文の目的は,このギャップを埋め,CNNとLSTMを比較することである。 LSTMと組み合わせて時系列分類に応用し,本研究に取り入れた別の手法である。 その結果,これらのニューラルネットワークは十分に大きなデータセットを提供する高い予測能力に満足できることがわかった。 CNNはLSTMと同等であり、Attentionメカニズムは後者に値を加えない。 CNNは両タイプのLSTMより1桁速く動作するため、その使用が好ましい。 すべてのモデルはハイパーパラメータに対して堅牢であり、その場合、通常はほんの数回のイベント後に、その最大予測能力を達成するため、実行時予測に非常に適している。 我々は、CNNの速度、早期予測能力、堅牢性は、プロセス結果予測における彼らの応用の道を開くべきだと論じる。

The early outcome prediction of ongoing or completed processes confers competitive advantage to organizations. The performance of classic machine learning and, more recently, deep learning techniques such as Long Short-Term Memory (LSTM) on this type of classification problem has been thorougly investigated. Recently, much research focused on applying Convolutional Neural Networks (CNN) to time series problems including classification, however not yet to outcome prediction. The purpose of this paper is to close this gap and compare CNNs to LSTMs. Attention is another technique that, in combination with LSTMs, has found application in time series classification and was included in our research. Our findings show that all these neural networks achieve satisfactory to high predictive power provided sufficiently large datasets. CNNs perfom on par with LSTMs; the Attention mechanism adds no value to the latter. Since CNNs run one order of magnitude faster than both types of LSTM, their use is preferable. All models are robust with respect to their hyperparameters and achieve their maximal predictive power early on in the cases, usually after only a few events, making them highly suitable for runtime predictions. We argue that CNNs' speed, early predictive power and robustness should pave the way for their application in process outcome prediction.
翻訳日:2021-04-15 13:11:05 公開日:2021-04-14
# 敵対的サービス拒否攻撃に対する防御

Defening against Adversarial Denial-of-Service Attacks ( http://arxiv.org/abs/2104.06744v1 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Simon Roschmann, Konstantin B\"ottinger(参考訳) データ中毒は、機械学習とデータ駆動技術に対する最も関連するセキュリティ脅威の1つです。 多くのアプリケーションは信頼できないトレーニングデータに依存しているため、攻撃者は悪意のあるサンプルを簡単に作成してトレーニングデータセットに注入することで、機械学習モデルのパフォーマンスを低下させることができる。 最近の研究が示すように、DoS(DoS)データ中毒攻撃は極めて効果的である。 この脅威を軽減するため,本研究では,DoS中毒症例の検出方法を提案する。 関連する研究とは対照的に、クラスタリングと異常検出に基づくアプローチは、しばしば次元の呪いと任意の異常しきい値の選択に苦しむ。 むしろ、我々の防御は、データの不正な部分に存在する情報に基づいて、有毒なサンプルを識別できるような、トレーニングデータから情報を抽出することに基づいている。 2つのdos毒殺攻撃と7つのデータセットに対する我々の防御を評価し、毒殺事例を確実に特定できることを確認します。 関連する作業と比較して、当社の防御は偽陽性/偽陰性率を少なくとも50%向上させる。

Data poisoning is one of the most relevant security threats against machine learning and data-driven technologies. Since many applications rely on untrusted training data, an attacker can easily craft malicious samples and inject them into the training dataset to degrade the performance of machine learning models. As recent work has shown, such Denial-of-Service (DoS) data poisoning attacks are highly effective. To mitigate this threat, we propose a new approach of detecting DoS poisoned instances. In comparison to related work, we deviate from clustering and anomaly detection based approaches, which often suffer from the curse of dimensionality and arbitrary anomaly threshold selection. Rather, our defence is based on extracting information from the training data in such a generalized manner that we can identify poisoned samples based on the information present in the unpoisoned portion of the data. We evaluate our defence against two DoS poisoning attacks and seven datasets, and find that it reliably identifies poisoned instances. In comparison to related work, our defence improves false positive / false negative rates by at least 50%, often more.
翻訳日:2021-04-15 13:10:47 公開日:2021-04-14
# 非エリート主義が時間リンク問題に直面するとき

When Non-Elitism Meets Time-Linkage Problems ( http://arxiv.org/abs/2104.06831v1 )

ライセンス: Link先を確認
Weijie Zheng, Qiaozhi Zhang, Huanhuan Chen, Xin Yao(参考訳) 多くの実世界の応用は時間リンク特性を持ち、Zheng, et al が最近発表した唯一の理論解析である。 (TEVC 2021) 提案された時間リンク OneMax 問題、OneMax$_{(0,1^n)}$。 しかし、2つのエリート的アルゴリズム (1+1)EAと$\mu$+1)EAのみが解析され、非エリート的メカニズムがOneMax$_{(0,1^n)}$に存在する局所最適化を逃れるのに役立つかどうかは不明である。 一般に、進化アルゴリズムにおける非楕円の利点に関する理論的結果はほとんどない。 本研究では,eelitist (1+$\lambda$)eaとその非elitist (1,$\lambda$)eaの性能を比較することにより,非elitismの影響を分析する。 確率 1-o(1)$ (1+$\lambda$)EA が局所最適値に留まり、グローバル最適値を見つけることはできないが、確率 $1$ (1,$\lambda$)EA がグローバル最適値に到達でき、期待ランタイムが $O(n^{3+c}\log n)$ で、定数 $c\ge 1$ に対して $\lambda=c \log_{\frac{e}{e-1}} n$ であることを示す。 局所光学系からの脱出には,より小さな子孫サイズが有効であることを指摘し,さらに,確率モデルを更新するために2個体のみをサンプリングし,その期待実行時間である$o(n^3\log n)$を証明できるコンパクト遺伝的アルゴリズムを用いる。 我々の計算実験では2つの非エリートアルゴリズムの効率も検証した。

Many real-world applications have the time-linkage property, and the only theoretical analysis is recently given by Zheng, et al. (TEVC 2021) on their proposed time-linkage OneMax problem, OneMax$_{(0,1^n)}$. However, only two elitist algorithms (1+1)EA and ($\mu$+1)EA are analyzed, and it is unknown whether the non-elitism mechanism could help to escape the local optima existed in OneMax$_{(0,1^n)}$. In general, there are few theoretical results on the benefits of the non-elitism in evolutionary algorithms. In this work, we analyze on the influence of the non-elitism via comparing the performance of the elitist (1+$\lambda$)EA and its non-elitist counterpart (1,$\lambda$)EA. We prove that with probability $1-o(1)$ (1+$\lambda$)EA will get stuck in the local optima and cannot find the global optimum, but with probability $1$, (1,$\lambda$)EA can reach the global optimum and its expected runtime is $O(n^{3+c}\log n)$ with $\lambda=c \log_{\frac{e}{e-1}} n$ for the constant $c\ge 1$. Noting that a smaller offspring size is helpful for escaping from the local optima, we further resort to the compact genetic algorithm where only two individuals are sampled to update the probabilistic model, and prove its expected runtime of $O(n^3\log n)$. Our computational experiments also verify the efficiency of the two non-elitist algorithms.
翻訳日:2021-04-15 13:10:32 公開日:2021-04-14
# non-autoregressive sequence-to-sequence voice conversion

Non-autoregressive sequence-to-sequence voice conversion ( http://arxiv.org/abs/2104.06793v1 )

ライセンス: Link先を確認
Tomoki Hayashi, Wen-Chin Huang, Kazuhiro Kobayashi, Tomoki Toda(参考訳) 本稿では,非自己回帰シーケンストシーケンス(nar-s2s)モデルに基づく新しい音声変換法を提案する。 テキスト音声(TTS)におけるFastSpeechのようなNAR-S2Sモデルの成功に触発されて,VC問題に対するFastSpeech2モデルを拡張した。 我々はTransformerの代わりにConvolution-augmente d Transformer(Conforme r)を導入し、入力シーケンスからローカルとグローバルの両方のコンテキスト情報をキャプチャできるようにする。 さらに,分散予測器を分散変換器に拡張し,ピッチやエネルギーといった音源話者の韻律成分を対象話者に明示的に変換する。 日本語話者データセットを用いた実験結果から,Tacotron2 や Transformer などの自己回帰型 S2S (AR-S2S) モデルよりも, より安定的で, より高速で, 変換性に優れたモデルであることが示唆された。

This paper proposes a novel voice conversion (VC) method based on non-autoregressive sequence-to-sequence (NAR-S2S) models. Inspired by the great success of NAR-S2S models such as FastSpeech in text-to-speech (TTS), we extend the FastSpeech2 model for the VC problem. We introduce the convolution-augmente d Transformer (Conformer) instead of the Transformer, making it possible to capture both local and global context information from the input sequence. Furthermore, we extend variance predictors to variance converters to explicitly convert the source speaker's prosody components such as pitch and energy into the target speaker. The experimental evaluation with the Japanese speaker dataset, which consists of male and female speakers of 1,000 utterances, demonstrates that the proposed model enables us to perform more stable, faster, and better conversion than autoregressive S2S (AR-S2S) models such as Tacotron2 and Transformer.
翻訳日:2021-04-15 13:09:34 公開日:2021-04-14
# テキスト音声の表現性向上のためのグラフニューラルネットワークによる依存構文解析に基づく意味表現学習

Dependency Parsing based Semantic Representation Learning with Graph Neural Network for Enhancing Expressiveness of Text-to-Speech ( http://arxiv.org/abs/2104.06835v1 )

ライセンス: Link先を確認
Yixuan Zhou, Changhe Song, Jingbei Li, Zhiyong Wu, Helen Meng(参考訳) 文の意味情報は、テキスト音声(TTS)システムの表現性を改善するために重要であるが、現代のエンコーダ構造のおかげで、限られた訓練TSデータセットから十分に学べない。 大規模に事前訓練されたテキスト表現が発達するにつれて、変換器(BERT)からの双方向エンコーダ表現がテキスト・コンテキスト意味情報を具現化し、追加入力としてTSに適用することが証明された。 しかしBERTは文内の依存関係から意味トークンを明示的に関連付けることはできない。 本稿では,表現性を高めるために,文の係り受け関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。 入力テキストの依存性グラフは、前方方向と逆方向の両方を考慮した依存ツリー構造からのエッジで構成されている。 次に、関係ゲートグラフネットワーク(RGGN)によって単語レベルで意味表現を抽出し、BERTの機能をノード入力として入力する。 アップサンプル意味表現と文字レベルの埋め込みは、タコトロン-2のエンコーダ入力として結合される。 提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT 特徴を用いたベースラインよりも優れており,逆方向から学習した意味表現の方が表現力の向上に有効であることを示す。

Semantic information of a sentence is crucial for improving the expressiveness of a text-to-speech (TTS) system, but can not be well learned from the limited training TTS dataset just by virtue of the nowadays encoder structures. As large scale pre-trained text representation develops, bidirectional encoder representations from transformers (BERT) has been proven to embody text-context semantic information and applied to TTS as additional input. However BERT can not explicitly associate semantic tokens from point of dependency relations in a sentence. In this paper, to enhance expressiveness, we propose a semantic representation learning method based on graph neural network, considering dependency relations of a sentence. Dependency graph of input text is composed of edges from dependency tree structure considering both the forward and the reverse directions. Semantic representations are then extracted at word level by the relational gated graph network (RGGN) fed with features from BERT as nodes input. Upsampled semantic representations and character-level embeddings are concatenated to serve as the encoder input of Tacotron-2. Experimental results show that our proposed method outperforms the baseline using vanilla BERT features both in LJSpeech and Bilzzard Challenge 2013 datasets, and semantic representations learned from the reverse direction are more effective for enhancing expressiveness.
翻訳日:2021-04-15 13:09:15 公開日:2021-04-14
# 3つの文化:パラメトリック回帰、解釈可能なアルゴリズム、複雑なアルゴリズム

Considerations Across Three Cultures: Parametric Regressions, Interpretable Algorithms, and Complex Algorithms ( http://arxiv.org/abs/2104.06571v1 )

ライセンス: Link先を確認
Ani Eloyan and Sherri Rose(参考訳) レオ・ブレイマンの論文を「統計モデリング:2つの文化」から拡張し、パラメトリック回帰、解釈可能なアルゴリズム、複雑な(多分説明可能な)アルゴリズムに焦点を当てたアルゴリズムモデリングの分岐を含める。

We consider an extension of Leo Breiman's thesis from "Statistical Modeling: The Two Cultures" to include a bifurcation of algorithmic modeling, focusing on parametric regressions, interpretable algorithms, and complex (possibly explainable) algorithms.
翻訳日:2021-04-15 13:08:54 公開日:2021-04-14
# 知覚エントロピー:複数センサの構成評価と設計のためのメトリクス

Perception Entropy: A Metric for Multiple Sensors Configuration Evaluation and Design ( http://arxiv.org/abs/2104.06615v1 )

ライセンス: Link先を確認
Tao Ma, Zhizheng Liu, Yikang Li(参考訳) センサーの選択や設置場所を含むセンサーの構成は、自動運転において重要な役割を果たす。 良く設計されたセンサ構成は、知覚システムの性能上界を大幅に改善する。 しかし, 複数センサの活用が主流になりつつあるため, 単一センサ構成問題に焦点を絞った既存手法はほとんど利用されていない。 そこで本研究では,ベイズ理論における条件エントロピーに基づく,カメラとライダーの両方を含むセンサ構成を評価する新しい手法を提案する。 それに応じて、知覚アルゴリズムの性能とセンサの選択の両方を考慮した2つの構成間の差を測定するために、評価指標である知覚エントロピーが導入された。 我々の知る限りでは、これは自動運転車のマルチセンサー構成問題に対処する最初の方法である。 シミュレーション結果,広範な比較,分析により,提案手法の優れた性能が得られた。

Sensor configuration, including the sensor selections and their installation locations, serves a crucial role in autonomous driving. A well-designed sensor configuration significantly improves the performance upper bound of the perception system. However, as leveraging multiple sensors is becoming the mainstream setting, existing methods mainly focusing on single-sensor configuration problems are hardly utilized in practice. To tackle these issues, we propose a novel method based on conditional entropy in Bayesian theory to evaluate the sensor configurations containing both cameras and LiDARs. Correspondingly, an evaluation metric, perception entropy, is introduced to measure the difference between two configurations, which considers both the perception algorithm performance and the selections of the sensors. To the best of our knowledge, this is the first method to tackle the multi-sensor configuration problem for autonomous vehicles. The simulation results, extensive comparisons, and analysis all demonstrate the superior performance of our proposed approach.
翻訳日:2021-04-15 13:08:28 公開日:2021-04-14
# VRコンテンツにおける身体症状予測の精度向上に向けて

Towards a Better Understanding of VR Sickness: Physical Symptom Prediction for VR Contents ( http://arxiv.org/abs/2104.06780v1 )

ライセンス: Link先を確認
Hak Gu Kim, Sangmin Lee, Seongyeop Kim, Heoun-taek Lim, Yong Man Ro(参考訳) 我々は,VR病の身体症状のレベルを評価することで,VRSA(VR illness Assessment)のブラックボックス問題に対処する。 類似したvr病レベルを誘導するvrコンテンツについては、コンテンツの特性によって身体症状が異なる可能性がある。 既存のVRSAの手法のほとんどは、VR全体の病気スコアを評価することに焦点を当てている。 VR病の理解を深めるためには、VR病の全体的な程度よりも、VR病の主要な症状のレベルを予測し、提供する必要がある。 本稿では,視覚障害,吐き気,眼球運動などのvr障害の程度に影響を及ぼす主症状の程度を予測する。 さらに,様々なフレームレート,生理的信号,主観的スコアを備えた360度ビデオを含むvrsa用の新たな大規模データセットも紹介する。 VRSAベンチマークと新たに収集したデータセットから、我々のアプローチは主観的スコアと高い相関を達成できるだけでなく、どの症状がVR病の主な原因であるかをよりよく理解する可能性を示している。

We address the black-box issue of VR sickness assessment (VRSA) by evaluating the level of physical symptoms of VR sickness. For the VR contents inducing the similar VR sickness level, the physical symptoms can vary depending on the characteristics of the contents. Most of existing VRSA methods focused on assessing the overall VR sickness score. To make better understanding of VR sickness, it is required to predict and provide the level of major symptoms of VR sickness rather than overall degree of VR sickness. In this paper, we predict the degrees of main physical symptoms affecting the overall degree of VR sickness, which are disorientation, nausea, and oculomotor. In addition, we introduce a new large-scale dataset for VRSA including 360 videos with various frame rates, physiological signals, and subjective scores. On VRSA benchmark and our newly collected dataset, our approach shows a potential to not only achieve the highest correlation with subjective scores, but also to better understand which symptoms are the main causes of VR sickness.
翻訳日:2021-04-15 13:08:14 公開日:2021-04-14
# 立体3次元画像の奥行き調整のための視覚快適感・強化学習

Visual Comfort Aware-Reinforcement Learning for Depth Adjustment of Stereoscopic 3D Images ( http://arxiv.org/abs/2104.06782v1 )

ライセンス: Link先を確認
Hak Gu Kim, Minho Park, Sangmin Lee, Seongyeop Kim, Yong Man Ro(参考訳) 奥行き調整は立体3D画像の視覚的体験を高めることを目的としており、視覚的快適さと深度知覚を改善する。 人間の専門家にとって、深さ調整手順は反復的な意思決定のシーケンスである。 人間の専門家は、視覚的快適度と知覚深度の両方に満足するまで、その深さを反復的に調整する。 本研究では, 深度編集作業における人間の逐次決定を明示的にモデル化する, VCA-RL (Visual Comfort Aware Reinforcement Learning) という, 深度調整のための新しい深度強化学習手法を提案する。 奥行き調整プロセスをマルコフ決定プロセスとして定式化し、左右のカメラ間の距離を制御するためにアクションをカメラ移動操作として定義する。 本エージェントは,立体視の知覚的側面からカメラ動作の最適なシーケンスを学習するために,客観的視覚快適度評価指標の指導に基づいて訓練を行う。 3つの異なるS3Dデータベース上でのVCA-RLモデルの有効性を示す。

Depth adjustment aims to enhance the visual experience of stereoscopic 3D (S3D) images, which accompanied with improving visual comfort and depth perception. For a human expert, the depth adjustment procedure is a sequence of iterative decision making. The human expert iteratively adjusts the depth until he is satisfied with the both levels of visual comfort and the perceived depth. In this work, we present a novel deep reinforcement learning (DRL)-based approach for depth adjustment named VCA-RL (Visual Comfort Aware Reinforcement Learning) to explicitly model human sequential decision making in depth editing operations. We formulate the depth adjustment process as a Markov decision process where actions are defined as camera movement operations to control the distance between the left and right cameras. Our agent is trained based on the guidance of an objective visual comfort assessment metric to learn the optimal sequence of camera movement actions in terms of perceptual aspects in stereoscopic viewing. With extensive experiments and user studies, we show the effectiveness of our VCA-RL model on three different S3D databases.
翻訳日:2021-04-15 13:07:55 公開日:2021-04-14
# ディープアンチエイリアシングニューラルネットワークによる光フィールドレンダリングの再検討

Revisiting Light Field Rendering with Deep Anti-Aliasing Neural Network ( http://arxiv.org/abs/2104.06797v1 )

ライセンス: Link先を確認
Gaochang Wu, Yebin Liu, Lu Fang, Tianyou Chai(参考訳) 光電場再構成(LF)は主に大きな格差と非ランベルト効果という2つの課題に直面している。 典型的なアプローチは、深度推定を用いた大きな不均一性問題に対処し、続いてビュー合成や明示的な深度情報を抽出して非ランベルトレンダリングを可能にするが、統一されたフレームワークで両方の課題を解決することはめったにない。 本稿では,従来のLFレンダリングフレームワークを再検討し,高度なディープラーニング技術と組み合わせることで両課題に対処する。 まず,大きな格差と非ランバート的課題の背後にある本質的な問題はエイリアシング問題であることを示す。 古典的なLFレンダリングアプローチは、一般的にフーリエ領域の再構成フィルタでエイリアスを緩和するが、ディープラーニングパイプライン内で実装するのは難しそうだ。 代わりに、画像領域でアンチエイリアス化の再構築を行うための代替フレームワークを導入し、エイリアス化問題に匹敵する効果を解析的に示す。 完全な可能性を探るために、統合アーキテクチャとトレーニング可能なパラメータの設計を通じて、アンチエイリアスフレームワークをディープニューラルネットワークに組み込む。 ネットワークは、通常のLFや非構造化LFを含む特別なトレーニングセットを使用して、エンドツーエンドの最適化を通じてトレーニングされる。 提案されたディープラーニングパイプラインは、他の最先端のアプローチと比較して、大きな格差と非ランバート的課題の両方を解決する上で、実質的な優位性を示しています。 LFのビュー補間に加えて,提案したパイプラインは光界ビュー外挿にも有効であることを示す。

The light field (LF) reconstruction is mainly confronted with two challenges, large disparity and the non-Lambertian effect. Typical approaches either address the large disparity challenge using depth estimation followed by view synthesis or eschew explicit depth information to enable non-Lambertian rendering, but rarely solve both challenges in a unified framework. In this paper, we revisit the classic LF rendering framework to address both challenges by incorporating it with advanced deep learning techniques. First, we analytically show that the essential issue behind the large disparity and non-Lambertian challenges is the aliasing problem. Classic LF rendering approaches typically mitigate the aliasing with a reconstruction filter in the Fourier domain, which is, however, intractable to implement within a deep learning pipeline. Instead, we introduce an alternative framework to perform anti-aliasing reconstruction in the image domain and analytically show comparable efficacy on the aliasing issue. To explore the full potential, we then embed the anti-aliasing framework into a deep neural network through the design of an integrated architecture and trainable parameters. The network is trained through end-to-end optimization using a peculiar training set, including regular LFs and unstructured LFs. The proposed deep learning pipeline shows a substantial superiority in solving both the large disparity and the non-Lambertian challenges compared with other state-of-the-art approaches. In addition to the view interpolation for an LF, we also show that the proposed pipeline also benefits light field view extrapolation.
翻訳日:2021-04-15 13:07:38 公開日:2021-04-14
# アイテムの固有の記憶力による共有記憶

Shared memories driven by the intrinsic memorability of items ( http://arxiv.org/abs/2104.06937v1 )

ライセンス: Link先を確認
Wilma A. Bainbridge(参考訳) イベントを経験したとき、それは以前の経験のように感じられ、そのイベントの解釈(例えば、美学、感情)、そして現在の状態が、どのようにそれを記憶するかを決定する。 しかし、最近の研究は、記憶や忘れることに影響を与える視覚世界そのものの強い揺れを明らかにしている。 特定の顔、言葉、画像、動きを含む特定のアイテムは、個々の違いにかかわらず、観察者間で本質的に記憶または忘れられる。 さらに、神経画像研究により、脳は遅発知覚において、記憶力に敏感であることが明らかとなった。 これらの記憶の強い組み合わせは、私たちの感覚環境の幅広い組織原理を反映し、脳がアイテムを記憶にエンコードする前にどのように情報を優先するかを明らかにするかもしれない。 本章では,視覚情報の記憶可能性に関する現在最先端の理解と,これらの知見が視覚事象をどのように知覚し記憶するかを論じる。

When we experience an event, it feels like our previous experiences, our interpretations of that event (e.g., aesthetics, emotions), and our current state will determine how we will remember it. However, recent work has revealed a strong sway of the visual world itself in influencing what we remember and forget. Certain items -- including certain faces, words, images, and movements -- are intrinsically memorable or forgettable across observers, regardless of individual differences. Further, neuroimaging research has revealed that the brain is sensitive to memorability both rapidly and automatically during late perception. These strong consistencies in memory across people may reflect the broad organizational principles of our sensory environment, and may reveal how the brain prioritizes information before encoding items into memory. In this chapter, I will discuss our current state-of-the-art understanding of memorability for visual information, and what these findings imply about how we perceive and remember visual events.
翻訳日:2021-04-15 13:07:11 公開日:2021-04-14
# 二重ロバスト半教師付き平均推定:MARラベルによる選択バイアスの減少

Double Robust Semi-Supervised Inference for the Mean: Selection Bias under MAR Labeling with Decaying Overlap ( http://arxiv.org/abs/2104.06667v1 )

ライセンス: Link先を確認
Yuqian Zhang, Abhishek Chakrabortty and Jelena Bradic(参考訳) 近年,半教師付き推論 (SS) が注目されている。 SS設定は、中程度のラベル付きデータ(L)とは別に、さらに大きく、ラベルなしのデータ(U)によって特徴づけられる。 U| >> |L| の設定は、いわゆる「陽性」や「オーバーラップ」の仮定に自然に違反するため、SS推論を標準の欠落データ問題と一意に異なるものにしている。 しかし、SSの文献の多くは、L と U が等しく分布している、すなわちラベリングにおいて選択バイアスがないと暗黙に仮定している。 選択バイアスを許容するランダム (MAR) 型ラベルの欠落は, 確率スコア (PS) の減衰特性によって必然的に悪化する。 本稿では, このギャップを, 試作問題, 応答平均の推定に対処する。 二重ロバスト ss (drss) 平均推定器を提案し,その漸近特性の完全なキャラクタリゼーションを与える。 提案した推定器は、結果またはPSモデルが正しく指定されている限り一貫している。 両モデルが正しく指定されると、より小さいサイズ |l| に依存する非標準一貫性率で推論結果を提供する。 結果は不均衡治療群による因果推論にも拡張される。 さらに,新しいオフセットロジスティックモデルや階層化されたラベリングモデルなど,減衰するpsのモデルと推定器の新たな選択肢をいくつか提示する。 それらの特性を高次元と低次元の両方で示す。 これらは独立した関心事である。 最後に,広範囲なシミュレーションと実データアプリケーションを提案する。

Semi-supervised (SS) inference has received much attention in recent years. Apart from a moderate-sized labeled data, L, the SS setting is characterized by an additional, much larger sized, unlabeled data, U. The setting of |U| >> |L|, makes SS inference unique and different from the standard missing data problems, owing to natural violation of the so-called 'positivity' or 'overlap' assumption. However, most of the SS literature implicitly assumes L and U to be equally distributed, i.e., no selection bias in the labeling. Inferential challenges in missing at random (MAR) type labeling allowing for selection bias, are inevitably exacerbated by the decaying nature of the propensity score (PS). We address this gap for a prototype problem, the estimation of the response's mean. We propose a double robust SS (DRSS) mean estimator and give a complete characterization of its asymptotic properties. The proposed estimator is consistent as long as either the outcome or the PS model is correctly specified. When both models are correctly specified, we provide inference results with a non-standard consistency rate that depends on the smaller size |L|. The results are also extended to causal inference with imbalanced treatment groups. Further, we provide several novel choices of models and estimators of the decaying PS, including a novel offset logistic model and a stratified labeling model. We present their properties under both high and low dimensional settings. These may be of independent interest. Lastly, we present extensive simulations and also a real data application.
翻訳日:2021-04-15 13:06:55 公開日:2021-04-14
# 変換されたマルウェアバイナリ画像から抽出した特徴に基づく新しいマルウェア検出機構

A Novel Malware Detection Mechanism based on Features Extracted from Converted Malware Binary Images ( http://arxiv.org/abs/2104.06652v1 )

ライセンス: Link先を確認
Abhijitt Dhavlle and Sanket Shukla(参考訳) 何十年もの間、我々のコンピュータシステムは様々な種類のハードウェアとソフトウェアによる攻撃によって脅かされてきた。 このマルウェアは、盗む、破壊する、汚染する、意図しないアクセスを得る、システム全体を破壊できる。 マルウェアファイルの静的および動的解析によってマルウェアを検出する技術は存在するが、ステルス的マルウェアは静的解析法を回避し、動的解析のためにマルウェアを検出する手法を提案する先行研究があるが、本研究ではマルウェアを検出する新しい手法を提案する。 マルウェアのバイナリイメージを使用して、異なる特徴を抽出し、得られたデータセットに異なるML分類器を用いる。 本手法は,抽出した特徴に基づくマルウェアの分類に成功していることを示す。

Our computer systems for decades have been threatened by various types of hardware and software attacks of which Malwares have been one of them. This malware has the ability to steal, destroy, contaminate, gain unintended access, or even disrupt the entire system. There have been techniques to detect malware by performing static and dynamic analysis of malware files, but, stealthy malware has circumvented the static analysis method and for dynamic analysis, there have been previous works that propose different methods to detect malware but, in this work we propose a novel technique to detect malware. We use malware binary images and then extract different features from the same and then employ different ML-classifiers on the dataset thus obtained. We show that this technique is successful in differentiating classes of malware based on the features extracted.
翻訳日:2021-04-15 13:06:12 公開日:2021-04-14
# 非滑らかな非凸最適化におけるOracleの複雑さ

Oracle Complexity in Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2104.06763v1 )

ライセンス: Link先を確認
Guy Kornowski, Ohad Shamir(参考訳) 滑らかで有界かつ非凸な関数が与えられたとき、標準勾配法は$\epsilon$-定常点(勾配ノルムが$\epsilon$より小さい)を$\mathcal{O}(1/\epsilon^2)$反復で見つけることができる。 しかし、現代のニューラルネットワークのトレーニングなど、多くの重要な非凸最適化問題は本質的に滑らかではないため、これらの結果は適用できない。 本稿では,非滑らかな非凸最適化をオラクル複雑性の観点から検討し,アルゴリズムが様々な点における関数の局所情報のみにアクセスできると仮定する。 まず、$\epsilon$-stationar y point に近い問題を考える。 これはおそらく$\epsilon$-定常点を求める最も自然な緩和であり、非滑らかな非凸の場合では不可能である。 この緩和された目標が、任意の距離といくつかの定数より小さい$\epsilon$に対して、効率的に達成できないことを証明します。 第2の結果は,非滑らかな非凸最適化をスムーズな最適化に還元することで,対象関数のスムーズな近似にスムーズな最適化手法を適用する可能性を扱う。 一方、非滑らかな非凸関数の滑らか化は(例えば、ランダムな滑らか化によって)非常に効率的に行うことができるが、スムースネスパラメータの次元依存因子は、標準的な滑らかな最適化手法に接続する際の反復複雑性に強く影響を与える。 一方、これらの次元因子は適切な平滑化法で排除できるが、平滑化過程のオラクルの複雑さを指数関数的に大きくすることでのみ除去できる。

It is well-known that given a smooth, bounded-from-below, and possibly nonconvex function, standard gradient-based methods can find $\epsilon$-stationar y points (with gradient norm less than $\epsilon$) in $\mathcal{O}(1/\epsilon^2)$ iterations. However, many important nonconvex optimization problems, such as those associated with training modern neural networks, are inherently not smooth, making these results inapplicable. In this paper, we study nonsmooth nonconvex optimization from an oracle complexity viewpoint, where the algorithm is assumed to be given access only to local information about the function at various points. We provide two main results (under mild assumptions): First, we consider the problem of getting near $\epsilon$-stationar y points. This is perhaps the most natural relaxation of finding $\epsilon$-stationar y points, which is impossible in the nonsmooth nonconvex case. We prove that this relaxed goal cannot be achieved efficiently, for any distance and $\epsilon$ smaller than some constants. Our second result deals with the possibility of tackling nonsmooth nonconvex optimization by reduction to smooth optimization: Namely, applying smooth optimization methods on a smooth approximation of the objective function. For this approach, we prove an inherent trade-off between oracle complexity and smoothness: On the one hand, smoothing a nonsmooth nonconvex function can be done very efficiently (e.g., by randomized smoothing), but with dimension-dependent factors in the smoothness parameter, which can strongly affect iteration complexity when plugging into standard smooth optimization methods. On the other hand, these dimension factors can be eliminated with suitable smoothing methods, but only by making the oracle complexity of the smoothing process exponentially large.
翻訳日:2021-04-15 13:05:58 公開日:2021-04-14
# WiFiNet:CNNを用いたWiFiベースの屋内ローカライゼーション

WiFiNet: WiFi-based indoor localisation using CNNs ( http://arxiv.org/abs/2104.06768v1 )

ライセンス: Link先を確認
Noelia Hern\'andez, Ignacio Parra, H\'ector Corrales, Rub\'en Izquierdo, Augusto Luis Ballardini, Carlota Salinas, Iv\'an Garcia(参考訳) 磁場、ブルートゥース、WiFiなど、屋内のローカライゼーションを提供する技術が提案されている。 中でもWiFiは、最高可用性と最高精度のデバイスだ。 この事実により、ほぼすべての環境とデバイスで利用可能なユビキタスな正確なローカライズが可能になる。 しかし、WiFiベースのローカライゼーションはまだ未解決の問題だ。 本稿では,分類問題における畳み込みニューラルネットワークの優れた能力を活用する,wifiベースの屋内ローカライズシステムを提案する。 wifinetと呼ばれるカスタムアーキテクチャは、この問題を解決するために特別に設計、訓練され、転送学習と特徴抽出の両方を使用して最も人気のある事前学習されたネットワークであった。 その結果、WiFiNetは、SVMのような最先端のWiFi屋内ローカライゼーションアルゴリズムと比較して、平均的なローカライゼーション誤差(33%)と処理時間を削減するため、中規模環境での屋内ローカライゼーション(30位置と113アクセスポイント)において優れたアプローチであることが示された。

Different technologies have been proposed to provide indoor localisation: magnetic field, bluetooth , WiFi, etc. Among them, WiFi is the one with the highest availability and highest accuracy. This fact allows for an ubiquitous accurate localisation available for almost any environment and any device. However, WiFi-based localisation is still an open problem. In this article, we propose a new WiFi-based indoor localisation system that takes advantage of the great ability of Convolutional Neural Networks in classification problems. Three different approaches were used to achieve this goal: a custom architecture called WiFiNet designed and trained specifically to solve this problem and the most popular pre-trained networks using both transfer learning and feature extraction. Results indicate that WiFiNet is as a great approach for indoor localisation in a medium-sized environment (30 positions and 113 access points) as it reduces the mean localisation error (33%) and the processing time when compared with state-of-the-art WiFi indoor localisation algorithms such as SVM.
翻訳日:2021-04-15 13:05:26 公開日:2021-04-14
# アクティブラーニングはフェアネスの問題を軽減するか?

Can Active Learning Preemptively Mitigate Fairness Issues? ( http://arxiv.org/abs/2104.06879v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Branchaud-Charron, Parmida Atighehchian, Pau Rodr\'iguez, Grace Abuhamad, Alexandre Lacoste(参考訳) データセットバイアスは、機械学習における不公平な原因の1つだ。 したがって、データ収集およびデータセット準備段階における公平性への対処は、より公正なアルゴリズムのトレーニングの重要な部分となる。 特に、アクティブラーニング(AL)アルゴリズムは、最も情報に富んだトレーニングサンプルを重要視することでタスクを約束する。 しかし、既存のalアルゴリズムとアルゴリズムの公平性の効果と相互作用は未検討のままである。 本稿では,BALDのような不確実性に基づくALヒューリスティックスで訓練されたモデルが,同一の独立分布(d.d.)で訓練されたモデルよりも保護クラスに対する判断が公平であるかどうかを検討する。 サンプリング BALDでは予測パリティが有意に向上し,i.d.よりも精度が向上した。 サンプリング また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。 フェアネスの問題に対処しながら、彼らのインタラクションは、調査したほとんどのベンチマークやメトリクスの結果をさらに改善します。

Dataset bias is one of the prevailing causes of unfairness in machine learning. Addressing fairness at the data collection and dataset preparation stages therefore becomes an essential part of training fairer algorithms. In particular, active learning (AL) algorithms show promise for the task by drawing importance to the most informative training samples. However, the effect and interaction between existing AL algorithms and algorithmic fairness remain under-explored. In this paper, we study whether models trained with uncertainty-based AL heuristics such as BALD are fairer in their decisions with respect to a protected class than those trained with identically independently distributed (i.i.d.) sampling. We found a significant improvement on predictive parity when using BALD, while also improving accuracy compared to i.i.d. sampling. We also explore the interaction of algorithmic fairness methods such as gradient reversal (GRAD) and BALD. We found that, while addressing different fairness issues, their interaction further improves the results on most benchmarks and metrics we explored.
翻訳日:2021-04-15 13:05:07 公開日:2021-04-14
# 制約付きモデルに基づく政策最適化による安全連続制御

Safe Continuous Control with Constrained Model-Based Policy Optimization ( http://arxiv.org/abs/2104.06922v1 )

ライセンス: Link先を確認
Moritz A. Zanger, Karam Daaboul, J. Marius Z\"ollner(参考訳) 実世界の領域における強化学習(RL)アルゴリズムの適用性は、古典的なRL最適化目標の漸近的な性質を考慮すると、しばしば、安全制約の遵守を必要とする。 従来のrlの目標とは対照的に、safe explorationは、期待コストのリターンで表現される安全制約の下での期待リターンの最大化を検討する。 本稿では,モデルフリーな安全探索アルゴリズムのしばしば禁止される高いサンプル複雑性に対処するために,制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。 さらに,制約付きポリシー最適化問題に対するモデル利用の影響に関する理論的・実証的分析を行い,モデル生成データを用いたポリシー探索を高速化する実用的なアルゴリズムを提案する。 ポリシーの制約満足度を正確に見積もる必要性は、モデルエラーの蓄積と矛盾する。 モデル不確かさを、確率力学モデルのアンサンブルの予測と、この誤差対策の制約の間に期待されるクルバック・リーブラーの偏差として定量化し、適応的な再サンプリング方式と動的に限定されたロールアウト地平線をもたらす。 本手法は,高次元動作空間と状態空間を持つ複数のロボット移動課題に対して評価する。 実験により,本アルゴリズムはモデルフリー手法の近似的制約満足度を維持しつつ,トレーニングサンプルの10~20倍の縮小でモデルフリー性能に達することがわかった。

The applicability of reinforcement learning (RL) algorithms in real-world domains often requires adherence to safety constraints, a need difficult to address given the asymptotic nature of the classic RL optimization objective. In contrast to the traditional RL objective, safe exploration considers the maximization of expected returns under safety constraints expressed in expected cost returns. We introduce a model-based safe exploration algorithm for constrained high-dimensional control to address the often prohibitively high sample complexity of model-free safe exploration algorithms. Further, we provide theoretical and empirical analyses regarding the implications of model-usage on constrained policy optimization problems and introduce a practical algorithm that accelerates policy search with model-generated data. The need for accurate estimates of a policy's constraint satisfaction is in conflict with accumulating model-errors. We address this issue by quantifying model-uncertainty as the expected Kullback-Leibler divergence between predictions of an ensemble of probabilistic dynamics models and constrain this error-measure, resulting in an adaptive resampling scheme and dynamically limited rollout horizons. We evaluate this approach on several simulated constrained robot locomotion tasks with high-dimensional action- and state-spaces. Our empirical studies find that our algorithm reaches model-free performances with a 10-20 fold reduction of training samples while maintaining approximate constraint satisfaction levels of model-free methods.
翻訳日:2021-04-15 13:04:51 公開日:2021-04-14
# 生涯共有自律のための状況信頼支援

Situational Confidence Assistance for Lifelong Shared Autonomy ( http://arxiv.org/abs/2104.06556v1 )

ライセンス: Link先を確認
Matthew Zurek, Andreea Bobu, Daniel S. Brown, Anca D. Dragan(参考訳) 共有自律性(shared autonomy)は、ロボットがユーザの意図を推論し、その達成を支援することを可能にする。 しかし、ユーザーがロボットが知らない新しいタスクをしたいとき、共有自律性は、彼らの意図ではない何かで助けようとすることで、彼らのパフォーマンスを妨げます。 我々のキーとなるアイデアは、ロボットがユーザーの入力を説明するのに意図のレパートリーが不十分であるかどうかを検知し、フィードバック制御を行うことである。 これにより、ロボットは目立たないタスクの実行を観察し、その背後にある新しい意図を学習し、このレパートリーに追加することができる。 提案手法は,ロボットのレパートリーにおいて人間の意図が良好なパフォーマンスを維持し,そうでなければ事前の共有自律アプローチよりも優れ,新しいスキルを習得し,信頼に基づく効率的な生涯学習を可能にすることを,ケーススタディとユーザスタディの両方で実証した。

Shared autonomy enables robots to infer user intent and assist in accomplishing it. But when the user wants to do a new task that the robot does not know about, shared autonomy will hinder their performance by attempting to assist them with something that is not their intent. Our key idea is that the robot can detect when its repertoire of intents is insufficient to explain the user's input, and give them back control. This then enables the robot to observe unhindered task execution, learn the new intent behind it, and add it to this repertoire. We demonstrate with both a case study and a user study that our proposed method maintains good performance when the human's intent is in the robot's repertoire, outperforms prior shared autonomy approaches when it isn't, and successfully learns new skills, enabling efficient lifelong learning for confidence-based shared autonomy.
翻訳日:2021-04-15 13:04:28 公開日:2021-04-14
# グラフニューラルネットワークを用いたブロックチェーン上のアイデンティティ推論

Identity Inference on Blockchain using Graph Neural Network ( http://arxiv.org/abs/2104.06559v1 )

ライセンス: Link先を確認
Jie Shen, Jiajun Zhou, Yunyi Xie, Shanqing Yu, and Qi Xuan(参考訳) ブロックチェーンの匿名性は、暗号通貨プラットフォームにおける違法行為や犯罪行為の成長を加速させている。 分散化はブロックチェーンの典型的な特徴のひとつですが、ユーザトランザクションの安全性と安定性を確保するために、これらの違法な振る舞いを検出する効果的な規制を緊急に求めます。 アカウントのIDに関する予備的な推論を目的としたID推論は、ブロックチェーンセキュリティにおいて重要な役割を果たす。 一般的なツールとして、グラフマイニングテクニックはアカウント間の対話的な情報を効果的に表現し、アイデンティティ推論に使用できる。 しかし、既存の手法ではスケーラビリティとエンドツーエンドアーキテクチャのバランスが取れず、高い計算消費と弱い特徴表現をもたらす。 本稿では,id推論タスクをグラフ分類パターンに自然変換し,大規模グラフでの計算を効果的に回避するトランザクションサブグラフの観点から,ユーザの行動を解析するための新しい手法を提案する。 さらに,$\text{i}^2 \text{bgnn}$という汎用的なグラフニューラルネットワークモデルを提案し,サブグラフを入力として受け入れ,トランザクションサブグラフパターンをアカウントidにマッピングする関数を学習し,匿名化を実現する。 EOSG と ETHG データセットの大規模な実験により,提案手法が同一性推論における最先端性能を達成することを示す。

The anonymity of blockchain has accelerated the growth of illegal activities and criminal behaviors on cryptocurrency platforms. Although decentralization is one of the typical characteristics of blockchain, we urgently call for effective regulation to detect these illegal behaviors to ensure the safety and stability of user transactions. Identity inference, which aims to make a preliminary inference about account identity, plays a significant role in blockchain security. As a common tool, graph mining technique can effectively represent the interactive information between accounts and be used for identity inference. However, existing methods cannot balance scalability and end-to-end architecture, resulting high computational consumption and weak feature representation. In this paper, we present a novel approach to analyze user's behavior from the perspective of the transaction subgraph, which naturally transforms the identity inference task into a graph classification pattern and effectively avoids computation in large-scale graph. Furthermore, we propose a generic end-to-end graph neural network model, named $\text{I}^2 \text{BGNN}$, which can accept subgraph as input and learn a function mapping the transaction subgraph pattern to account identity, achieving de-anonymization. Extensive experiments on EOSG and ETHG datasets demonstrate that the proposed method achieve the state-of-the-art performance in identity inference.
翻訳日:2021-04-15 13:04:10 公開日:2021-04-14
# ディープニューラルネットワークによる逆問題の学習正規化パラメータ

Learning Regularization Parameters of Inverse Problems via Deep Neural Networks ( http://arxiv.org/abs/2104.06594v1 )

ライセンス: Link先を確認
Babak Maboudi Afkham and Julianne Chung and Matthias Chung(参考訳) 本稿では,ディープニューラルネットワーク(dnn)を用いて逆問題を解くための正規化パラメータを求める新しい手法について述べる。 本研究では,観測データから正規化パラメータへのマッピングを近似するためにネットワークを訓練する教師あり学習手法を検討する。 ネットワークをトレーニングすると、DNNの効率的な前方伝播により、新たに取得したデータの正規化パラメータを計算することができる。 本稿では,多種多様な正規化関数,前方モデル,雑音モデルについて考察する。 ネットワークが保持する正規化パラメータはより効率的に計算でき、既存の正規化パラメータ選択法と比較してより正確な解が得られる。 最適実験設計や経験ベイズリスク最小化による学習に対する従来の研究と比べて、正規化パラメータの学習にdnnを使用する主な利点は、より一般化可能であることを強調する。 すなわち、DNN計算された正規化パラメータは、ある特定の設計目標に対して最適なパラメータのセットを計算するのではなく、新たに観測されたデータの特定の特徴や特性に合わせて調整される。 したがって、このアプローチは、観察がトレーニングセットの密接な表現でない場合をよりうまく扱うことができる。 さらに、他の既存のトレーニング手法と同様に、高価で挑戦的な二段階最適化手法は不要である。 DNNを用いて正規化パラメータを学習する可能性を示す。

In this work, we describe a new approach that uses deep neural networks (DNN) to obtain regularization parameters for solving inverse problems. We consider a supervised learning approach, where a network is trained to approximate the mapping from observation data to regularization parameters. Once the network is trained, regularization parameters for newly obtained data can be computed by efficient forward propagation of the DNN. We show that a wide variety of regularization functionals, forward models, and noise models may be considered. The network-obtained regularization parameters can be computed more efficiently and may even lead to more accurate solutions compared to existing regularization parameter selection methods. We emphasize that the key advantage of using DNNs for learning regularization parameters, compared to previous works on learning via optimal experimental design or empirical Bayes risk minimization, is greater generalizability. That is, rather than computing one set of parameters that is optimal with respect to one particular design objective, DNN-computed regularization parameters are tailored to the specific features or properties of the newly observed data. Thus, our approach may better handle cases where the observation is not a close representation of the training set. Furthermore, we avoid the need for expensive and challenging bilevel optimization methods as utilized in other existing training approaches. Numerical results demonstrate the potential of using DNNs to learn regularization parameters.
翻訳日:2021-04-15 13:03:48 公開日:2021-04-14
# 無線フェデレーション学習のための資源配分:概念,利益,課題

Resource Rationing for Wireless Federated Learning: Concept, Benefits, and Challenges ( http://arxiv.org/abs/2104.06990v1 )

ライセンス: Link先を確認
Cong Shen, Jie Xu, Sihui Zheng, Xiang Chen(参考訳) 我々は、無線連合学習(FL)のための新たな資源割当フレームワークを提唱する。 FLの既存のリソース割当手法とは異なり、リソース割当は学習ラウンド間のリソースのバランスに重点を置いており、これらが連合学習性能に与える影響を明示的に把握している。 この新しいフレームワークは、flの収束を最適化するために既存のリソース割り当てスキームとシームレスに統合することができる。 特に、新しい"later-is-better" ;原理は、無線flのいくつかの例で実証的に検証されるリソース配給の前面と中心にある。 また、追求に値する技術的課題や研究機会も指摘します。 リソース設定は、新たなFLを独自の特徴を持つ新しいタイプのサービスとして扱うことのメリットを強調し、特定のサービスのための通信アルゴリズムを設計する。

We advocate a new resource allocation framework, which we term resource rationing, for wireless federated learning (FL). Unlike existing resource allocation methods for FL, resource rationing focuses on balancing resources across learning rounds so that their collective impact on the federated learning performance is explicitly captured. This new framework can be integrated seamlessly with existing resource allocation schemes to optimize the convergence of FL. In particular, a novel "later-is-better" ; principle is at the front and center of resource rationing, which is validated empirically in several instances of wireless FL. We also point out technical challenges and research opportunities that are worth pursuing. Resource rationing highlights the benefits of treating the emerging FL as a new class of service that has its own characteristics, and designing communication algorithms for this particular service.
翻訳日:2021-04-15 13:03:29 公開日:2021-04-14
# (参考訳) 機械学習とディープラーニング [全文訳有]

Machine learning and deep learning ( http://arxiv.org/abs/2104.05314v2 )

ライセンス: CC BY 4.0
Christian Janiesch, Patrick Zschech, Kai Heinrich(参考訳) 今日、人工知能機能を提供するインテリジェントシステムは、しばしば機械学習に依存している。 機械学習は、問題固有のトレーニングデータから学習し、分析モデルの構築と関連するタスクのプロセスを自動化するシステムの能力を記述する。 ディープラーニングは、ニューラルネットワークに基づく機械学習の概念である。 多くのアプリケーションにおいて、ディープラーニングモデルは浅い機械学習モデルや従来のデータ分析アプローチよりも優れている。 本稿では,機械学習とディープラーニングの基礎を要約し,現在の知的システムの体系的基盤に関するより広範な理解を生み出す。 特に、関連する用語と概念を概念的に区別し、機械学習とディープラーニングによる自動分析モデル構築のプロセスを説明し、電子市場やネットワークビジネスの分野においてこのようなインテリジェントなシステムを実装する際に生じる課題について議論する。 これらは自然に技術的側面を超えて、人間と機械の相互作用と人工知能のキャビテーションの問題を浮き彫りにする。

Today, intelligent systems that offer artificial intelligence capabilities often rely on machine learning. Machine learning describes the capacity of systems to learn from problem-specific training data to automate the process of analytical model building and solve associated tasks. Deep learning is a machine learning concept based on artificial neural networks. For many applications, deep learning models outperform shallow machine learning models and traditional data analysis approaches. In this article, we summarize the fundamentals of machine learning and deep learning to generate a broader understanding of the methodical underpinning of current intelligent systems. In particular, we provide a conceptual distinction between relevant terms and concepts, explain the process of automated analytical model building through machine learning and deep learning, and discuss the challenges that arise when implementing such intelligent systems in the field of electronic markets and networked business. These naturally go beyond technological aspects and highlight issues in human-machine interaction and artificial intelligence servitization.
翻訳日:2021-04-15 12:53:15 公開日:2021-04-14
# (参考訳) MinkLoc++: 位置認識のためのライダーと単分子画像融合 [全文訳有]

MinkLoc++: Lidar and Monocular Image Fusion for Place Recognition ( http://arxiv.org/abs/2104.05327v2 )

ライセンス: CC BY 4.0
Jacek Komorowski, Monika Wysoczanska, Tomasz Trzcinski(参考訳) 本稿では,LiDARからの点雲とRGBカメラからの画像という,一対のセンサ読み取りに基づく識別型マルチモーダルディスクリプタを提案する。 当社のディスクリプタminkloc++は、ロボットや自動運転車のアプリケーションにおける場所認識、再ローカライズ、ループクロージャの目的に使用できる。 我々は、各モードを別々に処理し、処理パイプラインの最終部分で融合するレイト・フュージョン・アプローチを用いる。 提案手法は,標準位置認識ベンチマークにおける最先端性能を実現する。 また,マルチモーダルディスクリプタをトレーニングする場合,支配的モダリティ問題を同定する。 この問題は、ネットワークがトレーニングデータにより大きな適合度を持つモダリティに焦点を合わせると現れる。 これにより、トレーニング中の損失は減少するが、評価セットの最適でないパフォーマンスにつながる。 本稿では,マルチモーダルニューラルネットワークを訓練する深層メトリック学習手法を用いて,そのようなリスクの検出と軽減について述べる。 私たちのコードはプロジェクトのWebサイト(https://github.com/ jac99/MinkLocMultimo dal.com)で公開されています。

We introduce a discriminative multimodal descriptor based on a pair of sensor readings: a point cloud from a LiDAR and an image from an RGB camera. Our descriptor, named MinkLoc++, can be used for place recognition, re-localization and loop closure purposes in robotics or autonomous vehicles applications. We use late fusion approach, where each modality is processed separately and fused in the final part of the processing pipeline. The proposed method achieves state-of-the-art performance on standard place recognition benchmarks. We also identify dominating modality problem when training a multimodal descriptor. The problem manifests itself when the network focuses on a modality with a larger overfit to the training data. This drives the loss down during the training but leads to suboptimal performance on the evaluation set. In this work we describe how to detect and mitigate such risk when using a deep metric learning approach to train a multimodal neural network. Our code is publicly available on the project website: https://github.com/j ac99/MinkLocMultimod al.
翻訳日:2021-04-15 12:36:21 公開日:2021-04-14
# (参考訳) Tensor Processing Primitives: ディープラーニングワークロードの効率性と可搬性のためのプログラミング抽象化 [全文訳有]

Tensor Processing Primitives: A Programming Abstraction for Efficiency and Portability in Deep Learning Workloads ( http://arxiv.org/abs/2104.05755v2 )

ライセンス: CC BY 4.0
Evangelos Georganas, Dhiraj Kalamkar, Sasikanth Avancha, Menachem Adelman, Cristina Anderson, Alexander Breuer, Narendra Chaudhary, Abhisek Kundu, Vasimuddin Md, Sanchit Misra, Ramanarayan Mohanty, Hans Pabst, Barukh Ziv, Alexander Heinecke(参考訳) 過去10年間、新しいDeep Learning (DL)アルゴリズム/ワークロードとハードウェアは、幅広い問題に対処するために開発されてきた。 ワークロード/ハードウェアエコシステムの進歩にもかかわらず、DLシステムのプログラミング方法論は停滞しています。 DL-workloadsは、DL-librariesから高度に最適化された、プラットフォーム固有の、あるいは柔軟性のないカーネルを利用するか、新しい演算子の場合、低負荷性能のDL-frameworkプリミティブを介して参照実装を構築する。 dl-ワークロードを高生産性で効率的にポータブルに実装するためのプログラミング抽象化であるtensor processing primitives(tpp)を紹介する。 TPPはコンパクトだが汎用的な2Dテンソル作用素(または仮想テンソルISA)の集合を定義し、後に高次元テンソル上の複素作用素を構成するためにビルディングブロックとして利用することができる。 TPP仕様はプラットフォームに依存しないので、TPPで表現されたコードはポータブルである。 我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードを用いたアプローチの有効性を示す。

During the past decade, novel Deep Learning (DL) algorithms/workloads and hardware have been developed to tackle a wide range of problems. Despite the advances in workload/hardware ecosystems, the programming methodology of DL-systems is stagnant. DL-workloads leverage either highly-optimized, yet platform-specific and inflexible kernels from DL-libraries, or in the case of novel operators, reference implementations are built via DL-framework primitives with underwhelming performance. This work introduces the Tensor Processing Primitives (TPP), a programming abstraction striving for efficient, portable implementation of DL-workloads with high-productivity. TPPs define a compact, yet versatile set of 2D-tensor operators (or a virtual Tensor ISA), which subsequently can be utilized as building-blocks to construct complex operators on high-dimensional tensors. The TPP specification is platform-agnostic, thus code expressed via TPPs is portable, whereas the TPP implementation is highly-optimized and platform-specific. We demonstrate the efficacy of our approach using standalone kernels and end-to-end DL-workloads expressed entirely via TPPs that outperform state-of-the-art implementations on multiple platforms.
翻訳日:2021-04-15 12:18:23 公開日:2021-04-14
# (参考訳) RECON: 潜在目標モデルによるオープンワールドナビゲーションの迅速探索 [全文訳有]

RECON: Rapid Exploration for Open-World Navigation with Latent Goal Models ( http://arxiv.org/abs/2104.05859v2 )

ライセンス: CC BY 4.0
Dhruv Shah, Benjamin Eysenbach, Nicholas Rhinehart, Sergey Levine(参考訳) 多様な環境における自律ナビゲーションのためのロボット学習システムについて述べる。 本手法の核となる2つの構成要素は, (i) 環境の接続を反映するが幾何学的再構成や局所化を必要としない非パラメトリック写像と, (ii) 効率的な構築と横断を可能にする距離と動作の潜在変数モデルである。 モデルは、事前の経験の大規模なデータセットに基づいてトレーニングされ、現在の画像とゴール画像の間を移動するために必要な期待される時間と次のアクションを予測する。 この方法でモデルをトレーニングすることで、入力画像の情報を邪魔することなく、目標の表現を堅牢にし、新しい環境を素早く探索するシステムをデプロイするのに役立つ。 本手法を移動式地上ロボットに適用し,様々な屋外ナビゲーションシナリオで実演する。 提案手法は20分で最大80mの半径で画像として特定された新たな目標に到達することを学び、変化する環境において確実に目標を再検討できる。 また,本手法は既知の障害物や気象条件に対する頑健性を示す。 私たちは、実験とデモのビデオのためにプロジェクトのWebサイトを訪れることを推奨します。

We describe a robotic learning system for autonomous navigation in diverse environments. At the core of our method are two components: (i) a non-parametric map that reflects the connectivity of the environment but does not require geometric reconstruction or localization, and (ii) a latent variable model of distances and actions that enables efficiently constructing and traversing this map. The model is trained on a large dataset of prior experience to predict the expected amount of time and next action needed to transit between the current image and a goal image. Training the model in this way enables it to develop a representation of goals robust to distracting information in the input images, which aids in deploying the system to quickly explore new environments. We demonstrate our method on a mobile ground robot in a range of outdoor navigation scenarios. Our method can learn to reach new goals, specified as images, in a radius of up to 80 meters in just 20 minutes, and reliably revisit these goals in changing environments. We also demonstrate our method's robustness to previously-unseen obstacles and variable weather conditions. We encourage the reader to visit the project website for videos of our experiments and demonstrations https://sites.google .com/view/recon-robo t
翻訳日:2021-04-15 11:48:39 公開日:2021-04-14
# (参考訳) ニューラルネットワークモデリングと機械翻訳による朝鮮王朝の記録の復元とマイニング [全文訳有]

Restoring and Mining the Records of the Joseon Dynasty via Neural Language Modeling and Machine Translation ( http://arxiv.org/abs/2104.05964v2 )

ライセンス: CC BY 4.0
Kyeongpil Kang, Kyohoon Jin, Soyoung Yang, Sujin Jang, Jaegul Choo, Youngbin Kim(参考訳) 古記録を理解することは、社会問題や政治問題、さらには自然科学の事実など、様々な面で過去の手がかりとなる。 しかし、文献のほとんどが現代語で書かれておらず、内容の一部が時間とともに破損しているため、歴史的記録を十分に活用することは一般的に困難である。 結果として、損傷した部分や認識できない部分の復元と、記録を現代言語に翻訳することが重要なタスクとなる。 そこで本研究では,世界有数の歴史記録である2つの韓国の歴史記録を活用し,自己照査機構に基づく歴史文書の復元と翻訳を行うマルチタスク学習手法を提案する。 実験の結果,マルチタスク学習を必要とせず,ベースラインよりも翻訳タスクの精度が大幅に向上した。 さらに,いくつかの重要な歴史的出来事を明らかにするために,トピックモデリングによる翻訳結果の詳細な探索分析を行った。

Understanding voluminous historical records provides clues on the past in various aspects, such as social and political issues and even natural science facts. However, it is generally difficult to fully utilize the historical records, since most of the documents are not written in a modern language and part of the contents are damaged over time. As a result, restoring the damaged or unrecognizable parts as well as translating the records into modern languages are crucial tasks. In response, we present a multi-task learning approach to restore and translate historical documents based on a self-attention mechanism, specifically utilizing two Korean historical records, ones of the most voluminous historical records in the world. Experimental results show that our approach significantly improves the accuracy of the translation task than baselines without multi-task learning. In addition, we present an in-depth exploratory analysis on our translated results via topic modeling, uncovering several significant historical events.
翻訳日:2021-04-15 11:25:48 公開日:2021-04-14
# (参考訳) 最適化するハイパーパラメータは? 分子特性予測のためのグラフニューラルネットワークにおける進化的ハイパーパラメータ最適化の検討 [全文訳有]

Which Hyperparameters to Optimise? An Investigation of Evolutionary Hyperparameter Optimisation in Graph Neural Network For Molecular Property Prediction ( http://arxiv.org/abs/2104.06046v2 )

ライセンス: CC BY 4.0
Yingfang Yuan, Wenjun Wang, Wei Pang(参考訳) 近年,グラフニューラルネットワーク(GNN)の研究が注目され,分子特性予測において有望な性能を達成した。 分子特性予測のためのほとんどのGNNは、隣のノードの情報(例えば)を集約することでノードの表現を学ぶというアイデアに基づいて提案されている。 原子)。 次に、表現を後続のレイヤに渡すことで、個々の下流タスクを処理できる。 したがって、GNNのアーキテクチャはグラフ関連レイヤとタスク特化レイヤの2つのコア部分で構成されていると考えることができる。 現実世界の分子問題に直面し、それらの層に対するハイパーパラメータ最適化は不可欠である。 この状況ではハイパーパラメータ最適化 (hpo) が高価になるのは、候補の解を評価するのに大量の計算リソースを必要とするためである。 さらに、検索空間が大きくなると、hpoの問題はより難しくなる。 本研究では,グラフ関連層とタスク固有の層に属する2種類のGNNハイパーパラメータが,分子特性予測におけるGNNの性能に与える影響に着目した。 私たちの実験で。 我々はHPOに最先端の進化アルゴリズム(CMA-ES)を用いた。 その結果,2種類のハイパーパラメータを個別に最適化することは,GNNの性能向上につながるが,両タイプのハイパーパラメータを同時に最適化することで,大幅な改善が期待できることがわかった。 また,分子特性予測問題におけるGNNに対するHPOの重要性も確認した。

Recently, the study of graph neural network (GNN) has attracted much attention and achieved promising performance in molecular property prediction. Most GNNs for molecular property prediction are proposed based on the idea of learning the representations for the nodes by aggregating the information of their neighbor nodes (e.g. atoms). Then, the representations can be passed to subsequent layers to deal with individual downstream tasks. Therefore, the architectures of GNNs can be considered as being composed of two core parts: graph-related layers and task-specific layers. Facing real-world molecular problems, the hyperparameter optimization for those layers are vital. Hyperparameter optimization (HPO) becomes expensive in this situation because evaluating candidate solutions requires massive computational resources to train and validate models. Furthermore, a larger search space often makes the HPO problems more challenging. In this research, we focus on the impact of selecting two types of GNN hyperparameters, those belonging to graph-related layers and those of task-specific layers, on the performance of GNN for molecular property prediction. In our experiments. we employed a state-of-the-art evolutionary algorithm (i.e., CMA-ES) for HPO. The results reveal that optimizing the two types of hyperparameters separately can gain the improvements on GNNs' performance, but optimising both types of hyperparameters simultaneously will lead to predominant improvements. Meanwhile, our study also further confirms the importance of HPO for GNNs in molecular property prediction problems.
翻訳日:2021-04-15 11:10:18 公開日:2021-04-14
# $\delta$-clue:不確実性推定のための様々な説明セット

$\delta$-CLUE: Diverse Sets of Explanations for Uncertainty Estimates ( http://arxiv.org/abs/2104.06323v2 )

ライセンス: Link先を確認
Dan Ley, Umang Bhatt, Adrian Weller(参考訳) 微分確率モデルからの不確実性推定を解釈するために、近年の研究では、非現実的非確実性説明(CLUE)の生成を提案する。 しかし、単一入力の場合、そのような手法は説明に制約が加えられていないため、様々な説明を出力できる。 ここでは、オリジナルのCLUEアプローチを拡張し、$\delta$-CLUEと呼ぶものを提供します。 CLUEは入力を変更するための$\it{one}$の方法を示し、データ多様体に留まり、モデルがその予測に対してより自信を持つようになる。 代わりに、可算CLUEの$\it{set}$を返します:複数の多種多様な入力は、遅延空間における元の入力の$\delta$ボール内にあり、いずれも確実な予測をもたらす。

To interpret uncertainty estimates from differentiable probabilistic models, recent work has proposed generating Counterfactual Latent Uncertainty Explanations (CLUEs). However, for a single input, such approaches could output a variety of explanations due to the lack of constraints placed on the explanation. Here we augment the original CLUE approach, to provide what we call $\delta$-CLUE. CLUE indicates $\it{one}$ way to change an input, while remaining on the data manifold, such that the model becomes more confident about its prediction. We instead return a $\it{set}$ of plausible CLUEs: multiple, diverse inputs that are within a $\delta$ ball of the original input in latent space, all yielding confident predictions.
翻訳日:2021-04-15 10:59:18 公開日:2021-04-14
# 長距離空間相関と時間相関を組み込んだ動的テクスチャ合成

Dynamic Texture Synthesis by Incorporating Long-range Spatial and Temporal Correlations ( http://arxiv.org/abs/2104.05940v2 )

ライセンス: Link先を確認
Kaitai Zhang, Bin Wang, Hong-Shuo Chen, Ye Wang, Shiyu Mou, and C.-C. Jay Kuo(参考訳) 動的テクスチャ合成の主な課題は、合成ビデオにおける空間的・時間的一貫性の維持である。 既存の動的テクスチャ合成モデルの大きな欠点は、長距離テクスチャ相関と動き情報の扱いが悪いことである。 この問題に対処するために,参照テクスチャビデオの構造的および長距離的相関を捉えるために,シフトグラム損失という新たな損失項を組み込んだ。 さらに,複数フレーム間の長周期動作を利用したフレームサンプリング手法を提案する。 これら2つの新しい技術により、既存のテクスチャ合成モデルの応用範囲を拡大することができる。 すなわち、均質性だけでなく、構造的な動的テクスチャパターンも合成できる。 提案した動的テクスチャ合成モデルが最先端の視覚性能を提供することを示すための実験結果が得られた。

The main challenge of dynamic texture synthesis lies in how to maintain spatial and temporal consistency in synthesized videos. The major drawback of existing dynamic texture synthesis models comes from poor treatment of the long-range texture correlation and motion information. To address this problem, we incorporate a new loss term, called the Shifted Gram loss, to capture the structural and long-range correlation of the reference texture video. Furthermore, we introduce a frame sampling strategy to exploit long-period motion across multiple frames. With these two new techniques, the application scope of existing texture synthesis models can be extended. That is, they can synthesize not only homogeneous but also structured dynamic texture patterns. Thorough experimental results are provided to demonstrate that our proposed dynamic texture synthesis model offers state-of-the-art visual performance.
翻訳日:2021-04-15 10:59:05 公開日:2021-04-14
# SPARK:宇宙環境の知識を活用したSPAcecraft Recognition

SPARK: SPAcecraft Recognition leveraging Knowledge of Space Environment ( http://arxiv.org/abs/2104.05978v2 )

ライセンス: Link先を確認
Mohamed Adel Musallam, Kassem Al Ismaeil, Oyebade Oyedotun, Marcos Damian Perez, Michel Poucet, Djamila Aouada(参考訳) 本稿では,SPARKデータセットを新しい空間オブジェクトマルチモーダル画像データセットとして提案する。 画像に基づく物体認識は、特に軌道上サービス、アクティブデブリ除去、衛星形成などの応用において、宇宙状況認識の重要な構成要素である。 しかし、十分なアノテートされた宇宙データがないため、データ駆動型宇宙船認識手法の開発には研究の努力が限られている。 SPARKデータセットは現実的な宇宙シミュレーション環境下で生成され、様々な軌道シナリオのセンシング条件が多様である。 1モードあたり約150kの画像、RGBと深さ、宇宙船とデブリの11のクラスを提供する。 このデータセットは、オブジェクト認識、分類、検出アルゴリズムのベンチマークと、空間感知条件下でのマルチモーダルなRGB-Depthアプローチを開発する機会を提供する。 予備的な実験評価はデータの妥当性を検証し、宇宙環境に特有の興味深いシナリオを浮き彫りにする。

This paper proposes the SPARK dataset as a new unique space object multi-modal image dataset. Image-based object recognition is an important component of Space Situational Awareness, especially for applications such as on-orbit servicing, active debris removal, and satellite formation. However, the lack of sufficient annotated space data has limited research efforts in developing data-driven spacecraft recognition approaches. The SPARK dataset has been generated under a realistic space simulation environment, with a large diversity in sensing conditions for different orbital scenarios. It provides about 150k images per modality, RGB and depth, and 11 classes for spacecrafts and debris. This dataset offers an opportunity to benchmark and further develop object recognition, classification and detection algorithms, as well as multi-modal RGB-Depth approaches under space sensing conditions. Preliminary experimental evaluation validates the relevance of the data, and highlights interesting challenging scenarios specific to the space environment.
翻訳日:2021-04-15 10:58:53 公開日:2021-04-14
# ポイントクラウドにおける投票に基づく3次元物体検出のためのバックトレーシング代表点

Back-tracing Representative Points for Voting-based 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2104.06114v2 )

ライセンス: Link先を確認
Bowen Cheng, Lu Sheng, Shaoshuai Shi, Ming Yang, Dong Xu(参考訳) ポイントクラウドにおける3Dオブジェクト検出は、3Dビジュアルワールドを理解するために様々なアプリケーションに恩恵をもたらす、困難なビジョンタスクである。 最近の多くの研究は、オブジェクトの提案を生成するためにエンドツーエンドのトレーニング可能なHough投票を利用する方法に焦点を当てている。 しかし、現在の投票戦略は、潜在的なオブジェクトの表面からの部分的な投票しか受け取れず、混乱した背景から厳しい反対票が得られ、入力ポイントクラウドからの情報の完全な利用を阻害する。 そこで本研究では,従来のハフ投票法におけるバックトレーシング戦略に触発されて,投票所から代表点を生成的にバックトレーシングし,これらの生成点周辺の相補的なシード点を再検討するバックトレーシング代表点ネットワーク (brnet) と呼ばれる新しい3次元物体検出手法を導入することにより,潜在的な対象物を取り巻く微細な局所的構造を原点雲からよりよく把握する。 したがって、BRNetにおけるこのボトムアップとトップダウン戦略は、予測された投票センタと原表面点との相互整合性を強制し、より信頼性が高くフレキシブルなオブジェクトローカライゼーションとクラス予測結果を達成する。 私たちのbrnetはシンプルだが効果的で、scannet v2(map@0.50の点では+7.5%)とsun rgb-d(map@0.50の点では+4.7%)という2つの大規模ポイントクラウドデータセットの最先端の手法を大幅に上回っていますが、それでも軽量で効率的です。 コードはhttps://github.com/c heng052/brnetで入手できる。

3D object detection in point clouds is a challenging vision task that benefits various applications for understanding the 3D visual world. Lots of recent research focuses on how to exploit end-to-end trainable Hough voting for generating object proposals. However, the current voting strategy can only receive partial votes from the surfaces of potential objects together with severe outlier votes from the cluttered backgrounds, which hampers full utilization of the information from the input point clouds. Inspired by the back-tracing strategy in the conventional Hough voting methods, in this work, we introduce a new 3D object detection method, named as Back-tracing Representative Points Network (BRNet), which generatively back-traces the representative points from the vote centers and also revisits complementary seed points around these generated points, so as to better capture the fine local structural features surrounding the potential objects from the raw point clouds. Therefore, this bottom-up and then top-down strategy in our BRNet enforces mutual consistency between the predicted vote centers and the raw surface points and thus achieves more reliable and flexible object localization and class prediction results. Our BRNet is simple but effective, which significantly outperforms the state-of-the-art methods on two large-scale point cloud datasets, ScanNet V2 (+7.5% in terms of mAP@0.50) and SUN RGB-D (+4.7% in terms of mAP@0.50), while it is still lightweight and efficient. Code will be available at https://github.com/c heng052/BRNet.
翻訳日:2021-04-15 10:58:40 公開日:2021-04-14
# ShadowGNN: テキストからSQLへのパーサのためのグラフ投影ニューラルネットワーク

ShadowGNN: Graph Projection Neural Network for Text-to-SQL Parser ( http://arxiv.org/abs/2104.04689v2 )

ライセンス: Link先を確認
Zhi Chen, Lu Chen, Yanbin Zhao, Ruisheng Cao, Zihan Xu, Su Zhu and Kai Yu(参考訳) データベーススキーマが与えられたら、Text-to-SQLは自然言語の質問を対応するSQLクエリに変換することを目的としている。 クロスドメインの設定下では、従来の意味構文解析モデルは、未認識のデータベーススキーマへの適応に苦しむ。 稀かつ未確認なスキーマのモデル一般化機能を改善するために,抽象的および意味的なレベルでスキーマを処理する新しいアーキテクチャであるShadowGNNを提案する。 データベース内の意味項目の名前を無視して、よく設計されたグラフ投影ニューラルネットワークで抽象スキーマを活用し、疑問とスキーマの語彙化表現を得る。 ドメインに依存しない表現に基づいて、関係認識変換器を用いて質問とスキーマの間の論理的リンクをさらに抽出する。 最後に、文脈自由文法を持つSQLデコーダを適用する。 挑戦的なText-to-SQLベンチマークのSpiderでは、実験的な結果として、ShadowGNNが最先端モデルを上回っていることが示されている。 注釈付きデータが極端に制限された場合(トレーニングセットは10\%)、shadowgnnは絶対的な5\%性能向上を達成し、強力な一般化能力を示す。 我々の実装は、 \url{https://github.com/W owCZ/shadowgnn} でオープンソース化されます。

Given a database schema, Text-to-SQL aims to translate a natural language question into the corresponding SQL query. Under the setup of cross-domain, traditional semantic parsing models struggle to adapt to unseen database schemas. To improve the model generalization capability for rare and unseen schemas, we propose a new architecture, ShadowGNN, which processes schemas at abstract and semantic levels. By ignoring names of semantic items in databases, abstract schemas are exploited in a well-designed graph projection neural network to obtain delexicalized representation of question and schema. Based on the domain-independent representations, a relation-aware transformer is utilized to further extract logical linking between question and schema. Finally, a SQL decoder with context-free grammar is applied. On the challenging Text-to-SQL benchmark Spider, empirical results show that ShadowGNN outperforms state-of-the-art models. When the annotated data is extremely limited (only 10\% training set), ShadowGNN gets over absolute 5\% performance gain, which shows its powerful generalization ability. Our implementation will be open-sourced at \url{https://github.com/W owCZ/shadowgnn}.
翻訳日:2021-04-15 10:58:08 公開日:2021-04-14
# パーソナライズされた解釈可能性推定(ML-PIE)を用いたモデル学習

Model Learning with Personalized Interpretability Estimation (ML-PIE) ( http://arxiv.org/abs/2104.06060v2 )

ライセンス: Link先を確認
Marco Virgolin, Andrea De Lorenzo, Francesca Randone, Eric Medvet, Mattias Wahde(参考訳) ハイテイクアプリケーションは、AI生成したモデルを解釈する必要がある。 現在の解釈可能なモデルの合成アルゴリズムは、解釈可能性を表す目的語や正規化語(例えばモデルサイズ)に依存しており、特定のユーザ向けには設計されていない。 しかし、解釈性は本質的に主観的である。 本稿では,ユーザの好みに応じてモデル合成プロセスのステアリングを可能にすることによって,ユーザに適したモデル合成手法を提案する。 二目的進化アルゴリズムを用いて、精度とユーザ固有の解釈可能性のトレードオフを持つモデルを合成する。 後者は、不確実性に基づくアクティブラーニングを用いて収集されたユーザのフィードバックを用いて、進化に並行して訓練されたニューラルネットワークによって推定される。 ユーザビリティを最大化するために、ユーザは、一度に2つのモデルが与えられた場合、どれがより複雑かのみを指示される。 61人の参加者を巻き込んだ実世界の2つのデータセットの実験により、我々のアプローチは異なるユーザにとって非常に異なる解釈可能性の推定を学習できることがわかった。 さらに,非個人化解釈可能性指標を用いたモデルよりも,提案手法を用いたモデルの方が好まれる。

High-stakes applications require AI-generated models to be interpretable. Current algorithms for the synthesis of potentially interpretable models rely on objectives or regularization terms that represent interpretability only coarsely (e.g., model size) and are not designed for a specific user. Yet, interpretability is intrinsically subjective. In this paper, we propose an approach for the synthesis of models that are tailored to the user by enabling the user to steer the model synthesis process according to her or his preferences. We use a bi-objective evolutionary algorithm to synthesize models with trade-offs between accuracy and a user-specific notion of interpretability. The latter is estimated by a neural network that is trained concurrently to the evolution using the feedback of the user, which is collected using uncertainty-based active learning. To maximize usability, the user is only asked to tell, given two models at the time, which one is less complex. With experiments on two real-world datasets involving 61 participants, we find that our approach is capable of learning estimations of interpretability that can be very different for different users. Moreover, the users tend to prefer models found using the proposed approach over models found using non-personalized interpretability indices.
翻訳日:2021-04-15 10:57:51 公開日:2021-04-14
# mdps継続における長期平均報酬の最適化 : 技術報告

Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical Report ( http://arxiv.org/abs/2104.06139v2 )

ライセンス: Link先を確認
Chao Xu, Yiping Xie, Xijun Wang, Howard H. Yang, Dusit Niyato, Tony Q. S. Quek(参考訳) 近年,センサの動作を適切に活性化し,キャッシング可能なモノのインターネット(IoT)ネットワークにおける現状を更新することで,利用者が経験した情報量(AoI)とセンサが消費するエネルギーとのバランスを保っている。 この問題を解決するために、我々は、対応するステータス更新手順を継続するマルコフ決定プロセス(MDP)としてキャストし(すなわち、終了状態のない)、検討されたセンサやユーザ数に対して、状態-動作ペアの数が指数関数的に増加する。 さらに, 次元の呪いを回避するため, 深部強化学習(DRL)アルゴリズムを設計し (resp) 最大化するための手法を確立した。 最小) 平均的な報酬(報酬)。 R-ラーニングを統合することで、長期平均報酬を最大化するための表強化学習(RL)アルゴリズムと、従来のDRLアルゴリズムを統合し、平均報酬よりも割引された長期累積報酬を最適化するために開発された。 本技術報告では,本方法論の技術的貢献について詳細な議論を行う。

Recently, we have struck the balance between the information freshness, in terms of age of information (AoI), experienced by users and energy consumed by sensors, by appropriately activating sensors to update their current status in caching enabled Internet of Things (IoT) networks [1]. To solve this problem, we cast the corresponding status update procedure as a continuing Markov Decision Process (MDP) (i.e., without termination states), where the number of state-action pairs increases exponentially with respect to the number of considered sensors and users. Moreover, to circumvent the curse of dimensionality, we have established a methodology for designing deep reinforcement learning (DRL) algorithms to maximize (resp. minimize) the average reward (resp. cost), by integrating R-learning, a tabular reinforcement learning (RL) algorithm tailored for maximizing the long-term average reward, and traditional DRL algorithms, initially developed to optimize the discounted long-term cumulative reward rather than the average one. In this technical report, we would present detailed discussions on the technical contributions of this methodology.
翻訳日:2021-04-15 10:57:32 公開日:2021-04-14
# (参考訳) 定常不確定カーネルに対する低変量不均一なランダム特徴に向けて

Towards Unbiased Random Features with Lower Variance For Stationary Indefinite Kernels ( http://arxiv.org/abs/2104.06204v2 )

ライセンス: CC BY 4.0
Qin Luo, Kun Fang, Jie Yang, Xiaolin Huang(参考訳) Random Fourier Features (RFF) は、大規模な状況においてカーネル近似の性能をよく評価するが、カーネルを定常かつ正定値に制限する。 また、非定常カーネルに対しては、入力が単位球に制限された場合、対応する RFF を定常不定カーネルに変換することができる。 多くの手法が定常だが不確定なカーネルを近似する方法を提供している。 しかし、それらは偏りがあるか、大きなばらつきを持っている。 本稿では,多種多様なデータセットやカーネルに対する実験結果から,既存のカーネル近似法と比較して,アルゴリズムが低分散および近似誤差を達成することを検証した。 当初選択されたカーネルに対する近似が向上し,サポートベクタマシンと回帰の枠組みにおける近似アルゴリズムを用いて,分類精度と回帰能力が改善された。

Random Fourier Features (RFF) demonstrate wellappreciated performance in kernel approximation for largescale situations but restrict kernels to be stationary and positive definite. And for non-stationary kernels, the corresponding RFF could be converted to that for stationary indefinite kernels when the inputs are restricted to the unit sphere. Numerous methods provide accessible ways to approximate stationary but indefinite kernels. However, they are either biased or possess large variance. In this article, we propose the generalized orthogonal random features, an unbiased estimation with lower variance.Experimenta l results on various datasets and kernels verify that our algorithm achieves lower variance and approximation error compared with the existing kernel approximation methods. With better approximation to the originally selected kernels, improved classification accuracy and regression ability is obtained with our approximation algorithm in the framework of support vector machine and regression.
翻訳日:2021-04-15 09:10:46 公開日:2021-04-14