このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210420となっている論文です。

PDF登録状況(公開日: 20210420)

TitleAuthorsAbstract論文公表日・翻訳日
# 学習に基づく3次元点雲形状の無損失圧縮

Learning-based lossless compression of 3D point cloud geometry ( http://arxiv.org/abs/2011.14700v2 )

ライセンス: Link先を確認
Dat Thanh Nguyen, Maurice Quach, Giuseppe Valenzise, Pierre Duhamel(参考訳) 本稿では,文脈適応型算術符号に基づく静的点雲幾何の学習に基づく無損失圧縮手法を提案する。 octreeドメインで動作するほとんどの既存のメソッドとは異なり、我々のエンコーダはoctreeとvoxelベースのコーディングを混合したハイブリッドモードで動作します。 我々は点雲構造に従って点雲を多分解能ボクセルブロックに適応的に分割し,オクツリーを用いて分割を信号する。 一方、octree表現はポイントクラウドのスパーシティを排除することができる。 一方、ボクセル領域では、畳み込みは自然に表現でき、幾何学的情報(平面、表面など)も表現できる。 ニューラルネットワークによって明示的に処理されます 我々の文脈モデルはこれらの特性から恩恵を受け、VoxelDNNと呼ばれるマスク付きフィルタを用いた深層畳み込みニューラルネットワークを用いてボクセルの確率分布を学習する。 実験の結果,Microsoft Voxelized Upper Bodies (MVUB) と MPEG の多種多様な点群において,MPEG G-PCC 標準を平均28%の削減率で上回った。 実装はhttps://github.com/W eafre/VoxelDNNで公開されている。

This paper presents a learning-based, lossless compression method for static point cloud geometry, based on context-adaptive arithmetic coding. Unlike most existing methods working in the octree domain, our encoder operates in a hybrid mode, mixing octree and voxel-based coding. We adaptively partition the point cloud into multi-resolution voxel blocks according to the point cloud structure, and use octree to signal the partitioning. On the one hand, octree representation can eliminate the sparsity in the point cloud. On the other hand, in the voxel domain, convolutions can be naturally expressed, and geometric information (i.e., planes, surfaces, etc.) is explicitly processed by a neural network. Our context model benefits from these properties and learns a probability distribution of the voxels using a deep convolutional neural network with masked filters, called VoxelDNN. Experiments show that our method outperforms the state-of-the-art MPEG G-PCC standard with average rate savings of 28% on a diverse set of point clouds from the Microsoft Voxelized Upper Bodies (MVUB) and MPEG. The implementation is available at https://github.com/W eafre/VoxelDNN.
翻訳日:2021-06-06 14:54:51 公開日:2021-04-20
# アノテーション効率のよいビデオ行動認識

Annotation-Efficient Untrimmed Video Action Recognition ( http://arxiv.org/abs/2011.14478v2 )

ライセンス: Link先を確認
Yixiong Zou, Shanghang Zhang, Guangyao Chen, Yonghong Tian, Kurt Keutzer, Jos\'e M. F. Moura(参考訳) 深層学習はビデオ行動の認識において大きな成功を収めてきたが、トレーニングデータの収集とアノテーションは、主に、(1)必要な注釈付きデータの量が大きい、(2)各アクションの位置を時間的にアノテートする、という2つの側面に大きく依存している。 数発学習や未撮影の映像認識といった作品は、どちらか一方の側面を扱うために提案されている。 しかし、両方の問題を同時に処理できる既存の作品はほとんどない。 本稿では,大量のサンプルとアクションロケーションの両方に対するアノテーションの必要量を削減するために,アノテーション効率の高いビデオ認識という新たな課題をターゲットにする。 これらの問題は,(1)未トリミング映像が弱い監督しか持たない,(2)現在の興味の行動(背景,bg)に関係のない映像セグメントは,新規なクラスにおいて興味の行動(フォアグラウンド,fg)を含む可能性がある,という2つの側面から困難である。 この目的を達成するために,BGの特性を解析することにより,BGを情報的BG(IBG)と非情報的BG(NBG)に分類し,(1)NBGとFGを見つけるためのオープンセット検出ベース手法を提案する。 ActivityNet v1.2とActivityNet v1.3の広範な実験は、提案手法の理論的および有効性を検証する。

Deep learning has achieved great success in recognizing video actions, but the collection and annotation of training data are still quite laborious, which mainly lies in two aspects: (1) the amount of required annotated data is large; (2) temporally annotating the location of each action is time-consuming. Works such as few-shot learning or untrimmed video recognition have been proposed to handle either one aspect or the other. However, very few existing works can handle both issues simultaneously. In this paper, we target a new problem, Annotation-Efficient Video Recognition, to reduce the requirement of annotations for both large amount of samples and the action location. Such problem is challenging due to two aspects: (1) the untrimmed videos only have weak supervision; (2) video segments not relevant to current actions of interests (background, BG) could contain actions of interests (foreground, FG) in novel classes, which is a widely existing phenomenon but has rarely been studied in few-shot untrimmed video recognition. To achieve this goal, by analyzing the property of BG, we categorize BG into informative BG (IBG) and non-informative BG (NBG), and we propose (1) an open-set detection based method to find the NBG and FG, (2) a contrastive learning method to learn IBG and distinguish NBG in a self-supervised way, and (3) a self-weighting mechanism for the better distinguishing of IBG and FG. Extensive experiments on ActivityNet v1.2 and ActivityNet v1.3 verify the rationale and effectiveness of the proposed methods.
翻訳日:2021-06-06 14:50:43 公開日:2021-04-20
# ホテルのマルチリビュー要約生成のための拡張手段

An Enhanced MeanSum Method For Generating Hotel Multi-Review Summarizations ( http://arxiv.org/abs/2012.03656v2 )

ライセンス: Link先を確認
Saibo Geng, Diego Antognini(参考訳) 多文書要約は、複数のテキストを入力として取り、入力テキストの内容に基づいて短い要約テキストを生成するプロセスである。 最近まで、マルチドキュメント要約は概ね教師付き抽出である。 しかし、教師付きメソッドには、稀でコストがかかる、大きなペアのドキュメント要約例のデータセットが必要となる。 2018年、ChuとLiuにより教師なし多文書抽象要約法(Meansum)が提案され、抽出法と比較して競合性能が示された。 自動メトリクスに関する優れた評価結果にもかかわらず、Meansumには複数の制限があり、特に複数の側面を扱うことができない。 本研究の目的は,マルチアスペクトマスカ(mam)をコンテンツセレクタとして使用し,マルチアスペクトでこの問題に対処することである。 また,生成した要約の長さを制御する正規化器を提案する。 Trip Advisorによるホテルのデータセットに関する一連の実験を通じて、我々の仮定を検証し、改良されたモデルが元のMeansum法よりも高いROUGE、知覚精度を実現し、教師付きベースラインに打ち勝つことを示します。

Multi-document summaritazion is the process of taking multiple texts as input and producing a short summary text based on the content of input texts. Up until recently, multi-document summarizers are mostly supervised extractive. However, supervised methods require datasets of large, paired document-summary examples which are rare and expensive to produce. In 2018, an unsupervised multi-document abstractive summarization method(Meansum) was proposed by Chu and Liu, and demonstrated competitive performances comparing to extractive methods. Despite good evaluation results on automatic metrics, Meansum has multiple limitations, notably the inability of dealing with multiple aspects. The aim of this work was to use Multi-Aspect Masker(MAM) as content selector to address the issue with multi-aspect. Moreover, we propose a regularizer to control the length of the generated summaries. Through a series of experiments on the hotel dataset from Trip Advisor, we validate our assumption and show that our improved model achieves higher ROUGE, Sentiment Accuracy than the original Meansum method and also beats/ comprarable/close to the supervised baseline.
翻訳日:2021-05-16 21:54:02 公開日:2021-04-20
# LogNNet貯水池ニューラルネットワークを用いた低メモリ2KbRAMArduino基板上の手書きMNIST桁の認識

Recognition of handwritten MNIST digits on low-memory 2 Kb RAM Arduino board using LogNNet reservoir neural network ( http://arxiv.org/abs/2105.02953v1 )

ライセンス: Link先を確認
Y. A. Izotov, A. A. Velichko, A. A. Ivshin and R. E. Novitskiy(参考訳) lognnet storage neural networkで開発されたmnistデータベースの手書き桁を認識可能なコンパクトアルゴリズムは,認識精度82%に達した。 このアルゴリズムは、2Kbの静的RAM低消費電力マイクロコントローラを備えた低メモリArduinoボード上でテストされた。 貯水池内のニューロン数に対する画像認識の精度と時間依存性について検討した。 メモリアロケーションは、追加のデータストレージを使わずに全ての必要な情報をRAMに格納し、予備処理なしで元のイメージで動作させることを示す。 アルゴリズムの単純な構造は、適切なトレーニングとともに、医学における有害事象の早期診断のためのモバイルバイオセンサーの作成など、幅広い応用に適応することができる。 研究結果は、周辺拘束型IoTデバイスやエッジコンピューティングにおける人工知能の実装において重要である。

The presented compact algorithm for recognizing handwritten digits of the MNIST database, created on the LogNNet reservoir neural network, reaches the recognition accuracy of 82%. The algorithm was tested on a low-memory Arduino board with 2 Kb static RAM low-power microcontroller. The dependences of the accuracy and time of image recognition on the number of neurons in the reservoir have been investigated. The memory allocation demonstrates that the algorithm stores all the necessary information in RAM without using additional data storage, and operates with original images without preliminary processing. The simple structure of the algorithm, with appropriate training, can be adapted for wide practical application, for example, for creating mobile biosensors for early diagnosis of adverse events in medicine. The study results are important for the implementation of artificial intelligence on peripheral constrained IoT devices and for edge computing.
翻訳日:2021-05-11 08:33:49 公開日:2021-04-20
# 塗装誤差最大化による情報理論セグメンテーション

Information-Theoreti c Segmentation by Inpainting Error Maximization ( http://arxiv.org/abs/2012.07287v2 )

ライセンス: Link先を確認
Pedro Savarese and Sunnie S. Y. Kim and Michael Maire and Greg Shakhnarovich and David McAllester(参考訳) 情報理論的な観点から画像分割を考察し,画像を最大独立集合に分割して教師なしセグメンテーションを行う新しい逆法を提案する。 より具体的には、画像ピクセルを前景と背景にグループ化し、一方のセットの予測可能性を最小限に抑えることを目的としています。 容易に計算された損失は、この分割を塗りつぶすエラーを最大化するために欲深い検索プロセスを駆動する。 本手法はディープネットワークのトレーニングを含まず,計算量的に安価であり,クラス非依存であり,単一のラベルなし画像に対して単独で適用可能である。 実験では、教師なしのセグメンテーション品質で新たな最先端を達成し、競合するアプローチよりも大幅に高速で汎用的であることを実証する。

We study image segmentation from an information-theoreti c perspective, proposing a novel adversarial method that performs unsupervised segmentation by partitioning images into maximally independent sets. More specifically, we group image pixels into foreground and background, with the goal of minimizing predictability of one set from the other. An easily computed loss drives a greedy search process to maximize inpainting error over these partitions. Our method does not involve training deep networks, is computationally cheap, class-agnostic, and even applicable in isolation to a single unlabeled image. Experiments demonstrate that it achieves a new state-of-the-art in unsupervised segmentation quality, while being substantially faster and more general than competing approaches.
翻訳日:2021-05-08 14:32:16 公開日:2021-04-20
# (参考訳) 人工知能による再生可能エネルギーシステムの予測的保守:技術・課題・今後の研究方向のレビュー [全文訳有]

Artificial Intelligence Based Prognostic Maintenance of Renewable Energy Systems: A Review of Techniques, Challenges, and Future Research Directions ( http://arxiv.org/abs/2104.12561v1 )

ライセンス: CC BY 4.0
Yasir Saleem Afridi, Kashif Ahmad, Laiq Hassan(参考訳) 化石燃料の枯渇以来、世界は再生可能エネルギー源に大きく依存し始めている。 毎年、再生可能エネルギー源への依存は指数関数的に増加しています。 その結果、複雑でハイブリッドな発電システムは、エネルギー需要を満たし、国家のエネルギーセキュリティを確保するために設計・開発されている。 この技術の継続的な改善とエンドユーザーへの不断の電力供給への取り組みは、効果的で耐障害性のある運転維持システム(O&M)に強く依存している。 そのため、設備の最小化とダウンタイムの植え付けを目的として、創発的なアルゴリズムと技術が導入されている。 障害発生前に障害を識別可能な堅牢な予後維持システムの開発が進められている。 この目的のために、複雑なデータ分析と機械学習(ML)技術が、これらの予後維持システムの全体的な効率を高めるために使われています。 本稿では,文献で報告されている予測・予測保守フレームワークの概要について述べる。 私たちは特に、データとデータ監査の可用性と品質、機能エンジニアリング、解釈可能性、セキュリティ問題といったデータ関連の問題を含むアプローチや課題に焦点を合わせています。 MLベースのソリューションのキーとなる側面として、ドメインで一般的に使用されている公開データセットについても論じます。 この論文は将来の研究の方向性も示している。 このような詳細な分析が今後の研究のベースラインになると考えています。

Since the depletion of fossil fuels, the world has started to rely heavily on renewable sources of energy. With every passing year, our dependency on the renewable sources of energy is increasing exponentially. As a result, complex and hybrid generation systems are being designed and developed to meet the energy demands and ensure energy security in a country. The continual improvement in the technology and an effort towards the provision of uninterrupted power to the end-users is strongly dependent on an effective and fault resilient Operation and Maintenance (O&M) system. Ingenious algorithms and techniques are hence been introduced aiming to minimize equipment and plant downtime. Efforts are being made to develop robust Prognostic Maintenance systems that can identify the faults before they occur. To this aim, complex Data Analytics and Machine Learning (ML) techniques are being used to increase the overall efficiency of these prognostic maintenance systems. This paper provides an overview of the predictive/prognosti c maintenance frameworks reported in the literature. We pay a particular focus to the approaches, challenges including data-related issues, such as the availability and quality of the data and data auditing, feature engineering, interpretability, and security issues. Being a key aspect of ML-based solutions, we also discuss some of the commonly used publicly available datasets in the domain. The paper also identifies key future research directions. We believe such detailed analysis will provide a baseline for future research in the domain.
翻訳日:2021-05-04 05:25:01 公開日:2021-04-20
# インターベンショナル・アスペクトに基づく感性分析

Interventional Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2104.11681v1 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Ganqiang Ye, Haiyang Yu, Xi Chen, Huajun Chen(参考訳) 最近のニューラルベースアスペクトベースの感情分析アプローチは、ベンチマークデータセットで有望な改善を達成しているが、ターゲット外のアスペクトのような共同創設者に遭遇する際の堅牢性の低下を報告している。 本稿では,この問題に対処するための因果的考察を行う。 本稿では,これらの要因を解消するために,バックドア調整を適用した簡易かつ効果的な手法,すなわちセンチメント調整(SENTA)を提案する。 Aspect Robustness Test Set (ARTS) データセットの実験結果から,本手法は元のテストセットの精度を維持しつつ,性能の向上を図っている。

Recent neural-based aspect-based sentiment analysis approaches, though achieving promising improvement on benchmark datasets, have reported suffering from poor robustness when encountering confounder such as non-target aspects. In this paper, we take a causal view to addressing this issue. We propose a simple yet effective method, namely, Sentiment Adjustment (SENTA), by applying a backdoor adjustment to disentangle those confounding factors. Experimental results on the Aspect Robustness Test Set (ARTS) dataset demonstrate that our approach improves the performance while maintaining accuracy in the original test set.
翻訳日:2021-05-03 19:50:51 公開日:2021-04-20
# (参考訳) Sync-Switch:分散ディープラーニングのためのハイブリッドパラメータ同期 [全文訳有]

Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep Learning ( http://arxiv.org/abs/2104.08364v2 )

ライセンス: CC0 1.0
Shijian Li, Oren Mangoubi, Lijie Xu, Tian Guo(参考訳) Stochastic Gradient Descent (SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。 トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。 例えば、バルク同期並列(BSP)はしばしばより収束した精度を達成するが、対応するトレーニングスループットはストラグラーによって負の影響を受け得る。 対照的に、非同期並列(ASP)は高いスループットを持つことができるが、その収束と精度は安定した勾配の影響を受け得る。 同期プロトコルの性能を向上させるため、最近の研究は、ハードトゥーチューンハイパーパラメータに依存する新しいプロトコルの設計に重点を置いていることが多い。 本稿では、bspとaspの両方の利点、すなわち、収束精度を維持しながらトレーニング時間を短縮するハイブリッド同期方式を考案する。 広範な経験的プロファイリングに基づいて、同期プロトコル間の切り替え方法とタイミングを決定する適応ポリシーの集合を考案する。 当社のポリシーには、繰り返しジョブをターゲットとするオフライン版と、一時的なストラグラーを扱うオンライン版の両方が含まれています。 tensorflow上にsync-switchと呼ばれるプロトタイプシステムで提案するポリシを実装し,一般的なディープラーニングモデルとデータセットによるトレーニング性能の評価を行う。 実験の結果, Sync-Switchのスループットは最大5.13倍に向上し, BSPとの比較では類似の収束精度が得られた。 さらに、Sync-Switchは、ASP.NETでのトレーニングに比べてトレーニング時間のわずか1.23倍の収束精度を3.8%達成している。 さらに、aspでのトレーニングが分岐エラーにつながる場合、sync-switchは設定で使用できる。 Sync-Switchはこれらのすべての利点を非常に低いオーバーヘッドで実現している。例えば、フレームワークのオーバーヘッドはトレーニング時間の1.7%にも達する。

Stochastic Gradient Descent (SGD) has become the de facto way to train deep neural networks in distributed clusters. A critical factor in determining the training throughput and model accuracy is the choice of the parameter synchronization protocol. For example, while Bulk Synchronous Parallel (BSP) often achieves better converged accuracy, the corresponding training throughput can be negatively impacted by stragglers. In contrast, Asynchronous Parallel (ASP) can have higher throughput, but its convergence and accuracy can be impacted by stale gradients. To improve the performance of synchronization protocol, recent work often focuses on designing new protocols with a heavy reliance on hard-to-tune hyper-parameters. In this paper, we design a hybrid synchronization approach that exploits the benefits of both BSP and ASP, i.e., reducing training time while simultaneously maintaining the converged accuracy. Based on extensive empirical profiling, we devise a collection of adaptive policies that determine how and when to switch between synchronization protocols. Our policies include both offline ones that target recurring jobs and online ones for handling transient stragglers. We implement the proposed policies in a prototype system, called Sync-Switch, on top of TensorFlow, and evaluate the training performance with popular deep learning models and datasets. Our experiments show that Sync-Switch achieves up to 5.13X throughput speedup and similar converged accuracy when comparing to BSP. Further, we observe that Sync-Switch achieves 3.8% higher converged accuracy with just 1.23X the training time compared to training with ASP. Moreover, Sync-Switch can be used in settings when training with ASP leads to divergence errors. Sync-Switch achieves all of these benefits with very low overhead, e.g., the framework overhead can be as low as 1.7% of the total training time.
翻訳日:2021-04-24 12:27:31 公開日:2021-04-20
# (参考訳) Fashion-Guided Adversarial Attack on Person Segmentation [全文訳有]

Fashion-Guided Adversarial Attack on Person Segmentation ( http://arxiv.org/abs/2104.08422v2 )

ライセンス: CC BY 4.0
Marc Treu, Trung-Nghia Le, Huy H. Nguyen, Junichi Yamagishi, Isao Echizen(参考訳) 本稿では,人間インスタンスセグメンテーションネットワーク,すなわち,個人セグメンテーションネットワークを攻撃対象とする,第1の逆例ベース手法を提案する。 本稿では,対象画像中の攻撃可能な領域を自動的に識別し,画質への影響を最小限に抑えるファッショナリアタック(fashionadv)フレームワークを提案する。 ファッションスタイルの画像から学習した敵対的なテクスチャを生成し、元の画像の衣服領域にオーバーレイすることで、画像内のすべての人が、人のセグメンテーションネットワークに見えないようにする。 合成された逆境のテクスチャは目立たず、人間の目に自然に見える。 提案手法の有効性は、ロバストネストレーニングと、ターゲットネットワークの複数のコンポーネントを共同攻撃することで向上する。 大規模な実験は、人間の目に自然に見えるだけでなく、サイバー空間における画像操作と保存に対する堅牢性の観点から、FashionAdvの有効性を実証した。 コードとデータはプロジェクトのページ https://github.com/n ii-yamagishilab/fash ion_adv で公開されています。

This paper presents the first adversarial example based method for attacking human instance segmentation networks, namely person segmentation networks in short, which are harder to fool than classification networks. We propose a novel Fashion-Guided Adversarial Attack (FashionAdv) framework to automatically identify attackable regions in the target image to minimize the effect on image quality. It generates adversarial textures learned from fashion style images and then overlays them on the clothing regions in the original image to make all persons in the image invisible to person segmentation networks. The synthesized adversarial textures are inconspicuous and appear natural to the human eye. The effectiveness of the proposed method is enhanced by robustness training and by jointly attacking multiple components of the target network. Extensive experiments demonstrated the effectiveness of FashionAdv in terms of robustness to image manipulations and storage in cyberspace as well as appearing natural to the human eye. The code and data are publicly released on our project page https://github.com/n ii-yamagishilab/fash ion_adv
翻訳日:2021-04-24 07:42:05 公開日:2021-04-20
# (参考訳) 効果的なクロスドメインレコメンデーションのためのデュアルメトリック学習 [全文訳有]

Dual Metric Learning for Effective and Efficient Cross-Domain Recommendations ( http://arxiv.org/abs/2104.08490v2 )

ライセンス: CC BY 4.0
Pan Li and Alexander Tuzhilin(参考訳) クロスドメインレコメンデータシステムは、消費者が異なるアプリケーションで有用なアイテムを識別するのを助けるためにますます重要になっている。 しかし、既存のクロスドメインモデルは一般的に多くの重複するユーザーを必要とし、一部のアプリケーションでは入手が困難である。 また、クロスドメインレコメンデーションタスクの双対性構造を考慮せず、ユーザとアイテム間の双方向潜時関係を考慮せず、最適なレコメンデーション性能を達成できなかった。 そこで本稿では,学習プロセスが安定化するまで,二つのドメイン間で情報を反復的に伝達する,二重学習に基づく新しいドメイン間推薦モデルを提案する。 本研究では,複数のドメインにまたがるユーザ嗜好を抽出し,異なる潜在空間にまたがるユーザ間の関係を保ちながら,新しい潜在直交マッピングを開発する。 さらに、二重学習法とメトリック学習法を組み合わせることで、2つのドメイン間の共通ユーザオーバーラップを大幅に削減し、ドメイン間の推薦性能をより向上させることができる。 提案モデルを2つの大規模産業データセットと6つのドメインペアでテストし,最先端のベースラインを一貫して大幅に上回っていることを示す。 また,提案モデルは,オーバーラップユーザが多い最先端のベースラインに匹敵する満足度の高いレコメンデーション性能を得るために,非常に少ないオーバラップユーザでも機能することを示した。

Cross domain recommender systems have been increasingly valuable for helping consumers identify useful items in different applications. However, existing cross-domain models typically require large number of overlap users, which can be difficult to obtain in some applications. In addition, they did not consider the duality structure of cross-domain recommendation tasks, thus failing to take into account bidirectional latent relations between users and items and achieve optimal recommendation performance. To address these issues, in this paper we propose a novel cross-domain recommendation model based on dual learning that transfers information between two related domains in an iterative manner until the learning process stabilizes. We develop a novel latent orthogonal mapping to extract user preferences over multiple domains while preserving relations between users across different latent spaces. Furthermore, we combine the dual learning method with the metric learning approach, which allows us to significantly reduce the required common user overlap across the two domains and leads to even better cross-domain recommendation performance. We test the proposed model on two large-scale industrial datasets and six domain pairs, demonstrating that it consistently and significantly outperforms all the state-of-the-art baselines. We also show that the proposed model works well with very few overlap users to obtain satisfying recommendation performance comparable to the state-of-the-art baselines that use many overlap users.
翻訳日:2021-04-24 04:42:18 公開日:2021-04-20
# (参考訳) 有料道路の歴史的データを用いた動的料金予測:I-66内ベルトウェイを事例として [全文訳有]

Dynamic Toll Prediction Using Historical Data on Toll Roads: Case Study of the I-66 Inner Beltway ( http://arxiv.org/abs/2104.10684v1 )

ライセンス: CC BY 4.0
Sara Zahedian, Amir Nohekhan, Kaveh Farokhi Sadabadi(参考訳) 動的料金体系の利用者に対して、料金の値上げと有料道路と代替ルートの走行時間差の予測を提供することで、旅行開始前に旅行決定を行うことができる。 本研究の目的は、ランダムフォレスト、多層パーセプトロン、長期記憶モデルのトレーニングおよびテストを通じて、トーリング価格の正確な予測を行い、それらを現在のトーリング価格を次のタイムステップまで延ばすという現在の状況と比較することである。 予測時間軸は、現在時刻より5分前の6分間の時間間隔を含む。 テストセット上でのモデルの予測性能は、すべてのモデルがベースモデルよりも著しく優れているが、ランダムフォレストがすべてのモデルを上回ることを示している。 例えば、トレーニングされたモデルでは、平均的な絶対エラー範囲は次の6分間で1.5ドルから2.5ドルから次の30分までですが、ベースモデルでも同じ尺度は2.5ドルから6ドルの範囲です。 有料道路沿いの走行時間差の予測と最短走行時間での代替経路の予測により,多層パーセプトロンはベースモデルよりも極端に優れた性能を示した。 しかし、比較的安定した移動時間差のため、現在の移動時間差は次の30分間の予測地平線に対して許容できる予測である。

Providing the users of a dynamic tolling system with predictions of tolling prices and the travel time difference between the toll road and the alternative routes enables them to make their travel decisions before starting their trip. This study aims to provide accurate predictions of tolling price through training and testing random forest, multilayer perceptron, and long short-term memory models and compare them with the current situation that the best prediction is extending the current toll to the next timesteps. The prediction time horizon includes five 6-minute time intervals ahead of the present time. The prediction performance of models over the testing set reveals that while all the models were significantly better than the base model, the random forest outperforms all models. For instance, while in the trained models, the mean absolute error range is from $1.5 to $2.5 for the next six minutes to the next 30 minutes, respectively, the same measure in the base model is in the range of $2.5 to $6. The prediction of travel time difference along the toll road and its alternative route with the shortest travel time revealed that the multilayer perceptron performs marginally better than the base model. However, due to a relatively stable travel time difference, the current travel time difference is an acceptable prediction for the next 30 minutes prediction horizon.
翻訳日:2021-04-24 04:16:27 公開日:2021-04-20
# 力学のための説明可能な人工知能:構成モデルのための物理インフォーメーションニューラルネットワーク

Explainable artificial intelligence for mechanics: physics-informing neural networks for constitutive models ( http://arxiv.org/abs/2104.10683v1 )

ライセンス: Link先を確認
Arnd Koeppe and Franz Bamer and Michael Selzer and Britta Nestler and Bernd Markert(参考訳) (人工)ニューラルネットワークは, モデルオーダー低減技術による計算の高速化や, 幅広い材料に対する普遍モデルとして, メカニクスにおいてますます普及している。 しかし、ニューラルネットワークの大きな欠点は、多くのパラメータが解釈と説明を困難にしていることである。 したがって、ニューラルネットワークはしばしばブラックボックスとしてラベル付けされ、その結果はしばしば人間の解釈を損なう。 メカニクスにおいて、物理インフォームドニューラルネットワークの新しい活発な分野は、機械的知識に基づいてディープニューラルネットワークを設計することによって、この欠点を緩和しようとする。 これを用いることで、機械的な仮定が説明できるため、より深く複雑なニューラルネットワークが実現可能になる。 しかし、ニューラルネットワークパラメータの内部推論と説明は謎のままである。 物理学を応用したアプローチと相補的に、機械データにトレーニングされたニューラルネットワークを後方から説明する物理計算アプローチへの第一歩を提案する。 この説明可能な人工知能アプローチは、ニューラルネットワークのブラックボックスとその高次元表現の解明を目的としている。 そこで主成分分析は、rnnの細胞状態における分散表現を分離し、既知の機能と基本機能の比較を可能にする。 この新しいアプローチは、最高のニューラルネットワークアーキテクチャとトレーニングパラメータを識別する、体系的なハイパーパラメータ検索戦略によって支持されている。 基本構成モデル (超弾性, エラスト塑性, 粘弾性) に関する3つの事例研究の結果, 提案手法は, 新しい材料を特徴付ける数値的および解析的閉形式解の同定に有効であることが示唆された。

(Artificial) neural networks have become increasingly popular in mechanics as means to accelerate computations with model order reduction techniques and as universal models for a wide variety of materials. However, the major disadvantage of neural networks remains: their numerous parameters are challenging to interpret and explain. Thus, neural networks are often labeled as black boxes, and their results often elude human interpretation. In mechanics, the new and active field of physics-informed neural networks attempts to mitigate this disadvantage by designing deep neural networks on the basis of mechanical knowledge. By using this a priori knowledge, deeper and more complex neural networks became feasible, since the mechanical assumptions could be explained. However, the internal reasoning and explanation of neural network parameters remain mysterious. Complementary to the physics-informed approach, we propose a first step towards a physics-informing approach, which explains neural networks trained on mechanical data a posteriori. This novel explainable artificial intelligence approach aims at elucidating the black box of neural networks and their high-dimensional representations. Therein, the principal component analysis decorrelates the distributed representations in cell states of RNNs and allows the comparison to known and fundamental functions. The novel approach is supported by a systematic hyperparameter search strategy that identifies the best neural network architectures and training parameters. The findings of three case studies on fundamental constitutive models (hyperelasticity, elastoplasticity, and viscoelasticity) imply that the proposed strategy can help identify numerical and analytical closed-form solutions to characterize new materials.
翻訳日:2021-04-23 14:06:29 公開日:2021-04-20
# (参考訳) GANによる皮膚病変解析のためのデータ拡張と匿名化:批判的レビュー [全文訳有]

GAN-Based Data Augmentation and Anonymization for Skin-Lesion Analysis: A Critical Review ( http://arxiv.org/abs/2104.10603v1 )

ライセンス: CC BY 4.0
Alceu Bissoto, Eduardo Valle, Sandra Avila(参考訳) 高品質な公開データセットが利用可能になっているにもかかわらず、トレーニングサンプルの欠如は、皮膚病変解析におけるディープラーニングの主な課題の1つである。 GAN(Generative Adversarial Networks)は、実際の画像と区別できないサンプルを合成することで、問題を緩和するための魅力的な代替手段として現れる。 それにもかかわらず、GANベースのデータ拡張による皮膚病変診断のための慎重に設計された実験は、配布外テストセットでのみ好ましい結果を示す。 GANベースのデータ匿名化$-$では、合成画像が実際の画像を置き換える$-$は、配布外テストセットにのみ表示される。 ganの使用に伴うコストとリスクのため、これらの結果は医療への応用に注意を喚起する。

Despite the growing availability of high-quality public datasets, the lack of training samples is still one of the main challenges of deep-learning for skin lesion analysis. Generative Adversarial Networks (GANs) appear as an enticing alternative to alleviate the issue, by synthesizing samples indistinguishable from real images, with a plethora of works employing them for medical applications. Nevertheless, carefully designed experiments for skin-lesion diagnosis with GAN-based data augmentation show favorable results only on out-of-distribution test sets. For GAN-based data anonymization $-$ where the synthetic images replace the real ones $-$ favorable results also only appear for out-of-distribution test sets. Because of the costs and risks associated with GAN usage, those results suggest caution in their adoption for medical applications.
翻訳日:2021-04-23 03:26:18 公開日:2021-04-20
# (参考訳) 手話認識におけるポーズ推定の即時適用性の評価 [全文訳有]

Evaluating the Immediate Applicability of Pose Estimation for Sign Language Recognition ( http://arxiv.org/abs/2104.10166v1 )

ライセンス: CC BY 4.0
Amit Moryossef, Ioannis Tsochantaridis, Joe Dinn, Necati Cihan Camg\"oz, Richard Bowden, Tao Jiang, Annette Rios, Mathias M\"uller, Sarah Ebling(参考訳) 符号付き言語は、手、顔、体の動きによって生成される視覚言語である。 本稿では,説明可能であり,人に依存しない,プライバシーを保護し,低次元表現であるスケルトンポーズに基づく表現を評価する。 基本的に、骨格表現は個人の外見と背景を一般化し、動きの認識に焦点を合わせることができる。 しかし、骨格表現によってどれだけ情報が失われるのか? 我々は2つの最先端ポーズ推定システムを用いて2つの独立した研究を行う。 ポーズ推定システムの手話認識への適用性について,認識モデルの故障事例を評価することにより検討した。 重要なことに、手話認識における骨格ポーズ推定アプローチの現在の制限を特徴付けることができる。

Signed languages are visual languages produced by the movement of the hands, face, and body. In this paper, we evaluate representations based on skeleton poses, as these are explainable, person-independent, privacy-preserving, low-dimensional representations. Basically, skeletal representations generalize over an individual's appearance and background, allowing us to focus on the recognition of motion. But how much information is lost by the skeletal representation? We perform two independent studies using two state-of-the-art pose estimation systems. We analyze the applicability of the pose estimation systems to sign language recognition by evaluating the failure cases of the recognition models. Importantly, this allows us to characterize the current limitations of skeletal pose estimation approaches in sign language recognition.
翻訳日:2021-04-23 03:11:14 公開日:2021-04-20
# (参考訳) シフト不変データのデコード:バンド励起走査プローブ顕微鏡への応用 [全文訳有]

Decoding the shift-invariant data: applications for band-excitation scanning probe microscopy ( http://arxiv.org/abs/2104.10207v1 )

ライセンス: CC BY 4.0
Yongtao Liu, Rama K. Vasudevan, Kyle Kelley, Dohyung Kim, Yogesh Sharma, Mahshid Ahmadi, Sergei V. Kalinin, and Maxim Ziatdinov(参考訳) シフト不変変分オートエンコーダ (shift-VAE) は、パラメータ軸に沿ったシフトが存在する場合のスペクトルデータを解析し、他の潜伏変数から物理的に関連するシフトを分離するための教師なし手法として開発された。 合成データセットを用いて,シフト-VAE潜伏変数が基底真理パラメータと密接に一致することを示す。 シフトVAEは、ピーク形状パラメータから共振周波数シフトを無教師で遠ざけ、バンド励起圧電力顕微鏡(BE-PFM)データの解析に向けて拡張される。 画像データおよび分光データのモデルフリーな次元性低減に向けたこのアプローチの拡張がさらに実証されている。 このアプローチは普遍的であり、X線回折、フォトルミネッセンス、ラマンスペクトル、その他のデータセットの解析にも拡張できる。

A shift-invariant variational autoencoder (shift-VAE) is developed as an unsupervised method for the analysis of spectral data in the presence of shifts along the parameter axis, disentangling the physically-relevant shifts from other latent variables. Using synthetic data sets, we show that the shift-VAE latent variables closely match the ground truth parameters. The shift VAE is extended towards the analysis of band-excitation piezoresponse force microscopy (BE-PFM) data, disentangling the resonance frequency shifts from the peak shape parameters in a model-free unsupervised manner. The extensions of this approach towards denoising of data and model-free dimensionality reduction in imaging and spectroscopic data are further demonstrated. This approach is universal and can also be extended to analysis of X-ray diffraction, photoluminescence, Raman spectra, and other data sets.
翻訳日:2021-04-23 03:01:35 公開日:2021-04-20
# (参考訳) 個人が言語を変える方法

How individuals change language ( http://arxiv.org/abs/2104.10210v1 )

ライセンス: CC BY 4.0
Richard A Blythe and William Croft(参考訳) 言語は、個々の話者間の相互作用にもかかわらず、人口レベルで時間とともに出現し、変化する。 しかし、単一の話者の言語革新が言語全体の変化をいかに生み出すかを直接観察することは困難であり、多くの理論的提案が存在する。 多様な個人レベルの言語行動を含む非常に一般的な数学的モデルを導入し、それらから生じる人口レベルの変化を統計的に予測する。 このモデルにより、個人が言語を学習・使用する過程で異なる仮定の下で、複数の言語における定性的・不定性的な記事の実証的な変化の可能性を比較することができる。 幼児期の言語習得における誤りに強く訴える言語変化の報告は、歴史的データによって非常に弱く支持されているのに対し、話者が生涯にわたって段階的に変化できるものは、特にソーシャルネットワークの効果と組み合わせれば、より妥当である。

Languages emerge and change over time at the population level though interactions between individual speakers. It is, however, hard to directly observe how a single speaker's linguistic innovation precipitates a population-wide change in the language, and many theoretical proposals exist. We introduce a very general mathematical model that encompasses a wide variety of individual-level linguistic behaviours and provides statistical predictions for the population-level changes that result from them. This model allows us to compare the likelihood of empirically-attested changes in definite and indefinite articles in multiple languages under different assumptions on the way in which individuals learn and use language. We find that accounts of language change that appeal primarily to errors in childhood language acquisition are very weakly supported by the historical data, whereas those that allow speakers to change incrementally across the lifespan are more plausible, particularly when combined with social network effects.
翻訳日:2021-04-23 02:49:03 公開日:2021-04-20
# (参考訳) 階層的談話表現がエンティティ参照解決性能に及ぼす影響の評価 [全文訳有]

Evaluating the Impact of a Hierarchical Discourse Representation on Entity Coreference Resolution Performance ( http://arxiv.org/abs/2104.10215v1 )

ライセンス: CC BY 4.0
Sopan Khosla, James Fiacco, Carolyn Rose(参考訳) エンティティコリファレンスレゾリューション(cr)に関する最近の研究は、埋め込みや比較的単純なタスク関連機能に適用されるディープラーニングの最近のトレンドに従っている。 SOTAモデルは、談話構造の階層的表現を使用しない。 本研究では,ニューラルアプローチで自動構築された談話構文解析木を活用し,2つのベンチマークエンティティのコリファレンス解決データセットにおいて有意な改善を示す。 我々は、言及の種類によって影響がどう変わるかを探る。

Recent work on entity coreference resolution (CR) follows current trends in Deep Learning applied to embeddings and relatively simple task-related features. SOTA models do not make use of hierarchical representations of discourse structure. In this work, we leverage automatically constructed discourse parse trees within a neural approach and demonstrate a significant improvement on two benchmark entity coreference-resoluti on datasets. We explore how the impact varies depending upon the type of mention.
翻訳日:2021-04-23 02:48:05 公開日:2021-04-20
# (参考訳) 深層強化学習における検証制御器のスケーラブルな合成 [全文訳有]

Scalable Synthesis of Verified Controllers in Deep Reinforcement Learning ( http://arxiv.org/abs/2104.10219v1 )

ライセンス: CC BY 4.0
Zikang Xiong and Suresh Jagannathan(参考訳) 近年,安全クリティカルシステムを管理する学習支援コントローラ(LEC)の検証技術開発への関心が高まっている。 このようなコントローラの動作を管理する神経ポリシーの不透明さと解釈性の欠如を考えると、既存の多くのアプローチはシールド(LECが所望の安全条件に反するアクションを放出しないことを保証する動的監視と修復機構)を使用して安全性を強制する。 しかし、これらの手法は、問題次元と客観的複雑さが増加するにつれて検証コストが増加するため、スケーラビリティに重大な制限があることが示されている。 本稿では,問題領域が数百次元を含む場合や,確率的摂動,生活性考慮,その他の複雑な非機能的特性を対象とする場合にも,高品質な安全シールドを合成できる新しい自動検証パイプラインを提案する。 我々の重要な洞察は、安全検証をニューラルネットワークから分離することであり、安全に焦点をあてるだけでなく、ニューラルネットワークのトレーニングを制約するために、事前に計算済みの安全シールドを使用することである。 実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。

There has been significant recent interest in devising verification techniques for learning-enabled controllers (LECs) that manage safety-critical systems. Given the opacity and lack of interpretability of the neural policies that govern the behavior of such controllers, many existing approaches enforce safety properties through the use of shields, a dynamic monitoring and repair mechanism that ensures a LEC does not emit actions that would violate desired safety conditions. These methods, however, have shown to have significant scalability limitations because verification costs grow as problem dimensionality and objective complexity increase. In this paper, we propose a new automated verification pipeline capable of synthesizing high-quality safety shields even when the problem domain involves hundreds of dimensions, or when the desired objective involves stochastic perturbations, liveness considerations, and other complex non-functional properties. Our key insight involves separating safety verification from neural controller, using pre-computed verified safety shields to constrain neural controller training which does not only focus on safety. Experimental results over a range of realistic high-dimensional deep RL benchmarks demonstrate the effectiveness of our approach.
翻訳日:2021-04-23 02:40:12 公開日:2021-04-20
# (参考訳) 非IIDデータによる半教師あり学習 [全文訳有]

More Than Meets The Eye: Semi-supervised Learning Under Non-IID Data ( http://arxiv.org/abs/2104.10223v1 )

ライセンス: CC BY 4.0
Saul Calderon-Ramirez and Luis Oala(参考訳) 半教師付きディープラーニング(SSDL)における一般的なヒューリスティックは、ラベル付きデータとのセマンティックな類似性の概念に基づいて、非ラベル付きデータを選択することである。 例えば、数字のラベル付き画像は、例えば車のラベル付き画像ではなく、数字のラベル付き画像と組み合わせるべきである。 私たちはこのプラクティスをセマンティックデータセットマッチングと呼んでいる。 本研究では,セマンティックデータセットマッチングの限界を示す。 また,最先端のSSDLアルゴリズムの性能を劣化させることも可能であることを示した。 本研究では,ラベル付きデータセットとラベルなしデータセットの分布ミスマッチの程度が異なるssdlアルゴリズムをストレステストするために,非iid-ssdlと呼ばれる総合的なシミュレーションサンドボックスを提案する。 さらに,一般分類器の特徴空間における単純密度に基づく異種性尺度は,ssdl訓練前にラベルなしデータを選択するための有望で信頼性の高い量的マッチング基準を提供することを示す。

A common heuristic in semi-supervised deep learning (SSDL) is to select unlabelled data based on a notion of semantic similarity to the labelled data. For example, labelled images of numbers should be paired with unlabelled images of numbers instead of, say, unlabelled images of cars. We refer to this practice as semantic data set matching. In this work, we demonstrate the limits of semantic data set matching. We show that it can sometimes even degrade the performance for a state of the art SSDL algorithm. We present and make available a comprehensive simulation sandbox, called non-IID-SSDL, for stress testing an SSDL algorithm under different degrees of distribution mismatch between the labelled and unlabelled data sets. In addition, we demonstrate that simple density based dissimilarity measures in the feature space of a generic classifier offer a promising and more reliable quantitative matching criterion to select unlabelled data before SSDL training.
翻訳日:2021-04-23 02:12:07 公開日:2021-04-20
# (参考訳) 一貫性概念抽象化によるイベント可塑性のモデル化 [全文訳有]

Modeling Event Plausibility with Consistent Conceptual Abstraction ( http://arxiv.org/abs/2104.10247v1 )

ライセンス: CC BY 4.0
Ian Porada, Kaheer Suleman, Adam Trischler, and Jackie Chi Kit Cheung(参考訳) 自然言語を理解するには常識が必要であるが、その1つの側面は出来事の妥当性を識別する能力である。 分散モデル — 最近ではトレーニング済みのTransformer言語モデル — は、イベントの可視性モデリングの改善を実証しているが、そのパフォーマンスは依然として人間に劣っている。 本研究は, トランスフォーマティブ・プルーサビリティモデルが語彙階層の概念クラス間で著しく矛盾していることを示し, 例えば「呼吸する人」は「呼吸する人」は「呼吸する歯医者」はそうではないと推測する。 我々は,モデルに語彙的知識をソフトに注入しても,この不整合が持続することを見いだし,モデルの一貫性を強制する簡単なポストホックな手法を提案する。

Understanding natural language requires common sense, one aspect of which is the ability to discern the plausibility of events. While distributional models -- most recently pre-trained, Transformer language models -- have demonstrated improvements in modeling event plausibility, their performance still falls short of humans'. In this work, we show that Transformer-based plausibility models are markedly inconsistent across the conceptual classes of a lexical hierarchy, inferring that "a person breathing" is plausible while "a dentist breathing" is not, for example. We find this inconsistency persists even when models are softly injected with lexical knowledge, and we present a simple post-hoc method of forcing model consistency that improves correlation with human plausibility judgements.
翻訳日:2021-04-23 01:59:06 公開日:2021-04-20
# (参考訳) 逆学習を用いたヒト脳の階層的機能結合成分の抽出 [全文訳有]

Extraction of Hierarchical Functional Connectivity Components in human brain using Adversarial Learning ( http://arxiv.org/abs/2104.10255v1 )

ライセンス: CC BY 4.0
Dushyant Sahoo and Christos Davatzikos(参考訳) RSfMRIデータから脳の機能的接続パターンを反映したスパース階層成分の推定は、脳の機能的組織に対する理解に寄与し、疾患のバイオマーカーにつながる可能性がある。 しかし、走査間変異やその他の要因は、機能的に解釈可能な脳ネットワーク、特に再現可能な生体マーカーの堅牢で再現可能な推定に挑戦する。 さらに、脳は階層的に組織されていると信じられているため、単一スケールの分解はこの階層を欠いている。 本稿では, 対人学習における現在の進歩を利用して, RSfMRIデータを用いて人間の脳の解釈可能な階層パターンを推定することを目的としている。 推定問題を最小化問題として記述し,交互更新を用いて解く。 シミュレーションと実世界のデータセットに関する広範な実験は、他のよく知られた方法と比較して高い再現性を示している。

The estimation of sparse hierarchical components reflecting patterns of the brain's functional connectivity from rsfMRI data can contribute to our understanding of the brain's functional organization, and can lead to biomarkers of diseases. However, inter-scanner variations and other confounding factors pose a challenge to the robust and reproducible estimation of functionally-interpr etable brain networks, and especially to reproducible biomarkers. Moreover, the brain is believed to be organized hierarchically, and hence single-scale decompositions miss this hierarchy. The paper aims to use current advancements in adversarial learning to estimate interpretable hierarchical patterns in the human brain using rsfMRI data, which are robust to "adversarial effects" such as inter-scanner variations. We write the estimation problem as a minimization problem and solve it using alternating updates. Extensive experiments on simulation and a real-world dataset show high reproducibility of the components compared to other well-known methods.
翻訳日:2021-04-23 01:42:08 公開日:2021-04-20
# (参考訳) オフライン強化学習による生徒の侵入最小化支援策の発見 [全文訳有]

Discovering an Aid Policy to Minimize Student Evasion Using Offline Reinforcement Learning ( http://arxiv.org/abs/2104.10258v1 )

ライセンス: CC BY 4.0
Leandro M. de Lima, Renato A. Krohling(参考訳) 第三次教育における高いドロップアウト率は、期待と財政的無駄のフラストレーションを引き起こす効率の欠如を露呈する。 リスクのある生徒を予測するだけでは、学生の退学は避けられない。 通常、適切な援助行動は各学生の適切な時間に発見され、適用されなければならない。 この逐次的意思決定問題に対処するため,オフライン強化学習を用いた学生の援助行動選択のための意思決定支援手法を提案し,学生の退学を効果的に回避する。 さらに,2つの異なるクラスタリング手法を適用した学生の状態空間の離散化を評価する。 実学生のログデータを用いた実験では,非政治評価により,ログ政策の約1.0倍から1.5倍の累積報酬を得られることが判明した。 したがって、意思決定者が適切な援助行動を適用するのを助け、おそらく学生の退学を減らすことができる。

High dropout rates in tertiary education expose a lack of efficiency that causes frustration of expectations and financial waste. Predicting students at risk is not enough to avoid student dropout. Usually, an appropriate aid action must be discovered and applied in the proper time for each student. To tackle this sequential decision-making problem, we propose a decision support method to the selection of aid actions for students using offline reinforcement learning to support decision-makers effectively avoid student dropout. Additionally, a discretization of student's state space applying two different clustering methods is evaluated. Our experiments using logged data of real students shows, through off-policy evaluation, that the method should achieve roughly 1.0 to 1.5 times as much cumulative reward as the logged policy. So, it is feasible to help decision-makers apply appropriate aid actions and, possibly, reduce student dropout.
翻訳日:2021-04-23 01:31:38 公開日:2021-04-20
# (参考訳) \textit{statecensuslaws.org}: 法的談話学習を利用・注釈するwebアプリケーション [全文訳有]

\textit{StateCensusLaws.org}: A Web Application for Consuming and Annotating Legal Discourse Learning ( http://arxiv.org/abs/2104.10263v1 )

ライセンス: CC BY 4.0
Alexander Spangher and Jonathan May(参考訳) 本研究では,法文中の言論セグメントを解析・ラベル付けするために訓練されたNLPモデルの出力をハイライトするWebアプリケーションを作成する。 当社の制度は主にジャーナリストや法律通訳を念頭に構築されており、米国国勢調査人口数を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てている。 当社のシステムは、米国国勢調査に関連する6000の州レベルの法律を収集したコーパスを公開し、州法ウェブサイトをクロールするために構築した25のスクレーパーを使って公開します。 また、任意の入力テキスト文書にスパンタグや関係タグを付け、任意のWebページに埋め込むことができる新しいフレキシブルなアノテーションフレームワークを構築します。 このフレームワークにより、ジャーナリストや研究者は、新しいデータを修正してタグ付けすることで、アノテーションデータベースに追加することができます。

In this work, we create a web application to highlight the output of NLP models trained to parse and label discourse segments in law text. Our system is built primarily with journalists and legal interpreters in mind, and we focus on state-level law that uses U.S. Census population numbers to allocate resources and organize government. Our system exposes a corpus we collect of 6,000 state-level laws that pertain to the U.S. census, using 25 scrapers we built to crawl state law websites, which we release. We also build a novel, flexible annotation framework that can handle span-tagging and relation tagging on an arbitrary input text document and be embedded simply into any webpage. This framework allows journalists and researchers to add to our annotation database by correcting and tagging new data.
翻訳日:2021-04-23 01:13:10 公開日:2021-04-20
# (参考訳) TWIST-GAN:時空間超解像のためのウェーブレット変換と転送GAN [全文訳有]

TWIST-GAN: Towards Wavelet Transform and Transferred GAN for Spatio-Temporal Single Image Super Resolution ( http://arxiv.org/abs/2104.10268v1 )

ライセンス: CC BY 4.0
Fayaz Ali Dharejo, Farah Deeba, Yuanchun Zhou, Bhagwan Das, Munsif Ali Jatoi, Muhammad Zawish, Yi Du, and Xuezhi Wang(参考訳) シングルイメージ・スーパーレゾリューション(sisr)は、低空間解像度の画像から微細な空間解像度を持つ高解像度画像を生成する。 近年,GAN(Deep Learning and Generative Adversarial Network)は,単一画像超解像(SISR)の課題を突破した。 しかし、生成された画像は、テクスチャの特徴表現や高周波情報がないなど、いまだに望ましくないアーティファクトに苦しんでいる。 本稿では,様々な周波数帯域(TWIST-GAN)上のGAN(Generative Adversarialnetworks) と組み合わせてHRイメージを再構成する,周波数領域に基づく時空間リモートセンシング技術を提案する。 我々は,Wavelet Transform (WT) 特性と変換対向ネットワークを取り入れた新しい手法を導入した。 LR画像はWTを用いて様々な周波数帯域に分割するが、転送生成逆ネットワークは提案アーキテクチャにより高周波成分を予測する。 最後に、ウェーブレットの逆転送は超高解像度で再構成された画像を生成する。 モデルはまず外部のDIV2 Kdatasetでトレーニングされ、UC Merceed LandsatリモートセンシングデータセットとSet14で256x256の画像サイズで検証される。 その後、転送されたGANを用いて時空間リモートセンシング画像を順番に処理し、計算コストの差を最小化し、テクスチャ情報を改善する。 調査結果は、現在の最先端のアプローチと比較され、定性的に比較される。 さらに、トレーニング中にGPUメモリの約43%を節約し、バッチ正規化レイヤを排除して、単純化したバージョンの実行を加速しました。

Single Image Super-resolution (SISR) produces high-resolution images with fine spatial resolutions from aremotely sensed image with low spatial resolution. Recently, deep learning and generative adversarial networks(GANs) have made breakthroughs for the challenging task of single image super-resolution (SISR). However, thegenerated image still suffers from undesirable artifacts such as, the absence of texture-feature representationand high-frequency information. We propose a frequency domain-based spatio-temporal remote sensingsingle image super-resolution technique to reconstruct the HR image combined with generative adversarialnetworks (GANs) on various frequency bands (TWIST-GAN). We have introduced a new method incorporatingWavelet Transform (WT) characteristics and transferred generative adversarial network. The LR image hasbeen split into various frequency bands by using the WT, whereas, the transfer generative adversarial networkpredicts high-frequency components via a proposed architecture. Finally, the inverse transfer of waveletsproduces a reconstructed image with super-resolution. The model is first trained on an external DIV2 Kdataset and validated with the UC Merceed Landsat remote sensing dataset and Set14 with each image sizeof 256x256. Following that, transferred GANs are used to process spatio-temporal remote sensing images inorder to minimize computation cost differences and improve texture information. The findings are comparedqualitativel y and qualitatively with the current state-of-art approaches. In addition, we saved about 43% of theGPU memory during training and accelerated the execution of our simplified version by eliminating batchnormalization layers.
翻訳日:2021-04-23 01:02:30 公開日:2021-04-20
# (参考訳) 連立3次元顔認識と表現中性化のための不整形顔識別表現 [全文訳有]

Disentangled Face Identity Representations for joint 3D Face Recognition and Expression Neutralisation ( http://arxiv.org/abs/2104.10273v1 )

ライセンス: CC BY 4.0
Anis Kacem, Kseniya Cherenkova, Djamila Aouada(参考訳) 本稿では,表現型3d顔から顔識別表現を分離する深層学習に基づく新しいアプローチを提案する。 提案手法は,3次元顔が与えられた場合,不整合性表現を抽出するだけでなく,その同一性を予測しながら中性表現を伴う現実的な3次元顔を生成する。 提案するネットワークは,(1)3次元面を潜在表現に変換するグラフ畳み込みオートエンコーダ(gca),(2)表現面の潜在表現を中性面の表現に変換する生成逆ネットワーク(gan),(3)中性化された潜在表現を活用した識別サブネットワーク,の3つの構成要素からなる。 ネットワーク全体がエンドツーエンドでトレーニングされる。 提案手法の有効性を示す3つの公開データセットで実験を行った。

In this paper, we propose a new deep learning-based approach for disentangling face identity representations from expressive 3D faces. Given a 3D face, our approach not only extracts a disentangled identity representation but also generates a realistic 3D face with a neutral expression while predicting its identity. The proposed network consists of three components; (1) a Graph Convolutional Autoencoder (GCA) to encode the 3D faces into latent representations, (2) a Generative Adversarial Network (GAN) that translates the latent representations of expressive faces into those of neutral faces, (3) and an identity recognition sub-network taking advantage of the neutralized latent representations for 3D face recognition. The whole network is trained in an end-to-end manner. Experiments are conducted on three publicly available datasets showing the effectiveness of the proposed approach.
翻訳日:2021-04-23 00:46:23 公開日:2021-04-20
# 変分推論による結果駆動強化学習

Outcome-Driven Reinforcement Learning via Variational Inference ( http://arxiv.org/abs/2104.10190v1 )

ライセンス: Link先を確認
Tim G. J. Rudner and Vitchyr H. Pong and Rowan McAllister and Yarin Gal and Sergey Levine(参考訳) 強化学習アルゴリズムは最適なポリシーを自動で取得するが、そのような手法の実践的な応用には、タスクを定義するだけでなく、それを達成するのに十分な形状の報酬関数を手動で設計するなど、多くの設計上の決定が必要である。 本稿では,強化学習に関する新たな視点について論じ,報酬を最大化するよりも,望ましい成果を達成するための行動を推測する問題として再キャストする。 結果指向推論の課題を解決するため,環境相互作用から直接学習可能な,良好な形状の報酬関数を導出可能な,新しい変分推論の定式化を確立した。 また, 標準ベルマンバックアップ演算子を連想させる確率的ベルマンバックアップ演算子を考案し, 目標指向タスクを解くために, オフ政治アルゴリズムの開発に利用した。 我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。

While reinforcement learning algorithms provide automated acquisition of optimal policies, practical application of such methods requires a number of design decisions, such as manually designing reward functions that not only define the task, but also provide sufficient shaping to accomplish it. In this paper, we discuss a new perspective on reinforcement learning, recasting it as the problem of inferring actions that achieve desired outcomes, rather than a problem of maximizing rewards. To solve the resulting outcome-directed inference problem, we establish a novel variational inference formulation that allows us to derive a well-shaped reward function which can be learned directly from environment interactions. From the corresponding variational objective, we also derive a new probabilistic Bellman backup operator reminiscent of the standard Bellman backup operator and use it to develop an off-policy algorithm to solve goal-directed tasks. We empirically demonstrate that this method eliminates the need to design reward functions and leads to effective goal-directed behaviors.
翻訳日:2021-04-22 14:39:57 公開日:2021-04-20
# Bayesian Optimization is Superior to Random Search for Machine Learning Hyperparameter Tuning: Analysis of the Black-Box Optimization Challenge 2020

Bayesian Optimization is Superior to Random Search for Machine Learning Hyperparameter Tuning: Analysis of the Black-Box Optimization Challenge 2020 ( http://arxiv.org/abs/2104.10201v1 )

ライセンス: Link先を確認
Ryan Turner, David Eriksson, Michael McCourt, Juha Kiili, Eero Laaksonen, Zhen Xu, Isabelle Guyon(参考訳) 本稿では,2020年7月から10月にかけて開催されたneurips 2020 における black-box optimization (bbo) challenge の結果と知見を紹介する。 この課題は、機械学習モデルのハイパーパラメータをチューニングするためのデリバティブフリーオプティマイザの評価の重要性を強調した。 これは機械学習を重視した最初のブラックボックス最適化チャレンジだった。 これは、実際のデータセット上での標準機械学習モデルのチューニング(バリデーションセット)パフォーマンスに基づいている。 この競争は、ブラックボックス最適化(ベイズ最適化など)が、ほぼすべての機械学習プロジェクトおよび機械学習以外の多くのアプリケーションにおいてハイパーパラメータチューニングに関係しているため、広く影響している。 最終リーダーボードは、人間の介入なしにオプティマイザが実行される(隠れた)目的関数の最適化性能を用いて決定された。 ベースラインは、いくつかのオープンソースのブラックボックス最適化パッケージのデフォルト設定とランダム検索を使用して設定された。

This paper presents the results and insights from the black-box optimization (BBO) challenge at NeurIPS 2020 which ran from July-October, 2020. The challenge emphasized the importance of evaluating derivative-free optimizers for tuning the hyperparameters of machine learning models. This was the first black-box optimization challenge with a machine learning emphasis. It was based on tuning (validation set) performance of standard machine learning models on real datasets. This competition has widespread impact as black-box optimization (e.g., Bayesian optimization) is relevant for hyperparameter tuning in almost every machine learning project as well as many applications outside of machine learning. The final leaderboard was determined using the optimization performance on held-out (hidden) objective functions, where the optimizers ran without human intervention. Baselines were set using the default settings of several open-source black-box optimization packages as well as random search.
翻訳日:2021-04-22 14:39:40 公開日:2021-04-20
# Identify, Align, and Integrate: 知識グラフと常識推論タスクのマッチング

Identify, Align, and Integrate: Matching Knowledge Graphs to Commonsense Reasoning Tasks ( http://arxiv.org/abs/2104.10193v1 )

ライセンス: Link先を確認
Lisa Bauer, Mohit Bansal(参考訳) 外部知識を常識推論タスクに統合することは、これらのタスクにおける知識のギャップを解消する進歩を示す。 知識統合がピーク性能を得るためには、与えられたタスクの目的に整合した知識グラフ(KG)を選択することが重要である。 提案手法は,KG-to-task マッチング(KG-to-task match)と呼ばれるタスクの推論のギャップを正しく識別し,正確に埋める手法である。 このkg-to-taskマッチングを,知識-タスク識別,知識-タスクアライメント,知識-タスク統合という3つのフェーズで示す。 また, 変圧器を用いたkg-to-taskモデルをcommonsenseプローブを用いて解析し, kg統合前後のモデルにおける知識の獲得度を測定した。 ATOMIC(Sap et al., 2019a),ConceptNet(Sp eer et al., 2017), WikiHow(Koupaee and Wang, 2018), MCScript2.0(Osterman n et al., 2019)の3種類のKGデータセットを用いて,SocialIQA(Sap et al., 2019b), Physical IQA(PIQA)(Bisk et al., 2020), MCScript2.0(Osterman n et al., 2019)のKGマッチについて検討を行った。 我々の方法では、イベント推論に焦点を当てたKGであるATOMICが、SIQAとMCScript2.0にとってベストマッチであり、分類学的ConceptNetとWikiHowベースのKGが、3つの分析フェーズでPIQAのベストマッチであることを示すことができる。 我々はその方法と知見を人的評価で検証する。

Integrating external knowledge into commonsense reasoning tasks has shown progress in resolving some, but not all, knowledge gaps in these tasks. For knowledge integration to yield peak performance, it is critical to select a knowledge graph (KG) that is well-aligned with the given task's objective. We present an approach to assess how well a candidate KG can correctly identify and accurately fill in gaps of reasoning for a task, which we call KG-to-task match. We show this KG-to-task match in 3 phases: knowledge-task identification, knowledge-task alignment, and knowledge-task integration. We also analyze our transformer-based KG-to-task models via commonsense probes to measure how much knowledge is captured in these models before and after KG integration. Empirically, we investigate KG matches for the SocialIQA (SIQA) (Sap et al., 2019b), Physical IQA (PIQA) (Bisk et al., 2020), and MCScript2.0 (Ostermann et al., 2019) datasets with 3 diverse KGs: ATOMIC (Sap et al., 2019a), ConceptNet (Speer et al., 2017), and an automatically constructed instructional KG based on WikiHow (Koupaee and Wang, 2018). With our methods we are able to demonstrate that ATOMIC, an event-inference focused KG, is the best match for SIQA and MCScript2.0, and that the taxonomic ConceptNet and WikiHow-based KGs are the best matches for PIQA across all 3 analysis phases. We verify our methods and findings with human evaluation.
翻訳日:2021-04-22 14:38:31 公開日:2021-04-20
# new aficionados and doppelg\"angers: a referenceential task for semantic representations of individual entities

Novel Aficionados and Doppelg\"angers: a referential task for semantic representations of individual entities ( http://arxiv.org/abs/2104.10270v1 )

ライセンス: Link先を確認
Andrea Bruera and Aur\'elie Herbelot(参考訳) 人間の意味認識では、固有名(個々の実体を指す名前)は一般的な名詞よりも学習し、取り出すのが難しい。 機械学習アルゴリズムもそうであるように思えるが、この行動の言語的および分布的な理由は、これまで深く研究されていない。 この問題に対処するため, 固有名と共通名詞のセマンティックな区別は, 分散セマンティクスの本来のタスク, Doppelg\"anger test, 広範囲のモデル, および新しいデータセットである Novel Aficionados データセットを用いて, 言語分布に反映されていることを示す。 その結果, 個々の個体の分布表現は, 共通名詞と区別しにくく, 人間の認知を反映させる結果が得られた。

In human semantic cognition, proper names (names which refer to individual entities) are harder to learn and retrieve than common nouns. This seems to be the case for machine learning algorithms too, but the linguistic and distributional reasons for this behaviour have not been investigated in depth so far. To tackle this issue, we show that the semantic distinction between proper names and common nouns is reflected in their linguistic distributions by employing an original task for distributional semantics, the Doppelg\"anger test, an extensive set of models, and a new dataset, the Novel Aficionados dataset. The results indicate that the distributional representations of different individual entities are less clearly distinguishable from each other than those of common nouns, an outcome which intriguingly mirrors human cognition.
翻訳日:2021-04-22 14:37:52 公開日:2021-04-20
# GraghVQA: グラフベースのビジュアル質問回答のための言語ガイド型グラフニューラルネットワーク

GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual Question Answering ( http://arxiv.org/abs/2104.10283v1 )

ライセンス: Link先を確認
Weixin Liang, Yanhao Jiang and Zixuan Liu(参考訳) イメージはオブジェクトや属性の集まり以上のものです -- 相互接続されたオブジェクト間の関係のwebを表しています。 scene graphは画像の構造化グラフィカル表現として新しいモダリティとして登場した。 scene graphはオブジェクトをエッジとしてペアリレーションを介して接続されたノードとしてエンコードする。 シーングラフ上での質問応答を支援するために,グラフノード間のメッセージパッシングの繰り返しとして自然言語質問を翻訳・実行する言語誘導グラフニューラルネットワークフレームワークであるGraphVQAを提案する。 GraphVQAフレームワークの設計領域について検討し、異なる設計選択のトレードオフについて議論する。 GQAデータセットに関する我々の実験は、GraphVQAが最先端の精度を大きなマージン(88.43%対94.78%)で上回っていることを示している。

Images are more than a collection of objects or attributes -- they represent a web of relationships among interconnected objects. Scene Graph has emerged as a new modality as a structured graphical representation of images. Scene Graph encodes objects as nodes connected via pairwise relations as edges. To support question answering on scene graphs, we propose GraphVQA, a language-guided graph neural network framework that translates and executes a natural language question as multiple iterations of message passing among graph nodes. We explore the design space of GraphVQA framework, and discuss the trade-off of different design choices. Our experiments on GQA dataset show that GraphVQA outperforms the state-of-the-art accuracy by a large margin (88.43% vs. 94.78%).
翻訳日:2021-04-22 14:36:44 公開日:2021-04-20
# ドメイン転送における適応知識の可視化

Visualizing Adapted Knowledge in Domain Transfer ( http://arxiv.org/abs/2104.10602v1 )

ライセンス: Link先を確認
Yunzhong Hou, Liang Zheng(参考訳) ソースデータに基づいて訓練されたソースモデルと、教師なしドメイン適応(UDA)を通じて学習されたターゲットモデルは通常、異なる知識を符号化する。 適応過程を理解するために,画像翻訳による知識差を表現した。 具体的には、翻訳画像とその原版を2つのモデルにそれぞれ供給し、2つのブランチを定式化する。 翻訳画像の更新により、2つの枝から同様の出力を強制する。 このような要件を満たすと、2つの画像の違いが補償され、モデル間の知識の違いを表す。 そこで本研究では,対象画像と2つのモデルのみを用いて,ソーススタイルの画像を生成する,ソースフリーな画像翻訳手法を提案する。 異なるUDA手法で複数のデータセットに適応した知識を視覚化し、生成した画像が2つのドメイン間のスタイルの違いをうまく捉えていることを確かめる。 アプリケーションの場合、生成した画像はソースデータにアクセスせずにターゲットモデルのさらなるチューニングを可能にする。 コードはhttps://github.com/h ou-yz/da_visualizati onで入手できる。

A source model trained on source data and a target model learned through unsupervised domain adaptation (UDA) usually encode different knowledge. To understand the adaptation process, we portray their knowledge difference with image translation. Specifically, we feed a translated image and its original version to the two models respectively, formulating two branches. Through updating the translated image, we force similar outputs from the two branches. When such requirements are met, differences between the two images can compensate for and hence represent the knowledge difference between models. To enforce similar outputs from the two branches and depict the adapted knowledge, we propose a source-free image translation method that generates source-style images using only target images and the two models. We visualize the adapted knowledge on several datasets with different UDA methods and find that generated images successfully capture the style difference between the two domains. For application, we show that generated images enable further tuning of the target model without accessing source data. Code available at https://github.com/h ou-yz/DA_visualizati on.
翻訳日:2021-04-22 14:35:41 公開日:2021-04-20
# 学習パターンとマッチングパターンによる人間の軌跡予測

Predicting Human Trajectories by Learning and Matching Patterns ( http://arxiv.org/abs/2104.10241v1 )

ライセンス: Link先を確認
Dapeng Zhao(参考訳) thesis document of the degree of science in robotics of carnegie mellon university of computer science(英語)

Thesis document of the degree of Master of Science in Robotics of Carnegie Mellon University School of Computer Science.
翻訳日:2021-04-22 14:35:25 公開日:2021-04-20
# 超ピクセルとグラフ畳み込みニューラルネットワークによる空中画像からの栄養不足ストレスの効率的な検出

Superpixels and Graph Convolutional Neural Networks for Efficient Detection of Nutrient Deficiency Stress from Aerial Imagery ( http://arxiv.org/abs/2104.10249v1 )

ライセンス: Link先を確認
Saba Dadsetan, David Pichler, David Wilson, Naira Hovakimyan, Jennifer Hobbs(参考訳) リモートセンシング技術の進歩は、膨大な量のデータの収集につながった。 画像解像度の向上、再訪回数の頻繁化、スペクトルチャネルの追加により、農業を含む各領域にまたがる分析と知性を提供するデータ量が爆発的に増加した。 しかし、このデータの処理には計算時間と費用の面でコストが伴うため、アルゴリズムの目的が効率を改善するためにリアルタイムインテリジェンスを提供することである場合、どちらも考慮する必要がある。 具体的には、養分不足地域をリモートで検知したデータから特定し、農夫に注意を要する地域へ警告する。 過去の手法はピクセルレベルの分類(すなわちピクセルレベルの分類)に重点を置いてきた。 セマンティックセグメンテーション(セマンティックセグメンテーション)は、これらのタスクを達成するためのフィールドであり、しばしば数万のパラメータを持つディープラーニングモデルを使用する。 対照的に,ノードベースの分類を行うためのより軽量なグラフベース手法を提案する。 まず、フィールド全体にわたってスーパーピクセルを生成するためにSimple Linear Iterative Cluster(SLIC)を使用します。 次に,超画素の非ユークリッド領域のセグメンテーションを行うために,グラフ畳み込みニューラルネットワーク(GCN)を利用する。 このモデルは、cnnモデルよりも4桁少ないパラメータを持ち、数分で列車が走る。

Advances in remote sensing technology have led to the capture of massive amounts of data. Increased image resolution, more frequent revisit times, and additional spectral channels have created an explosion in the amount of data that is available to provide analyses and intelligence across domains, including agriculture. However, the processing of this data comes with a cost in terms of computation time and money, both of which must be considered when the goal of an algorithm is to provide real-time intelligence to improve efficiencies. Specifically, we seek to identify nutrient deficient areas from remotely sensed data to alert farmers to regions that require attention; detection of nutrient deficient areas is a key task in precision agriculture as farmers must quickly respond to struggling areas to protect their harvests. Past methods have focused on pixel-level classification (i.e. semantic segmentation) of the field to achieve these tasks, often using deep learning models with tens-of-millions of parameters. In contrast, we propose a much lighter graph-based method to perform node-based classification. We first use Simple Linear Iterative Cluster (SLIC) to produce superpixels across the field. Then, to perform segmentation across the non-Euclidean domain of superpixels, we leverage a Graph Convolutional Neural Network (GCN). This model has 4-orders-of-magnitud e fewer parameters than a CNN model and trains in a matter of minutes.
翻訳日:2021-04-22 14:33:51 公開日:2021-04-20
# 説明可能性のためのクラスアクティベーションマッピングの評価を再考する:新しいメトリクスと実験的分析

Revisiting The Evaluation of Class Activation Mapping for Explainability: A Novel Metric and Experimental Analysis ( http://arxiv.org/abs/2104.10252v1 )

ライセンス: Link先を確認
Samuele Poppi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara(参考訳) ディープラーニングソリューションの要求が増加するにつれて、説明可能性の必要性はさらに根本的になる。 この設定では、ネットワークの出力に対して各入力画素に適切な関連性を持たせようとする可視化技術に特に注意が向けられている。 本稿では,活性化マップの重み付き平均値を用いて効果的に可視化する,クラス活性化マッピング(CAM)アプローチに焦点を当てる。 このようなアプローチの評価と再現性を高めるために,説明地図を定量化するための新しいメトリクスセットを提案する。 提案手法の妥当性を評価するため,ImageNetの検証セット全体に対して異なるCAMベースの可視化手法を比較し,適切な比較と再現性を育成する。

As the request for deep learning solutions increases, the need for explainability is even more fundamental. In this setting, particular attention has been given to visualization techniques, that try to attribute the right relevance to each input pixel with respect to the output of the network. In this paper, we focus on Class Activation Mapping (CAM) approaches, which provide an effective visualization by taking weighted averages of the activation maps. To enhance the evaluation and the reproducibility of such approaches, we propose a novel set of metrics to quantify explanation maps, which show better effectiveness and simplify comparisons between approaches. To evaluate the appropriateness of the proposal, we compare different CAM-based visualization methods on the entire ImageNet validation set, fostering proper comparisons and reproducibility.
翻訳日:2021-04-22 14:27:35 公開日:2021-04-20
# スケッチに基づく画像検索のためのコンパクトで効果的な表現

Compact and Effective Representations for Sketch-based Image Retrieval ( http://arxiv.org/abs/2104.10278v1 )

ライセンス: Link先を確認
Pablo Torres and Jose M. Saavedra(参考訳) スケッチベースの画像検索(SBIR)は、コンピュータビジョンのコミュニティへの関心が高まっ、実際のアプリケーションに大きな影響を与えている。 たとえばSBIRは、ユーザが何を買うかを描くだけで、クエリを定式化できるので、eコマース検索エンジンの利点が増す。 しかし,高次元空間における検索の精度を示す現在の手法は,メモリ消費や時間処理といった側面に悪影響を及ぼす。 一部の著者はコンパクト表現も提案しているが、これらは低次元での性能を劇的に低下させた。 そこで本研究では,スケッチベース画像検索の文脈において,コンパクトな埋め込みを生成するための異なる手法の評価結果を示す。 我々の主な関心は、元の空間の局所的な構造を維持する戦略である。 最近の非教師付き局所位相保存次元減少法UMAPは,我々の要求に適合し,優れた性能を示し,SOTA法による精度も向上した。 2つの異なるデータセットで6つの手法を評価する。 私たちはflickr15kとeコマースデータセットを使っています。 umapによって、16バイトのフィーチャーベクターが35%以上精度が向上することを示した。

Sketch-based image retrieval (SBIR) has undergone an increasing interest in the community of computer vision bringing high impact in real applications. For instance, SBIR brings an increased benefit to eCommerce search engines because it allows users to formulate a query just by drawing what they need to buy. However, current methods showing high precision in retrieval work in a high dimensional space, which negatively affects aspects like memory consumption and time processing. Although some authors have also proposed compact representations, these drastically degrade the performance in a low dimension. Therefore in this work, we present different results of evaluating methods for producing compact embeddings in the context of sketch-based image retrieval. Our main interest is in strategies aiming to keep the local structure of the original space. The recent unsupervised local-topology preserving dimension reduction method UMAP fits our requirements and shows outstanding performance, improving even the precision achieved by SOTA methods. We evaluate six methods in two different datasets. We use Flickr15K and eCommerce datasets; the latter is another contribution of this work. We show that UMAP allows us to have feature vectors of 16 bytes improving precision by more than 35%.
翻訳日:2021-04-22 14:27:22 公開日:2021-04-20
# トランスフォーマー言語モデルを用いたcovid-19ツイートの分析

Analyzing COVID-19 Tweets with Transformer-based Language Models ( http://arxiv.org/abs/2104.10259v1 )

ライセンス: Link先を確認
Philip Feldman, Sim Tiwari, Charissa S. L. Cheah, James R. Foulds, Shimei Pan(参考訳) 本稿では,トランスフォーマーに基づく言語モデル(TLM)を用いて,ソーシャルメディア投稿から世論を理解する手法について述べる。 このアプローチでは、いくつかのCOVID-19ツイートコーパスで一連のGPTモデルをトレーニングする。 次に、プロンプトベースのクエリを使用してこれらのモデルを探索し、ソーシャルメディアユーザーの意見に関する洞察を明らかにする。 様々な社会的、政治的、公衆衛生問題に対する世論調査に類似した結果を生み出すために、このアプローチをどのように利用できるかを実証する。 新型コロナウイルス(COVID-19)のツイートデータによると、トランスフォーマー言語モデルは、ソーシャルメディアに関する世論を大規模に理解するための有望なツールである。

This paper describes a method for using Transformer-based Language Models (TLMs) to understand public opinion from social media posts. In this approach, we train a set of GPT models on several COVID-19 tweet corpora. We then use prompt-based queries to probe these models to reveal insights into the opinions of social media users. We demonstrate how this approach can be used to produce results which resemble polling the public on diverse social, political and public health issues. The results on the COVID-19 tweet data show that transformer language models are promising tools that can help us understand public opinions on social media at scale.
翻訳日:2021-04-22 14:22:47 公開日:2021-04-20
# 多種不均衡データストリームからの概念ドリフト検出

Concept Drift Detection from Multi-Class Imbalanced Data Streams ( http://arxiv.org/abs/2104.10228v1 )

ライセンス: Link先を確認
{\L}ukasz Korycki, Bartosz Krawczyk(参考訳) データストリームからの継続的な学習は、現代の機械学習において最も重要なトピックである。 この領域で最大の課題のひとつは、到着したデータに継続的に適応可能なアルゴリズムを作成することだ。 しかし、ストリームが時間とともに進化するにつれて、以前に学んだ知識は時代遅れになる可能性がある。 この現象は概念ドリフトと呼ばれ、学習モデルの効率的な適応を容易にするために検出されなければならない。 ドリフト検出器は多数存在するが、いずれも私たちが概ねバランスの取れたクラスを扱っていると仮定している。 不均衡なデータストリームの場合、これらの検出器は多数派クラスに偏り、少数派で起こる変化を無視します。 さらに、クラス不均衡は時間とともに進化し、クラスはその役割を変える(多数派が少数派になり、その逆も)。 これはクラス間の関係が複雑になるマルチクラス設定において特に難しい。 本稿では,マルチクラス不均衡データストリームにおける概念ドリフトによって生じる課題の詳細な分類と,制限ボルツマンマシンに基づく新しい学習可能な概念ドリフト検出器を提案する。 複数のクラスを同時に監視し、レコンストラクションエラーを使用して各クラスの変更を独立して検出することができる。 この検出器はスキュー非感受性損失関数を利用して複数の不均衡分布を処理できる。 訓練可能な性質のため、ストリームの変更と進化するクラスの役割を追従できるだけでなく、マイノリティクラスで発生するローカルな概念のドリフトに対処することができる。 局所的なドリフトの影響と不均衡率の変化を詳細に分析したマルチクラスドリフトデータストリームの大規模実験により,本手法の有効性を確認した。

Continual learning from data streams is among the most important topics in contemporary machine learning. One of the biggest challenges in this domain lies in creating algorithms that can continuously adapt to arriving data. However, previously learned knowledge may become outdated, as streams evolve over time. This phenomenon is known as concept drift and must be detected to facilitate efficient adaptation of the learning model. While there exists a plethora of drift detectors, all of them assume that we are dealing with roughly balanced classes. In the case of imbalanced data streams, those detectors will be biased towards the majority classes, ignoring changes happening in the minority ones. Furthermore, class imbalance may evolve over time and classes may change their roles (majority becoming minority and vice versa). This is especially challenging in the multi-class setting, where relationships among classes become complex. In this paper, we propose a detailed taxonomy of challenges posed by concept drift in multi-class imbalanced data streams, as well as a novel trainable concept drift detector based on Restricted Boltzmann Machine. It is capable of monitoring multiple classes at once and using reconstruction error to detect changes in each of them independently. Our detector utilizes a skew-insensitive loss function that allows it to handle multiple imbalanced distributions. Due to its trainable nature, it is capable of following changes in a stream and evolving class roles, as well as it can deal with local concept drift occurring in minority classes. Extensive experimental study on multi-class drifting data streams, enriched with a detailed analysis of the impact of local drifts and changing imbalance ratios, confirms the high efficacy of our approach.
翻訳日:2021-04-22 14:22:36 公開日:2021-04-20
# ネットワーク防衛はゲームではない

Network Defense is Not a Game ( http://arxiv.org/abs/2104.10262v1 )

ライセンス: Link先を確認
Andres Molina-Markham, Ransom K. Winder, Ahmad Ridley(参考訳) 研究は、人工知能(AI)を人間のオペレーターがネットワークを守る能力を拡大し拡張することを目指している。 成功しているAIアプローチの一般化を妨げる根本的な問題は、人間をゲームで打ち負かすことであり、ネットワーク防御は一定のルールのセットを持つ単一のゲームとして定義できないことである。 我々の立場は、ネットワーク・ディフェンスは不確実でおそらく漂流するルールを持つゲームの集合として特徴づけられる。 そこで,ネットワーク防御タスクをネットワーク環境の分布として定義することを提案する。 (i) 教師なしカリキュラム学習や強化学習などの最新のAI技術をネットワーク防御に適用し, (ii) 自律型サイバー防御のアプローチを比較するために使用可能な,明確に定義された課題の設計を容易にする。 自律的ネットワーク防衛のアプローチが実用的であることを示すためには,その適用可能性の境界を判断することが重要である。 したがって、敵の戦術、技術、手順(TTP)、QoS(Quality of Service)要件、および防衛担当者が利用できるTPをキャプチャするネットワーク防御タスクを定義する必要がある。 さらに、これらのタスクを定義するための抽象化は拡張可能でなければならない;環境の分布を推論できる、明確に定義されたセマンティクスによって支援されなければならない;エージェントが学習できるデータと経験の生成を可能にする必要がある。 我々のアプローチは、自律サイバーディフェンスのためのネットワーク環境設計(Network Environment Design for Autonomous Cyberdefense)という、自律ネットワークディフェンスのための高度な強化学習フレームワークであるFARLANDのアーキテクチャにインスピレーションを与えました。

Research seeks to apply Artificial Intelligence (AI) to scale and extend the capabilities of human operators to defend networks. A fundamental problem that hinders the generalization of successful AI approaches -- i.e., beating humans at playing games -- is that network defense cannot be defined as a single game with a fixed set of rules. Our position is that network defense is better characterized as a collection of games with uncertain and possibly drifting rules. Hence, we propose to define network defense tasks as distributions of network environments, to: (i) enable research to apply modern AI techniques, such as unsupervised curriculum learning and reinforcement learning for network defense; and, (ii) facilitate the design of well-defined challenges that can be used to compare approaches for autonomous cyberdefense. To demonstrate that an approach for autonomous network defense is practical it is important to be able to reason about the boundaries of its applicability. Hence, we need to be able to define network defense tasks that capture sets of adversarial tactics, techniques, and procedures (TTPs); quality of service (QoS) requirements; and TTPs available to defenders. Furthermore, the abstractions to define these tasks must be extensible; must be backed by well-defined semantics that allow us to reason about distributions of environments; and should enable the generation of data and experiences from which an agent can learn. Our approach named Network Environment Design for Autonomous Cyberdefense inspired the architecture of FARLAND, a Framework for Advanced Reinforcement Learning for Autonomous Network Defense, which we use at MITRE to develop RL network defenders that perform blue actions from the MITRE Shield matrix against attackers with TTPs that drift from MITRE ATT&CK TTPs.
翻訳日:2021-04-22 14:19:07 公開日:2021-04-20
# Auto-FedAvg:多施設画像分割のための学習可能なフェデレーション

Auto-FedAvg: Learnable Federated Averaging for Multi-Institutional Medical Image Segmentation ( http://arxiv.org/abs/2104.10195v1 )

ライセンス: Link先を確認
Yingda Xia, Dong Yang, Wenqi Li, Andriy Myronenko, Daguang Xu, Hirofumi Obinata, Hitoshi Mori, Peng An, Stephanie Harmon, Evrim Turkbey, Baris Turkbey, Bradford Wood, Francesca Patella, Elvira Stellato, Gianpaolo Carrafiello, Anna Ierardi, Alan Yuille, Holger Roth(参考訳) 連合学習(英語: federated learning, ffl)は、各参加者のプライバシーを保ちながら、協調的なモデルトレーニングを可能にする。 FedAvgは、FLプロセス中にサーバ上で分散学習されたモデルを集約するために、各クライアントのデータセットサイズに由来する固定重みを使用する標準的なアルゴリズムである。 しかし、FLの非i.d問題として知られるクライアント間での非同一データ分布は、固定集約重みを準最適に設定する前提となる。 本研究では,データサイロ間のデータ分布やモデルの現在のトレーニング進捗に応じて,アグリゲーションの重み付けを動的に調整する,Auto-FedAvgという新しいデータ駆動型アプローチを設計する。 パラメータを局所モデルパラメータとグローバルアグリゲーションパラメータの2つの部分に分割し,通信効率のよいアルゴリズムで反復的に更新する。 まず,cifar-10の異種データ分割による画像認識における最先端fl法の有効性を示す。 さらに,胸部CTのCOVID-19病変分画と腹部CTの膵臓分画という2つの多施設医療画像解析課題に対して,本アルゴリズムの有効性を実証した。

Federated learning (FL) enables collaborative model training while preserving each participant's privacy, which is particularly beneficial to the medical field. FedAvg is a standard algorithm that uses fixed weights, often originating from the dataset sizes at each client, to aggregate the distributed learned models on a server during the FL process. However, non-identical data distribution across clients, known as the non-i.i.d problem in FL, could make this assumption for setting fixed aggregation weights sub-optimal. In this work, we design a new data-driven approach, namely Auto-FedAvg, where aggregation weights are dynamically adjusted, depending on data distributions across data silos and the current training progress of the models. We disentangle the parameter set into two parts, local model parameters and global aggregation parameters, and update them iteratively with a communication-effici ent algorithm. We first show the validity of our approach by outperforming state-of-the-art FL methods for image recognition on a heterogeneous data split of CIFAR-10. Furthermore, we demonstrate our algorithm's effectiveness on two multi-institutional medical image analysis tasks, i.e., COVID-19 lesion segmentation in chest CT and pancreas segmentation in abdominal CT.
翻訳日:2021-04-22 14:18:35 公開日:2021-04-20
# ジョイント不変変分オートエンコーダによる画像データのロバストな特徴偏角:カードから原子へ

Robust Feature Disentanglement in Imaging Data via Joint Invariant Variational Autoencoders: from Cards to Atoms ( http://arxiv.org/abs/2104.10180v1 )

ライセンス: Link先を確認
Maxim Ziatdinov, Sergei Kalinin(参考訳) 光と電波望遠鏡で見える天体から電子とプローブ顕微鏡で解決された原子や分子への画像化の最近の進歩は、原子から天体レベルまでの宇宙の構造に関する情報を含む膨大な画像データを生み出している。 古典的な深層畳み込みニューラルネットワークアーキテクチャは、伝統的に重要な向き付け障害を持つデータセット、すなわち画像平面の任意の方向において同一または類似のオブジェクトのコピーを複数持つ場合において、パフォーマンスが劣る。 同様に、クラスタリング法は離散クラスに分類するのに適しており、多様体学習と変分オートエンコーダ法はデータの表現をアンタングル化することができるが、結合問題は古典的な非教師あり学習パラダイムに不適である。 本稿では,そのような問題の解法に理想的に適している共振型不変変分オートエンコーダ(j-trvae)を導入する。 本手法の性能をいくつかの合成データセットで検証し,電子顕微鏡および走査型プローブ顕微鏡の高分解能イメージングデータに拡張した。 強誘電体や量子系の既知の物理に直結する潜在空間の挙動を示す。 さらに, 付帯トポロジカルな構造や有向グラフ関係による潜在空間構造の工学は, トポロジカルな発見や因果的物理学習に応用できることを示す。

Recent advances in imaging from celestial objects in astronomy visualized via optical and radio telescopes to atoms and molecules resolved via electron and probe microscopes are generating immense volumes of imaging data, containing information about the structure of the universe from atomic to astronomic levels. The classical deep convolutional neural network architectures traditionally perform poorly on the data sets having a significant orientational disorder, that is, having multiple copies of the same or similar object in arbitrary orientation in the image plane. Similarly, while clustering methods are well suited for classification into discrete classes and manifold learning and variational autoencoders methods can disentangle representations of the data, the combined problem is ill-suited to a classical non-supervised learning paradigm. Here we introduce a joint rotationally (and translationally) invariant variational autoencoder (j-trVAE) that is ideally suited to the solution of such a problem. The performance of this method is validated on several synthetic data sets and extended to high-resolution imaging data of electron and scanning probe microscopy. We show that latent space behaviors directly comport to the known physics of ferroelectric materials and quantum systems. We further note that the engineering of the latent space structure via imposed topological structure or directed graph relationship allows for applications in topological discovery and causal physical learning.
翻訳日:2021-04-22 14:15:31 公開日:2021-04-20
# 複数のデータセットからの画像と音声品質予測モデルのバイアス認識損失

Bias-Aware Loss for Training Image and Speech Quality Prediction Models from Multiple Datasets ( http://arxiv.org/abs/2104.10217v1 )

ライセンス: Link先を確認
Gabriel Mittag, Saman Zadtootaghaj, Thilo Michael, Babak Naderi, Sebastian M\"oller(参考訳) 画像、映像、音声品質予測モデルの訓練に用いられる基礎的真実は、主観的実験から得られた平均世論スコア(mos)に基づいている。 通常、機械学習に基づいて品質モデルをトレーニングするのに十分なデータを得るためには、主に異なるテスト参加者で複数の実験を行う必要がある。 これらの実験はそれぞれ実験固有のバイアスを受けており、同じファイルの格付けは2つの実験(例えば)で大きく異なる可能性がある。 全体的な品質分布による)。 同じ歪みレベルのこれらの異なる評価は、トレーニング中にニューラルネットワークを混乱させ、パフォーマンスを低下させる。 そこで本研究では,学習中の各データセットのバイアスを線形関数で推定し,ネットワーク重みを最適化しながら検討するバイアス認識損失関数を提案する。 合成および主観的画像および音声品質データセットにおける品質予測モデルの訓練と検証により,提案手法の有効性を実証する。

The ground truth used for training image, video, or speech quality prediction models is based on the Mean Opinion Scores (MOS) obtained from subjective experiments. Usually, it is necessary to conduct multiple experiments, mostly with different test participants, to obtain enough data to train quality models based on machine learning. Each of these experiments is subject to an experiment-specific bias, where the rating of the same file may be substantially different in two experiments (e.g. depending on the overall quality distribution). These different ratings for the same distortion levels confuse neural networks during training and lead to lower performance. To overcome this problem, we propose a bias-aware loss function that estimates each dataset's biases during training with a linear function and considers it while optimising the network weights. We prove the efficiency of the proposed method by training and validating quality prediction models on synthetic and subjective image and speech quality datasets.
翻訳日:2021-04-22 14:11:37 公開日:2021-04-20
# (参考訳) 変圧器の高効率予習目標 [全文訳有]

Efficient pre-training objectives for Transformers ( http://arxiv.org/abs/2104.09694v1 )

ライセンス: CC BY 4.0
Luca Di Liello, Matteo Gabburo, Alessandro Moschitti(参考訳) Transformerアーキテクチャは自然言語処理を深く変え、これまでの最先端モデルよりも優れていた。 しかし、BERT、RoBERTa、GPT-2のようなよく知られたトランスフォーマーモデルは、高品質な文脈表現を作成するために膨大な計算予算を必要とする。 本稿では,トランスフォーマーモデルのための高効率事前学習目標について検討する。 これらの目的を異なるタスクでテストすることにより、ELECTRAモデルの新機能のどれが最も重要かを決定する。 入力にマスク付きトークンを含まない場合,トランスフォーマーの事前学習が向上し,損失を計算するための出力全体の使用がトレーニング時間を短縮することを確認した。 さらに,electraに触発されて,判別器と単純な生成器という,計算性能に影響を与えない統計モデルに基づく2つのブロックからなるモデルについて検討した。 さらに,MASKトークンを排除し,損失計算における全出力を考慮することが,性能向上に不可欠であることを示す。 さらに,エレクトラのように識別的アプローチを用いて,複雑な生成器を使わずに効率的にbert様モデルを訓練できることを示す。 最後に、ELECTRAは最先端のハイパーパラメーター探索の恩恵が大きいことを示す。

The Transformer architecture deeply changed the natural language processing, outperforming all previous state-of-the-art models. However, well-known Transformer models like BERT, RoBERTa, and GPT-2 require a huge compute budget to create a high quality contextualised representation. In this paper, we study several efficient pre-training objectives for Transformers-based models. By testing these objectives on different tasks, we determine which of the ELECTRA model's new features is the most relevant. We confirm that Transformers pre-training is improved when the input does not contain masked tokens and that the usage of the whole output to compute the loss reduces training time. Moreover, inspired by ELECTRA, we study a model composed of two blocks; a discriminator and a simple generator based on a statistical model with no impact on the computational performances. Besides, we prove that eliminating the MASK token and considering the whole output during the loss computation are essential choices to improve performance. Furthermore, we show that it is possible to efficiently train BERT-like models using a discriminative approach as in ELECTRA but without a complex generator, which is expensive. Finally, we show that ELECTRA benefits heavily from a state-of-the-art hyper-parameters search.
翻訳日:2021-04-22 02:34:27 公開日:2021-04-20
# (参考訳) X-METRA-ADA:自然言語理解と質問応答への言語間メタトランスファー学習適応 [全文訳有]

X-METRA-ADA: Cross-lingual Meta-Transfer Learning Adaptation to Natural Language Understanding and Question Answering ( http://arxiv.org/abs/2104.09696v1 )

ライセンス: CC BY 4.0
Meryem M'hamdi, Doo Soon Kim, Franck Dernoncourt, Trung Bui, Xiang Ren, and Jonathan May(参考訳) M-BERTやXLM-Rのような多言語モデルは、ゼロショットのクロスリンガル変換学習能力によって人気が高まっている。 しかし、それらの一般化能力は、タイポロジー的に多様な言語と異なるベンチマーク間では相容れない。 近年,メタラーニングは,低リソースシナリオ(特に自然言語理解における言語間変換(NLU))において,トランスファーラーニングを向上するための有望な手法として注目されている。 本研究では,NLUのための言語横断型メタトランシュファー学習アプローチであるX-METRA-ADAを提案する。 我々のアプローチは、最適化に基づくメタ学習アプローチであるMAMLに適応し、新しい言語に適応することを学ぶ。 我々は,多言語タスク指向の対話と,類型的に多様な質問応答という,難易度の高い2つのNLUタスクに関する枠組みを広く評価した。 提案手法は難解な微調整に優れており,ほとんどの言語において両タスクの競合性能に到達している。 解析の結果,X-METRA-ADAは限られたデータを利用してより高速な適応が可能であることが判明した。

Multilingual models, such as M-BERT and XLM-R, have gained increasing popularity, due to their zero-shot cross-lingual transfer learning capabilities. However, their generalization ability is still inconsistent for typologically diverse languages and across different benchmarks. Recently, meta-learning has garnered attention as a promising technique for enhancing transfer learning under low-resource scenarios: particularly for cross-lingual transfer in Natural Language Understanding (NLU). In this work, we propose X-METRA-ADA, a cross-lingual MEta-TRAnsfer learning ADAptation approach for NLU. Our approach adapts MAML, an optimization-based meta-learning approach, to learn to adapt to new languages. We extensively evaluate our framework on two challenging cross-lingual NLU tasks: multilingual task-oriented dialog and typologically diverse question answering. We show that our approach outperforms naive fine-tuning, reaching competitive performance on both tasks for most languages. Our analysis reveals that X-METRA-ADA can leverage limited data for faster adaptation.
翻訳日:2021-04-22 02:21:27 公開日:2021-04-20
# (参考訳) 隠れマルコフモデルと長期記憶を用いた株式市場の動向分析 [全文訳有]

Stock Market Trend Analysis Using Hidden Markov Model and Long Short Term Memory ( http://arxiv.org/abs/2104.09700v1 )

ライセンス: CC BY 4.0
Mingwen Liu, Junbang Huo, Yulin Wu, Jinge Wu(参考訳) 本稿では,隠れマルコフモデルを株式市場に適用し,予測を行う。 さらに, GMM-HMM, XGB-HMM, GMM-HMM+LSTM, XGB-HMM+LSTMの4つの改良法について, それぞれ実験結果について考察する。 その後、さまざまなモデルの長所と短所を分析します。 そして最後に、タイミング戦略のために株式市場で使われるのがベストの1つだ。

This paper intends to apply the Hidden Markov Model into stock market and and make predictions. Moreover, four different methods of improvement, which are GMM-HMM, XGB-HMM, GMM-HMM+LSTM and XGB-HMM+LSTM, will be discussed later with the results of experiment respectively. After that we will analyze the pros and cons of different models. And finally, one of the best will be used into stock market for timing strategy.
翻訳日:2021-04-22 02:02:07 公開日:2021-04-20
# (参考訳) 自然言語処理評価における課題と対策 [全文訳有]

Problems and Countermeasures in Natural Language Processing Evaluation ( http://arxiv.org/abs/2104.09712v1 )

ライセンス: CC BY-SA 4.0
Qingxiu Dong, Zhifang Sui, Weidong Zhan and Baobao Chang(参考訳) 自然言語処理ガイドの評価とモデルと手法の研究を促進する。 近年,新たな評価データセットや評価タスクが提案されている。 同時に,既存の評価によって明らかになった問題も,自然言語処理技術の進歩を阻害している。 本稿では, 自然言語評価の概念, 構成, 開発, 意味から, 主流な自然言語評価の課題と課題を分類し, 要約し, その問題と原因を要約する。 最後に,ヒューマン・ランゲージ能力評価基準について言及し,ヒューマン・ライク・マシン言語能力評価の概念を概説するとともに,信頼性,難易度,妥当性の3つの側面から,ヒューマン的マシン言語能力評価の基本原則と実装概念を提案する。

Evaluation in natural language processing guides and promotes research on models and methods. In recent years, new evalua-tion data sets and evaluation tasks have been continuously proposed. At the same time, a series of problems exposed by ex-isting evaluation have also restricted the progress of natural language processing technology. Starting from the concept, com-position, development and meaning of natural language evaluation, this article classifies and summarizes the tasks and char-acteristics of mainstream natural language evaluation, and then summarizes the problems and causes of natural language pro-cessing evaluation. Finally, this article refers to the human language ability evaluation standard, puts forward the concept of human-like machine language ability evaluation, and proposes a series of basic principles and implementation ideas for hu-man-like machine language ability evaluation from the three aspects of reliability, difficulty and validity.
翻訳日:2021-04-22 01:53:20 公開日:2021-04-20
# (参考訳) adaspeech 2: untranscribeed dataを用いた音声への適応テキスト [全文訳有]

AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data ( http://arxiv.org/abs/2104.09715v1 )

ライセンス: CC BY 4.0
Yuzi Yan, Xu Tan, Bohan Li, Tao Qin, Sheng Zhao, Yuan Shen, Tie-Yan Liu(参考訳) テキスト・トゥ・スピーチ(TTS)は、ターゲット話者の個人音声の合成に広く用いられており、十分に訓練されたソースTSモデルは、このターゲット話者のペア適応データ(音声とその転写)をほとんど含まない微調整される。 しかし、多くのシナリオでは、書き起こされていない音声データのみが適応可能であり、以前のTS適応パイプライン(例えばAdaSpeech)に課題をもたらす。 本稿では,書き起こされていない音声データのみを活用した適応型ttsシステムadaspeech 2を開発した。 具体的には、よく訓練されたTSモデルにメルスペクトルエンコーダを導入して音声再構成を行うと同時に、メルスペクトルエンコーダの出力シーケンスを元の音素エンコーダに近いものに制限する。 適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。 AdaSpeech 2 には2つの利点がある: 1) プラガブル: 既存のトレーニング済み TTS モデルにシステムを再トレーニングせずに簡単に適用できる。 2) 実効性: このシステムは, 書き起こしTTS適応(例: AdaSpeech)と同一量の書き起こしデータを用いてオンパー音声品質を達成し, 従来の書き起こしなし適応法よりも優れた音声品質を実現する。 合成音声サンプルはhttps://speechresear ch.github.io/adaspee ch2/で見ることができる。

Text to speech (TTS) is widely used to synthesize personal voice for a target speaker, where a well-trained source TTS model is fine-tuned with few paired adaptation data (speech and its transcripts) on this target speaker. However, in many scenarios, only untranscribed speech data is available for adaptation, which brings challenges to the previous TTS adaptation pipelines (e.g., AdaSpeech). In this paper, we develop AdaSpeech 2, an adaptive TTS system that only leverages untranscribed speech data for adaptation. Specifically, we introduce a mel-spectrogram encoder to a well-trained TTS model to conduct speech reconstruction, and at the same time constrain the output sequence of the mel-spectrogram encoder to be close to that of the original phoneme encoder. In adaptation, we use untranscribed speech data for speech reconstruction and only fine-tune the TTS decoder. AdaSpeech 2 has two advantages: 1) Pluggable: our system can be easily applied to existing trained TTS models without re-training. 2) Effective: our system achieves on-par voice quality with the transcribed TTS adaptation (e.g., AdaSpeech) with the same amount of untranscribed data, and achieves better voice quality than previous untranscribed adaptation methods. Synthesized speech samples can be found at https://speechresear ch.github.io/adaspee ch2/.
翻訳日:2021-04-22 00:32:50 公開日:2021-04-20
# (参考訳) テンポラリドリフトの緩和 - nerモデルを明確にするシンプルなアプローチ [全文訳有]

Mitigating Temporal-Drift: A Simple Approach to Keep NER Models Crisp ( http://arxiv.org/abs/2104.09742v1 )

ライセンス: CC BY 4.0
Shuguang Chen, Leonardo Neves, and Thamar Solorio(参考訳) 名前付きエンティティ認識のためのニューラルモデルのパフォーマンスは時間とともに劣化し、停滞する。 この劣化は、時間とともに対象変数の統計的性質が変化する時間的ドリフトに起因する。 この問題は、トピックが急速に変化するソーシャルメディアデータでは特に問題となる。 この問題を解決するために、モデルのデータアノテーションと再トレーニングが一般的である。 その有用性にもかかわらず、このプロセスは高価で時間がかかり、効率的なモデル更新に関する新しい研究の動機となる。 本稿では,ツイートの潜在的な傾向を測定するための直感的アプローチを提案し,この指標を用いて,学習に使用する最も有意義なインスタンスを選択する。 我々はTemporal Twitter Datasetで3つの最先端モデルの実験を行った。 提案手法は,代替データよりも少ないトレーニングデータで予測精度が向上し,魅力的な実用的なソリューションとなることを示す。

Performance of neural models for named entity recognition degrades over time, becoming stale. This degradation is due to temporal drift, the change in our target variables' statistical properties over time. This issue is especially problematic for social media data, where topics change rapidly. In order to mitigate the problem, data annotation and retraining of models is common. Despite its usefulness, this process is expensive and time-consuming, which motivates new research on efficient model updating. In this paper, we propose an intuitive approach to measure the potential trendiness of tweets and use this metric to select the most informative instances to use for training. We conduct experiments on three state-of-the-art models on the Temporal Twitter Dataset. Our approach shows larger increases in prediction accuracy with less training data than the alternatives, making it an attractive, practical solution.
翻訳日:2021-04-22 00:22:07 公開日:2021-04-20
# (参考訳) 画像の構造を理解するための階層的エントロピーとドメイン相互作用 [全文訳有]

Hierarchical entropy and domain interaction to understand the structure in an image ( http://arxiv.org/abs/2104.09754v1 )

ライセンス: CC BY 4.0
Nao Uehara, Teruaki Hayashi, Yukio Ohsawa(参考訳) 本研究では,情報エントロピーに2つの階層を導入するモデルを提案する。 2つの階層はエントロピーが計算される領域のサイズであり、画像内の構造が統合されているか否かを決定するコンポーネントのサイズである。 このモデルは2つの指標、階層エントロピーとドメイン相互作用を使用する。 どちらの指標も画像内の構造の統合や断片化によって増大または減少する。 画像の構造が、領域とコンポーネントのサイズに応じて変化する2つの指標からどのように見えるかを解釈し、説明することを目的としている。 まず,画像を用いて実験を行い,この2つの指標がどのように変化するかを定性的に評価する。 次に,階層的エントロピーの変化を用いて,真珠イヤリングを持つヴェルメールの少女の隠れ構造との関係を説明する。 最後に,領域間相互作用の変化と画像の適切なセグメント結果との関係を,アンケートによる実験により明らかにした。

In this study, we devise a model that introduces two hierarchies into information entropy. The two hierarchies are the size of the region for which entropy is calculated and the size of the component that determines whether the structures in the image are integrated or not. And this model uses two indicators, hierarchical entropy and domain interaction. Both indicators increase or decrease due to the integration or fragmentation of the structure in the image. It aims to help people interpret and explain what the structure in an image looks like from two indicators that change with the size of the region and the component. First, we conduct experiments using images and qualitatively evaluate how the two indicators change. Next, we explain the relationship with the hidden structure of Vermeer's girl with a pearl earring using the change of hierarchical entropy. Finally, we clarify the relationship between the change of domain interaction and the appropriate segment result of the image by an experiment using a questionnaire.
翻訳日:2021-04-22 00:15:17 公開日:2021-04-20
# (参考訳) Imaginative Walks: 未知の学習表現を改善するための生成ランダムウォーク逸脱 [全文訳有]

Imaginative Walks: Generative Random Walk Deviation Loss for Improved Unseen Learning Representation ( http://arxiv.org/abs/2104.09757v1 )

ライセンス: CC BY 4.0
Mohamed Elhoseiny, Divyansh Jha, Kai Yi, Ivan Skorokhodov(参考訳) 本稿では,未探索の視覚空間の学習表現を改善するために,grawd (generative random walk deviation) と呼ばれる生成モデルに対する新しい損失を提案する。 目立たないクラス(またはスタイル)の品質学習表現は、新しい画像生成を促進し、目立たない視覚クラスのより優れた生成的理解を促進するために不可欠である。 Zero-Shot Learning, ZSL)。 Generative ZSLは、属性やテキストなどのセマンティック記述から目に見えないクラスの表現を生成することで、目に見えないカテゴリを識別することを目的としている。 我々はGRaWDを定義し、クラス/スタイルセンターと現在のミニバッチで生成されたサンプルを含む動的なグラフを構築する。 私たちの喪失は、幻覚のないクラスから生み出された視覚的世代を通じて、各センターからランダムな歩行確率が始まります。 偏差信号として、ランダムウォークは最終的にtステップの後に、見たどのクラスにも分類が難しい特徴表現に着地することを奨励する。 CUBとNABirdsの4つのテキストベースのZSLベンチマークと、AWA2、SUN、aPYの3つの属性ベースのZSLベンチマークにおいて、この損失によりクラス表現の品質が向上することを示す。 また、ウィキアートデータセット上で意味のある新しいビジュアルアート世代を生成できるロスの能力についても検討した。 実験と人体実験により,StyleGAN1とStyleGAN2の生成品質が向上し,新たな芸術作品がより好まれることがわかった。 コードは利用可能になる。

We propose a novel loss for generative models, dubbed as GRaWD (Generative Random Walk Deviation), to improve learning representations of unexplored visual spaces. Quality learning representation of unseen classes (or styles) is crucial to facilitate novel image generation and better generative understanding of unseen visual classes (a.k.a. Zero-Shot Learning, ZSL). By generating representations of unseen classes from their semantic descriptions, such as attributes or text, Generative ZSL aims at identifying unseen categories discriminatively from seen ones. We define GRaWD by constructing a dynamic graph, including the seen class/style centers and generated samples in the current mini-batch. Our loss starts a random walk probability from each center through visual generations produced from hallucinated unseen classes. As a deviation signal, we encourage the random walk to eventually land after t steps in a feature representation that is hard to classify to any of the seen classes. We show that our loss can improve unseen class representation quality on four text-based ZSL benchmarks on CUB and NABirds datasets and three attribute-based ZSL benchmarks on AWA2, SUN, and aPY datasets. We also study our loss's ability to produce meaningful novel visual art generations on WikiArt dataset. Our experiments and human studies show that our loss can improve StyleGAN1 and StyleGAN2 generation quality, creating novel art that is significantly more preferred. Code will be made available.
翻訳日:2021-04-22 00:05:54 公開日:2021-04-20
# (参考訳) 教師なし誤り推定を用いた弱教師付きテキスト分類のためのシードワード選択 [全文訳有]

Seed Word Selection for Weakly-Supervised Text Classification with Unsupervised Error Estimation ( http://arxiv.org/abs/2104.09765v1 )

ライセンス: CC BY 4.0
Yiping Jin, Akshay Bhatia, Dittaya Wanvarie(参考訳) 弱い教師付きテキスト分類は、少数のユーザーが提供するシード単語からテキスト分類を誘導することを目的としている。 以前の作品の大多数は、高品質のシード語が与えられると仮定している。 しかし、専門家がアノテートしたシードワードを思いつくのは簡単ではない。 さらに, 弱教師付き学習設定では, 種単語の有効性を計測するためのラベル付き文書は存在せず, 種単語選択過程を"a walk in the dark"とした。 本研究では,カテゴリー名に関連付けられた候補種単語を最初にマイニングすることで,専門家による種単語の抽出の必要性を解消する。 次に、個々の候補種単語で中間モデルを訓練する。 最後に,中間モデルの誤差率を教師なしで推定する。 最終シードワードセットには、最小推定誤差率となるシードワードが加算される。 4つの一般的なデータセットに対する6つのバイナリ分類タスクの総合評価により,提案手法はカテゴリ名シードワードのみを用いてベースラインを上回り,専門家注釈付きシードワードと同等の性能を得た。

Weakly-supervised text classification aims to induce text classifiers from only a few user-provided seed words. The vast majority of previous work assumes high-quality seed words are given. However, the expert-annotated seed words are sometimes non-trivial to come up with. Furthermore, in the weakly-supervised learning setting, we do not have any labeled document to measure the seed words' efficacy, making the seed word selection process "a walk in the dark". In this work, we remove the need for expert-curated seed words by first mining (noisy) candidate seed words associated with the category names. We then train interim models with individual candidate seed words. Lastly, we estimate the interim models' error rate in an unsupervised manner. The seed words that yield the lowest estimated error rates are added to the final seed word set. A comprehensive evaluation of six binary classification tasks on four popular datasets demonstrates that the proposed method outperforms a baseline using only category name seed words and obtained comparable performance as a counterpart using expert-annotated seed words.
翻訳日:2021-04-21 23:48:57 公開日:2021-04-20
# (参考訳) m2tr: ディープフェイク検出用マルチモーダルマルチスケールトランス [全文訳有]

M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection ( http://arxiv.org/abs/2104.09770v1 )

ライセンス: CC BY 4.0
Junke Wang, Zuxuan Wu, Jingjing Chen, and Yu-Gang Jiang(参考訳) ディープフェイク技術が生み出した偽画像の普及は、デジタル情報の信頼性に深刻な脅威をもたらしている。 これにより、高度な操作技術によって生じる知覚的に説得力のあるディープフェイクを検出する効果的なアプローチが要求される。 既存のアプローチのほとんどは、入力画像を異なるピクセル間の一貫性を捉えることなくバイナリ予測にマッピングすることで、ディープニューラルネットワークによるディープフェイクと戦う。 本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。 我々は近年,コンピュータビジョンにおける様々な認識タスクに対する画素間の依存関係のモデリングにおいて,優れた性能を示すトランスフォーマーモデルでこれを実現する。 特に,M2TR(Multi-modal Multi-scale TRansformer)を導入し,異なる大きさのパッチで動作するマルチスケールトランスフォーマーを用いて局所的不整合を異なる空間レベルで検出する。 検出結果を改善し,画像圧縮に対するロバスト性を高めるため,m2trは,クロスモダリティ融合モジュールを用いたrgb機能と組み合わせた周波数情報も取得する。 Deepfake検出手法の開発と評価には大規模なデータセットが必要である。 しかし、既存のベンチマークのサンプルには深刻なアーティファクトが含まれ、多様性が欠如している。 これは、最先端の顔交換と顔の再現によって生成される4000のDeepFakeビデオからなる高品質なDeepFakeデータセットSR-DFの導入を動機付けています。 3つのDeepfakeデータセットにおいて,提案手法の有効性を検証するための実験を行った。

The widespread dissemination of forged images generated by Deepfake techniques has posed a serious threat to the trustworthiness of digital information. This demands effective approaches that can detect perceptually convincing Deepfakes generated by advanced manipulation techniques. Most existing approaches combat Deepfakes with deep neural networks by mapping the input image to a binary prediction without capturing the consistency among different pixels. In this paper, we aim to capture the subtle manipulation artifacts at different scales for Deepfake detection. We achieve this with transformer models, which have recently demonstrated superior performance in modeling dependencies between pixels for a variety of recognition tasks in computer vision. In particular, we introduce a Multi-modal Multi-scale TRansformer (M2TR), which uses a multi-scale transformer that operates on patches of different sizes to detect the local inconsistency at different spatial levels. To improve the detection results and enhance the robustness of our method to image compression, M2TR also takes frequency information, which is further combined with RGB features using a cross modality fusion module. Developing and evaluating Deepfake detection methods requires large-scale datasets. However, we observe that samples in existing benchmarks contain severe artifacts and lack diversity. This motivates us to introduce a high-quality Deepfake dataset, SR-DF, which consists of 4,000 DeepFake videos generated by state-of-the-art face swapping and facial reenactment methods. On three Deepfake datasets, we conduct extensive experiments to verify the effectiveness of the proposed method, which outperforms state-of-the-art Deepfake detection methods.
翻訳日:2021-04-21 23:39:57 公開日:2021-04-20
# (参考訳) GLiDE:Centroidal Modelを用いた異種環境における一般化可能な四足歩行 [全文訳有]

GLiDE: Generalizable Quadrupedal Locomotion in Diverse Environments with a Centroidal Model ( http://arxiv.org/abs/2104.09771v1 )

ライセンス: CC BY 4.0
Zhaoming Xie, Xingye Da, Buck Babich, Animesh Garg, Michiel van de Panne(参考訳) 足歩行のためのモデルフリー強化学習(RL)は、通常、ロボットのあらゆる自由度の振る舞いを正確に予測できる物理シミュレータに依存している。 対照的に、近似還元次モデルは、多くのモデルベースの制御戦略に十分であることが多い。 本研究では,RLを中心運動モデルで効果的に利用して,四足歩行に対するロバストな制御ポリシを生成する方法について検討する。 フルオーダーモデルによるRLよりも優れているのは、単純な報酬構造、計算コストの削減、堅牢なsim-to-real転送である。 さらに,ステップストーン移動,2本足内バランス,バランスビーム移動,シム・トゥ・リアル移動を,さらに適応することなく示すことにより,その可能性を示す。

Model-free reinforcement learning (RL) for legged locomotion commonly relies on a physics simulator that can accurately predict the behaviors of every degree of freedom of the robot. In contrast, approximate reduced-order models are often sufficient for many model-based control strategies. In this work we explore how RL can be effectively used with a centroidal model to generate robust control policies for quadrupedal locomotion. Advantages over RL with a full-order model include a simple reward structure, reduced computational costs, and robust sim-to-real transfer. We further show the potential of the method by demonstrating stepping-stone locomotion, two-legged in-place balance, balance beam locomotion, and sim-to-real transfer without further adaptations.
翻訳日:2021-04-21 23:21:45 公開日:2021-04-20
# (参考訳) 包括的深層学習言語モデルを用いたテキストからの文抽出 [全文訳有]

Subsentence Extraction from Text Using Coverage-Based Deep Learning Language Models ( http://arxiv.org/abs/2104.09777v1 )

ライセンス: CC BY 4.0
JongYoon Lim, Inkyu Sa, Ho Seok Ahn, Norina Gasteiger, Sanghyub John Lee, Bruce MacDonald(参考訳) 感覚予測は、心理学、神経科学、コンピュータ科学を含む様々な研究分野において、困難で未解決の課題である。 これは、その高い主観性と実際の感情を効果的に捉えることのできる限られた入力源に由来する。 テキストベースの入力だけでは、これはさらに難しくなります。 一方、ディープラーニングの台頭と前例のない大量のデータによって、人工知能が驚くほど正確な予測や人間レベルの推論を行う方法が整っている。 そこで本稿では,入力テキストのスパンを推定し,その情報をネットワークに再帰的にフィードバックする,カバレッジに基づく感情とサブ文抽出システムを提案する。 予測サブ文は、感情を表す補助情報からなる。 本論文は,テキスト要約やQ&Aなどの自然言語処理タスクにおいて,鮮明かつエピックな感情配信を可能にする重要なビルディングブロックである。 提案手法は, 最先端の手法よりも, サブセンテンス予測において大きなマージン(平均jaccardスコアが 0.72 から 0.89 まで)を上回っている。 評価のために24のアブレーション実験からなる厳密な実験を考案した。 最後に,本論文で提示した結果を再現可能なソフトウェアパッケージと公開データセットを共有することで,学習した教訓をコミュニティに返却する。

Sentiment prediction remains a challenging and unresolved task in various research fields, including psychology, neuroscience, and computer science. This stems from its high degree of subjectivity and limited input sources that can effectively capture the actual sentiment. This can be even more challenging with only text-based input. Meanwhile, the rise of deep learning and an unprecedented large volume of data have paved the way for artificial intelligence to perform impressively accurate predictions or even human-level reasoning. Drawing inspiration from this, we propose a coverage-based sentiment and subsentence extraction system that estimates a span of input text and recursively feeds this information back to the networks. The predicted subsentence consists of auxiliary information expressing a sentiment. This is an important building block for enabling vivid and epic sentiment delivery (within the scope of this paper) and for other natural language processing tasks such as text summarisation and Q&A. Our approach outperforms the state-of-the-art approaches by a large margin in subsentence prediction (i.e., Average Jaccard scores from 0.72 to 0.89). For the evaluation, we designed rigorous experiments consisting of 24 ablation studies. Finally, our learned lessons are returned to the community by sharing software packages and a public dataset that can reproduce the results presented in this paper.
翻訳日:2021-04-21 23:01:11 公開日:2021-04-20
# (参考訳) 形状バイアスの強化は、ニューラルネットワークの堅牢性を改善するか? [全文訳有]

Does enhanced shape bias improve neural network robustness to common corruptions? ( http://arxiv.org/abs/2104.09789v1 )

ライセンス: CC BY-SA 4.0
Chaithanya Kumar Mummadi, Ranjitha Subramaniam, Robin Hutmacher, Julien Vitay, Volker Fischer, Jan Hendrik Metzen(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像認識タスクを解決するために、オブジェクトの形状やテクスチャなどの複雑な特徴の表現を抽出することを学ぶ。 近年の研究では、imagenetでトレーニングされたcnnはテクスチャをエンコードする機能に偏っており、これらはトレーニングデータと同じ分布から取得したテストデータを一般化するのに十分であるが、分散データへの一般化に失敗することがしばしばある。 異なる画像スタイルでトレーニングデータを増強すると、このテクスチャバイアスが減少し、形状バイアスが増大する一方、ノイズやぼやけなどの一般的な汚損に対する堅牢性が向上することが示されている。 一般的にこれは、腐敗の堅牢性を高める形バイアスとして解釈される。 しかし、この関係は仮定に過ぎなかった。 自然画像や明示的なエッジ情報,スタイライゼーションに基づいて,入力を構成するさまざまな方法に関する体系的な研究を行う。 高汚損性を達成するためにはスタイリゼーションが不可欠であるが, 形状バイアスとロバスト性との間に明確な相関関係は見つからない。 形態変化によるデータ増大は, 腐敗の堅牢性の向上と形状バイアスの増大は副産物に過ぎないと結論づける。

Convolutional neural networks (CNNs) learn to extract representations of complex features, such as object shapes and textures to solve image recognition tasks. Recent work indicates that CNNs trained on ImageNet are biased towards features that encode textures and that these alone are sufficient to generalize to unseen test data from the same distribution as the training data but often fail to generalize to out-of-distribution data. It has been shown that augmenting the training data with different image styles decreases this texture bias in favor of increased shape bias while at the same time improving robustness to common corruptions, such as noise and blur. Commonly, this is interpreted as shape bias increasing corruption robustness. However, this relationship is only hypothesized. We perform a systematic study of different ways of composing inputs based on natural images, explicit edge information, and stylization. While stylization is essential for achieving high corruption robustness, we do not find a clear correlation between shape bias and robustness. We conclude that the data augmentation caused by style-variation accounts for the improved corruption robustness and increased shape bias is only a byproduct.
翻訳日:2021-04-21 22:40:19 公開日:2021-04-20
# (参考訳) 製品レビューにおける有用な文の特定 [全文訳有]

Identifying Helpful Sentences in Product Reviews ( http://arxiv.org/abs/2104.09792v1 )

ライセンス: CC BY 4.0
Iftah Gamzu, Hila Gonen, Gilad Kutiel, Ran Levy, Eugene Agichtein(参考訳) 近年、オンラインショッピングは勢いを増し、時間を節約し、買い物プロセスを簡素化したい顧客にとって重要な場所となっている。 オンラインショッピングの大きな利点は、他の顧客が関心のある製品について言っていることを読むことだ。 本研究は,例えば音声による買い物などにおいて,極端な簡潔さを必要とする状況において,この優位性を維持することを目的としている。 提案手法では,ある製品に対する評価のセットから,一つの代表的助詞を抽出する新しいタスクを提案する。 選択された文は2つの条件を満たすべきである: 第一に、購入決定に役立ち、第二に、表現した意見は複数のレビュアーによって支持されるべきである。 このタスクは、製品レビュードメインにおけるマルチドキュメント要約のタスクと密接に関連しているが、目的と簡潔さのレベルが異なる。 日本語の文助力スコアのデータセットをクラウドソーシングで収集し,本質的な主観性にも拘わらず信頼性を示す。 次に,製品に対する肯定的および否定的感情を持つ代表的有益文を抽出し,複数のベースラインを上回ることを示すモデルについて述べる。

In recent years online shopping has gained momentum and became an important venue for customers wishing to save time and simplify their shopping process. A key advantage of shopping online is the ability to read what other customers are saying about products of interest. In this work, we aim to maintain this advantage in situations where extreme brevity is needed, for example, when shopping by voice. We suggest a novel task of extracting a single representative helpful sentence from a set of reviews for a given product. The selected sentence should meet two conditions: first, it should be helpful for a purchase decision and second, the opinion it expresses should be supported by multiple reviewers. This task is closely related to the task of Multi Document Summarization in the product reviews domain but differs in its objective and its level of conciseness. We collect a dataset in English of sentence helpfulness scores via crowd-sourcing and demonstrate its reliability despite the inherent subjectivity involved. Next, we describe a complete model that extracts representative helpful sentences with positive and negative sentiment towards the product and demonstrate that it outperforms several baselines.
翻訳日:2021-04-21 22:22:19 公開日:2021-04-20
# (参考訳) 1クラス異常検出で何が問題か? [全文訳有]

What is Wrong with One-Class Anomaly Detection? ( http://arxiv.org/abs/2104.09793v1 )

ライセンス: CC BY 4.0
JuneKyu Park, Jeong-Hyeon Moon, Namhyuk Ahn and Kyung-Ah Sohn(参考訳) 安全性の観点からは、現実のアプリケーションに埋め込まれた機械学習手法は、不規則な状況を区別するために必要である。 このため、異常検出(AD)タスクへの関心が高まっている。 多くの症例で異常サンプルは観察できないため,最近のAD法では,サンプルが正常かどうかを分類する作業として定式化しようとしている。 しかし、与えられた通常のサンプルが多様なセマンティックラベルから受け継がれると失敗する可能性がある。 この問題に対処するために,クラス条件に基づくADシナリオを導入する。 また,提案シナリオに合わせた信頼性に基づく自己ラベル型ADフレームワークを提案する。 本手法は,隠されたクラス情報を活用するため,一級メソッドが抱える望ましくないゆるい決定領域の生成を回避できる。 提案するフレームワークは,近年の潜在マルチクラスシナリオにおいて,一級ADメソッドよりも優れている。

From a safety perspective, a machine learning method embedded in real-world applications is required to distinguish irregular situations. For this reason, there has been a growing interest in the anomaly detection (AD) task. Since we cannot observe abnormal samples for most of the cases, recent AD methods attempt to formulate it as a task of classifying whether the sample is normal or not. However, they potentially fail when the given normal samples are inherited from diverse semantic labels. To tackle this problem, we introduce a latent class-condition-base d AD scenario. In addition, we propose a confidence-based self-labeling AD framework tailored to our proposed scenario. Since our method leverages the hidden class information, it successfully avoids generating the undesirable loose decision region that one-class methods suffer. Our proposed framework outperforms the recent one-class AD methods in the latent multi-class scenarios.
翻訳日:2021-04-21 22:07:07 公開日:2021-04-20
# (参考訳) CoDR: CNNアクセラレータを意識した計算とデータ再利用 [全文訳有]

CoDR: Computation and Data Reuse Aware CNN Accelerator ( http://arxiv.org/abs/2104.09798v1 )

ライセンス: CC BY 4.0
Alireza Khadem, Haojie Ye, Trevor Mudge(参考訳) 計算とデータの再利用は、リソース制限畳み込みニューラルネットワーク(cnn)アクセラレータにとって重要である。 本稿では,畳み込み層内での重み付け,繰り返し,類似性を同時に活用するためのユニバーサル計算再利用法を提案する。 さらに、CoDRは、カスタマイズしたRun-Length Encodingスキームを提案し、入力および出力定常データフローを導入して中間結果へのメモリアクセス数を減少させる。 最近の2つの圧縮CNN加速器の面積が2.85mm^2であるのに対し、CoDRはSRAMアクセスを5.08xと7.99xに減らし、エネルギーを3.76xと6.84xに減らした。

Computation and Data Reuse is critical for the resource-limited Convolutional Neural Network (CNN) accelerators. This paper presents Universal Computation Reuse to exploit weight sparsity, repetition, and similarity simultaneously in a convolutional layer. Moreover, CoDR decreases the cost of weight memory access by proposing a customized Run-Length Encoding scheme and the number of memory accesses to the intermediate results by introducing an input and output stationary dataflow. Compared to two recent compressed CNN accelerators with the same area of 2.85 mm^2, CoDR decreases SRAM access by 5.08x and 7.99x, and consumes 3.76x and 6.84x less energy.
翻訳日:2021-04-21 21:57:31 公開日:2021-04-20
# (参考訳) ハイパースペクトルイメージングとディープラーニングによる果実の熟度測定 [全文訳有]

Measuring the Ripeness of Fruit with Hyperspectral Imaging and Deep Learning ( http://arxiv.org/abs/2104.09808v1 )

ライセンス: CC BY-SA 4.0
Leon Amadeus Varga, Jan Makowski and Andreas Zell(参考訳) 本稿では,ハイパースペクトルカメラと適切なディープニューラルネットワークアーキテクチャを用いて果実の熟度を測定するシステムを提案する。 このアーキテクチャは果実の熟度状態の予測において競争ベースラインモデルより優れていた。 そのために我々は、熟成するアボカドとキウイのデータセットを記録し、それを公開しました。 また,他の果実への適応が容易であるように,データ収集のプロセスについても述べる。 訓練されたネットワークは実証的に検証され、訓練された特徴を調べる。 さらに, 熟成過程を可視化する技術を導入する。

We present a system to measure the ripeness of fruit with a hyperspectral camera and a suitable deep neural network architecture. This architecture did outperform competitive baseline models on the prediction of the ripeness state of fruit. For this, we recorded a data set of ripening avocados and kiwis, which we make public. We also describe the process of data collection in a manner that the adaption for other fruit is easy. The trained network is validated empirically, and we investigate the trained features. Furthermore, a technique is introduced to visualize the ripening process.
翻訳日:2021-04-21 21:43:20 公開日:2021-04-20
# (参考訳) 入力摂動におけるNMTの脆弱性への対処 [全文訳有]

Addressing the Vulnerability of NMT in Input Perturbations ( http://arxiv.org/abs/2104.09810v1 )

ライセンス: CC BY 4.0
Weiwen Xu, Ai Ti Aw, Yang Ding, Kui Wu, Shafiq Joty(参考訳) Neural Machine Translation (NMT)は、パフォーマンスにおいて大きなブレークスルーを達成したが、入力摂動の脆弱性が知られている。 実際の入力ノイズはトレーニング中の予測が難しいため、システムのデプロイメントでは堅牢性が大きな問題になります。 本稿では,コンテキストエンハンスド・リコンストラクション(cer)アプローチによる雑音単語の影響を低減し,nmtモデルのロバスト性を向上させる。 cerは、(1)入力シーケンスの自然な性質をメークアップワードで破る摂動ステップ、(2)より良くロバストなコンテクスト表現を生成してノイズ伝搬を防御する再構築ステップの2段階のノイズに抵抗するようにモデルを訓練する。 中国語-英語(ZH-EN)とフランス語-英語(FR-EN)の翻訳タスクの実験結果から,ニューステキストとソーシャルメディアテキストの両方において堅牢性の向上が示された。 ソーシャルメディアテキストにおけるさらなる微調整実験は,より高い位置に収束し,より良い適応を提供することができることを示す。

Neural Machine Translation (NMT) has achieved significant breakthrough in performance but is known to suffer vulnerability to input perturbations. As real input noise is difficult to predict during training, robustness is a big issue for system deployment. In this paper, we improve the robustness of NMT models by reducing the effect of noisy words through a Context-Enhanced Reconstruction (CER) approach. CER trains the model to resist noise in two steps: (1) perturbation step that breaks the naturalness of input sequence with made-up words; (2) reconstruction step that defends the noise propagation by generating better and more robust contextual representation. Experimental results on Chinese-English (ZH-EN) and French-English (FR-EN) translation tasks demonstrate robustness improvement on both news and social media text. Further fine-tuning experiments on social media text show our approach can converge at a higher position and provide a better adaptation.
翻訳日:2021-04-21 21:32:39 公開日:2021-04-20
# (参考訳) 長期記憶ネットワークを用いたJSEトップ40の予測 [全文訳有]

Forecasting The JSE Top 40 Using Long Short-Term Memory Networks ( http://arxiv.org/abs/2104.09855v1 )

ライセンス: CC BY 4.0
Adam Balusik, Jared de Magalhaes and Rendani Mbuvha(参考訳) ビッグデータの高可用性とコストの低減と現代のコンピューティングのパワーの増大により、金融時系列予測における人工ニューラルネットワークの利用は、金融業界における議論と研究の主要なトピックとなった。 このような学術的な注目にもかかわらず、ニューラルネットワークが最高の性能を発揮し、従来の時系列モデルの予測能力を上回るかどうかについて、いまだに対照的な意見や文献がある。 本稿では、長期記憶ネットワークを用いて、JSEトップ40インデックスのリターンデータに基づいて財務時系列予測を行う。 さらに,長期記憶ネットワークの予測性能を,季節的自己回帰統合移動平均モデルの予測性能と比較した。 本稿では,既存の文献に提示される様々なアプローチを評価し,その結果を既存の文献と比較する。 本研究は,長期記憶ネットワークが日内方向の予測や指数クローズド価格の予測において,季節自己回帰統合移動平均モデルより優れていることを結論する。

As a result of the greater availability of big data, as well as the decreasing costs and increasing power of modern computing, the use of artificial neural networks for financial time series forecasting is once again a major topic of discussion and research in the financial world. Despite this academic focus, there are still contrasting opinions and bodies of literature on which artificial neural networks perform the best and whether or not they outperform the forecasting capabilities of conventional time series models. This paper uses a long-short term memory network to perform financial time series forecasting on the return data of the JSE Top 40 index. Furthermore, the forecasting performance of the long-short term memory network is compared to the forecasting performance of a seasonal autoregressive integrated moving average model. This paper evaluates the varying approaches presented in the existing literature and ultimately, compares the results to that existing literature. The paper concludes that the long short-term memory network outperforms the seasonal autoregressive integrated moving average model when forecasting intraday directional movements as well as when forecasting the index close price.
翻訳日:2021-04-21 21:19:33 公開日:2021-04-20
# (参考訳) グラフレベル表現学習のための置換不変変分オートエンコーダ [全文訳有]

Permutation-Invarian t Variational Autoencoder for Graph-Level Representation Learning ( http://arxiv.org/abs/2104.09856v1 )

ライセンス: CC BY 4.0
Robin Winter, Frank No\'e, Djork-Arn\'e Clevert(参考訳) 近年,グラフ構造化データにディープニューラルネットワークを適用することに成功している。 しかし、ほとんどの研究はノードレベルまたはグラフレベルの教師あり学習(例えば、ノード、リンク、グラフ分類、ノードレベルの教師なし学習)に焦点を当てている。 ノードのクラスタリング)。 幅広い応用例があるが、グラフレベルの教師なし学習はまだあまり注目されていない。 これは主に、n!で表せるグラフの高表現の複雑さに起因しているかもしれない。 等価隣接行列 n はノード数である。 本研究では,グラフ構造化データに対する置換不変変分オートエンコーダを提案することでこの問題に対処する。 提案モデルは,特定のノードの順序付けや高価なグラフマッチングを行うことなく,入出力グラフのノード順序を間接的に学習する。 提案手法がグラフ再構成および生成タスクに与える影響を実証し,下流グラフレベルの分類と回帰のための抽出表現の表現力を評価する。

Recently, there has been great success in applying deep neural networks on graph structured data. Most work, however, focuses on either node- or graph-level supervised learning, such as node, link or graph classification or node-level unsupervised learning (e.g. node clustering). Despite its wide range of possible applications, graph-level unsupervised learning has not received much attention yet. This might be mainly attributed to the high representation complexity of graphs, which can be represented by n! equivalent adjacency matrices, where n is the number of nodes. In this work we address this issue by proposing a permutation-invarian t variational autoencoder for graph structured data. Our proposed model indirectly learns to match the node ordering of input and output graph, without imposing a particular node ordering or performing expensive graph matching. We demonstrate the effectiveness of our proposed model on various graph reconstruction and generation tasks and evaluate the expressive power of extracted representations for downstream graph-level classification and regression.
翻訳日:2021-04-21 21:07:33 公開日:2021-04-20
# (参考訳) goの蒸留: 自己監督学習におけるオンライン知識蒸留 [全文訳有]

Distill on the Go: Online knowledge distillation in self-supervised learning ( http://arxiv.org/abs/2104.09866v1 )

ライセンス: CC BY 4.0
Prashant Bhat, Elahe Arani, and Bahram Zonooz(参考訳) 自己教師付き学習は、特徴表現を学ぶのにアノテーションを必要としないプレテキスト予測タスクを解決する。 視覚タスクでは、入力データから回転の予測やジグソーの解法などのプレテキストタスクが生成される。 しかし、この既知の情報を予測することは、下流タスクに役立つ表現を学ぶのに役立つ。 しかし、近年の研究では、より広範で深いモデルは、より小さなモデルよりも自己監督学習の恩恵を受けることが示された。 小型モデルの自己教師型事前学習の問題に対処するため,単段階オンライン知識蒸留を用いた自己教師型学習パラダイムであるDistill-on-the-Go(Do Go)を提案する。 2つのモデルが互いに協調して学習し,相互改善を図る,深い相互学習戦略を採用している。 具体的には、各モデルの類似度スコアのソフトマックス確率をピアモデルと一致させる蒸留とともに、自己教師付き学習を用いて各モデルを訓練する。 提案手法の可能性を実証するために,複数のベンチマークデータセット,学習目標,アーキテクチャについて広範な実験を行った。 以上の結果から,ノイズラベルや制限ラベルの存在,分散データへの一般化などにおいて,高い性能向上が得られた。

Self-supervised learning solves pretext prediction tasks that do not require annotations to learn feature representations. For vision tasks, pretext tasks such as predicting rotation, solving jigsaw are solely created from the input data. Yet, predicting this known information helps in learning representations useful for downstream tasks. However, recent works have shown that wider and deeper models benefit more from self-supervised learning than smaller models. To address the issue of self-supervised pre-training of smaller models, we propose Distill-on-the-Go (DoGo), a self-supervised learning paradigm using single-stage online knowledge distillation to improve the representation quality of the smaller models. We employ deep mutual learning strategy in which two models collaboratively learn from each other to improve one another. Specifically, each model is trained using self-supervised learning along with distillation that aligns each model's softmax probabilities of similarity scores with that of the peer model. We conduct extensive experiments on multiple benchmark datasets, learning objectives, and architectures to demonstrate the potential of our proposed method. Our results show significant performance gain in the presence of noisy and limited labels and generalization to out-of-distribution data.
翻訳日:2021-04-21 20:50:50 公開日:2021-04-20
# (参考訳) 360$^{\circ}$パノラマステレオによる照明・反射・幾何推定 [全文訳有]

Lighting, Reflectance and Geometry Estimation from 360$^{\circ}$ Panoramic Stereo ( http://arxiv.org/abs/2104.09886v1 )

ライセンス: CC BY 4.0
Junxuan Li, Hongdong Li and Yasuyuki Matsushita(参考訳) 本研究では,360$^{\circ}$ステレオ画像から高精細な空間変動照明,反射率およびシーンの形状を推定する手法を提案する。 我々のモデルは360$^{\circ}$入力を利用して、幾何学的詳細でシーン全体を観察し、物理的制約でシーンの特性を共同で推定する。 まず,現場内の任意の3d位置の照明を予測するため,近距離環境光を再構成する。 次に,ステレオ情報を利用して反射率と表面の正常さを推定する深層学習モデルを提案する。 最後に,照明と幾何学の間の物理的制約を取り入れ,シーンの反射率を洗練する。 定量的・定性的な実験から、360$^{\circ}$の観察結果から、従来の最先端の手法よりも優れており、ミラーオブジェクト挿入のようなより拡張現実な応用が可能となる。

We propose a method for estimating high-definition spatially-varying lighting, reflectance, and geometry of a scene from 360$^{\circ}$ stereo images. Our model takes advantage of the 360$^{\circ}$ input to observe the entire scene with geometric detail, then jointly estimates the scene's properties with physical constraints. We first reconstruct a near-field environment light for predicting the lighting at any 3D location within the scene. Then we present a deep learning model that leverages the stereo information to infer the reflectance and surface normal. Lastly, we incorporate the physical constraints between lighting and geometry to refine the reflectance of the scene. Both quantitative and qualitative experiments show that our method, benefiting from the 360$^{\circ}$ observation of the scene, outperforms prior state-of-the-art methods and enables more augmented reality applications such as mirror-objects insertion.
翻訳日:2021-04-21 20:36:51 公開日:2021-04-20
# (参考訳) 明示的パッチ前処理を用いた画像復元のための後方サンプリング [全文訳有]

Posterior Sampling for Image Restoration using Explicit Patch Priors ( http://arxiv.org/abs/2104.09895v1 )

ライセンス: CC BY 4.0
Roy Friedman, Yair Weiss(参考訳) 画像復元手法のほとんど全ては平均二乗誤差(MSE)を最適化することに基づいているが、MSEの最も良い推定値が、与えられた雑音画像に対して多くの妥当な復元があるという事実から、非常に非定型な画像が得られることが知られている。 本稿では,自然画像のパッチに対する明示的な事前設定を組み合わせることにより,劣化画像が与えられた全画像の後方確率からサンプル化する方法を示す。 このアルゴリズムは,従来のパッチベースアプローチで最小化されたコスト関数である$p(x|y) \propto \exp(-e(x|y))$ where $e(x|y)$ から正しいサンプルを生成することが証明される。 MAP や MMSE を用いて単一修復を計算した従来の手法とは異なり,本手法では復元画像における不確実性を明確化し,復元画像のすべてのパッチが以前のパッチに対して典型的であることを保証している。 固定サイズの画像で暗黙の事前設定を用いた従来のアプローチとは異なり、任意のサイズの画像で使用することが可能である。 実験の結果,パッチプライオリティを用いた後方サンプリングは,画像復元の課題範囲において,高い知覚品質と高psnrのイメージを生じさせることがわかった。

Almost all existing methods for image restoration are based on optimizing the mean squared error (MSE), even though it is known that the best estimate in terms of MSE may yield a highly atypical image due to the fact that there are many plausible restorations for a given noisy image. In this paper, we show how to combine explicit priors on patches of natural images in order to sample from the posterior probability of a full image given a degraded image. We prove that our algorithm generates correct samples from the distribution $p(x|y) \propto \exp(-E(x|y))$ where $E(x|y)$ is the cost function minimized in previous patch-based approaches that compute a single restoration. Unlike previous approaches that computed a single restoration using MAP or MMSE, our method makes explicit the uncertainty in the restored images and guarantees that all patches in the restored images will be typical given the patch prior. Unlike previous approaches that used implicit priors on fixed-size images, our approach can be used with images of any size. Our experimental results show that posterior sampling using patch priors yields images of high perceptual quality and high PSNR on a range of challenging image restoration problems.
翻訳日:2021-04-21 20:24:37 公開日:2021-04-20
# (参考訳) crossatnet - スケッチに基づく画像検索のための新しいクロスアテンションベースフレームワーク [全文訳有]

CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based Image Retrieval ( http://arxiv.org/abs/2104.09918v1 )

ライセンス: CC BY 4.0
Ushasi Chaudhuri, Biplab Banerjee, Avik Bhattacharya, Mihai Datcu(参考訳) スケッチベース画像検索(SBIR)の文脈において,クロスモーダルゼロショット学習(ZSL)のための新しいフレームワークを提案する。 従来、SBIRスキーマは2つの画像ビューとセマンティック側情報の同時マッピングを主に検討していた。 したがって、特にスケッチ領域における細粒度クラスを、高度に識別的かつ意味的にリッチな特徴空間を用いて考慮することが望ましい。 しかし、既存の深層モデルに基づくSBIRアプローチは、疑似未知のサンプルを生成することによって、見かけと見えないクラスのギャップを埋めることに重点を置いている。 また、ZSLプロトコルをトレーニング中に見知らぬクラス情報を利用しないことで違反することは、共有空間の識別特性をモデル化することに明確な注意を払わない。 また、スケッチとカラー画像の領域差を考えると、マルチビューの視覚データの両方に統一的な特徴空間を学習するのは面倒な作業である。 この点に関して、ゼロショットSBIRのための新しいフレームワークを導入する。 共有空間の識別性を確保するために、横断的三重項損失を定義する一方で、各スケッチから情報を活用する画像領域からの特徴抽出を誘導する革新的な横断的注意学習戦略も提案する。 共有空間の意味的一貫性を維持するために,共有空間に意味クラストポロジを伝播するグラフCNNベースのモジュールを考える。 推論中の応答時間を改善するために,ハッシュコードを用いて共有空間を表現する可能性について検討する。 ベンチマークTU-BerlinとSketchyデータセットで得られた実験結果は、最先端の結果を得るためにCrossATNetの優位性を確認する。

We propose a novel framework for cross-modal zero-shot learning (ZSL) in the context of sketch-based image retrieval (SBIR). Conventionally, the SBIR schema mainly considers simultaneous mappings among the two image views and the semantic side information. Therefore, it is desirable to consider fine-grained classes mainly in the sketch domain using highly discriminative and semantically rich feature space. However, the existing deep generative modeling-based SBIR approaches majorly focus on bridging the gaps between the seen and unseen classes by generating pseudo-unseen-class samples. Besides, violating the ZSL protocol by not utilizing any unseen-class information during training, such techniques do not pay explicit attention to modeling the discriminative nature of the shared space. Also, we note that learning a unified feature space for both the multi-view visual data is a tedious task considering the significant domain difference between sketches and color images. In this respect, as a remedy, we introduce a novel framework for zero-shot SBIR. While we define a cross-modal triplet loss to ensure the discriminative nature of the shared space, an innovative cross-modal attention learning strategy is also proposed to guide feature extraction from the image domain exploiting information from the respective sketch counterpart. In order to preserve the semantic consistency of the shared space, we consider a graph CNN-based module that propagates the semantic class topology to the shared space. To ensure an improved response time during inference, we further explore the possibility of representing the shared space in terms of hash codes. Experimental results obtained on the benchmark TU-Berlin and the Sketchy datasets confirm the superiority of CrossATNet in yielding state-of-the-art results.
翻訳日:2021-04-21 20:06:48 公開日:2021-04-20
# (参考訳) GDDR: GNNベースのデータ駆動ルーティング [全文訳有]

GDDR: GNN-based Data-Driven Routing ( http://arxiv.org/abs/2104.09919v1 )

ライセンス: CC BY 4.0
Oliver Hope, Eiko Yoneki(参考訳) システムにおける問題に対するアプローチとして,グラフニューラルネットワークに基づくポリシーアーキテクチャと深層強化学習を組み合わせる可能性を検討する。 これは、自然にグラフの形をとるネットワーク上の操作に特に適しています。 ケーススタディでは、ドメイン内トラフィックエンジニアリングにおけるデータ駆動ルーティングの考え方を取り入れ、ネットワーク内のデータのルーティングをデータ自体を考慮して管理することができる。 特に,過去の交通の流れの知識を用いてネットワークにおけるリンクの混雑を最小化することが課題である。 本稿では,グラフニューラルネットワーク(gnns)を用いたアプローチが,多層パーセプトロンアーキテクチャを用いた少なくとも以前の作業と同等の性能を発揮することを示す。 GNNには、トレーニングされたエージェントを、余分な作業なしで異なるネットワークトポロジに一般化できるというメリットが加えられている。 さらに,本手法はシステム研究におけるより広範な問題選択に適用できると考えている。

We explore the feasibility of combining Graph Neural Network-based policy architectures with Deep Reinforcement Learning as an approach to problems in systems. This fits particularly well with operations on networks, which naturally take the form of graphs. As a case study, we take the idea of data-driven routing in intradomain traffic engineering, whereby the routing of data in a network can be managed taking into account the data itself. The particular subproblem which we examine is minimising link congestion in networks using knowledge of historic traffic flows. We show through experiments that an approach using Graph Neural Networks (GNNs) performs at least as well as previous work using Multilayer Perceptron architectures. GNNs have the added benefit that they allow for the generalisation of trained agents to different network topologies with no extra work. Furthermore, we believe that this technique is applicable to a far wider selection of problems in systems research.
翻訳日:2021-04-21 19:49:43 公開日:2021-04-20
# (参考訳) 翻訳断片に基づく文法的誤り生成 [全文訳有]

Grammatical Error Generation Based on Translated Fragments ( http://arxiv.org/abs/2104.09933v1 )

ライセンス: CC BY 4.0
Eetu Sj\"oblom and Mathias Creutz and Teemu Vahtola(参考訳) 英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。 本手法は, 第二言語学習者の誤りをシミュレーションし, 最先端の合成データ生成手法と比較して, より広範な非ネイティブ言語を生成することを目的とする。 純粋に文法的な誤りに加えて、語彙的エラーなど、他のタイプのエラーも生成する。 ニューラルネットワークを用いた文法的誤り訂正実験を行い,定量的かつ定性的な評価を行う。 提案手法を用いて生成したデータに基づいて学習したモデルは,高い誤差率でテストデータ上でのベースラインモデルより優れていることを示す。

We perform neural machine translation of sentence fragments in order to create large amounts of training data for English grammatical error correction. Our method aims at simulating mistakes made by second language learners, and produces a wider range of non-native style language in comparison to state-of-the-art synthetic data creation methods. In addition to purely grammatical errors, our approach generates other types of errors, such as lexical errors. We perform grammatical error correction experiments using neural sequence-to-sequence models, and carry out quantitative and qualitative evaluation. A model trained on data created using our proposed method is shown to outperform a baseline model on test data with a high proportion of errors.
翻訳日:2021-04-21 19:28:59 公開日:2021-04-20
# (参考訳) マルチエージェント深部強化学習を用いたネットワークワイド信号制御最適化

Network-wide traffic signal control optimization using a multi-agent deep reinforcement learning ( http://arxiv.org/abs/2104.09936v1 )

ライセンス: CC BY 4.0
Zhenning Li, Hao Yu, Guohui Zhang, Shangjia Dong, Cheng-Zhong Xu(参考訳) 非効率な交通制御は、交通渋滞やエネルギー廃棄物などの多くの問題を引き起こす可能性がある。 本稿では,交通信号の協調性を高めて最適制御を実現するために,KS-DDPG (Knowledge Sharing Deep Deterministic Policy Gradient) という新しいマルチエージェント強化学習手法を提案する。 知識共有可能な通信プロトコルを導入することで、各エージェントは、すべてのエージェントが収集したトラフィック環境の集団表現にアクセスできる。 提案手法は合成データと実世界データを用いて2つの実験により評価した。 最先端の強化学習法と従来の輸送手法との比較により,提案手法であるks-ddpgは,大規模交通網の制御や交通流の変動への対応において有意な効率性を示している。 さらに、導入された通信機構は計算負荷を大幅に増加させることなくモデルの収束をスピードアップすることが証明されている。

Inefficient traffic control may cause numerous problems such as traffic congestion and energy waste. This paper proposes a novel multi-agent reinforcement learning method, named KS-DDPG (Knowledge Sharing Deep Deterministic Policy Gradient) to achieve optimal control by enhancing the cooperation between traffic signals. By introducing the knowledge-sharing enabled communication protocol, each agent can access to the collective representation of the traffic environment collected by all agents. The proposed method is evaluated through two experiments respectively using synthetic and real-world datasets. The comparison with state-of-the-art reinforcement learning-based and conventional transportation methods demonstrate the proposed KS-DDPG has significant efficiency in controlling large-scale transportation networks and coping with fluctuations in traffic flow. In addition, the introduced communication mechanism has also been proven to speed up the convergence of the model without significantly increasing the computational burden.
翻訳日:2021-04-21 19:20:17 公開日:2021-04-20
# (参考訳) ドメイン一般化のための勾配マッチング [全文訳有]

Gradient Matching for Domain Generalization ( http://arxiv.org/abs/2104.09937v1 )

ライセンス: CC BY 4.0
Yuge Shi, Jeffrey Seely, Philip H.S. Torr, N. Siddharth, Awni Hannun, Nicolas Usunier, Gabriel Synnaeve(参考訳) 機械学習システムは通常、トレーニングとテストセットの分布が密接に一致すると仮定する。 しかし、現実世界におけるそのようなシステムに対する重要な要件は、目に見えない領域に一般化する能力である。 本稿では、異なる領域からの勾配間の内積を最大化することにより、ドメインの一般化を目標とするドメイン間勾配マッチング目的を提案する。 勾配内積の直接最適化は -- 二階微分の計算を必要とする -- 計算的に禁止されるので、その最適化を近似する単純な一階アルゴリズムfishを導出する。 本研究では,Wildsベンチマークから得られた6つのデータセットに対する魚の有効性を示す。 提案手法はこれらのデータセット上で競争結果を生成し,その内4つのベースラインを全て越える。 実世界の分布変化を捉えたWildsベンチマークと、合成から現実への移動に焦点を当てたDomainBedベンチマークのデータセットの両方で実験を行った。 提案手法は,両ベンチマークで競合する結果をもたらし,幅広いドメイン一般化タスクにおいてその効果を示す。

Machine learning systems typically assume that the distributions of training and test sets match closely. However, a critical requirement of such systems in the real world is their ability to generalize to unseen domains. Here, we propose an inter-domain gradient matching objective that targets domain generalization by maximizing the inner product between gradients from different domains. Since direct optimization of the gradient inner product can be computationally prohibitive -- requires computation of second-order derivatives -- we derive a simpler first-order algorithm named Fish that approximates its optimization. We demonstrate the efficacy of Fish on 6 datasets from the Wilds benchmark, which captures distribution shift across a diverse range of modalities. Our method produces competitive results on these datasets and surpasses all baselines on 4 of them. We perform experiments on both the Wilds benchmark, which captures distribution shift in the real world, as well as datasets in DomainBed benchmark that focuses more on synthetic-to-real transfer. Our method produces competitive results on both benchmarks, demonstrating its effectiveness across a wide range of domain generalization tasks.
翻訳日:2021-04-21 19:19:21 公開日:2021-04-20
# (参考訳) 平滑化モデル検査におけるアクティブおよびスパース法 [全文訳有]

Active and sparse methods in smoothed model checking ( http://arxiv.org/abs/2104.09940v1 )

ライセンス: CC BY 4.0
Paul Piho, Jane Hillston(参考訳) ガウス過程の分類に基づく平滑化モデルチェックは、パラメトリック連続時間マルコフ連鎖モデルの統計モデルチェックに強力なアプローチを提供する。 本手法はマルコフ連鎖パラメータに対する満足度確率の関数的依存性に関するモデルを構築する。 これは、異なるパラメータの組み合わせに対する限られた数の観測からガウス過程推論メソッドを介して行われる。 本研究では,スパース変分法とアクティブラーニングに基づくスムーズなモデル検査の拡張を検討する。 どちらもスムーズなモデルチェックのスケーラビリティ向上に成功している。 特に,シミュレーションモデルを反復的に問合せするアクティブな学習に基づくアイデアは,パラメータ空間のより有意義な領域にモデルチェックを制御し,サンプル効率を向上させるのに有用である。 スパース変分ガウス過程推論アルゴリズムのオンライン拡張は、スムーズなモデル検査のための能動的学習手法を実装するためのスケーラブルな方法を提供する。

Smoothed model checking based on Gaussian process classification provides a powerful approach for statistical model checking of parametric continuous time Markov chain models. The method constructs a model for the functional dependence of satisfaction probability on the Markov chain parameters. This is done via Gaussian process inference methods from a limited number of observations for different parameter combinations. In this work we consider extensions to smoothed model checking based on sparse variational methods and active learning. Both are used successfully to improve the scalability of smoothed model checking. In particular, we see that active learning-based ideas for iteratively querying the simulation model for observations can be used to steer the model-checking to more informative areas of the parameter space and thus improve sample efficiency. Online extensions of sparse variational Gaussian process inference algorithms are demonstrated to provide a scalable method for implementing active learning approaches for smoothed model checking.
翻訳日:2021-04-21 18:53:32 公開日:2021-04-20
# (参考訳) MGSampler: ビデオアクション認識のための説明可能なサンプリング戦略 [全文訳有]

MGSampler: An Explainable Sampling Strategy for Video Action Recognition ( http://arxiv.org/abs/2104.09952v1 )

ライセンス: CC BY 4.0
Yuan Zhi, Zhan Tong, Limin Wang, Gangshan Wu(参考訳) フレームサンプリングは、時間と限られた計算資源の欠如により、ビデオアクション認識の基本的な問題である。 既存のサンプリング戦略はしばしば固定フレーム選択を採用しており、ビデオの複雑なバリエーションを扱う柔軟性に欠ける。 本稿では、Motion-Guided Sampler(MGSampler)と呼ばれる、説明可能な、適応的で効果的なフレームサンプリング手法を提案する。 私たちの基本的な動機は、モーションは重要で普遍的な信号であり、ビデオからフレームを適応的に選択できるということです。 そこで我々は,MGSamplerの設計における2つの重要な特性として,運動感度と運動均一性を提案する。 まず,2つの異なる動き表現を提示することで,動きのサルエントフレームを背景から効率的に区別することができる。 次に, 累積運動分布に基づく運動一様サンプリング戦略を考案し, サンプリングされたフレームがすべての重要なフレームを高い運動塩分で均等にカバーすることを保証する。 私たちのMGSamplerは、既存のビデオアーキテクチャに組み込むことのできる、新しい原則で総合的なサンプルスキームを提供します。 5つのベンチマークにおける実験は、以前の固定されたサンプリング戦略に対するmgsamplerの有効性と、異なるバックボーン、ビデオモデル、データセットにまたがる一般化能力を示しています。

Frame sampling is a fundamental problem in video action recognition due to the essential redundancy in time and limited computation resources. The existing sampling strategy often employs a fixed frame selection and lacks the flexibility to deal with complex variations in videos. In this paper, we present an explainable, adaptive, and effective frame sampler, called Motion-guided Sampler (MGSampler). Our basic motivation is that motion is an important and universal signal that can drive us to select frames from videos adaptively. Accordingly, we propose two important properties in our MGSampler design: motion sensitive and motion uniform. First, we present two different motion representations to enable us to efficiently distinguish the motion salient frames from the background. Then, we devise a motion-uniform sampling strategy based on the cumulative motion distribution to ensure the sampled frames evenly cover all the important frames with high motion saliency. Our MGSampler yields a new principled and holistic sample scheme, that could be incorporated into any existing video architecture. Experiments on five benchmarks demonstrate the effectiveness of our MGSampler over previously fixed sampling strategies, and also its generalization power across different backbones, video models, and datasets.
翻訳日:2021-04-21 18:37:34 公開日:2021-04-20
# (参考訳) ロバスト銀河楕円性回帰のためのベイズ畳み込みニューラルネットワーク [全文訳有]

A Bayesian Convolutional Neural Network for Robust Galaxy Ellipticity Regression ( http://arxiv.org/abs/2104.09970v1 )

ライセンス: CC0 1.0
Claire Theobald, Bastien Arcelin, Fr\'ed\'eric Pennerath, Brieuc Conan-Guez, Miguel Couceiro, Amedeo Napoli(参考訳) 宇宙のせん断推定は大きな銀河探査にとって重要な科学的目標である。 遠方の銀河画像が観測線に沿って弱い重力レンズによりコヒーレントに歪むことを指す。 宇宙における物質分布のトレーサーとして使うことができる。 宇宙せん断の局所値の偏りのない推定は、銀河の楕円性(形状)の後角分布のロバストな推定に依存するベイズ解析によって得られる。 これは単純な問題ではなく、画像は強い背景ノイズで破損する可能性がある。 現在および今後の調査では、銀河の形状決定におけるもう一つの中心的な問題は、統計的に支配的な重なり合う物体の扱いである。 本稿では,銀河の楕円性およびそれに対応する不確かさを確実に推定するために,モンテカルロ・ドロップアウトに基づくベイズ畳み込みニューラルネットワークを提案する。 畳み込みネットワークは、適切に校正されたアレタリック不確実性(画像にノイズが存在することによる不確実性)を正確に推定するために訓練できるが、これまで見られなかったデータ(すなわち)に露出すると、信頼できる楕円性分布を生成できないことを示す。 ここにブレンドシーンがある)。 ベイズニューラルネットワークを導入することにより, 楕円形の後方予測分布を確実に推定し, 認識の不確かさを頑健に推定する方法を示す。 実験では、不確実性は、未知の混合シーンによる矛盾した予測を検出することも示している。

Cosmic shear estimation is an essential scientific goal for large galaxy surveys. It refers to the coherent distortion of distant galaxy images due to weak gravitational lensing along the line of sight. It can be used as a tracer of the matter distribution in the Universe. The unbiased estimation of the local value of the cosmic shear can be obtained via Bayesian analysis which relies on robust estimation of the galaxies ellipticity (shape) posterior distribution. This is not a simple problem as, among other things, the images may be corrupted with strong background noise. For current and coming surveys, another central issue in galaxy shape determination is the treatment of statistically dominant overlapping (blended) objects. We propose a Bayesian Convolutional Neural Network based on Monte-Carlo Dropout to reliably estimate the ellipticity of galaxies and the corresponding measurement uncertainties. We show that while a convolutional network can be trained to correctly estimate well calibrated aleatoric uncertainty, -- the uncertainty due to the presence of noise in the images -- it is unable to generate a trustworthy ellipticity distribution when exposed to previously unseen data (i.e. here, blended scenes). By introducing a Bayesian Neural Network, we show how to reliably estimate the posterior predictive distribution of ellipticities along with robust estimation of epistemic uncertainties. Experiments also show that epistemic uncertainty can detect inconsistent predictions due to unknown blended scenes.
翻訳日:2021-04-21 18:23:38 公開日:2021-04-20
# (参考訳) アクティブサイバー防衛への人工知能の展望 [全文訳有]

Prospective Artificial Intelligence Approaches for Active Cyber Defence ( http://arxiv.org/abs/2104.09981v1 )

ライセンス: CC BY 4.0
Neil Dhir, Henrique Hoeltgebaum, Niall Adams, Mark Briers, Anthony Burke, Paul Jones(参考訳) サイバー犯罪者は、人工知能(AI)を活用して、適応性と盗聴の新たなクラスを可能にする新しい悪意あるツールを急速に開発している。 これらの脅威に対抗するために新しい防御方法を開発する必要がある。 一部のサイバーセキュリティ専門家は、AIが対応するサイバー防衛対策の新たなクラスを可能にすると推測している。 alan turing instituteは、英国国立サイバーセキュリティセンターと防衛科学技術研究所のエキスパートガイダンスで、昨年ai for acdのための研究ロードマップを発表した。 本稿では、最も有望な2つのaiアプローチ - 強化学習と因果推論 - のロードマップをアップデートし、なぜ彼らがディフェンダーに対するバランスを取り戻すのに役立つのかを説明します。

Cybercriminals are rapidly developing new malicious tools that leverage artificial intelligence (AI) to enable new classes of adaptive and stealthy attacks. New defensive methods need to be developed to counter these threats. Some cybersecurity professionals are speculating AI will enable corresponding new classes of active cyber defence measures -- is this realistic, or currently mostly hype? The Alan Turing Institute, with expert guidance from the UK National Cyber Security Centre and Defence Science Technology Laboratory, published a research roadmap for AI for ACD last year. This position paper updates the roadmap for two of the most promising AI approaches -- reinforcement learning and causal inference - and describes why they could help tip the balance back towards defenders.
翻訳日:2021-04-21 18:10:56 公開日:2021-04-20
# (参考訳) マルチタスク・セルフスーパービジョンによるきめ細かい異常検出 [全文訳有]

Fine-grained Anomaly Detection via Multi-task Self-Supervision ( http://arxiv.org/abs/2104.09993v1 )

ライセンス: CC BY 4.0
Loic Jezequel, Ngoc-Son Vu, Jean Beaudet, Aymeric Histace(参考訳) ディープラーニングを使って異常を検出することは、ここ数年で大きな課題となり、いくつかの分野でますます有望になっている。 自己教師付き学習の導入は、単純な幾何学的変換認識タスクを使用する異常検出を含む多くの手法に大きく貢献している。 しかし,細かな特徴が欠けているため,細かな問題ではうまく機能しない。 マルチタスクフレームワークであるhigh-scale shape features oriented taskとlow-scale fine features oriented taskを組み合わせることで,細粒度の異常検出を大幅に改善する。 様々な異常検出問題において、AUROCで測定された誤差を最大31%削減し、最先端技術を上回っている。

Detecting anomalies using deep learning has become a major challenge over the last years, and is becoming increasingly promising in several fields. The introduction of self-supervised learning has greatly helped many methods including anomaly detection where simple geometric transformation recognition tasks are used. However these methods do not perform well on fine-grained problems since they lack finer features. By combining in a multi-task framework high-scale shape features oriented task with low-scale fine features oriented task, our method greatly improves fine-grained anomaly detection. It outperforms state-of-the-art with up to 31% relative error reduction measured with AUROC on various anomaly detection problems.
翻訳日:2021-04-21 18:02:09 公開日:2021-04-20
# (参考訳) ディープラーニングに基づくエンドツーエンド音声合成技術の検討

Review of end-to-end speech synthesis technology based on deep learning ( http://arxiv.org/abs/2104.09995v1 )

ライセンス: CC BY 4.0
Zhaoxi Mu, Xinyu Yang, Yizhuo Dong(参考訳) 現代人とコンピュータのインタラクションシステムにとって欠かせない部分として、音声合成技術は知能マシンの出力をより簡単かつ直感的に得るのに役立つため、ますます注目を集めている。 従来の音声合成技術の複雑さと低効率の限界のため、現在の研究対象はディープラーニングに基づくエンドツーエンド音声合成技術であり、より強力なモデリング能力とより単純なパイプラインを備えている。 主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。 本稿では,これら3部の研究状況を概観し,その重要度に応じて各種手法を分類・比較する。 さらに,音声合成タスクに使用できる英語,中国語,その他の言語のオープンソースの音声コーパスを要約し,主観的,客観的な音声品質評価方法について紹介する。 最後に、将来的な研究の方向性が指摘されている。

As an indispensable part of modern human-computer interaction system, speech synthesis technology helps users get the output of intelligent machine more easily and intuitively, thus has attracted more and more attention. Due to the limitations of high complexity and low efficiency of traditional speech synthesis technology, the current research focus is the deep learning-based end-to-end speech synthesis technology, which has more powerful modeling ability and a simpler pipeline. It mainly consists of three modules: text front-end, acoustic model, and vocoder. This paper reviews the research status of these three parts, and classifies and compares various methods according to their emphasis. Moreover, this paper also summarizes the open-source speech corpus of English, Chinese and other languages that can be used for speech synthesis tasks, and introduces some commonly used subjective and objective speech quality evaluation method. Finally, some attractive future research directions are pointed out.
翻訳日:2021-04-21 17:53:12 公開日:2021-04-20
# (参考訳) 胚性caenorhabditis elegansにおける核同定のための正確なハイパーグラフマッチングアルゴリズム [全文訳有]

An Exact Hypergraph Matching Algorithm for Nuclear Identification in Embryonic Caenorhabditis elegans ( http://arxiv.org/abs/2104.10003v1 )

ライセンス: CC BY 4.0
Andrew Lauziere, Ryan Christensen, Hari Shroff, Radu Balan(参考訳) 点集合間の最適な対応を見つけることは、コンピュータビジョンにおいて共通のタスクである。 既存の手法では点間の関係は比較的単純であり、最適一致を保証しない。 本稿では,タスクをハイパーグラフマッチングとしてモデル化することで,ポイントセットマッチングを正確に解くアルゴリズムを提案する。 このアルゴリズムは古典分岐と有界パラダイムを拡張し、多線形目的関数の分解提案の下で頂点を選択・集約する。 Caenorhabditis elegansは、発達生物学や神経生物学で頻繁に用いられるモデル生物である。 胚性c. elegansは、胚発生中に他の核を同定できるfiducial markerとして機能するseam細胞を含む。 提案アルゴリズムは,他の複雑な点集合マッチングタスクにアプローチするための枠組みを提供しながら,確立した点集合マッチング手法よりも精度の高いシームセルを同定する。

Finding an optimal correspondence between point sets is a common task in computer vision. Existing techniques assume relatively simple relationships among points and do not guarantee an optimal match. We introduce an algorithm capable of exactly solving point set matching by modeling the task as hypergraph matching. The algorithm extends the classical branch and bound paradigm to select and aggregate vertices under a proposed decomposition of the multilinear objective function. The methodology is motivated by Caenorhabditis elegans, a model organism used frequently in developmental biology and neurobiology. The embryonic C. elegans contains seam cells that can act as fiducial markers allowing the identification of other nuclei during embryo development. The proposed algorithm identifies seam cells more accurately than established point-set matching methods, while providing a framework to approach other similarly complex point set matching tasks.
翻訳日:2021-04-21 17:52:02 公開日:2021-04-20
# (参考訳) ロバスト非教師付きホモグラフィ推定のための知覚損失 [全文訳有]

Perceptual Loss for Robust Unsupervised Homography Estimation ( http://arxiv.org/abs/2104.10011v1 )

ライセンス: CC BY 4.0
Daniel Koguciuk, Elahe Arani, Bahram Zonooz(参考訳) ホモグラフィ推定は、多くのコンピュータビジョンタスクにおいて必須のステップであることが多い。 しかし、既存のアプローチは照明やより大きな視点の変化に対して堅牢ではない。 本稿では,非教師付きホモグラフィ推定のための双方向暗黙的ホモグラフィ推定(bihome loss)を提案する。 biHomEは、ソース視点からの歪んだ画像とターゲット視点からの対応する画像との間の特徴空間における距離を最小化する。 固定された事前学習された特徴抽出器を使用し、フレームワークの学習可能なコンポーネントはホモグラフィネットワークのみであるため、ホモグラフィ推定と表現学習を効果的に分離する。 合成COCOデータセット生成において、実世界のシナリオの照度変化をより良く表現するために、さらなる光度歪みステップを用いる。 我々は,BiHomEがCOCOデータセットの最先端性能を実現していることを示す。 さらに, 実験結果から, 既存手法と比較して照明変動に対するアプローチの堅牢性を示した。

Homography estimation is often an indispensable step in many computer vision tasks. The existing approaches, however, are not robust to illumination and/or larger viewpoint changes. In this paper, we propose bidirectional implicit Homography Estimation (biHomE) loss for unsupervised homography estimation. biHomE minimizes the distance in the feature space between the warped image from the source viewpoint and the corresponding image from the target viewpoint. Since we use a fixed pre-trained feature extractor and the only learnable component of our framework is the homography network, we effectively decouple the homography estimation from representation learning. We use an additional photometric distortion step in the synthetic COCO dataset generation to better represent the illumination variation of the real-world scenarios. We show that biHomE achieves state-of-the-art performance on synthetic COCO dataset, which is also comparable or better compared to supervised approaches. Furthermore, the empirical results demonstrate the robustness of our approach to illumination variation compared to existing methods.
翻訳日:2021-04-21 17:25:32 公開日:2021-04-20
# (参考訳) 学習画像登録における意味的類似度指標 [全文訳有]

Semantic similarity metrics for learned image registration ( http://arxiv.org/abs/2104.10051v1 )

ライセンス: CC BY 4.0
Steffen Czolbe, Oswin Krause and Aasa Feragen(参考訳) 画像登録のための意味的類似度尺度を提案する。 ユークリッド距離や正規化クロス相関のような既存のメトリクスは、強度の値の整合に重点を置いており、強度のコントラストやノイズが低い。 提案手法は,学習ベース登録モデルの最適化を促進するデータセット固有の特徴を学習する。 自動エンコーダを用いた教師なしアプローチと補足セグメンテーションデータを用いた半教師なしアプローチの両方を訓練し、画像登録のための意味的特徴を抽出する。 複数の画像モダリティとアプリケーションにわたる既存の方法と比較し、一貫して高い登録精度を達成する。 ノイズに対する学習的不変性は、低画質の画像に対してよりスムーズな変換を与える。

We propose a semantic similarity metric for image registration. Existing metrics like Euclidean Distance or Normalized Cross-Correlation focus on aligning intensity values, giving difficulties with low intensity contrast or noise. Our approach learns dataset-specific features that drive the optimization of a learning-based registration model. We train both an unsupervised approach using an auto-encoder, and a semi-supervised approach using supplemental segmentation data to extract semantic features for image registration. Comparing to existing methods across multiple image modalities and applications, we achieve consistently high registration accuracy. A learned invariance to noise gives smoother transformations on low-quality images.
翻訳日:2021-04-21 17:10:22 公開日:2021-04-20
# (参考訳) UNISURF:多視点再構成のためのニューラルインシシデント表面と放射場の統合 [全文訳有]

UNISURF: Unifying Neural Implicit Surfaces and Radiance Fields for Multi-View Reconstruction ( http://arxiv.org/abs/2104.10078v1 )

ライセンス: CC BY-SA 4.0
Michael Oechsle, Songyou Peng, Andreas Geiger(参考訳) ニューラルな暗黙の3D表現は、多視点画像から表面を再構成し、新しい視点を合成するための強力なパラダイムとして登場した。 残念なことに、DVRやIDRのような既存の手法では、正確なピクセル単位のオブジェクトマスクを監督する必要がある。 同時に、神経放射場は新規なビュー合成に革命をもたらした。 しかし、NeRFの推定体積密度は正確な表面再構成を認めていない。 我々の重要な洞察は、暗黙の曲面モデルと放射場を統一的に定式化することができ、同じモデルを用いて表面および体積のレンダリングを可能にすることである。 この統一された視点は、新しいより効率的なサンプリング手順と、入力マスクなしで正確な表面を再構築することを可能にする。 本手法は,DTU,BlendedMVS,合成室内データセットで比較した。 実験により, マスクを必要とせず, idrと同等の性能を保ちつつ, 再構成品質でnrfを上回った。

Neural implicit 3D representations have emerged as a powerful paradigm for reconstructing surfaces from multi-view images and synthesizing novel views. Unfortunately, existing methods such as DVR or IDR require accurate per-pixel object masks as supervision. At the same time, neural radiance fields have revolutionized novel view synthesis. However, NeRF's estimated volume density does not admit accurate surface reconstruction. Our key insight is that implicit surface models and radiance fields can be formulated in a unified way, enabling both surface and volume rendering using the same model. This unified perspective enables novel, more efficient sampling procedures and the ability to reconstruct accurate surfaces without input masks. We compare our method on the DTU, BlendedMVS, and a synthetic indoor dataset. Our experiments demonstrate that we outperform NeRF in terms of reconstruction quality while performing on par with IDR without requiring masks.
翻訳日:2021-04-21 16:56:49 公開日:2021-04-20
# (参考訳) 表現学習による感情の認知モデルの拡張 [全文訳有]

Enhancing Cognitive Models of Emotions with Representation Learning ( http://arxiv.org/abs/2104.10117v1 )

ライセンス: CC BY 4.0
Yuting Guo and Jinho Choi(参考訳) 本稿では,感情の心理モデルを記述するために,きめ細かな感情の埋め込み表現を生成するための,新しい深層学習ベースのフレームワークを提案する。 本フレームワークは,感情分類タスクに最適化された動的学習表現の解釈を可能にするマルチヘッド探索モデルと,コンテキスト型埋め込みエンコーダを統合した。 本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。 階層分析は感情間の階層的関係を表現する感情グラフを導出することができる。 私たちの感情表現は、plutchikのs\lnモデルに匹敵する感情ホイールを生成するのに使用できます。

We present a novel deep learning-based framework to generate embedding representations of fine-grained emotions that can be used to computationally describe psychological models of emotions. Our framework integrates a contextualized embedding encoder with a multi-head probing model that enables to interpret dynamically learned representations optimized for an emotion classification task. Our model is evaluated on the Empathetic Dialogue dataset and shows the state-of-the-art result for classifying 32 emotions. Our layer analysis can derive an emotion graph to depict hierarchical relations among the emotions. Our emotion representations can be used to generate an emotion wheel directly comparable to the one from Plutchik's\LN model, and also augment the values of missing emotions in the PAD emotional state model.
翻訳日:2021-04-21 16:38:06 公開日:2021-04-20
# (参考訳) Resnet と TCN ハイブリッドネットワークによる学生エンゲージメント検出の最先端化 [全文訳有]

Improving state-of-the-art in Detecting Student Engagement with Resnet and TCN Hybrid Network ( http://arxiv.org/abs/2104.10122v1 )

ライセンス: CC BY 4.0
Ali Abedi and Shehroz S. Khan(参考訳) オンライン学習環境における学生のエンゲージメントの自動検出は,学習の質を高め,個別の学習教材を提供するための重要な要素である。 オンライン教室で学生が提示するエンゲージメントのレベルは、空間と時間にまたがって起こる情緒的な行動である。 そこで,ビデオから学生のエンゲージメントのレベルを時空間分類問題として定式化する。 本稿では,ビデオにおける学生のエンゲージメントレベル検出のための,新たなエンドツーエンド残差ネットワーク(resnet)と時間畳み込みネットワーク(tcn)ハイブリッドニューラルネットワークアーキテクチャを提案する。 2D ResNetは連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析してエンゲージメントのレベルを検出する。 ハイブリッドネットワークの空間的・時間的アームは、大規模公開学生のエンゲージメント検出データセットであるDAiSEEの生のビデオフレームで共同で訓練される。 本手法は,本データセット上の競合学生のエンゲージメント検出手法と比較した。 ResNet+TCNアーキテクチャは、他の研究手法よりも優れ、最先端のエンゲージメントレベル検出精度を改善し、将来の研究のための新たなベースラインを設定している。

Automatic detection of students' engagement in online learning settings is a key element to improve the quality of learning and to deliver personalized learning materials to them. Varying levels of engagement exhibited by students in an online classroom is an affective behavior that takes place over space and time. Therefore, we formulate detecting levels of students' engagement from videos as a spatio-temporal classification problem. In this paper, we present a novel end-to-end Residual Network (ResNet) and Temporal Convolutional Network (TCN) hybrid neural network architecture for students' engagement level detection in videos. The 2D ResNet extracts spatial features from consecutive video frames, and the TCN analyzes the temporal changes in video frames to detect the level of engagement. The spatial and temporal arms of the hybrid network are jointly trained on raw video frames of a large publicly available students' engagement detection dataset, DAiSEE. We compared our method with several competing students' engagement detection methods on this dataset. The ResNet+TCN architecture outperforms all other studied methods, improves the state-of-the-art engagement level detection accuracy, and sets a new baseline for future research.
翻訳日:2021-04-21 16:28:58 公開日:2021-04-20
# (参考訳) bisecting for selection: using a laplacian eigenmaps clustering approach to creating the new european football super league [全文訳有]

Bisecting for selecting: using a Laplacian eigenmaps clustering approach to create the new European football Super League ( http://arxiv.org/abs/2104.10125v1 )

ライセンス: CC BY 4.0
A. J. Bond, C. B. Beggs(参考訳) 欧州サッカーパフォーマンスデータを用いて、監督されていない技術のみを使用して、提案された欧州サッカースーパーリーグを構成するチームを選択する。 最初にランダムな森林回帰を用いてゴール差を予測する重要な変数を選択し、チーム間のユークリッド距離を計算した。 ラプラシアン固有マップを作成し、我々は5つの主要な欧州サッカーリーグの自然集団を特定するために、フィールダーベクトルを二分した。 その結果、教師なしのアプローチが5つの基本的なパフォーマンス指標に基づいて4つのクラスタを識別することに成功した。 上位2つのクラスタは、それぞれのリーグを支配し、最も競争力のあるエリートスーパーリーグを作る最善の候補であるチームを特定する。

We use European football performance data to select teams to form the proposed European football Super League, using only unsupervised techniques. We first used random forest regression to select important variables predicting goal difference, which we used to calculate the Euclidian distances between teams. Creating a Laplacian eigenmap, we bisected the Fielder vector to identify the five major European football leagues' natural clusters. Our results showed how an unsupervised approach could successfully identify four clusters based on five basic performance metrics: shots, shots on target, shots conceded, possession, and pass success. The top two clusters identify those teams who dominate their respective leagues and are the best candidates to create the most competitive elite super league.
翻訳日:2021-04-21 16:13:40 公開日:2021-04-20
# (参考訳) トランスフォーマーによる透明物体検出とカモフラージュ物体検出 [全文訳有]

Transformer Transforms Salient Object Detection and Camouflaged Object Detection ( http://arxiv.org/abs/2104.10127v1 )

ライセンス: CC BY 4.0
Yuxin Mao, Jing Zhang, Zhexiong Wan, Yuchao Dai, Aixuan Li, Yunqiu Lv, Xinyu Tian, Deng-Ping Fan, and Nick Barnes(参考訳) 機械翻訳に由来するトランスフォーマーネットワークは、長いシーケンス内の長距離依存性のモデル化に特に適している。 現在、トランスフォーマーネットワークは、ハイレベル分類タスクから低レベル密度予測タスクまで、様々なビジョンタスクにおいて革命的な進歩を遂げている。 本稿では,sod (salient object detection) へのトランスフォーマーネットワークの適用に関する研究を行う。 具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。 拡張として, 完全教師付きモデルを用いて, カモフラージュ対象検出 (COD) の課題に適用し, キャモフラーグ対象のセグメンテーションについて検討した。 完全教師付きモデルでは、高密度トランスフォーマーバックボーンを特徴エンコーダとして定義し、非常に単純なデコーダを設計し、1チャンネルのサリエンシマップ(またはCODタスクのカモフラージュマップ)を作成する。 弱教師付きモデルでは,scribbleアノテーションに構造情報が存在しないため,提案するgated-crf損失をまず適用し,正確なモデル予測のためのペアワイズ関係を効果的にモデル化する。 そこで,本研究では,小規模学習データセット上で学習された弱教師付きモデルやモデルに対して有効であることを証明した,スケール不変予測をモデルにプッシュする自己教師付き学習戦略を提案する。 各種SODおよびCODタスク(フル教師付きRGBイメージベースSOD、フル教師付きRGB-DイメージペアベースSOD、スクリブルインスペクションによる弱い教師付きSOD、フル教師付きRGBイメージベースCOD)の広範な実験結果から、トランスフォーマーネットワークが健全なオブジェクト検出とキャモフラージュされたオブジェクト検出を変換し、関連するタスクごとに新しいベンチマークを作成できることを示した。

The transformer networks, which originate from machine translation, are particularly good at modeling long-range dependencies within a long sequence. Currently, the transformer networks are making revolutionary progress in various vision tasks ranging from high-level classification tasks to low-level dense prediction tasks. In this paper, we conduct research on applying the transformer networks for salient object detection (SOD). Specifically, we adopt the dense transformer backbone for fully supervised RGB image based SOD, RGB-D image pair based SOD, and weakly supervised SOD via scribble supervision. As an extension, we also apply our fully supervised model to the task of camouflaged object detection (COD) for camouflaged object segmentation. For the fully supervised models, we define the dense transformer backbone as feature encoder, and design a very simple decoder to produce a one channel saliency map (or camouflage map for the COD task). For the weakly supervised model, as there exists no structure information in the scribble annotation, we first adopt the recent proposed Gated-CRF loss to effectively model the pair-wise relationships for accurate model prediction. Then, we introduce self-supervised learning strategy to push the model to produce scale-invariant predictions, which is proven effective for weakly supervised models and models trained on small training datasets. Extensive experimental results on various SOD and COD tasks (fully supervised RGB image based SOD, fully supervised RGB-D image pair based SOD, weakly supervised SOD via scribble supervision, and fully supervised RGB image based COD) illustrate that transformer networks can transform salient object detection and camouflaged object detection, leading to new benchmarks for each related task.
翻訳日:2021-04-21 15:57:31 公開日:2021-04-20
# (参考訳) 解釈可能な予測と分類のためのベイズ部分集合の選択と変数の重要性

Bayesian subset selection and variable importance for interpretable prediction and classification ( http://arxiv.org/abs/2104.10150v1 )

ライセンス: CC BY 4.0
Daniel R. Kowal(参考訳) サブセット選択は、解釈可能な学習、科学的発見、データ圧縮のための貴重なツールである。 しかし、古典的な部分集合の選択は、選択の不安定性、計算ボトルネック、選択後の推論の欠如により、しばしば省略される。 我々はこれらの課題をベイズの観点から解決する。 任意のベイズ予測モデル $\mathcal{M}$ を考えると、線形決定解析を用いて予測競合部分集合を求める。 このアプローチは(ローカルな)予測や分類用にカスタマイズでき、$\mathcal{m}$の解釈可能な要約を提供する。 これは$\mathcal{m}$からの予測分布を利用して、ほぼ最適に近い予測を提供するサブセットを識別する。 許容可能なファミリーは、変数(co-)がすべて、一部、あるいは許容できるサブセットに現れるかどうかに基づいて、新しい(co-)変数重要なメトリクスを生成する。 重要なことに、任意の部分集合に対する線型係数は、$\mathcal{M}$ による正則化と予測不確かさの定量化を継承する。 提案手法は,$p=400 > n$を含むシミュレーションデータに対して優れた予測,区間推定,変数選択を行う。 これらのツールは、非常に相関性の高い共変量を持つ大規模な教育データセットに適用される。 本分析は, 教育成果を予測する環境要因, 社会経済要因, 人口統計因子の組み合わせについて, 独自の知見を与え, 高度に競争力のある予測を特徴とする。

Subset selection is a valuable tool for interpretable learning, scientific discovery, and data compression. However, classical subset selection is often eschewed due to selection instability, computational bottlenecks, and lack of post-selection inference. We address these challenges from a Bayesian perspective. Given any Bayesian predictive model $\mathcal{M}$, we elicit predictively-competi tive subsets using linear decision analysis. The approach is customizable for (local) prediction or classification and provides interpretable summaries of $\mathcal{M}$. A key quantity is the acceptable family of subsets, which leverages the predictive distribution from $\mathcal{M}$ to identify subsets that offer nearly-optimal prediction. The acceptable family spawns new (co-) variable importance metrics based on whether variables (co-) appear in all, some, or no acceptable subsets. Crucially, the linear coefficients for any subset inherit regularization and predictive uncertainty quantification via $\mathcal{M}$. The proposed approach exhibits excellent prediction, interval estimation, and variable selection for simulated data, including $p=400 > n$. These tools are applied to a large education dataset with highly correlated covariates, where the acceptable family is especially useful. Our analysis provides unique insights into the combination of environmental, socioeconomic, and demographic factors that predict educational outcomes, and features highly competitive prediction with remarkable stability.
翻訳日:2021-04-21 15:09:58 公開日:2021-04-20
# (参考訳) VideoGPT:VQ-VAEとトランスフォーマーを用いたビデオ生成 [全文訳有]

VideoGPT: Video Generation using VQ-VAE and Transformers ( http://arxiv.org/abs/2104.10157v1 )

ライセンス: CC BY 4.0
Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas(参考訳) videogpt: 自然ビデオに確率に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャです。 VideoGPTはVQ-VAEを使用して、3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。 単純なgptライクなアーキテクチャは時空間的位置符号化を用いて離散的潜在子を自己回帰的にモデル化するために使われる。 定式化と訓練の容易さにもかかわらず、我々のアーキテクチャは、BAIR Robotデータセット上のビデオ生成のための最先端のGANモデルと競合するサンプルを生成し、UCF-101とTumbler GIF Dataset(TGIF)から高忠実な自然画像を生成することができる。 提案するアーキテクチャは,トランスフォーマティブ・ビデオ生成モデルの最小限の実装のための再現可能なリファレンスとして機能することを願っている。 サンプルとコードはhttps://wilson1yan.g ithub.io/videogpt/in dex.htmlで入手できる。

We present VideoGPT: a conceptually simple architecture for scaling likelihood based generative modeling to natural videos. VideoGPT uses VQ-VAE that learns downsampled discrete latent representations of a raw video by employing 3D convolutions and axial self-attention. A simple GPT-like architecture is then used to autoregressively model the discrete latents using spatio-temporal position encodings. Despite the simplicity in formulation and ease of training, our architecture is able to generate samples competitive with state-of-the-art GAN models for video generation on the BAIR Robot dataset, and generate high fidelity natural images from UCF-101 and Tumbler GIF Dataset (TGIF). We hope our proposed architecture serves as a reproducible reference for a minimalistic implementation of transformer based video generation models. Samples and code are available at https://wilson1yan.g ithub.io/videogpt/in dex.html
翻訳日:2021-04-21 15:08:50 公開日:2021-04-20
# (参考訳) 非対称圧縮学習と量子化スケッチへの応用 [全文訳有]

Asymmetric compressive learning guarantees with applications to quantized sketches ( http://arxiv.org/abs/2104.10061v1 )

ライセンス: CC BY 4.0
Vincent Schellekens and Laurent Jacques(参考訳) 圧縮学習フレームワークは、大規模データセットでのトレーニングの計算コストを削減する。 スケッチフェーズでは、データをまず軽量なスケッチベクトルに圧縮し、データサンプルを well-chosen 特徴マップにマッピングし、それらのコントリビューションを平均化する。 学習段階では、特徴マップも含む最適化問題を解くことにより、所望のモデルパラメータをこのスケッチから抽出する。 スケッチと学習段階で特徴写像が同一である場合、正式な統計的保証(過剰リスク境界)が証明されている。 しかし、特徴マップの望ましい性質はスケッチや学習(例)において異なる。 量子化出力、および微分可能性)。 したがって、この写像が各位相で異なることが許される緩和について研究する。 まず、既存の保証が、制限付き投影歪(LPD)特性が保持されている場合、制御された誤差項まで、この非対称なスキームに受け継がれることを証明する。 次に、このフレームワークを量子化されたスケッチの設定にインスタンス化し、LDDが実際にバイナリスケッチのコントリビューションを保っていることを証明します。 最後に,音声イベント分類における大規模応用を含む数値シミュレーションによるアプローチをさらに検証する。

The compressive learning framework reduces the computational cost of training on large-scale datasets. In a sketching phase, the data is first compressed to a lightweight sketch vector, obtained by mapping the data samples through a well-chosen feature map, and averaging those contributions. In a learning phase, the desired model parameters are then extracted from this sketch by solving an optimization problem, which also involves a feature map. When the feature map is identical during the sketching and learning phases, formal statistical guarantees (excess risk bounds) have been proven. However, the desirable properties of the feature map are different during sketching and learning (e.g. quantized outputs, and differentiability, respectively). We thus study the relaxation where this map is allowed to be different for each phase. First, we prove that the existing guarantees carry over to this asymmetric scheme, up to a controlled error term, provided some Limited Projected Distortion (LPD) property holds. We then instantiate this framework to the setting of quantized sketches, by proving that the LPD indeed holds for binary sketch contributions. Finally, we further validate the approach with numerical simulations, including a large-scale application in audio event classification.
翻訳日:2021-04-21 14:36:03 公開日:2021-04-20
# 生成型分類器を用いたクラス増分学習

Class-Incremental Learning with Generative Classifiers ( http://arxiv.org/abs/2104.10093v1 )

ライセンス: Link先を確認
Gido M. van de Ven, Zhe Li, Andreas S. Tolias(参考訳) 新しいクラスを認識するためにディープニューラルネットワークを漸進的に訓練することは難しい問題だ。 既存のクラスインクリメンタル学習法はデータを保存するか,あるいは生成リプレイを使用するが,パラメータの正規化やバイアス修正といった'リハーサルフリー'な代替手段は,一貫してハイパフォーマンスを実現していない。 ここでは、クラス増分学習の新しい戦略として、生成的分類を提案する。 条件分布 p(y|x) を直接学習するのではなく、p(x|y)p(y) として分解された合同分布 p(x,y) を学習し、ベイズ則を用いた分類を行う。 原則の証明として,学習すべきクラスごとに変分オートエンコーダを訓練し,p(x|y)の確率を推定するために重要サンプリングを用いることにより,この戦略を実践する。 このシンプルなアプローチは、さまざまな連続学習ベンチマークで非常にうまく動作し、生成リプレイや他のデータを保存していない既存のベースラインよりも優れています。

Incrementally training deep neural networks to recognize new classes is a challenging problem. Most existing class-incremental learning methods store data or use generative replay, both of which have drawbacks, while 'rehearsal-free' alternatives such as parameter regularization or bias-correction methods do not consistently achieve high performance. Here, we put forward a new strategy for class-incremental learning: generative classification. Rather than directly learning the conditional distribution p(y|x), our proposal is to learn the joint distribution p(x,y), factorized as p(x|y)p(y), and to perform classification using Bayes' rule. As a proof-of-principle, here we implement this strategy by training a variational autoencoder for each class to be learned and by using importance sampling to estimate the likelihoods p(x|y). This simple approach performs very well on a diverse set of continual learning benchmarks, outperforming generative replay and other existing baselines that do not store data.
翻訳日:2021-04-21 13:56:39 公開日:2021-04-20
# RoFormer: ロータリーポジション埋め込みを備えた拡張トランス

RoFormer: Enhanced Transformer with Rotary Position Embedding ( http://arxiv.org/abs/2104.09864v1 )

ライセンス: Link先を確認
Jianlin Su, Yu Lu, Shengfeng Pan, Bo Wen, Yunfeng Liu(参考訳) トランスアーキテクチャにおける位置エンコーディングは、シーケンス内の異なる位置にある要素間の依存性モデリングの監督を提供する。 トランスフォーマーベース言語モデルにおける位置情報をエンコードする様々な手法について検討し,Rotary Position Embedding (RoPE) という新しい実装を提案する。 提案するロープは, 絶対位置情報を回転行列で符号化し, 自着式に明示的な相対位置依存性を包含する。 特に、RoPEは、任意のシーケンス長に拡張する柔軟性、相対距離の増大に伴うトーケン間の依存性の減衰、相対位置エンコーディングによる線形自己アテンションの装備など、貴重な性質を備えている。 結果として、回転位置埋め込み(RoFormer)を備えた拡張変換器は、長いテキストを持つタスクにおいて優れたパフォーマンスを実現する。 理論解析を中国データを用いた予備実験結果とともに公開する。 英語ベンチマークの実施中の実験は近く更新される。

Position encoding in transformer architecture provides supervision for dependency modeling between elements at different positions in the sequence. We investigate various methods to encode positional information in transformer-based language models and propose a novel implementation named Rotary Position Embedding(RoPE). The proposed RoPE encodes absolute positional information with rotation matrix and naturally incorporates explicit relative position dependency in self-attention formulation. Notably, RoPE comes with valuable properties such as flexibility of being expand to any sequence lengths, decaying inter-token dependency with increasing relative distances, and capability of equipping the linear self-attention with relative position encoding. As a result, the enhanced transformer with rotary position embedding, or RoFormer, achieves superior performance in tasks with long texts. We release the theoretical analysis along with some preliminary experiment results on Chinese data. The undergoing experiment for English benchmark will soon be updated.
翻訳日:2021-04-21 13:55:58 公開日:2021-04-20
# nlp機械学習モデルのロバスト性テスト:検索と意味論的置き換え

Robustness Tests of NLP Machine Learning Models: Search and Semantically Replace ( http://arxiv.org/abs/2104.09978v1 )

ライセンス: Link先を確認
Rahul Singh, Karan Jindal, Yufei Yu, Hanyu Yang, Tarun Joshi, Matthew A. Campbell, Wayne B. Shoumaker(参考訳) 本稿では,自然言語処理(NLP)を含む機械学習モデルの堅牢性を評価するための戦略を提案する。 全体的なアプローチは、(1)テキストの重要な部分を特定する検索、(2)重要な部分の置き換えを見つける意味的置換、そして、置換されたトークンを意味的に類似した単語で制約する2つのステップからなる、検索と意味的置換戦略に依存している。 本稿では,特定の種類の機械学習モデルに特化して設計された検索とセマンティック・リプレース手法を紹介する。 また,この戦略の有効性を調査し,様々な機械学習モデルを評価するための汎用フレームワークを提供する。 最後に、3つの異なるモデルタイプ間で、それぞれ異なるテキスト表現を持つロバスト性性能を実証的に比較する。

This paper proposes a strategy to assess the robustness of different machine learning models that involve natural language processing (NLP). The overall approach relies upon a Search and Semantically Replace strategy that consists of two steps: (1) Search, which identifies important parts in the text; (2) Semantically Replace, which finds replacements for the important parts, and constrains the replaced tokens with semantically similar words. We introduce different types of Search and Semantically Replace methods designed specifically for particular types of machine learning models. We also investigate the effectiveness of this strategy and provide a general framework to assess a variety of machine learning models. Finally, an empirical comparison is provided of robustness performance among three different model types, each with a different text representation.
翻訳日:2021-04-21 13:55:46 公開日:2021-04-20
# 擬似量子化雑音による微分モデル圧縮

Differentiable Model Compression via Pseudo Quantization Noise ( http://arxiv.org/abs/2104.09987v1 )

ライセンス: Link先を確認
Alexandre D\'efossez, Yossi Adi, Gabriel Synnaeve(参考訳) 本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。 この方法であるDiffQは、未定量化パラメータと使用するビット数の両方について微分可能である。 量子化モデルのサイズと精度のバランスを所望する1つのハイパーパラメータが与えられた場合、DiffQは1つのトレーニングで個々の重みまたは重みのグループごとに使用されるビット数を最適化することができる。 本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。 例えば、wikitext-103言語モデリングベンチマークでは、diffqは16層トランスフォーマーモデルを4ビット精度に相当する8倍圧縮し、0.5ポイントのパープレキシティを失う。 https://github.com/f acebookresearch/diff q

We propose to add independent pseudo quantization noise to model parameters during training to approximate the effect of a quantization operator. This method, DiffQ, is differentiable both with respect to the unquantized parameters, and the number of bits used. Given a single hyper-parameter expressing the desired balance between the quantized model size and accuracy, DiffQ can optimize the number of bits used per individual weight or groups of weights, in a single training. We experimentally verify that our method outperforms state-of-the-art quantization techniques on several benchmarks and architectures for image classification, language modeling, and audio source separation. For instance, on the Wikitext-103 language modeling benchmark, DiffQ compresses a 16 layers transformer model by a factor of 8, equivalent to 4 bits precision, while losing only 0.5 points of perplexity. Code is available at: https://github.com/f acebookresearch/diff q
翻訳日:2021-04-21 13:55:33 公開日:2021-04-20
# 相転移適応

Phase Transition Adaptation ( http://arxiv.org/abs/2104.10132v1 )

ライセンス: Link先を確認
Claudio Gallicchio, Alessio Micheli, Luca Silvestri(参考訳) 人工リカレントニューラルネットワークは強力な情報処理抽象化であり、Reservoir Computingは、外部入力を高次元の動的システム軌道に投影することによって堅牢な実装を構築するための効率的な戦略を提供する。 本稿では,システムダイナミクスを「安定の端」に向かわせるために設計した,位相遷移適応と呼ばれる局所的教師なし学習機構である,元来のアプローチの拡張を提案する。 ここで、システムによって示される複雑な挙動は、計算能力全体の強化をもたらす。 提案手法が複数のデータセットに対して一貫して目的を達成できることを実験的に示す。

Artificial Recurrent Neural Networks are a powerful information processing abstraction, and Reservoir Computing provides an efficient strategy to build robust implementations by projecting external inputs into high dimensional dynamical system trajectories. In this paper, we propose an extension of the original approach, a local unsupervised learning mechanism we call Phase Transition Adaptation, designed to drive the system dynamics towards the `edge of stability'. Here, the complex behavior exhibited by the system elicits an enhancement in its overall computational capacity. We show experimentally that our approach consistently achieves its purpose over several datasets.
翻訳日:2021-04-21 13:55:17 公開日:2021-04-20
# VT-ADL:画像異常検出と位置推定のための視覚変換器ネットワーク

VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization ( http://arxiv.org/abs/2104.10036v1 )

ライセンス: Link先を確認
Pankaj Mishra, Riccardo Verk, Daniele Fornasier, Claudio Piciarelli, Gian Luca Foresti(参考訳) 本稿では,トランスを用いた画像異常検出と局所化ネットワークを提案する。 提案手法は,再構成に基づくアプローチとパッチ埋め込みの組み合わせである。 変圧器ネットワークの使用は、埋め込みパッチの空間情報を保存するのに役立ち、後にガウス混合密度ネットワークによって処理され、異常領域をローカライズする。 さらに,実世界の産業異常データセットであるbtadも公開しています。 その結果,mnistやmvtecなどの公開データセットを用いて,最先端アルゴリズムと比較した。

We present a transformer-based image anomaly detection and localization network. Our proposed model is a combination of a reconstruction-based approach and patch embedding. The use of transformer networks helps to preserve the spatial information of the embedded patches, which are later processed by a Gaussian mixture density network to localize the anomalous areas. In addition, we also publish BTAD, a real-world industrial anomaly dataset. Our results are compared with other state-of-the-art algorithms using publicly available datasets like MNIST and MVTec.
翻訳日:2021-04-21 13:54:49 公開日:2021-04-20
# genESIS-V2: 反復的リファインメントのない未順序オブジェクト表現の推論

GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement ( http://arxiv.org/abs/2104.09958v1 )

ライセンス: Link先を確認
Martin Engelcke, Oiwi Parker Jones, Ingmar Posner(参考訳) オブジェクト中心生成モデル(ocgms)の進歩は、教師なしオブジェクトセグメンテーションと解釈可能なオブジェクト中心シーン生成のための幅広い方法の開発で頂点に達した。 しかし、これらのメソッドは、視覚の複雑さが制限されたシミュレーションと実世界のデータセットに限定されている。 さらに、オブジェクト表現は、画像中のオブジェクトに不自然な順序を課すのを避けるが、固定数のオブジェクト表現の事前初期化を必要とする、大きな画像や反復的な改善にうまく対応しないRNNを用いて、しばしば推論される。 確立されたパラダイムとは対照的に,本研究では,確率的,非パラメトリックなスティックブレーキングプロセスを用いて,画素の埋め込みを異なる方法でクラスタ化する方法を提案する。 反復的洗練と同様に、このクラスタリング手順はランダムに順序付けられたオブジェクト表現をもたらすが、固定数のクラスタを事前に初期化する必要がない。 これは新しいモデル GENESIS-V2 の開発に使われ、RNN や反復的な洗練を使わずに、可変数のオブジェクト表現を推論できる。 genesis-v2は、確立された合成データセットやより複雑な実世界のデータセット上で、教師なし画像セグメンテーションやオブジェクト中心シーン生成の従来の手法を上回っている。

Advances in object-centric generative models (OCGMs) have culminated in the development of a broad range of methods for unsupervised object segmentation and interpretable object-centric scene generation. These methods, however, are limited to simulated and real-world datasets with limited visual complexity. Moreover, object representations are often inferred using RNNs which do not scale well to large images or iterative refinement which avoids imposing an unnatural ordering on objects in an image but requires the a priori initialisation of a fixed number of object representations. In contrast to established paradigms, this work proposes an embedding-based approach in which embeddings of pixels are clustered in a differentiable fashion using a stochastic, non-parametric stick-breaking process. Similar to iterative refinement, this clustering procedure also leads to randomly ordered object representations, but without the need of initialising a fixed number of clusters a priori. This is used to develop a new model, GENESIS-V2, which can infer a variable number of object representations without using RNNs or iterative refinement. We show that GENESIS-V2 outperforms previous methods for unsupervised image segmentation and object-centric scene generation on established synthetic datasets as well as more complex real-world datasets.
翻訳日:2021-04-21 13:54:42 公開日:2021-04-20
# 信頼できないニュース検出データセットにおける隠れバイアス

Hidden Biases in Unreliable News Detection Datasets ( http://arxiv.org/abs/2104.10130v1 )

ライセンス: Link先を確認
Xiang Zhou, Heba Elfardy, Christos Christodoulopoulos, Thomas Butler, Mohit Bansal(参考訳) 自動的信頼できないニュース検出は、大きな潜在的影響を持つ研究問題である。 近年、複数の論文が、ファクトチェック機構を使わずに記事自体のみを使用するモデルを持つ大規模ニュースデータセットについて有望な結果を示している。 この作業では、これらのデータセットを詳しく見ていきます。 これらはすべて、将来の研究に貴重なリソースを提供するが、より現実的な環境では一般化しない結果をもたらす可能性のある多くの問題を観察する。 具体的には、データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。 さらに、ほとんどのシステムは個々の記事のレベルを訓練し予測するが、トレーニングと評価データに重複する記事ソースは、モデルが活用できる強力な欠点をもたらす可能性がある。 この要因が存在する場合、信頼できないニュース検出の実際のタスクをモデル化する代わりに、サイトラベルマッピングを直接記憶することで、優れた性能が得られる。 クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。 観測結果と実験結果を用いて,信頼できないニュース検出タスクに対して,より信頼性の高いデータセットを作成する方法を提案する。 将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。

Automatic unreliable news detection is a research problem with great potential impact. Recently, several papers have shown promising results on large-scale news datasets with models that only use the article itself without resorting to any fact-checking mechanism or retrieving any supporting evidence. In this work, we take a closer look at these datasets. While they all provide valuable resources for future research, we observe a number of problems that may lead to results that do not generalize in more realistic settings. Specifically, we show that selection bias during data collection leads to undesired artifacts in the datasets. In addition, while most systems train and predict at the level of individual articles, overlapping article sources in the training and evaluation data can provide a strong confounding factor that models can exploit. In the presence of this confounding factor, the models can achieve good performance by directly memorizing the site-label mapping instead of modeling the real task of unreliable news detection. We observed a significant drop (>10%) in accuracy for all models tested in a clean split with no train/test source overlap. Using the observations and experimental results, we provide practical suggestions on how to create more reliable datasets for the unreliable news detection task. We suggest future dataset creation include a simple model as a difficulty/bias probe and future model development use a clean non-overlapping site and date split.
翻訳日:2021-04-21 13:54:19 公開日:2021-04-20
# selfreg: ドメイン一般化のための自己教師付きコントラスト正規化

SelfReg: Self-supervised Contrastive Regularization for Domain Generalization ( http://arxiv.org/abs/2104.09841v1 )

ライセンス: Link先を確認
Daehee Kim, Seunghyun Park, Jinkyu Kim, and Jaekoo Lee(参考訳) 一般に、ディープラーニングのための実験環境は、トレーニングとテストデータセットが同じ分布からサンプリングされていると仮定する。 しかし、現実の状況では、ドメインシフトという2つのデータセット間の分布の違いが生じ、それがモデルの一般化性能を妨げる主要な要因となる。 この問題を解決する研究分野はドメイン一般化と呼ばれ、ドメイン不変な特徴を明示的にあるいは暗黙的に抽出することでドメインシフト問題を緩和する。 近年,コントラスト学習に基づくドメイン一般化手法が提案され,高い性能を達成している。 これらのアプローチは負のデータペアのサンプリングを必要とする。 しかし、対照的学習の性能は基本的に負のデータ対の品質と量に依存する。 本稿では,コントラスト学習,自己教師付きコントラスト正則化(selfreg)に基づく領域一般化のための新しい正規化手法を提案する。 提案手法は正のデータペアのみを用いるため,負のペアサンプリングによって生じる様々な問題を解消する。 さらに,正のデータペアのみを使用した場合でも,ミックスアップ拡張を効果的に適用できるクラス固有領域摂動層(CDPL)を提案する。 実験の結果,selfreg が組み込んだ手法が両立した性能に寄与したことがわかった。 最近のベンチマークであるDomainBedでは、提案手法は従来の最先端技術に匹敵する性能を示している。 コードはhttps://github.com/d nap512/selfregで入手できる。

In general, an experimental environment for deep learning assumes that the training and the test dataset are sampled from the same distribution. However, in real-world situations, a difference in the distribution between two datasets, domain shift, may occur, which becomes a major factor impeding the generalization performance of the model. The research field to solve this problem is called domain generalization, and it alleviates the domain shift problem by extracting domain-invariant features explicitly or implicitly. In recent studies, contrastive learning-based domain generalization approaches have been proposed and achieved high performance. These approaches require sampling of the negative data pair. However, the performance of contrastive learning fundamentally depends on quality and quantity of negative data pairs. To address this issue, we propose a new regularization method for domain generalization based on contrastive learning, self-supervised contrastive regularization (SelfReg). The proposed approach use only positive data pairs, thus it resolves various problems caused by negative pair sampling. Moreover, we propose a class-specific domain perturbation layer (CDPL), which makes it possible to effectively apply mixup augmentation even when only positive data pairs are used. The experimental results show that the techniques incorporated by SelfReg contributed to the performance in a compatible manner. In the recent benchmark, DomainBed, the proposed method shows comparable performance to the conventional state-of-the-art alternatives. Codes are available at https://github.com/d nap512/SelfReg.
翻訳日:2021-04-21 13:53:56 公開日:2021-04-20
# 合成運転シミュレータ画像からのデータ駆動車速検出

Data-driven vehicle speed detection from synthetic driving simulator images ( http://arxiv.org/abs/2104.09903v1 )

ライセンス: Link先を確認
Antonio Hern\'andez Mart\'inez, Javier Lorenzo D\'iaz, Iv\'an Garc\'ia Daza, David Fern\'andez Llorca(参考訳) あらゆる課題と制限にもかかわらず、コスト削減や追加機能強化といった大きな潜在的な利点のために、視覚に基づく車両の速度検出が研究の関心を集めている。 最近の調査[1]で述べたように、この問題に対処するための学習ベースのアプローチの使用はまだ初期段階にある。 主な課題の1つは、大量のデータが必要であることであり、これは入力シーケンスと、さらに重要なのは、車両の実際の速度に対応する出力値を含む必要がある。 このコンテキストにおけるデータ収集には、高精度の速度センサと同期して地上の真理速度値を生成するカメラからの画像をキャプチャするための、複雑で高価な設定が必要である。 本稿では,運転シミュレータ(例えばcarla)から生成された合成画像を用いて,学習に基づくアプローチによる車両速度検出を初めて検討する。 道路上に設置した仮想カメラをシミュレートし,複数の速度,車両の種類や色,照明や気象条件に応じた数千の画像を生成する。 CNN-GRUや3D-CNNなど,画像のシーケンスを出力速度(回帰)にマッピングする2つのアプローチについて検討した。 本稿では,このアプローチの車速検出への高ポテンシャルを支持する予備的な結果を示す。

Despite all the challenges and limitations, vision-based vehicle speed detection is gaining research interest due to its great potential benefits such as cost reduction, and enhanced additional functions. As stated in a recent survey [1], the use of learning-based approaches to address this problem is still in its infancy. One of the main difficulties is the need for a large amount of data, which must contain the input sequences and, more importantly, the output values corresponding to the actual speed of the vehicles. Data collection in this context requires a complex and costly setup to capture the images from the camera synchronized with a high precision speed sensor to generate the ground truth speed values. In this paper we explore, for the first time, the use of synthetic images generated from a driving simulator (e.g., CARLA) to address vehicle speed detection using a learning-based approach. We simulate a virtual camera placed over a stretch of road, and generate thousands of images with variability corresponding to multiple speeds, different vehicle types and colors, and lighting and weather conditions. Two different approaches to map the sequence of images to an output speed (regression) are studied, including CNN-GRU and 3D-CNN. We present preliminary results that support the high potential of this approach to address vehicle speed detection.
翻訳日:2021-04-21 13:53:36 公開日:2021-04-20
# コンバージョンレート予測のためのマルチタスク学習によるマイクロ・マクロ動作の階層的モデリング

Hierarchically Modeling Micro and Macro Behaviors via Multi-Task Learning for Conversion Rate Prediction ( http://arxiv.org/abs/2104.09713v1 )

ライセンス: Link先を確認
Hong Wen and Jing Zhang and Fuyu Lv and Wentian Bao and Tianyi Wang and Zulong Chen(参考訳) 現代のeコマースプラットフォームにおける転換率(\emph{CVR})の予測はますます重要になってきており、これが最終収益に直接貢献している。 CVRモデリングで発生する有名なサンプル選択バイアス(\emph{SSB})とデータスパシティ(\emph{DS})の問題に対処するために、豊富なラベル付きマクロな振る舞い(すなわち、アイテムとのユーザのインタラクション)を用いる。 それでも、購入に関連するいくつかのマイクロ行動(アイテム詳細ページ上の特定のコンポーネントとのユーザのインタラクション)が、emph{CVR}予測のためのきめ細かい手がかりを補うことができる。 本研究の目的は,マイクロとマクロの両方の挙動を階層的にモデル化し,新しいemph{CVR}予測手法を提案することである。 具体的には,まず,マイクロ動作とマクロ動作をワンホップおよび2ホップポストクリックノードとして階層的に表現するための,完全なユーザシーケンシャル動作グラフを構築した。 次に、$hm^3$をマルチヘッドディープニューラルネットワークとして表現し、グラフ内の明示的なサブパスに対応する6つの確率変数を予測する。 さらに、4つの補助タスクの予測目標と、グラフ上で定義された条件付き確率ルールに従って最終的な$CVR$に結合される。 マルチタスク学習を採用し、マイクロおよびマクロな振る舞いから豊富な監督ラベルを活用することで、$hm^3$はエンドツーエンドでトレーニングでき、 \emph{ssb} と \emph{ds} の問題に対処することができる。 オフラインとオンラインの両方で大規模な実験を行い、提案された$HM^3$が最先端の手法よりも優れていることを示した。

Conversion Rate (\emph{CVR}) prediction in modern industrial e-commerce platforms is becoming increasingly important, which directly contributes to the final revenue. In order to address the well-known sample selection bias (\emph{SSB}) and data sparsity (\emph{DS}) issues encountered during CVR modeling, the abundant labeled macro behaviors ($i.e.$, user's interactions with items) are used. Nonetheless, we observe that several purchase-related micro behaviors ($i.e.$, user's interactions with specific components on the item detail page) can supplement fine-grained cues for \emph{CVR} prediction. Motivated by this observation, we propose a novel \emph{CVR} prediction method by Hierarchically Modeling both Micro and Macro behaviors ($HM^3$). Specifically, we first construct a complete user sequential behavior graph to hierarchically represent micro behaviors and macro behaviors as one-hop and two-hop post-click nodes. Then, we embody $HM^3$ as a multi-head deep neural network, which predicts six probability variables corresponding to explicit sub-paths in the graph. They are further combined into the prediction targets of four auxiliary tasks as well as the final $CVR$ according to the conditional probability rule defined on the graph. By employing multi-task learning and leveraging the abundant supervisory labels from micro and macro behaviors, $HM^3$ can be trained end-to-end and address the \emph{SSB} and \emph{DS} issues. Extensive experiments on both offline and online settings demonstrate the superiority of the proposed $HM^3$ over representative state-of-the-art methods.
翻訳日:2021-04-21 13:53:15 公開日:2021-04-20
# 伝達関数を用いたディープラーニング:システム同定の新しい応用

Deep learning with transfer functions: new applications in system identification ( http://arxiv.org/abs/2104.09839v1 )

ライセンス: Link先を確認
Dario Piga, Marco Forgione, Manas Mejari(参考訳) 本稿では, 有理伝達関数を用いて記述した線形動的作用素について, 自動微分計算によく定義され, 効率的なバックプロパゲーション挙動を付与する。 このオペレータは、標準的なディープラーニングソフトウェアを活用する線形転送関数やその他の微分可能なユニット {by} を含む構造化ネットワークのエンドツーエンドトレーニングを可能にする。 システム識別における演算子の2つの応用について述べる。 1つ目は、深層学習における {prediction error method} の統合である。 動的演算子は、最適なワンステップアヘッド予測誤差を得るために、ニューラルネットワークの最後の層として含まれる。 2つめは、量子化データから一般的なブロック指向モデルの同定を考えることである。 これらのブロック指向モデルは、線形力学演算子と標準フィードフォワードニューラルネットワークとして記述される静的非線形性を組み合わせることで構成される。 量子化された出力観測のログ類似度に対応するカスタム損失関数を定義する。 勾配に基づく最適化では、バックプロパゲーションアルゴリズムをネットワーク全体に適用することにより、ログ様相の導出を計算できる。 2つのシステム識別ベンチマークを用いて提案手法の有効性を示す。

This paper presents a linear dynamical operator described in terms of a rational transfer function, endowed with a well-defined and efficient back-propagation behavior for automatic derivatives computation. The operator enables end-to-end training of structured networks containing linear transfer functions and other differentiable units {by} exploiting standard deep learning software. Two relevant applications of the operator in system identification are presented. The first one consists in the integration of {prediction error methods} in deep learning. The dynamical operator is included as {the} last layer of a neural network in order to obtain the optimal one-step-ahead prediction error. The second one considers identification of general block-oriented models from quantized data. These block-oriented models are constructed by combining linear dynamical operators with static nonlinearities described as standard feed-forward neural networks. A custom loss function corresponding to the log-likelihood of quantized output observations is defined. For gradient-based optimization, the derivatives of the log-likelihood are computed by applying the back-propagation algorithm through the whole network. Two system identification benchmarks are used to show the effectiveness of the proposed methodologies.
翻訳日:2021-04-21 13:52:44 公開日:2021-04-20
# バイタルパラメーターによる医療介入の予測 : 遠隔患者モニタリングのための意思決定支援システムに向けて

Predicting Medical Interventions from Vital Parameters: Towards a Decision Support System for Remote Patient Monitoring ( http://arxiv.org/abs/2104.10085v1 )

ライセンス: Link先を確認
Kordian Gontarska and Weronika Wrazen and Jossekin Beilharz and Robert Schmid and Lauritz Thamsen and Andreas Polze(参考訳) 心臓血管疾患、特に心不全は、世界における非感染性疾患の死亡の主な原因である。 定期的な患者モニタリングは、医師が時間通りに反応し、適切な治療を提供するため、より良い治療を可能にする。 遠隔医療は常時遠隔監視が可能で、患者は自宅にとどまり、医療センシング機器とネットワーク接続のみを必要とする。 遠隔医療センターの制限要因は、同時に監視できる患者の数である。 我々は、意思決定支援システムを実装することで、この額を増やすことを目指している。 本研究は,患者が日常的に患者を選別できるリスクパラメータに基づいて,リスクスコアを推定する機械学習モデルについて検討する。 提案するモデルはAUCROCが0.84であるのに対し、ベースラインルールベースモデルはAUCROCが0.73である。 この結果から,遠隔医療センターの効率向上に深層学習が有効であることが示唆された。 この方法では、遠隔監視による医療の改善からより多くの患者が恩恵を受けることができる。

Cardiovascular diseases and heart failures in particular are the main cause of non-communicable disease mortality in the world. Constant patient monitoring enables better medical treatment as it allows practitioners to react on time and provide the appropriate treatment. Telemedicine can provide constant remote monitoring so patients can stay in their homes, only requiring medical sensing equipment and network connections. A limiting factor for telemedical centers is the amount of patients that can be monitored simultaneously. We aim to increase this amount by implementing a decision support system. This paper investigates a machine learning model to estimate a risk score based on patient vital parameters that allows sorting all cases every day to help practitioners focus their limited capacities on the most severe cases. The model we propose reaches an AUCROC of 0.84, whereas the baseline rule-based model reaches an AUCROC of 0.73. Our results indicate that the usage of deep learning to improve the efficiency of telemedical centers is feasible. This way more patients could benefit from better health-care through remote monitoring.
翻訳日:2021-04-21 13:52:17 公開日:2021-04-20
# スケーリングによるソフトスレッショニングとハードスレッショニングの橋渡し

Bridging between soft and hard thresholding by scaling ( http://arxiv.org/abs/2104.09703v1 )

ライセンス: Link先を確認
Katsuyuki Hagiwara(参考訳) 本稿では,ソフトしきい値推定器を経験的スケーリング値によって独立に拡張するしきい値法を開発し,解析する。 スケーリング値は、ハードしきい値を達成する理想的なスケーリング値の拡張順序である共通のハイパーパラメータを持つ。 単にこの推定器をスケールドソフトしきい値推定器と呼ぶだけです。 スケールされたソフトしきい値設定は、ソフトしきい値設定と非負のガロテを特別に含む一般的な方法であり、適応LASSOの別の導出を与える。 次に, スタインの偏りのないリスク推定を用いて, スケールドソフトしきい値の自由度を導出し, ソフトしきい値の自由度とハードしきい値へのリマインダーに分解することを発見した。 この意味において、スケールされたソフト閾値法は、ソフトしきい値法とハードしきい値法の間に自然な橋渡しを与える。 自由度は過剰適合の度合いを表すため、この結果はスケールされたソフトしきい値付けには2つの過剰適合の源が存在することを意味する。 ソフトしきい値から導かれる第1のソースは、除去されていない係数の数によって決定され、過剰適合の度合いの自然な測度である。 ハードしきい値の既知結果を参照して, スケールドソフトしきい値の特定の場合における第2の源を解析した。 その結果, 粗大なサンプルと非パラメトリックな設定では, 真の値がゼロの係数推定値で決定され, しきい値がそれらの係数推定値のノイズレベル付近にある場合, 過度適合に影響を及ぼすことがわかった。 単純な数値的な例では、これらの理論的な含意は自由度の振る舞いをよく説明している。 さらに, この結果といくつかの既知の事実から, ソフト, ハード, スケールしたソフトしきい値測定手法のリスクの挙動を説明した。

In this article, we developed and analyzed a thresholding method in which soft thresholding estimators are independently expanded by empirical scaling values. The scaling values have a common hyper-parameter that is an order of expansion of an ideal scaling value that achieves hard thresholding. We simply call this estimator a scaled soft thresholding estimator. The scaled soft thresholding is a general method that includes the soft thresholding and non-negative garrote as special cases and gives an another derivation of adaptive LASSO. We then derived the degree of freedom of the scaled soft thresholding by means of the Stein's unbiased risk estimate and found that it is decomposed into the degree of freedom of soft thresholding and the reminder connecting to hard thresholding. In this meaning, the scaled soft thresholding gives a natural bridge between soft and hard thresholding methods. Since the degree of freedom represents the degree of over-fitting, this result implies that there are two sources of over-fitting in the scaled soft thresholding. The first source originated from soft thresholding is determined by the number of un-removed coefficients and is a natural measure of the degree of over-fitting. We analyzed the second source in a particular case of the scaled soft thresholding by referring a known result for hard thresholding. We then found that, in a sparse, large sample and non-parametric setting, the second source is largely determined by coefficient estimates whose true values are zeros and has an influence on over-fitting when threshold levels are around noise levels in those coefficient estimates. In a simple numerical example, these theoretical implications has well explained the behavior of the degree of freedom. Moreover, based on the results here and some known facts, we explained the behaviors of risks of soft, hard and scaled soft thresholding methods.
翻訳日:2021-04-21 13:51:35 公開日:2021-04-20
# 半パラメトリック推論としての知識蒸留

Knowledge Distillation as Semiparametric Inference ( http://arxiv.org/abs/2104.09732v1 )

ライセンス: Link先を確認
Tri Dao, Govinda M Kamath, Vasilis Syrgkanis, Lester Mackey(参考訳) モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。 驚くべきことに、この2段階の知識蒸留プロセスは、しばしば学生がラベル付きデータを直接訓練するよりも精度が高い。 この現象を説明するために, 最適学習モデルを用いた半パラメトリック推定問題として知識蒸留を, 未知ベイズ級確率を迷惑として, 教師確率をプラグイン迷惑推定として用いた。 近代的な半パラメトリックツールを適用することにより,標準蒸留の予測誤差に対する新たな保証を導き,教師の過度な適合と過度な適合が学生のパフォーマンスに与える影響を軽減するために,クロスフィットと損失補正の2つの拡張を開発する。 本研究の成果は表と画像データの両方で実証的に検証し,知識蒸留の強化による一貫した改善を観察した。

A popular approach to model compression is to train an inexpensive student model to mimic the class probabilities of a highly accurate but cumbersome teacher model. Surprisingly, this two-step knowledge distillation process often leads to higher accuracy than training the student directly on labeled data. To explain and enhance this phenomenon, we cast knowledge distillation as a semiparametric inference problem with the optimal student model as the target, the unknown Bayes class probabilities as nuisance, and the teacher probabilities as a plug-in nuisance estimate. By adapting modern semiparametric tools, we derive new guarantees for the prediction error of standard distillation and develop two enhancements -- cross-fitting and loss correction -- to mitigate the impact of teacher overfitting and underfitting on student performance. We validate our findings empirically on both tabular and image data and observe consistent improvements from our knowledge distillation enhancements.
翻訳日:2021-04-21 13:51:00 公開日:2021-04-20
# 一般住民の抑うつと不安に対するデジタル取得可能な10年間のリスクスコアの開発

Development of digitally obtainable 10-year risk scores for depression and anxiety in the general population ( http://arxiv.org/abs/2104.10087v1 )

ライセンス: Link先を確認
D. Morelli, N. Dolezalova, S. Ponzo, M. Colombo and D. Plans(参考訳) 世界における抑うつと不安の負担は高まっている。 これらの症状を発症するリスクが高まる個体の同定は、予防と最終的に医療負担の軽減を目標とする上で有効である。 我々は、40,000人以上の英国バイオバンク(UKB)の参加者による、既存のうつ病や不安をデジタル的に取得可能な情報を用いて、抑うつと不安を10年間予測するアルゴリズムを開発した。 The first 204 variables selected from UKB, Processing into > 520 features, alsoerative backward elimination using Cox proportional hazards model was performed to select predictors that account of the most of the predictive capabilities。 ベースラインと縮小モデルは、生存分析のためのディープニューラルネットワークアプローチであるCoxとDeepSurvを使用して、うつ病と不安のためにトレーニングされた。 coxモデルは抑うつと不安の検証データセット上で0.813と0.778の一致を達成した。 DeepSurvモデルでは、それぞれ0.805と0.774である。 特徴選択後、抑うつモデルは43の予測器を含み、一致指数はCoxとDeepSurvのそれぞれ0.801であった。 緩和された不安モデルには27の予測器があり、両方のモデルで0.770の一致を達成した。 最終モデルは, テストデータセットの判別と校正が良好であり, スマートフォンで容易に入手可能な予測器を組み込んだUKBコホートを用いて, 抑うつと不安の高い予測リスクスコアを開発した。 デジタルソリューションにデプロイすれば、個人がリスクを追跡できるだけでなく、ライフスタイルの変化によってそのリスクを減らせるための指標も提供される。

The burden of depression and anxiety in the world is rising. Identification of individuals at increased risk of developing these conditions would help to target them for prevention and ultimately reduce the healthcare burden. We developed a 10-year predictive algorithm for depression and anxiety using the full cohort of over 400,000 UK Biobank (UKB) participants without pre-existing depression or anxiety using digitally obtainable information. From the initial 204 variables selected from UKB, processed into > 520 features, iterative backward elimination using Cox proportional hazards model was performed to select predictors which account for the majority of its predictive capability. Baseline and reduced models were then trained for depression and anxiety using both Cox and DeepSurv, a deep neural network approach to survival analysis. The baseline Cox model achieved concordance of 0.813 and 0.778 on the validation dataset for depression and anxiety, respectively. For the DeepSurv model, respective concordance indices were 0.805 and 0.774. After feature selection, the depression model contained 43 predictors and the concordance index was 0.801 for both Cox and DeepSurv. The reduced anxiety model, with 27 predictors, achieved concordance of 0.770 in both models. The final models showed good discrimination and calibration in the test datasets.We developed predictive risk scores with high discrimination for depression and anxiety using the UKB cohort, incorporating predictors which are easily obtainable via smartphone. If deployed in a digital solution, it would allow individuals to track their risk, as well as provide some pointers to how to decrease it through lifestyle changes.
翻訳日:2021-04-21 13:50:44 公開日:2021-04-20
# 単一環境からのG-不変性学習のためのニューラルネットワーク

Neural Networks for Learning Counterfactual G-Invariances from Single Environments ( http://arxiv.org/abs/2104.10105v1 )

ライセンス: Link先を確認
S Chandra Mouli and Bruno Ribeiro(参考訳) データに適合する驚くべき能力があるにも関わらず、ニューラルネットワークはトレーニングデータ分散以上の外挿が困難であると考えられている。 この研究は、有限変換群に基づく外挿に対して、モデルが外挿できないことは、その能力とは無関係であることを示している。 無限に多くのトレーニング例で明示的に観察されていない例は、学習者のモデルにおいて不特定な結果をもたらします。 ニューラルネットワークにグループ変換を外挿する能力を与えるために,学習者が学習データと矛盾していると判断しない限り,(既知の)変換グループに対する群不変性は証拠なしでも必須である,という学習仮説に反する学習枠組みを導入する。 既存の非分散駆動(counterfactual)外挿法とは異なり、このフレームワークは単一の環境からの外挿を可能にする。 最後に、我々のフレームワークを検証し、従来のアプローチの欠点を示すシーケンスとイメージの外挿タスクを紹介する。

Despite -- or maybe because of -- their astonishing capacity to fit data, neural networks are believed to have difficulties extrapolating beyond training data distribution. This work shows that, for extrapolations based on finite transformation groups, a model's inability to extrapolate is unrelated to its capacity. Rather, the shortcoming is inherited from a learning hypothesis: Examples not explicitly observed with infinitely many training examples have underspecified outcomes in the learner's model. In order to endow neural networks with the ability to extrapolate over group transformations, we introduce a learning framework counterfactually-gui ded by the learning hypothesis that any group invariance to (known) transformation groups is mandatory even without evidence, unless the learner deems it inconsistent with the training data. Unlike existing invariance-driven methods for (counterfactual) extrapolations, this framework allows extrapolations from a single environment. Finally, we introduce sequence and image extrapolation tasks that validate our framework and showcase the shortcomings of traditional approaches.
翻訳日:2021-04-21 13:50:15 公開日:2021-04-20
# 空間的注意を伴う視覚ナビゲーション

Visual Navigation with Spatial Attention ( http://arxiv.org/abs/2104.09807v1 )

ライセンス: Link先を確認
Bar Mayo, Tamir Hazan and Ayellet Tal(参考訳) 本研究は,あるクラスからオブジェクトの位置を見つけることを目的としたオブジェクトゴール視覚ナビゲーションに焦点を当て,各ステップでエージェントにシーンのエゴセントリックなRGB画像を提供する。 強化学習アルゴリズムを用いてエージェントの方針を学ぶことを提案する。 我々の重要な貢献は視覚ナビゲーションタスクのための新しい注意確率モデルである。 この注意は、観測対象に関する意味情報と、その場所に関する空間情報とをエンコードする。 この "what" と "where" の組み合わせにより、エージェントは後続のオブジェクトを効果的にナビゲートできる。 注意モデルは、エージェントのポリシーを改善し、一般的に使用されるデータセットの最先端結果を達成するために示される。

This work focuses on object goal visual navigation, aiming at finding the location of an object from a given class, where in each step the agent is provided with an egocentric RGB image of the scene. We propose to learn the agent's policy using a reinforcement learning algorithm. Our key contribution is a novel attention probability model for visual navigation tasks. This attention encodes semantic information about observed objects, as well as spatial information about their place. This combination of the "what" and the "where" allows the agent to navigate toward the sought-after object effectively. The attention model is shown to improve the agent's policy and to achieve state-of-the-art results on commonly-used datasets.
翻訳日:2021-04-21 13:49:55 公開日:2021-04-20
# マルチタスクArcFaceによるマスク付き顔認識

Boosting Masked Face Recognition with Multi-Task ArcFace ( http://arxiv.org/abs/2104.09874v1 )

ライセンス: Link先を確認
David Montero, Marcos Nieto, Peter Leskovsky and Naiara Aginako(参考訳) 本稿では,マスクを用いた顔認識の問題に対処する。 新型コロナウイルス(COVID-19)による世界的な健康危機を考えると、口と鼻を覆うマスクは日常的に着用することが不可欠になっている。 この衛生対策により、現在最先端の顔認識モデルは、マスクされた顔を扱うように設計されていないため、ロープの上に置かれている。 また、被検体がマスクを着用しているかどうかを検知してウイルスの拡散を制御できるアプリケーションの必要性も生じている。 これらの問題を解決するために、バックボーンとロス関数にいくつかの変更を加えて、ArcFaceの作業に基づいて完全なトレーニングパイプラインが提示される。 元の顔認識データセットから、データ拡張を使用してマスク付きバージョンを生成し、トレーニングプロセス中に両方のデータセットを組み合わせる。 resnet-50に基づく選択されたネットワークは、計算コストを追加することなくマスク使用確率を出力するように修正されている。 さらに、ArcFaceの損失とマスク使用率の分類損失が組み合わさって、Multi-Task ArcFace (MTArcFace)と呼ばれる新しい関数が生まれる。 実験の結果,提案手法はマスキングされていないデータセットでほぼ同じ精度を維持しつつ,マスク面を扱う際の元のモデルの精度を高く向上させることがわかった。 さらに、マスク使用分類の平均精度は99.78%である。

In this paper, we address the problem of face recognition with masks. Given the global health crisis caused by COVID-19, mouth and nose-covering masks have become an essential everyday-clothing-ac cessory. This sanitary measure has put the state-of-the-art face recognition models on the ropes since they have not been designed to work with masked faces. In addition, the need has arisen for applications capable of detecting whether the subjects are wearing masks to control the spread of the virus. To overcome these problems a full training pipeline is presented based on the ArcFace work, with several modifications for the backbone and the loss function. From the original face-recognition dataset, a masked version is generated using data augmentation, and both datasets are combined during the training process. The selected network, based on ResNet-50, is modified to also output the probability of mask usage without adding any computational cost. Furthermore, the ArcFace loss is combined with the mask-usage classification loss, resulting in a new function named Multi-Task ArcFace (MTArcFace). Experimental results show that the proposed approach highly boosts the original model accuracy when dealing with masked faces, while preserving almost the same accuracy on the original non-masked datasets. Furthermore, it achieves an average accuracy of 99.78% in mask-usage classification.
翻訳日:2021-04-21 13:49:45 公開日:2021-04-20
# 二次元姿勢推定を用いたテーブルテニスストローク認識

Table Tennis Stroke Recognition Using Two-Dimensional Human Pose Estimation ( http://arxiv.org/abs/2104.09907v1 )

ライセンス: Link先を確認
Kaustubh Milind Kulkarni and Sucheth Shenoy(参考訳) 本稿では,卓球映像データを集め,ストローク検出と分類を行う新しい手法を提案する。 14人のプロ卓球選手から得られた11の基本的なストロークのビデオデータを含む多種多様なデータセットを,提案手法を用いて合計22111本の動画を収集した。 2次元ポーズ推定を用いて開発された時間畳み込みニューラルネットワークモデルは、99.37%の精度で11のテーブルテニスストロークのマルチクラス分類を行う。 さらに、ニューラルネットワークはトレーニングとバリデーションデータセットから除外されたプレイヤーのデータよりもよく一般化され、新鮮なストロークを98.72%の精度で分類する。 機械学習とディープラーニングに基づくアプローチを用いた様々なモデルアーキテクチャがストローク認識のために訓練され、それらの性能の比較とベンチマークが行われた。 モデルを用いた選手のパフォーマンスモニタリングやストローク比較などの推論について論じている。 そこで本研究では,前回未発表のスポーツ,すなわち選手のストロークに焦点をあてた卓球スポーツのコンピュータビジョンに基づくスポーツ分析システムの開発に寄与する。

We introduce a novel method for collecting table tennis video data and perform stroke detection and classification. A diverse dataset containing video data of 11 basic strokes obtained from 14 professional table tennis players, summing up to a total of 22111 videos has been collected using the proposed setup. The temporal convolutional neural network model developed using 2D pose estimation performs multiclass classification of these 11 table tennis strokes with a validation accuracy of 99.37%. Moreover, the neural network generalizes well over the data of a player excluded from the training and validation dataset, classifying the fresh strokes with an overall best accuracy of 98.72%. Various model architectures using machine learning and deep learning based approaches have been trained for stroke recognition and their performances have been compared and benchmarked. Inferences such as performance monitoring and stroke comparison of the players using the model have been discussed. Therefore, we are contributing to the development of a computer vision based sports analytics system for the sport of table tennis that focuses on the previously unexploited aspect of the sport i.e., a player's strokes, which is extremely insightful for performance improvement.
翻訳日:2021-04-21 13:49:25 公開日:2021-04-20
# 変動関係点補完ネットワーク

Variational Relational Point Completion Network ( http://arxiv.org/abs/2104.10154v1 )

ライセンス: Link先を確認
Liang Pan, Xinyi Chen, Zhongang Cai, Junzhe Zhang, Haiyu Zhao, Shuai Yi, Ziwei Liu(参考訳) 実走査点雲はしばしば視点、閉塞、ノイズのために不完全である。 既存のポイントクラウド補完法は、グローバル形状スケルトンを生成する傾向があるため、詳細な局所的詳細が欠落している。 さらに、主に決定論的部分完備写像を学習するが、人工物体の構造的関係を見落としている。 これらの課題に対処するために,1)確率的モデリング(probabilistic Modeling)という2つの特性を持つ変分関係点補完ネットワーク(VRCNet)を提案する。 特に,部分的および完全的クラウド間の原理的確率的モデリングを可能にするデュアルパスアーキテクチャを提案する。 1つのパスは、ポイントVAEを学習することで、再構築のために完全なポイントクラウドを消費する。 他の経路は、訓練中に再構成経路から得られた分布により埋め込み分布が導かれる部分点雲の完全な形状を生成する。 2)関係強化。 具体的には,自己アテンションカーネルとポイント選択カーネルモジュールを慎重に設計し,粗い完了に条件付けられた局所形状の詳細を洗練させる。 さらに,100,000以上の高品質スキャンを含むマルチビュー部分点クラウドデータセット(mvpデータセット)をコントリビュートし,各3dcadモデルに対して,26個の一様分散カメラポーズから部分3d形状を描画する。 大規模な実験により、VRCNetはすべての標準ポイントクラウド補完ベンチマークで最先端の手法より優れていることが示された。 特にVRCNetは、現実世界のクラウドスキャンで非常に一般化性と堅牢性を示している。

Real-scanned point clouds are often incomplete due to viewpoint, occlusion, and noise. Existing point cloud completion methods tend to generate global shape skeletons and hence lack fine local details. Furthermore, they mostly learn a deterministic partial-to-complete mapping, but overlook structural relations in man-made objects. To tackle these challenges, this paper proposes a variational framework, Variational Relational point Completion network (VRCNet) with two appealing properties: 1) Probabilistic Modeling. In particular, we propose a dual-path architecture to enable principled probabilistic modeling across partial and complete clouds. One path consumes complete point clouds for reconstruction by learning a point VAE. The other path generates complete shapes for partial point clouds, whose embedded distribution is guided by distribution obtained from the reconstruction path during training. 2) Relational Enhancement. Specifically, we carefully design point self-attention kernel and point selective kernel module to exploit relational point features, which refines local shape details conditioned on the coarse completion. In addition, we contribute a multi-view partial point cloud dataset (MVP dataset) containing over 100,000 high-quality scans, which renders partial 3D shapes from 26 uniformly distributed camera poses for each 3D CAD model. Extensive experiments demonstrate that VRCNet outperforms state-of-theart methods on all standard point cloud completion benchmarks. Notably, VRCNet shows great generalizability and robustness on real-world point cloud scans.
翻訳日:2021-04-21 13:49:07 公開日:2021-04-20
# 交通映像における異常検出の効率的な手法

An Efficient Approach for Anomaly Detection in Traffic Videos ( http://arxiv.org/abs/2104.09758v1 )

ライセンス: Link先を確認
Keval Doshi, Yasin Yilmaz(参考訳) インテリジェントな交通システムとの関係から,近年,交通映像の異常検出が注目されている。 温度、視界、照明条件などのリアルタイムトラフィックフィードの画質に影響を与える様々な要因があるため、これは依然として難しい問題である。 state-of-the-artメソッドは利用可能なベンチマークデータセットでうまく動作しますが、大量の外部トレーニングデータとかなりの計算リソースが必要です。 本稿では,エッジデバイス,例えば路面カメラで動作可能な映像異常検出システムに対して,効率的な手法を提案する。 提案手法は,シーンの変化を検知し,破損したフレームを除去する前処理モジュールと,2段階の背景モデリングモジュールと2段階の物体検出モジュールを備える。 最後に、バックトラッキング異常検出アルゴリズムが類似度統計を計算し、異常の開始時刻を決定する。 また,新しいシーンに迅速に適応し,類似度統計量の変化を検出するシーケンシャルな変化検出アルゴリズムを提案する。 2021年AIシティチャレンジのトラック4テストセットの実験結果は、F1スコアの0.9157と8.4027ルート平均二乗誤差(RMSE)を達成し、競争で第4位となるフレームワークの有効性を示している。

Due to its relevance in intelligent transportation systems, anomaly detection in traffic videos has recently received much interest. It remains a difficult problem due to a variety of factors influencing the video quality of a real-time traffic feed, such as temperature, perspective, lighting conditions, and so on. Even though state-of-the-art methods perform well on the available benchmark datasets, they need a large amount of external training data as well as substantial computational resources. In this paper, we propose an efficient approach for a video anomaly detection system which is capable of running at the edge devices, e.g., on a roadside camera. The proposed approach comprises a pre-processing module that detects changes in the scene and removes the corrupted frames, a two-stage background modelling module and a two-stage object detector. Finally, a backtracking anomaly detection algorithm computes a similarity statistic and decides on the onset time of the anomaly. We also propose a sequential change detection algorithm that can quickly adapt to a new scene and detect changes in the similarity statistic. Experimental results on the Track 4 test set of the 2021 AI City Challenge show the efficacy of the proposed framework as we achieve an F1-score of 0.9157 along with 8.4027 root mean square error (RMSE) and are ranked fourth in the competition.
翻訳日:2021-04-21 13:48:42 公開日:2021-04-20
# スパイクニューラルネットワークにおける教師なしパターン認識のための重み分岐促進の原理

The principle of weight divergence facilitation for unsupervised pattern recognition in spiking neural networks ( http://arxiv.org/abs/2104.09943v1 )

ライセンス: Link先を確認
Oleg Nikitin, Olga Lukyanova, Alex Kunin(参考訳) 信号処理タスクと生体ニューロンの並列性は、入力信号認識の自己組織化最適化の原理の理解につながる。 本稿では,生物システムと技術システムの類似性について論じる。 本稿では,背景雑音と相関信号の最大差に付随する状態に重み修正を向ける,よく知られたSTDPシナプス可塑性規則の追加を提案する。 物理的に制約された重量成長の原理は、重量の修正の制御の基礎として用いられる。 可塑性発現に必要な生化学的「物質」の存在と生産によって生物学的シナプス直列修飾が制限されることが示唆された。 本稿では,このような物質の生成と貯蔵を制御し,ニューロンのシナプス圧を最高の信号-雑音比で制御するために,ノイズ-信号比に関する情報を用いる。 異なる入力信号系を用いたいくつかの実験は、提案手法の機能を理解すると考えられる。

Parallels between the signal processing tasks and biological neurons lead to an understanding of the principles of self-organized optimization of input signal recognition. In the present paper, we discuss such similarities among biological and technical systems. We propose the addition to the well-known STDP synaptic plasticity rule to directs the weight modification towards the state associated with the maximal difference between the background noise and correlated signals. The principle of physically constrained weight growth is used as a basis for such control of the modification of the weights. It is proposed, that biological synaptic straight modification is restricted by the existence and production of bio-chemical 'substances' needed for plasticity development. In this paper, the information about the noise-to-signal ratio is used to control such a substances' production and storage and to drive the neuron's synaptic pressures towards the state with the best signal-to-noise ratio. Several experiments with different input signal regimes are considered to understand the functioning of the proposed approach.
翻訳日:2021-04-21 13:48:19 公開日:2021-04-20
# 平均シフトインスパイアアルゴリズムによる空間分割と回帰モード探索

Space Partitioning and Regression Mode Seeking via a Mean-Shift-Inspired Algorithm ( http://arxiv.org/abs/2104.10103v1 )

ライセンス: Link先を確認
Wanli Qiao and Amarda Shehu(参考訳) mean shift (ms) アルゴリズムは、サンプルポイントを収集し、反復勾配の上昇に基づくアイデアを用いて、カーネル密度推定の局所モードを見つけるために使用される非パラメトリックな手法である。 本稿では,回帰関数のモードを推定し,入力空間内のサンプル点を分割する平均シフトインスパイアアルゴリズムを開発した。 アルゴリズムが生成したシーケンスの収束を証明し、基礎となる回帰モデルに対する推定局所モードの収束の非漸近速度を導出する。 また, 生体分子構造データへの応用を通して, データ検出のためのアルゴリズムの有用性を示す。 回帰関数のリッジを抽出するために用いられる部分空間制約平均シフト(SCMS)アルゴリズムの拡張について概説する。

The mean shift (MS) algorithm is a nonparametric method used to cluster sample points and find the local modes of kernel density estimates, using an idea based on iterative gradient ascent. In this paper we develop a mean-shift-inspired algorithm to estimate the modes of regression functions and partition the sample points in the input space. We prove convergence of the sequences generated by the algorithm and derive the non-asymptotic rates of convergence of the estimated local modes for the underlying regression model. We also demonstrate the utility of the algorithm for data-enabled discovery through an application on biomolecular structure data. An extension to subspace constrained mean shift (SCMS) algorithm used to extract ridges of regression functions is briefly discussed.
翻訳日:2021-04-21 13:48:07 公開日:2021-04-20
# WSIにおけるスピッソイドメラノサイト性病変診断のための注意に基づく弱視監視フレームワーク

An Attention-based Weakly Supervised framework for Spitzoid Melanocytic Lesion Diagnosis in WSI ( http://arxiv.org/abs/2104.09878v1 )

ライセンス: Link先を確認
Roc\'io del Amor, La\"etitia Launet, Adri\'an Colomer, Ana\"is Moscard\'o, Andr\'es Mosquera-Zamudio, Carlos Monteagudo and Valery Naranjo(参考訳) メラノーマは皮膚がんによる死の大半の原因となる攻撃的な腫瘍である。 特に,びまん性黒色腫は,その曖昧な形態的特徴から最も困難な黒色腫の1つである。 診断と予後のための金の基準は、皮膚生検の分析である。 この過程において、皮膚病理学者は顕微鏡下で皮膚組織学のスライドを可視化する。 近年, コンピュータ支援診断システム(CAD)は, 臨床診断において病理医を支援できる有望なツールとして出現している。 それにもかかわらず、スピッツォイド病変の分析のための自動cadシステムはまだ提案されていない。 一般的な悪性黒色腫については,腫瘍領域の選択と良性あるいは悪性との診断の予測は認められていない。 そこで本研究では,適応型畳み込みニューラルネットワーク(CNN)を改良した帰納的伝達学習に基づく,エンドツーエンドの弱い教師付き深層学習モデルを提案する。 本フレームワークは、腫瘍パッチレベルパターンの発見を担当するソースモデルと、生検の特定診断に焦点を当てたターゲットモデルとから構成される。 後者は、複数のインスタンス学習ワークフローを通じてソースモデルのバックボーンをトレーニングし、生検レベルのスコアを得る。 提案手法の性能を評価するため,スピッツイド病変を有するプライベートスキンデータベースを用いて広範な実験を行った。 試験結果は、それぞれソースとターゲットモデルに対して0.9231と0.80の精度に達する。 さらに,熱地図は臨床医の医療的判断と直接一致しており,また大きな作業量のために病理医が見落としていた関心のパターンも強調されている。

Melanoma is an aggressive neoplasm responsible for the majority of deaths from skin cancer. Specifically, spitzoid melanocytic tumors are one of the most challenging melanocytic lesions due to their ambiguous morphological features. The gold standard for its diagnosis and prognosis is the analysis of skin biopsies. In this process, dermatopathologists visualize skin histology slides under a microscope, in a high time-consuming and subjective task. In the last years, computer-aided diagnosis (CAD) systems have emerged as a promising tool that could support pathologists in daily clinical practice. Nevertheless, no automatic CAD systems have yet been proposed for the analysis of spitzoid lesions. Regarding common melanoma, no proposed system allows both the selection of the tumoral region and the prediction of the diagnosis as benign or malignant. Motivated by this, we propose a novel end-to-end weakly-supervised deep learning model, based on inductive transfer learning with an improved convolutional neural network (CNN) to refine the embedding features of the latent space. The framework is composed of a source model in charge of finding the tumor patch-level patterns, and a target model focuses on the specific diagnosis of a biopsy. The latter retrains the backbone of the source model through a multiple instance learning workflow to obtain the biopsy-level scoring. To evaluate the performance of the proposed methods, we perform extensive experiments on a private skin database with spitzoid lesions. Test results reach an accuracy of 0.9231 and 0.80 for the source and the target models, respectively. Besides, the heat map findings are directly in line with the clinicians' medical decision and even highlight, in some cases, patterns of interest that were overlooked by the pathologist due to the huge workload.
翻訳日:2021-04-21 13:47:46 公開日:2021-04-20
# DynO: クラウドからデバイスへのディープニューラルネットワークの動的負荷

DynO: Dynamic Onloading of Deep Neural Networks from Cloud to Device ( http://arxiv.org/abs/2104.09949v1 )

ライセンス: Link先を確認
Mario Almeida, Stefanos Laskaridis, Stylianos I. Venieris, Ilias Leontiadis, Nicholas D. Lane(参考訳) 近年,畳み込みニューラルネットワーク(CNN)を用いたモバイルおよび組み込みアプリケーションの爆発的な成長が進んでいる。 過剰な計算要求を軽減するため、開発者は伝統的にクラウドのオフロードに頼り、高いインフラストラクチャコストとネットワーク条件への強い依存を誘発してきた。 一方、強力なSoCの出現は徐々にデバイス上での実行を可能にしている。 それでも、低層と中層のプラットフォームは、最先端のCNNを十分に走らせるのに苦戦している。 本稿では,デバイスの不均一性,帯域幅の変動,多目的要求などの課題を解決するために,両世界のベストを組み合わせる分散推論フレームワークdynoを提案する。 これを実現するための重要なコンポーネントは,CNN 固有のデータパッキング手法である。これは,負荷計算における CNN のさまざまな部分における精度要求の変動を利用して,その実行環境に推論を適用するために,分割点と転送されたデータ精度を共同で調整するスケジューラである。 定量的評価はdynoが現在の最先端技術を上回ることを示し、デバイスのみの実行よりもスループットを最大7.9倍向上させ、競合cnnオフロードシステムに比べて最大60倍少ないデータ転送を実現している。

Recently, there has been an explosive growth of mobile and embedded applications using convolutional neural networks(CNNs). To alleviate their excessive computational demands, developers have traditionally resorted to cloud offloading, inducing high infrastructure costs and a strong dependence on networking conditions. On the other end, the emergence of powerful SoCs is gradually enabling on-device execution. Nonetheless, low- and mid-tier platforms still struggle to run state-of-the-art CNNs sufficiently. In this paper, we present DynO, a distributed inference framework that combines the best of both worlds to address several challenges, such as device heterogeneity, varying bandwidth and multi-objective requirements. Key components that enable this are its novel CNN-specific data packing method, which exploits the variability of precision needs in different parts of the CNN when onloading computation, and its novel scheduler that jointly tunes the partition point and transferred data precision at run time to adapt inference to its execution environment. Quantitative evaluation shows that DynO outperforms the current state-of-the-art, improving throughput by over an order of magnitude over device-only execution and up to 7.9x over competing CNN offloading systems, with up to 60x less data transferred.
翻訳日:2021-04-21 13:47:18 公開日:2021-04-20
# アルツハイマー病予測のための解剖学的メッシュの幾何学的深層学習

Geometric Deep Learning on Anatomical Meshes for the Prediction of Alzheimer's Disease ( http://arxiv.org/abs/2104.10047v1 )

ライセンス: Link先を確認
Ignacio Sarasua, Jonwong Lee, Christian Wachinger(参考訳) 幾何学的ディープラーニングは、与えられたタスクに最適な表現を見つけることができるので、事前定義された表現よりもパフォーマンスが向上する。 現在の研究は主に点表現に焦点を当てているが、メッシュは接続情報も含むため、基礎となる解剖学的表面のより包括的な特徴である。 本研究では,メッシュ表現を操作する幾何学的深層学習手法を4つ評価する。 これらのアプローチはテンプレートフリーおよびテンプレートベースのアプローチにグループ化することができ、テンプレートベースのメソッドは、共通の参照テンプレートと対応を定義することで、より精巧な事前処理ステップを必要とする。 我々は,海馬のメッシュに基づいて,アルツハイマー病の予測のための異なるネットワークを比較した。 本結果は,精度,学習可能なパラメータ数,学習速度の観点から,テンプレートベースの手法の利点を示す。 テンプレート作成はいくつかのアプリケーションで制限されているかもしれないが、Neuroimagingは自動化ツールを使ってテンプレートを構築する長い歴史がある。 全体として、メッシュを使った作業は、単純化されたポイントクラウドよりも関与するが、幾何学的なディープラーニングアーキテクチャを設計するための新たな手段も提供する。

Geometric deep learning can find representations that are optimal for a given task and therefore improve the performance over pre-defined representations. While current work has mainly focused on point representations, meshes also contain connectivity information and are therefore a more comprehensive characterization of the underlying anatomical surface. In this work, we evaluate four recent geometric deep learning approaches that operate on mesh representations. These approaches can be grouped into template-free and template-based approaches, where the template-based methods need a more elaborate pre-processing step with the definition of a common reference template and correspondences. We compare the different networks for the prediction of Alzheimer's disease based on the meshes of the hippocampus. Our results show advantages for template-based methods in terms of accuracy, number of learnable parameters, and training speed. While the template creation may be limiting for some applications, neuroimaging has a long history of building templates with automated tools readily available. Overall, working with meshes is more involved than working with simplistic point clouds, but they also offer new avenues for designing geometric deep learning architectures.
翻訳日:2021-04-21 13:46:56 公開日:2021-04-20
# 自律走行のための大規模対話型モーション予測 : Waymo Open Motion Dataset

Large Scale Interactive Motion Forecasting for Autonomous Driving : The Waymo Open Motion Dataset ( http://arxiv.org/abs/2104.10133v1 )

ライセンス: Link先を確認
Scott Ettinger, Shuyang Cheng, Benjamin Caine, Chenxi Liu, Hang Zhao, Sabeek Pradhan, Yuning Chai, Ben Sapp, Charles Qi, Yin Zhou, Zoey Yang, Aurelien Chouard, Pei Sun, Jiquan Ngiam, Vijay Vasudevan, Alexander McCauley, Jonathon Shlens, Dragomir Anguelov(参考訳) 自律運転システムが成熟するにつれて、運動予測は計画の重要な要件として注目を集めている。 特に重要なのは、個々の物体の動きを予測するだけでは不十分な、マージや無防備な回転などのインタラクティブな状況である。 効率的なルート計画には複数のオブジェクトの同時予測が必要である。 モーションプランニングモデルを開発するためには,インタラクションとアノテーションの両方に富む高品質なモーションデータが必要である。 本研究では,我々の知識に最も多様な対話型モーションデータセットを導入し,共同予測モデルの開発に適した対話型オブジェクトのラベルを提供する。 10万枚以上のシーンが10Hzで20秒に渡り、私たちの新しいデータセットには1750kmの道路上の570時間以上のユニークなデータが含まれています。 マイニングによって収集され、米国内の6都市にまたがる車両、歩行者、およびサイクリストの間の興味深いやりとりが収集された。 高精度な3D自動ラベルシステムを用いて,道路エージェントごとに高品質な3D境界ボックスを生成し,シーン毎に対応する高精細3Dマップを提供する。 さらに、単一エージェントと共同エージェントの相互作用動作予測モデルの両方を包括的に評価する新しいメトリクスセットを導入する。 最後に,個別エージェント予測と共同予測のための強力なベースラインモデルを提案する。 この新しい大規模インタラクティブモーションデータセットは、動き予測モデルに新たな機会を提供することを願っている。

As autonomous driving systems mature, motion forecasting has received increasing attention as a critical requirement for planning. Of particular importance are interactive situations such as merges, unprotected turns, etc., where predicting individual object motion is not sufficient. Joint predictions of multiple objects are required for effective route planning. There has been a critical need for high-quality motion data that is rich in both interactions and annotation to develop motion planning models. In this work, we introduce the most diverse interactive motion dataset to our knowledge, and provide specific labels for interacting objects suitable for developing joint prediction models. With over 100,000 scenes, each 20 seconds long at 10 Hz, our new dataset contains more than 570 hours of unique data over 1750 km of roadways. It was collected by mining for interesting interactions between vehicles, pedestrians, and cyclists across six cities within the United States. We use a high-accuracy 3D auto-labeling system to generate high quality 3D bounding boxes for each road agent, and provide corresponding high definition 3D maps for each scene. Furthermore, we introduce a new set of metrics that provides a comprehensive evaluation of both single agent and joint agent interaction motion forecasting models. Finally, we provide strong baseline models for individual-agent prediction and joint-prediction. We hope that this new large-scale interactive motion dataset will provide new opportunities for advancing motion forecasting models.
翻訳日:2021-04-21 13:46:39 公開日:2021-04-20
# 多エネルギーシステムにおけるモデル予測制御と強化学習

Model-predictive control and reinforcement learning in multi-energy system case studies ( http://arxiv.org/abs/2104.09785v1 )

ライセンス: Link先を確認
Glenn Ceusters, Rom\'an Cant\'u Rodr\'iguez, Alberte Bouso Garc\'ia, R\"udiger Franke, Geert Deconinck, Lieve Helsen, Ann Now\'e, Maarten Messagie, Luis Ramirez Camargo(参考訳) モデル予測制御(MPC)は、システム制約をすべて満たしつつ、マルチエネルギーシステムの全体の運用コストを最小限に抑えるための最適制御技術を提供する。 しかし,本手法では,誤差のモデル化が困難であり,必ずしも適応性がないシステム力学の適切なモデルを想定している。 これはプロジェクト固有のエンジニアリングコストと関連するものだ。 本稿では, 線形MPC (LMPC) に対して, 線形MPC (LMPC) をベンチマークすることで, 線形MPC (LMPC) の精度が向上するが, 一般の最適制御問題から導出し, 相違点と類似点を明らかにすることを目的とした, オンライン・オフ・オフ・オブジェクティブ強化学習 (RL) アプローチを提案する。 単純なマルチエネルギーシステム (MES) の構成ケーススタディでは、双子の遅延した深層決定性ポリシー勾配 (TD3) RL エージェントが完全なLMPCベンチマーク (101.5%) に適合し、性能を向上する可能性を示している。 これは現実的なLMPCである。 不完全予測は98%に過ぎません より複雑なmesシステム構成では、rlエージェントの性能は一般的に低い(94.6%)が、現実的なlmpc(88.9%)よりも優れている。 いずれの場合も、RLエージェントは、環境との四半期的相互作用を用いて2年間のトレーニング期間を経て、現実的なLMPCよりも優れていた。 強化学習は,本研究で提案されているような安全でない相互作用や長い訓練期間を避けるために,制約処理や事前学習を前提とした多エネルギーシステムの最適制御手法である。

Model-predictive-con trol (MPC) offers an optimal control technique to establish and ensure that the total operation cost of multi-energy systems remains at a minimum while fulfilling all system constraints. However, this method presumes an adequate model of the underlying system dynamics, which is prone to modelling errors and is not necessarily adaptive. This has an associated initial and ongoing project-specific engineering cost. In this paper, we present an on- and off-policy multi-objective reinforcement learning (RL) approach, that does not assume a model a priori, benchmarking this against a linear MPC (LMPC - to reflect current practice, though non-linear MPC performs better) - both derived from the general optimal control problem, highlighting their differences and similarities. In a simple multi-energy system (MES) configuration case study, we show that a twin delayed deep deterministic policy gradient (TD3) RL agent offers potential to match and outperform the perfect foresight LMPC benchmark (101.5%). This while the realistic LMPC, i.e. imperfect predictions, only achieves 98%. While in a more complex MES system configuration, the RL agent's performance is generally lower (94.6%), yet still better than the realistic LMPC (88.9%). In both case studies, the RL agents outperformed the realistic LMPC after a training period of 2 years using quarterly interactions with the environment. We conclude that reinforcement learning is a viable optimal control technique for multi-energy systems given adequate constraint handling and pre-training, to avoid unsafe interactions and long training periods, as is proposed in fundamental future work.
翻訳日:2021-04-21 13:46:18 公開日:2021-04-20
# braidnet: braid理論を用いた画像分類問題に対するニューラルネットワークの手続き的生成

BraidNet: procedural generation of neural networks for image classification problems using braid theory ( http://arxiv.org/abs/2104.10010v1 )

ライセンス: Link先を確認
Olga Lukyanova, Oleg Nikitin, Alex Kunin(参考訳) 本稿では,情報理論とブレイド理論の組み合わせに基づいて,ニューラルネットワークの手続き最適化手法を提案する。 この論文で研究されているネットワークは、ブレイドストランド間の交差と簡易ネットワーク(交差のないストランドと単純な畳み込み型ディープニューラルネットワークを持つネットワーク)と共に実装され、提案アーキテクチャの比較効果を解析できるマルチクラス画像分類の様々な問題を解決するために使用される。 シミュレーションの結果,braidnetは学習速度と分類精度において比較優位であった。

In this article, we propose the approach to procedural optimization of a neural network, based on the combination of information theory and braid theory. The network studied in the article implemented with the intersections between the braid strands, as well as simplified networks (a network with strands without intersections and a simple convolutional deep neural network), are used to solve various problems of multiclass image classification that allow us to analyze the comparative effectiveness of the proposed architecture. The simulation results showed BraidNet's comparative advantage in learning speed and classification accuracy.
翻訳日:2021-04-21 13:44:48 公開日:2021-04-20
# WASSA@IITK at WASSA 2021: Multi-task Learning and Transformer Finetuning for Emotion Classification and Empathy Prediction (英語)

WASSA@IITK at WASSA 2021: Multi-task Learning and Transformer Finetuning for Emotion Classification and Empathy Prediction ( http://arxiv.org/abs/2104.09827v1 )

ライセンス: Link先を確認
Jay Mundra, Rohan Gupta, Sagnik Mukherjee(参考訳) 本稿では,共感予測と感情分類に関するWASSA 2021共有課題への貢献について述べる。 このタスクの幅広い目標は、誰かへの危害に関連する新聞記事に反応して書かれたエッセイの共感スコア、苦難スコア、全体的な感情レベルをモデル化することであった。 我々はELECTRAモデルを多用しており、マルチタスク学習のような高度なディープラーニングアプローチも用いている。 さらに、ensemblingのような標準的な機械学習技術も活用しました。 本システムは,サブタスクIにおけるピアソン相関係数0.533,サブタスクIIにおけるマクロF1スコア0.5528を達成する。 感情分類サブタスク第1位,共感予測サブタスク第3位

This paper describes our contribution to the WASSA 2021 shared task on Empathy Prediction and Emotion Classification. The broad goal of this task was to model an empathy score, a distress score and the overall level of emotion of an essay written in response to a newspaper article associated with harm to someone. We have used the ELECTRA model abundantly and also advanced deep learning approaches like multi-task learning. Additionally, we also leveraged standard machine learning techniques like ensembling. Our system achieves a Pearson Correlation Coefficient of 0.533 on sub-task I and a macro F1 score of 0.5528 on sub-task II. We ranked 1st in Emotion Classification sub-task and 3rd in Empathy Prediction sub-task
翻訳日:2021-04-21 13:44:01 公開日:2021-04-20
# マスク付き言語モデルを用いたイライラし易い編集型言語ステガノグラフィー

Frustratingly Easy Edit-based Linguistic Steganography with a Masked Language Model ( http://arxiv.org/abs/2104.09833v1 )

ライセンス: Link先を確認
Honai Ueoka, Yugo Murawaki and Sadao Kurohashi(参考訳) 言語モデルの発展に伴い、言語ステガノグラフィーの焦点は編集ベースのアプローチから世代ベースのものへとシフトしている。 ペイロード容量は印象的ですが、本物のテキストを生成することはまだまだ難しいです。 本稿では,編集に基づく言語ステガノグラフィーを再考し,マスク付き言語モデルが既成のソリューションを提供するという考えを述べる。 提案手法は,難解なルール構成を排除し,編集ベースモデルに高いペイロード容量を有する。 また、セキュリティ/ペイロード容量のトレードオフをより制御しながら、世代ベースの方法よりも自動検出に対してより安全であることが示されている。

With advances in neural language models, the focus of linguistic steganography has shifted from edit-based approaches to generation-based ones. While the latter's payload capacity is impressive, generating genuine-looking texts remains challenging. In this paper, we revisit edit-based linguistic steganography, with the idea that a masked language model offers an off-the-shelf solution. The proposed method eliminates painstaking rule construction and has a high payload capacity for an edit-based model. It is also shown to be more secure against automatic detection than a generation-based method while offering better control of the security/payload capacity trade-off.
翻訳日:2021-04-21 13:43:49 公開日:2021-04-20
# HYPER^2: Hyper-Relational Link Prediction のためのハイパーボリック・ポインケア・エンベディング

HYPER^2: Hyperbolic Poincare Embedding for Hyper-Relational Link Prediction ( http://arxiv.org/abs/2104.09871v1 )

ライセンス: Link先を確認
Shiyao Yan, Zequn Zhang, Xian Sun, Guangluan Xu, Li Jin and Shuchao Li(参考訳) 事実を欠いたkgsの完成問題に対処するリンク予測は広く研究されている。 しかし、ユビキタスなハイパーリレーショナルkgsでは光量が少なくなる。 既存のハイパーリレーショナルkg埋め込みモデルのほとんどは、n-ary事実を小さなタプルに分解し、いくつかのn-ary事実の非可逆性を無視している。 他のフレームワークは特定のアリティ事実に対してのみ機能する一方で、プライマリトリプルの重要性を無視する。 本稿では,n-ary事実全体を表現し,n-ary事実の完全性を維持し,主三重項が果たす重要な役割を維持する。 さらに、双対データから任意のアリティデータへの双曲型ポインカー埋め込みを一般化するが、まだ研究されていない。 弱い表現性と複雑性の問題に取り組むため,我々は,接空間上の情報集約により,三重項内およびそれ以上の実体間の相互作用を捉えることができるハイパー^2を提案する。 HYPER^2はその翻訳や深部アナログよりも優れた性能を示し、SOTAを比較的少ない次元で最大34.5\%向上させる。 さらに、リテラルの副作用について検討し、理論的・実験的にHYPER^2の計算複雑性をいくつかの最高の性能ベースラインと比較した。

Link Prediction, addressing the issue of completing KGs with missing facts, has been broadly studied. However, less light is shed on the ubiquitous hyper-relational KGs. Most existing hyper-relational KG embedding models still tear an n-ary fact into smaller tuples, neglecting the indecomposability of some n-ary facts. While other frameworks work for certain arity facts only or ignore the significance of primary triple. In this paper, we represent an n-ary fact as a whole, simultaneously keeping the integrity of n-ary fact and maintaining the vital role that the primary triple plays. In addition, we generalize hyperbolic Poincar\'e embedding from binary to arbitrary arity data, which has not been studied yet. To tackle the weak expressiveness and high complexity issue, we propose HYPER^2 which is qualified for capturing the interaction between entities within and beyond triple through information aggregation on the tangent space. Extensive experiments demonstrate HYPER^2 achieves superior performance to its translational and deep analogues, improving SOTA by up to 34.5\% with relatively few dimensions. Moreover, we study the side effect of literals and we theoretically and experimentally compare the computational complexity of HYPER^2 against several best performing baselines, HYPER^2 is 49-61 times quicker than its counterparts.
翻訳日:2021-04-21 13:43:40 公開日:2021-04-20
# UIT-ISE-NLP at SemEval-2021 Task 5: Toxic Spans Detection with BiLSTM-CRF and Toxic Bert Comment Classification

UIT-ISE-NLP at SemEval-2021 Task 5: Toxic Spans Detection with BiLSTM-CRF and Toxic Bert Comment Classification ( http://arxiv.org/abs/2104.10100v1 )

ライセンス: Link先を確認
Son T. Luu, Ngan Luu-Thuy Nguyen(参考訳) 我々は,semeval-2021タスク5における有害スパンの検出について報告する。 このタスクは、投稿全体において有毒な単語を識別するモデルを構築することを目的としている。 Toxic Bert Classificationと組み合わせたBiLSTM-CRFモデルを用いて、投稿中の有害単語を特定するための検出モデルを訓練する。 トキシックスパンズ検出タスクにおいてF1スコアで62.23%を達成した。

We present our works on SemEval-2021 Task 5 about Toxic Spans Detection. This task aims to build a model for identifying toxic words in a whole posts. We use the BiLSTM-CRF model combining with Toxic Bert Classification to train the detection model for identifying toxic words in the posts. Our model achieved 62.23% by F1-score on the Toxic Spans Detection task.
翻訳日:2021-04-21 13:43:16 公開日:2021-04-20
# マルチモーダル理解の解決に向けて

Towards Solving Multimodal Comprehension ( http://arxiv.org/abs/2104.10139v1 )

ライセンス: Link先を確認
Pritish Sahu, Karan Sikka, and Ajay Divakaran(参考訳) 本稿では,手続き型マルチモーダルマシン理解問題(m3c)を対象とする。 このタスクには、マルチモーダル命令の所定のステップを理解し、それから質問に答えるaiが必要です。 テキスト入力のみを理解するためにAIが必要なバニラマシン理解タスクと比較して、AIが時間的および因果的要素とマルチモーダル入力の両方を理解する必要があるため、手続き的M3Cはより難しい。 最近、yagcioglu et al。 [35]M3Cを評価するためにRecipeQAデータセットを導入した。 最初のコントリビューションは、WoodworkQAとDecorationQAの2つの新しいM3Cデータセットの導入である。 次に、テキスト・クローゼスタイルの質問応答タスクを用いてM3Cを評価し、[35]からの質問応答生成法に固有のバイアスを強調し、質問応答選択のみから学習することで、素質のベースラインを不正にすることができる。 このナイーブなベースラインは、コンテキストとクエリの両方に注意を向ける質問応答型読み手[6]で使用される一般的な方法と似ています。 データセットに存在するこの自然発生バイアスは、最高のパフォーマンスモデルにも影響を及ぼすと仮定した。 提案した仮説を検証し、与えられたデータセットを修正してバイアス要素を除去できるアルゴリズムを提案する。 最後に、いくつかの強いベースラインを持つdebiasedデータセットのパフォーマンスを報告します。 バイアスを補正した後、すべての手法のパフォーマンスが8%から16%のマージンで低下するのを観察する。 これらのデータセットと分析が貴重なベンチマークを提供し、この分野のさらなる研究を促進することを期待しています。

This paper targets the problem of procedural multimodal machine comprehension (M3C). This task requires an AI to comprehend given steps of multimodal instructions and then answer questions. Compared to vanilla machine comprehension tasks where an AI is required only to understand a textual input, procedural M3C is more challenging as the AI needs to comprehend both the temporal and causal factors along with multimodal inputs. Recently Yagcioglu et al. [35] introduced RecipeQA dataset to evaluate M3C. Our first contribution is the introduction of two new M3C datasets- WoodworkQA and DecorationQA with 16K and 10K instructional procedures, respectively. We then evaluate M3C using a textual cloze style question-answering task and highlight an inherent bias in the question answer generation method from [35] that enables a naive baseline to cheat by learning from only answer choices. This naive baseline performs similar to a popular method used in question answering- Impatient Reader [6] that uses attention over both the context and the query. We hypothesized that this naturally occurring bias present in the dataset affects even the best performing model. We verify our proposed hypothesis and propose an algorithm capable of modifying the given dataset to remove the bias elements. Finally, we report our performance on the debiased dataset with several strong baselines. We observe that the performance of all methods falls by a margin of 8% - 16% after correcting for the bias. We hope these datasets and the analysis will provide valuable benchmarks and encourage further research in this area.
翻訳日:2021-04-21 13:43:05 公開日:2021-04-20
# N-aryリレーショナル知識ベースのための役割意識モデリング

Role-Aware Modeling for N-ary Relational Knowledge Bases ( http://arxiv.org/abs/2104.09780v1 )

ライセンス: Link先を確認
Yu Liu, Quanming Yao, Yong Li(参考訳) N-aryリレーショナル知識ベース(KB)は、二項的および二項的リレーショナル事実の知識を表す。 特にn-aryリレーショナルな事実では、関与するエンティティは異なる役割を演じる。例えば、三項関係のPlayCharacterInは、ACTOR、CHARACTER、MOVIEの3つの役割からなる。 しかし、既存のアプローチは、しばしばバイナリリレーショナルkb、すなわち知識グラフから直接拡張されるが、ロールの重要な意味的特性は欠落している。 そこで,我々はロールレベルから始めて,n-aryリレーショナルkbsの事実に対するロールアウェアモデリングであるramを提案する。 RAMは基底ベクトルを含む潜在空間を探索し、これらのベクトルの線形結合によって役割を表現する。 この方法では、セマンティックな役割が密接な表現を持つように促される。 ramはさらに、ロールと関連するすべてのエンティティの互換性をキャプチャするパターンマトリックスも導入している。 この目的のために、特定の役割や実体によって構成される事実の妥当性を測定するための多線形スコアリング関数を提供する。 また,RAMは論理的完全表現性と計算効率の両方を実現し,二項関係KBのアプローチをエレガントに一般化することを示した。 実験によると、RAMはn-aryとバイナリのリレーショナルデータセットの両方で代表ベースラインを上回っている。

N-ary relational knowledge bases (KBs) represent knowledge with binary and beyond-binary relational facts. Especially, in an n-ary relational fact, the involved entities play different roles, e.g., the ternary relation PlayCharacterIn consists of three roles, ACTOR, CHARACTER and MOVIE. However, existing approaches are often directly extended from binary relational KBs, i.e., knowledge graphs, while missing the important semantic property of role. Therefore, we start from the role level, and propose a Role-Aware Modeling, RAM for short, for facts in n-ary relational KBs. RAM explores a latent space that contains basis vectors, and represents roles by linear combinations of these vectors. This way encourages semantically related roles to have close representations. RAM further introduces a pattern matrix that captures the compatibility between the role and all involved entities. To this end, it presents a multilinear scoring function to measure the plausibility of a fact composed by certain roles and entities. We show that RAM achieves both theoretical full expressiveness and computation efficiency, which also provides an elegant generalization for approaches in binary relational KBs. Experiments demonstrate that RAM outperforms representative baselines on both n-ary and binary relational datasets.
翻訳日:2021-04-21 13:42:26 公開日:2021-04-20
# ビジネスプロセスのテキストアウェア予測モニタリング

Text-Aware Predictive Monitoring of Business Processes ( http://arxiv.org/abs/2104.09962v1 )

ライセンス: Link先を確認
Marco Pegoraro and Merih Seran Uysal and David Benedikt Georgi and Wil M.P. van der Aalst(参考訳) 過去のイベントデータを用いたビジネスプロセスのリアルタイム予測は、現代のビジネスプロセス監視システムの重要な機能である。 既存のプロセス予測手法は、制御フローの観点に加えて、記録されたイベントのデータパースペクティブも活用することができる。 しかし、よく構造化された数値的・カテゴリー的属性は多くの予測手法で考慮されているが、予測タスクに不可欠な情報を保持できる自然言語で書かれたテキスト文書を活用できる技術はほとんどない。 本稿では,Long Short-Term Memory(LSTM)ニューラルネットワークと自然言語モデルに基づく,新しいテキスト認識プロセス予測モデルの設計,実装,評価について述べる。 提案モデルは,次のイベントのアクティビティとタイムスタンプ,結果,実行中のプロセスインスタンスのサイクル時間を予測するために,イベントデータのカテゴリ的,数値的,テキスト的属性を考慮に入れることができる。 実験により、テキストデータを含むシミュレーションおよび実世界のイベントログにおいて、テキスト認識モデルが最先端プロセス予測手法を上回ることができることを示した。

The real-time prediction of business processes using historical event data is an important capability of modern business process monitoring systems. Existing process prediction methods are able to also exploit the data perspective of recorded events, in addition to the control-flow perspective. However, while well-structured numerical or categorical attributes are considered in many prediction techniques, almost no technique is able to utilize text documents written in natural language, which can hold information critical to the prediction task. In this paper, we illustrate the design, implementation, and evaluation of a novel text-aware process prediction model based on Long Short-Term Memory (LSTM) neural networks and natural language models. The proposed model can take categorical, numerical and textual attributes in event data into account to predict the activity and timestamp of the next event, the outcome, and the cycle time of a running process instance. Experiments show that the text-aware model is able to outperform state-of-the-art process prediction methods on simulated and real-world event logs containing textual data.
翻訳日:2021-04-21 13:42:05 公開日:2021-04-20
# 対向攻撃を促進する階段標識方法

Staircase Sign Method for Boosting Adversarial Attacks ( http://arxiv.org/abs/2104.09722v1 )

ライセンス: Link先を確認
Lianli Gao, Qilong Zhang, Xiaosu Zhu, Jingkuan Song and Heng Tao Shen(参考訳) トランスファーベースの攻撃の敵の例を作るのは難しいし、研究のホットスポットだ。 現在、このような攻撃法は、代用モデルと被害者のモデルが同様の決定境界を学習する仮説に基づいており、従来はシグネチャ法(SM)を適用して、結果として生じる摂動として勾配を操作する。 SMは効率的であるが、勾配単位の符号のみを抽出するが、その値差を無視し、必然的に重大な偏差をもたらす。 そこで本研究では,この問題を緩和し,転送ベースの攻撃を増強する新たなStaircase Sign Method (S$^2$M)を提案する。 技術的には, 勾配単位の値に応じて, 勾配符号を複数のセグメントにヒューリスティックに分割し, 各セグメントに階段重みを割り当て, 逆摂動を良くする。 結果として、私たちの敵対的な例は、ホワイトボックスとブラックボックスの両方で、より目立たずにパフォーマンスが向上します。 S$2$Mは結果の勾配を演算するだけなので、我々の手法は一般的に転送ベースの攻撃と統合することができ、計算オーバーヘッドは無視できる。 ImageNetデータセットの広範囲な実験により,提案手法の有効性が実証され,トランスファービリティが大幅に向上した(通常訓練されたモデルでは \textbf{5.1\%} ,敵訓練されたディフェンスでは \textbf{11.2\%} )。 私たちのコードは、 \url{https://github.com/q ilong-zhang/staircas e-sign-method} で利用可能です。

Crafting adversarial examples for the transfer-based attack is challenging and remains a research hot spot. Currently, such attack methods are based on the hypothesis that the substitute model and the victim's model learn similar decision boundaries, and they conventionally apply Sign Method (SM) to manipulate the gradient as the resultant perturbation. Although SM is efficient, it only extracts the sign of gradient units but ignores their value difference, which inevitably leads to a serious deviation. Therefore, we propose a novel Staircase Sign Method (S$^2$M) to alleviate this issue, thus boosting transfer-based attacks. Technically, our method heuristically divides the gradient sign into several segments according to the values of the gradient units, and then assigns each segment with a staircase weight for better crafting adversarial perturbation. As a result, our adversarial examples perform better in both white-box and black-box manner without being more visible. Since S$^2$M just manipulates the resultant gradient, our method can be generally integrated into any transfer-based attacks, and the computational overhead is negligible. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of our proposed methods, which significantly improve the transferability (i.e., on average, \textbf{5.1\%} for normally trained models and \textbf{11.2\%} for adversarially trained defenses). Our code is available at: \url{https://github.com/q ilong-zhang/Staircas e-sign-method}.
翻訳日:2021-04-21 13:41:36 公開日:2021-04-20
# 頭部・肩部におけるフローベースビデオセグメンテーション

Flow-based Video Segmentation for Human Head and Shoulders ( http://arxiv.org/abs/2104.09752v1 )

ライセンス: Link先を確認
Zijian Kuang and Xinran Tie(参考訳) 人間の頭と肩の映像セグメンテーションは、ビデオ会議やバーチャルリアリティーアプリケーションのためのエレガントなメディアを作成する上で不可欠である。 主な課題は、高品質なバックグラウンド減算をリアルタイムで処理し、会議ビデオ中に頭を振ったり手を振ったりといった、動きのぼかしの下でセグメンテーション問題に対処することだ。 ビデオセグメンテーションにおける動きのぼやけ問題を克服するため,従来のホルン・シュンク光フロー推定手法と畳み込みニューラルネットワークを組み合わせた新しいフローベースエンコーダ・デコーダネットワーク(funet)を提案し,ロバストなリアルタイム映像セグメンテーションを実現する。 ビデオと画像のセグメンテーションデータセットも紹介する。 コードと事前トレーニングされたモデルは、githubリポジトリで利用可能です。

Video segmentation for the human head and shoulders is essential in creating elegant media for videoconferencing and virtual reality applications. The main challenge is to process high-quality background subtraction in a real-time manner and address the segmentation issues under motion blurs, e.g., shaking the head or waving hands during conference video. To overcome the motion blur problem in video segmentation, we propose a novel flow-based encoder-decoder network (FUNet) that combines both traditional Horn-Schunck optical-flow estimation technique and convolutional neural networks to perform robust real-time video segmentation. We also introduce a video and image segmentation dataset: ConferenceVideoSegme ntationDataset. Code and pre-trained models are available on our GitHub repository: \url{https://github.com/k uangzijian/Flow-Base d-Video-Matting}.
翻訳日:2021-04-21 13:41:04 公開日:2021-04-20
# HMS: 効率的なビデオ認識のための階層的モダリティ選択

HMS: Hierarchical Modality Selectionfor Efficient Video Recognition ( http://arxiv.org/abs/2104.09760v1 )

ライセンス: Link先を確認
Zejia Weng, Zuxuan Wu, Hengduo Li, Yu-Gang Jiang(参考訳) ビデオは本質的にマルチモーダルです。 従来のビデオ認識パイプラインは通常、パフォーマンスを改善するためにマルチモーダル機能を融合する。 しかし、これは計算的に高価であるだけでなく、異なるビデオが予測に異なるモダリティに依存しているという事実も無視している。 本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。 HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外観や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。 これは、階層的な方法で組織化された3つのLSTMの協調によって達成される。 特に、低コストのモダリティで動作するLSTMには、低レベルの特徴と履歴情報を入力として取り込んで、対応するモダリティを活性化するかを適応的に決定するゲーティングモジュールが含まれている。 本研究では,FCVIDとActivityNetの2つの大規模ビデオベンチマークについて広範な実験を行い,提案手法により,より少ない計算量で分類性能を向上できることを示す。

Videos are multimodal in nature. Conventional video recognition pipelines typically fuse multimodal features for improved performance. However, this is not only computationally expensive but also neglects the fact that different videos rely on different modalities for predictions. This paper introduces Hierarchical Modality Selection (HMS), a simple yet efficient multimodal learning framework for efficient video recognition. HMS operates on a low-cost modality, i.e., audio clues, by default, and dynamically decides on-the-fly whether to use computationally-expe nsive modalities, including appearance and motion clues, on a per-input basis. This is achieved by the collaboration of three LSTMs that are organized in a hierarchical manner. In particular, LSTMs that operate on high-cost modalities contain a gating module, which takes as inputs lower-level features and historical information to adaptively determine whether to activate its corresponding modality; otherwise it simply reuses historical information. We conduct extensive experiments on two large-scale video benchmarks, FCVID and ActivityNet, and the results demonstrate the proposed approach can effectively explore multimodal information for improved classification performance while requiring much less computation.
翻訳日:2021-04-21 13:40:49 公開日:2021-04-20
# 映像予測のための学習意味認識ダイナミクス

Learning Semantic-Aware Dynamics for Video Prediction ( http://arxiv.org/abs/2104.09762v1 )

ライセンス: Link先を確認
Xinzhu Bei, Yanchao Yang, Stefano Soatto(参考訳) 本稿では,ビデオの非閉塞性を明示的にモデル化し,意味的に一貫した領域の進化を捉えることによって,映像フレームの予測を行うアーキテクチャとトレーニング手法を提案する。 シーンレイアウト(セマンティックマップ)とモーション(オプティカルフロー)はレイヤに分解され、将来のレイアウトや動きを生成するためにそのコンテキストと予測および融合される。 シーンの外観は、近視領域で予測された動きを用いて過去のフレームから歪められ、非閉塞領域は、予測されたシーンレイアウトを利用してコンテンツ対応の塗装で合成される。 その結果、オブジェクトを明示的に表現し、クラス固有の動作を学習する予測モデルとなり、ビデオ予測ベンチマークで評価する。

We propose an architecture and training scheme to predict video frames by explicitly modeling dis-occlusions and capturing the evolution of semantically consistent regions in the video. The scene layout (semantic map) and motion (optical flow) are decomposed into layers, which are predicted and fused with their context to generate future layouts and motions. The appearance of the scene is warped from past frames using the predicted motion in co-visible regions; dis-occluded regions are synthesized with content-aware inpainting utilizing the predicted scene layout. The result is a predictive model that explicitly represents objects and learns their class-specific motion, which we evaluate on video prediction benchmarks.
翻訳日:2021-04-21 13:40:30 公開日:2021-04-20
# SE-SSD:ポイントクラウドから1段階のオブジェクト検出器を自己組み立て

SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud ( http://arxiv.org/abs/2104.09804v1 )

ライセンス: Link先を確認
Wu Zheng, Weiliang Tang, Li Jiang, Chi-Wing Fu(参考訳) 屋外点雲における高精度かつ効率的な3次元物体検出のための自己組織化単段物体検出器(SE-SSD)を提案する。 私たちの重要な焦点は、推論に余分な計算を導入することなく、モデルの共同最適化のために、厳密な制約でソフトターゲットとハードターゲットの両方を活用することです。 特に、SE-SSDには教師と学生のSSDが一組含まれており、教師からソフトターゲットをフィルタリングし、生徒の予測を整合させるために一貫性損失を定式化する効果的なIoUベースのマッチング戦略を設計する。 また,教師を指導するための蒸留知識を最大化するために,学生を訓練するための形状認識型強化サンプルを作成するための新たな拡張スキームを設計し,完全な物体形状を推し進めることを目的とした。 最後に、ハードターゲットをよりうまく活用するために、予測されたボックスセンターと配向に制約のある学生を監督するために、ODIoU損失を設計する。 当社のSE-SSDは、以前のすべての作品と比較して最高のパフォーマンスを実現しています。 また、kittiベンチマーク(それぞれbevと3dリーダーボードで第1位と第2位)における車検出の最高精度を超高速で達成する。 コードはhttps://github.com/V egeta2020/SE-SSDで入手できる。

We present Self-Ensembling Single-Stage object Detector (SE-SSD) for accurate and efficient 3D object detection in outdoor point clouds. Our key focus is on exploiting both soft and hard targets with our formulated constraints to jointly optimize the model, without introducing extra computation in the inference. Specifically, SE-SSD contains a pair of teacher and student SSDs, in which we design an effective IoU-based matching strategy to filter soft targets from the teacher and formulate a consistency loss to align student predictions with them. Also, to maximize the distilled knowledge for ensembling the teacher, we design a new augmentation scheme to produce shape-aware augmented samples to train the student, aiming to encourage it to infer complete object shapes. Lastly, to better exploit hard targets, we design an ODIoU loss to supervise the student with constraints on the predicted box centers and orientations. Our SE-SSD attains top performance compared with all prior published works. Also, it attains top precisions for car detection in the KITTI benchmark (ranked 1st and 2nd on the BEV and 3D leaderboards, respectively) with an ultra-high inference speed. The code is available at https://github.com/V egeta2020/SE-SSD.
翻訳日:2021-04-21 13:40:19 公開日:2021-04-20
# CTNet:セマンティックセグメンテーションのためのコンテキストベースタンデムネットワーク

CTNet: Context-based Tandem Network for Semantic Segmentation ( http://arxiv.org/abs/2104.09805v1 )

ライセンス: Link先を確認
Zechao Li, Yanpeng Sun, and Jinhui Tang(参考訳) 文脈情報は意味セグメンテーションに強力であることが示されている。 本研究では,文脈情報とチャネルコンテキスト情報を対話的に探索し,意味的セグメンテーションのための意味的コンテキストを検出する,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。 具体的には、空間文脈モジュール(SCM)を用いて、画素とカテゴリの相関関係を探索することにより、画素間の空間文脈依存性を明らかにする。 一方、チャネル間の長期的な意味依存をモデル化し、意味的特徴マップやクラス固有の特徴を含む意味的特徴を学ぶために、チャネルコンテキストモジュール(ccm)が導入された。 学習した意味的特徴は、SCMの学習を導くための事前知識として利用され、SCMがより正確な長距離空間依存を得ることを可能にする。 最後に、セマンティックセグメンテーションのための学習表現の性能をさらに向上させるために、2つのコンテキストモジュールの結果を適応的に統合し、より良い結果を得る。 大規模な実験は、PASCAL-Context、ADE20K、PASCAL VOC2012の3つの広く使われているデータセットで行われている。 その結果,提案手法との比較により,提案手法の有効性が示された。

Contextual information has been shown to be powerful for semantic segmentation. This work proposes a novel Context-based Tandem Network (CTNet) by interactively exploring the spatial contextual information and the channel contextual information, which can discover the semantic context for semantic segmentation. Specifically, the Spatial Contextual Module (SCM) is leveraged to uncover the spatial contextual dependency between pixels by exploring the correlation between pixels and categories. Meanwhile, the Channel Contextual Module (CCM) is introduced to learn the semantic features including the semantic feature maps and class-specific features by modeling the long-term semantic dependence between channels. The learned semantic features are utilized as the prior knowledge to guide the learning of SCM, which can make SCM obtain more accurate long-range spatial dependency. Finally, to further improve the performance of the learned representations for semantic segmentation, the results of the two context modules are adaptively integrated to achieve better results. Extensive experiments are conducted on three widely-used datasets, i.e., PASCAL-Context, ADE20K and PASCAL VOC2012. The results demonstrate the superior performance of the proposed CTNet by comparison with several state-of-the-art methods.
翻訳日:2021-04-21 13:39:56 公開日:2021-04-20
# 分離によるセンサレス弱監視接地

Detector-Free Weakly Supervised Grounding by Separation ( http://arxiv.org/abs/2104.09829v1 )

ライセンス: Link先を確認
Assaf Arbelle, Sivan Doveh, Amit Alfassy, Joseph Shtok, Guy Lev, Eli Schwartz, Hilde Kuehne, Hila Barak Levi, Prasanna Sattigeri, Rameswar Panda, Chun-Fu Chen, Alex Bronstein, Kate Saenko, Shimon Ullman, Raja Giryes, Rogerio Feris, Leonid Karlinsky(参考訳) 現在、画像や周囲の自由形テキストを含むデータが、それらの画像に弱い対応を取っている。 Wakly Supervised phrase-Grounding (WSG)は、このデータを使用して任意のテキストフレーズを、追加のアノテーションなしで画像にローカライズ(あるいは接地)することを学ぶタスクを扱う。 しかし、WSG の最近の SotA 法は、事前訓練対象検出器の存在を前提として、位置決めのためのROI を生成する。 本研究では,事前学習した検出器を使わずにWSGを解くために,DF-WSG(De Detector-Free WSG)の課題に焦点を当てる。 我々は画像と関連する自由形式のテキストペアからすべてを直接学習するので、検出器によって囲まれたカテゴリの利点を得られる可能性がある。 提案手法の背景にある重要な考え方は,任意の画像対のランダムなアルファブレンディングによる「テキスト」と画像領域の関連付けを合成し,そのペアの対応するテキストを条件として使用して,混合画像からセグメンテーションネットワークを介してアルファマップを復元することである。 テスト時には、クエリ句を非バーテッドクエリ画像の条件として使用することができ、テスト画像をフレーズと補完領域に対応する領域の合成として解釈することができる。 このアプローチを用いることで、Flickr30K、Visual Genome、ReferItを含む様々なベンチマークに対して、以前のDF-WSG SotAよりも最大8.5\%の大幅な精度向上と、WSGの検出器ベースのアプローチに対する大幅な補完的改善($7\%以上)を示す。

Nowadays, there is an abundance of data involving images and surrounding free-form text weakly corresponding to those images. Weakly Supervised phrase-Grounding (WSG) deals with the task of using this data to learn to localize (or to ground) arbitrary text phrases in images without any additional annotations. However, most recent SotA methods for WSG assume the existence of a pre-trained object detector, relying on it to produce the ROIs for localization. In this work, we focus on the task of Detector-Free WSG (DF-WSG) to solve WSG without relying on a pre-trained detector. We directly learn everything from the images and associated free-form text pairs, thus potentially gaining an advantage on the categories unsupported by the detector. The key idea behind our proposed Grounding by Separation (GbS) method is synthesizing `text to image-regions' associations by random alpha-blending of arbitrary image pairs and using the corresponding texts of the pair as conditions to recover the alpha map from the blended image via a segmentation network. At test time, this allows using the query phrase as a condition for a non-blended query image, thus interpreting the test image as a composition of a region corresponding to the phrase and the complement region. Using this approach we demonstrate a significant accuracy improvement, of up to $8.5\%$ over previous DF-WSG SotA, for a range of benchmarks including Flickr30K, Visual Genome, and ReferIt, as well as a significant complementary improvement (above $7\%$) over the detector-based approaches for WSG.
翻訳日:2021-04-21 13:39:36 公開日:2021-04-20
# ロングテール分類のための新しい3段階訓練戦略

A novel three-stage training strategy for long-tailed classification ( http://arxiv.org/abs/2104.09830v1 )

ライセンス: Link先を確認
Gongzhe Li, Zhiwen Tan, Linpeng Pan(参考訳) ロングテールの分散データセットは、クラス不均衡問題の扱い方に関するディープラーニングベースの分類モデルにとって大きな課題となる。 既存のソリューションは通常、クラスバラッシング戦略や、ヘッドクラスからテールクラスへの転送リース、あるいは2段階の学習戦略を使って分類器を再訓練する。 しかし,SARにより画像が得られた場合,既存の手法では品質の低い問題を解くことは困難である。 この問題に対処するため,我々はSAR画像データセットを長期分布で処理するための優れた3段階トレーニング戦略を確立した。 具体的には,訓練手順を3段階に分けた。 最初の段階は、粗いトレーニングにあらゆる種類の画像を使用することで、リッチなコンテンツで粗いトレーニングモデルを得ることである。 第2段階は、クラス0を取り除いた残余データセットを使用して、粗いモデルに特徴式を学習させることである。 第3のステージは、クラスバランスデータセットを10クラスすべて(全体的なモデル微調整と分類器の再最適化を含む)すべてで微調整することである。 この新たなトレーニング戦略を通じて、SARイメージデータセットと非常に小さなパラメータを持つネットワークモデルの情報のみを使用して、開発フェーズにおけるトップ1の精度22.34を達成する。

The long-tailed distribution datasets poses great challenges for deep learning based classification models on how to handle the class imbalance problem. Existing solutions usually involve class-balacing strategies or transfer learing from head- to tail-classes or use two-stages learning strategy to re-train the classifier. However, the existing methods are difficult to solve the low quality problem when images are obtained by SAR. To address this problem, we establish a novel three-stages training strategy, which has excellent results for processing SAR image datasets with long-tailed distribution. Specifically, we divide training procedure into three stages. The first stage is to use all kinds of images for rough-training, so as to get the rough-training model with rich content. The second stage is to make the rough model learn the feature expression by using the residual dataset with the class 0 removed. The third stage is to fine tune the model using class-balanced datasets with all 10 classes (including the overall model fine tuning and classifier re-optimization). Through this new training strategy, we only use the information of SAR image dataset and the network model with very small parameters to achieve the top 1 accuracy of 22.34 in development phase.
翻訳日:2021-04-21 13:39:04 公開日:2021-04-20
# マルチビュー衛星フォトグラフィーのためのシャドウニューラルラジアンス場

Shadow Neural Radiance Fields for Multi-view Satellite Photogrammetry ( http://arxiv.org/abs/2104.09877v1 )

ライセンス: Link先を確認
Dawa Derksen, Dario Izzo(参考訳) 我々は,地球観測シーンの影対応多視点衛星写真撮影のための新しい総合的手法を提案する。 提案手法であるシャドウニューラルレージアンス場(S-NeRF)は,暗黙の容積表現学習の最近の進歩に追随する。 各シーンに対して、既知の視角から得られた高分解能光画像を用いてS-NeRFを訓練する。 学習はラベルや形状の事前を必要とせず、画像再構成損失によって自己管理される。 指向性光源(太陽)と拡散性光源(天空)の両方からの光源条件の変化に対応するため、NeRFアプローチを2つの方法で拡張する。 まず、太陽からの直接照明は、局所光源可視領域を介してモデル化される。 第二に、拡散光源からの間接照明は、太陽の位置の関数として非局所色場として学習される。 定量的に、これらの因子の組み合わせは、日陰領域の高度と色誤差をNeRFと比較して減少させる。 S-NeRF法は、新しいビュー合成と完全な3次元形状推定を行うだけでなく、シャドー検出、アルベド合成、過渡的なオブジェクトフィルタリングを可能にする。

We present a new generic method for shadow-aware multi-view satellite photogrammetry of Earth Observation scenes. Our proposed method, the Shadow Neural Radiance Field (S-NeRF) follows recent advances in implicit volumetric representation learning. For each scene, we train S-NeRF using very high spatial resolution optical images taken from known viewing angles. The learning requires no labels or shape priors: it is self-supervised by an image reconstruction loss. To accommodate for changing light source conditions both from a directional light source (the Sun) and a diffuse light source (the sky), we extend the NeRF approach in two ways. First, direct illumination from the Sun is modeled via a local light source visibility field. Second, indirect illumination from a diffuse light source is learned as a non-local color field as a function of the position of the Sun. Quantitatively, the combination of these factors reduces the altitude and color errors in shaded areas, compared to NeRF. The S-NeRF methodology not only performs novel view synthesis and full 3D shape estimation, it also enables shadow detection, albedo synthesis, and transient object filtering, without any explicit shape supervision.
翻訳日:2021-04-21 13:38:45 公開日:2021-04-20
# 生成逆ネットワークの改良によるセマンティックセグメンテーション

Semantic Segmentation by Improved Generative Adversarial Networks ( http://arxiv.org/abs/2104.09917v1 )

ライセンス: Link先を確認
ZengShun Zhaoa (1), Yulong Wang (1), Ke Liu (1), Haoran Yang (1), Qian Sun (1), Heng Qiao (2) ((1) Shandong University of Science and Technology,(2) University of Florida)(参考訳) ほとんどの既存のセグメンテーション手法は、通常CNNの強力な特徴抽出機能と条件付きランダムフィールド(CRF)後処理を組み合わせたが、結果は常にCRFの欠点によって制限される。 計算速度が遅く、CRFの効率が低かったことで、近年、CRFのポスト処理は徐々に廃止されている。 本稿では,画像意味的セグメンテーションタスク(GANによる意味的セグメンテーション,Seg-GANによる意味的セグメンテーション)のためのGAN(Generative Adversarial Networks)を改良し,セグメンテーション研究を促進する。 さらに,画像意味セグメンテーションタスクの効果的な改善ソリューションとして,畳み込みCRF(ConvCRF)を導入する。 提案する識別器ネットワークは, 基本真実分布からのセグメンテーション結果を識別し, 出力画像の詳細を改善することを目的として, カスケードされたConvCRFと組み合わせて, 完全な畳み込み方式で特別に設計されている。 さらに、敵対的損失は、出力画像が基底真実の分布に近接することを積極的に促す。 本手法は,入力画像から対応する出力画像へのエンドツーエンドマッピングを学習するだけでなく,このマッピングを訓練するための損失関数も学習する。 実験の結果,本手法は最先端手法よりも優れた性能を示すことがわかった。

While most existing segmentation methods usually combined the powerful feature extraction capabilities of CNNs with Conditional Random Fields (CRFs) post-processing, the result always limited by the fault of CRFs . Due to the notoriously slow calculation speeds and poor efficiency of CRFs, in recent years, CRFs post-processing has been gradually eliminated. In this paper, an improved Generative Adversarial Networks (GANs) for image semantic segmentation task (semantic segmentation by GANs, Seg-GAN) is proposed to facilitate further segmentation research. In addition, we introduce Convolutional CRFs (ConvCRFs) as an effective improvement solution for the image semantic segmentation task. Towards the goal of differentiating the segmentation results from the ground truth distribution and improving the details of the output images, the proposed discriminator network is specially designed in a full convolutional manner combined with cascaded ConvCRFs. Besides, the adversarial loss aggressively encourages the output image to be close to the distribution of the ground truth. Our method not only learns an end-to-end mapping from input image to corresponding output image, but also learns a loss function to train this mapping. The experiments show that our method achieves better performance than state-of-the-art methods.
翻訳日:2021-04-21 13:38:25 公開日:2021-04-20
# fitzpatrick 17kデータセットを用いた皮膚科の臨床画像に基づく深層ニューラルネットワークの評価

Evaluating Deep Neural Networks Trained on Clinical Images in Dermatology with the Fitzpatrick 17k Dataset ( http://arxiv.org/abs/2104.09957v1 )

ライセンス: Link先を確認
Matthew Groh, Caleb Harris, Luis Soenksen, Felix Lau, Rachel Han, Aerin Kim, Arash Koochek, Omar Badri(参考訳) 皮膚疾患の臨床像を分類するために訓練された深層ニューラルネットワークモデルの精度は、皮膚の色によってどのように異なるのか? 近年の研究では、コンピュータビジョンモデルが医療において有用な意思決定支援ツールとして機能し、皮膚科医にいくつかの特定のタスクを分類できることが示されている。 ほとんどの公開データセットには、フィッツパトリックスキンタイプのラベルは含まれていない。 Fitzpatrick skin type labels を併用した2例の臨床像から得られた16,577点の注釈とこれらのアノテーションのオープンソース化を行った。 これらのラベルに基づいて、このデータセットには、暗い肌のタイプよりも、明るい肌のタイプのイメージがかなり多いことがわかった。 我々は、深層ニューラルネットワークモデルをトレーニングし、114の皮膚条件を分類し、トレーニングされたものと類似した皮膚タイプで最も正確なモデルを見つける。 また,皮膚の音色を識別するためのアルゴリズム的アプローチとして,人間のラベルを付したFitzpatrickスキンタイプラベルとの比較を行った。

How does the accuracy of deep neural network models trained to classify clinical images of skin conditions vary across skin color? While recent studies demonstrate computer vision models can serve as a useful decision support tool in healthcare and provide dermatologist-level classification on a number of specific tasks, darker skin is underrepresented in the data. Most publicly available data sets do not include Fitzpatrick skin type labels. We annotate 16,577 clinical images sourced from two dermatology atlases with Fitzpatrick skin type labels and open-source these annotations. Based on these labels, we find that there are significantly more images of light skin types than dark skin types in this dataset. We train a deep neural network model to classify 114 skin conditions and find that the model is most accurate on skin types similar to those it was trained on. In addition, we evaluate how an algorithmic approach to identifying skin tones, individual typology angle, compares with Fitzpatrick skin type labels annotated by a team of human labelers.
翻訳日:2021-04-21 13:38:03 公開日:2021-04-20
# コントラスト特徴を用いた同義語参照表現の理解

Understanding Synonymous Referring Expressions via Contrastive Features ( http://arxiv.org/abs/2104.10156v1 )

ライセンス: Link先を確認
Yi-Wen Chen, Yi-Hsuan Tsai, Ming-Hsuan Yang(参考訳) reference expression comprehensionは、自然言語記述によって識別されるオブジェクトをローカライズすることを目的としている。 ビジュアルドメインと言語ドメインの両方を理解する必要があるため、これは難しいタスクです。 一つの性質は、各対象がパラフレーズの同義語で記述できることであり、言語におけるそのような多様体は理解モデルを学ぶことに決定的な影響を及ぼす。 先行研究は通常,各文を別々に扱うが,同義語の性質を考慮した参照表現理解モデルを学習することに集中する。 この目的のために、画像とオブジェクトのインスタンスレベルのコントラスト的特徴を学習するためのエンドツーエンドのトレーニング可能なフレームワークを開発し、同じオブジェクトを記述する同義語文から抽出された特徴は、視覚領域にマッピングした後、互いに近接するべきである。 提案したアルゴリズムを複数のベンチマークデータセット上で評価し,提案手法が最先端手法に対して良好に動作することを示す。 さらに、異なる方法でオブジェクトを記述する際に、表現の多様性がデータセット全体にわたって大きくなるため、学習可能な特徴の能力を検証するために、クロスデータセットおよび転送学習設定を示す。

Referring expression comprehension aims to localize objects identified by natural language descriptions. This is a challenging task as it requires understanding of both visual and language domains. One nature is that each object can be described by synonymous sentences with paraphrases, and such varieties in languages have critical impact on learning a comprehension model. While prior work usually treats each sentence and attends it to an object separately, we focus on learning a referring expression comprehension model that considers the property in synonymous sentences. To this end, we develop an end-to-end trainable framework to learn contrastive features on the image and object instance levels, where features extracted from synonymous sentences to describe the same object should be closer to each other after mapping to the visual domain. We conduct extensive experiments to evaluate the proposed algorithm on several benchmark datasets, and demonstrate that our method performs favorably against the state-of-the-art approaches. Furthermore, since the varieties in expressions become larger across datasets when they describe objects in different ways, we present the cross-dataset and transfer learning settings to validate the ability of our learned transferable features.
翻訳日:2021-04-21 13:37:44 公開日:2021-04-20
# 多言語bertを用いたベルギーにおけるcovid-19対策態度の変化の測定

Measuring Shifts in Attitudes Towards COVID-19 Measures in Belgium Using Multilingual BERT ( http://arxiv.org/abs/2104.09947v1 )

ライセンス: Link先を確認
Kristen Scott and Pieter Delobelle and Bettina Berendt(参考訳) ベルギーで7カ月分のウイルス関連ツイートを多言語bertで分類し、政府の新型コロナウイルス対策に関連付けた。 われわれは、ベルギー政府の不正対策に関する声明によって、ツイートを分類する(厳格すぎる、オーケー、ゆるすぎる)。 本研究は、新たな対策の実施や、メディアにおける新型コロナウイルス関連発表等の関連イベントの日時や、時間とともに表されるトピックや見解の変化について検討する。

We classify seven months' worth of Belgian COVID-related Tweets using multilingual BERT and relate them to their governments' COVID measures. We classify Tweets by their stated opinion on Belgian government curfew measures (too strict, ok, too loose). We examine the change in topics discussed and views expressed over time and in reference to dates of related events such as implementation of new measures or COVID-19 related announcements in the media.
翻訳日:2021-04-21 13:37:23 公開日:2021-04-20
# 公正報酬を超えて - NLPクラウドソーシングの倫理的意味

Beyond Fair Pay: Ethical Implications of NLP Crowdsourcing ( http://arxiv.org/abs/2104.10097v1 )

ライセンス: Link先を確認
Boaz Shmueli, Jan Fell, Soumya Ray, Lun-Wei Ku(参考訳) NLP研究におけるクラウドワーカーの利用は、機械学習とAIにおける研究生産の指数的な増加と相まって急速に増加している。 NLP研究コミュニティにおけるクラウドワーカーの使用に関する倫理的議論は、通常、公正な賃金のような労働条件に関連する問題の範囲に限られる。 我々は,労働者が行う様々なタスク,例えばラベル付け,評価,生産に関する倫理的配慮の欠如に注目した。 研究者が使用する一般的な倫理的枠組みであるFinal Ruleは,データ収集にオンラインクラウドソーシングプラットフォームを使用することを予想していなかったため,NLP研究における人間対象倫理の精神と実践のギャップが生じた。 我々は,NLPタスクを行うクラウドワーカーが害の危険にさらされる一般的なシナリオを列挙する。 そこで我々は,ベルモント報告書の定める3つの倫理的原則を考慮し,これらのリスクを評価することを推奨する。 また,Institutional Review Board(IRB)の適用に関する一般的な誤解を明らかにした。 この論文は、クラウドワーカーの倫理的利用に関するコミュニティ内の議論の再開に役立てることを願っている。

The use of crowdworkers in NLP research is growing rapidly, in tandem with the exponential increase in research production in machine learning and AI. Ethical discussion regarding the use of crowdworkers within the NLP research community is typically confined in scope to issues related to labor conditions such as fair pay. We draw attention to the lack of ethical considerations related to the various tasks performed by workers, including labeling, evaluation, and production. We find that the Final Rule, the common ethical framework used by researchers, did not anticipate the use of online crowdsourcing platforms for data collection, resulting in gaps between the spirit and practice of human-subjects ethics in NLP research. We enumerate common scenarios where crowdworkers performing NLP tasks are at risk of harm. We thus recommend that researchers evaluate these risks by considering the three ethical principles set up by the Belmont Report. We also clarify some common misconceptions regarding the Institutional Review Board (IRB) application. We hope this paper will serve to reopen the discussion within our community regarding the ethical use of crowdworkers.
翻訳日:2021-04-21 13:37:15 公開日:2021-04-20
# 効率的検索最適化マルチタスク学習

Efficient Retrieval Optimized Multi-task Learning ( http://arxiv.org/abs/2104.10129v1 )

ライセンス: Link先を確認
Hengxin Fun, Sunil Gandhi, Sujith Ravi(参考訳) 近年、オープンドメイン質問応答(qa)のような知識集約的なタスクに取り組むためのニューラルメソッドが大幅に進歩している。 これらの進歩は、大きな事前訓練された言語モデルと学習可能な文書検索を組み合わせることで促進される。 これらのモデルの多くはクエリ表現の学習、レトリバーのパス表現、下流タスクのための追加エンコーダに分離エンコーダを使用している。 ステージ/タスク毎に別々のエンコーダを使用することで、大量のメモリを占有し、多数のタスクにスケールすることが難しくなる。 本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。 我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供し、モデルのアーキテクチャを変更することなく、異なる学習スケジュールなどの選択を最適化する。 また、システムのアーキテクチャを変更することなくエンコーダを変更する柔軟性も提供する。 当社のフレームワークでは,近年のQAメソッドと比較して,同等あるいは優れたパフォーマンスを実現しています。

Recently, there have been significant advances in neural methods for tackling knowledge-intensive tasks such as open domain question answering (QA). These advances are fueled by combining large pre-trained language models with learnable retrieval of documents. Majority of these models use separate encoders for learning query representation, passage representation for the retriever and an additional encoder for the downstream task. Using separate encoders for each stage/task occupies a lot of memory and makes it difficult to scale to a large number of tasks. In this paper, we propose a novel Retrieval Optimized Multi-task (ROM) framework for jointly training self-supervised tasks, knowledge retrieval, and extractive question answering. Our ROM approach presents a unified and generalizable framework that enables scaling efficiently to multiple tasks, varying levels of supervision, and optimization choices such as different learning schedules without changing the model architecture. It also provides the flexibility of changing the encoders without changing the architecture of the system. Using our framework, we achieve comparable or better performance than recent methods on QA, while drastically reducing the number of parameters.
翻訳日:2021-04-21 13:37:00 公開日:2021-04-20
# 混合スロー特徴解析を用いた統合ヒートポンプシステムのIIoT型健康モニタリング

IIoT-Enabled Health Monitoring for Integrated Heat Pump System Using Mixture Slow Feature Analysis ( http://arxiv.org/abs/2104.09876v1 )

ライセンス: Link先を確認
Yan Qin, Wen-tai Li, Chau Yuen, Wayes Tushar, and Tapan Kumar Saha(参考訳) センシングと通信技術の進歩の持続的な進化は、様々な電気機器の予後と健康管理をデータ駆動方式に革命をもたらした。 この革命は、現代的な建物に広く配備され、暖房に使用される重要な装置であるヒートポンプ(hp)システムの健康監視問題に対する有望な解決策をもたらし、予期せぬダウンタイムを避けるためにその動作状態をタイムリーに評価する。 多くのHPは、何年も前に製造され、インストールされていたため、当時の技術制限とコスト管理のために、センサーが少なくなった。 HPを手頃な価格で守るためにジレンマを発生させる。 産業用IoT(Industrial Internet-of-Things)とインテリジェントヘルスモニタリングアルゴリズムを組み合わせたハイブリッド方式を提案する。 まず最初に、IIoTネットワークを構築して計測を検知し、保存する。 具体的には、水槽の入口及び出口に温度センサを適切に設置して水温を測定する。 第2に、温度情報を用いて、統合HPの健康状態をタイムリーに評価するための、混合遅い特徴分析(MSFA)と呼ばれる教師なし学習アルゴリズムを提案する。 熱湯の需要の変動により異なるHPの頻繁な動作スイッチが特徴であり, 加熱速度の異なる様々な加熱パターンが観察された。 熱パターン分割と健康評価の両面でMSFAにおいて, 定常分布の変動速度を計測するダイナミックスの一種であるスローネスが適切に検討されている。 最後に,提案手法の有効性を10年前にインストールされた5台の接続型hpを用いた実集積型hpで検証した。 実験の結果,MSFAはシステムの健康状態,特に前段階での障害を,競合するアルゴリズムと比較して正確に識別できることがわかった。

The sustaining evolution of sensing and advancement in communications technologies have revolutionized prognostics and health management for various electrical equipment towards data-driven ways. This revolution delivers a promising solution for the health monitoring problem of heat pump (HP) system, a vital device widely deployed in modern buildings for heating use, to timely evaluate its operation status to avoid unexpected downtime. Many HPs were practically manufactured and installed many years ago, resulting in fewer sensors available due to technology limitations and cost control at that time. It raises a dilemma to safeguard HPs at an affordable cost. We propose a hybrid scheme by integrating industrial Internet-of-Things (IIoT) and intelligent health monitoring algorithms to handle this challenge. To start with, an IIoT network is constructed to sense and store measurements. Specifically, temperature sensors are properly chosen and deployed at the inlet and outlet of the water tank to measure water temperature. Second, with temperature information, we propose an unsupervised learning algorithm named mixture slow feature analysis (MSFA) to timely evaluate the health status of the integrated HP. Characterized by frequent operation switches of different HPs due to the variable demand for hot water, various heating patterns with different heating speeds are observed. Slowness, a kind of dynamics to measure the varying speed of steady distribution, is properly considered in MSFA for both heating pattern division and health evaluation. Finally, the efficacy of the proposed method is verified through a real integrated HP with five connected HPs installed ten years ago. The experimental results show that MSFA is capable of accurately identifying health status of the system, especially failure at a preliminary stage compared to its competing algorithms.
翻訳日:2021-04-21 13:35:23 公開日:2021-04-20
# GMLP:Feature-Message Passingによるスケーラブルでフレキシブルなグラフニューラルネットワークの構築

GMLP: Building Scalable and Flexible Graph Neural Networks with Feature-Message Passing ( http://arxiv.org/abs/2104.09880v1 )

ライセンス: Link先を確認
Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang, Yangyu Tao, Zhi Yang, and Bin Cui(参考訳) 近年の研究では、多くのグラフベースタスクにおいて最先端のパフォーマンスを達成したグラフニューラルネットワーク(GNN)を設計するための効果的な方法として、ニューラルメッセージパッシングが証明されている。 しかし、現在のニューラルメッセージパッシングアーキテクチャでは、通常、複数のラウンドで高価な再帰的な近所拡張を実行する必要があり、結果としてスケーラビリティの問題が発生する。 さらに、既存のニューラルメッセージパッシングスキームのほとんどは、固定ホップ近傍に限定され、異なるノードの実際の要求に敏感であるため、柔軟性がない。 我々はこれらの制限を、グラフ多層パーセプトロン(GMLP)と呼ばれる新しい機能メッセージパッシングフレームワークによって回避し、ニューラルアップデートとメッセージパッシングを分離する。 このような分離によってgmlpは、プリコンピュートな方法でメッセージパッシング手順を実行することでスケーラビリティと効率を大幅に向上させ、さまざまなレベルのローカリティでノード機能メッセージを活用するための柔軟性と適応性を備えている。 さらに、このフレームワークの下で、パフォーマンスと効率の両世界のベストを達成するために、スケーラブルなGNNの新しいバリエーションを導き出します。 我々は、ogbn-productsや産業データセットなどの大規模データセットを含む11のベンチマークデータセットに対して広範な評価を行い、GMLPが最先端のパフォーマンスだけでなく、高いトレーニングスケーラビリティと効率を達成することを示す。

In recent studies, neural message passing has proved to be an effective way to design graph neural networks (GNNs), which have achieved state-of-the-art performance in many graph-based tasks. However, current neural-message passing architectures typically need to perform an expensive recursive neighborhood expansion in multiple rounds and consequently suffer from a scalability issue. Moreover, most existing neural-message passing schemes are inflexible since they are restricted to fixed-hop neighborhoods and insensitive to the actual demands of different nodes. We circumvent these limitations by a novel feature-message passing framework, called Graph Multi-layer Perceptron (GMLP), which separates the neural update from the message passing. With such separation, GMLP significantly improves the scalability and efficiency by performing the message passing procedure in a pre-compute manner, and is flexible and adaptive in leveraging node feature messages over various levels of localities. We further derive novel variants of scalable GNNs under this framework to achieve the best of both worlds in terms of performance and efficiency. We conduct extensive evaluations on 11 benchmark datasets, including large-scale datasets like ogbn-products and an industrial dataset, demonstrating that GMLP achieves not only the state-of-art performance, but also high training scalability and efficiency.
翻訳日:2021-04-21 13:34:55 公開日:2021-04-20
# 10年間のDigital CArdioVAscular(DiCAV A)リスクアセスメントの開発:英国のバイオバンクによる研究

Development of an accessible 10-year Digital CArdioVAscular (DiCAVA) risk assessment: a UK Biobank study ( http://arxiv.org/abs/2104.10079v1 )

ライセンス: Link先を確認
Nikola Dolezalova, Angus B. Reed, Alex Despotovic, Bernard Dillon Obika, Davide Morelli, Mert Aral, David Plans(参考訳) 背景: 心臓血管疾患(CVD)は、世界中の死因の1つである。 CVDを発症する個人化されたリスクを提供する予測スコアは、臨床実践においてますます用いられる。 しかし、ほとんどのスコアは均質な特徴のセットを利用し、医師の存在を必要とする。 目的: リモート環境で適用可能な統計的および機械学習技術を用いた新しいリスクモデル(DiCAVA)を開発することを目的とした。 2つ目の目標は、新たな患者中心変数をCVDリスクアセスメントに組み込むことであった。 方法:466,052人,コックス比例ハザード(CPH)モデル,DeepSurvモデルに対して,英国バイオバンクから派生した608変数を用いたCVD開発10年間のリスク調査を行った。 データ駆動型の特徴選択により機能数は47に削減され、モデルがトレーニングされた。 どちらのモデルもフラミンガム・スコアと比較された。 結果: CPHモデルではc-indexが0.7443、DeepSurvではc-indexが0.7446となった。 CPHとDeepSurvはFraminghamのスコアと比較してCVDのリスクを判定する上で優れていた。 CPH: 0.741, DeepSurv: 0.739) からコレステロールと血圧を除いた場合, 最小差が認められた。 モデルでは、テストデータに対するキャリブレーションと差別が極めて良好である。 結論: 予測能力が非常に良好で新しい変数を包含する心血管リスクモデルを開発した。 スコアは臨床に組み込むことができ、コレステロールを含む必要なしに遠隔で使用できる。 今後の研究は異種サンプル間の外部検証に焦点をあてる。

Background: Cardiovascular diseases (CVDs) are among the leading causes of death worldwide. Predictive scores providing personalised risk of developing CVD are increasingly used in clinical practice. Most scores, however, utilise a homogenous set of features and require the presence of a physician. Objective: The aim was to develop a new risk model (DiCAVA) using statistical and machine learning techniques that could be applied in a remote setting. A secondary goal was to identify new patient-centric variables that could be incorporated into CVD risk assessments. Methods: Across 466,052 participants, Cox proportional hazards (CPH) and DeepSurv models were trained using 608 variables derived from the UK Biobank to investigate the 10-year risk of developing a CVD. Data-driven feature selection reduced the number of features to 47, after which reduced models were trained. Both models were compared to the Framingham score. Results: The reduced CPH model achieved a c-index of 0.7443, whereas DeepSurv achieved a c-index of 0.7446. Both CPH and DeepSurv were superior in determining the CVD risk compared to Framingham score. Minimal difference was observed when cholesterol and blood pressure were excluded from the models (CPH: 0.741, DeepSurv: 0.739). The models show very good calibration and discrimination on the test data. Conclusion: We developed a cardiovascular risk model that has very good predictive capacity and encompasses new variables. The score could be incorporated into clinical practice and utilised in a remote setting, without the need of including cholesterol. Future studies will focus on external validation across heterogeneous samples.
翻訳日:2021-04-21 13:33:42 公開日:2021-04-20
# ダイナミック2型糖尿病リスク予測ツールの開発--英国バイオバンクによる研究

Development of a dynamic type 2 diabetes risk prediction tool: a UK Biobank study ( http://arxiv.org/abs/2104.10108v1 )

ライセンス: Link先を確認
Nikola Dolezalova, Massimo Cairo, Alex Despotovic, Adam T.C. Booth, Angus B. Reed, Davide Morelli, David Plans(参考訳) 糖尿病は4億人以上に影響し、世界有数の死因となっている。 リスクの高い個体の同定は、ライフスタイルの変化による早期診断と疾患発生の予防を支援することができる。 しかし、既存のリスクスコアの大部分は、診療所の外では入手できない血液ベースの因子に関する情報を必要とする。 ここでは,ディジタルかつ大規模にデプロイ可能な,アクセス可能なソリューションの開発を目指しています。 本研究は,英国バイオバンクの472,830人を対象に,スマートフォンで容易に入手できない特徴を除外しつつ,301個の特徴を用いた10年間の2型糖尿病リスクスコアを開発した。 データ駆動型機能選択プロセスを使用して、最終的な縮小モデルに19の機能が含まれた。 Cox比例ハザードモデルは、同じ特徴を用いてトレーニングされたDeepSurvモデルをわずかに上回り、0.818(95%CI:0.812-0. 823)の一致指数を0.811(95%CI:0.806-0. 815)と比較した。 最終モデルはキャリブレーションが良好であった。 このツールは、2型糖尿病を発症するリスクのある患者の臨床スクリーニングや、個人のリスクに影響する要因に関する知識を広げて患者のエンパワーメントを促進するために使用できる。

Diabetes affects over 400 million people and is among the leading causes of morbidity worldwide. Identification of high-risk individuals can support early diagnosis and prevention of disease development through lifestyle changes. However, the majority of existing risk scores require information about blood-based factors which are not obtainable outside of the clinic. Here, we aimed to develop an accessible solution that could be deployed digitally and at scale. We developed a predictive 10-year type 2 diabetes risk score using 301 features derived from 472,830 participants in the UK Biobank dataset while excluding any features which are not easily obtainable by a smartphone. Using a data-driven feature selection process, 19 features were included in the final reduced model. A Cox proportional hazards model slightly overperformed a DeepSurv model trained using the same features, achieving a concordance index of 0.818 (95% CI: 0.812-0.823), compared to 0.811 (95% CI: 0.806-0.815). The final model showed good calibration. This tool can be used for clinical screening of individuals at risk of developing type 2 diabetes and to foster patient empowerment by broadening their knowledge of the factors affecting their personal risk.
翻訳日:2021-04-21 13:33:15 公開日:2021-04-20
# 単語誤り率の音響言語的音声感情認識に与える影響について:深層学習時代の更新

On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era ( http://arxiv.org/abs/2104.10121v1 )

ライセンス: Link先を確認
Shahin Amiriparian (1), Artem Sokolov (2,3), Ilhan Aslan (2), Lukas Christ (1), Maurice Gerczuk (1), Tobias H\"ubner (1), Dmitry Lamanov (2), Manuel Milling (1), Sandra Ottl (1), Ilya Poduremennykh (2), Evgeniy Shuranov (2,4), Bj\"orn W. Schuller (1,5) ((1) EIHW -- Chair of Embedded Intelligence for Health Care and Wellbeing, University of Augsburg, Germany, (2) Huawei Technologies, (3) HSE University, Nizhniy Novgorod, Russia, (4) ITMO University, Saint Petersburg, Russia)(参考訳) 自動音声認識(ASR)によるテキストエンコーディングと音声表現は、それ以来、音声感情認識(SER)において有望であることが示されている。 しかし,各情報ストリームがサーシステムに与える影響を説明することは困難である。 さらに、ASRの単語誤り率(WER)が言語的感情認識に与える影響や、深層ASRシステムにおける音響情報利用との融合の文脈でより明確化する必要がある。 上記の問題に対処するために,リカレントニューラルネットワーク-トランスデューサ損失を訓練したエンドツーエンドモデル,コネクショニスト時間的分類損失モデル,自己教師付き学習のためのwav2vecフレームワークを含む,3つの現代的なasrシステムを適用して,原音声からの書き起こしを作成する。 その後、事前訓練されたテキストモデルを用いて、ASR出力と金標準からテキスト表現を抽出する。 音声特徴の抽出と学習にはopenSMILE, openXBoW, DeepSpectrum, auDeepを利用する。 最後に、音響学と言語学の両方で意思決定レベルの融合を行う。 最高の開発構成を用いて、IEMOCAPの話者に依存しない開発とテストパーティションにおいて、最先端の未処理の平均リコール値は7.3.6\,\%$と7.8\,\%$を達成する。

Text encodings from automatic speech recognition (ASR) transcripts and audio representations have shown promise in speech emotion recognition (SER) ever since. Yet, it is challenging to explain the effect of each information stream on the SER systems. Further, more clarification is required for analysing the impact of ASR's word error rate (WER) on linguistic emotion recognition per se and in the context of fusion with acoustic information exploitation in the age of deep ASR systems. In order to tackle the above issues, we create transcripts from the original speech by applying three modern ASR systems, including an end-to-end model trained with recurrent neural network-transducer loss, a model with connectionist temporal classification loss, and a wav2vec framework for self-supervised learning. Afterwards, we use pre-trained textual models to extract text representations from the ASR outputs and the gold standard. For extraction and learning of acoustic speech features, we utilise openSMILE, openXBoW, DeepSpectrum, and auDeep. Finally, we conduct decision-level fusion on both information streams -- acoustics and linguistics. Using the best development configuration, we achieve state-of-the-art unweighted average recall values of $73.6\,\%$ and $73.8\,\%$ on the speaker-independent development and test partitions of IEMOCAP, respectively.
翻訳日:2021-04-21 13:32:23 公開日:2021-04-20
# 多目的進化アルゴリズムは一般に良い:シーケンス上の単調部分モジュラー関数を最大化する

Multi-objective Evolutionary Algorithms are Generally Good: Maximizing Monotone Submodular Functions over Sequences ( http://arxiv.org/abs/2104.09884v1 )

ライセンス: Link先を確認
Chao Qian, Dan-Xuan Liu, Chao Feng, Ke Tang(参考訳) 進化アルゴリズム(EA)は、自然進化にインスパイアされた汎用最適化アルゴリズムである。 近年の理論的研究により、easは、最大カバレッジ、疎回帰、影響最大化、文書要約、センサー配置など、広範囲の応用がある部分モジュラー最適化の問題クラスを解決するための優れた近似保証を達成できることが示されている。 それらはeasの汎用性に関する理論的な説明を提供してきたが、部分モジュラー対象関数は集合や多重集合上でのみ定義される。 本研究を補完するために,目的関数がアイテムの順序に依存するシーケンス上の単調部分モジュラー関数を最大化する問題クラスについて検討する。 従来研究されてきたモノトン部分モジュラー目的関数,すなわちプレフィックスモノトン部分モジュラー関数,弱モノトンおよび強サブモジュラー関数,およびDAGモノトン部分モジュラー関数に対して,単純な多目的EA,すなわちGSEMOは,期待される多項式時間の実行後に常に最もよく知られた近似保証に到達または改善可能であることを証明した。 これらの最もよく知られた近似保証は、以前にも異なる欲望型のアルゴリズムによってのみ得られることに注意されたい。 タスク達成,情報ゲインの最大化,探索と追跡,レコメンダシステムなど,さまざまなアプリケーションに関する実証研究は,GSEMOの優れた性能を示している。

Evolutionary algorithms (EAs) are general-purpose optimization algorithms, inspired by natural evolution. Recent theoretical studies have shown that EAs can achieve good approximation guarantees for solving the problem classes of submodular optimization, which have a wide range of applications, such as maximum coverage, sparse regression, influence maximization, document summarization and sensor placement, just to name a few. Though they have provided some theoretical explanation for the general-purpose nature of EAs, the considered submodular objective functions are defined only over sets or multisets. To complement this line of research, this paper studies the problem class of maximizing monotone submodular functions over sequences, where the objective function depends on the order of items. We prove that for each kind of previously studied monotone submodular objective functions over sequences, i.e., prefix monotone submodular functions, weakly monotone and strongly submodular functions, and DAG monotone submodular functions, a simple multi-objective EA, i.e., GSEMO, can always reach or improve the best known approximation guarantee after running polynomial time in expectation. Note that these best-known approximation guarantees can be obtained only by different greedy-style algorithms before. Empirical studies on various applications, e.g., accomplishing tasks, maximizing information gain, search-and-tracking and recommender systems, show the excellent performance of the GSEMO.
翻訳日:2021-04-21 13:31:57 公開日:2021-04-20
# モデルベース強化学習のためのモジュールライブラリmbrl-lib

MBRL-Lib: A Modular Library for Model-based Reinforcement Learning ( http://arxiv.org/abs/2104.10159v1 )

ライセンス: Link先を確認
Luis Pineda, Brandon Amos, Amy Zhang, Nathan O. Lambert, Roberto Calandra(参考訳) モデルに基づく強化学習は、世界と相互作用するエージェントのデータ効率の学習のための魅力的なフレームワークである。 このアルゴリズムの族には多くのサブコンポーネントがあり、慎重に選択し調整する必要がある。 その結果、研究者が現場に接近し、それを現実世界のタスクに展開するためのエントリーバーは、大変なことになる。 本稿では,PyTorch に基づく連続状態行動空間におけるモデルベース強化学習のための機械学習ライブラリ MBRL-Lib を提案する。 MBRL-Libは、新しいアルゴリズムを開発し、デバッグし、非専門家のユーザーと比較し、最先端のアルゴリズムをデプロイするエントリバーを低くするために、両方の研究者のためのプラットフォームとして設計されている。 MBRL-Libはhttps://github.com/f acebookresearch/mbrl -libでオープンソース公開されている。

Model-based reinforcement learning is a compelling framework for data-efficient learning of agents that interact with the world. This family of algorithms has many subcomponents that need to be carefully selected and tuned. As a result the entry-bar for researchers to approach the field and to deploy it in real-world tasks can be daunting. In this paper, we present MBRL-Lib -- a machine learning library for model-based reinforcement learning in continuous state-action spaces based on PyTorch. MBRL-Lib is designed as a platform for both researchers, to easily develop, debug and compare new algorithms, and non-expert user, to lower the entry-bar of deploying state-of-the-art algorithms. MBRL-Lib is open-source at https://github.com/f acebookresearch/mbrl -lib.
翻訳日:2021-04-21 13:31:29 公開日:2021-04-20
# ドメイン適応に基づくCT画像におけるCOVID-19感染セグメンテーションの自己補正モデル

Domain adaptation based self-correction model for COVID-19 infection segmentation in CT images ( http://arxiv.org/abs/2104.09699v1 )

ライセンス: Link先を確認
Qiangguo Jin and Hui Cui and Changming Sun and Zhaopeng Meng and Leyi Wei and Ran Su(参考訳) 未認識領域への一般化の能力は、現実世界のシナリオを考える際にディープラーニングモデルにとって不可欠である。 しかし、新型コロナウイルスのCT画像などの現在の医療画像データセットには、感染症やドメインシフトの問題が多岐にわたる。 この問題に対処するために,事前知識駆動型ドメイン適応と二重ドメイン強化自己修正学習方式を提案する。 新たな学習手法に基づき, ドメイン適応に基づく自己補正モデル (DASC-Net) が提案され, CT画像上でのCOVID-19感染セグメンテーションが実現された。 DASC-Netは、ドメインシフトを解決するための新しい注目と機能ドメイン拡張ドメイン適応モデル(AFD-DA)と、セグメンテーション結果を洗練するための自己補正学習プロセスから構成される。 AFD-DAのイノベーションには、肺の異常に注目する画像レベルのアクティベーション特徴抽出器と、階層的特徴ドメインアライメントのための多レベル識別モジュールが含まれる。 提案する自己修正学習プロセスは,学習モデルと対応する擬似ラベルを適応的に集約し,アライメントされたソース情報と対象領域情報の伝達を行い,擬似ラベルに起因する雑音に対する過度な適合を緩和する。 3つの公開可能なCOVID-19 CTデータセットに対する大規模な実験は、DASC-Netが最先端のセグメンテーション、ドメインシフト、および新型コロナウイルス感染セグメンテーションメソッドを一貫して上回っていることを示している。 アブレーション分析により,本モデルにおける主要成分の有効性が示された。 DASC-Netは、医療画像におけるドメイン適応と自己補正学習の理論を充実させ、臨床展開のためのCT画像上の多地点のCOVID-19感染症セグメンテーションに一般化することができる。

The capability of generalization to unseen domains is crucial for deep learning models when considering real-world scenarios. However, current available medical image datasets, such as those for COVID-19 CT images, have large variations of infections and domain shift problems. To address this issue, we propose a prior knowledge driven domain adaptation and a dual-domain enhanced self-correction learning scheme. Based on the novel learning schemes, a domain adaptation based self-correction model (DASC-Net) is proposed for COVID-19 infection segmentation on CT images. DASC-Net consists of a novel attention and feature domain enhanced domain adaptation model (AFD-DA) to solve the domain shifts and a self-correction learning process to refine segmentation results. The innovations in AFD-DA include an image-level activation feature extractor with attention to lung abnormalities and a multi-level discrimination module for hierarchical feature domain alignment. The proposed self-correction learning process adaptively aggregates the learned model and corresponding pseudo labels for the propagation of aligned source and target domain information to alleviate the overfitting to noises caused by pseudo labels. Extensive experiments over three publicly available COVID-19 CT datasets demonstrate that DASC-Net consistently outperforms state-of-the-art segmentation, domain shift, and coronavirus infection segmentation methods. Ablation analysis further shows the effectiveness of the major components in our model. The DASC-Net enriches the theory of domain adaptation and self-correction learning in medical imaging and can be generalized to multi-site COVID-19 infection segmentation on CT images for clinical deployment.
翻訳日:2021-04-21 13:30:53 公開日:2021-04-20
# リッチ・ジェネレーティブ・アドバーサリー・ネットワークを用いたct画像における遊離型腫瘍合成

Free-form tumor synthesis in computed tomography images via richer generative adversarial network ( http://arxiv.org/abs/2104.09701v1 )

ライセンス: Link先を確認
Qiangguo Jin and Hui Cui and Changming Sun and Zhaopeng Meng and Ran Su(参考訳) 癌に対するアノテート・メディカル・イメージング・スキャンの欠如は、精密腫瘍学におけるデータ・ハングリー深層学習モデルの訓練と検証を困難にしている。 本稿では,CT画像における3次元腫瘍/レセオン合成のための,よりリッチな生成対向ネットワークを提案する。 このネットワークは、新しいリッチな畳み込み特徴強化拡張拡張型ジェネレータ(richerdg)とハイブリッド損失関数で構成されている。 RicherDGは、腫瘍塗布を可能とし、知覚野を拡大するための拡張された畳み込み層を持ち、特に腫瘍と周囲の健全な組織の間の不確実な境界から多スケールの畳み込みの特徴を回復する、よりリッチな畳み込み特徴結合部を有する。 多様な損失範囲からなるハイブリッド損失関数は、最適化を改善するために補完情報を集約するように設計されている。 肝, 腎腫瘍, 肺結節を対象とする広範囲のCT画像データセットを用いて, 合成結果の総合的評価を行った。 質的・定量的評価およびアブレーション試験により, 進行腫瘍合成法における合成精度が向上した。

The insufficiency of annotated medical imaging scans for cancer makes it challenging to train and validate data-hungry deep learning models in precision oncology. We propose a new richer generative adversarial network for free-form 3D tumor/lesion synthesis in computed tomography (CT) images. The network is composed of a new richer convolutional feature enhanced dilated-gated generator (RicherDG) and a hybrid loss function. The RicherDG has dilated-gated convolution layers to enable tumor-painting and to enlarge perceptive fields; and it has a novel richer convolutional feature association branch to recover multi-scale convolutional features especially from uncertain boundaries between tumor and surrounding healthy tissues. The hybrid loss function, which consists of a diverse range of losses, is designed to aggregate complementary information to improve optimization. We perform a comprehensive evaluation of the synthesis results on a wide range of public CT image datasets covering the liver, kidney tumors, and lung nodules. The qualitative and quantitative evaluations and ablation study demonstrated improved synthesizing results over advanced tumor synthesis methods.
翻訳日:2021-04-21 13:30:22 公開日:2021-04-20
# イベントカメラを用いたSLAMにおける追跡表現の比較

Comparing Representations in Tracking for Event Camera-based SLAM ( http://arxiv.org/abs/2104.09887v1 )

ライセンス: Link先を確認
Jianhao Jiao and Huaiyang Huang and Liang Li and Zhijian He and Yilong Zhu and Ming Liu(参考訳) 本稿では,イベントカメラを用いた時間表面追跡(TS)とイベントマップ(EM)の2つの典型的な画像型表現について検討する。 元のTSベースのトラッカーに基づいて、これらの2つの表現の相補的な強みを利用して拡張版を開発する。 提案するトラッカーは,最適化問題のデジェネリティーをオンラインで評価し,適切な表現を切り替えるための一般的な戦略から構成される。 TSとEMはどちらも動きに依存しており、トラッキングの限界を理解することが重要である。 我々は6つのトラッカーのバリエーションを開発し、様々なシナリオや動きの複雑さをカバーするシーケンス上でそれらを徹底的に比較する。 我々は、イベントカメラの研究コミュニティに利益をもたらすために、実装と詳細な結果をリリースした。

This paper investigates two typical image-type representations for event camera-based tracking: time surface (TS) and event map (EM). Based on the original TS-based tracker, we make use of these two representations' ; complementary strengths to develop an enhanced version. The proposed tracker consists of a general strategy to evaluate the optimization problem's degeneracy online and then switch proper representations. Both TS and EM are motion- and scene-dependent, and thus it is important to figure out their limitations in tracking. We develop six tracker variations and conduct a thorough comparison of them on sequences covering various scenarios and motion complexities. We release our implementations and detailed results to benefit the research community on event cameras: https: //github.com/gogojjh /ESVO_extension.
翻訳日:2021-04-21 13:30:02 公開日:2021-04-20
# T2VLAD: テキストビデオ検索のためのグローバルローカルシーケンスアライメント

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval ( http://arxiv.org/abs/2104.10054v1 )

ライセンス: Link先を確認
Xiaohan Wang, Linchao Zhu, Yi Yang(参考訳) テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。 この問題の鍵は、共同埋め込み空間におけるテキストビデオの類似度を測定することである。 しかし、既存のほとんどの手法は、グローバルなクロスモーダル類似性のみを考慮し、局所的な詳細を見落としている。 いくつかの研究は、クロスモーダルな局所マッチングと推論を通じて局所比較を取り入れている。 これらの複雑な演算は膨大な計算をもたらす。 本稿では,効率的なグローバルアライメント手法を設計する。 マルチモーダルビデオシーケンスとテキスト特徴は、一連の共有セマンティックセンタで適応的に集約される。 ローカルなクロスモーダル類似性は、同じ中心内のビデオ機能とテキスト機能の間で計算される。 この設計により、微妙な局所比較が可能となり、各テキストビデオ対間の相互作用の計算コストを削減できる。 さらに,グローバルアライメント法を提案し,局所的な視点を補完する大域的クロスモーダル計測を行った。 グローバル集約された視覚的特徴は、学習可能なセマンティックセンターの最適化に不可欠である追加の監視を提供する。 3つの標準テキストビデオ検索ベンチマークで一貫した改善を達成し、最先端を明確なマージンで上回ります。

Text-video retrieval is a challenging task that aims to search relevant video contents based on natural language descriptions. The key to this problem is to measure text-video similarities in a joint embedding space. However, most existing methods only consider the global cross-modal similarity and overlook the local details. Some works incorporate the local comparisons through cross-modal local matching and reasoning. These complex operations introduce tremendous computation. In this paper, we design an efficient global-local alignment method. The multi-modal video sequences and text features are adaptively aggregated with a set of shared semantic centers. The local cross-modal similarities are computed between the video feature and text feature within the same center. This design enables the meticulous local comparison and reduces the computational cost of the interaction between each text-video pair. Moreover, a global alignment method is proposed to provide a global cross-modal measurement that is complementary to the local perspective. The global aggregated visual features also provide additional supervision, which is indispensable to the optimization of the learnable semantic centers. We achieve consistent improvements on three standard text-video retrieval benchmarks and outperform the state-of-the-art by a clear margin.
翻訳日:2021-04-21 13:29:39 公開日:2021-04-20
# 量子離散事象システムの監視制御

Supervisory Control of Quantum Discrete Event Systems ( http://arxiv.org/abs/2104.09753v1 )

ライセンス: Link先を確認
Daowen Qiu(参考訳) 離散イベントシステム(DES)は、ファジィおよび確率論的システムにおける実用的な応用の必要性から、確率的およびファジィコンピューティングモデルの枠組みとして確立され、深く発展してきた。 量子コンピューティングと量子制御の発展により、自然問題は量子コンピューティングモデルを用いてDESをシミュレートし、量子DES(QDES)を確立することである。 その動機は2つある:一方、qdesは量子コンピュータによってdesがシミュレーションされ処理される場合、量子システムは離散的な事象によって駆動される状態の進化をシミュレートするために使用される。 本稿では,量子有限オートマトン(qfa)をモデル形式としてqdesの基本枠組みを確立することを目的として,qdesの監督制御定理を定式化・証明する。 次に,制御性条件が成立するか否かを決定する多項式時間アルゴリズムを提案する。 特に,qdesの監視制御を記述し,状態複雑度に対するqdesの本質的利点を検証するために,qfaの新たな例をいくつか構築する。

Discrete event systems (DES) have been established and deeply developed in the framework of probabilistic and fuzzy computing models due to the necessity of practical applications in fuzzy and probabilistic systems. With the development of quantum computing and quantum control, a natural problem is to simulate DES by means of quantum computing models and to establish {\it quantum DES} (QDES). The motivation is twofold: on the one hand, QDES have potential applications when DES are simulated and processed by quantum computers, where quantum systems are employed to simulate the evolution of states driven by discrete events, and on the other hand, QDES may have essential advantages over DES concerning state complexity for imitating some practical problems. The goal of this paper is to establish a basic framework of QDES by using {\it quantum finite automata} (QFA) as the modelling formalisms, and the supervisory control theorems of QDES are established and proved. Then we present a polynomial-time algorithm to decide whether or not the controllability condition holds. In particular, we construct a number of new examples of QFA to illustrate the supervisory control of QDES and to verify the essential advantages of QDES over DES in state complexity.
翻訳日:2021-04-21 13:29:21 公開日:2021-04-20
# Dual Mirror Descentによる共同オンライン学習と意思決定

Joint Online Learning and Decision-making via Dual Mirror Descent ( http://arxiv.org/abs/2104.09750v1 )

ライセンス: Link先を確認
Alfonso Lobos, Paul Grigas, Zheng Wen(参考訳) 我々は、コストの上下限を満たす有限時間地平線上でのオンライン収益最大化問題を考察する。 各期間に、エージェントは、サンプルされたコンテキストベクトルを受信する。 未知の分布から判断し 適応的に行う必要があります 収益関数とコスト関数は、学習すべき固定だが未知のパラメータベクトルと同様に、文脈ベクトルに依存する。 本稿では、オンラインの二重ミラー降下スキームと汎用パラメータ学習プロセスを組み合わせた新しいオフラインベンチマークと新しいアルゴリズムを提案する。 パラメータベクトルが知られているとき、$O(\sqrt{T})$後悔の結果と、考えられる制約違反に縛られる$O(\sqrt{T})$後悔の結果を示す。 パラメータが分かっておらず、学習しなければならない場合、後悔と制約違反は前の$o(\sqrt{t})$項の和であり、学習プロセスの収束に直接依存する項であることを示す。

We consider an online revenue maximization problem over a finite time horizon subject to lower and upper bounds on cost. At each period, an agent receives a context vector sampled i.i.d. from an unknown distribution and needs to make a decision adaptively. The revenue and cost functions depend on the context vector as well as some fixed but possibly unknown parameter vector to be learned. We propose a novel offline benchmark and a new algorithm that mixes an online dual mirror descent scheme with a generic parameter learning process. When the parameter vector is known, we demonstrate an $O(\sqrt{T})$ regret result as well an $O(\sqrt{T})$ bound on the possible constraint violations. When the parameter is not known and must be learned, we demonstrate that the regret and constraint violations are the sums of the previous $O(\sqrt{T})$ terms plus terms that directly depend on the convergence of the learning process.
翻訳日:2021-04-21 13:28:39 公開日:2021-04-20
# 深層学習に基づく侵入検知システムの逆行訓練

Adversarial Training for Deep Learning-based Intrusion Detection Systems ( http://arxiv.org/abs/2104.09852v1 )

ライセンス: Link先を確認
Islam Debicha, Thibault Debatty, Jean-Michel Dricot, Wim Mees(参考訳) 現在、Deep Neural Networks(DNN)は、侵入検出を含む多くの機械学習領域における最先端の結果を報告している。 しかし、コンピュータビジョンにおける最近の研究は、DNNが特殊に製作されたデータを注入することでそれらを誤分類に陥れる敵の攻撃に対して脆弱であることを示した。 セキュリティクリティカルな分野では、このような攻撃が深刻なダメージを与える可能性があるため、本稿では、ディープラーニングによる侵入検知に対する敵攻撃の影響について検討する。 また,このような攻撃に対する防御としての敵意訓練の有効性について検討した。 実験の結果, 十分な歪みを伴って, 敵の例は検出器を誤認し, 敵の訓練を用いることで侵入検知の堅牢性を向上させることが示唆された。

Nowadays, Deep Neural Networks (DNNs) report state-of-the-art results in many machine learning areas, including intrusion detection. Nevertheless, recent studies in computer vision have shown that DNNs can be vulnerable to adversarial attacks that are capable of deceiving them into misclassification by injecting specially crafted data. In security-critical areas, such attacks can cause serious damage; therefore, in this paper, we examine the effect of adversarial attacks on deep learning-based intrusion detection. In addition, we investigate the effectiveness of adversarial training as a defense against such attacks. Experimental results show that with sufficient distortion, adversarial examples are able to mislead the detector and that the use of adversarial training can improve the robustness of intrusion detection.
翻訳日:2021-04-21 13:28:24 公開日:2021-04-20
# ロスレス・ポイント・クラウド幾何圧縮のための多スケール深層文脈モデリング

Multiscale deep context modeling for lossless point cloud geometry compression ( http://arxiv.org/abs/2104.09859v1 )

ライセンス: Link先を確認
Dat Thanh Nguyen, Maurice Quach, Giuseppe Valenzise, Pierre Duhamel(参考訳) 我々は,MSVoxelDNNと呼ばれる無損失点雲の幾何圧縮のための実用的な深部生成手法を提案し,MPEG G-PCCコーデックと比較して有意に速度を低下させることを示した。 自己回帰モデル(voxeldnn)に基づくこれまでの研究は,高速なトレーニングフェーズを持つが,voxelによるvoxelのように占有確率が逐次予測されるため,推論は遅くなる。 本研究では,ボクセル占有率を粗い順にモデル化したマルチスケールアーキテクチャを用いる。 各スケールにおいて、MSVoxelDNNはボクセルを8つの条件付き独立グループに分割し、ボクセル毎に1つのネットワーク評価を必要とする。 我々は,Microsoft Voxelized Upper Bodies (MVUB) と MPEG の一連の点群における MSVoxelDNN の性能を評価し,G-PCC よりも平均で17.5% の速度で,従来の VoxelDNN と比較して符号化/復号時間を著しく高速化することを示した。 実装はhttps://github.com/W eafre/MSVoxelDNNで公開されている。

We propose a practical deep generative approach for lossless point cloud geometry compression, called MSVoxelDNN, and show that it significantly reduces the rate compared to the MPEG G-PCC codec. Our previous work based on autoregressive models (VoxelDNN) has a fast training phase, however, inference is slow as the occupancy probabilities are predicted sequentially, voxel by voxel. In this work, we employ a multiscale architecture which models voxel occupancy in coarse-to-fine order. At each scale, MSVoxelDNN divides voxels into eight conditionally independent groups, thus requiring a single network evaluation per group instead of one per voxel. We evaluate the performance of MSVoxelDNN on a set of point clouds from Microsoft Voxelized Upper Bodies (MVUB) and MPEG, showing that the current method speeds up encoding/decoding times significantly compared to the previous VoxelDNN, while having average rate saving over G-PCC of 17.5%. The implementation is available at https://github.com/W eafre/MSVoxelDNN.
翻訳日:2021-04-21 13:28:12 公開日:2021-04-20
# 自律走行車における音声コマンド攻撃に対するロバストセンサフュージョンアルゴリズム

Robust Sensor Fusion Algorithms Against VoiceCommand Attacks in Autonomous Vehicles ( http://arxiv.org/abs/2104.09872v1 )

ライセンス: Link先を確認
Jiwei Guan, Xi Zheng, Chen Wang, Yipeng Zhou and Alireza Jolfa(参考訳) 近年の自動運転の進歩により、Voice Control Systemsは車と車との相互作用方法としてますます普及している。 この技術により、ドライバーは音声コマンドを使って車両を制御でき、間もなくAdvanced Driver Assistance Systems(ADAS)で利用できるようになる。 以前の研究によると、siri、alexa、cortanaは音声コマンド攻撃に対して非常に脆弱である。 これは現実世界のアプリケーションでADASに拡張できる可能性があり、マイクロホンの非線形性のため、そのような難解なコマンド脅威を検出することは困難である。 本稿では,ADASがマルチセンサーで環境を検知できる不明瞭なコマンド攻撃に対して,カメラビューを用いて防御し,より実用的なソリューションを開発することを目的とする。 そこで本研究では,非可聴コマンド攻撃を防御するマルチモーダル深層学習分類システムを提案する。 提案手法の有効性を確認し,最良の分類精度は89.2%に達した。 コードはhttps://github.com/I TSEG-MQ/Sensor-Fusio n-Against-VoiceComma nd-Attacksで入手できる。

With recent advances in autonomous driving, Voice Control Systems have become increasingly adopted as human-vehicle interaction methods. This technology enables drivers to use voice commands to control the vehicle and will be soon available in Advanced Driver Assistance Systems (ADAS). Prior work has shown that Siri, Alexa and Cortana, are highly vulnerable to inaudible command attacks. This could be extended to ADAS in real-world applications and such inaudible command threat is difficult to detect due to microphone nonlinearities. In this paper, we aim to develop a more practical solution by using camera views to defend against inaudible command attacks where ADAS are capable of detecting their environment via multi-sensors. To this end, we propose a novel multimodal deep learning classification system to defend against inaudible command attacks. Our experimental results confirm the feasibility of the proposed defense methods and the best classification accuracy reaches 89.2%. Code is available at https://github.com/I TSEG-MQ/Sensor-Fusio n-Against-VoiceComma nd-Attacks.
翻訳日:2021-04-21 13:27:49 公開日:2021-04-20
# 脳磁気共鳴画像における多発性硬化病変の解析 : 技術と臨床応用

Multiple Sclerosis Lesion Analysis in Brain Magnetic Resonance Images: Techniques and Clinical Applications ( http://arxiv.org/abs/2104.10029v1 )

ライセンス: Link先を確認
Yang Ma, Chaoyi Zhang, Mariano Cabezas, Yang Song, Zihao Tang, Dongnan Liu, Weidong Cai, Michael Barnett, Chenyu Wang(参考訳) 多発性硬化症(multiple sclerosis、ms)は、神経系の慢性炎症性および変性疾患であり、個々の患者の神経症状や徴候と地形的に相関する白質および灰色質の焦点病変の出現が特徴である。 MRI(MRI)は詳細な生体内構造情報を提供し、疾患管理を重要視するMS病変の定量化と分類を可能にする。 伝統的に、MS病変は2D MRIスライスに手動で注釈付けされている。 近年,MRIのボクセル強度に基づいてMS病変を抽出・分画する自動統計画像解析技術が提案されている。 しかし、その効果はmriデータ取得技術の多様性とms病変の出現によって制限されている。 画像から直接複雑な病変の表現を学習することにより、深層学習技術はMS病変のセグメンテーションタスクにおいて顕著なブレークスルーを達成した。 本稿では,最先端自動統計・ディープラーニングmsセグメンテーション手法の包括的レビューを行い,今後の臨床応用について考察する。 さらに,領域適応などの技術戦略を概観し,現実の臨床環境におけるMS病変のセグメンテーションを強化する。

Multiple sclerosis (MS) is a chronic inflammatory and degenerative disease of the central nervous system, characterized by the appearance of focal lesions in the white and gray matter that topographically correlate with an individual patient's neurological symptoms and signs. Magnetic resonance imaging (MRI) provides detailed in-vivo structural information, permitting the quantification and categorization of MS lesions that critically inform disease management. Traditionally, MS lesions have been manually annotated on 2D MRI slices, a process that is inefficient and prone to inter-/intra-observe r errors. Recently, automated statistical imaging analysis techniques have been proposed to extract and segment MS lesions based on MRI voxel intensity. However, their effectiveness is limited by the heterogeneity of both MRI data acquisition techniques and the appearance of MS lesions. By learning complex lesion representations directly from images, deep learning techniques have achieved remarkable breakthroughs in the MS lesion segmentation task. Here, we provide a comprehensive review of state-of-the-art automatic statistical and deep-learning MS segmentation methods and discuss current and future clinical applications. Further, we review technical strategies, such as domain adaptation, to enhance MS lesion segmentation in real-world clinical settings.
翻訳日:2021-04-21 13:27:32 公開日:2021-04-20
# イベント検出によるオーディオビデオ同期誤差の検出

Detection of Audio-Video Synchronization Errors Via Event Detection ( http://arxiv.org/abs/2104.10116v1 )

ライセンス: Link先を確認
Joshua P. Ebenezer, Yongjun Wu, Hai Wei, Sriram Sethuraman, Zongyi Liu(参考訳) テニスビデオにおける音声同期(A/V同期)エラーを検出するための新しい手法と大規模データベースを提案する。 深層ネットワークは、ビデオストリームのラケットに打たれたテニスボールの視覚的シグネチャを検出するために訓練される。 別のディープネットワークは、オーディオストリーム内の同じイベントの聴覚シグネチャを検出するように訓練されている。 評価中、打たれた球の音響イベントに対して、オーディオストリームをオーディオネットワークで検索する。 音声中にイベントが見つかった場合、ビデオ中の隣り合う間隔を対応する視覚シグネチャに検索する。 イベントがビデオストリームで見つからないがオーディオストリームで見つからない場合、A/V同期エラーがフラグ付けされる。 テニスイベントの6時間映像から504,300フレームの大規模データベースを作成し,a/v同期誤差をシミュレーションし,高い精度を実現した。

We present a new method and a large-scale database to detect audio-video synchronization(A/V sync) errors in tennis videos. A deep network is trained to detect the visual signature of the tennis ball being hit by the racquet in the video stream. Another deep network is trained to detect the auditory signature of the same event in the audio stream. During evaluation, the audio stream is searched by the audio network for the audio event of the ball being hit. If the event is found in audio, the neighboring interval in video is searched for the corresponding visual signature. If the event is not found in the video stream but is found in the audio stream, A/V sync error is flagged. We developed a large-scaled database of 504,300 frames from 6 hours of videos of tennis events, simulated A/V sync errors, and found our method achieves high accuracy on the task.
翻訳日:2021-04-21 13:27:09 公開日:2021-04-20
# 自律型ドローンレースのためのシンプルなビジョンに基づくナビゲーションと制御戦略

A simple vision-based navigation and control strategy for autonomous drone racing ( http://arxiv.org/abs/2104.09815v1 )

ライセンス: Link先を確認
Artur Cyba and Hubert Szolc and Tomasz Kryjak(参考訳) 本稿では,ArUcoタグでマークされた一連のゲートをドローンが自律的に飛行できるようにする制御システムを提案する。 シンプルで低コストなdji tello edu quad-rotorプラットフォームが使用された。 メーカーが提供するAPIに基づいて,WiFi経由でドローンとの通信を可能にし,視覚的フィードバックに基づいてドローンの位置決めを実現し,制御を生成するPythonアプリケーションを開発した。 2つの制御戦略が提案され、比較され、批判的に分析された。 さらに, 使用した位置決め法の精度を測定した。 アプリケーションはラップトップコンピュータ(約40fps)とNvidia Jetson TX2組み込みGPUプラットフォーム(約25fps)で評価された。 開発したコードはgithubで提供しています。

In this paper, we present a control system that allows a drone to fly autonomously through a series of gates marked with ArUco tags. A simple and low-cost DJI Tello EDU quad-rotor platform was used. Based on the API provided by the manufacturer, we have created a Python application that enables the communication with the drone over WiFi, realises drone positioning based on visual feedback, and generates control. Two control strategies were proposed, compared, and critically analysed. In addition, the accuracy of the positioning method used was measured. The application was evaluated on a laptop computer (about 40 fps) and a Nvidia Jetson TX2 embedded GPU platform (about 25 fps). We provide the developed code on GitHub.
翻訳日:2021-04-21 13:26:55 公開日:2021-04-20
# 1ラウンドのローカルプライベートk-ミーアン

Locally Private k-Means in One Round ( http://arxiv.org/abs/2104.09734v1 )

ライセンス: Link先を確認
Alisa Chang, Badih Ghazi, Ravi Kumar, Pasin Manurangsi(参考訳) 微分プライバシーの1ラウンド(非対話型)局所モデル(dp)におけるk平均クラスタリングの近似アルゴリズムを提案する。 このアルゴリズムは最適な非プライベート近似アルゴリズムに近い近似比を任意に達成し、大きな(コンスタントな)近似比しか保証しない既知アルゴリズムを改善する。 さらに、これはk-平均に対する最初の定数要素近似アルゴリズムであり、局所dpモデルにおいて1ラウンドの通信しか必要とせず、stemmerのオープン問題を正解する(soda 2020)。 我々のアルゴリズムフレームワークは非常に柔軟であり、同じ近似アルゴリズムを(一周)シャッフルDPモデルで生成することを示すことでこれを実証している。

We provide an approximation algorithm for k-means clustering in the one-round (aka non-interactive) local model of differential privacy (DP). This algorithm achieves an approximation ratio arbitrarily close to the best non private approximation algorithm, improving upon previously known algorithms that only guarantee large (constant) approximation ratios. Furthermore, this is the first constant-factor approximation algorithm for k-means that requires only one round of communication in the local DP model, positively resolving an open question of Stemmer (SODA 2020). Our algorithmic framework is quite flexible; we demonstrate this by showing that it also yields a similar near-optimal approximation algorithm in the (one-round) shuffle DP model.
翻訳日:2021-04-21 13:26:33 公開日:2021-04-20
# アカペラ:音声・視覚的歌声分離

A cappella: Audio-visual Singing Voice Separation ( http://arxiv.org/abs/2104.09946v1 )

ライセンス: Link先を確認
Juan F. Montesinos and Venkatesh S. Kadandale and Gloria Haro(参考訳) 音源分離は、音楽クリップが構成されている構成音源の推定として解釈することができる。 本研究では,マルチモーダル視点から単一チャンネル歌唱音声分離問題について,音声と視覚のモーダル性から共同学習することで検討する。 そのために、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットであるAcappellaを紹介した。 acappellaデータセットで最先端の歌声分離結果を達成し、その音声のみに対応するu-netおよび最先端の音声-視覚音声分離モデルと比較する、音声-視覚畳み込みニューラルネットワークy-netを提案する。 歌声の分離は、他の伴奏音声と背景音とを対象の音声と合わせて含む場合、特に困難である。 我々は,このような困難なシナリオにおいて,歌声分離タスクにおいて,モデルがベースラインモデルを上回ることを実証する。 コード、事前トレーニングされたモデル、データセットはhttps://ipcv.github. io/Acappella/で公開される。

Music source separation can be interpreted as the estimation of the constituent music sources that a music clip is composed of. In this work, we explore the single-channel singing voice separation problem from a multimodal perspective, by jointly learning from audio and visual modalities. To do so, we present Acappella, a dataset spanning around 46 hours of a cappella solo singing videos sourced from YouTube. We propose Y-Net, an audio-visual convolutional neural network which achieves state-of-the-art singing voice separation results on the Acappella dataset and compare it against its audio-only counterpart, U-Net, and a state-of-the-art audio-visual speech separation model. Singing voice separation can be particularly challenging when the audio mixture also comprises of other accompaniment voices and background sounds along with the target voice of interest. We demonstrate that our model can outperform the baseline models in the singing voice separation task in such challenging scenarios. The code, the pre-trained models and the dataset will be publicly available at https://ipcv.github. io/Acappella/
翻訳日:2021-04-21 13:26:19 公開日:2021-04-20
# 空中主成分分析用加速器へのチャネルノイズの変換

Turning Channel Noise into an Accelerator for Over-the-Air Principal Component Analysis ( http://arxiv.org/abs/2104.10095v1 )

ライセンス: Link先を確認
Zezhong Zhang, Guangxu Zhu, Rui Wang, Vincent K. N. Lau, and Kaibin Huang(参考訳) 近年,モバイルデータを有用な知識に蒸留する試みが,ネットワークエッジにおける機械学習アルゴリズムの展開につながった。 主成分分析(PCA)は、データセットの線形構造を抽出する古典的な手法であり、特徴抽出とデータ圧縮に有用である。 本研究では,分散データセットの分散特徴空間を複数デバイスで学習するために,確率的勾配降下のアルゴリズムに基づくマルチアクセスチャネル上に分散pcaを配置することを提案する。 オーバー・ザ・エアアグリゲーション(over-the-air aggregate)は、マルチアクセスのレイテンシを削減するために採用され、オーバー・ザ・エアpcaという名称が与えられる。 この設計の新規性は、チャネルノイズを利用して、勾配降下に遭遇する各サドル点周辺での降下を加速し、空気上PCAの収束速度を高めることである。 このアイデアは、降下領域の種類を検出し、それに応じてチャネルノイズのレベルを制御する電力制御方式を提案する。 このスキームは、電力制御のない場合よりも速い収束率を達成することが証明されている。

Recently years, the attempts on distilling mobile data into useful knowledge has been led to the deployment of machine learning algorithms at the network edge. Principal component analysis (PCA) is a classic technique for extracting the linear structure of a dataset, which is useful for feature extraction and data compression. In this work, we propose the deployment of distributed PCA over a multi-access channel based on the algorithm of stochastic gradient descent to learn the dominant feature space of a distributed dataset at multiple devices. Over-the-air aggregation is adopted to reduce the multi-access latency, giving the name over-the-air PCA. The novelty of this design lies in exploiting channel noise to accelerate the descent in the region around each saddle point encountered by gradient descent, thereby increasing the convergence speed of over-the-air PCA. The idea is materialized by proposing a power-control scheme which detects the type of descent region and controlling the level of channel noise accordingly. The scheme is proved to achieve a faster convergence rate than in the case without power control.
翻訳日:2021-04-21 13:25:43 公開日:2021-04-20
# (参考訳) ransic:不変互換性を用いたローテーション探索とポイントクラウド登録の高速かつ高堅牢な推定 [全文訳有]

RANSIC: Fast and Highly Robust Estimation for Rotation Search and Point Cloud Registration using Invariant Compatibility ( http://arxiv.org/abs/2104.09133v2 )

ライセンス: CC0 1.0
Lei Sun(参考訳) 対応に基づく回転探索と点雲登録は、ロボット工学とコンピュータビジョンの2つの基本的な問題である。 しかし、アウトリアーの存在は、しばしば仮定された対応の大部分を占めることさえあり、既存のアルゴリズムの多くを失敗させるか、非常に高い計算コストを持つかのどちらかにすることができる。 本稿では,ランダムサンプリングと不変性と不変性を組み合わせた新しいパラダイムに基づいて,両問題に適用可能な高速かつ高堅牢な手法であるransic(random sampling with invariant compatibility)を提案する。 一般に、ransicは対応集合から小さな部分集合をランダムに選択することから始まり、各問題で確立された不変量の互換性テストを通じてランダムな部分集合からグラフの頂点としてポテンシャルのイリアーを求め、最終的に少なくとも1つのk度頂点(kは問題に応じて自動的に更新される)が存在し、残差エラーが同時に特定の終了条件を満たす場合に、対応するイリアーを返す。 複数の合成および実実験において、RANSICは高速で95%以上のアウトレーヤに対して頑健であり、また約100%のインレーヤをリコールでき、ローテーション探索とポイントクラウド登録の両問題に対して、他の最先端の解法よりも優れていることを示した。

Correspondence-based rotation search and point cloud registration are two fundamental problems in robotics and computer vision. However, the presence of outliers, sometimes even occupying the great majority of the putative correspondences, can make many existing algorithms either fail or have very high computational cost. In this paper, we present RANSIC (RANdom Sampling with Invariant Compatibility), a fast and highly robust method applicable to both problems based on a new paradigm combining random sampling with invariance and compatibility. Generally, RANSIC starts with randomly selecting small subsets from the correspondence set, then seeks potential inliers as graph vertices from the random subsets through the compatibility tests of invariants established in each problem, and eventually returns the eligible inliers when there exists at least one K-degree vertex (K is automatically updated depending on the problem) and the residual errors satisfy a certain termination condition at the same time. In multiple synthetic and real experiments, we demonstrate that RANSIC is fast for use, robust against over 95% outliers, and also able to recall approximately 100% inliers, outperforming other state-of-the-art solvers for both the rotation search and the point cloud registration problems.
翻訳日:2021-04-21 11:56:05 公開日:2021-04-20
# (参考訳) Face-GCN:3次元動的顔識別/認識のためのグラフ畳み込みネットワーク [全文訳有]

Face-GCN: A Graph Convolutional Network for 3D Dynamic Face Identification/Recog nition ( http://arxiv.org/abs/2104.09145v2 )

ライセンス: CC BY 4.0
Konstantinos Papadopoulos, Anis Kacem, Abdelrahman Shabayek, Djamila Aouada(参考訳) 顔認識/認識はここ数年で大きく進歩している。 しかし、提案手法のほとんどは静的なRGBフレームと中立な表情に依存している。 これには2つの欠点がある。 第一に、重要な顔形状の手がかりは無視される。 第二に、表情による顔の変形は、そのような方法の性能に影響を及ぼす可能性がある。 本稿では,顔のキーポイントに基づく動的3次元顔認識のためのフレームワークを提案する。 各動的表情列は時空間グラフとして表現され、3d顔ランドマークを用いて構築される。 各グラフノードは、その近傍から抽出された局所的な形状とテクスチャを含む。 顔の分類・識別には時空間グラフ畳み込みネットワーク(ST-GCN)を用いる。 最後に,動的3次元表情データセットに対するアプローチについて検討した。

Face identification/recog nition has significantly advanced over the past years. However, most of the proposed approaches rely on static RGB frames and on neutral facial expressions. This has two disadvantages. First, important facial shape cues are ignored. Second, facial deformations due to expressions can have an impact on the performance of such a method. In this paper, we propose a novel framework for dynamic 3D face identification/recog nition based on facial keypoints. Each dynamic sequence of facial expressions is represented as a spatio-temporal graph, which is constructed using 3D facial landmarks. Each graph node contains local shape and texture features that are extracted from its neighborhood. For the classification/ident ification of faces, a Spatio-temporal Graph Convolutional Network (ST-GCN) is used. Finally, we evaluate our approach on a challenging dynamic 3D facial expression dataset.
翻訳日:2021-04-21 11:36:39 公開日:2021-04-20
# ドメイン固有の洞察のための知識グラフアンカー情報抽出

Knowledge Graph Anchored Information-Extracti on for Domain-Specific Insights ( http://arxiv.org/abs/2104.08936v2 )

ライセンス: Link先を確認
Vivek Khetan, Annervaz K M, Erin Wetherley, Elena Eneva, Shubhashis Sengupta, and Andrew E. Fano(参考訳) データの量と複雑さの増加は、人間が情報を消費し、タイムリーに応答することの困難をもたらす。 急速に変化するルールや規制を持つドメインのビジネスにとって、変更の特定に失敗するのはコストがかかる可能性がある。 専門的な分析やドメイン固有のオントロジーや分類学の発展とは対照的に、新しいドメイン内の特定の情報のニーズを満たすためにタスクベースのアプローチを用いる。 具体的には、入力したインスタンスデータからタスクベースの情報を抽出することを提案する。 エンティティ抽出のためのバイ・LSTM-CRFモデル、アテンションベースディープセマンティックロールラベルリング、および自動動詞ベース関係抽出器を含む技術NLP技術の状態を構成したパイプラインを用いて、インスタンスレベルのセマンティック構造を自動的に抽出する。 各インスタンスは、新しいタイムリーな洞察を生成するために、より大きなドメイン固有の知識グラフと結合される。 手動で検証した予備結果は、特定の情報をエンドユースケースに抽出するのに有効な方法論を示している。

The growing quantity and complexity of data pose challenges for humans to consume information and respond in a timely manner. For businesses in domains with rapidly changing rules and regulations, failure to identify changes can be costly. In contrast to expert analysis or the development of domain-specific ontology and taxonomies, we use a task-based approach for fulfilling specific information needs within a new domain. Specifically, we propose to extract task-based information from incoming instance data. A pipeline constructed of state of the art NLP technologies, including a bi-LSTM-CRF model for entity extraction, attention-based deep Semantic Role Labeling, and an automated verb-based relationship extractor, is used to automatically extract an instance level semantic structure. Each instance is then combined with a larger, domain-specific knowledge graph to produce new and timely insights. Preliminary results, validated manually, show the methodology to be effective for extracting specific information to complete end use-cases.
翻訳日:2021-04-21 11:28:47 公開日:2021-04-20
# 測度伝播による深部クラスタリング

Deep Clustering with Measure Propagation ( http://arxiv.org/abs/2104.08967v2 )

ライセンス: Link先を確認
Minhua Chen, Badrinath Jayakumar, Padmasundari Gopalakrishnan, Qiming Huang, Michael Johnston, and Patrick Haffner(参考訳) ディープモデルは教師なしと教師なしの両方の学習の最先端を改善した。 例えば、深層クラスタリング(DEC)は、表現学習にスタックされたオートエンコーダを使用することで、教師なしクラスタリング性能を大幅に改善した。 しかし、深部モデリングの弱点の一つは、元の空間の局所的な近傍構造が潜在空間で必ずしも保存されないことである。 局所幾何学を保存するために、グラフラプラシアン正則化を用いた教師あり半教師あり学習文献(スペクトルクラスタリングやラベル伝播など)において様々な方法が提案されている。 本稿では,深層表現学習の強みと,半教師付きシナリオで当初用いられていたKL偏差グラフ正規化手法である測度伝搬(MP)を組み合わせる。 MPの主な仮定は、2つのデータポイントが元の空間に近接している場合、それらはクラスメンバーシップ分布のKL-発散によって測定された同じクラスに属する可能性が高いということである。 教師なし学習シナリオでも同様の仮定をとることで,測定伝搬(DECAMP)モデルによる深層埋め込みクラスタリングを提案する。 短文クラスタリングタスクにおけるDECAMPの評価を行う。 3つのパブリックデータセットで、decampは、クラスタリングプロセスで使われる単語埋め込みを生成するために追加データを使用するベースラインを含む、他の最先端のベースラインと競合する。 例えば、Stackoverflowデータセットでは、DECAMPのクラスタリング精度は79%に達しており、これは既存のすべてのベースラインよりも約5%高い。 これらの実験結果は、DECAMPが教師なし学習の非常に効果的な方法であることを示唆している。

Deep models have improved state-of-the-art for both supervised and unsupervised learning. For example, deep embedded clustering (DEC) has greatly improved the unsupervised clustering performance, by using stacked autoencoders for representation learning. However, one weakness of deep modeling is that the local neighborhood structure in the original space is not necessarily preserved in the latent space. To preserve local geometry, various methods have been proposed in the supervised and semi-supervised learning literature (e.g., spectral clustering and label propagation) using graph Laplacian regularization. In this paper, we combine the strength of deep representation learning with measure propagation (MP), a KL-divergence based graph regularization method originally used in the semi-supervised scenario. The main assumption of MP is that if two data points are close in the original space, they are likely to belong to the same class, measured by KL-divergence of class membership distribution. By taking the same assumption in the unsupervised learning scenario, we propose our Deep Embedded Clustering Aided by Measure Propagation (DECAMP) model. We evaluate DECAMP on short text clustering tasks. On three public datasets, DECAMP performs competitively with other state-of-the-art baselines, including baselines using additional data to generate word embeddings used in the clustering process. As an example, on the Stackoverflow dataset, DECAMP achieved a clustering accuracy of 79%, which is about 5% higher than all existing baselines. These empirical results suggest that DECAMP is a very effective method for unsupervised learning.
翻訳日:2021-04-21 11:28:30 公開日:2021-04-20
# da-dgcex: 分散認識型オートエンコーダ損失による深い説明の妥当性の確保

DA-DGCEx: Ensuring Validity of Deep Guided Counterfactual Explanations With Distribution-Aware Autoencoder Loss ( http://arxiv.org/abs/2104.09062v2 )

ライセンス: Link先を確認
Jokin Labaien, Ekhi Zugasti, Xabier De Carlos(参考訳) ディープラーニングはさまざまな分野で非常に価値のあるツールになっていますが、これらのモデルの学習能力に疑問を持つ人はいません。 それでも、ディープラーニングモデルは解釈可能性の欠如からブラックボックスと見なされることが多いため、意思決定プロセスに一般的な不信がある。 近年、有効性と解釈可能性のバランスを見つけるために、説明可能な人工知能(XAI)が人気を集めており、この分野の手法のいくつかは、反現実的な説明を生み出すために使われている。 これらの説明を生成するプロセスは、一般的に、説明すべき各入力の最適化問題を解決することで成り立っている。 この処理を高速化するために、いくつかの手法は自動エンコーダを使用して、即時対実的な説明を生成する。 近年,分類モデルに付随するオートエンコーダを訓練し,簡単な反事実説明を生成するdgcex(deep guided counterfactual explanations)という手法が提案されている。 しかし、この方法は生成した反実例がデータ多様体に近いことを保証しないので、非現実的な反実例を生成することができる。 そこで本論文では,DGCExのコスト関数を付加したDA-DGCEx(Dis Distribution Aware Deep Guided Counterfactual Explanations)を提案する。

Deep Learning has become a very valuable tool in different fields, and no one doubts the learning capacity of these models. Nevertheless, since Deep Learning models are often seen as black boxes due to their lack of interpretability, there is a general mistrust in their decision-making process. To find a balance between effectiveness and interpretability, Explainable Artificial Intelligence (XAI) is gaining popularity in recent years, and some of the methods within this area are used to generate counterfactual explanations. The process of generating these explanations generally consists of solving an optimization problem for each input to be explained, which is unfeasible when real-time feedback is needed. To speed up this process, some methods have made use of autoencoders to generate instant counterfactual explanations. Recently, a method called Deep Guided Counterfactual Explanations (DGCEx) has been proposed, which trains an autoencoder attached to a classification model, in order to generate straightforward counterfactual explanations. However, this method does not ensure that the generated counterfactual instances are close to the data manifold, so unrealistic counterfactual instances may be generated. To overcome this issue, this paper presents Distribution Aware Deep Guided Counterfactual Explanations (DA-DGCEx), which adds a term to the DGCEx cost function that penalizes out of distribution counterfactual instances.
翻訳日:2021-04-21 11:28:04 公開日:2021-04-20
# LAFEAT: 敵対的防御と潜在的な機能によるピアリング

LAFEAT: Piercing Through Adversarial Defenses with Latent Features ( http://arxiv.org/abs/2104.09284v2 )

ライセンス: Link先を確認
Yunrui Yu, Xitong Gao, Cheng-Zhong Xu(参考訳) 深層畳み込みニューラルネットワークは敵の攻撃を受けやすい。 入力に小さな摂動を加えることで、誤った出力を与えるように容易に騙すことができる。 このような攻撃に対してCNNを堅牢にする上で,これは大きな課題だ。 この目的のために新たな防御技術が提案されている。 本稿では,特定の「ロバスト」モデルにおける潜在的特徴が,敵攻撃の影響を受けやすいことを示す。 これに加えて、勾配降下ステップ(LAFEAT)における潜伏特徴を利用する統合された$\ell_\infty$-normホワイトボックス攻撃アルゴリズムを導入する。 攻撃を成功させるためには計算的にはるかに効率的であるだけでなく、様々な防御機構における現在の最先端技術よりも強力な敵であることを示す。 これは、モデルのロバスト性がディフェンダーの隠れたコンポーネントの有効利用に起因しており、もはや全体論的観点から見るべきではないことを示唆している。

Deep convolutional neural networks are susceptible to adversarial attacks. They can be easily deceived to give an incorrect output by adding a tiny perturbation to the input. This presents a great challenge in making CNNs robust against such attacks. An influx of new defense techniques have been proposed to this end. In this paper, we show that latent features in certain "robust" models are surprisingly susceptible to adversarial attacks. On top of this, we introduce a unified $\ell_\infty$-norm white-box attack algorithm which harnesses latent features in its gradient descent steps, namely LAFEAT. We show that not only is it computationally much more efficient for successful attacks, but it is also a stronger adversary than the current state-of-the-art across a wide range of defense mechanisms. This suggests that model robustness could be contingent on the effective use of the defender's hidden components, and it should no longer be viewed from a holistic perspective.
翻訳日:2021-04-21 11:27:39 公開日:2021-04-20
# Visual Transformer Pruning

Visual Transformer Pruning ( http://arxiv.org/abs/2104.08500v2 )

ライセンス: Link先を確認
Mingjian Zhu, Kai Han, Yehui Tang, Yunhe Wang(参考訳) Visual Transformerは様々なコンピュータビジョンアプリケーションで競争力を発揮している。 しかし、ストレージ、実行時のメモリ、計算要求によってモバイルデバイスへのデプロイが妨げられている。 ここでは,各層におけるチャネルの影響を識別し,それに応じてプルーニングを実行する視覚トランスフォーマリン方式を提案する。 Transformerでチャネルワイドのスパーシリティを促進することで、重要なチャネルが自動的に現れる。 精度を損なうことなく高い刈り取り率を達成するために、係数の小さいチャネルを大量に廃棄することができる。 ビジュアルトランスフォーマープルーニングのパイプラインは、1) スパーシティ正規化によるトレーニング、2) プルーニングチャネル、3) 微調整である。 提案アルゴリズムのパラメータ削減とFLOP比をImageNetデータセット上で評価し,その有効性を示す。

Visual transformer has achieved competitive performance on a variety of computer vision applications. However, their storage, run-time memory, and computational demands are hindering the deployment on mobile devices. Here we present an visual transformer pruning approach, which identifies the impacts of channels in each layer and then executes pruning accordingly. By encouraging channel-wise sparsity in the Transformer, important channels automatically emerge. A great number of channels with small coefficients can be discarded to achieve a high pruning ratio without significantly compromising accuracy. The pipeline for visual transformer pruning is as follows: 1) training with sparsity regularization; 2) pruning channels; 3) finetuning. The reduced parameters and FLOPs ratios of the proposed algorithm are well evaluated and analyzed on ImageNet dataset to demonstrate its effectiveness.
翻訳日:2021-04-21 11:27:23 公開日:2021-04-20
# VVC品質向上と超解像のためのマルチタスク学習

Multitask Learning for VVC Quality Enhancement and Super-Resolution ( http://arxiv.org/abs/2104.08319v2 )

ライセンス: Link先を確認
Charles Bonnineau and Wassim Hamidouche and Jean-Francois Travers and Naty Sidaty and Olivier Deforges(参考訳) VVCと呼ばれる最新のビデオコーディング標準には、コーディングチェーンのさまざまなレベルにおいて、新しく洗練されたコーディングツールがいくつか含まれている。 これらのツールは、以前の標準である高効率ビデオ符号化(HEVC)に関して、大幅なコーディング向上をもたらす。 しかし、エンコーダは、ビットレートを利用可能な帯域幅に調整するために適用されるコーディング決定に起因して、可視的な符号化アーティファクトを導入することができる。 したがって、プリ・ポスト・プロセッシングの技術がコーディングパイプラインに追加され、デコードされたビデオの品質が向上する。 これらの手法は,近年のディープラーニングの進歩により,従来の手法と比較して顕著な成果を上げている。 一般に、複数のニューラルネットワークは異なるタスクを実行するために独立して訓練されるため、モデル間の冗長性から利益を得ることができない。 本稿では,復号化VVCビデオの品質を高めるための後処理ステップとして,学習ベースのソリューションを検討する。 本手法は,マルチタスク学習により,複数の劣化レベルに最適化された単一の共有ネットワークを用いて,品質向上と超解像の両方を行う。 提案手法は、従来の特殊アーキテクチャと比較して、符号化アーティファクトの緩和とネットワークパラメータの少ない超解像の両方において優れた性能を実現する。

The latest video coding standard, called versatile video coding (VVC), includes several novel and refined coding tools at different levels of the coding chain. These tools bring significant coding gains with respect to the previous standard, high efficiency video coding (HEVC). However, the encoder may still introduce visible coding artifacts, mainly caused by coding decisions applied to adjust the bitrate to the available bandwidth. Hence, pre and post-processing techniques are generally added to the coding pipeline to improve the quality of the decoded video. These methods have recently shown outstanding results compared to traditional approaches, thanks to the recent advances in deep learning. Generally, multiple neural networks are trained independently to perform different tasks, thus omitting to benefit from the redundancy that exists between the models. In this paper, we investigate a learning-based solution as a post-processing step to enhance the decoded VVC video quality. Our method relies on multitask learning to perform both quality enhancement and super-resolution using a single shared network optimized for multiple degradation levels. The proposed solution enables a good performance in both mitigating coding artifacts and super-resolution with fewer network parameters compared to traditional specialized architectures.
翻訳日:2021-04-21 11:27:12 公開日:2021-04-20
# tsgn:ethereumフィッシングアカウントを識別するためのトランザクションサブグラフネットワーク

TSGN: Transaction Subgraph Networks for Identifying Ethereum Phishing Accounts ( http://arxiv.org/abs/2104.08767v2 )

ライセンス: Link先を確認
Jinhuan Wang and Pengtao Chen and Shanqing Yu and Qi Xuan(参考訳) ブロックチェーン技術、特にブロックチェーンベースのトランザクションは、金融業界でこれまで見たことのない情報を提供します。 フィアット通貨とは対照的に、Bitcoinのような仮想通貨による取引は完全に公開されている。 暗号通貨の取引はブロックチェーンで永久に記録され、いつでも利用できる。 したがって、ネットワークの観点からブロックチェーンにおけるフィッシング詐欺のような違法な現象を分析するために、トランザクションネットワーク(TN)を構築することができる。 本稿では,ethereumにおけるフィッシングアカウントを識別するためのトランザクションサブグラフネットワーク(tsgn)に基づく分類モデルを提案する。 まず、各アドレスのトランザクションサブグラフを抽出し、異なるマッピング機構に基づいてこれらのサブグラフを対応するTSGNに拡張する。 TSGNは、フィッシングアカウントの識別に役立てるために、より潜在的な情報を提供することができる。 さらに、Directed-TSGNは、方向属性を導入することで、フィッシング詐欺の重要なトポロジ的パターンをキャプチャするトランザクションフロー情報を保持できる。 TSGNと比較すると、Directed-TSGNは時間の複雑さがはるかに低く、グラフ表現学習の恩恵を受けている。 実験により、ネットワーク表現アルゴリズムと組み合わせることで、TSGNモデルはより多くの特徴を捉え、分類アルゴリズムを強化し、Ethereumネットワークにおけるフィッシングノードの識別精度を向上させることができることが示された。

Blockchain technology and, in particular, blockchain-based transaction offers us information that has never been seen before in the financial world. In contrast to fiat currencies, transactions through virtual currencies like Bitcoin are completely public. And these transactions of cryptocurrencies are permanently recorded on Blockchain and are available at any time. Therefore, this allows us to build transaction networks (TN) to analyze illegal phenomenons such as phishing scams in blockchain from a network perspective. In this paper, we propose a Transaction SubGraph Network (TSGN) based classification model to identify phishing accounts in Ethereum. Firstly we extract transaction subgraphs for each address and then expand these subgraphs into corresponding TSGNs based on the different mapping mechanisms. We find that TSGNs can provide more potential information to benefit the identification of phishing accounts. Moreover, Directed-TSGNs, by introducing direction attributes, can retain the transaction flow information that captures the significant topological pattern of phishing scams. By comparing with the TSGN, Directed-TSGN indeed has much lower time complexity, benefiting the graph representation learning. Experimental results demonstrate that, combined with network representation algorithms, the TSGN model can capture more features to enhance the classification algorithm and improve phishing nodes' identification accuracy in the Ethereum networks.
翻訳日:2021-04-21 11:26:53 公開日:2021-04-20
# 潜在空間操作のためのサロゲート勾配場

Surrogate Gradient Field for Latent Space Manipulation ( http://arxiv.org/abs/2104.09065v2 )

ライセンス: Link先を確認
Minjun Li, Yanghua Jin, Huachun Zhu(参考訳) GAN(Generative Adversarial Network)は、サンプルコードから高品質な画像を生成する。 最近の作品は、基礎となる潜在コードを操作して画像の編集を試みるが、属性調整の基本的なタスクを超えることは滅多にない。 キーポイントやキャプションなどの多次元条件で操作できる最初の手法を提案する。 具体的には,補助マッピングネットワークによって誘導されるサーロゲート勾配場(sgf)に基づいて,対象条件を満たす新しい潜在コードを探索するアルゴリズムを設計する。 定量的比較のために,操作方法の絡み合いを評価する指標を提案する。 顔属性調整タスクの詳細な実験的解析により, 提案手法は, アンタングルメントにおける最先端手法よりも優れていることが示された。 さらに,本手法がキーポイントやキャプションなどの複雑な画像特性を変更可能であることを示すために,様々な条件のタスクに適用する。

Generative adversarial networks (GANs) can generate high-quality images from sampled latent codes. Recent works attempt to edit an image by manipulating its underlying latent code, but rarely go beyond the basic task of attribute adjustment. We propose the first method that enables manipulation with multidimensional condition such as keypoints and captions. Specifically, we design an algorithm that searches for a new latent code that satisfies the target condition based on the Surrogate Gradient Field (SGF) induced by an auxiliary mapping network. For quantitative comparison, we propose a metric to evaluate the disentanglement of manipulation methods. Thorough experimental analysis on the facial attribute adjustment task shows that our method outperforms state-of-the-art methods in disentanglement. We further apply our method to tasks of various condition modalities to demonstrate that our method can alter complex image properties such as keypoints and captions.
翻訳日:2021-04-21 11:26:33 公開日:2021-04-20