このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210427となっている論文です。

PDF登録状況(公開日: 20210427)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子化ニューラルネットワークとプルーニングニューラルネットワークのロバスト誤差境界

Robust error bounds for quantised and pruned neural networks ( http://arxiv.org/abs/2012.00138v2 )

ライセンス: Link先を確認
Jiaqi Li, Ross Drummond and Stephen R. Duncan(参考訳) スマートフォンやモノのインターネットの普及に伴い、ローカルのパーソナルデバイス上では、データがますます発生しつつある。 プライバシ、レイテンシ、省エネの理由から、このシフトによって、マシンラーニングアルゴリズムは、デバイスにローカルに格納されたデータとアルゴリズム、さらにはトレーニング済みの分散化へと移行している。 デバイスハードウェアは、このセットアップにおけるモデル機能の主要なボトルネックとなり、スリム化されより効率的なニューラルネットワークの必要性を生み出します。 ニューラルネットワークのプルーニングと量子化は、このために開発された2つの方法であり、どちらのアプローチもモデル性能を犠牲にすることなく計算コストを削減できる素晴らしい結果を示している。 しかし、これらの削減手法の理解はいまだに未発達である。 この問題に対処するために、ニューラルネットワークのプルーニングや定量化による最悪のケースエラーをバウンドする半定プログラムを導入する。 この手法は多くのニューラルネットワーク構造や非線形活性化関数に適用でき、境界は指定された集合の全ての入力に対して頑健に保持される。 計算された境界は、安全クリティカルなシステム上にデプロイされた場合、これらのアルゴリズムの性能に確実性をもたらすことが期待されている。

With the rise of smartphones and the internet-of-things, data is increasingly getting generated at the edge on local, personal devices. For privacy, latency and energy saving reasons, this shift is causing machine learning algorithms to move towards decentralisation with the data and algorithms stored, and even trained, locally on devices. The device hardware becomes the main bottleneck for model capability in this set-up, creating a need for slimmed down, more efficient neural networks. Neural network pruning and quantisation are two methods that have been developed for this, with both approaches demonstrating impressive results in reducing the computational cost without sacrificing significantly on model performance. However, the understanding behind these reduction methods remains underdeveloped. To address this issue, a semi-definite program is introduced to bound the worst-case error caused by pruning or quantising a neural network. The method can be applied to many neural network structures and nonlinear activation functions with the bounds holding robustly for all inputs in specified sets. It is hoped that the computed bounds will provide certainty to the performance of these algorithms when deployed on safety-critical systems.
翻訳日:2021-06-06 14:27:50 公開日:2021-04-27
# 回転対称成分の自動表面検査のためのスティッチアルゴリズム

A Stitching Algorithm for Automated Surface Inspection of Rotationally Symmetric Components ( http://arxiv.org/abs/2012.00308v2 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Tim Brander, Juergen Fleischer(参考訳) 本稿では,回転対称部分の表面像を縫い合わせる新しい方法を提案する。 機能ベースの縫合アプローチを使用して、ビデオファイルから歪みのない、真から生までのイメージを生成するプロセスパイプラインを提供する。 これにより、例えば、多数の個々の画像を見ることなく、条件監視が可能になる。 検証のために, 使用済みボールねじ駆動スピンドルの具体例を用いて, 本稿で実証する。 開発したアルゴリズムはラインスキャンカメラシステムの機能原理を再現することを目的としており、物理的計測システムは特徴に基づくアプローチに置き換えられる。 縫合アルゴリズムの評価にはメトリクスが使用され、そのうちのいくつかは本研究でしか開発されていないか、既に使用されているテスト手順によって補われている。 開発したアルゴリズムの適用性は機械工具のスピンドルに限ったものではない。 代わりに、開発した手法は、様々な回転対称成分の表面検査への一般的なアプローチを可能にするため、様々な産業用途で使用できる。 深層学習に基づく検出アルゴリズムは容易に実装でき、回転対称部分の故障検出と状態監視のための完全なパイプラインを生成することができる。

This paper provides a novel approach to stitching surface images of rotationally symmetric parts. It presents a process pipeline that uses a feature-based stitching approach to create a distortion-free and true-to-life image from a video file. The developed process thus enables, for example, condition monitoring without having to view many individual images. For validation purposes, this will be demonstrated in the paper using the concrete example of a worn ball screw drive spindle. The developed algorithm aims at reproducing the functional principle of a line scan camera system, whereby the physical measuring systems are replaced by a feature-based approach. For evaluation of the stitching algorithms, metrics are used, some of which have only been developed in this work or have been supplemented by test procedures already in use. The applicability of the developed algorithm is not only limited to machine tool spindles. Instead, the developed method allows a general approach to the surface inspection of various rotationally symmetric components and can therefore be used in a variety of industrial applications. Deep-learning-based detection Algorithms can easily be implemented to generate a complete pipeline for failure detection and condition monitoring on rotationally symmetric parts.
翻訳日:2021-05-30 19:50:49 公開日:2021-04-27
# (参考訳) デジタル画像に対する可視性非可視性交感神経パッチ攻撃 [全文訳有]

Visually Imperceptible Adversarial Patch Attacks on Digital Images ( http://arxiv.org/abs/2012.00909v3 )

ライセンス: CC BY 4.0
Yaguan Qian, Jiamin Wang, Bin Wang, Shaoning Zeng, Zhaoquan Gu, Shouling Ji, and Wassim Swaileh(参考訳) 敵対的な例に対するディープニューラルネットワーク(DNN)の脆弱性が注目されている。 多くのアルゴリズムが強力な敵の例を作るために提案されている。 しかし、これらのアルゴリズムのほとんどは、ネットワークの説明を考慮せずに、グローバルまたはローカルなピクセル領域を変更した。 したがって、摂動は冗長であり、人間の目から容易に検出できる。 本稿では,局所的領域摂動を生成する新しい手法を提案する。 主なアイデアは、人間の注意機構をシミュレートし、CFRに摂動を加えることで、画像の寄与する特徴領域(CFR)を見つけることである。 さらに、活性化マップに基づいてソフトマスク行列を設計し、CFRの各画素の寄与を微妙に表現する。 このソフトマスクを用いて,CFRの最適摂動を探索する逆温度の新しい損失関数を開発した。 ネットワークの説明により、CFRに付加される摂動は他の領域に付加されるものよりも効果的である。 CIFAR-10 と ILSVRC2012 で行った大規模な実験により,攻撃成功率,非受容性,伝達性など,提案手法の有効性が示された。

The vulnerability of deep neural networks (DNNs) to adversarial examples has attracted more attention. Many algorithms have been proposed to craft powerful adversarial examples. However, most of these algorithms modified the global or local region of pixels without taking network explanations into account. Hence, the perturbations are redundant, which are easily detected by human eyes. In this paper, we propose a novel method to generate local region perturbations. The main idea is to find a contributing feature region (CFR) of an image by simulating the human attention mechanism and then add perturbations to CFR. Furthermore, a soft mask matrix is designed on the basis of an activation map to finely represent the contributions of each pixel in CFR. With this soft mask, we develop a new loss function with inverse temperature to search for optimal perturbations in CFR. Due to the network explanations, the perturbations added to CFR are more effective than those added to other regions. Extensive experiments conducted on CIFAR-10 and ILSVRC2012 demonstrate the effectiveness of the proposed method, including attack success rate, imperceptibility, and transferability.
翻訳日:2021-05-30 17:12:49 公開日:2021-04-27
# (参考訳) 特徴地図再構成ネットワークを用いたマイナショット分類 [全文訳有]

Few-Shot Classification with Feature Map Reconstruction Networks ( http://arxiv.org/abs/2012.01506v2 )

ライセンス: CC BY 4.0
Davis Wertheimer, Luming Tang and Bharath Hariharan(参考訳) 本稿では, 潜在空間における再構成問題として, 少数ショット分類を再構成する。 あるクラスのサポート機能からクエリ特徴マップを再構築するネットワークの能力は、そのクラスにおけるクエリのメンバシップを予測する。 我々は,新しいモジュールや大規模学習可能なパラメータを導入することなく,サポート機能から直接クローズドな形式の特徴を問合せする機構を導入する。 結果のFeature Map Restruction Networksは、以前のアプローチよりもパフォーマンスが高く、計算的に効率的である。 異なるニューラルネットワークを持つ4つのきめ細かいベンチマークに対して、一貫性と実質的な精度の向上を示す。 我々のモデルは、細粒でないミニイメージネットと、最小限のベルとホイッスルを持つタイレッドイメージネットベンチマークで競合する。

In this paper we reformulate few-shot classification as a reconstruction problem in latent space. The ability of the network to reconstruct a query feature map from support features of a given class predicts membership of the query in that class. We introduce a novel mechanism for few-shot classification by regressing directly from support features to query features in closed form, without introducing any new modules or large-scale learnable parameters. The resulting Feature Map Reconstruction Networks are both more performant and computationally efficient than previous approaches. We demonstrate consistent and substantial accuracy gains on four fine-grained benchmarks with varying neural architectures. Our model is also competitive on the non-fine-grained mini-ImageNet and tiered-ImageNet benchmarks with minimal bells and whistles.
翻訳日:2021-05-30 01:45:25 公開日:2021-04-27
# (参考訳) 3次元点雲からの凸ポリトープ組成の再構成 [全文訳有]

Reconstruction of Convex Polytope Compositions from 3D Point-clouds ( http://arxiv.org/abs/2105.02956v1 )

ライセンス: CC BY 4.0
Markus Friedrich and Pierre-Alain Fayolle(参考訳) 対応する入力ポイントクラウドに完全に適合する凸ポリトープの合成(結合)を再構成することは、リバースエンジニアリングや剛体動力学シミュレーションで興味深い応用を伴う難しい最適化問題である。 本稿ではまず,まず平面の集合を抽出し,次に入力点雲を弱凸クラスタに分割し,各分割に適合する平面の交点として凸多面体の集合を生成するパイプラインを提案する。 最良適合凸多面体を見つけることは、適合面の集合上の組合せ最適化問題として定式化し、進化的アルゴリズムを用いて解く。 凸クラスタリングには2つの異なる手法を用い,複数の入力データセットに基づく徹底的な評価において,その強みと弱みを詳述する。

Reconstructing a composition (union) of convex polytopes that perfectly fits the corresponding input point-cloud is a hard optimization problem with interesting applications in reverse engineering and rigid body dynamics simulations. We propose a pipeline that first extracts a set of planes, then partitions the input point-cloud into weakly convex clusters and finally generates a set of convex polytopes as the intersection of fitted planes for each partition. Finding the best-fitting convex polytopes is formulated as a combinatorial optimization problem over the set of fitted planes and is solved using an Evolutionary Algorithm. For convex clustering, we employ two different methods and detail their strengths and weaknesses in a thorough evaluation based on multiple input data-sets.
翻訳日:2021-05-11 10:43:16 公開日:2021-04-27
# (参考訳) VID-WIN: マルチメディア物のインターネットのためのエッジにおけるクエリ対応ウィンドウとの高速ビデオイベントマッチング [全文訳有]

VID-WIN: Fast Video Event Matching with Query-Aware Windowing at the Edge for the Internet of Multimedia Things ( http://arxiv.org/abs/2105.02957v1 )

ライセンス: CC BY 4.0
Piyush Yadav, Dhaval Salwala, Edward Curry(参考訳) 効率的なビデオ処理は、興味のある事象を検出するために多くのIoMTアプリケーションにおいて重要な要素である。 現在、多くのウィンドウ最適化技術がイベント処理において提案されており、入力ストリームが構造化データモデルを持つという前提で提案されている。 基盤となる構造化データモデルがないため、ビデオは非常に複雑です。 CCTVカメラやスマートフォンなどのビデオストリームソースは、リソース制約のあるエッジノードである。 同時に、ビデオコンテンツ抽出は高価であり、主にハイエンド(あるいはクラウド)ノードにデプロイされる計算集約型ディープニューラルネットワーク(DNN)モデルが必要である。 本稿では,エッジクラウドパラダイムにおけるビデオイベント分析を高速化するための,適応型2ステージアライアンスウィンドウ方式であるVID-WINを提案する。 VID-WINはエッジとクラウドノードを並行して実行し、状態ベースの複合イベントマッチングのためのクエリとリソース認識の最適化を実行する。 VID-WINは、ビデオコンテンツとDNN入力ノブを利用して、ノード間のビデオ推論プロセスを高速化する。 本稿では、リソース制約付きエッジノード下での動画フレームのコンテンツ駆動型マイクロバッチリサイズ化、クエリアウェアキャッシュ、およびマイクロバッチベースのユーティリティフィルタリング戦略を提案し、システムスループット、レイテンシ、ネットワーク使用率を改善する。 5つの現実世界のデータセットに対して広範な評価が行われる。 実験の結果、VID-WINビデオイベントマッチングは、クエリレベルの精度とリソース境界を維持しながら、レイテンシを最小化し、帯域幅を99%削減し、スループットを約2.3倍に向上することがわかった。

Efficient video processing is a critical component in many IoMT applications to detect events of interest. Presently, many window optimization techniques have been proposed in event processing with an underlying assumption that the incoming stream has a structured data model. Videos are highly complex due to the lack of any underlying structured data model. Video stream sources such as CCTV cameras and smartphones are resource-constrained edge nodes. At the same time, video content extraction is expensive and requires computationally intensive Deep Neural Network (DNN) models that are primarily deployed at high-end (or cloud) nodes. This paper presents VID-WIN, an adaptive 2-stage allied windowing approach to accelerate video event analytics in an edge-cloud paradigm. VID-WIN runs parallelly across edge and cloud nodes and performs the query and resource-aware optimization for state-based complex event matching. VID-WIN exploits the video content and DNN input knobs to accelerate the video inference process across nodes. The paper proposes a novel content-driven micro-batch resizing, queryaware caching and micro-batch based utility filtering strategy of video frames under resource-constrained edge nodes to improve the overall system throughput, latency, and network usage. Extensive evaluations are performed over five real-world datasets. The experimental results show that VID-WIN video event matching achieves ~2.3X higher throughput with minimal latency and ~99% bandwidth reduction compared to other baselines while maintaining query-level accuracy and resource bounds.
翻訳日:2021-05-11 10:30:41 公開日:2021-04-27
# (参考訳) 限定ラベル付天文画像の形態分類 [全文訳有]

Morphological classification of astronomical images with limited labelling ( http://arxiv.org/abs/2105.02958v1 )

ライセンス: CC BY 4.0
Andrey Soroka (1), Alex Meshcheryakov (2), Sergey Gerasimov (1) ((1) Faculty of Computational Mathematics and Cybernetics Lomonosov Moscow State University, (2) Space Research Institute of RAS)(参考訳) 形態学的分類のタスクは単純なパラメータ化には複雑であるが、銀河進化分野の研究には重要である。 将来の銀河探査(例) EUCLID)は10^9ドルの銀河のデータを収集する。 形態情報を得るためには、大量のお金または膨大な数のボランティアを必要とする銀河画像をマークアップする必要がある。 本稿では, 対向オートエンコーダ(AAE)モデルの能動的学習に基づく, 銀河形態分類の効果的な半教師付き手法を提案する。 2値分類問題(galaxy zoo 2 決定ツリーのトップレベル問題)では、テスト部分において 0.86 百万のマークアップアクションで93.1%の精度を達成しました。 付加的なマークアップを持つ最良のモデルは、95.5%の精度を達成します。 我々の知る限り、天文学におけるAE半教師あり学習モデルとしては初めてである。

The task of morphological classification is complex for simple parameterization, but important for research in the galaxy evolution field. Future galaxy surveys (e.g. EUCLID) will collect data about more than a $10^9$ galaxies. To obtain morphological information one needs to involve people to mark up galaxy images, which requires either a considerable amount of money or a huge number of volunteers. We propose an effective semi-supervised approach for galaxy morphology classification task, based on active learning of adversarial autoencoder (AAE) model. For a binary classification problem (top level question of Galaxy Zoo 2 decision tree) we achieved accuracy 93.1% on the test part with only 0.86 millions markup actions, this model can easily scale up on any number of images. Our best model with additional markup achieves accuracy of 95.5%. To the best of our knowledge it is a first time AAE semi-supervised learning model used in astronomy.
翻訳日:2021-05-11 09:48:57 公開日:2021-04-27
# (参考訳) Outlier-robust sparse/low-rank least-squares regression and robust matrix completion

Outlier-robust sparse/low-rank least-squares regression and robust matrix completion ( http://arxiv.org/abs/2012.06750v2 )

ライセンス: CC BY 4.0
Philip Thompson(参考訳) 異種雑音を伴うサブガウシアン統計学習枠組みにおける高次元最小二乗回帰について検討した。 ラベルのわずかな$\epsilon$ が反対に汚染された場合に$s$-sparse と $r$-low-rank の最小二乗回帰を含む。 また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレース回帰理論を提案する。 これらの問題に対して、r(n,d_{e})+\sqrt{\log(1/\delta)/n}+\epsilon\log(1/\epsi lon)$という形の新しい「準ガウス的」推定率は、少なくとも1-\delta$という確率で有効である。 ここで、$r(n,d_{e})$ は有効次元 $d_{e}$ の関数として最適非汚染率であるが、失敗確率 $\delta$ とは独立である。 これらの値は$\delta$、すなわち、推定子のチューニングは$\delta$に依存しない。 最後に,非一様サンプリングによる頑健な行列補完について考察する。 低ランク行列だけに興味があるなら、汚職レベル$a$とは無関係に、非常に近い最適率を示す。 私たちの推定器は、新しい"ソートされた"Huber型損失に基づいて、トラクタブルです。 これらの推定値を調整するには$(s,r,\epsilon,a,\de lta)$に関する情報は必要ない。 我々の分析では、他の場所で有用な乗算および製品プロセスに対して、新規な$\delta$-optimal concentration inequalityを利用する。 例えば、sso と Slope の鋭いオラクルの不等式は $\delta$ に最適に依存する。 数値シミュレーションは我々の理論予測を裏付ける。 特に、"ソート"なHuber回帰は、古典的なHuber回帰よりも優れている。

We study high-dimensional least-squares regression within a subgaussian statistical learning framework with heterogeneous noise. It includes $s$-sparse and $r$-low-rank least-squares regression when a fraction $\epsilon$ of the labels are adversarially contaminated. We also present a novel theory of trace-regression with matrix decomposition based on a new application of the product process. For these problems, we show novel near-optimal "subgaussian" estimation rates of the form $r(n,d_{e})+\sqrt{\log(1/\delta)/n}+\epsilon\log(1/\epsi lon)$, valid with probability at least $1-\delta$. Here, $r(n,d_{e})$ is the optimal uncontaminated rate as a function of the effective dimension $d_{e}$ but independent of the failure probability $\delta$. These rates are valid uniformly on $\delta$, i.e., the estimators' tuning do not depend on $\delta$. Lastly, we consider noisy robust matrix completion with non-uniform sampling. If only the low-rank matrix is of interest, we present a novel near-optimal rate that is independent of the corruption level $a$. Our estimators are tractable and based on a new "sorted" Huber-type loss. No information on $(s,r,\epsilon,a,\de lta)$ are needed to tune these estimators. Our analysis makes use of novel $\delta$-optimal concentration inequalities for the multiplier and product processes which could be useful elsewhere. For instance, they imply novel sharp oracle inequalities for Lasso and Slope with optimal dependence on $\delta$. Numerical simulations confirm our theoretical predictions. In particular, "sorted" Huber regression can outperform classical Huber regression.
翻訳日:2021-05-10 09:34:36 公開日:2021-04-27
# RNNトランスデューサの実用化に向けて

On Addressing Practical Challenges for RNN-Transduce ( http://arxiv.org/abs/2105.00858v1 )

ライセンス: Link先を確認
Rui Zhao, Jian Xue, Jinyu Li, Wenning Wei, Lei He, Yifan Gong(参考訳) 本稿では,RNNトランスデューサ(RNN-T)をベースとした音声認識システムの実現に向けた実践的な課題について述べる。 これらの課題は、よく訓練されたrnn-tモデルを音声データを収集せずに新しいドメインに適応させ、単語レベルでタイムスタンプや信頼度スコアを得ることである。 第1の課題は、ソースドメインデータから抽出された音声セグメントを連結するスプライシングデータ手法によって解決される。 タイムスタンプを得るために、テンポアライメントのためにエンコーダを共有することにより、rnn-tモデルに電話予測ブランチを追加する。 最後に,デコード時に計算した複数種類の特徴と混乱ネットワークから単語レベルの信頼度を求める。 Microsoftの生産データから評価すると、スプライシングデータ適応法は、テキストによる音声への適応を、それぞれ58.03%、相対単語誤り率15.25%で改善する。 提案手法は,RNN-Tモデルの認識精度を維持しつつ,平均で50ms未満の単語タイミング差が得られる。 また,計算コストの少ない高い信頼度アノテーション性能を得る。

In this paper, several works are proposed to address practical challenges for deploying RNN Transducer (RNN-T) based speech recognition system. These challenges are adapting a well-trained RNN-T model to a new domain without collecting the audio data, obtaining time stamps and confidence scores at word level. The first challenge is solved with a splicing data method which concatenates the speech segments extracted from the source domain data. To get the time stamp, a phone prediction branch is added to the RNN-T model by sharing the encoder for the purpose of force alignment. Finally, we obtain word-level confidence scores by utilizing several types of features calculated during decoding and from confusion network. Evaluated with Microsoft production data, the splicing data adaptation method improves the baseline and adaption with the text to speech method by 58.03% and 15.25% relative word error rate reduction, respectively. The proposed time stamping method can get less than 50ms word timing difference on average while maintaining the recognition accuracy of the RNN-T model. We also obtain high confidence annotation performance with limited computation cost
翻訳日:2021-05-04 20:45:11 公開日:2021-04-27
# 基本不確かさ情報を用いた多値判定のための一般化TODIM法とその応用

Generalized-TODIM Method for Multi-criteria Decision Making with Basic Uncertain Information and its Application ( http://arxiv.org/abs/2104.11597v2 )

ライセンス: Link先を確認
Zhiyuan Zhou, Kai Xuan, Zhifu Tao, Ligang Zhou(参考訳) 基本的な不確実な情報が、確実な程度に決定情報の簡単な形式を提供するという事実から、観察や主観的な評価の質を反映するように開発された。 基本不確実情報の代数構造と嗜好関係を研究するために,基本不確実情報の代数演算を開発する。 このような情報の順序関係も検討されている。 最後に,発達した代数演算と順序関係を適用するために,基本的不確実な情報を用いた多属性決定のための一般化TODIM法を提案する。 数値例は, 発達した決定手続きが有効であることを示す。

Due to the fact that basic uncertain information provides a simple form for decision information with certainty degree, it has been developed to reflect the quality of observed or subjective assessments. In order to study the algebra structure and preference relation of basic uncertain information, we develop some algebra operations for basic uncertain information. The order relation of such type of information has also been considered. Finally, to apply the developed algebra operations and order relations, a generalized TODIM method for multi-attribute decision making with basic uncertain information is given. The numerical example shows that the developed decision procedure is valid.
翻訳日:2021-05-03 19:47:14 公開日:2021-04-27
# (参考訳) スケールド共登録に基づく大学院課程ネットワークにおけるハブの同定:拡張版 [全文訳有]

Identifying Hubs in Undergraduate Course Networks Based on Scaled Co-Enrollments: Extended Version ( http://arxiv.org/abs/2104.14500v1 )

ライセンス: CC BY 4.0
Gary M. Weiss, Nam Nguyen, Karla Dominguez and Daniel D. Leeds(参考訳) コースの入学パターンを理解することは、将来のコースに対する今後の需要を予測し、学生に現在の背景から現実的なコースを追求する上で重要である。 本研究は,大学生の入学者データを用いて,学生の共入生に基づく授業のネットワークを形成する。 本論文で作成したコースネットワークは,大都市圏大学における8年間の学部進学データに基づいている。 ネットワークは分析され、しばしば他の多くのコースで取られる「ハブ」コースを特定する。 ハブの概念は2つある: 1つは全学生の生の人気に焦点をあて、もう1つは他のコースと共学する確率に焦点をあてる。 コースネットワークを評価するために、様々なネットワークメトリクスが計算される。 学術部門と、ヒューマニティ対STEMのような高等教育機関は、コースグループ化に対する影響について研究している。 ハブコースの特定は、コース提供やコース人気の変化の影響を予測するのに役立つため、実践的な応用があり、学際的なハブコースの場合は、特定の学術部門や分野における興味や登録の増減に使用できる。

Understanding course enrollment patterns is valuable to predict upcoming demands for future courses, and to provide student with realistic courses to pursue given their current backgrounds. This study uses undergraduate student enrollment data to form networks of courses where connections are based on student co-enrollments. The course networks generated in this paper are based on eight years of undergraduate course enrollment data from a large metropolitan university. The networks are analyzed to identify "hub" courses often taken with many other courses. Two notions of hubs are considered: one focused on raw popularity across all students, and one focused on proportional likelihoods of co-enrollment with other courses. A variety of network metrics are calculated to evaluate the course networks. Academic departments and high-level academic categories, such as Humanities vs STEM, are studied for their influence over course groupings. The identification of hub courses has practical applications, since it can help better predict the impact of changes in course offerings and in course popularity, and in the case of interdisciplinary hub courses, can be used to increase or decrease interest and enrollments in specific academic departments and areas.
翻訳日:2021-05-01 03:41:39 公開日:2021-04-27
# (参考訳) BERTに基づくアクティブラーニングを用いた多クラステキスト分類 [全文訳有]

Multi-class Text Classification using BERT-based Active Learning ( http://arxiv.org/abs/2104.14289v1 )

ライセンス: CC BY-SA 4.0
Sumanth Prabhu and Moosa Mohamed and Hemant Misra(参考訳) テキスト分類は、顧客が場所から1つ以上のアイテムをピックアップし、特定の目的地に届ける必要があるピックアップおよびデリバリーサービス業界で興味深いアプリケーションを見つける。 これらの顧客トランザクションを複数のカテゴリに分類することは、異なる顧客セグメントの市場ニーズを理解するのに役立つ。 各トランザクションには、顧客が提供したテキスト記述が添付され、取り上げられた商品が記述され、トランザクションの分類に使用できる。 BERTベースのモデルは自然言語理解においてうまく機能することが証明されている。 しかし、顧客が提供する製品記述は短く、一貫性がなく、(ヒンディ・イングリッシュな)テキストになりがちで、手作業でラベル付けされたデータを微調整して精度を上げる必要がある。 このラベル付きデータの収集は、コストがかかることを証明します。 本稿では、BERTを用いてトランザクション分類モデルをトレーニングしながら、トランザクション記述を効果的にラベル付けするためのアクティブラーニング戦略を検討する。 TREC-6, AG's News Corpus, および内部データセット上で, マルチクラステキスト分類における様々なアクティブラーニング戦略間でBERTの性能をベンチマークする。

Text Classification finds interesting applications in the pickup and delivery services industry where customers require one or more items to be picked up from a location and delivered to a certain destination. Classifying these customer transactions into multiple categories helps understand the market needs for different customer segments. Each transaction is accompanied by a text description provided by the customer to describe the products being picked up and delivered which can be used to classify the transaction. BERT-based models have proven to perform well in Natural Language Understanding. However, the product descriptions provided by the customers tend to be short, incoherent and code-mixed (Hindi-English) text which demands fine-tuning of such models with manually labelled data to achieve high accuracy. Collecting this labelled data can prove to be expensive. In this paper, we explore Active Learning strategies to label transaction descriptions cost effectively while using BERT to train a transaction classification model. On TREC-6, AG's News Corpus and an internal dataset, we benchmark the performance of BERT across different Active Learning strategies in Multi-Class Text Classification.
翻訳日:2021-05-01 03:28:21 公開日:2021-04-27
# (参考訳) 特徴属性法は正しく特徴に寄与するか? [全文訳有]

Do Feature Attribution Methods Correctly Attribute Features? ( http://arxiv.org/abs/2104.14403v1 )

ライセンス: CC BY 4.0
Yilun Zhou, Serena Booth, Marco Tulio Ribeiro, Julie Shah(参考訳) 特徴帰属法は、解釈可能な機械学習で非常に人気がある。 それらは、その重要性を表すために各入力特徴の属性を計算することを目的としているが、"属性"の定義にはコンセンサスがなく、体系的な評価がほとんどない多くの競合する手法に繋がる。 帰属基盤の真実の欠如は、プロキシメトリクスに依存する評価をさらに複雑にする。 そこで本研究では,新しいデータセットでトレーニングされたモデルに,真理の帰属が期待できるようなデータセット修正手順を提案する。 塩分マップ,合理性,注意の3つの方法を評価した。 我々は,それらの欠陥を特定し,その正確性と信頼性に疑問を呈するエビデンスの増加に新たな視点を付加する。 評価アプローチはモデルに依存しず,今後の機能帰属提案の評価にも利用できる。 コードはhttps://github.com/y ilunzhou/feature-att ribution-evaluationで入手できる。

Feature attribution methods are exceedingly popular in interpretable machine learning. They aim to compute the attribution of each input feature to represent its importance, but there is no consensus on the definition of "attribution", leading to many competing methods with little systematic evaluation. The lack of attribution ground truth further complicates evaluation, which has to rely on proxy metrics. To address this, we propose a dataset modification procedure such that models trained on the new dataset have ground truth attribution available. We evaluate three methods: saliency maps, rationales, and attention. We identify their deficiencies and add a new perspective to the growing body of evidence questioning their correctness and reliability in the wild. Our evaluation approach is model-agnostic and can be used to assess future feature attribution method proposals as well. Code is available at https://github.com/Y ilunZhou/feature-att ribution-evaluation.
翻訳日:2021-05-01 03:20:03 公開日:2021-04-27
# OpenAI Gym Toolkitを用いた小売チェーンにおける強化学習アルゴリズムの実装

Implementing Reinforcement Learning Algorithms in Retail Supply Chains with OpenAI Gym Toolkit ( http://arxiv.org/abs/2104.14398v1 )

ライセンス: Link先を確認
Shaun D'Souza(参考訳) コスト削減から顧客エクスペリエンスの向上に至るまで、予測は小売サプライチェーン管理(SCM)の欠如であり、サプライチェーンのパフォーマンス向上の鍵である。 いくつかの小売業者は、AI/MLモデルを使用してデータセットを収集し、Cognitive Demand Forecasting、Product End-of-Life、Forecasting、Demand Integrated Product Flowといったアプリケーションで予測ガイダンスを提供している。 これらの領域での初期の研究は、ネットワークフローやグラフといった課題の領域を改善するために、古典的なアルゴリズムに目を向けた。 しかし最近の混乱は、サプライチェーンが予期せぬ出来事に対処する回復力を持つことを重要視している。 最大の課題は需要と供給の一致にある。 強化学習(Reinforcement Learning, RL)は、予測精度の向上、サプライチェーン最適化の課題の解決、予期せぬ状況に対応するための訓練システムなど、SCMに採用されている。 UPSやAmazonのような企業は、AI戦略の勝利を定義し、消費者のデリバリ期待を上昇させるためにRLアルゴリズムを開発した。 サプライチェーンのユースケースにRLアルゴリズムを構築する方法はたくさんありますが、イベント駆動シミュレーションの堅牢なフレームワークのため、OpenAI Gymツールキットが好まれています。 本稿では,プライチェーン予測におけるRLの適用について検討し,OpenAI Gymツールキットを用いて適切なRLモデルとアルゴリズムを構築する方法について述べる。

From cutting costs to improving customer experience, forecasting is the crux of retail supply chain management (SCM) and the key to better supply chain performance. Several retailers are using AI/ML models to gather datasets and provide forecast guidance in applications such as Cognitive Demand Forecasting, Product End-of-Life, Forecasting, and Demand Integrated Product Flow. Early work in these areas looked at classical algorithms to improve on a gamut of challenges such as network flow and graphs. But the recent disruptions have made it critical for supply chains to have the resiliency to handle unexpected events. The biggest challenge lies in matching supply with demand. Reinforcement Learning (RL) with its ability to train systems to respond to unforeseen environments, is being increasingly adopted in SCM to improve forecast accuracy, solve supply chain optimization challenges, and train systems to respond to unforeseen circumstances. Companies like UPS and Amazon have developed RL algorithms to define winning AI strategies and keep up with rising consumer delivery expectations. While there are many ways to build RL algorithms for supply chain use cases, the OpenAI Gym toolkit is becoming the preferred choice because of the robust framework for event-driven simulations. This white paper explores the application of RL in supply chain forecasting and describes how to build suitable RL models and algorithms by using the OpenAI Gym toolkit.
翻訳日:2021-04-30 13:11:17 公開日:2021-04-27
# 機械学習モデル検証のためのデータセットからのサンプル選択

Sample selection from a given dataset to validate machine learning models ( http://arxiv.org/abs/2104.14401v1 )

ライセンス: Link先を確認
Bertrand Iooss (EDF R&D PRISME, GdR MASCOT-NUM)(参考訳) 完全なデータセットから検証ベースを選択することは、教師あり機械学習アルゴリズムの工業的利用においてしばしば必要となる。 この検証ベースは、機械学習モデルの独立した評価を実現するのに役立ちます。 この基盤を選択するために,統計的基準を用いて「実験設計」の視点を採用することを提案する。 本稿では,最大平均離散度基準に基づく「サポートポイント」の概念が特に重要であることを示す。 EDFの工業試験ケースでは、方法論の実践的関心が示されています。

The selection of a validation basis from a full dataset is often required in industrial use of supervised machine learning algorithm. This validation basis will serve to realize an independent evaluation of the machine learning model. To select this basis, we propose to adopt a "design of experiments" point of view, by using statistical criteria. We show that the "support points" concept, based on Maximum Mean Discrepancy criteria, is particularly relevant. An industrial test case from the company EDF illustrates the practical interest of the methodology.
翻訳日:2021-04-30 13:04:44 公開日:2021-04-27
# (参考訳) 任意の物理系に対するバックプロパゲーションアルゴリズムにより実現される深層物理ニューラルネットワーク

Deep physical neural networks enabled by a backpropagation algorithm for arbitrary physical systems ( http://arxiv.org/abs/2104.13386v1 )

ライセンス: CC BY 4.0
Logan G. Wright, Tatsuhiro Onodera, Martin M. Stein, Tianyu Wang, Darren T. Schachter, Zoey Hu, Peter L. McMahon(参考訳) ディープニューラルネットワークは、科学と工学における普及するツールとなっている。 しかし、現代のディープニューラルネットワークのエネルギー要求の増加は、そのスケーリングと幅広い使用をますます制限している。 本稿では,ディープニューラルネットワークモデルを実現するための急進的な代替手段を提案する。 ニューラルネットとして機能する制御可能な物理システムのシーケンスを効率的に学習するために,物理認識トレーニングと呼ばれるハイブリッド物理デジタルアルゴリズムを導入する。 この方法は、現代のディープニューラルネットワークで使用されるのと同じ手法であるバックプロパゲーションを使用して、任意の物理システムの機能を自動で訓練する。 それらの一般化を説明するために,光学系,機械系,電気系の3種類の物理ニューラルネットワークを実演する。 物理ニューラルネットワークは、従来の電子プロセッサよりも桁違いに高速でエネルギー効率の高い非伝統的な機械学習ハードウェアを促進する。

Deep neural networks have become a pervasive tool in science and engineering. However, modern deep neural networks' growing energy requirements now increasingly limit their scaling and broader use. We propose a radical alternative for implementing deep neural network models: Physical Neural Networks. We introduce a hybrid physical-digital algorithm called Physics-Aware Training to efficiently train sequences of controllable physical systems to act as deep neural networks. This method automatically trains the functionality of any sequence of real physical systems, directly, using backpropagation, the same technique used for modern deep neural networks. To illustrate their generality, we demonstrate physical neural networks with three diverse physical systems-optical, mechanical, and electrical. Physical neural networks may facilitate unconventional machine learning hardware that is orders of magnitude faster and more energy efficient than conventional electronic processors.
翻訳日:2021-04-29 23:03:59 公開日:2021-04-27
# (参考訳) SpikE:マルチリレーショナルグラフデータのためのスパイクベースの埋め込み [全文訳有]

SpikE: spike-based embeddings for multi-relational graph data ( http://arxiv.org/abs/2104.13398v1 )

ライセンス: CC BY 4.0
Dominik Dold, Josep Soler Garrido(参考訳) 近年のスパイクベースのコーディングとエラーバックプロパゲーションアルゴリズムの整合性の成功にもかかわらず、スパイクニューラルネットワークはいまだに、視覚や聴覚データといった従来のデータ構造を操作する感覚処理から生じるタスクに応用されている。 産業や研究の幅広い応用を見出すリッチなデータ表現は、いわゆるナレッジグラフであり、エンティティをノードとして表現し、それらの間の関係をエッジとして表現するグラフベースの構造である。 分子、ソーシャルネットワーク、産業工場システムといった複雑なシステムは、知識グラフの共通言語を使用して記述することができ、グラフ埋め込みアルゴリズムを使うことで、これらの情報パックされた環境でコンテキスト認識予測が可能になる。 本稿では,グラフ内のノードをニューロン集団の単一のスパイク時間で表現し,個体群間のスパイク時間差としての関係を表現したスパイクに基づくアルゴリズムを提案する。 このようなスパイクベースの埋め込みを学習するには、スパイク時間とスパイク時間の違いに関する知識が必要である。 提示されたモデルは、現在のニューロモルフィックハードウェアシステムに容易にマッピングされ、知識グラフの推論をこれらのアーキテクチャが成長する領域に移し、この技術のための有望な産業応用領域を開放する。

Despite the recent success of reconciling spike-based coding with the error backpropagation algorithm, spiking neural networks are still mostly applied to tasks stemming from sensory processing, operating on traditional data structures like visual or auditory data. A rich data representation that finds wide application in industry and research is the so-called knowledge graph - a graph-based structure where entities are depicted as nodes and relations between them as edges. Complex systems like molecules, social networks and industrial factory systems can be described using the common language of knowledge graphs, allowing the usage of graph embedding algorithms to make context-aware predictions in these information-packed environments. We propose a spike-based algorithm where nodes in a graph are represented by single spike times of neuron populations and relations as spike time differences between populations. Learning such spike-based embeddings only requires knowledge about spike times and spike time differences, compatible with recently proposed frameworks for training spiking neural networks. The presented model is easily mapped to current neuromorphic hardware systems and thereby moves inference on knowledge graphs into a domain where these architectures thrive, unlocking a promising industrial application area for this technology.
翻訳日:2021-04-29 23:02:09 公開日:2021-04-27
# (参考訳) FrameExit:効率的なビデオ認識のための条件付き早期出力 [全文訳有]

FrameExit: Conditional Early Exiting for Efficient Video Recognition ( http://arxiv.org/abs/2104.13400v1 )

ライセンス: CC BY 4.0
Amir Ghodrati, Babak Ehteshami Bejnordi, Amirhossein Habibian(参考訳) 本稿では,効率的な映像認識のための条件付き早期終了フレームワークを提案する。 既存の作業では,計算コストを削減すべく,サラエントフレームのサブセットの選択に重点を置いているが,条件付き早期終了と組み合わせた単純なサンプリング戦略を用いることにより,効率的な認識を実現する。 私たちのモデルは、より単純なビデオのフレーム数と複雑なビデオのフレーム数を自動的に学習します。 これを実現するために,ガティングモジュールのカスケードを用いて,推論が十分信頼できる処理における最初期の点を自動的に決定する。 ゲートにオンザフライで監視信号を生成し、精度と計算コストの動的トレードオフを提供する。 提案手法は3つの大規模ビデオベンチマークにおいて競合する手法より優れている。 特に activitynet1.3 と mini-kinetics では、最先端の効率的なビデオ認識手法をそれぞれ 1.3$\times$ と 2.1$\times$ less gflops で上回っている。 さらに,提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。

In this paper, we propose a conditional early exiting framework for efficient video recognition. While existing works focus on selecting a subset of salient frames to reduce the computation costs, we propose to use a simple sampling strategy combined with conditional early exiting to enable efficient recognition. Our model automatically learns to process fewer frames for simpler videos and more frames for complex ones. To achieve this, we employ a cascade of gating modules to automatically determine the earliest point in processing where an inference is sufficiently reliable. We generate on-the-fly supervision signals to the gates to provide a dynamic trade-off between accuracy and computational cost. Our proposed model outperforms competing methods on three large-scale video benchmarks. In particular, on ActivityNet1.3 and mini-kinetics, we outperform the state-of-the-art efficient video recognition methods with 1.3$\times$ and 2.1$\times$ less GFLOPs, respectively. Additionally, our method sets a new state of the art for efficient video understanding on the HVU benchmark.
翻訳日:2021-04-29 22:42:07 公開日:2021-04-27
# (参考訳) 半教師付きインタラクティブインテントラベリング [全文訳有]

Semi-supervised Interactive Intent Labeling ( http://arxiv.org/abs/2104.13406v1 )

ライセンス: CC BY 4.0
Saurav Sahay, Eda Okur, Nagib Hakim, Lama Nachman(参考訳) タスク指向の音声対話システム(SDS)の自然言語理解(NLU)モジュールの構築には、インテントとエンティティの定義、タスク関連データの収集、インテントとエンティティによるアノテート、そしてSDSに機能/エンハンスメントを追加するために何度も同じプロセスを繰り返すことが含まれる。 本研究では,SDS開発者を対象としたIntent Bulk Labelingシステムを開発した。 ユーザは高度なクラスタリングとビジュアルラベリング手法を用いて、ラベルなし発話コーパスからのトレーニングデータをインタラクティブにラベル付けし、拡張することができる。 本稿では,より優れたbackbone bertモデルを用いてディープアライメントクラスタリング作業を拡張し,ラベリング用のシードデータを選択する手法を探索し,パラフラージングモデルを利用したオーバーサンプリング手法を用いたデータバランシング手法を開発する。 また、データ拡張がクラスタリングプロセスに与える影響についても検討する。 以上の手法を組み合わせることで,いくつかのデータセットにおいて,クラスタリング精度が10%以上向上できることを示す。 最後に、クラスタリングモデルから発話埋め込みを抽出し、データをプロットしてデータをインタラクティブにバルクラベル付けし、データセット全体のデータラベリングに要する時間と労力を大幅に削減する。

Building the Natural Language Understanding (NLU) modules of task-oriented Spoken Dialogue Systems (SDS) involves a definition of intents and entities, collection of task-relevant data, annotating the data with intents and entities, and then repeating the same process over and over again for adding any functionality/enhanc ement to the SDS. In this work, we have developed an Intent Bulk Labeling system for SDS developers. The users can interactively label and augment training data from unlabeled utterance corpora using advanced clustering and visual labeling methods. We extend the Deep Aligned Clustering work with a better backbone BERT model, explore techniques to select the seed data for labeling, and develop a data balancing method using an oversampling technique that utilizes paraphrasing models. We also look at the effect of data augmentation on the clustering process. Our results show that we can achieve over 10% gain in clustering accuracy on some datasets using the combination of the above techniques. Finally, we extract utterance embeddings from the clustering model and plot the data to interactively bulk label the data, reducing the time and effort for data labeling of the whole dataset significantly.
翻訳日:2021-04-29 22:26:29 公開日:2021-04-27
# (参考訳) グラフ上の時空間相関を用いた交通ネットワーク上の交通信号予測 [全文訳有]

Predicting traffic signals on transportation networks using spatio-temporal correlations on graphs ( http://arxiv.org/abs/2104.13414v1 )

ライセンス: CC BY 4.0
Semin Kwak, Nikolas Geroliminis, Pascal Frossard(参考訳) 多変量時系列の予測は、信号の場合のように変数が時間と空間に絡み合っているため困難である。 グラフ上の信号の定義は、熱拡散核のような関連するグラフ核を用いて空間上の信号の進化を表現することによって、そのような複雑度を緩和する。 しかし、このカーネルだけでは、グラフ構造にのみ依存するため、データの実際のダイナミクスを完全には捉えない。 グラフカーネル表現と過去のデータを利用するデータ駆動モデルを組み合わせることで、ギャップを埋めることができる。 本稿では,複数の熱拡散カーネルをデータ駆動予測モデルにマージして交通信号を予測する交通伝搬モデルを提案する。 予測誤差を最小限に抑えるためにベイズ推定を用いてモデルパラメータを最適化し,2つの手法の混合率を決定する。 このような混合比はトレーニングデータサイズとデータ異常に大きく依存し、トラフィックデータのピーク時間に対応する。 提案モデルでは,計算労力の少ない最先端のディープニューラルネットワークに匹敵する予測精度を示す。 データ駆動モデルの周期性モデリングを継承するため、長期予測には特に優れたパフォーマンスを示す。

Forecasting multivariate time series is challenging as the variables are intertwined in time and space, like in the case of traffic signals. Defining signals on graphs relaxes such complexities by representing the evolution of signals over a space using relevant graph kernels such as the heat diffusion kernel. However, this kernel alone does not fully capture the actual dynamics of the data as it only relies on the graph structure. The gap can be filled by combining the graph kernel representation with data-driven models that utilize historical data. This paper proposes a traffic propagation model that merges multiple heat diffusion kernels into a data-driven prediction model to forecast traffic signals. We optimize the model parameters using Bayesian inference to minimize the prediction errors and, consequently, determine the mixing ratio of the two approaches. Such mixing ratio strongly depends on training data size and data anomalies, which typically correspond to the peak hours for traffic data. The proposed model demonstrates prediction accuracy comparable to that of the state-of-the-art deep neural networks with lower computational effort. It particularly shows excellent performance for long-term prediction since it inherits the data-driven models' periodicity modeling.
翻訳日:2021-04-29 22:15:27 公開日:2021-04-27
# (参考訳) 階層的メモリバンクからのピクセルレベルコントラスト学習による半教師付き意味セグメンテーション [全文訳有]

Semi-Supervised Semantic Segmentation with Pixel-Level Contrastive Learning from a Class-wise Memory Bank ( http://arxiv.org/abs/2104.13415v1 )

ライセンス: CC BY 4.0
Inigo Alonso, Alberto Sabater, David Ferstl, Luis Montesano, Ana C. Murillo(参考訳) 本研究は,半教師付き意味セグメンテーション,すなわち,利用可能なデータのごく一部しかラベル付けされていないと仮定した画素単位の分類問題に対する新しいアプローチを提案する。 本稿では,コントラスト学習に基づく新しい表現学習モジュールを提案する。 このモジュールはセグメンテーションネットワークを強制し、データセット全体にわたって同じクラスのサンプルに対して同様のピクセルレベルの特徴表現を生成する。 これを実現するために,ラベル付きデータから特徴ベクトルを連続的に更新したメモリバンクを維持する。 これらの特徴は、コントラスト学習の質と妥当性に基づいて選択される。 エンドツーエンドのトレーニングでは、ラベル付きデータとラベルなしデータの両方の機能は、メモリバンクの同じクラスのサンプルに最適化される。 我々のアプローチは、よく知られた公開ベンチマークにおいて、半教師付きセマンティックセマンティックセマンティクスと半教師付きドメイン適応のための現在の最先端技術よりも優れており、最も困難なシナリオであるラベル付きデータに大きな改善がある。

This work presents a novel approach for semi-supervised semantic segmentation, i.e., per-pixel classification problem assuming that only a small set of the available data is labeled. We propose a novel representation learning module based on contrastive learning. This module enforces the segmentation network to yield similar pixel-level feature representations for same-class samples across the whole dataset. To achieve this, we maintain a memory bank continuously updated with feature vectors from labeled data. These features are selected based on their quality and relevance for the contrastive learning. In an end-to-end training, the features from both labeled and unlabeled data are optimized to be similar to same-class samples from the memory bank. Our approach outperforms the current state-of-the-art for semi-supervised semantic segmentation and semi-supervised domain adaptation on well-known public benchmarks, with larger improvements on the most challenging scenarios, i.e., less available labeled data.
翻訳日:2021-04-29 21:57:14 公開日:2021-04-27
# (参考訳) DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia patients Environment [全文訳有]

DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia Patients Environment ( http://arxiv.org/abs/2104.13423v1 )

ライセンス: CC BY-SA 4.0
Abigail Copiaco, Christian Ritz, Stefano Fasciani, Nidhal Abdulaziz(参考訳) 情報データベースへのアクセスは、注目すべき研究の重要部分である。 近年,家庭内音声分類の分野では大きな進歩を遂げている。 いくつかのオーディオデータベースが存在するが、これらは、音源の正確な位置や関連するノイズレベルなどの情報量に制限される。 本研究では,静音環境と騒音環境の両方でエミュレートされた音声シーンとイベントからなる,非偏りのない合成音声データベースの作成手法について詳述する。 データは、認知症患者環境でよく直面する問題を反映し、現実世界で起こりうるシナリオを再現するように注意深くキュレートされる。 同様に、部屋インパルス応答はヘブライ・シニアライフ施設の典型的な一床アパートに基づいている。 その結果、16kHzで均一にサンプリングされたクリーン信号とノイズ信号の抜粋を5秒間隔で含む11種類のデータベースが得られた。 Continues Wavelet Transform ScalogramsとAlexNetを使ったベースラインモデルにより、重み付きF1スコアは86.24%となった。

Access to informative databases is a crucial part of notable research developments. In the field of domestic audio classification, there have been significant advances in recent years. Although several audio databases exist, these can be limited in terms of the amount of information they provide, such as the exact location of the sound sources, and the associated noise levels. In this work, we detail our approach on generating an unbiased synthetic domestic audio database, consisting of sound scenes and events, emulated in both quiet and noisy environments. Data is carefully curated such that it reflects issues commonly faced in a dementia patients environment, and recreate scenarios that could occur in real-world settings. Similarly, the room impulse response generated is based on a typical one-bedroom apartment at Hebrew SeniorLife Facility. As a result, we present an 11-class database containing excerpts of clean and noisy signals at 5-seconds duration each, uniformly sampled at 16 kHz. Using our baseline model using Continues Wavelet Transform Scalograms and AlexNet, this yielded a weighted F1-score of 86.24 percent.
翻訳日:2021-04-29 21:42:46 公開日:2021-04-27
# (参考訳) 画像処理による接合のインシデント検出 [全文訳有]

Incident Detection on Junctions Using Image Processing ( http://arxiv.org/abs/2104.13437v1 )

ライセンス: CC0 1.0
Murat Tulga\c{c}, Enes Y\"unc\"u, Mohamad-Alhaddad and Ceylan Yozgatl{\i}gil(参考訳) 交通管理においては、事故(事故、車両の故障、道路に落下する物体等)を検出して応答時間を短縮することが非常に重要な問題である。 対応する人員に知らせるのです 本研究では,道路合流点の異常検出フレームワークを提案する。 最終判断は、車両に続く軌道に基づいて行われる。 軌道情報は、魚眼カメラからストリームされる視覚データの車両検出および追跡アルゴリズムによって提供される。 ディープラーニングアルゴリズムは車両検出に使われ、カルマンフィルタは追跡に使用される。 より正確に軌道を観測するために、検出された車両座標をレンズ歪みモデル予測アルゴリズムを用いて鳥の視線座標に転送する。 履歴軌跡データと瞬時入射データとを比較することにより、軌跡の異常の有無を判定する。 提案システムは, 車両検出で84.6%, 合成データで異常検出で96.8%の成功を収めた。 また、実際のデータの異常を検出するために97.3%の成功率で動作する。

In traffic management, it is a very important issue to shorten the response time by detecting the incidents (accident, vehicle breakdown, an object falling on the road, etc.) and informing the corresponding personnel. In this study, an anomaly detection framework for road junctions is proposed. The final judgment is based on the trajectories followed by the vehicles. Trajectory information is provided by vehicle detection and tracking algorithms on visual data streamed from a fisheye camera. Deep learning algorithms are used for vehicle detection, and Kalman Filter is used for tracking. To observe the trajectories more accurately, the detected vehicle coordinates are transferred to the bird's eye view coordinates using the lens distortion model prediction algorithm. The system determines whether there is an abnormality in trajectories by comparing historical trajectory data and instantaneous incoming data. The proposed system has achieved 84.6% success in vehicle detection and 96.8% success in abnormality detection on synthetic data. The system also works with a 97.3% success rate in detecting abnormalities on real data.
翻訳日:2021-04-29 21:32:36 公開日:2021-04-27
# (参考訳) サンプル効率の良いマルチエージェント政策グラディエントのためのセミオン・ポリシトレーニング [全文訳有]

Semi-On-Policy Training for Sample Efficient Multi-Agent Policy Gradients ( http://arxiv.org/abs/2104.13446v1 )

ライセンス: CC BY 4.0
Bozhidar Vasilev, Tarun Gupta, Bei Peng, Shimon Whiteson(参考訳) 政策勾配法は, 部分的に観測可能なシナリオにおいて, 収束特性と堅牢性から, 多エージェント強化学習問題への魅力的なアプローチである。 しかし、人気の高いStarCraft Multi-Agent Challenge (SMAC)ベンチマークでは、最先端のポリシー勾配とバリューベースのメソッドの間に大きなパフォーマンスギャップがある。 本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミオン政治(SOP)トレーニングを導入する。 我々は、SOPトレーニングによる2つの最先端ポリシー勾配アルゴリズムを強化し、大幅な性能向上を示す。 さらに,本手法は,多種多様なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示すことを示す。

Policy gradient methods are an attractive approach to multi-agent reinforcement learning problems due to their convergence properties and robustness in partially observable scenarios. However, there is a significant performance gap between state-of-the-art policy gradient and value-based methods on the popular StarCraft Multi-Agent Challenge (SMAC) benchmark. In this paper, we introduce semi-on-policy (SOP) training as an effective and computationally efficient way to address the sample inefficiency of on-policy policy gradient methods. We enhance two state-of-the-art policy gradient algorithms with SOP training, demonstrating significant performance improvements. Furthermore, we show that our methods perform as well or better than state-of-the-art value-based methods on a variety of SMAC tasks.
翻訳日:2021-04-29 21:16:31 公開日:2021-04-27
# (参考訳) サポートベクトルマシンによるロバスト分類 [全文訳有]

Robust Classification via Support Vector Machines ( http://arxiv.org/abs/2104.13458v1 )

ライセンス: CC0 1.0
Vali Asimit, Ioannis Kyriakou, Simone Santoni, Salvatore Scognamiglio and Rui Zhu(参考訳) サポートベクトルマシン分類器の損失関数選択は、標準的な損失選択であるヒンジ損失の堅牢性の欠如により、文献に多大な関心を寄せている。 本稿では,ヒンジ損失の全体的な利点を保ちつつ,この標準選択を変更するのではなく,バイナリ分類器の強固化を図りたい。 データ不確実性の下で2つの頑健な分類器を提案する。 1つ目はSP-SVM(Single Perturbation SVM)と呼ばれ、データの1つの特徴に対して制御された摂動を許容することで構成的な方法を提供する。 第2の方法は Extreme Empirical Loss SVM (EEL-SVM) と呼ばれ、新しい経験的損失推定値、すなわち Extreme Empirical Loss (EEL) に基づいている。 大規模な数値調査により、シミュレーションデータとよく知られた実データに対する2つの頑健な分類器の利点が明らかになった。

The loss function choice for any Support Vector Machine classifier has raised great interest in the literature due to the lack of robustness of the Hinge loss, which is the standard loss choice. In this paper, we plan to robustify the binary classifier by maintaining the overall advantages of the Hinge loss, rather than modifying this standard choice. We propose two robust classifiers under data uncertainty. The first is called Single Perturbation SVM (SP-SVM) and provides a constructive method by allowing a controlled perturbation to one feature of the data. The second method is called Extreme Empirical Loss SVM (EEL-SVM) and is based on a new empirical loss estimate, namely, the Extreme Empirical Loss (EEL), that puts more emphasis on extreme violations of the classification hyper-plane, rather than taking the usual sample average with equal importance for all hyper-plane violations. Extensive numerical investigation reveals the advantages of the two robust classifiers on simulated data and well-known real datasets.
翻訳日:2021-04-29 21:01:47 公開日:2021-04-27
# (参考訳) 深部2段階高分解能イメージング [全文訳有]

Deep Two-Stage High-Resolution Image Inpainting ( http://arxiv.org/abs/2104.13464v1 )

ライセンス: CC BY 4.0
Andrey Moskalenko, Mikhail Erofeev, Dmitriy Vatolin(参考訳) 近年,画像インペイントの分野は急速に発展し,画像の欠落部分を埋める作業において,学習に基づくアプローチは印象的な結果を示している。 しかし、ほとんどの深い手法は、訓練された画像の解像度に強く結びついている。 わずかな解像度の増加は、深刻なアーティファクトと不十分な充填品質につながる。 したがって、これらの手法はインタラクティブな画像処理には適さない。 本稿では,任意の大きさの画像をペイントする問題を解決する手法を提案する。 また, 充填領域におけるテクスチャ断片の復元方法についても述べる。 そこで,本研究では,隣接画素からの情報を4方向にシフトすることで利用することを提案する。 さらに、このアプローチは既存のインペイントモデルでも動作可能で、再トレーニングを必要とせずにほぼ独立している。 また、我々の技術を実装するGIMPプラグインも作成しました。 プラグイン、コード、モデルウェイトはhttps://github.com/a -mos/High_Resolution _Image_Inpainting.co mから入手できる。

In recent years, the field of image inpainting has developed rapidly, learning based approaches show impressive results in the task of filling missing parts in an image. But most deep methods are strongly tied to the resolution of the images on which they were trained. A slight resolution increase leads to serious artifacts and unsatisfactory filling quality. These methods are therefore unsuitable for interactive image processing. In this article, we propose a method that solves the problem of inpainting arbitrary-size images. We also describe a way to better restore texture fragments in the filled area. For this, we propose to use information from neighboring pixels by shifting the original image in four directions. Moreover, this approach can work with existing inpainting models, making them almost resolution independent without the need for retraining. We also created a GIMP plugin that implements our technique. The plugin, code, and model weights are available at https://github.com/a -mos/High_Resolution _Image_Inpainting.
翻訳日:2021-04-29 20:37:18 公開日:2021-04-27
# (参考訳) TRECVID 2020: 複数のアプリケーション領域にわたるビデオ検索タスクを評価する包括的なキャンペーン

TRECVID 2020: A comprehensive campaign for evaluating video retrieval tasks across multiple application domains ( http://arxiv.org/abs/2104.13473v1 )

ライセンス: CC BY-SA 4.0
George Awad, Asad A. Butt, Keith Curtis, Jonathan Fiscus, Afzal Godil, Yooyoung Lee, Andrew Delgado, Jesse Zhang, Eliot Godard, Baptiste Chocot, Lukas Diduch, Jeffrey Liu, Alan F. Smeaton, Yvette Graham, Gareth J. F. Jones, Wessel Kraaij, Georges Quenot(参考訳) TREC Video Retrieval Evaluation(TREC Video Retrieval Evaluation、TRECVID)は、TREC形式のビデオ分析と検索評価であり、オープンなメトリクスベースの評価を通じて、デジタルビデオからの情報の利用と検索の研究開発の進展を促進することを目的としている。 この20年間でこの取り組みは、システムがこのような処理を効果的に達成し、パフォーマンスを確実にベンチマークする方法をよりよく理解した。 TRECVIDはNIST(National Institute of Standards and Technology)や他の米国政府機関から資金提供を受けている。 加えて、世界中の多くの組織や個人が多大な時間と労力を費やしている。 TRECVID 2020は4つのタスクの継続と2つの新しいタスクの追加を表した。 全世界のさまざまな研究機関の29チームが、以下の6つのタスクの1つ以上を完了した。 アドホックビデオ検索(avs)2。 インスタンス検索 (INS) 3。 災害現場説明・索引作成(DSDI)4。 Video to Text Description (VTT) 5。 拡張ビデオ (ActEV) 6。 ビデオ要約(VSUM)。 本稿では,評価キャンペーンで使用される評価フレームワーク,タスク,データ,尺度について紹介する。

The TREC Video Retrieval Evaluation (TRECVID) is a TREC-style video analysis and retrieval evaluation with the goal of promoting progress in research and development of content-based exploitation and retrieval of information from digital video via open, metrics-based evaluation. Over the last twenty years this effort has yielded a better understanding of how systems can effectively accomplish such processing and how one can reliably benchmark their performance. TRECVID has been funded by NIST (National Institute of Standards and Technology) and other US government agencies. In addition, many organizations and individuals worldwide contribute significant time and effort. TRECVID 2020 represented a continuation of four tasks and the addition of two new tasks. In total, 29 teams from various research organizations worldwide completed one or more of the following six tasks: 1. Ad-hoc Video Search (AVS), 2. Instance Search (INS), 3. Disaster Scene Description and Indexing (DSDI), 4. Video to Text Description (VTT), 5. Activities in Extended Video (ActEV), 6. Video Summarization (VSUM). This paper is an introduction to the evaluation framework, tasks, data, and measures used in the evaluation campaign.
翻訳日:2021-04-29 20:32:08 公開日:2021-04-27
# (参考訳) 教師なし領域適応における効率的事前学習特徴と再帰的擬似ラベル [全文訳有]

Efficient Pre-trained Features and Recurrent Pseudo-Labeling inUnsupervised Domain Adaptation ( http://arxiv.org/abs/2104.13486v1 )

ライセンス: CC0 1.0
Youshan Zhang and Brian D. Davison(参考訳) ドメイン適応(da)は、ある注釈付きドメインから類似するが異なるラベル付きドメインに知識を移す際のドメインシフト問題を緩和する。 しかし、既存のモデルはバックボーンとしてimagenetモデルの1つを他を探索せずに使用することが多く、backbone imagenetモデルの微調整や再トレーニングも時間を要する。 さらに、疑似ラベルは、ターゲットドメインのパフォーマンスを改善するために使われており、自信のある疑似ラベルを生成し、ドメイン分布を明示的に調整する方法は、うまく対処されていない。 本稿では,教師なしda問題において,よく知られた17のイメージネットモデルから最適な事前学習機能を効率的に選択する方法を示す。 さらに,最も優れた事前学習機能(PRPL)を用いた再帰的擬似ラベルモデルを提案し,分類性能を向上させる。 PRPLの有効性を示すため,Office+Caltech-10,Office-31 ,Office-Homeの3つのベンチマークデータセットを用いて評価を行った。 大規模な実験により, 計算時間を削減し, 平均精度を98.1%, 92.4%, 81.2%に向上し, 技術水準を大幅に上回った。

Domain adaptation (DA) mitigates the domain shift problem when transferring knowledge from one annotated domain to another similar but different unlabeled domain. However, existing models often utilize one of the ImageNet models as the backbone without exploring others, and fine-tuning or retraining the backbone ImageNet model is also time-consuming. Moreover, pseudo-labeling has been used to improve the performance in the target domain, while how to generate confident pseudo labels and explicitly align domain distributions has not been well addressed. In this paper, we show how to efficiently opt for the best pre-trained features from seventeen well-known ImageNet models in unsupervised DA problems. In addition, we propose a recurrent pseudo-labeling model using the best pre-trained features (termed PRPL) to improve classification performance. To show the effectiveness of PRPL, we evaluate it on three benchmark datasets, Office+Caltech-10, Office-31, and Office-Home. Extensive experiments show that our model reduces computation time and boosts the mean accuracy to 98.1%, 92.4%, and 81.2%, respectively, substantially outperforming the state of the art.
翻訳日:2021-04-29 20:30:19 公開日:2021-04-27
# (参考訳) 臨床出題要約に向けて--先行注記からの退院要約作成の学習 [全文訳有]

Towards Clinical Encounter Summarization: Learning to Compose Discharge Summaries from Prior Notes ( http://arxiv.org/abs/2104.13498v1 )

ライセンス: CC BY 4.0
Han-Chin Shing, Chaitanya Shivade, Nima Pourdamghani, Feng Nan, Philip Resnik, Douglas Oard and Parminder Bhatia(参考訳) 臨床的な出会いの記録は広範囲で複雑であり、関連する情報を抽出して要約できるツールにプレミアムを置くことができる。 本稿では,臨床診断のための放電サマリー作成の課題を紹介する。 この設定の要約は複数の長い文書に忠実でトレーサブルでスケールしなければならず、抽出-抽象要約カスケードの使用を動機付けている。 本課題では,既存の流布度と情報度を補完する2つの新しい尺度,忠実度と幻覚率を導入する。 7つの医学的セクションと5つのモデルによる結果は、トレーサビリティをサポートする要約アーキテクチャが有望な結果をもたらすことを示し、文章書き換えアプローチは、多種多様なセクションで忠実性(フェスフルネス調整$f_3$)の尺度で一貫して実行されることを示している。

The records of a clinical encounter can be extensive and complex, thus placing a premium on tools that can extract and summarize relevant information. This paper introduces the task of generating discharge summaries for a clinical encounter. Summaries in this setting need to be faithful, traceable, and scale to multiple long documents, motivating the use of extract-then-abstrac t summarization cascades. We introduce two new measures, faithfulness and hallucination rate for evaluation in this task, which complement existing measures for fluency and informativeness. Results across seven medical sections and five models show that a summarization architecture that supports traceability yields promising results, and that a sentence-rewriting approach performs consistently on the measure used for faithfulness (faithfulness-adjust ed $F_3$) over a diverse range of generated sections.
翻訳日:2021-04-29 20:14:01 公開日:2021-04-27
# 幾何学的ディープラーニング:グリッド、グループ、グラフ、測地線、ゲージ

Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges ( http://arxiv.org/abs/2104.13478v1 )

ライセンス: Link先を確認
Michael M. Bronstein, Joan Bruna, Taco Cohen, Petar Veli\v{c}kovi\'c(参考訳) 過去10年間、データサイエンスと機械学習の実験的な革命が目撃されてきた。 実際、コンピュータビジョン、囲い込み、タンパク質折りたたみなど、これまでは到達不能と考えられていた多くの高次元学習タスクは、適切な計算スケールで実際に実現可能である。 注目すべきは、ディープラーニングの本質は2つの単純なアルゴリズムの原則から成り立っている: まず、表現の概念または特徴学習、すなわち適応された、しばしば階層的な特徴は、各タスクの正則性に関する適切な概念を捉え、次に、局所的な勾配差型手法による学習は、一般的にバックプロパゲーションとして実装される。 高次元における一般的な関数の学習は呪いの見積問題であるが、ほとんどの興味のあるタスクは汎用的ではなく、物理世界の下層の低次元性と構造から生じる重要な事前定義された規則性を持っている。 このテキストは、広い範囲の応用で適用可能な統一幾何原理を通じてこれらの規則性を公開することに関心がある。 このような'幾何学的統一'は、Felix Klein氏のErlangen Programの精神で、2つの目的を果たす。一方、CNN、RNN、GNN、Transformersといった最も成功したニューラルネットワークアーキテクチャを研究するための一般的な数学的フレームワークを提供する。 一方で、神経アーキテクチャに事前の物理的知識を組み込む建設的な手順を与え、まだ発明されていない将来のアーキテクチャを構築するための原則的な方法を提供する。

The last decade has witnessed an experimental revolution in data science and machine learning, epitomised by deep learning methods. Indeed, many high-dimensional learning tasks previously thought to be beyond reach -- such as computer vision, playing Go, or protein folding -- are in fact feasible with appropriate computational scale. Remarkably, the essence of deep learning is built from two simple algorithmic principles: first, the notion of representation or feature learning, whereby adapted, often hierarchical, features capture the appropriate notion of regularity for each task, and second, learning by local gradient-descent type methods, typically implemented as backpropagation. While learning generic functions in high dimensions is a cursed estimation problem, most tasks of interest are not generic, and come with essential pre-defined regularities arising from the underlying low-dimensionality and structure of the physical world. This text is concerned with exposing these regularities through unified geometric principles that can be applied throughout a wide spectrum of applications. Such a 'geometric unification' endeavour, in the spirit of Felix Klein's Erlangen Program, serves a dual purpose: on one hand, it provides a common mathematical framework to study the most successful neural network architectures, such as CNNs, RNNs, GNNs, and Transformers. On the other hand, it gives a constructive procedure to incorporate prior physical knowledge into neural architectures and provide principled way to build future architectures yet to be invented.
翻訳日:2021-04-29 13:03:29 公開日:2021-04-27
# ターゲット情報を用いたテキスト敵攻撃の高性能化

Improved and Efficient Text Adversarial Attacks using Target Information ( http://arxiv.org/abs/2104.13484v1 )

ライセンス: Link先を確認
Mahmoud Hossam, Trung Le, He Zhao, Viet Huynh, Dinh Phung(参考訳) 近年,ブラックボックス環境における自然言語モデルの逆例の研究への関心が高まっている。 これらの手法は、分類器ラベルを変更するまで特定の重要な単語を摂動することで自然言語分類器を攻撃する。 これらの重要な単語を見つけるために、これらの手法は、各入力文の単語ごとに対象のモデル単語を問合せすることで、全ての単語を重要度でランク付けする。 従来の高価な検索ではなく、単語ランキングを学習するための解釈学習を通じてこの問題に対処する新たな興味深いアプローチが導入された。 このアプローチを使用する主な利点は、最先端のメソッドと同等の攻撃率を達成できるが、より高速でクエリが少なく、攻撃するエージェントに対する疑念を避けるためにクエリが少ないことである。 それでもこのアプローチは、クエリ効率のためにターゲット分類器から活用できる有用な情報を犠牲にした。 本稿では,ターゲットモデル出力とデータの利用が,攻撃率と平均クエリ数の両方に与える影響について検討し,追加クエリのオーバーヘッドを限定して改善可能であることを示す。

There has been recently a growing interest in studying adversarial examples on natural language models in the black-box setting. These methods attack natural language classifiers by perturbing certain important words until the classifier label is changed. In order to find these important words, these methods rank all words by importance by querying the target model word by word for each input sentence, resulting in high query inefficiency. A new interesting approach was introduced that addresses this problem through interpretable learning to learn the word ranking instead of previous expensive search. The main advantage of using this approach is that it achieves comparable attack rates to the state-of-the-art methods, yet faster and with fewer queries, where fewer queries are desirable to avoid suspicion towards the attacking agent. Nonetheless, this approach sacrificed the useful information that could be leveraged from the target classifier for that sake of query efficiency. In this paper we study the effect of leveraging the target model outputs and data on both attack rates and average number of queries, and we show that both can be improved, with a limited overhead of additional queries.
翻訳日:2021-04-29 13:03:00 公開日:2021-04-27
# 深部変分GANを用いたテキスト生成

Text Generation with Deep Variational GAN ( http://arxiv.org/abs/2104.13488v1 )

ライセンス: Link先を確認
Mahmoud Hossam, Trung Le, Michael Papasimeon, Viet Huynh, Dinh Phung(参考訳) 現実的なシーケンスを生成することは、多くの機械学習アプリケーションにおいて中心的なタスクである。 シークエンス生成タスクのための深層生成モデルの構築は、近年かなり進歩している。 しかし、現在のモデルではモード折り畳みの問題が大きな問題となっている。 本稿では,モデム崩壊問題に原則的アプローチで対処するGANベースの汎用フレームワークを提案する。 我々は,データとモデル分布のJensen-Shanon分散を最小化しながら,ログの変動的下界を最大化するために,標準GAN目標を変更する。 テキスト生成タスクを用いて本モデルを実験し,高多様性でリアルテキストを生成可能であることを示す。

Generating realistic sequences is a central task in many machine learning applications. There has been considerable recent progress on building deep generative models for sequence generation tasks. However, the issue of mode-collapsing remains a main issue for the current models. In this paper we propose a GAN-based generic framework to address the problem of mode-collapse in a principled approach. We change the standard GAN objective to maximize a variational lower-bound of the log-likelihood while minimizing the Jensen-Shanon divergence between data and model distributions. We experiment our model with text generation task and show that it can generate realistic text with high diversity.
翻訳日:2021-04-29 13:02:40 公開日:2021-04-27
# 多視点線描画におけるコントラスト空間推論

Contrastive Spatial Reasoning on Multi-View Line Drawings ( http://arxiv.org/abs/2104.13433v1 )

ライセンス: Link先を確認
Siyuan Xiang, Anbang Yang, Yanfei Xue, Yaoqing Yang, Chen Feng(参考訳) 最先端の深層ネットワークによる多視点線描画における空間的推論は,SPARE3Dデータセット上での低性能化とともに最近示されている。 低性能の背景にある理由とこれらの課題の理解を深めるために,入力データとネットワーク設計の両方に関する制御実験を設計する。 これらの実験結果から後ろ向きに導いた結果,ベースライン性能を改善するために,他のネットワーク修正とともに単純なコントラスト学習手法を提案する。 提案手法では,自己教師付きバイナリ分類ネットワークを用いて,類似する2種類の3dオブジェクトのさまざまなビュー間の線描画の違いを比較する。 ディープネットワークは、3Dオブジェクトのディテールに敏感だがビューに不変な線描画表現を効果的に学習することができる。 実験の結果,SPARE3Dのベースライン性能は向上するが,一般的な自己教師型学習手法では実現できないことがわかった。

Spatial reasoning on multi-view line drawings by state-of-the-art supervised deep networks is recently shown with puzzling low performances on the SPARE3D dataset. To study the reason behind the low performance and to further our understandings of these tasks, we design controlled experiments on both input data and network designs. Guided by the hindsight from these experiment results, we propose a simple contrastive learning approach along with other network modifications to improve the baseline performance. Our approach uses a self-supervised binary classification network to compare the line drawing differences between various views of any two similar 3D objects. It enables deep networks to effectively learn detail-sensitive yet view-invariant line drawing representations of 3D objects. Experiments show that our method could significantly increase the baseline performance in SPARE3D, while some popular self-supervised learning methods cannot.
翻訳日:2021-04-29 13:02:09 公開日:2021-04-27
# ゼロショットデータ拡張によるフェアフェデレーション学習に向けて

Towards Fair Federated Learning with Zero-Shot Data Augmentation ( http://arxiv.org/abs/2104.13417v1 )

ライセンス: Link先を確認
Weituo Hao, Mostafa El-Khamy, Jungwon Lee, Jianyi Zhang, Kevin J Liang, Changyou Chen, Lawrence Carin(参考訳) フェデレーション学習は重要な分散学習パラダイムとして登場し、サーバはクライアントデータにアクセスせずに、多くのクライアントがトレーニングしたモデルからグローバルモデルを集約する。 クライアントローカルデータの統計的不均一性はグローバルモデルの収束が遅いことが認識されているが、クライアント間の精度のばらつきが高いバイアス付きフェデレーショングローバルモデルも生じることは一般的には認識されていない。 本研究では,フェアネスを向上したフェデレーション学習方式を提案する。 この課題に対処するために、統計的不均一性を緩和し、フェデレートネットワーク内のクライアント間でのより均一な精度性能を向上する、ゼロショットデータ拡張を用いた新しいフェデレーション学習システムを提案する。 本研究では,federated learning with zero-shot data augmentation with the client) と fed-zdas (federated learning with zero-shot data augmentation with the server) の2種類について検討を行った。 一連のデータセットにおける実験結果から,テスト精度と公平性を同時に向上する手法の有効性が示された。

Federated learning has emerged as an important distributed learning paradigm, where a server aggregates a global model from many client-trained models while having no access to the client data. Although it is recognized that statistical heterogeneity of the client local data yields slower global model convergence, it is less commonly recognized that it also yields a biased federated global model with a high variance of accuracy across clients. In this work, we aim to provide federated learning schemes with improved fairness. To tackle this challenge, we propose a novel federated learning system that employs zero-shot data augmentation on under-represented data to mitigate statistical heterogeneity and encourage more uniform accuracy performance across clients in federated networks. We study two variants of this scheme, Fed-ZDAC (federated learning with zero-shot data augmentation at the clients) and Fed-ZDAS (federated learning with zero-shot data augmentation at the server). Empirical results on a suite of datasets demonstrate the effectiveness of our methods on simultaneously improving the test accuracy and fairness.
翻訳日:2021-04-29 13:00:08 公開日:2021-04-27
# カーネル独立基準を用いた正準多型分解の学習

Learning Fair Canonical Polyadical Decompositions using a Kernel Independence Criterion ( http://arxiv.org/abs/2104.13504v1 )

ライセンス: Link先を確認
Kevin Kim and Alex Gittens(参考訳) 本研究は、KHSIC(Hilbert-Schmid t independent criterion)を用いてカノニカルポリアディック分解分解を正規化することにより、公平な低ランクテンソル分解を学習することを提案する。 理論的および実証的に、潜在因子と感度特徴の間の小さなkhsicが近似統計パリティを保証することが示されている。 提案アルゴリズムは,合成データセットと実データセットに適合する残差とのトレードオフを制御するため,最先端のアルゴリズムであるFATR(Zhu et al., 2018)を超越する。

This work proposes to learn fair low-rank tensor decompositions by regularizing the Canonical Polyadic Decomposition factorization with the kernel Hilbert-Schmidt independence criterion (KHSIC). It is shown, theoretically and empirically, that a small KHSIC between a latent factor and the sensitive features guarantees approximate statistical parity. The proposed algorithm surpasses the state-of-the-art algorithm, FATR (Zhu et al., 2018), in controlling the trade-off between fairness and residual fit on synthetic and real data sets.
翻訳日:2021-04-29 12:58:27 公開日:2021-04-27
# 対話型検索評価尺度のメタ評価

Meta-evaluation of Conversational Search Evaluation Metrics ( http://arxiv.org/abs/2104.13453v1 )

ライセンス: Link先を確認
Zeyang Liu, Ke Zhou and Max L. Wilson(参考訳) Google AssistantやMicrosoft Cortanaのような会話型検索システムは、自然言語対話を通じて複数のラウンドで検索システムと対話することができる。 このようなシステムを評価することは、自然言語応答が生成可能であることを考えると非常に困難であり、ユーザーは検索タスクを達成するために複数のセマンティック・コヒーレントなラウンドで対話することが多い。 先行研究では多くの評価指標が提案されていたが, ユーザの嗜好を効果的に捉える方法が検討されている。 本稿では,様々な対話検索指標を体系的にメタ評価する。 本研究は,(1)信頼度: 偶然に観察されたものと対照的に「現実的」な性能差を検出する能力;(2)忠実度: 究極のユーザの嗜好に同意する能力;(3)直感性: 重要とみなされる財産を捕捉する能力: 会話検索の文脈における妥当性, 情報性, フラエンシの3つの視点について検討する。 2つのテストコレクションで実験を行うことで、異なるメトリクスのパフォーマンスが異なるシナリオで大きく異なるのに対して、既存のメトリクスは究極のユーザの好みと満足度との弱い相関しか得られないことがわかった。 METEORは、相対的に、三つの視点をすべて考慮して、最も優れた1ターン計量である。 また,ユーザ満足度と適度に一致し,マルチターン会話検索を計測するために,セッションベース評価指標を活用できることを実証した。 我々の知る限り、我々の研究は会話検索における最も包括的なメタ評価を確立している。

Conversational search systems, such as Google Assistant and Microsoft Cortana, enable users to interact with search systems in multiple rounds through natural language dialogues. Evaluating such systems is very challenging given that any natural language responses could be generated, and users commonly interact for multiple semantically coherent rounds to accomplish a search task. Although prior studies proposed many evaluation metrics, the extent of how those measures effectively capture user preference remains to be investigated. In this paper, we systematically meta-evaluate a variety of conversational search metrics. We specifically study three perspectives on those metrics: (1) reliability: the ability to detect "actual" performance differences as opposed to those observed by chance; (2) fidelity: the ability to agree with ultimate user preference; and (3) intuitiveness: the ability to capture any property deemed important: adequacy, informativeness, and fluency in the context of conversational search. By conducting experiments on two test collections, we find that the performance of different metrics varies significantly across different scenarios whereas consistent with prior studies, existing metrics only achieve a weak correlation with ultimate user preference and satisfaction. METEOR is, comparatively speaking, the best existing single-turn metric considering all three perspectives. We also demonstrate that adapted session-based evaluation metrics can be used to measure multi-turn conversational search, achieving moderate concordance with user satisfaction. To our knowledge, our work establishes the most comprehensive meta-evaluation for conversational search to date.
翻訳日:2021-04-29 12:56:29 公開日:2021-04-27
# 数学的推論における一般知性の役割

The Role of General Intelligence in Mathematical Reasoning ( http://arxiv.org/abs/2104.13468v1 )

ライセンス: Link先を確認
Aviv Keren(参考訳) オブジェクトは、(それ以上ではないとしても)物理的な領域であるように、数学的領域と私たちの相互作用とそれに関する推論の中心的要素です。 人類の数学的推論は 究極的には 一般的な知性に根ざしていなければなりません しかし、現代の認知科学やA.I.では、物理的領域と数学的領域は別々に探索され、システムにどんなオブジェクトが存在するかという仮定を焼くことができる。 本稿では,この問題をその哲学的・認知的文脈に配置する。 次に、対象表現を学習するための抽象的理論的枠組みを説明し、非数学的表現と同等の数学的対象に余地を与える。 最後に、オブジェクトの異なる側面を統合する一般的な能力が自然数の概念にどのように影響するかを示すために、その見解に基づくケーススタディについて述べる。

Objects are a centerpiece of the mathematical realm and our interaction with and reasoning about it, just as they are of the physical one (if not more). And humans' mathematical reasoning must ultimately be grounded in our general intelligence. Yet in contemporary cognitive science and A.I., the physical and mathematical domains are customarily explored separately, which allows for baking in assumptions for what objects are for the system - and missing potential connections. In this paper, I put the issue into its philosophical and cognitive context. I then describe an abstract theoretical framework for learning object representations, that makes room for mathematical objects on par with non-mathematical ones. Finally, I describe a case study that builds on that view to show how our general ability for integrating different aspects of objects effects our conception of the natural numbers.
翻訳日:2021-04-29 12:56:05 公開日:2021-04-27
# Phenotyping OSA:ファジィクラスタリングと永続ホモロジーを用いた時系列解析

Phenotyping OSA: a time series analysis using fuzzy clustering and persistent homology ( http://arxiv.org/abs/2104.13479v1 )

ライセンス: Link先を確認
Prachi Loliencar and Giseon Heo(参考訳) 睡眠時無呼吸症は小児に深刻な影響を及ぼす疾患である。 apnea-hypopnea indexを用いた従来の診断は、多面的結果の把握に役立たないのではないかという懸念が最近出ている。 本研究では,気流時系列のクラスタリング解析を用いて患者を表現し,この問題に対処する第一歩を踏み出した。 これは、時間領域と周波数領域における特徴ベースのファジィクラスタリングの使用と、トポロジの観点から信号を研究するための永続的ホモロジーの3つの方法によってアプローチされる。 ファジィクラスタはディリクレ回帰解析を用いて新しい方法で解析され、トポロジカルアプローチはTakens埋め込み定理を利用して信号の周期的性質を研究する。

Sleep apnea is a disorder that has serious consequences for the pediatric population. There has been recent concern that traditional diagnosis of the disorder using the apnea-hypopnea index may be ineffective in capturing its multi-faceted outcomes. In this work, we take a first step in addressing this issue by phenotyping patients using a clustering analysis of airflow time series. This is approached in three ways: using feature-based fuzzy clustering in the time and frequency domains, and using persistent homology to study the signal from a topological perspective. The fuzzy clusters are analyzed in a novel manner using a Dirichlet regression analysis, while the topological approach leverages Takens embedding theorem to study the periodicity properties of the signals.
翻訳日:2021-04-29 12:54:54 公開日:2021-04-27
# SrvfNet: 教師なし多相形状アライメントのための生成ネットワーク

SrvfNet: A Generative Network for Unsupervised Multiple Diffeomorphic Shape Alignment ( http://arxiv.org/abs/2104.13449v1 )

ライセンス: Link先を確認
Elvis Nunez, Andrew Lizarraga, and Shantanu H. Joshi(参考訳) 本稿では,平方根速度関数(srvf)を含む大規模関数データの集合をテンプレートにアライメントするための生成的ディープラーニングフレームワークであるsrvfnetを提案する。 提案するフレームワークは完全に教師なしであり,事前定義されたテンプレートにアライメントでき,同時にデータから最適なテンプレートを予測できる。 本ネットワークは,ワーピング関数の分布空間を生成できる完全連結層からなる生成エンコーダ・デコーダアーキテクチャとして構成する。 我々は, 磁気共鳴画像(MRI)データからの拡散プロファイルだけでなく, 合成データ上で検証することで, フレームワークの強度を実証する。

We present SrvfNet, a generative deep learning framework for the joint multiple alignment of large collections of functional data comprising square-root velocity functions (SRVF) to their templates. Our proposed framework is fully unsupervised and is capable of aligning to a predefined template as well as jointly predicting an optimal template from data while simultaneously achieving alignment. Our network is constructed as a generative encoder-decoder architecture comprising fully-connected layers capable of producing a distribution space of the warping functions. We demonstrate the strength of our framework by validating it on synthetic data as well as diffusion profiles from magnetic resonance imaging (MRI) data.
翻訳日:2021-04-29 12:54:11 公開日:2021-04-27
# deep 3d-to-2d watermarking: 3dメッシュへのメッセージ埋め込みと2dレンダリングからの抽出

Deep 3D-to-2D Watermarking: Embedding Messages in 3D Meshes and Extracting Them from 2D Renderings ( http://arxiv.org/abs/2104.13450v1 )

ライセンス: Link先を確認
Innfarn Yoo and Huiwen Chang and Xiyang Luo and Ondrej Stava and Ce Liu and Peyman Milanfar and Feng Yang(参考訳) デジタル透かしは著作権保護のために広く使われている。 従来の3d透かし手法や商用ソフトウェアは、通常、メッセージを3dメッシュに埋め込むように設計され、後に歪んだ、3dメッシュから直接メッセージを取得する。 しかし、そのようなメッシュの2dレンダリングからメッセージを取得することは、まだ困難で未検討である。 1) メッシュ形状とテクスチャの両方にメッセージを埋め込むエンコーダ, 2) 異なるカメラアングルから様々な照明条件下で透かし付き3dオブジェクトを描画する微分可能なレンダラ, 3) 2次元レンダリング画像からメッセージを復元するデコーダ,という,新しいエンドツーエンド学習フレームワークを導入する。 広範にわたる実験から,我々のモデルは視覚的に人間に知覚できない情報を埋め込むことを学び,組込み情報を頑健な2次元レンダリングから3次元歪みに再構成する。 さらに,本手法は,レイトレーサやリアルタイムレンダラーなど,異なるレンダラーで動作するように一般化可能であることを示す。

Digital watermarking is widely used for copyright protection. Traditional 3D watermarking approaches or commercial software are typically designed to embed messages into 3D meshes, and later retrieve the messages directly from distorted/undistorte d watermarked 3D meshes. Retrieving messages from 2D renderings of such meshes, however, is still challenging and underexplored. We introduce a novel end-to-end learning framework to solve this problem through: 1) an encoder to covertly embed messages in both mesh geometry and textures; 2) a differentiable renderer to render watermarked 3D objects from different camera angles and under varied lighting conditions; 3) a decoder to recover the messages from 2D rendered images. From extensive experiments, we show that our models learn to embed information visually imperceptible to humans, and to reconstruct the embedded information from 2D renderings robust to 3D distortions. In addition, we demonstrate that our method can be generalized to work with different renderers, such as ray tracers and real-time renderers.
翻訳日:2021-04-29 12:54:01 公開日:2021-04-27
# 大規模構造化データによる名前付きエンティティ認識とリンク

Named Entity Recognition and Linking Augmented with Large-Scale Structured Data ( http://arxiv.org/abs/2104.13456v1 )

ライセンス: Link先を確認
Pawe{\l} Rychlikowski, Bart{\l}omiej Najdecki, Adrian {\L}a\'ncucki, Adam Kaczmarek(参考訳) 本稿では,BSNLP 2019 と BSNLP 2021 でそれぞれ開催された第2回と第3回 SlavNER 共有タスクについて述べる。 タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。 当社のソリューションでは、構造化されていないドキュメントと構造化ドキュメントの両方の大規模なコレクションを活用しています。 前者は、言語モデルの教師なしトレーニングと語彙単位の埋め込みのためのデータとして機能する。 後者はウィキペディアとその構造を持つウィキデータ、我々のレマタイズルールのソース、および現実世界のエンティティを参照。 これらのリソースの助けを借りて、私たちのシステムは、少量のラベル付きデータでのみトレーニングされながら、エンティティを認識し、正規化し、リンクすることができる。

In this paper we describe our submissions to the 2nd and 3rd SlavNER Shared Tasks held at BSNLP 2019 and BSNLP 2021, respectively. The tasks focused on the analysis of Named Entities in multilingual Web documents in Slavic languages with rich inflection. Our solution takes advantage of large collections of both unstructured and structured documents. The former serve as data for unsupervised training of language models and embeddings of lexical units. The latter refers to Wikipedia and its structured counterpart - Wikidata, our source of lemmatization rules, and real-world entities. With the aid of those resources, our system could recognize, normalize and link entities, while being trained with only small amounts of labeled data.
翻訳日:2021-04-29 12:52:20 公開日:2021-04-27
# ACDC: セマンティックドライビングシーン理解のための対応付き逆条件データセット

ACDC: The Adverse Conditions Dataset with Correspondences for Semantic Driving Scene Understanding ( http://arxiv.org/abs/2104.13395v1 )

ライセンス: Link先を確認
Christos Sakaridis, Dengxin Dai, Luc Van Gool(参考訳) 自動運転車のレベル5の自律性には、どんな視覚条件でも入力画像を解析できる堅牢な視覚知覚システムが必要である。 しかし、既存のセマンティクスセグメンテーションデータセットは、通常の条件下でキャプチャされた画像によって支配されるか、あるいは規模が小さい。 そこで本研究では,ACDC(Adverse Conditions Dataset with Cor correspondingences)を導入し,視覚障害に対するセマンティックセグメンテーション手法の訓練と試験を行う。 ACDCは、霧、夜間、雨、雪の4つの一般的な悪条件の間に均等に分布する4006枚の画像からなる。 それぞれの悪条件画像は、高品質なピクセルレベルのセマンティックアノテーション、通常条件下で撮影される同じシーンの対応するイメージ、および透明かつ不確実なセマンティック内容のイメージ内領域を区別するバイナリマスクを備える。 したがって、adcは標準意味セグメンテーションと新しく導入された不確実性認識意味セグメンテーションの両方をサポートする。 詳細な実証研究により、ACDCの有害ドメインが最先端の教師なしアプローチや教師なしアプローチにもたらす課題が示され、この分野における今後の進歩を推し進める上で、我々のデータセットの価値が示される。 データセットとベンチマークは公開されています。

Level 5 autonomy for self-driving cars requires a robust visual perception system that can parse input images under any visual condition. However, existing semantic segmentation datasets are either dominated by images captured under normal conditions or are small in scale. To address this, we introduce ACDC, the Adverse Conditions Dataset with Correspondences for training and testing semantic segmentation methods on adverse visual conditions. ACDC consists of a large set of 4006 images which are equally distributed between four common adverse conditions: fog, nighttime, rain, and snow. Each adverse-condition image comes with a high-quality fine pixel-level semantic annotation, a corresponding image of the same scene taken under normal conditions, and a binary mask that distinguishes between intra-image regions of clear and uncertain semantic content. Thus, ACDC supports both standard semantic segmentation and the newly introduced uncertainty-aware semantic segmentation. A detailed empirical study demonstrates the challenges that the adverse domains of ACDC pose to state-of-the-art supervised and unsupervised approaches and indicates the value of our dataset in steering future progress in the field. Our dataset and benchmark are publicly available.
翻訳日:2021-04-29 12:51:54 公開日:2021-04-27
# 地球空間におけるエゴセントリックな3D空間の推定

Estimating Egocentric 3D Human Pose in Global Space ( http://arxiv.org/abs/2104.13454v1 )

ライセンス: Link先を確認
Jian Wang and Lingjie Liu and Weipeng Xu and Kripasindhu Sarkar and Christian Theobalt(参考訳) 単一魚眼カメラを用いたエゴセントリックな3Dポーズ推定は、外部カメラを用いた従来の外付けモーションキャプチャでは難しい、制約のない環境での幅広い日常活動のキャプチャを可能にすることで、近年人気が高まっている。 しかし、既存の方法にはいくつかの制限がある。 顕著な問題は、推定されたポーズが、多くの用途で制限される世界座標系ではなく、魚眼カメラの局所座標系にあることである。 さらに, 本手法は, モノキュラー設定によるあいまいさと, 強く歪んだエゴセントリックな視点での重度の咬合により, 精度と時間的不安定さに苦しむ。 そこで本研究では, 頭部搭載魚眼カメラを用いた自己中心型3d体姿勢推定法を提案する。 高精度で時間的に安定したグローバルポーズを実現するため、ヒートマップ再投射誤差を最小化し、モカプデータセットから学習した局所的および大域的身体運動先行を強制することにより、フレーム列上で時空間最適化を行う。 実験の結果,本手法は定量的にも質的にも最先端の手法よりも優れていることがわかった。

Egocentric 3D human pose estimation using a single fisheye camera has become popular recently as it allows capturing a wide range of daily activities in unconstrained environments, which is difficult for traditional outside-in motion capture with external cameras. However, existing methods have several limitations. A prominent problem is that the estimated poses lie in the local coordinate system of the fisheye camera, rather than in the world coordinate system, which is restrictive for many applications. Furthermore, these methods suffer from limited accuracy and temporal instability due to ambiguities caused by the monocular setup and the severe occlusion in a strongly distorted egocentric perspective. To tackle these limitations, we present a new method for egocentric global 3D body pose estimation using a single head-mounted fisheye camera. To achieve accurate and temporally stable global poses, a spatio-temporal optimization is performed over a sequence of frames by minimizing heatmap reprojection errors and enforcing local and global body motion priors learned from a mocap dataset. Experimental results show that our approach outperforms state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2021-04-29 12:51:33 公開日:2021-04-27
# 細菌コロニーの顕微鏡画像における自動細胞追跡のための確率的ニューラルネットワーク

Stochastic Neural Networks for Automatic Cell Tracking in Microscopy Image Sequences of Bacterial Colonies ( http://arxiv.org/abs/2104.13482v1 )

ライセンス: Link先を確認
Sorena Sarmadi, James J. Winkle, Razan N. Alnahhas, Matthew R. Bennett, Kre\v{s}imir Josi\'c, Andreas Mang, and Robert Azencott(参考訳) 本稿では,細菌群の詳細な増殖動態を定量化する自動解析法について述べる。 本稿では,新たなコスト関数の自動最小化による変形可能セル運動のフレームシーケンス追跡手法を提案する。 この最小化は専用ボルツマンマシン(stochastic recurrent neural networks)によって実装されている。 細胞分裂の自動検出も同様に、2つのコスト関数を連続的に最小化し、子供のペアの識別と親の識別を交互に行う。 マイクロ流体トラップにおける大腸菌の増殖動態をよく再現したシミュレーションセルコロニーの記録を用いて,このセル追跡アルゴリズムを検証する。 1100の画像フレームのバッチでは、1フレームあたりのセル登録精度は94.5\%から100\%の範囲で、平均値が高い。 Emph{E. coli} コロニーの実験的画像配列を用いた初期試験では,90 %から100 %の登録精度で有意な結果が得られた。

We describe an automated analysis method to quantify the detailed growth dynamics of a population of bacilliform bacteria. We propose an innovative approach to frame-sequence tracking of deformable-cell motion by the automated minimization of a new, specific cost functional. This minimization is implemented by dedicated Boltzmann machines (stochastic recurrent neural networks). Automated detection of cell divisions is handled similarly by successive minimizations of two cost functions, alternating the identification of children pairs and parent identification. We validate this automatic cell tracking algorithm using recordings of simulated cell colonies that closely mimic the growth dynamics of \emph{E. coli} in microfluidic traps. On a batch of 1100 image frames, cell registration accuracies per frame ranged from 94.5\% to 100\%, with a high average. Our initial tests using experimental image sequences of \emph{E. coli} colonies also yield convincing results, with a registration accuracy ranging from 90\% to 100\%.
翻訳日:2021-04-29 12:51:15 公開日:2021-04-27
# ConTNet: なぜ同時に畳み込みとトランスフォーマーを使用しないのですか?

ConTNet: Why not use convolution and transformer at the same time? ( http://arxiv.org/abs/2104.13497v1 )

ライセンス: Link先を確認
Haotian Yan, Zhe Li, Weijian Li, Changhu Wang, Ming Wu, Chuang Zhang(参考訳) 畳み込みネットワーク(convnets)はコンピュータビジョン(cv)で大きな成功を収めているが、オブジェクト検出やセグメンテーションといった密集した予測タスクに不可欠なグローバルな情報収集に苦しむ。 本研究では,ContNet(Convolution Transformer Network)とConvNetアーキテクチャを組み合わせて,大きな受容場を提供する。 ハイパーパラメータに敏感で、中規模のデータセット(イメージNet1kなど)でスクラッチからトレーニングした時にデータ拡張の山に非常に依存する、最近提案されたトランスフォーマーベースのモデル(例えば、ViT、DeiT)とは異なり、ConTNetは通常のConvNet(例えば、ResNet)のように最適化でき、顕著な堅牢性を維持することができる。 また、同じ強力なデータ拡張を考えると、ConTNetのパフォーマンス改善はResNetよりも顕著であることも指摘しておく価値がある。 画像分類や下流タスクにおいて,その優位性と有効性を示す。 例えば、私たちのConTNetは、40%未満の計算複雑性を持つDeiT-Bと同じImageNetで81.8%のトップ1の精度を実現しています。 ConTNet-Mは、COCO2017データセット上でFaster-RCNN(2.6%)とMask-RCNN(3.2%)の両方のバックボーンとしてResNet50を上回っている。 ConTNetがCVタスクの有用なバックボーンとして機能し、モデル設計に新たなアイデアをもたらすことを期待しています。

Although convolutional networks (ConvNets) have enjoyed great success in computer vision (CV), it suffers from capturing global information crucial to dense prediction tasks such as object detection and segmentation. In this work, we innovatively propose ConTNet (ConvolutionTransfor mer Network), combining transformer with ConvNet architectures to provide large receptive fields. Unlike the recently-proposed transformer-based models (e.g., ViT, DeiT) that are sensitive to hyper-parameters and extremely dependent on a pile of data augmentations when trained from scratch on a midsize dataset (e.g., ImageNet1k), ConTNet can be optimized like normal ConvNets (e.g., ResNet) and preserve an outstanding robustness. It is also worth pointing that, given identical strong data augmentations, the performance improvement of ConTNet is more remarkable than that of ResNet. We present its superiority and effectiveness on image classification and downstream tasks. For example, our ConTNet achieves 81.8% top-1 accuracy on ImageNet which is the same as DeiT-B with less than 40% computational complexity. ConTNet-M also outperforms ResNet50 as the backbone of both Faster-RCNN (by 2.6%) and Mask-RCNN (by 3.2%) on COCO2017 dataset. We hope that ConTNet could serve as a useful backbone for CV tasks and bring new ideas for model design
翻訳日:2021-04-29 12:51:01 公開日:2021-04-27
# KAMA:ボディメッシュアーティキュレーションを意識した3Dキーポイント

KAMA: 3D Keypoint Aware Body Mesh Articulation ( http://arxiv.org/abs/2104.13502v1 )

ライセンス: Link先を確認
Umar Iqbal, Kevin Xie, Yunrong Guo, Jan Kautz, Pavlo Molchanov(参考訳) 本研究では,人体メッシュを3次元キーポイントの位置から推定する3次元キーポイント認識メッシュ調音手法であるkamaを提案する。 そこで本研究では,26個のキーポイントの3次元位置を推定し,簡単な幾何学的変換を用いてパラメトリックボディモデルSMPLを記述するための解析解を提案する。 キーポイント推定は画像手がかりに直接依存するため,本手法は最先端の手法に比べて画像内容のアライメントが有意に向上する。 提案手法では,2対のメッシュアノテーションを必要とせず,3次元キーポイント回帰のみを通じて最先端のメッシュフィッティングを実現することができる。 挑戦的な3DPWとHuman3.6Mの結果は、我々のアプローチが最先端のボディーメッシュフィッティングをもたらすことを示している。

We present KAMA, a 3D Keypoint Aware Mesh Articulation approach that allows us to estimate a human body mesh from the positions of 3D body keypoints. To this end, we learn to estimate 3D positions of 26 body keypoints and propose an analytical solution to articulate a parametric body model, SMPL, via a set of straightforward geometric transformations. Since keypoint estimation directly relies on image clues, our approach offers significantly better alignment to image content when compared to state-of-the-art approaches. Our proposed approach does not require any paired mesh annotations and is able to achieve state-of-the-art mesh fittings through 3D keypoint regression only. Results on the challenging 3DPW and Human3.6M demonstrate that our approach yields state-of-the-art body mesh fittings.
翻訳日:2021-04-29 12:50:32 公開日:2021-04-27
# エネルギーに基づくグラフニューラルネットワークの展望

An Energy-Based View of Graph Neural Networks ( http://arxiv.org/abs/2104.13492v1 )

ライセンス: Link先を確認
John Y. Shin, Prathamesh Dharangutte(参考訳) グラフニューラルネットワークは、グラフ構造化データを扱うニューラルネットワークの一般的な変種である。 本研究では,グラフニューラルネットワークとGrathwohlらのエネルギーベースビューを組み合わせることを検討する。 (2019) より堅牢な分類器の取得を目的とした。 このフレームワークの実装に成功し,隣接行列と同様に機能を越えて生成する新しい手法を提案し,標準グラフ畳み込みネットワーク(gcn)アーキテクチャ(kipf & welling (2016))に対する評価を行った。 提案手法は、ロバスト性を改善しつつ、同等の識別性能を得、エネルギーベースグラフニューラルネットワークの今後の研究に期待できる新たな方向性を開拓する。

Graph neural networks are a popular variant of neural networks that work with graph-structured data. In this work, we consider combining graph neural networks with the energy-based view of Grathwohl et al. (2019) with the aim of obtaining a more robust classifier. We successfully implement this framework by proposing a novel method to ensure generation over features as well as the adjacency matrix and evaluate our method against the standard graph convolutional network (GCN) architecture (Kipf & Welling (2016)). Our approach obtains comparable discriminative performance while improving robustness, opening promising new directions for future research for energy-based graph neural networks.
翻訳日:2021-04-29 12:43:37 公開日:2021-04-27
# 政策マニフォールド探索 : 多様性に基づく神経進化のためのマニフォールド仮説の探索

Policy Manifold Search: Exploring the Manifold Hypothesis for Diversity-based Neuroevolution ( http://arxiv.org/abs/2104.13424v1 )

ライセンス: Link先を確認
Nemanja Rakicevic, Antoine Cully, Petar Kormushev(参考訳) 神経進化は勾配に基づく最適化の代替であり、局所的な極小化を避け、並列化を可能にする可能性がある。 主な制限因子は、通常、パラメータ空間の次元とうまくスケールしないことである。 近年のニューラルネットワークの固有次元とロスランドスケープを調査した研究に触発されて、多様な有用なポリシーの高密度が配置されるポリシーネットワークパラメータ空間に埋め込まれた低次元多様体が存在すると仮定した。 本稿では,この学習表現空間でポリシー探索を行うことで,政策ネットワークパラメータの学習表現を活用できる,ニューロ進化による多様性に基づく新しい政策探索手法を提案する。 本手法は,政策探索の原則的アプローチを提供する品質多様性(QD)フレームワークに依存し,政策表現の学習データセットとして使用される多種多様なポリシーの集合を維持する。 さらに、逆マッピング関数のヤコビアンを用いて表現空間の探索を導く。 これにより、生成されたサンプルは元の空間にマッピングした後、高密度領域に留まることが保証される。 最後に,シミュレーション環境における4つの連続制御タスクに対するコントリビューションを評価し,多様性に基づくベースラインと比較した。

Neuroevolution is an alternative to gradient-based optimisation that has the potential to avoid local minima and allows parallelisation. The main limiting factor is that usually it does not scale well with parameter space dimensionality. Inspired by recent work examining neural network intrinsic dimension and loss landscapes, we hypothesise that there exists a low-dimensional manifold, embedded in the policy network parameter space, around which a high-density of diverse and useful policies are located. This paper proposes a novel method for diversity-based policy search via Neuroevolution, that leverages learned representations of the policy network parameters, by performing policy search in this learned representation space. Our method relies on the Quality-Diversity (QD) framework which provides a principled approach to policy search, and maintains a collection of diverse policies, used as a dataset for learning policy representations. Further, we use the Jacobian of the inverse-mapping function to guide the search in the representation space. This ensures that the generated samples remain in the high-density regions, after mapping back to the original space. Finally, we evaluate our contributions on four continuous-control tasks in simulated environments, and compare to diversity-based baselines.
翻訳日:2021-04-29 12:40:15 公開日:2021-04-27
# 物理インフォームド機械学習による非線形共鳴の発見

Discovering nonlinear resonances through physics-informed machine learning ( http://arxiv.org/abs/2104.13471v1 )

ライセンス: Link先を確認
G. D. Barmparis and G. P. Tsironis(参考訳) 分子やフォトニック系をモデル化する非線形系のアンサンブルに対して、所定の伝達特性を持つ配置を効率的に求める手法を提案する。 具体的には、物理インフォームド・機械学習(PIML)技術を用いて、非線形二量体における電子(または光子)の標的状態への効率的な移動の最適パラメータを求める。 我々は、ドナーとアクセプタターゲットシステム状態の非線形項を表す2つの変数である$\chi_D$と$\chi_A$を含む機械学習モデルを作成する。 次に損失関数を$1.0 - P_j$と定義し、ここでは$P_j$は確率、電子はターゲット状態、$j$とする。 損失関数を最小化することにより、ターゲット状態への遷移確率を最大化する。 この方法は、既知の結果を目標エネルギー移動(tet)モデルに復元し、さらに複雑な中間状態を持つシステムに適用する。 このトリマー構成では、PIMLアプローチはドナーからアクセプターユニットへの最適な共振経路を発見する。 提案したPIML法は一般的に分子錯体の化学設計や量子系やフォトニック系の工学設計に用いられる。

For an ensemble of nonlinear systems that model for instance molecules or photonic systems we propose a method that finds efficiently the configuration that has prescribed transfer properties. Specifically, we use physics-informed machine-learning (PIML) techniques to find the optimal parameters for the efficient transfer of an electron (or photon) to a targeted state in a non-linear dimer. We create a machine learning model containing two variables, $\chi_D$ and $\chi_A$, representing the non-linear terms in the donor and acceptor target system states. We then define a loss function as $1.0 - P_j$, where $P_j$ is the probability, the electron being in the targeted state, $j$. By minimizing the loss function, we maximize the transition probability to the targeted state. The method recovers known results in the Targeted Energy Transfer (TET) model and it is then applied to a more complex system with an additional intermediate state. In this trimer configuration the PIML approach discovers optimal resonant paths from the donor to acceptor units. The proposed PIML method is general and may be used in the chemical design of molecular complexes or engineering design of quantum or photonic systems.
翻訳日:2021-04-29 12:39:55 公開日:2021-04-27
# 乗算1光子未満を用いた光ニューラルネットワーク

An optical neural network using less than 1 photon per multiplication ( http://arxiv.org/abs/2104.13467v1 )

ライセンス: Link先を確認
Tianyu Wang, Shi-Yuan Ma, Logan G. Wright, Tatsuhiro Onodera, Brian Richard and Peter L. McMahon(参考訳) ディープラーニングは、科学と商業の両方の分野で急速に普及している。 人間のパフォーマンスを超える深層学習のマイルストーンは、ゲームプレイング、自然言語翻訳、医療画像分析といった様々な分野において、ここ数年で多くのタスクで達成されてきた。 しかし、電子プロセッサ上での深層ニューラルネットワークのトレーニングと実行に関連する高エネルギーコストにより、継続的な進歩はますます妨げられている。 光ニューラルネットワークは、従来のデジタルコンピュータにデプロイされたニューラルネットワークよりも高いエネルギー効率を達成することができると理論的に予測されているため、ディープラーニングの代替物理プラットフォームとして注目されている。 本研究では,約3.2個の検出光子を重み乗算,約90%の精度で約0.64光子(約2.4 \times 10^{-19}$ j)の重み乗算を用いて,手書き桁分類において99%の精度を達成する光ニューラルネットワークを実験的に実証する。 この性能は、行列ベクトル乗算を非常に並列に実行する独自の自由空間光学プロセッサを用いて達成され、同時に最大0.5万スカラー(重み)乗算が行われた。 市販の光学コンポーネントと標準ニューラルネットワークのトレーニング手法を用いて、光ニューラルネットワークが標準量子限界付近で非常に低い光パワーで動作し、高い精度を達成できることを実証した。 その結果、低消費電力運転のための原理実証と、データ記憶と制御に使用される周辺電子機器を含む慎重なシステム設計が提供され、現在のデジタルプロセッサよりも桁違いに効率の良い10^{-16}$jのスカラー乗算あたりの総エネルギーを必要とする光プロセッサを実現する道を開くことができた。

Deep learning has rapidly become a widespread tool in both scientific and commercial endeavors. Milestones of deep learning exceeding human performance have been achieved for a growing number of tasks over the past several years, across areas as diverse as game-playing, natural-language translation, and medical-image analysis. However, continued progress is increasingly hampered by the high energy costs associated with training and running deep neural networks on electronic processors. Optical neural networks have attracted attention as an alternative physical platform for deep learning, as it has been theoretically predicted that they can fundamentally achieve higher energy efficiency than neural networks deployed on conventional digital computers. Here, we experimentally demonstrate an optical neural network achieving 99% accuracy on handwritten-digit classification using ~3.2 detected photons per weight multiplication and ~90% accuracy using ~0.64 photons (~$2.4 \times 10^{-19}$ J of optical energy) per weight multiplication. This performance was achieved using a custom free-space optical processor that executes matrix-vector multiplications in a massively parallel fashion, with up to ~0.5 million scalar (weight) multiplications performed at the same time. Using commercially available optical components and standard neural-network training methods, we demonstrated that optical neural networks can operate near the standard quantum limit with extremely low optical powers and still achieve high accuracy. Our results provide a proof-of-principle for low-optical-power operation, and with careful system design including the surrounding electronics used for data storage and control, open up a path to realizing optical processors that require only $10^{-16}$ J total energy per scalar multiplication -- which is orders of magnitude more efficient than current digital processors.
翻訳日:2021-04-29 12:39:02 公開日:2021-04-27
# (参考訳) BERTによるマルチモーダル核融合とフェイクニュース検出の注意機構 [全文訳有]

Multimodal Fusion with BERT and Attention Mechanism for Fake News Detection ( http://arxiv.org/abs/2104.11476v2 )

ライセンス: CC BY 4.0
Nguyen Manh Duc Tuan, Pham Quang Nhat Minh(参考訳) フェイクニュースの検出は、偽ニュースが毎日ソーシャルメディアに拡散しているため、メディア上の情報の信頼性を高める上で重要な課題であり、我々の社会にとって非常に深刻な関心事である。 偽ニュースは通常、画像、テキスト、ビデオを操作することで生成される。 本稿では,テキストと視覚データから派生したマルチモーダル特徴を融合させて偽ニュースを検出する手法を提案する。 具体的には、事前学習したBERTモデルを用いてテキストの特徴を学習し、ImageNetデータセットで事前学習したVGG-19モデルを用いて画像の特徴を抽出した。 テキストの特徴と視覚的特徴の関係を捉えるためのスケールドット製品アテンション機構を提案した。 実験の結果,公開twitterデータセットにおける現在の最先端手法よりも3.1%の精度で性能が向上した。

Fake news detection is an important task for increasing the credibility of information on the media since fake news is constantly spreading on social media every day and it is a very serious concern in our society. Fake news is usually created by manipulating images, texts, and videos. In this paper, we present a novel method for detecting fake news by fusing multimodal features derived from textual and visual data. Specifically, we used a pre-trained BERT model to learn text features and a VGG-19 model pre-trained on the ImageNet dataset to extract image features. We proposed a scale-dot product attention mechanism to capture the relationship between text features and visual features. Experimental results showed that our approach performs better than the current state-of-the-art method on a public Twitter dataset by 3.1% accuracy.
翻訳日:2021-04-29 07:03:36 公開日:2021-04-27
# (参考訳) 教育における平等と人工知能:「AIEd」は教育における不平等を増幅するか、緩和するか? [全文訳有]

Equity and Artificial Intelligence in Education: Will "AIEd" Amplify or Alleviate Inequities in Education? ( http://arxiv.org/abs/2104.12920v1 )

ライセンス: CC BY 4.0
Kenneth Holstein and Shayan Doroudi(参考訳) 教育AI(AIEd)システムの開発は、例えば1対1の人間家庭教師の利益をより広い聴衆に拡大したり、既存の教育サービスのギャップを埋めることによって、教育的平等を促進し、学習者の異なるグループ間の達成ギャップを減らす可能性によって、しばしば動機付けられてきた。 このような高貴な意図を踏まえると、なぜAIEdシステムは実際に何の影響も与えないのか? 本章では,aiedシステムが既存の不等式を増幅するリスクがある場合の4つのレンズについて検討する。 これらのレンズから、我々はAIEdのより公平な未来への道のりを概説し、それぞれの提案を取り巻く議論を強調する。 そうすることで、equitable aiedの設計に関する新たな会話を提起し、現場で進行中の会話を前進させたいと思っています。

The development of educational AI (AIEd) systems has often been motivated by their potential to promote educational equity and reduce achievement gaps across different groups of learners -- for example, by scaling up the benefits of one-on-one human tutoring to a broader audience, or by filling gaps in existing educational services. Given these noble intentions, why might AIEd systems have inequitable impacts in practice? In this chapter, we discuss four lenses that can be used to examine how and why AIEd systems risk amplifying existing inequities. Building from these lenses, we then outline possible paths towards more equitable futures for AIEd, while highlighting debates surrounding each proposal. In doing so, we hope to provoke new conversations around the design of equitable AIEd, and to push ongoing conversations in the field forward.
翻訳日:2021-04-28 23:57:14 公開日:2021-04-27
# (参考訳) GPU対応モジュール合成による10億のオーディオサウンド [全文訳有]

One Billion Audio Sounds from GPU-enabled Modular Synthesis ( http://arxiv.org/abs/2104.12922v1 )

ライセンス: CC BY 4.0
Joseph Turian and Jordie Shier and George Tzanetakis and Kirk McNally and Max Henry(参考訳) conde nast japan all rights reserved.我々はsynth1b1をリリースした。synth1b1は、10億個の4秒の合成音からなるマルチモーダルオーディオコーパスで、文献のどのオーディオデータセットよりも100倍大きい。 各音は、それを生成するのに使用される潜在パラメータとペアリングされる。 Synth1B1サンプルは、オープンソースモジュールシンセサイザーである torchsynth (https://github.com/ torchsynth/torchsynt h) を使用して、1つのGPU上で、リアルタイム (714MHz) よりも高速にオンザフライで決定的に生成される。 FM Synth timbre (https://zenodo.org/ record/4677102) と subtractive synth pitch (https://zenodo.org/ record/4677097) の2つの新しいオーディオデータセットをリリースする。 これらのデータセットを用いて,既存の音声表現に対する新しいランクベースシンセサイザによる評価基準を示す。 最後に,シンセサイザーのハイパーパラメータ最適化のための新しい手法を提案し,知覚的に相関する聴覚距離がシンセサイザー設計における新たな応用を可能にすることを示す。

We release synth1B1, a multi-modal audio corpus consisting of 1 billion 4-second synthesized sounds, which is 100x larger than any audio dataset in the literature. Each sound is paired with the corresponding latent parameters used to generate it. synth1B1 samples are deterministically generated on-the-fly 16200x faster than real-time (714MHz) on a single GPU using torchsynth (https://github.com/ torchsynth/torchsynt h), an open-source modular synthesizer we release. Additionally, we release two new audio datasets: FM synth timbre (https://zenodo.org/ record/4677102) and subtractive synth pitch (https://zenodo.org/ record/4677097). Using these datasets, we demonstrate new rank-based synthesizer-motivate d evaluation criteria for existing audio representations. Finally, we propose novel approaches to synthesizer hyperparameter optimization, and demonstrate how perceptually-correla ted auditory distances could enable new applications in synthesizer design.
翻訳日:2021-04-28 23:28:25 公開日:2021-04-27
# (参考訳) 低用量CT再構成のための確率的収束学習非接触蛍光アルゴリズム [全文訳有]

Provably Convergent Learned Inexact Descent Algorithm for Low-Dose CT Reconstruction ( http://arxiv.org/abs/2104.12939v1 )

ライセンス: CC BY 4.0
Qingchao Zhang, Mehrdad Alvandipour, Wenjun Xia, Yi Zhang, Xiaojing Ye and Yunmei Chen(参考訳) 本稿では,低線量CT (LDCT) 再構成のための,ELDA (Efficient Learned Descent Algorithm) と呼ばれる能動的収束法を提案する。 ELDAは、学習パラメータを持つ高度に解釈可能なニューラルネットワークアーキテクチャであり、一方、古典的な最適化アルゴリズムとして収束保証を維持している。 再建品質を向上させるため,提案するELDAでは,新しい非局所特徴マッピングと関連する正規化器も採用している。 ELDAとRED-CNNやLearred Primal-Dualといった最先端の深層画像法を比較し,LDCT再構成問題について検討した。 数値実験により, ELDAの再現性は19層で改善され, ELDAの解精度, パラメータ効率が向上することが示唆された。

We propose a provably convergent method, called Efficient Learned Descent Algorithm (ELDA), for low-dose CT (LDCT) reconstruction. ELDA is a highly interpretable neural network architecture with learned parameters and meanwhile retains convergence guarantee as classical optimization algorithms. To improve reconstruction quality, the proposed ELDA also employs a new non-local feature mapping and an associated regularizer. We compare ELDA with several state-of-the-art deep image methods, such as RED-CNN and Learned Primal-Dual, on a set of LDCT reconstruction problems. Numerical experiments demonstrate improvement of reconstruction quality using ELDA with merely 19 layers, suggesting the promising performance of ELDA in solution accuracy and parameter efficiency.
翻訳日:2021-04-28 23:13:28 公開日:2021-04-27
# (参考訳) 睡眠の異なる側面をモニタリングするための非侵襲的手法の検討 [全文訳有]

A Review of the Non-Invasive Techniques for Monitoring Different Aspects of Sleep ( http://arxiv.org/abs/2104.12964v1 )

ライセンス: CC BY 4.0
Zawar Hussain, Quan Z. Sheng, Wei Emma Zhang, Jorge Ortiz, Seyedamin Pouriyeh(参考訳) 健康な生活には質の高い睡眠がとても重要です。 現在、世界中の多くの人々は睡眠不足で生活様式に悪影響を与えている。 睡眠モニタリングのための研究が進められており、睡眠行動を理解するための重要なツールとなっている。 金本位睡眠分析法(gold standard method for sleep analysis)は臨床環境下で行うポリソムノグラフィ(psg)であるが、長期使用には高価かつ複雑である。 センサー分野の進歩と市販のテクノロジーの導入により、家庭内睡眠モニタリングの代替手段として目立たないソリューションが一般的になりつつある。 家庭内睡眠モニタリングに安価で使い易いウェアラブルと非ウェアラブルの両方を用いた様々なソリューションが提案されている。 本稿では,睡眠ステージ分類,睡眠姿勢認識,睡眠障害検出,バイタルサインモニタリングなど,睡眠モニタリングのさまざまなカテゴリで実施されている最新の研究成果(2015,after)について総合的な調査を行う。 非侵襲的アプローチを用いた最新の研究をレビューし、ウェアラブルと非ウェアラブルの両方をカバーした。 本研究は, 睡眠モニタリングの4つのカテゴリにおける最近の展開と動向を概観するために, 10 つの重要な要因に基づく広範囲な分析と設計手法について考察した。 また、睡眠モニタリングのさまざまなカテゴリのデータセットも公開しています。 最後に,いくつかの未解決問題について議論し,睡眠モニタリング分野における今後の研究方向性について述べる。

Quality sleep is very important for a healthy life. Nowadays, many people around the world are not getting enough sleep which is having negative impacts on their lifestyles. Studies are being conducted for sleep monitoring and have now become an important tool for understanding sleep behavior. The gold standard method for sleep analysis is polysomnography (PSG) conducted in a clinical environment but this method is both expensive and complex for long-term use. With the advancements in the field of sensors and the introduction of off-the-shelf technologies, unobtrusive solutions are becoming common as alternatives for in-home sleep monitoring. Various solutions have been proposed using both wearable and non-wearable methods which are cheap and easy to use for in-home sleep monitoring. In this paper, we present a comprehensive survey of the latest research works (2015 and after) conducted in various categories of sleep monitoring including sleep stage classification, sleep posture recognition, sleep disorders detection, and vital signs monitoring. We review the latest works done using the non-invasive approach and cover both wearable and non-wearable methods. We discuss the design approaches and key attributes of the work presented and provide an extensive analysis based on 10 key factors, to give a comprehensive overview of the recent developments and trends in all four categories of sleep monitoring. We also present some publicly available datasets for different categories of sleep monitoring. In the end, we discuss several open issues and provide future research directions in the area of sleep monitoring.
翻訳日:2021-04-28 22:50:21 公開日:2021-04-27
# (参考訳) SE-DAE:教師なしテキストスタイル転送のためのスタイル強化型自動エンコーダ

SE-DAE: Style-Enhanced Denoising Auto-Encoder for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2104.12977v1 )

ライセンス: CC BY 4.0
Jicheng Li, Yang Feng, Jiao Ou(参考訳) テキストスタイル転送は意味を保ちながら文のスタイルを変更することを目的としている。 並列データがないため、DAE(Denoising Auto-Encoder)は様々な文スタイルの分布をモデル化するために広く使われている。 しかし,従来のデノナイズドプロシージャの目標とスタイル伝達タスクの目標との間には矛盾があるため,バニラDAEでは十分な結果が得られなかった。 モデルの転送性を改善するため、既存の作業の多くはDAEと様々な複雑な教師なしネットワークを組み合わせることで、システム全体が複雑になる。 本研究では,テキストスタイル転送タスク用に特別に設計された新しいDAEモデルであるスタイル拡張DAE(SE-DAE)を設計する。 従来の複雑なスタイル転送モデルと比較すると、このモデルは複雑な教師なしネットワークで構成されていないが、新しいデータリファインメントメカニズムによって生成される高品質な擬似並列データのみに依存している。 さらに,従来の分極手順とスタイル伝達タスクの目標との衝突を軽減するため,本手法では,スタイル伝達タスクの目標とより互換性のある,新しいスタイルの分極機構を提案する。 モデルの有効性を2つのスタイルのベンチマークデータセットで検証する。 自動評価と人的評価の両方により,提案モデルが従来のsof(the state of the art, sota)アプローチに比べて高い競争力を持ち,バニラデーを大きく上回っていることが示された。

Text style transfer aims to change the style of sentences while preserving the semantic meanings. Due to the lack of parallel data, the Denoising Auto-Encoder (DAE) is widely used in this task to model distributions of different sentence styles. However, because of the conflict between the target of the conventional denoising procedure and the target of style transfer task, the vanilla DAE can not produce satisfying enough results. To improve the transferability of the model, most of the existing works combine DAE with various complicated unsupervised networks, which makes the whole system become over-complex. In this work, we design a novel DAE model named Style-Enhanced DAE (SE-DAE), which is specifically designed for the text style transfer task. Compared with previous complicated style-transfer models, our model do not consist of any complicated unsupervised networks, but only relies on the high-quality pseudo-parallel data generated by a novel data refinement mechanism. Moreover, to alleviate the conflict between the targets of the conventional denoising procedure and the style transfer task, we propose another novel style denoising mechanism, which is more compatible with the target of the style transfer task. We validate the effectiveness of our model on two style benchmark datasets. Both automatic evaluation and human evaluation show that our proposed model is highly competitive compared with previous strong the state of the art (SOTA) approaches and greatly outperforms the vanilla DAE.
翻訳日:2021-04-28 22:24:29 公開日:2021-04-27
# (参考訳) 情報ボトルネックを用いた構造対応階層型グラフポーリング [全文訳有]

Structure-Aware Hierarchical Graph Pooling using Information Bottleneck ( http://arxiv.org/abs/2104.13012v1 )

ライセンス: CC BY 4.0
Kashob Kumar Roy, Amit Roy, A K M Mahbubur Rahman, M Ashraful Amin and Amin Ahsan Ali(参考訳) グラフプーリングはグラフ分類と回帰タスクにおいてグラフニューラルネットワーク(GNN)の重要な要素である。 これらのタスクに対して、グラフ内のノードの特徴をダウンサンプリングし要約することでグラフレベルの表現を生成するための異なるプーリング戦略が提案されている。 しかし、既存のプーリング手法の多くは、識別可能な構造情報を効果的に捉えることができない。 また、敵対的な攻撃の傾向も強い。 本研究では,入力データの表現を学習するために,モデルの表現性とロバスト性を最適にバランスする情報ボトルネック(IB)の原理を有効活用する,新しいプール法(HIBPool)を提案する。 さらに,グラフ内の局所部分グラフ構造をキャプチャするために,新しい構造認識型識別プーリング({dip-readout})関数を導入する。 最後に,本モデルが複数のグラフ分類ベンチマークにおいて,他の最先端手法を著しく上回っており,既存のプーリング法よりも特徴摂動攻撃に対する弾力性が高いことを示した。

Graph pooling is an essential ingredient of Graph Neural Networks (GNNs) in graph classification and regression tasks. For these tasks, different pooling strategies have been proposed to generate a graph-level representation by downsampling and summarizing nodes' features in a graph. However, most existing pooling methods are unable to capture distinguishable structural information effectively. Besides, they are prone to adversarial attacks. In this work, we propose a novel pooling method named as {HIBPool} where we leverage the Information Bottleneck (IB) principle that optimally balances the expressiveness and robustness of a model to learn representations of input data. Furthermore, we introduce a novel structure-aware Discriminative Pooling Readout ({DiP-Readout}) function to capture the informative local subgraph structures in the graph. Finally, our experimental results show that our model significantly outperforms other state-of-art methods on several graph classification benchmarks and more resilient to feature-perturbation attack than existing pooling methods.
翻訳日:2021-04-28 22:20:24 公開日:2021-04-27
# (参考訳) 相互情報と自己スーパービジョンに基づくバイレベルアグリゲーションを用いたノード埋め込み [全文訳有]

Node Embedding using Mutual Information and Self-Supervision based Bi-level Aggregation ( http://arxiv.org/abs/2104.13014v1 )

ライセンス: CC BY 4.0
Kashob Kumar Roy, Amit Roy, A K M Mahbubur Rahman, M Ashraful Amin and Amin Ahsan Ali(参考訳) グラフニューラルネットワーク(GNN)は、近隣の情報をグラフで集約することで、ノードの低次元表現を学習する。 しかし、伝統的なGNNは、地元(l$-hop neighborhood)のアグリゲーションスキームのために、2つの根本的な欠点に悩まされている。 まず、近隣の全てのノードが対象ノードに関連する情報を持っているわけではない。 gnnは近隣のノイズノードを除外しないので、関連しない情報が集約され、表現の品質が低下する。 第二に、従来のGNNはノード間の長距離非ローカル依存関係をキャプチャできない。 これらの制限に対処するために,1) ノードがコミュニティ内で密結合され,各ノードが近隣ノードと高いMIを共有している場合,2) MI ベースのノードクラスタリングを導入して,同一クラスタ内の情報的かつ図形的に離れたノードを知らせる場合,の2つのタイプを定義するために相互情報(MI)を利用する。 ローカルアグリゲーション - ローカルアグリゲーション - ローカルアグリゲーション - によって生成された埋め込みを組み合わせることで、ノイズ情報や非ローカルアグリゲーションを回避することで、非ローカルアグリゲーションの機能を集約する。 さらに、自己超越学習を利用して、ラベル付きデータが少ないMIを推定する。 最後に,本モデルが多種多様かつ異種なグラフにおいて,最先端の手法を著しく上回っていることを示す。

Graph Neural Networks (GNNs) learn low dimensional representations of nodes by aggregating information from their neighborhood in graphs. However, traditional GNNs suffer from two fundamental shortcomings due to their local ($l$-hop neighborhood) aggregation scheme. First, not all nodes in the neighborhood carry relevant information for the target node. Since GNNs do not exclude noisy nodes in their neighborhood, irrelevant information gets aggregated, which reduces the quality of the representation. Second, traditional GNNs also fail to capture long-range non-local dependencies between nodes. To address these limitations, we exploit mutual information (MI) to define two types of neighborhood, 1) \textit{Local Neighborhood} where nodes are densely connected within a community and each node would share higher MI with its neighbors, and 2) \textit{Non-Local Neighborhood} where MI-based node clustering is introduced to assemble informative but graphically distant nodes in the same cluster. To generate node presentations, we combine the embeddings generated by bi-level aggregation - local aggregation to aggregate features from local neighborhoods to avoid noisy information and non-local aggregation to aggregate features from non-local neighborhoods. Furthermore, we leverage self-supervision learning to estimate MI with few labeled data. Finally, we show that our model significantly outperforms the state-of-the-art methods in a wide range of assortative and disassortative graphs.
翻訳日:2021-04-28 22:04:34 公開日:2021-04-27
# (参考訳) 複雑な自然環境における小型目標運動検出のための注意と予測誘導視覚システム [全文訳有]

An Attention and Prediction Guided Visual System for Small Target Motion Detection in Complex Natural Environments ( http://arxiv.org/abs/2104.13018v1 )

ライセンス: CC BY 4.0
Wang Hongxin, Zhao Jiannan, Wang Huatian, Peng Jigen, Yue Shigang(参考訳) 複雑な自然環境における小さな目標運動検出は、自律ロボットにとって非常に難しい課題である。 驚くべきことに、昆虫の視覚系は、視界に数ピクセルの小さいターゲットであっても、仲間を検出し、獲物を追跡するのに非常に効果的に進化してきた。 小さな標的の動きに対する優れた感度は、stmd(small target motion detectors)と呼ばれる特殊なニューロンに依存している。 しかし、既存のstmdベースのモデルは視覚的なコントラストに大きく依存しており、小さなターゲットが常に隣接する背景と非常に低いコントラストを示す複雑な自然環境では不十分である。 本稿では,この限界を克服するための注意と予測のための視覚システムを提案する。 提案する視覚システムは,主にアテンションモジュール,STMDベースニューラルネットワーク,予測モジュールを含む3つのサブシステムから構成される。 注目モジュールは、入力画像の予測領域における潜在的小さなターゲットを探索し、複雑な背景に対するコントラストを高める。 stmdベースのニューラルネットワークは、コントラスト強調画像を受け取り、背景偽陽性から小さな移動目標を判別する。 予測モジュールは、検出された対象の将来の位置を予測し、注目モジュールの予測マップを生成する。 3つのサブシステムは、連続的に処理された情報を小さなターゲット検出のために特定の領域を活性化するリカレントアーキテクチャで接続される。 合成および実世界のデータセットに対する大規模な実験は、複雑な自然環境に対する小さな低コントラスト移動目標を検出するために提案された視覚システムの有効性と優位性を示す。

Small target motion detection within complex natural environment is an extremely challenging task for autonomous robots. Surprisingly, visual systems of insects have evolved to be highly efficient in detecting mates and tracking prey, even though targets are as small as a few pixels in visual field. The excellent sensitivity to small target motion relies on a class of specialized neurons called small target motion detectors (STMDs). However, existing STMD-based models are heavily dependent on visual contrast and perform poorly in complex natural environment where small targets always exhibit extremely low contrast to neighboring backgrounds. In this paper, we propose an attention and prediction guided visual system to overcome this limitation. The proposed visual system mainly consists of three subsystems, including an attention module, a STMD-based neural network, and a prediction module. The attention module searches for potential small targets in the predicted areas of input image and enhances their contrast to complex background. The STMD-based neural network receives the contrast-enhanced image and discriminates small moving targets from background false positives. The prediction module foresees future positions of the detected targets and generates a prediction map for the attention module. The three subsystems are connected in a recurrent architecture allowing information processed sequentially to activate specific areas for small target detection. Extensive experiments on synthetic and real-world datasets demonstrate the effectiveness and superiority of the proposed visual system for detecting small, low-contrast moving targets against complex natural environment.
翻訳日:2021-04-28 21:51:06 公開日:2021-04-27
# (参考訳) ニューラル・リコメンデーションに関する調査 : 協調フィルタリングからコンテンツ・コンテクスト強化レコメンデーションまで [全文訳有]

A Survey on Neural Recommendation: From Collaborative Filtering to Content and Context Enriched Recommendation ( http://arxiv.org/abs/2104.13030v1 )

ライセンス: CC BY 4.0
Le Wu, Xiangnan He, Xiang Wang, Kun Zhang, Meng Wang(参考訳) コンピュータビジョンと言語理解におけるディープラーニングの驚くべき成功の影響を受け、レコメンデーションの研究はニューラルネットワークに基づいた新しいレコメンデーションモデルの開発にシフトした。 近年,ニューラルネットワークの強力な表現力により,従来のレコメンデータモデルを一般化し,超越したニューラルレコメンデータモデルの開発が著しい進展を見せている。 本稿では,神経リコメンデータモデルに関する体系的レビューを行い,今後の進歩を促進するためにこの分野をまとめる。 深層学習技術の分類に基づく既存手法を分類する既存の調査とは違い,提案手法は,推薦システムに携わる研究者や実践者にとってより指導力のあるレコメンデーションモデリングの観点から,その分野を要約する。 Specifically, we divide the work into three types based on the data they used for recommendation modeling: 1) collaborative filtering models, which leverage the key source of user-item interaction data; 2) content enriched models, which additionally utilize the side information associated with users and items, like user profile and item knowledge graph; and 3) context enriched models, which account for the contextual information associated with an interaction, such as time, location, and the past interactions. 各タイプの代表的成果をレビューした後、最後にこの分野の有望な方向性について論じる。ベンチマークレコメンデーションシステム、グラフ推論に基づくレコメンデーションモデル、社会的利益のための説明可能かつ公正なレコメンデーションなどだ。

Influenced by the stunning success of deep learning in computer vision and language understanding, research in recommendation has shifted to inventing new recommender models based on neural networks. In recent years, we have witnessed significant progress in developing neural recommender models, which generalize and surpass traditional recommender models owing to the strong representation power of neural networks. In this survey paper, we conduct a systematic review on neural recommender models, aiming to summarize the field to facilitate future progress. Distinct from existing surveys that categorize existing methods based on the taxonomy of deep learning techniques, we instead summarize the field from the perspective of recommendation modeling, which could be more instructive to researchers and practitioners working on recommender systems. Specifically, we divide the work into three types based on the data they used for recommendation modeling: 1) collaborative filtering models, which leverage the key source of user-item interaction data; 2) content enriched models, which additionally utilize the side information associated with users and items, like user profile and item knowledge graph; and 3) context enriched models, which account for the contextual information associated with an interaction, such as time, location, and the past interactions. After reviewing representative works for each type, we finally discuss some promising directions in this field, including benchmarking recommender systems, graph reasoning based recommendation models, and explainable and fair recommendations for social good.
翻訳日:2021-04-28 21:22:55 公開日:2021-04-27
# (参考訳) LAST at CMCL 2021 Shared Task: Predicting Gaze Data during Reading with a Gradient Boosting Decision Tree Approach [全文訳有]

LAST at CMCL 2021 Shared Task: Predicting Gaze Data During Reading with a Gradient Boosting Decision Tree Approach ( http://arxiv.org/abs/2104.13043v1 )

ライセンス: CC BY 4.0
Yves Bestgen(参考訳) 2021 CMCLShared Task on Eye-Tracking Data Prediction において,目標単語語彙の特徴と,単語頻度リスト,心理メトリックデータ,およびビッグラム関連度から得られる特徴を取り入れた LightGBM モデルを最適化した。 チームは5つの視線追跡の指標のうちの2つで最高のパフォーマンスを達成し、公式のチャレンジ基準で1位を獲得し、チャレンジに参加するディープラーニングベースのシステムをすべて上回りました。

A LightGBM model fed with target word lexical characteristics and features obtained from word frequency lists, psychometric data and bigram association measures has been optimized for the 2021 CMCL Shared Task on Eye-Tracking Data Prediction. It obtained the best performance of all teams on two of the five eye-tracking measures to predict, allowing it to rank first on the official challenge criterion and to outperform all deep-learning based systems participating in the challenge.
翻訳日:2021-04-28 20:31:29 公開日:2021-04-27
# (参考訳) 点雲解析のためのデュアルトランス [全文訳有]

Dual Transformer for Point Cloud Analysis ( http://arxiv.org/abs/2104.13044v1 )

ライセンス: CC BY 4.0
Xian-Feng Han and Yi-Fei Jin and Hui-Xian Cheng and Guo-Qiang Xiao(参考訳) 本稿では,自然言語処理および画像理解タスクにおけるトランスフォーマーの大幅な成功に続いて,Dual Point Cloud Transformer Network (DTNet) と呼ばれる,Dual Point Cloud Transformer (DPCT) モジュールで構成される新しいポイントクラウド表現学習アーキテクチャを提案する。 具体的には、よく設計されたポイントワイドとチャネルワイドの自己アテンションモデルを同時に集約することにより、DPCTモジュールは位置とチャネルの観点から意味的によりリッチなコンテキスト依存をキャプチャすることができる。 DPCTモジュールを基本コンポーネントとして,ポイントクラウド解析を行うDTNetをエンドツーエンドで構築する。 3Dポイントクラウドの分類とセグメンテーションのタスクにおいて,提案するトランスフォーマーフレームワークの有効性を実証し,最先端のアプローチと比較して高い競争性能を実現した。

Following the tremendous success of transformer in natural language processing and image understanding tasks, in this paper, we present a novel point cloud representation learning architecture, named Dual Transformer Network (DTNet), which mainly consists of Dual Point Cloud Transformer (DPCT) module. Specifically, by aggregating the well-designed point-wise and channel-wise multi-head self-attention models simultaneously, DPCT module can capture much richer contextual dependencies semantically from the perspective of position and channel. With the DPCT module as a fundamental component, we construct the DTNet for performing point cloud analysis in an end-to-end manner. Extensive quantitative and qualitative experiments on publicly available benchmarks demonstrate the effectiveness of our proposed transformer framework for the tasks of 3D point cloud classification and segmentation, achieving highly competitive performance in comparison with the state-of-the-art approaches.
翻訳日:2021-04-28 20:23:03 公開日:2021-04-27
# (参考訳) 教師なしDeep Manifold Attributed Graph Embedding [全文訳有]

Unsupervised Deep Manifold Attributed Graph Embedding ( http://arxiv.org/abs/2104.13048v1 )

ライセンス: CC BY 4.0
Zelin Zang, Siyuan Li, Di Wu, Jianzhu Guo, Yongjie Xu, Stan Z. Li(参考訳) 構造情報と特徴情報の両方を潜在空間で表現する必要があるため、教師なし属性グラフ表現学習は困難である。 既存の手法は再構築タスクを通じて潜在表現を学習することに集中しているが、直接表現を最適化することはできず、過剰に動作しやすいため、下流タスクでのアプリケーションを制限することができる。 これらの問題を緩和するために,Deep Manifold Attributed Graph Embedding (DMAGE) という新しいグラフ埋め込みフレームワークを提案する。 データ空間と潜在空間の間のノード間類似性を計算し、損失関数としてベルグマン発散を用いてそれらの差を最小化するノード間類似性を提案する。 次に,より少ないアグリゲーションを持つ新しいネットワーク構造を設計し,グラフ構造を拡張して表現の安定性を向上させる。 提案するDMAGEは,教師なし可視化,ノードクラスタリング,および4つの一般的なデータセット間のリンク予測という,3つの下流タスクにおいて,最先端の手法をはるかに上回っている。

Unsupervised attributed graph representation learning is challenging since both structural and feature information are required to be represented in the latent space. Existing methods concentrate on learning latent representation via reconstruction tasks, but cannot directly optimize representation and are prone to oversmoothing, thus limiting the applications on downstream tasks. To alleviate these issues, we propose a novel graph embedding framework named Deep Manifold Attributed Graph Embedding (DMAGE). A node-to-node geodesic similarity is proposed to compute the inter-node similarity between the data space and the latent space and then use Bergman divergence as loss function to minimize the difference between them. We then design a new network structure with fewer aggregation to alleviate the oversmoothing problem and incorporate graph structure augmentation to improve the representation's stability. Our proposed DMAGE surpasses state-of-the-art methods by a significant margin on three downstream tasks: unsupervised visualization, node clustering, and link prediction across four popular datasets.
翻訳日:2021-04-28 20:08:07 公開日:2021-04-27
# (参考訳) リッチアクション認識のための3ストリームネットワーク [全文訳有]

Three-stream network for enriched Action Recognition ( http://arxiv.org/abs/2104.13051v1 )

ライセンス: CC BY 4.0
Ivaxi Sheth(参考訳) 人間の行動に関する正確な情報を理解することは、マシンインテリジェンスにおいて最も重要なタスクの1つである。 ビデオから人間の活動を理解することを目的とした人間の活動認識は、背景、カメラの動き、データセットのバリエーションなど様々な問題のために難しい課題である。 本稿では,3つのストリームを持つcnnベースの2つのアーキテクチャを提案する。 3つの経路はフレームレートで区別される。 単一経路は単一フレームレートで動作し、スロー経路は低フレームレートで動作し、高速経路は微妙な時間情報をキャプチャする高フレームレートで動作する。 CNNエンコーダの後,2方向LSTMとアテンションヘッドをそれぞれ追加して,コンテキストと時間的特徴をキャプチャする。 UCF-101, Kinetics-600, AVAデータセット上で様々なアルゴリズムを実験することにより, 提案したモデルが人間の行動認識タスクの最先端性能を達成することを観察する。

Understanding accurate information on human behaviours is one of the most important tasks in machine intelligence. Human Activity Recognition that aims to understand human activities from a video is a challenging task due to various problems including background, camera motion and dataset variations. This paper proposes two CNN based architectures with three streams which allow the model to exploit the dataset under different settings. The three pathways are differentiated in frame rates. The single pathway, operates at a single frame rate captures spatial information, the slow pathway operates at low frame rates captures the spatial information and the fast pathway operates at high frame rates that capture fine temporal information. Post CNN encoders, we add bidirectional LSTM and attention heads respectively to capture the context and temporal features. By experimenting with various algorithms on UCF-101, Kinetics-600 and AVA dataset, we observe that the proposed models achieve state-of-art performance for human action recognition task.
翻訳日:2021-04-28 19:52:50 公開日:2021-04-27
# (参考訳) ポイントクラウド表現のためのクロスレベルクロススケールクロスアテンションネットワーク [全文訳有]

Cross-Level Cross-Scale Cross-Attention Network for Point Cloud Representation ( http://arxiv.org/abs/2104.13053v1 )

ライセンス: CC BY 4.0
Xian-Feng Han and Zhang-Yue He and Jia Chen and Guo-Qiang Xiao(参考訳) 近年,自然言語処理(NLP)と画像処理領域において,自己認識機構が顕著な進歩を遂げている。 そして、その置換不変性は、点クラウド処理に理想的に適合する。 この顕著な成功に触発されて、ポイントクラウド表現学習のためのクロスレベルクロススケールクロスアテンションネットワーク(CLCSCANet)と呼ばれるエンドツーエンドアーキテクチャを提案する。 まず、異なるスケールや解像度から特徴を階層的に抽出するために、ポイントワイズ特徴ピラミッドモジュールを導入する。 次に、クロスレベルなクロスアテンションが、長期の階層間および階層内依存関係をモデル化するように設計される。 最後に,表現の強化のために,相互の相互作用を捕捉するクロススケール・クロスアテンション・モジュールを開発した。 最先端のアプローチと比較して,ネットワークは3次元オブジェクト分類やポイントクラウドセグメンテーションタスクにおいて,総合的な実験的評価によって競合性能を得ることができる。

Self-attention mechanism recently achieves impressive advancement in Natural Language Processing (NLP) and Image Processing domains. And its permutation invariance property makes it ideally suitable for point cloud processing. Inspired by this remarkable success, we propose an end-to-end architecture, dubbed Cross-Level Cross-Scale Cross-Attention Network (CLCSCANet), for point cloud representation learning. First, a point-wise feature pyramid module is introduced to hierarchically extract features from different scales or resolutions. Then a cross-level cross-attention is designed to model long-range inter-level and intra-level dependencies. Finally, we develop a cross-scale cross-attention module to capture interactions between-and-within scales for representation enhancement. Compared with state-of-the-art approaches, our network can obtain competitive performance on challenging 3D object classification, point cloud segmentation tasks via comprehensive experimental evaluation.
翻訳日:2021-04-28 19:44:04 公開日:2021-04-27
# (参考訳) 低リソース音声認識のための無線アーカイブの利用 : 視覚障害者向け知的仮想アシスタントに向けて [全文訳有]

Using Radio Archives for Low-Resource Speech Recognition: Towards an Intelligent Virtual Assistant for Illiterate Users ( http://arxiv.org/abs/2104.13083v1 )

ライセンス: CC BY-SA 4.0
Moussa Doumbouya, Lisa Einstein, Chris Piech(参考訳) 世界中の7億人の障害者にとって、音声認識技術は貴重な情報やサービスへの橋渡しとなるかもしれない。 しかし、この技術に最も必要とされているものは、しばしば最も控えめなものである。 多くの国では、文盲の人々は低リソース言語のみを話す傾向があり、音声技術開発に必要なデータセットは乏しい。 本稿では,低リソース言語においても豊富なノイズの多い無線放送アーカイブにおける教師なし音声表現学習の有効性について検討する。 主な貢献は3つあります。 まず、研究コミュニティに2つのデータセットをリリースします。 最初のWest African Radio Corpusは、ラベル付きバリデーションサブセットを持つ10言語以上で142時間のオーディオを含む。 第2の西アフリカバーチャルアシスタント音声認識コーパスは、4つの言語で10Kのラベル付き音声クリップで構成されている。 次に、ノイズの多い無線コーパスでトレーニングされた音声エンコーダであるWest African wav2vecを、高品質の6倍のデータでトレーニングされたベースラインのFacebook音声エンコーダと比較する。 We show that West African wav2vec performed as the baseline on a multilingual speech recognition task, and significantlyforming the baseline on a West African language Identification task。 最後に、マニンカ語、プラール語、スース語の音声認識モデルを共有する。マニンカ語、プラー語、スース語は、成人人口の大多数が読み書きできない6か国を含む7か国で合計1000万人が話す言語だ。 我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。

For many of the 700 million illiterate people around the world, speech recognition technology could provide a bridge to valuable information and services. Yet, those most in need of this technology are often the most underserved by it. In many countries, illiterate people tend to speak only low-resource languages, for which the datasets necessary for speech technology development are scarce. In this paper, we investigate the effectiveness of unsupervised speech representation learning on noisy radio broadcasting archives, which are abundant even in low-resource languages. We make three core contributions. First, we release two datasets to the research community. The first, West African Radio Corpus, contains 142 hours of audio in more than 10 languages with a labeled validation subset. The second, West African Virtual Assistant Speech Recognition Corpus, consists of 10K labeled audio clips in four languages. Next, we share West African wav2vec, a speech encoder trained on the noisy radio corpus, and compare it with the baseline Facebook speech encoder trained on six times more data of higher quality. We show that West African wav2vec performs similarly to the baseline on a multilingual speech recognition task, and significantly outperforms the baseline on a West African language identification task. Finally, we share the first-ever speech recognition models for Maninka, Pular and Susu, languages spoken by a combined 10 million people in over seven countries, including six where the majority of the adult population is illiterate. Our contributions offer a path forward for ethical AI research to serve the needs of those most disadvantaged by the digital divide.
翻訳日:2021-04-28 19:33:52 公開日:2021-04-27
# (参考訳) NLPおよびグラフ埋め込みを用いたSMPにおけるフェイクユーザ検出 [全文訳有]

Detection of Fake Users in SMPs Using NLP and Graph Embeddings ( http://arxiv.org/abs/2104.13094v1 )

ライセンス: CC BY 4.0
Manojit Chakraborty, Shubham Das, Radhika Mamidi(参考訳) facebook、twitter、instagramなどのソーシャルメディアプラットフォーム(smp)。 世界中に巨大なユーザベースがあり、毎秒大量のデータを生成しています。 これには、フェイクやスパムのユーザーによる投稿が多数含まれており、通常は世界中の多くの組織が他と競合するために使っている。 本研究では,このようなユーザアカウントをTwitter上で検出する手法を提案する。 グラフ表現学習と自然言語処理を組み合わせた手法を用いて,Twitter上でのGenuineアカウントとSpamアカウントの区別方法を示す。

Social Media Platforms (SMPs) like Facebook, Twitter, Instagram etc. have large user base all around the world that generates huge amount of data every second. This includes a lot of posts by fake and spam users, typically used by many organisations around the globe to have competitive edge over others. In this work, we aim at detecting such user accounts in Twitter using a novel approach. We show how to distinguish between Genuine and Spam accounts in Twitter using a combination of Graph Representation Learning and Natural Language Processing techniques.
翻訳日:2021-04-28 19:29:47 公開日:2021-04-27
# (参考訳) Shellcode_IA32: 自動シェルコード生成のためのデータセット [全文訳有]

Shellcode_IA32: A Dataset for Automatic Shellcode Generation ( http://arxiv.org/abs/2104.13100v1 )

ライセンス: CC BY 4.0
Pietro Liguori, Erfan Al-Hossami, Domenico Cotroneo, Roberto Natella, Bojan Cukic and Samira Shaikh(参考訳) 私たちは、シェルコードを自動的に生成するタスク、すなわち、自然言語コメントから始まるソフトウェア脆弱性を悪用するペイロードとして使用される小さなコードに対処する第一歩を踏み出します。 我々は,困難だが一般的なアセンブリ命令と自然言語記述からなる新しいデータセット(Shellcode_IA32)を組み立て,リリースする。 我々は,ニューラルマシン翻訳(nmt)における標準手法を用いて,このタスクのベースライン性能レベルを確立する。

We take the first step to address the task of automatically generating shellcodes, i.e., small pieces of code used as a payload in the exploitation of a software vulnerability, starting from natural language comments. We assemble and release a novel dataset (Shellcode_IA32), consisting of challenging but common assembly instructions with their natural language descriptions. We experiment with standard methods in neural machine translation (NMT) to establish baseline performance levels on this task.
翻訳日:2021-04-28 19:22:47 公開日:2021-04-27
# (参考訳) 多様体学習によるLSTM内部状態の初期化 [全文訳有]

Initializing LSTM internal states via manifold learning ( http://arxiv.org/abs/2104.13101v1 )

ライセンス: CC BY 4.0
Felix P. Kemeth, Tom Bertalan, Nikolaos Evangelou, Tianqi Cui, Saurabh Malani, Ioannis G. Kevrekidis(参考訳) 本稿では,LSTMリカレントニューラルネットワークの内部状態値の初期化のための本質的なデータ多様体を学習し,初期観測データとの整合性を確保するアプローチを提案する。 一般化同期の概念を生かして、収束した「成熟」内部状態は、この学習多様体上の関数であると主張する。 この多様体の次元は、一貫した初期化に必要な観測された入力時系列データの長さを決定する。 我々は,この方法で内部lstm状態を初期化することで,視覚的に性能が向上する部分観察化学モデルシステムを用いて,我々のアプローチを説明する。 最後に、このデータ多様体を学習することで、部分観測されたダイナミクスを完全に観測されたものに変換することができ、非線形力学系に対する代替識別パスが容易になることを示す。

We present an approach, based on learning an intrinsic data manifold, for the initialization of the internal state values of LSTM recurrent neural networks, ensuring consistency with the initial observed input data. Exploiting the generalized synchronization concept, we argue that the converged, "mature" internal states constitute a function on this learned manifold. The dimension of this manifold then dictates the length of observed input time series data required for consistent initialization. We illustrate our approach through a partially observed chemical model system, where initializing the internal LSTM states in this fashion yields visibly improved performance. Finally, we show that learning this data manifold enables the transformation of partially observed dynamics into fully observed ones, facilitating alternative identification paths for nonlinear dynamical systems.
翻訳日:2021-04-28 19:15:50 公開日:2021-04-27
# (参考訳) 人工知能の分水界:人間の知性、機械知性、生物学的知性 [全文訳有]

Watershed of Artificial Intelligence: Human Intelligence, Machine Intelligence, and Biological Intelligence ( http://arxiv.org/abs/2104.13155v1 )

ライセンス: CC BY 4.0
Li Weigang, Liriam Enamoto, Denise Leyi Li, Geraldo Pereira Rocha Filho(参考訳) 本稿は,23年前に提案されたワンショット学習機構と,画像分類におけるワンショット学習の成功,客観的検出におけるYou Only Look Once-YOLOについて述べる。 AIの現在の開発を分析した結果、AIは人工知能(AHI)、人工知能(AMI)、人工知能(ABI)の3つのカテゴリに明確に分類されるべきであると提案された。 1) ai r&dは人間指向、機械指向、生物指向であるべきであり、2) 情報入力は次元アップまたは次元還元によって処理され、3) 1/few以上のサンプルは知識学習に使用される。

This article reviews the Once Learning mechanism that was proposed 23 years ago and the subsequent successes of One-shot Learning in image classification and You Only Look Once-YOLO in objective detection. Analyzing the current development of AI, the proposal is that AI should be clearly divided into the following categories: Artificial Human Intelligence (AHI), Artificial Machine Intelligence (AMI), and Artificial Biological Intelligence (ABI), which will also be the main directions of theory and application development for AI. As a watershed for the branches of AI, some classification standards and methods are discussed: 1) AI R&D should be human-oriented, machine-oriented, and biological-oriented; 2) The information input is processed by Dimensionality-up or dimensionality-reduc tion; and 3) One/Few or large samples are used for knowledge learning.
翻訳日:2021-04-28 18:57:12 公開日:2021-04-27
# (参考訳) UoT-UWF-PartAI at SemEval-2021 Task 5: Self Attention Based Bi-GRU with Multi-Embedding Representation for Toxicity Highlighter [全文訳有]

UoT-UWF-PartAI at SemEval-2021 Task 5: Self Attention Based Bi-GRU with Multi-Embedding Representation for Toxicity Highlighter ( http://arxiv.org/abs/2104.13164v1 )

ライセンス: CC BY-SA 4.0
Hamed Babaei Giglou, Taher Rahgooy, Mostafa Rahgouy and Jafar Razmara(参考訳) Toxic Spans Detection (TSD) タスクはテキストを有害にするスパンのハイライトとして定義される。 特定のコメントや文書を有毒または非有毒と分類するために多くの研究がなされている。 しかし、提案されたモデルはいずれもトークンレベルでは動作しない。 本稿では,トークンの多重埋め込み表現を用いた自己注意型双方向ゲート再帰ユニット(BiGRU)を提案する。 提案モデルでは,GPT-2,GloVe,RoBERTa の埋め込みによる表現を豊かにし,有望な結果を得た。 実験の結果,提案手法はスパントークンの検出に非常に有効であることがわかった。

Toxic Spans Detection(TSD) task is defined as highlighting spans that make a text toxic. Many works have been done to classify a given comment or document as toxic or non-toxic. However, none of those proposed models work at the token level. In this paper, we propose a self-attention-based bidirectional gated recurrent unit(BiGRU) with a multi-embedding representation of the tokens. Our proposed model enriches the representation by a combination of GPT-2, GloVe, and RoBERTa embeddings, which led to promising results. Experimental results show that our proposed approach is very effective in detecting span tokens.
翻訳日:2021-04-28 18:41:42 公開日:2021-04-27
# (参考訳) scRNA-seqデータ解析のためのL20-Normを用いた構造的スパース非負行列分解 [全文訳有]

Structured Sparse Non-negative Matrix Factorization with L20-Norm for scRNA-seq Data Analysis ( http://arxiv.org/abs/2104.13171v1 )

ライセンス: CC BY 4.0
Wenwen Min, Taosheng Xu, Xiang Wan and Tsung-Hui Chang(参考訳) 非負行列分解(NMF)は次元減少とクラスタリングのための強力なツールである。 残念ながら、NMFによるクラスタリング結果の解釈は、特に効果的な特徴選択のない高次元の生物学的データでは困難である。 本稿では、まず、$\ell_{2,0}$-norm制約(NMF_$\ell_{20}$)を持つ行スパースNMFを紹介し、基底行列$W$は、$\ell_{2,0}$-normによって制約されるので、$W$は特徴選択を伴う行スパース性パターンを持つ。 このモデルを解くのは困難であり、$\ell_{2,0}$-norm は非凸かつ非スムースである。 幸いにも、$\ell_{2,0}$-norm は kurdyka-\l{ojasiewicz} の特性を満たすことが証明される。 そこで本研究では,NMF_$\ell_{20}$モデルを解くために,近似交互線形化最小化アルゴリズムとその単調加速バージョンを提案する。 さらに,非負の直交制約を用いてクラスタリング性能を向上させるために,$\ell_{2,0}$-norm制約付き直交NMF(ONMF_$\ell_{20}$)を提案する。 我々は,onmf_$\ell_{20}$を一連の制約付き行列分解問題に変換して解く効率的なアルゴリズムを提案する。 数値およびscRNA-seqデータセットを用いて,既存の手法と比較して,本手法の有効性を示す。

Non-negative matrix factorization (NMF) is a powerful tool for dimensionality reduction and clustering. Unfortunately, the interpretation of the clustering results from NMF is difficult, especially for the high-dimensional biological data without effective feature selection. In this paper, we first introduce a row-sparse NMF with $\ell_{2,0}$-norm constraint (NMF_$\ell_{20}$), where the basis matrix $W$ is constrained by the $\ell_{2,0}$-norm, such that $W$ has a row-sparsity pattern with feature selection. It is a challenge to solve the model, because the $\ell_{2,0}$-norm is non-convex and non-smooth. Fortunately, we prove that the $\ell_{2,0}$-norm satisfies the Kurdyka-\L{ojasiewicz} property. Based on the finding, we present a proximal alternating linearized minimization algorithm and its monotone accelerated version to solve the NMF_$\ell_{20}$ model. In addition, we also present a orthogonal NMF with $\ell_{2,0}$-norm constraint (ONMF_$\ell_{20}$) to enhance the clustering performance by using a non-negative orthogonal constraint. We propose an efficient algorithm to solve ONMF_$\ell_{20}$ by transforming it into a series of constrained and penalized matrix factorization problems. The results on numerical and scRNA-seq datasets demonstrate the efficiency of our methods in comparison with existing methods.
翻訳日:2021-04-28 18:36:50 公開日:2021-04-27
# (参考訳) BiSeNetをリアルタイムセマンティックセグメンテーションに再考 [全文訳有]

Rethinking BiSeNet For Real-time Semantic Segmentation ( http://arxiv.org/abs/2104.13188v1 )

ライセンス: CC BY 4.0
Mingyuan Fan, Shenqi Lai, Junshi Huang, Xiaoming Wei, Zhenhua Chai, Junfeng Luo, Xiaolin Wei(参考訳) BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。 しかし、空間情報をエンコードするための余分なパスを追加するという原則は時間がかかり、事前訓練されたタスク、例えば画像分類から借用されたバックボーンは、タスク固有の設計の欠如のために画像分割に非効率である可能性がある。 これらの問題に対処するため,構造冗長性を取り除き,短時間Dense Concatenate Network (STDC Network) を新たに提案する。 具体的には,機能マップの次元を徐々に削減し,stdcネットワークの基本モジュールを構成する画像表現にそれらの集合を用いる。 このデコーダでは,空間情報の学習を低レベル層に単一ストリームで統合することで,Detail Aggregationモジュールを提案する。 最後に、最終セグメンテーション結果を予測するために、低レベルの特徴と深い特徴が融合される。 都市景観とcamvidデータセットに関する広範囲な実験により,セグメンテーション精度と推定速度のトレードオフを実現することにより,提案手法の有効性を実証した。 Cityscapesでは、最新の手法よりも45.2%高速なNVIDIA GTX 1080Tiで250.4 FPSの速度でテストセットで71.9% mIoUを獲得し、高解像度画像を推測しながら97.0 FPSで76.8% mIoUを達成した。

BiSeNet has been proved to be a popular two-stream network for real-time segmentation. However, its principle of adding an extra path to encode spatial information is time-consuming, and the backbones borrowed from pretrained tasks, e.g., image classification, may be inefficient for image segmentation due to the deficiency of task-specific design. To handle these problems, we propose a novel and efficient structure named Short-Term Dense Concatenate network (STDC network) by removing structure redundancy. Specifically, we gradually reduce the dimension of feature maps and use the aggregation of them for image representation, which forms the basic module of STDC network. In the decoder, we propose a Detail Aggregation module by integrating the learning of spatial information into low-level layers in single-stream manner. Finally, the low-level features and deep features are fused to predict the final segmentation results. Extensive experiments on Cityscapes and CamVid dataset demonstrate the effectiveness of our method by achieving promising trade-off between segmentation accuracy and inference speed. On Cityscapes, we achieve 71.9% mIoU on the test set with a speed of 250.4 FPS on NVIDIA GTX 1080Ti, which is 45.2% faster than the latest methods, and achieve 76.8% mIoU with 97.0 FPS while inferring on higher resolution images.
翻訳日:2021-04-28 17:41:22 公開日:2021-04-27
# (参考訳) LasHeR: RGBT追跡のための大規模高多様性ベンチマーク [全文訳有]

LasHeR: A Large-scale High-diversity Benchmark for RGBT Tracking ( http://arxiv.org/abs/2104.13202v1 )

ライセンス: CC BY 4.0
Chenglong Li, Wanlin Xue, Yaqing Jia, Zhichen Qu, Bin Luo, and Jin Tang(参考訳) RGBTトラッキングはコンピュータビジョンコミュニティに注目が集まっているが、この研究分野には大規模かつ高多様性のベンチマークデータセットが欠落しており、深部RGBTトラッカーのトレーニングとRGBTトラッカーの包括的な評価の両方に不可欠である。 そこで本研究では,RGBT追跡のための大規模高多様性ベンチマーク(LasHeR)を提案する。 LasHeRは1224枚の可視・熱赤外ビデオ対と合計730Kフレーム対で構成されている。 各フレームペアは空間的にアライメントされ、バウンディングボックスで手動でアノテートされるため、データセットは良好かつ密にアノテートされる。 LasHeRは、季節、天気、昼夜を問わず、幅広い対象カテゴリー、カメラ視点、シーンの複雑さ、環境要因から非常に多様である。 本稿では、LasHeRデータセット上で12RGBT追跡アルゴリズムの総合的な性能評価を行い、RGBT追跡実験室の詳細な解析を行った。 さらに,実世界のアプリケーションにおいてより実用的なタスクであるアライメントフリーなrgbtトラッキングに対する研究関心を引き付けるために,lasherの非アライメント版をリリースする。 データセットと評価プロトコルは以下の通りである。

RGBT tracking receives a surge of interest in the computer vision community, but this research field lacks a large-scale and high-diversity benchmark dataset, which is essential for both the training of deep RGBT trackers and the comprehensive evaluation of RGBT tracking methods. To this end, we present a Large-scale High-diversity benchmark for RGBT tracking (LasHeR) in this work. LasHeR consists of 1224 visible and thermal infrared video pairs with more than 730K frame pairs in total. Each frame pair is spatially aligned and manually annotated with a bounding box, making the dataset well and densely annotated. LasHeR is highly diverse capturing from a broad range of object categories, camera viewpoints, scene complexities and environmental factors across seasons, weathers, day and night. We conduct a comprehensive performance evaluation of 12 RGBT tracking algorithms on the LasHeR dataset and present detailed analysis to clarify the research room in RGBT tracking. In addition, we release the unaligned version of LasHeR to attract the research interest for alignment-free RGBT tracking, which is a more practical task in real-world applications. The datasets and evaluation protocols are available at: https://github.com/B UGPLEASEOUT/LasHeR.
翻訳日:2021-04-28 17:26:47 公開日:2021-04-27
# (参考訳) 音声言語の視覚的接地モデル:データセット、アーキテクチャ、評価技術に関する調査 [全文訳有]

Visually grounded models of spoken language: A survey of datasets, architectures and evaluation techniques ( http://arxiv.org/abs/2104.13225v1 )

ライセンス: CC BY 4.0
Grzegorz Chrupa{\l}a(参考訳) この調査は、過去20年間の音声言語の視覚的接地モデルの進化の概要を提供する。 このようなモデルは、子供が言語を拾うとき、様々な間接的および騒がしい手がかりに依存しており、音声発話と共起する視覚モダリティからの信号を含んでいるという観察から着想を得ている。 機械学習、自然言語および音声処理、コンピュータビジョン、認知科学といった学習言語のプロセスをモデル化または模倣するこのアプローチに、いくつかの分野が重要な貢献をしている。 本稿では,これらすべての分野の実践者に対して有用な紹介と概要を提供するため,これらの貢献をまとめる。 我々は、この研究の多くを可能にした中心的な研究課題、開発スケジュール、データセットについて論じる。 次に、主要なモデリングアーキテクチャを要約し、評価メトリクスと分析テクニックを徹底的に概観する。

This survey provides an overview of the evolution of visually grounded models of spoken language over the last 20 years. Such models are inspired by the observation that when children pick up a language, they rely on a wide range of indirect and noisy clues, crucially including signals from the visual modality co-occurring with spoken utterances. Several fields have made important contributions to this approach to modeling or mimicking the process of learning language: Machine Learning, Natural Language and Speech Processing, Computer Vision and Cognitive Science. The current paper brings together these contributions in order to provide a useful introduction and overview for practitioners in all these areas. We discuss the central research questions addressed, the timeline of developments, and the datasets which enabled much of this work. We then summarize the main modeling architectures and offer an exhaustive overview of the evaluation metrics and analysis techniques.
翻訳日:2021-04-28 17:07:13 公開日:2021-04-27
# (参考訳) Bayesian Optimization(拡張バージョン)を用いたLLVM Clang/Polly Loop Optimization PragmasによるPolyBenchベンチマークの自動チューニング [全文訳有]

Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization (extended version) ( http://arxiv.org/abs/2104.13242v1 )

ライセンス: CC BY 4.0
Xingfu Wu, Michael Kruse, Prasanna Balaprakash, Hal Finkel, Paul Hovland, Valerie Taylor, and Mary Hall(参考訳) 本稿では,ベイズ最適化を利用してパラメータ空間探索を行い,ベイズ最適化における4つの異なる教師付き学習手法を比較し,その有効性を評価する。 我々は最も複雑なPolyBenchベンチマークを6つ選択し、新たに開発されたLLVM Clang/Pollyループ最適化プラグマをベンチマークに適用して最適化する。 次に、自動チューニングフレームワークを使用して、pragmaパラメータを最適化し、パフォーマンスを向上させます。 実験の結果,我々の自動チューニング手法は,最大170,368の異なるパラメータ空間を効率的に探索するための200のコード評価において,2つの大きなデータセットに対して,ベンチマーク syr2k, 3mm, Heat-3d, lu, covariance の最小実行時間を提供するために,他のコンパイル手法よりも優れていた。 Floyd-Warshallベンチマークは、Pollyがヒューリスティックスを使用してベンチマークを最適化し、実行をはるかに遅くするため、自動チューニングの恩恵を受けなかったことが分かりました。 この問題に対処するため、パフォーマンスを改善するためのコンパイラオプションソリューションをいくつか提供します。 次に,Floyd-Warshallベンチマークの性能向上のために,単純なmctreeオートチューニングフレームワークを用いて,ユーザの知識なしにループ自動チューニングを行う。 また、ytopt自動チューニングフレームワークを拡張して、ディープラーニングアプリケーションをチューニングします。

In this paper, we develop a ytopt autotuning framework that leverages Bayesian optimization to explore the parameter space search and compare four different supervised learning methods within Bayesian optimization and evaluate their effectiveness. We select six of the most complex PolyBench benchmarks and apply the newly developed LLVM Clang/Polly loop optimization pragmas to the benchmarks to optimize them. We then use the autotuning framework to optimize the pragma parameters to improve their performance. The experimental results show that our autotuning approach outperforms the other compiling methods to provide the smallest execution time for the benchmarks syr2k, 3mm, heat-3d, lu, and covariance with two large datasets in 200 code evaluations for effectively searching the parameter spaces with up to 170,368 different configurations. We find that the Floyd-Warshall benchmark did not benefit from autotuning because Polly uses heuristics to optimize the benchmark to make it run much slower. To cope with this issue, we provide some compiler option solutions to improve the performance. Then we present loop autotuning without a user's knowledge using a simple mctree autotuning framework to further improve the performance of the Floyd-Warshall benchmark. We also extend the ytopt autotuning framework to tune a deep learning application.
翻訳日:2021-04-28 16:41:23 公開日:2021-04-27
# (参考訳) 時系列の早期分類は意味深い [全文訳有]

Early Classification of Time Series is Meaningful ( http://arxiv.org/abs/2104.13257v1 )

ライセンス: CC BY 4.0
Youssef Achenchabe, Alexis Bondu, Antoine Cornu\'ejols, Vincent Lemaire(参考訳) 医療、交通、金融など幅広い分野の応用において、時系列の早期分類が重要であることから、多くのアプローチが提案されている。 しかし、最近arxivで保存されたプレプリントでは、時系列の初期の分類で20年近く行われたすべての研究は役に立たない、あるいは少なくとも強大な基盤を欠いたために不向きであると主張している。 本稿では,プレプリントの著者が提起した主な問題と誤解を詳細に解き,時系列の早期分類の適用分野をさらに拡大する方向を提案する。

Many approaches have been proposed for early classification of time series in light of its significance in a wide range of applications including healthcare, transportation and finance. However, recently a preprint saved on Arxiv claim that all research done for almost 20 years now on the Early Classification of Time Series is useless, or, at the very least, ill-oriented because severely lacking a strong ground. In this paper, we answer in detail the main issues and misunderstandings raised by the authors of the preprint, and propose directions to further expand the fields of application of early classification of time series.
翻訳日:2021-04-28 16:18:57 公開日:2021-04-27
# (参考訳) ニューラルネットワークにおけるクロスエントロピー最適化のためのデュアルプロセスモデル [全文訳有]

A Dual Process Model for Optimizing Cross Entropy in Neural Networks ( http://arxiv.org/abs/2104.13277v1 )

ライセンス: CC BY 4.0
Stefan Jaeger(参考訳) クロスエントロピーの最小化は、ニューラルネットワークのトレーニングに広く用いられている方法である。 バックプロパゲーションに基づく多くのトレーニング手順では、クロスエントロピーを直接損失関数として使用する。 その代わり、この理論エッセイは、2つの過程を持つ双対過程モデルを調査し、1つの過程がクルバック・ライバーの発散を最小化し、その双対過程がシャノンのエントロピーを最小化する。 学習が互いに補完する2つの双対過程からなると仮定すると、モデルは損失関数が最小となる両方の過程の平衡状態を定義する。 提案モデルの利点は、最適学習率と運動量重みを導出して、バックプロパゲーションのためのネットワーク重みを更新できることである。 さらに、モデルは機械学習において重要な新しい概念として黄金比と複素数を導入する。

Minimizing cross-entropy is a widely used method for training artificial neural networks. Many training procedures based on backpropagation use cross-entropy directly as their loss function. Instead, this theoretical essay investigates a dual process model with two processes, in which one process minimizes the Kullback-Leibler divergence while its dual counterpart minimizes the Shannon entropy. Postulating that learning consists of two dual processes complementing each other, the model defines an equilibrium state for both processes in which the loss function assumes its minimum. An advantage of the proposed model is that it allows deriving the optimal learning rate and momentum weight to update network weights for backpropagation. Furthermore, the model introduces the golden ratio and complex numbers as important new concepts in machine learning.
翻訳日:2021-04-28 16:10:59 公開日:2021-04-27
# (参考訳) K-Meansによるビッグデータの異常検出のための孤立林の拡張 [全文訳有]

Extending Isolation Forest for Anomaly Detection in Big Data via K-Means ( http://arxiv.org/abs/2104.13190v1 )

ライセンス: CC BY 4.0
Md Tahmid Rahman Laskar, Jimmy Huang, Vladan Smetana, Chris Stewart, Kees Pouw, Aijun An, Stephen Chan, Lei Liu(参考訳) 産業情報技術(IT)のインフラは、しばしばサイバー攻撃に弱い。 産業環境におけるコンピュータシステムのセキュリティを確保するためには、悪意ある活動のために業界内のサイバー物理システム(例えばコンピュータネットワーク)を監視する効果的な侵入検知システムを構築する必要がある。 本稿では,サイバー攻撃からコンピュータネットワークを保護する侵入検知システムを構築することを目的とする。 具体的には,k-meansアルゴリズムとアイソレーションフォレストを組み合わせた,産業ビッグデータシナリオにおける異常検出のための教師なし機械学習手法を提案する。 我々は産業領域におけるビッグデータシナリオの侵入検知システムを構築することを目的としており、Apache Sparkフレームワークを使用してElasticsearchに格納された大規模ネットワークトラフィックデータ(約123万インスタンスのネットワークトラフィック)でトレーニングされたモデルを実装する。 さらに,本提案手法をライブストリーミングデータ上で評価し,産業設備におけるリアルタイム異常検出に活用できることを見出した。 さらに、大規模なデータセットでモデルをトレーニングしながら直面するさまざまな課題にも対処し、これらの問題がどのように解決されたかを明確に説明します。 実世界のネットワークトラフィックデータにおける異常検出のための様々なユースケースにおける経験的評価に基づいて,提案システムはビッグデータシナリオにおける異常検出に有効であることを示す。 最後に、提案したモデルをいくつかの学術データセットで評価し、他のモデルと比較し、他の最先端のアプローチと同等のパフォーマンスを提供することを示した。

Industrial Information Technology (IT) infrastructures are often vulnerable to cyberattacks. To ensure security to the computer systems in an industrial environment, it is required to build effective intrusion detection systems to monitor the cyber-physical systems (e.g., computer networks) in the industry for malicious activities. This paper aims to build such intrusion detection systems to protect the computer networks from cyberattacks. More specifically, we propose a novel unsupervised machine learning approach that combines the K-Means algorithm with the Isolation Forest for anomaly detection in industrial big data scenarios. Since our objective is to build the intrusion detection system for the big data scenario in the industrial domain, we utilize the Apache Spark framework to implement our proposed model which was trained in large network traffic data (about 123 million instances of network traffic) stored in Elasticsearch. Moreover, we evaluate our proposed model on the live streaming data and find that our proposed system can be used for real-time anomaly detection in the industrial setup. In addition, we address different challenges that we face while training our model on large datasets and explicitly describe how these issues were resolved. Based on our empirical evaluation in different use-cases for anomaly detection in real-world network traffic data, we observe that our proposed system is effective to detect anomalies in big data scenarios. Finally, we evaluate our proposed model on several academic datasets to compare with other models and find that it provides comparable performance with other state-of-the-art approaches.
翻訳日:2021-04-28 16:00:35 公開日:2021-04-27
# (参考訳) コンボリューション・ネットワークは完全接続の宝くじに勝っているのか? [全文訳有]

Sifting out the features by pruning: Are convolutional networks the winning lottery ticket of fully connected ones? ( http://arxiv.org/abs/2104.13343v1 )

ライセンス: CC BY 4.0
Franco Pellegrini, Giulio Biroli(参考訳) プルーニング手法は、性能を損なうことなく、ニューラルネットワークのサイズを大幅に削減することができる。 場合によっては、隔離訓練されたサブネットワークが、密集したネットワークのテスト精度と一致したり、超えたりすることができる。 本稿では,このような宝くじに印字される帰納バイアスについて考察する。 視覚的タスクに着目し,単純な完全連結ネットワーク(FCN)の反復的等級プルーニングによるアーキテクチャ解析を行う。 残余ノード接続は入力空間において局所的であり、畳み込みネットワーク(CNN)に類似したパターンで構成されていることを示す。 刈り取られたサブネットワークを形成する上でのデータやタスクが果たす役割について検討する。 その結果,fcnsの当選抽選券にはcnnの重要な特徴が示されている。 cnnの設計において重要な機能を"手作り"に復元する、このようなネットワーク単純化手法は、新しい効率的なアーキテクチャインダクティブバイアスを発見するために、他のデータセットやタスクに興味深い応用を示唆している。

Pruning methods can considerably reduce the size of artificial neural networks without harming their performance. In some cases, they can even uncover sub-networks that, when trained in isolation, match or surpass the test accuracy of their dense counterparts. Here we study the inductive bias that pruning imprints in such "winning lottery tickets". Focusing on visual tasks, we analyze the architecture resulting from iterative magnitude pruning of a simple fully connected network (FCN). We show that the surviving node connectivity is local in input space, and organized in patterns reminiscent of the ones found in convolutional networks (CNN). We investigate the role played by data and tasks in shaping the pruned sub-networks. Our results show that the winning lottery tickets of FCNs display the key features of CNNs. The ability of such automatic network-simplifying procedure to recover the key features "hand-crafted" in the design of CNNs suggests interesting applications to other datasets and tasks, in order to discover new and efficient architectural inductive biases.
翻訳日:2021-04-28 15:35:39 公開日:2021-04-27
# (参考訳) frankによる抽象要約における事実性理解--事実性指標のベンチマーク [全文訳有]

Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics ( http://arxiv.org/abs/2104.13346v1 )

ライセンス: CC BY 4.0
Artidoro Pagnoni, Vidhisha Balachandran, Yulia Tsvetkov(参考訳) 現代の要約モデルは、非常に流動的であるが、実際は信頼できない出力を生成する。 これにより、自動生成された要約の事実を測ろうとするメトリクスが急増した。 一般的なベンチマークがないため、これらのメトリクスを比較することはできない。 さらに、これらの手法はすべて事実を二元概念として扱い、異なるシステムによってなされる矛盾の種類について深い洞察を与えない。 これらの制約に対処するため,CNN/DMデータセットとXSumデータセットの要約システムから,実ミスのタイプを考案し,生成した要約の人間のアノテーションを収集する。 これらのアノテーションを用いて、様々な要約モデルとベンチマーク事実性指標の異なるカテゴリーの事実誤りの比率を同定し、人間の判断とそれらの特定の強みと弱みとの相関を示す。

Modern summarization models generate highly fluent but often factually unreliable outputs. This motivated a surge of metrics attempting to measure the factuality of automatically generated summaries. Due to the lack of common benchmarks, these metrics cannot be compared. Moreover, all these methods treat factuality as a binary concept and fail to provide deeper insights into the kinds of inconsistencies made by different systems. To address these limitations, we devise a typology of factual errors and use it to collect human annotations of generated summaries from state-of-the-art summarization systems for the CNN/DM and XSum datasets. Through these annotations, we identify the proportion of different categories of factual errors in various summarization models and benchmark factuality metrics, showing their correlation with human judgment as well as their specific strengths and weaknesses.
翻訳日:2021-04-28 15:15:15 公開日:2021-04-27
# (参考訳) GANインバージョンによる非教師なし3次元形状補完 [全文訳有]

Unsupervised 3D Shape Completion through GAN Inversion ( http://arxiv.org/abs/2104.13366v1 )

ライセンス: CC BY 4.0
Junzhe Zhang, Xinyi Chen, Zhongang Cai, Liang Pan, Haiyu Zhao, Shuai Yi, Chai Kiat Yeo, Bo Dai, Chen Change Loy(参考訳) 殆どの3次元形状完備化アプローチは部分完全形状対に大きく依存し、完全に教師された方法で学習する。 ドメイン内のデータに対する印象的なパフォーマンスにもかかわらず、他の形式の部分的な形状や実世界の部分的なスキャンに一般化すると、ドメインギャップによる不満足な結果がしばしば得られる。 本稿では, 従来の完全教師付きアプローチとは対照的に, 初めて形状完全化のための生成的逆ネットワーク (gan) を導入した shapeinversion を提案する。 ShapeInversionは、与えられた部分入力を最もよく再構成する完全な形状を与える潜在コードを探すことによって、完全な形状で事前訓練されたGANを使用する。 このように、shapeinversionはペアトレーニングデータを必要としないようになり、十分に訓練された生成モデルでキャプチャされたリッチな事前データを取り込むことができる。 shapenetベンチマークでは、shapeinversion は sota unsupervised メソッドよりも優れており、ペアデータを用いて学習される教師ありメソッドに匹敵する。 また、実世界のスキャンや様々な形の部分的な入力や不完全性レベルに対して頑健な結果を与える。 重要なことに、ShapeInversionは、不明瞭な部分入力のための複数の有効な完全形状を生成することや、形状操作や補間など、事前訓練されたGANの関与により、一連の追加機能を自然に実現している。

Most 3D shape completion approaches rely heavily on partial-complete shape pairs and learn in a fully supervised manner. Despite their impressive performances on in-domain data, when generalizing to partial shapes in other forms or real-world partial scans, they often obtain unsatisfactory results due to domain gaps. In contrast to previous fully supervised approaches, in this paper we present ShapeInversion, which introduces Generative Adversarial Network (GAN) inversion to shape completion for the first time. ShapeInversion uses a GAN pre-trained on complete shapes by searching for a latent code that gives a complete shape that best reconstructs the given partial input. In this way, ShapeInversion no longer needs paired training data, and is capable of incorporating the rich prior captured in a well-trained generative model. On the ShapeNet benchmark, the proposed ShapeInversion outperforms the SOTA unsupervised method, and is comparable with supervised methods that are learned using paired data. It also demonstrates remarkable generalization ability, giving robust results for real-world scans and partial inputs of various forms and incompleteness levels. Importantly, ShapeInversion naturally enables a series of additional abilities thanks to the involvement of a pre-trained GAN, such as producing multiple valid complete shapes for an ambiguous partial input, as well as shape manipulation and interpolation.
翻訳日:2021-04-28 14:56:54 公開日:2021-04-27
# (参考訳) BasicVSR++: プロパゲーションとアライメントを強化したビデオ超解法の改善 [全文訳有]

BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment ( http://arxiv.org/abs/2104.13371v1 )

ライセンス: CC BY 4.0
Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy(参考訳) リカレント構造は、ビデオスーパーレゾリューションのタスクで一般的なフレームワーク選択である。 最先端の手法であるBasicVSRは、特徴アライメントを備えた双方向伝搬を採用し、入力ビデオ全体の情報を有効に活用する。 本研究では,2次格子伝播と流れ誘導変形性アライメントを提案することにより,ベーシックVSRを再設計する。 伝播とアライメントの強化により,再帰的枠組みの強化により,映像フレーム間の空間的情報をより効果的に活用できることを示す。 新しいコンポーネントは、同様の計算制約の下でパフォーマンスが向上する。 特に、我々のモデルであるBasicVSR++は、PSNRのパラメータ数に類似したベーシックVSRを0.82dB超える。 ビデオスーパーレゾリューションに加えて、BasicVSR++は圧縮されたビデオエンハンスメントのような他のビデオ復元タスクとよく似ている。 NTIRE 2021では、ベーシックVSR++が3つのチャンピオンを獲得し、ビデオスーパーリゾリューションと圧縮ビデオエンハンスメントチャレンジで1位を獲得した。 コードとモデルはMMEditingにリリースされる。

A recurrent structure is a popular framework choice for the task of video super-resolution. The state-of-the-art method BasicVSR adopts bidirectional propagation with feature alignment to effectively exploit information from the entire input video. In this study, we redesign BasicVSR by proposing second-order grid propagation and flow-guided deformable alignment. We show that by empowering the recurrent framework with the enhanced propagation and alignment, one can exploit spatiotemporal information across misaligned video frames more effectively. The new components lead to an improved performance under a similar computational constraint. In particular, our model BasicVSR++ surpasses BasicVSR by 0.82 dB in PSNR with similar number of parameters. In addition to video super-resolution, BasicVSR++ generalizes well to other video restoration tasks such as compressed video enhancement. In NTIRE 2021, BasicVSR++ obtains three champions and one runner-up in the Video Super-Resolution and Compressed Video Enhancement Challenges. Codes and models will be released to MMEditing.
翻訳日:2021-04-28 14:35:40 公開日:2021-04-27
# 予測区間構築のための深層学習の不確かさの探索

Exploring Uncertainty in Deep Learning for Construction of Prediction Intervals ( http://arxiv.org/abs/2104.12953v1 )

ライセンス: Link先を確認
Yuandu Lai, Yucheng Shi, Yahong Han, Yunfeng Shao, Meiyu Qi, Bingshuai Li(参考訳) ディープラーニングは近年、多くのタスクで素晴らしいパフォーマンスを達成しています。 しかし、深いニューラルネットワークがポイント推定のみを提供するのに十分ではないことが判明した。 高リスクタスクには,モデル予測の信頼性を評価する必要がある。 これにより、モデル予測の不確実性を定量化し、予測間隔を構築する必要がある。 本稿では,深層学習における不確実性を調べ,予測区間を構成する。 一般に,不確実性の2つのカテゴリを包括的に検討する。 不確実性ラベルなしで不確実性を学習できる特殊損失関数を設計した。 回帰タスクの学習を監督するだけです。 我々は損失関数を暗黙的に学習する。 そして、その疫学的不確実性はアンサンブル形式で説明される。 本手法は予測間隔の構成と不確実性推定とを関連付ける。 いくつかの公開データセットにおける印象的な結果から,本手法の性能は他の最先端手法と競合することを示す。

Deep learning has achieved impressive performance on many tasks in recent years. However, it has been found that it is still not enough for deep neural networks to provide only point estimates. For high-risk tasks, we need to assess the reliability of the model predictions. This requires us to quantify the uncertainty of model prediction and construct prediction intervals. In this paper, We explore the uncertainty in deep learning to construct the prediction intervals. In general, We comprehensively consider two categories of uncertainties: aleatory uncertainty and epistemic uncertainty. We design a special loss function, which enables us to learn uncertainty without uncertainty label. We only need to supervise the learning of regression task. We learn the aleatory uncertainty implicitly from the loss function. And that epistemic uncertainty is accounted for in ensembled form. Our method correlates the construction of prediction intervals with the uncertainty estimation. Impressive results on some publicly available datasets show that the performance of our method is competitive with other state-of-the-art methods.
翻訳日:2021-04-28 13:39:24 公開日:2021-04-27
# スタイルの説明: StyleSpaceで分類器を説明するためにGANを訓練する

Explaining in Style: Training a GAN to explain a classifier in StyleSpace ( http://arxiv.org/abs/2104.13369v1 )

ライセンス: Link先を確認
Oran Lang, Yossi Gandelsman, Michal Yarom, Yoav Wald, Gal Elidan, Avinatan Hassidim, William T. Freeman, Phillip Isola, Amir Globerson, Michal Irani, Inbar Mosseri(参考訳) 画像分類モデルは、画像の複数の異なる意味属性に依存することができる。 分類器の決定を説明するには、これらの特性を発見して視覚化する必要がある。 本稿では、生成モデルを訓練し、分類器の決定を下す複数の属性を具体的に説明する方法であるStylExを紹介する。 このような属性の自然な源はstyleganのスタイルスペースであり、イメージに意味的に意味のある次元を生成することが知られている。 しかし、標準のGANトレーニングは分類器に依存しないため、分類器の決定に重要なこれらの属性を表現せず、StyleSpaceの次元は無関係な属性を表現できる。 そこで本研究では,分類器固有のStyleSpaceを学習するために,分類器モデルを組み込んだStyleGANのトレーニング手順を提案する。 説明属性は、この空間から選択される。 これらは、画像ごとに複数の属性を変更する効果を可視化するために使用することができ、画像固有の説明を提供する。 我々はStylExを動物、葉、顔、網膜画像を含む複数の領域に適用する。 これらのことから,分類器の出力を変更するために,異なる方法で画像を変更する方法を示す。 提案手法は, 意味的特徴とよく一致し, 意味のある画像固有の説明が生成され, ユーザ・スタディで測定された人間の解釈が可能であることを示す。

Image classification models can depend on multiple different semantic attributes of the image. An explanation of the decision of the classifier needs to both discover and visualize these properties. Here we present StylEx, a method for doing this, by training a generative model to specifically explain multiple attributes that underlie classifier decisions. A natural source for such attributes is the StyleSpace of StyleGAN, which is known to generate semantically meaningful dimensions in the image. However, because standard GAN training is not dependent on the classifier, it may not represent these attributes which are important for the classifier decision, and the dimensions of StyleSpace may represent irrelevant attributes. To overcome this, we propose a training procedure for a StyleGAN, which incorporates the classifier model, in order to learn a classifier-specific StyleSpace. Explanatory attributes are then selected from this space. These can be used to visualize the effect of changing multiple attributes per image, thus providing image-specific explanations. We apply StylEx to multiple domains, including animals, leaves, faces and retinal images. For these, we show how an image can be modified in different ways to change its classifier output. Our results show that the method finds attributes that align well with semantic ones, generate meaningful image-specific explanations, and are human-interpretable as measured in user-studies.
翻訳日:2021-04-28 13:39:14 公開日:2021-04-27
# オントロジー集団のための関係グラフ畳み込みネットワークの文書構造認識

Document Structure aware Relational Graph Convolutional Networks for Ontology Population ( http://arxiv.org/abs/2104.12950v1 )

ライセンス: Link先を確認
Abhay M Shalghar, Ayush Kumar, Balaji Ganesan, Aswin Kannan, Shobha G(参考訳) 概念、属性、関係からなるオントロジーは、多くの知識ベースのaiシステムの基本的なバックボーンを形成する。 これらのシステムは、ビジネス分析およびマスターデータ管理アプリケーションの数における質問応答や対話の形で表される。 ドメイン特有なオントロジーの投入に向けた取り組みは行われてきたが、文書コーパスにおける概念間の存在論的関係を学ぶ際に文書構造が果たす役割について検討する。 ハイパニム発見と説明可能性から着想を得た本手法は, スタンドアロンのR-GCNモデルよりも15ポイント精度が高い。

Ontologies comprising of concepts, their attributes, and relationships, form the quintessential backbone of many knowledge based AI systems. These systems manifest in the form of question-answering or dialogue in number of business analytics and master data management applications. While there have been efforts towards populating domain specific ontologies, we examine the role of document structure in learning ontological relationships between concepts in any document corpus. Inspired by ideas from hypernym discovery and explainability, our method performs about 15 points more accurate than a stand-alone R-GCN model for this task.
翻訳日:2021-04-28 13:38:53 公開日:2021-04-27
# Few-Shotナレッジグラフ補完のためのGated and Attentive Neighbor Aggregatorを用いた関係学習

Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion ( http://arxiv.org/abs/2104.13095v1 )

ライセンス: Link先を確認
Guanglin Niu, Yang Li, Chengguang Tang, Ruiying Geng, Jian Dai, Qiao Liu, Hao Wang, Jian Sun, Fei Huang, Luo Si(参考訳) 知識グラフ(KGs)における少数ショット関係のカバレッジの拡大を目指して、FKGCは近年、より多くの研究関心を集めている。 既存のモデルでは、数ショット関係のマルチホップ隣接情報を用いて意味表現を強化している。 しかし、ノイズ隣接情報は、近隣が過度にスパースであり、少数ショットの関係を表す隣人がいない場合に増幅される可能性がある。 さらに、前回の知識グラフ補完アプローチによるone-to-many (1-n), many-to-one (n-1), many-to-many (n-n)の複雑な関係のモデリングと推論には、高いモデルの複雑さと大量のトレーニングインスタンスが必要である。 したがって、FKGCモデルでは、限られた訓練インスタンスのため、数ショットシナリオで複雑な関係を推測することは困難である。 本稿では,これらの課題に対処するために,グローバルローカルフレームワークを用いた数ショットのリレーショナル学習を提案する。 グローバルな段階では,KG が極端に疎い近傍を含む場合でも,近辺の雑音をフィルタリングするのに有効な,数ショット関係の近傍のセマンティクスを正確に統合する新規な係留隣人アグリゲータが構築されている。 局所的な段階では,メタラーニングに基づくTransH(MTransH)法は複雑な関係をモデル化し,数ショットの学習方式でモデルを訓練するように設計されている。 NELL-One と Wiki-One が頻繁に使用されるベンチマークデータセットに対して,我々のモデルは最先端の FKGC アプローチよりも優れていることを示す。 強力なベースラインモデルであるMetaRと比較して,NELL-Oneでは8.0%,Wiki-Oneでは2.8%の5ショットFKGC性能向上を実現している。

Aiming at expanding few-shot relations' coverage in knowledge graphs (KGs), few-shot knowledge graph completion (FKGC) has recently gained more research interests. Some existing models employ a few-shot relation's multi-hop neighbor information to enhance its semantic representation. However, noise neighbor information might be amplified when the neighborhood is excessively sparse and no neighbor is available to represent the few-shot relation. Moreover, modeling and inferring complex relations of one-to-many (1-N), many-to-one (N-1), and many-to-many (N-N) by previous knowledge graph completion approaches requires high model complexity and a large amount of training instances. Thus, inferring complex relations in the few-shot scenario is difficult for FKGC models due to limited training instances. In this paper, we propose a few-shot relational learning with global-local framework to address the above issues. At the global stage, a novel gated and attentive neighbor aggregator is built for accurately integrating the semantics of a few-shot relation's neighborhood, which helps filtering the noise neighbors even if a KG contains extremely sparse neighborhoods. For the local stage, a meta-learning based TransH (MTransH) method is designed to model complex relations and train our model in a few-shot learning fashion. Extensive experiments show that our model outperforms the state-of-the-art FKGC approaches on the frequently-used benchmark datasets NELL-One and Wiki-One. Compared with the strong baseline model MetaR, our model achieves 5-shot FKGC performance improvements of 8.0% on NELL-One and 2.8% on Wiki-One by the metric Hits@10.
翻訳日:2021-04-28 13:38:44 公開日:2021-04-27
# 交通予測のためのグラフニューラルネットワーク

Graph Neural Networks for Traffic Forecasting ( http://arxiv.org/abs/2104.13096v1 )

ライセンス: Link先を確認
Jo\~ao Rico, Jos\'e Barateiro, Arlindo Oliveira(参考訳) 世界人口と都市化の著しい増加は、特に都市移動の持続可能性、維持、計画に関していくつかの重要な課題をもたらした。 同時に、コンピューティング能力と利用可能なセンサーと位置情報の指数的な増加は、これらの課題に対する革新的な解決策の可能性を秘めている。 本研究では,この問題に対するグラフニューラルネットワーク(GNN)の最近の開発と応用について,交通予測の課題に焦点をあてる。 GNNは、入力を直接グラフデータとして処理する深層学習手法のクラスである。 これにより、トラフィックデータの空間的依存関係をより直接的に活用し、最先端の結果を生成するディープラーニングの利点を活用することができる。 我々は,gnnの最も一般的な変種を含む新しいトピックを紹介し,そのトラフィック予測への応用に焦点をあててレビューする。 トラヒック予測を(時間)グラフとしてモデル化する方法や,グラフと時間的学習コンポーネントを組み合わせたアプローチ,現在の制限や研究機会など,さまざまなアプローチについて論じる。

The significant increase in world population and urbanisation has brought several important challenges, in particular regarding the sustainability, maintenance and planning of urban mobility. At the same time, the exponential increase of computing capability and of available sensor and location data have offered the potential for innovative solutions to these challenges. In this work, we focus on the challenge of traffic forecasting and review the recent development and application of graph neural networks (GNN) to this problem. GNNs are a class of deep learning methods that directly process the input as graph data. This leverages more directly the spatial dependencies of traffic data and makes use of the advantages of deep learning producing state-of-the-art results. We introduce and review the emerging topic of GNNs, including their most common variants, with a focus on its application to traffic forecasting. We address the different ways of modelling traffic forecasting as a (temporal) graph, the different approaches developed so far to combine the graph and temporal learning components, as well as current limitations and research opportunities.
翻訳日:2021-04-28 13:38:11 公開日:2021-04-27
# ソーシャルAI0.1: 深層強化学習エージェントにおける社会認知能力研究のベンチマーク

SocialAI 0.1: Towards a Benchmark to Stimulate Research on Socio-Cognitive Abilities in Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2104.13207v1 )

ライセンス: Link先を確認
Grgur Kova\v{c}, R\'emy Portelas, Katja Hofmann, Pierre-Yves Oudeyer(参考訳) 人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 この問題は、具体的言語の使用に関する多くの研究の方向性を動機づけた。 現在のアプローチでは、非常にシンプルで多様な社会的状況におけるコミュニケーションツールとしての言語に焦点が当てられている: 言語の「自然性」は、高い語彙サイズと可変性の概念に還元される。 本稿では,人間レベルのAIを目指すためには,1)複雑で可変な社会的文脈における言語の使用,2)常に進化する社会世界におけるマルチモーダル環境における複雑な具体的コミュニケーションなど,より広範な社会スキルのセットが必要であることを論じる。 この研究では、認知科学の概念が、AIが人間のような知性に向けてロードマップを描き出すのにどう役立つかを説明します。 次に,最近のsoma deep rlアプローチの限界を,今後のsocialaiからの最初のグリッドワールド環境でテストし,ディープrlエージェントの社会的スキルを評価するベンチマークを行った。 ビデオとコードはhttps://sites.google .com/view/socialai01 で入手できる。

Building embodied autonomous agents capable of participating in social interactions with humans is one of the main challenges in AI. This problem motivated many research directions on embodied language use. Current approaches focus on language as a communication tool in very simplified and non diverse social situations: the "naturalness" of language is reduced to the concept of high vocabulary size and variability. In this paper, we argue that aiming towards human-level AI requires a broader set of key social skills: 1) language use in complex and variable social contexts; 2) beyond language, complex embodied communication in multimodal settings within constantly evolving social worlds. In this work we explain how concepts from cognitive sciences could help AI to draw a roadmap towards human-like intelligence, with a focus on its social dimensions. We then study the limits of a recent SOTA Deep RL approach when tested on a first grid-world environment from the upcoming SocialAI, a benchmark to assess the social skills of Deep RL agents. Videos and code are available at https://sites.google .com/view/socialai01 .
翻訳日:2021-04-28 13:37:55 公開日:2021-04-27
# エビデンス重みに基づく人間中心の解釈可能性フレームワーク

A Human-Centered Interpretability Framework Based on Weight of Evidence ( http://arxiv.org/abs/2104.13299v1 )

ライセンス: Link先を確認
David Alvarez-Melis, Harmanpreet Kaur, Hal Daum\'e III, Hanna Wallach, Jennifer Wortman Vaughan(参考訳) 本稿では,人間中心のアプローチで機械学習を解釈する。 まず、哲学、認知科学、社会科学における説明研究からインスピレーションを得て、人間にとって意味のある機械生成説明のための設計原則の一覧を提案する。 情報理論からエビデンスを重み付けする概念を用いて,これらの原理に従う説明書を作成する方法を開発した。 本手法は,高次元マルチクラス設定に適応でき,説明を生成できる柔軟なメタアゴリテームが得られることを示す。 これらの説明は有限サンプルから正確に推定でき、入力の小さな摂動に対して頑健であることを示す。 また,機械学習実践者との質的ユーザスタディを通じて評価を行い,事前クラス確率などの背景概念に苦慮する参加者がいたにもかかわらず,その説明が有効であることを観察した。 最後に,解釈可能性ツールの設計上の意味について述べる。

In this paper, we take a human-centered approach to interpretable machine learning. First, drawing inspiration from the study of explanation in philosophy, cognitive science, and the social sciences, we propose a list of design principles for machine-generated explanations that are meaningful to humans. Using the concept of weight of evidence from information theory, we develop a method for producing explanations that adhere to these principles. We show that this method can be adapted to handle high-dimensional, multi-class settings, yielding a flexible meta-algorithm for generating explanations. We demonstrate that these explanations can be estimated accurately from finite samples and are robust to small perturbations of the inputs. We also evaluate our method through a qualitative user study with machine learning practitioners, where we observe that the resulting explanations are usable despite some participants struggling with background concepts like prior class probabilities. Finally, we conclude by surfacing design implications for interpretability tools
翻訳日:2021-04-28 13:37:36 公開日:2021-04-27
# メタ強化学習のための適応的対人訓練

Adaptive Adversarial Training for Meta Reinforcement Learning ( http://arxiv.org/abs/2104.13302v1 )

ライセンス: Link先を確認
Shiqi Chen, Zhengyu Chen, Donglin Wang(参考訳) メタ強化学習(mrl)により、エージェントは限られた数の過去の軌跡から学び、新しいタスクに外挿することができる。 本稿ではMRLのロバスト性を改善することを試みる。 本稿では,モデルに依存しないメタラーニング(MAML)を構築し,GAN(Generative Adversarial Network)を用いてMRLの逆サンプルを生成する新しい手法を提案する。 これにより,メタトレーニングプロセスにおいて,これらの攻撃を活用することで,MRLの攻撃に対する堅牢性を高めることができる。

Meta Reinforcement Learning (MRL) enables an agent to learn from a limited number of past trajectories and extrapolate to a new task. In this paper, we attempt to improve the robustness of MRL. We build upon model-agnostic meta-learning (MAML) and propose a novel method to generate adversarial samples for MRL by using Generative Adversarial Network (GAN). That allows us to enhance the robustness of MRL to adversal attacks by leveraging these attacks during meta training process.
翻訳日:2021-04-28 13:37:22 公開日:2021-04-27
# 自己学習による複雑な分布シフトへのイメージネットスケールモデルの適用

Adapting ImageNet-scale models to complex distribution shifts with self-learning ( http://arxiv.org/abs/2104.12928v1 )

ライセンス: Link先を確認
Evgenia Rusak, Steffen Schneider, Peter Gehler, Oliver Bringmann, Wieland Brendel and Matthias Bethge(参考訳) 近年のドメイン適応技術では,自己学習が重要な要素となっているが,堅牢性研究に共通するイメージネットスケールデータセットでは,まだ包括的に評価されていない。 ResNetとEfficientNetモデルに関する広範な実験では,教師と学生のネットワーク間の短い更新時間,ネットワークに分散する少数のアフィンパラメータの微調整,ロバストな分類からの手法を活用したラベルノイズ対策の3つのコンポーネントが,自己学習によるパフォーマンス向上に不可欠であることが判明した。 これらの知見を用いて、ImageNet-C (22.0% mCE)、ImageNet-R (17.4%エラー)、ImageNet-A (14.8%エラー)の大幅な改善結果を得る。 提案手法は, 提案するロバスト化手法と組み合わせることで, さらなる改善をもたらす。 自己学習は、トップ1エラーを、それ以上の進歩が期待できないポイントまで減らすことができる。 そこで私たちは、Visual Domain Adaptation Challenge 2019からデータセットを再使用し、そのサブセットを新しい堅牢性ベンチマーク(ImageNet-D)として使用しています。

While self-learning methods are an important component in many recent domain adaptation techniques, they are not yet comprehensively evaluated on ImageNet-scale datasets common in robustness research. In extensive experiments on ResNet and EfficientNet models, we find that three components are crucial for increasing performance with self-learning: (i) using short update times between the teacher and the student network, (ii) fine-tuning only few affine parameters distributed across the network, and (iii) leveraging methods from robust classification to counteract the effect of label noise. We use these insights to obtain drastically improved state-of-the-art results on ImageNet-C (22.0% mCE), ImageNet-R (17.4% error) and ImageNet-A (14.8% error). Our techniques yield further improvements in combination with previously proposed robustification methods. Self-learning is able to reduce the top-1 error to a point where no substantial further progress can be expected. We therefore re-purpose the dataset from the Visual Domain Adaptation Challenge 2019 and use a subset of it as a new robustness benchmark (ImageNet-D) which proves to be a more challenging dataset for all current state-of-the-art models (58.2% error) to guide future research efforts at the intersection of robustness and domain adaptation on ImageNet scale.
翻訳日:2021-04-28 13:37:14 公開日:2021-04-27
# 超スペクトル画像データのための半教師付きスーパーピクセルベース多機能グラフ学習

Semi-supervised Superpixel-based Multi-Feature Graph Learning for Hyperspectral Image Data ( http://arxiv.org/abs/2104.13268v1 )

ライセンス: Link先を確認
Madeleine Kotzagiannidis, Carola-Bibiane Sch\"onlieb(参考訳) グラフは自然にハイパースペクトル画像(HSI)データの複雑さをモデル化し、近隣のラベルを伝播することで半教師付き分類器として機能する。 本稿では,多視点グラフ学習とグラフ信号処理に触発された,非常に限られた量のラベル付きデータに照らして,hsiデータの分類のための新しい枠組みを提案する。 従来の超画素分割ハイパースペクトル画像から,半教師付き学習(SSL)を行うための頑健で効率的なグラフ構築とラベル伝搬手法を提案する。 このグラフは,hsiデータの本質的複雑性を考慮し,その後の分類タスクの成功を最重要視するので,それらのデータをモデル化するための最適なグラフを求める問題を考える。 まず、グラフ構築に埋め込まれた擬似ラベル機能を通じて、与えられたラベル情報を利用するHSIデータのための多段階エッジ効率半教師付きグラフ学習フレームワークを提案する。 次に,先行フレームワークの拡張における擬似ラベルに基づいて,グラフに埋め込まれた複数のスーパーピクセルの特徴の寄与を検証し,拡張する。 最終的に,広範な数値実験により,最先端手法と比較し,提案手法の優位性を実証する。

Graphs naturally lend themselves to model the complexities of Hyperspectral Image (HSI) data as well as to serve as semi-supervised classifiers by propagating given labels among nearest neighbours. In this work, we present a novel framework for the classification of HSI data in light of a very limited amount of labelled data, inspired by multi-view graph learning and graph signal processing. Given an a priori superpixel-segmented hyperspectral image, we seek a robust and efficient graph construction and label propagation method to conduct semi-supervised learning (SSL). Since the graph is paramount to the success of the subsequent classification task, particularly in light of the intrinsic complexity of HSI data, we consider the problem of finding the optimal graph to model such data. Our contribution is two-fold: firstly, we propose a multi-stage edge-efficient semi-supervised graph learning framework for HSI data which exploits given label information through pseudo-label features embedded in the graph construction. Secondly, we examine and enhance the contribution of multiple superpixel features embedded in the graph on the basis of pseudo-labels in an extension of the previous framework, which is less reliant on excessive parameter tuning. Ultimately, we demonstrate the superiority of our approaches in comparison with state-of-the-art methods through extensive numerical experiments.
翻訳日:2021-04-28 13:36:44 公開日:2021-04-27
# 強化学習のためのスケーラブルで再現可能なシステムオンチップシミュレーション

A Scalable and Reproducible System-on-Chip Simulation for Reinforcement Learning ( http://arxiv.org/abs/2104.13187v1 )

ライセンス: Link先を確認
Tegg Taekyong Sung, Bo Ryu(参考訳) 深層強化学習(drl)はシミュレーション環境で基礎を成し、目標を最適化する。 従来のインタラクション方式を拡張して,高忠実度Domain-Specific System-on-Chip (DSSoC) アプリケーションに適した,スケーラブルで再現可能なオープン環境である gym-ds3 を提案する。 シミュレーションは階層的ジョブをヘテロジニアスなsystem-on-chip (soc)プロセッサにスケジュールし、システムを強化学習研究に橋渡しする。 代表的なsocシミュレータを体系的に解析し,(1)高速噴射速度で無期限ジョブを連続的に生成し,(2)複雑な目的を最適化し,(3)定常スケジューリングで運用する主な課題について考察する。 本稿では,標準的なDS3フレームワークと実世界の組込みシステムから得られた成果を再現した,スケジューラのランタイム性能を実験的に実証する。

Deep Reinforcement Learning (DRL) underlies in a simulated environment and optimizes objective goals. By extending the conventional interaction scheme, this paper proffers gym-ds3, a scalable and reproducible open environment tailored for a high-fidelity Domain-Specific System-on-Chip (DSSoC) application. The simulation corroborates to schedule hierarchical jobs onto heterogeneous System-on-Chip (SoC) processors and bridges the system to reinforcement learning research. We systematically analyze the representative SoC simulator and discuss the primary challenging aspects that the system (1) continuously generates indefinite jobs at a rapid injection rate, (2) optimizes complex objectives, and (3) operates in steady-state scheduling. We provide exemplary snippets and experimentally demonstrate the run-time performances on different schedulers that successfully mimic results achieved from the standard DS3 framework and real-world embedded systems.
翻訳日:2021-04-28 13:36:07 公開日:2021-04-27
# NISQ時代の射影シミュレーションによるベル状態とGHZ状態の量子回路合成

Quantum circuit synthesis of Bell and GHZ states using projective simulation in the NISQ era ( http://arxiv.org/abs/2104.13297v1 )

ライセンス: Link先を確認
O. M. Pires, E. I. Duzzioni, J. Marchi, R. Santiago(参考訳) 量子コンピューティングはここ数年進化を続けている。 近年、量子アルゴリズムの性能は古典的手法よりも優れているが、誤り耐性ルーチンに必要な量子デコヒーレンスと追加補助量子ビットは、量子アルゴリズムの効率的な使用において大きな障壁となっている。 これらの制限により、アルゴリズムコストを最小化する方法、すなわち量子論理ゲートの数と回路の深さを探索することができる。 そこで,量子回路合成と量子回路最適化技術について検討した。 量子ビット数に制限のある雑音量子コンピュータの量子回路合成問題に取り組むために,強化学習手法である投影シミュレーションの有効性について検討した。 エージェントは、IBM Tenerife(IBM QX4)量子プロセッサでGHZ状態を生成するために最大5キュービットの量子回路を作成するタスクを持っていた。 シミュレーションの結果, エージェントの性能は良好であったが, 量子ビット数の増加に伴い新しい回路の学習能力は低下した。

Quantum Computing has been evolving in the last years. Although nowadays quantum algorithms performance has shown superior to their classical counterparts, quantum decoherence and additional auxiliary qubits needed for error tolerance routines have been huge barriers for quantum algorithms efficient use. These restrictions lead us to search for ways to minimize algorithms costs, i.e the number of quantum logical gates and the depth of the circuit. For this, quantum circuit synthesis and quantum circuit optimization techniques are explored. We studied the viability of using Projective Simulation, a reinforcement learning technique, to tackle the problem of quantum circuit synthesis for noise quantum computers with limited number of qubits. The agent had the task of creating quantum circuits up to 5 qubits to generate GHZ states in the IBM Tenerife (IBM QX4) quantum processor. Our simulations demonstrated that the agent had a good performance but its capacity for learning new circuits decreased as the number of qubits increased.
翻訳日:2021-04-28 13:35:16 公開日:2021-04-27
# 対数凸関数最小化のための確率ニュートン法に対する判別ベイズフィルタLends Momentum

Discriminative Bayesian Filtering Lends Momentum to the Stochastic Newton Method for Minimizing Log-Convex Functions ( http://arxiv.org/abs/2104.12949v1 )

ライセンス: Link先を確認
Michael C. Burkhart(参考訳) 対数凸関数の集合の平均を最小化するために、確率ニュートン法は、全対象の勾配とヘッセンのサブサンプル版を用いて、その推定を反復的に更新する。 我々は,この最適化問題を潜在状態空間モデル上での逐次ベイズ推定として文脈化し,識別的に特定した観察過程を提案する。 ベイズフィルタを適用すると、更新を生成する際の勾配とヘッセンの歴史全体を考える新しい最適化アルゴリズムが得られる。 我々は,ポリアクの重球運動量に類似した方法で,古い観測結果の影響が時間とともに減少する行列に基づく条件を確立する。 提案手法の様々な側面を例で紹介し,確率的ニュートン法に関する他の関連イノベーションを概観する。

To minimize the average of a set of log-convex functions, the stochastic Newton method iteratively updates its estimate using subsampled versions of the full objective's gradient and Hessian. We contextualize this optimization problem as sequential Bayesian inference on a latent state-space model with a discriminatively-spe cified observation process. Applying Bayesian filtering then yields a novel optimization algorithm that considers the entire history of gradients and Hessians when forming an update. We establish matrix-based conditions under which the effect of older observations diminishes over time, in a manner analogous to Polyak's heavy ball momentum. We illustrate various aspects of our approach with an example and review other relevant innovations for the stochastic Newton method.
翻訳日:2021-04-28 13:34:59 公開日:2021-04-27
# 非測定共振器の簡易かつシャープ感度解析

Simple yet Sharp Sensitivity Analysis for Unmeasured Confounding ( http://arxiv.org/abs/2104.13020v1 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) そこで本研究では,真因果効果のコンファウンディングに対する感度を評価する手法を提案する。 この方法は、分析者が2つの直感的なパラメータを指定する必要がある。 そうでなければ、この方法は仮定なしである。 このメソッドは、真の因果効果を含むインターバルを返す。 さらに、間隔の境界はシャープ、すなわちシャープである。 達成できる 我々は, ding と vanderweele (2016) によって得られた境界よりも研削性が高いことを実験的に示す。 最後に, 被測定メディエータと非測定露光コンバウンディングが存在する場合に, 自然な直接的および間接的効果を拘束するように拡張する。

We present a method for assessing the sensitivity of the true causal effect to unmeasured confounding. The method requires the analyst to specify two intuitive parameters. Otherwise, the method is assumption-free. The method returns an interval that contains the true causal effect. Moreover, the bounds of the interval are sharp, i.e. attainable. We show experimentally that our bounds can be sharper than those obtained by the method of Ding and VanderWeele (2016). Finally, we extend our method to bound the natural direct and indirect effects when there are measured mediators and unmeasured exposure-outcome confounding.
翻訳日:2021-04-28 13:34:47 公開日:2021-04-27
# Hessian Screening Rule

The Hessian Screening Rule ( http://arxiv.org/abs/2104.13026v1 )

ライセンス: Link先を確認
Johan Larsson, Jonas Wallin(参考訳) モデルに適合する前に予測器を設計マトリックスから破棄する予測器スクリーニングルールは、lassoのような規則化された回帰問題である$\ell_1$-regularized regression problemを解決できる速度にかなりの影響を与えている。 しかし、現在の最先端のスクリーニングルールは、非常に相関性の高い予測器を扱うのが困難であり、しばしば保守的すぎる。 本稿では,この問題に対処するための新しいスクリーニングルールであるヘッセンスクリーニングルールを提案する。 このルールは、より正確なスクリーニングと高品質なウォームスタートを提供するために、モデルからの2階情報を使用する。 我々は,$\ell_1$-regularize d least-squares (the lasso) とロジスティックレグレッション (logistic regression) の実験において,この規則が,我々が研究している実データセットの大部分と同様に,高い相関性を持つシミュレーション実験において,他の全ての代替案よりも優れていることを示す。

Predictor screening rules, which discard predictors from the design matrix before fitting a model, have had sizable impacts on the speed with which $\ell_1$-regularized regression problems, such as the lasso, can be solved. Current state-of-the-art screening rules, however, have difficulties in dealing with highly-correlated predictors, often becoming too conservative. In this paper, we present a new screening rule to deal with this issue: the Hessian Screening Rule. The rule uses second-order information from the model in order to provide more accurate screening as well as higher-quality warm starts. In our experiments on $\ell_1$-regularized least-squares (the lasso) and logistic regression, we show that the rule outperforms all other alternatives in simulated experiments with high correlation, as well as in the majority of real datasets that we study.
翻訳日:2021-04-28 13:34:37 公開日:2021-04-27
# 分散低減min-max最適化を用いた高速分布ロバスト学習

Fast Distributionally Robust Learning with Variance Reduced Min-Max Optimization ( http://arxiv.org/abs/2104.13326v1 )

ライセンス: Link先を確認
Yaodong Yu, Tianyi Lin, Eric Mazumdar, Michael I. Jordan(参考訳) 分散的ロバストな教師付き学習(drsl)は、現実のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場しています。 Wasserstein DRSL - Wasserstein距離での摂動に対する堅牢性に基づく最も一般的なDRSLフレームワークの1つである。既存のアルゴリズムでは、複雑なサブプロブレムの解決や確率勾配の活用に失敗し、大規模な機械学習問題での使用を制限する。 Wevisit Wasserstein DRSL through the lens of min-max optimization and derive to scalable and efficient implementationable stochastic extra-gradient algorithm that proprovible achieved faster convergence rate than existing approach。 既存のdrsl手法と比較して,合成データおよび実データに対する有効性を示す。 この結果の鍵となるのは,確率的min-max最適化を加速するために分散低減とランダム再シャッフルを用いることである。

Distributionally robust supervised learning (DRSL) is emerging as a key paradigm for building reliable machine learning systems for real-world applications -- reflecting the need for classifiers and predictive models that are robust to the distribution shifts that arise from phenomena such as selection bias or nonstationarity. Existing algorithms for solving Wasserstein DRSL -- one of the most popular DRSL frameworks based around robustness to perturbations in the Wasserstein distance -- involve solving complex subproblems or fail to make use of stochastic gradients, limiting their use in large-scale machine learning problems. We revisit Wasserstein DRSL through the lens of min-max optimization and derive scalable and efficiently implementable stochastic extra-gradient algorithms which provably achieve faster convergence rates than existing approaches. We demonstrate their effectiveness on synthetic and real data when compared to existing DRSL approaches. Key to our results is the use of variance reduction and random reshuffling to accelerate stochastic min-max optimization, the analysis of which may be of independent interest.
翻訳日:2021-04-28 13:34:17 公開日:2021-04-27
# 多視点ディープワンクラス分類:システム探索

Multi-view Deep One-class Classification: A Systematic Exploration ( http://arxiv.org/abs/2104.13000v1 )

ライセンス: Link先を確認
Siqi Wang, Jiyuan Liu, Guang Yu, Xinwang Liu, Sihang Zhou, En Zhu, Yuexiang Yang, Jianping Yin(参考訳) 1つの正のクラスをモデル化し、負のクラスと区別するワンクラス分類(OCC)は、異常検出のような領域への重要な応用において長年の話題となっている。 現代社会では、複数の情報源が生み出す膨大な高次元複雑なデータを扱うことが多いため、多視点深層学習の観点からOCCを考えるのは当然である。 しかし、文献からは議論されておらず、未定の話題である。 この空白に動機づけられて、本論文は4次元の貢献をする: まず、我々の最善の知識に対して、これはマルチビューの深いocc問題を形式的に特定し、定式化する最初の作品である。 第2に,近年の関連分野の進歩を考慮し,多視点深層occの11種類のベースラインソリューションを体系的に考案し,多視点深層occ研究の基礎を築いた。 第3に、限定ベンチマークデータセットがマルチビュー深層occで利用できるという問題を解決するため、既存の公開データを広範囲に収集し、複数の手段で30以上の新しいマルチビューベンチマークデータセットに処理することで、マルチビュー深層occの公開評価プラットフォームを提供する。 最後に、ベンチマークデータセット上で考案されたソリューションを総合的に評価することにより、設計したベースラインの有効性を徹底的に分析し、多視点深度OCCに対する有益なガイダンスと洞察を他の研究者に提供することを期待する。 我々のデータとコードは、将来の研究を促進するために、https://github.com/l iujiyuan13/MvDOCC-da tasetsとhttps://github.com/l iujiyuan13/MvDOCC-co deで公開されています。

One-class classification (OCC), which models one single positive class and distinguishes it from the negative class, has been a long-standing topic with pivotal application to realms like anomaly detection. As modern society often deals with massive high-dimensional complex data spawned by multiple sources, it is natural to consider OCC from the perspective of multi-view deep learning. However, it has not been discussed by the literature and remains an unexplored topic. Motivated by this blank, this paper makes four-fold contributions: First, to our best knowledge, this is the first work that formally identifies and formulates the multi-view deep OCC problem. Second, we take recent advances in relevant areas into account and systematically devise eleven different baseline solutions for multi-view deep OCC, which lays the foundation for research on multi-view deep OCC. Third, to remedy the problem that limited benchmark datasets are available for multi-view deep OCC, we extensively collect existing public data and process them into more than 30 new multi-view benchmark datasets via multiple means, so as to provide a publicly available evaluation platform for multi-view deep OCC. Finally, by comprehensively evaluating the devised solutions on benchmark datasets, we conduct a thorough analysis on the effectiveness of the designed baselines, and hopefully provide other researchers with beneficial guidance and insight to multi-view deep OCC. Our data and codes are opened at https://github.com/l iujiyuan13/MvDOCC-da tasets and https://github.com/l iujiyuan13/MvDOCC-co de respectively to facilitate future research.
翻訳日:2021-04-28 13:33:58 公開日:2021-04-27
# 生成逆ネットワークを用いたエンドツーエンドビデオ音声合成

End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks ( http://arxiv.org/abs/2104.13332v1 )

ライセンス: Link先を確認
Rodrigo Mira, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Bj\"orn W. Schuller, Maja Pantic(参考訳) video-to-speechは、音声発話のビデオから音声音声を再構築するプロセスである。 この課題に対する従来のアプローチは、ビデオから中間表現を推測する2段階のプロセスに依存しており、ボイコーダや波形再構成アルゴリズムを用いて波形音声に復号される。 本研究では、中間表現や別個の波形合成アルゴリズムを使わずに、音声映像から波形への変換を行うGAN(Generative Adversarial Networks)に基づく、新しいエンドツーエンドビデオ音声合成モデルを提案する。 本モデルは,生映像を入力として入力し,音声を生成するエンコーダ・デコーダアーキテクチャからなり,波形批判者およびパワー批判者に供給される。 これら2つの批判に基づく敵対的損失を用いることで、生音声波形を直接合成し、その現実性を確保することができる。 さらに,この3つの比較損失は,生成された音声と入力映像との直接対応を確立する上で有用である。 本モデルでは,グリッドなどの制約付きデータセットに対して有意なリアリズムを持つ音声を再構成することが可能であり,lrw (lip reading in the wild) に完全「野生」で録音された数百人の話者を特徴とする,エンドツーエンドの音声を生成できる最初のモデルであることを示す。 人工音声の質と知性を測定する4つの客観的指標を用いて,生成したサンプルを2つの異なるシナリオで評価した。 提案手法は,GRID と LRW のほとんどの指標において,従来の手法よりも優れていることを示す。

Video-to-speech is the process of reconstructing the audio speech from a video of a spoken utterance. Previous approaches to this task have relied on a two-step process where an intermediate representation is inferred from the video, and is then decoded into waveform audio using a vocoder or a waveform reconstruction algorithm. In this work, we propose a new end-to-end video-to-speech model based on Generative Adversarial Networks (GANs) which translates spoken video to waveform end-to-end without using any intermediate representation or separate waveform synthesis algorithm. Our model consists of an encoder-decoder architecture that receives raw video as input and generates speech, which is then fed to a waveform critic and a power critic. The use of an adversarial loss based on these two critics enables the direct synthesis of raw audio waveform and ensures its realism. In addition, the use of our three comparative losses helps establish direct correspondence between the generated audio and the input video. We show that this model is able to reconstruct speech with remarkable realism for constrained datasets such as GRID, and that it is the first end-to-end model to produce intelligible speech for LRW (Lip Reading in the Wild), featuring hundreds of speakers recorded entirely `in the wild'. We evaluate the generated samples in two different scenarios -- seen and unseen speakers -- using four objective metrics which measure the quality and intelligibility of artificial speech. We demonstrate that the proposed approach outperforms all previous works in most metrics on GRID and LRW.
翻訳日:2021-04-28 13:33:27 公開日:2021-04-27
# Fact-Checkingのための抽出的・抽象的説明とニュースの評価

Extractive and Abstractive Explanations for Fact-Checking and Evaluation of News ( http://arxiv.org/abs/2104.12918v1 )

ライセンス: Link先を確認
Ashkan Kazemi, Zehua Li, Ver\'onica P\'erez-Rosas, Rada Mihalcea(参考訳) 本稿では,ファクトチェックとニュース評価アプリケーションを支援することを目的とした,ニュースクレームの自然言語説明の構築について検討する。 本研究では,コンテンツ抽出のための資源効率の良い非教師なしグラフ型アルゴリズムであるバイアス付きテキストランクに基づく抽出法と,gpt-2言語モデルに基づく抽象化法について実験を行った。 政治的・健康的なニュース領域における2つの誤情報データセットの比較評価を行い,抽出手法が最も有望であることを示す。

In this paper, we explore the construction of natural language explanations for news claims, with the goal of assisting fact-checking and news evaluation applications. We experiment with two methods: (1) an extractive method based on Biased TextRank -- a resource-effective unsupervised graph-based algorithm for content extraction; and (2) an abstractive method based on the GPT-2 language model. We perform comparative evaluations on two misinformation datasets in the political and health news domains, and find that the extractive method shows the most promise.
翻訳日:2021-04-28 13:32:07 公開日:2021-04-27
# 単語と文書の可読性の半教師あり共同推定

Semi-Supervised Joint Estimation of Word and Document Readability ( http://arxiv.org/abs/2104.13103v1 )

ライセンス: Link先を確認
Yoshinari Fujinuma, Masato Hagiwara(参考訳) 単語や文書の可読性や難易度の推定は、文献において独立して研究されており、しばしば相互に注釈付きリソースの存在を仮定している。 本稿では,単語と文書の難易度に再帰的な相関関係が存在することを示す分析によって,グラフ畳み込みネットワーク(GCN)を半教師付き方式で,単語と文書の難易度を共同で推定することを提案する。 実験の結果,GCN法は強いベースラインよりも精度が高く,ラベル付きデータが少ない場合でも頑健であることがわかった。

Readability or difficulty estimation of words and documents has been investigated independently in the literature, often assuming the existence of extensive annotated resources for the other. Motivated by our analysis showing that there is a recursive relationship between word and document difficulty, we propose to jointly estimate word and document difficulty through a graph convolutional network (GCN) in a semi-supervised fashion. Our experimental results reveal that the GCN-based method can achieve higher accuracy than strong baselines, and stays robust even with a smaller amount of labeled data.
翻訳日:2021-04-28 13:31:48 公開日:2021-04-27
# 人間-ロボットインタラクションにおけるマルチホップ質問応答のための質問認識メモリネットワーク

Question-Aware Memory Network for Multi-hop Question Answering in Human-Robot Interaction ( http://arxiv.org/abs/2104.13173v1 )

ライセンス: Link先を確認
Xinmeng Li, Mamoun Alazab, Qian Li, Keping Yu, Quanjun Yin(参考訳) 知識グラフ質問応答は知的人間とロボットの相互作用において重要な技術であり、与えられた知識グラフで人間の自然言語質問に対する回答を自動的に与えることを目的としている。 バラエティと複雑性が高いマルチリレーショナルな質問に対して、問題のトークンは推論ステップにおけるトリプル選択の優先度が異なる。 ほとんどの既存モデルは、この質問を全体として受け取り、その中の優先順位情報を無視します。 そこで本研究では,QA2MNというマルチホップ質問応答のための問合せ対応メモリネットワークを提案する。 さらに、知識グラフ埋め込みモデルにグラフコンテキスト情報を組み込んで、エンティティや関係を表現する能力を高める。 トレーニングプロセスでQA2MNモデルの初期化と微調整に使用しています。 我々は、複雑なマルチホップ質問応答のための2つの代表的なデータセットであるpathquestionとworldcup2014のqa2mnを評価した。 その結果、qa2mnは2つのデータセットで最先端のhit@1精度を達成し、モデルの有効性を検証できた。

Knowledge graph question answering is an important technology in intelligent human-robot interaction, which aims at automatically giving answer to human natural language question with the given knowledge graph. For the multi-relation question with higher variety and complexity, the tokens of the question have different priority for the triples selection in the reasoning steps. Most existing models take the question as a whole and ignore the priority information in it. To solve this problem, we propose question-aware memory network for multi-hop question answering, named QA2MN, to update the attention on question timely in the reasoning process. In addition, we incorporate graph context information into knowledge graph embedding model to increase the ability to represent entities and relations. We use it to initialize the QA2MN model and fine-tune it in the training process. We evaluate QA2MN on PathQuestion and WorldCup2014, two representative datasets for complex multi-hop question answering. The result demonstrates that QA2MN achieves state-of-the-art Hits@1 accuracy on the two datasets, which validates the effectiveness of our model.
翻訳日:2021-04-28 13:31:36 公開日:2021-04-27
# 多目的ファクトチェックのための知識強化学習と意味合成モデル

A Knowledge Enhanced Learning and Semantic Composition Model for Multi-Claim Fact Checking ( http://arxiv.org/abs/2104.13046v1 )

ライセンス: Link先を確認
Shuai Wang, Penghui Wei, Jiahao Zhao, Wenji Mao(参考訳) 噂情報の拡散とその重大な結果を抑制するため、従来の事実検査は、関連する証拠を回収して、所定のクレームの正確性を検証することを目的としている。 事実チェック手法は通常、外部リポジトリとして知識グラフ(kgs)を使用し、トリプルクレームを検証する証拠を取得する推論メカニズムを開発する。 しかし、既存の方法は単一のクレームの検証のみに焦点を当てている。 現実の噂の情報はより複雑であり、テキスト文は複数の節(つまり)から構成されることが多い。 単一のクレームではなく複数のクレームとして表現される)マルチステートメントのファクトチェックは、必要だけでなく、実用的なアプリケーションにも重要である。 1つの三重項を検証するための従来の手法は、複数の三重項を1つずつ検証するために繰り返し適用できるが、多項文に暗示される文脈情報を無視し、文全体のリッチな意味情報を学べない。 本稿では,多条件事実チェックのためのエンドツーエンド知識強化学習と検証手法を提案する。 提案手法は,kgベースの学習強化と多目的意味合成という2つのモジュールからなる。 コンテキスト情報を完全に活用するために、KGベースの学習拡張モジュールは、エンティティの関連属性を選択的に集約することで、動的コンテキスト固有表現を学習する。 複数の三重項の合成セマンティクスを捉えるために、多面的セマンティクス合成モジュールはグラフ構造を構築してクレームレベルの相互作用をモデル化し、グローバルかつサルエントな局所セマンティクスと多面的注意の統合を行う。 実世界のデータセットと2つのベンチマークデータセットによる実験結果から,KG上での多条件ファクトチェックの有効性が示された。

To inhibit the spread of rumorous information and its severe consequences, traditional fact checking aims at retrieving relevant evidence to verify the veracity of a given claim. Fact checking methods typically use knowledge graphs (KGs) as external repositories and develop reasoning mechanism to retrieve evidence for verifying the triple claim. However, existing methods only focus on verifying a single claim. As real-world rumorous information is more complex and a textual statement is often composed of multiple clauses (i.e. represented as multiple claims instead of a single one), multiclaim fact checking is not only necessary but more important for practical applications. Although previous methods for verifying a single triple can be applied repeatedly to verify multiple triples one by one, they ignore the contextual information implied in a multi-claim statement and could not learn the rich semantic information in the statement as a whole. In this paper, we propose an end-to-end knowledge enhanced learning and verification method for multi-claim fact checking. Our method consists of two modules, KG-based learning enhancement and multi-claim semantic composition. To fully utilize the contextual information, the KG-based learning enhancement module learns the dynamic context-specific representations via selectively aggregating relevant attributes of entities. To capture the compositional semantics of multiple triples, the multi-claim semantic composition module constructs the graph structure to model claim-level interactions, and integrates global and salient local semantics with multi-head attention. Experimental results on a real-world dataset and two benchmark datasets show the effectiveness of our method for multi-claim fact checking over KG.
翻訳日:2021-04-28 13:31:05 公開日:2021-04-27
# ビデオシーケンスによる群衆の個性・感情特性の検出

Detecting Personality and Emotion Traits in Crowds from Video Sequences ( http://arxiv.org/abs/2104.12927v1 )

ライセンス: Link先を確認
Rodolfo Migon Favaretto, Paulo Knob, Soraia Raupp Musse, Felipe Vilanova, \^Angelo Brandelli Costa(参考訳) 本稿では,ビデオシーケンス中の群衆の個性と基本的な感情特性を検出する手法を提案する。 まず、個人を検知して追跡し、グループを認識して特徴付ける。 これらの情報はOCEAN次元にマッピングされ、OCCの感情モデルに基づいてビデオ内の個性や感情を見つけるのに使用される。 実生活実験で結果を検証することは明らかな課題であるが,本手法は各国の海洋値に関する文献情報や,個人間の創発的距離を用いて評価する。 したがって、この分析は各国の文化的差異も指す。 本モデルは,質的および定量的な結果に示すように,文献で提供されたデータと比較して一貫性のある情報を生成することを示唆する。

This paper presents a methodology to detect personality and basic emotion characteristics of crowds in video sequences. Firstly, individuals are detected and tracked, then groups are recognized and characterized. Such information is then mapped to OCEAN dimensions, used to find out personality and emotion in videos, based on OCC emotion models. Although it is a clear challenge to validate our results with real life experiments, we evaluate our method with the available literature information regarding OCEAN values of different Countries and also emergent Personal distance among people. Hence, such analysis refer to cultural differences of each country too. Our results indicate that this model generates coherent information when compared to data provided in available literature, as shown in qualitative and quantitative results.
翻訳日:2021-04-28 13:29:59 公開日:2021-04-27
# 人物再同定のための教師なしマルチソースドメイン適応

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification ( http://arxiv.org/abs/2104.12961v1 )

ライセンス: Link先を確認
Zechen Bai, Zhigang Wang, Jian Wang, Di Hu, Errui Ding(参考訳) unsupervised domain adaptation (uda) method for person re-idification (re-id) ラベル付きソースデータからラベル付きターゲットデータへの再id知識の転送を目的としている。 大きな成功を収めたものの、そのほとんどはモデル事前トレーニングのために単一のソースドメインからの限られたデータしか使用せず、リッチなラベル付きデータが十分に活用されていない。 有意義なラベル付きデータをフル活用するために、トレーニング中に複数のソースデータセットが使用されるUDA人物のre-IDフィールドにマルチソースの概念を導入する。 しかし、ドメインのギャップのため、異なるデータセットを組み合わせるだけで改善は限られます。 本稿では,ドメイン固有ビューとドメイン融合ビューという2つの視点からこの問題に対処しようと試みる。 2つの構成モジュールが提案され、互いに互換性がある。 まず,修正ドメイン固有バッチ正規化(RDSBN)モジュールを探索し,ドメイン固有特性を同時に低減し,特徴の特異性を高める。 第2に, グラフ畳み込みネットワーク (GCN) に基づく多領域情報融合 (MDIF) モジュールを開発し, 異なる領域の特徴を融合させることにより, ドメイン間距離を最小化する。 提案手法は,最先端のuda person re-idメソッドを高いマージンで上回り,後処理手法を使わずに教師付きアプローチに匹敵する性能を実現する。

Unsupervised domain adaptation (UDA) methods for person re-identification (re-ID) aim at transferring re-ID knowledge from labeled source data to unlabeled target data. Although achieving great success, most of them only use limited data from a single-source domain for model pre-training, making the rich labeled data insufficiently exploited. To make full use of the valuable labeled data, we introduce the multi-source concept into UDA person re-ID field, where multiple source datasets are used during training. However, because of domain gaps, simply combining different datasets only brings limited improvement. In this paper, we try to address this problem from two perspectives, \ie{} domain-specific view and domain-fusion view. Two constructive modules are proposed, and they are compatible with each other. First, a rectification domain-specific batch normalization (RDSBN) module is explored to simultaneously reduce domain-specific characteristics and increase the distinctiveness of person features. Second, a graph convolutional network (GCN) based multi-domain information fusion (MDIF) module is developed, which minimizes domain distances by fusing features of different domains. The proposed method outperforms state-of-the-art UDA person re-ID methods by a large margin, and even achieves comparable performance to the supervised approaches without any post-processing techniques.
翻訳日:2021-04-28 13:29:47 公開日:2021-04-27
# 媒体伝送誘導多色空間埋め込みによる水中画像強調

Underwater Image Enhancement via Medium Transmission-Guided Multi-Color Space Embedding ( http://arxiv.org/abs/2104.13015v1 )

ライセンス: Link先を確認
Chongyi Li and Saeed Anwar and Junhui Hou and Runmin Cong and Chunle Guo and Wenqi Ren(参考訳) 水中画像は波長と距離依存性の減衰と散乱のため、カラーキャストと低コントラストに苦しむ。 これら2つの劣化問題を解決するため,Ucolorと呼ばれる中透過誘導多色空間埋め込みによる水中画像強調ネットワークを提案する。 具体的には,まず,異なる色空間の特性を統一構造に取り入れ,特徴表現の多様性を高めるマルチカラー空間エンコーダネットワークを提案する。 注意機構と組み合わせることで、複数の色空間から抽出された最も識別的な特徴を適応的に統合して強調する。 水中イメージング物理モデルに着想を得て,ネットワークの質劣化領域への応答性を高めるために,メディア伝送(カメラに到達したシーンの放射率の比率を示す)を導出するデコーダネットワークを設計する。 その結果,複数色空間の埋め込みと物理モデルベースおよび学習ベース手法の利点を活かして,水中画像の視覚的品質を効果的に向上できることがわかった。 広範な実験により,我々のucolorは,視覚品質と定量的指標の両方において最先端の手法に対して優れた性能を達成できることが証明された。

Underwater images suffer from color casts and low contrast due to wavelength- and distance-dependent attenuation and scattering. To solve these two degradation issues, we present an underwater image enhancement network via medium transmission-guided multi-color space embedding, called Ucolor. Concretely, we first propose a multi-color space encoder network, which enriches the diversity of feature representations by incorporating the characteristics of different color spaces into a unified structure. Coupled with an attention mechanism, the most discriminative features extracted from multiple color spaces are adaptively integrated and highlighted. Inspired by underwater imaging physical models, we design a medium transmission (indicating the percentage of the scene radiance reaching the camera)-guided decoder network to enhance the response of the network towards quality-degraded regions. As a result, our network can effectively improve the visual quality of underwater images by exploiting multiple color spaces embedding and the advantages of both physical model-based and learning-based methods. Extensive experiments demonstrate that our Ucolor achieves superior performance against state-of-the-art methods in terms of both visual quality and quantitative metrics.
翻訳日:2021-04-28 13:29:21 公開日:2021-04-27
# AT-ST:限定転写領域におけるOCRの自己学習適応戦略

AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions ( http://arxiv.org/abs/2104.13037v1 )

ライセンス: Link先を確認
Martin Ki\v{s}\v{s} and Karel Bene\v{s} and Michal Hradi\v{s}(参考訳) 本稿では,手動アノテーションが限定されたドメインのテキスト認識について,簡単な自己学習戦略を用いて述べる。 提案手法は,個人文の集合や大きな原稿を翻訳する場合など,対象ドメインデータが豊富である場合に,人間のアノテーションの労力を削減すべきである。 対象ドメインから利用可能な注釈付きデータと混在する関連ドメインから大規模データに基づいてシードシステムを訓練することを提案する。 シードシステムは、ターゲットドメインから注釈のないデータを書き起こし、より良いシステムをトレーニングするために使用される。 信頼度尺度をいくつか検討し,データ選択に書き起こしの後方確率を用いることを決定した。 また,アグレッシブマスキング方式を用いてデータを拡張することを提案する。 自己学習により,手書きデータの文字誤り率を最大55 %,印刷データで最大38 %削減できる。 マスキング拡張自体はエラー率を約10%削減し、手書きの難しいデータの場合、その効果はよりよく発音される。

This paper addresses text recognition for domains with limited manual annotations by a simple self-training strategy. Our approach should reduce human annotation effort when target domain data is plentiful, such as when transcribing a collection of single person's correspondence or a large manuscript. We propose to train a seed system on large scale data from related domains mixed with available annotated data from the target domain. The seed system transcribes the unannotated data from the target domain which is then used to train a better system. We study several confidence measures and eventually decide to use the posterior probability of a transcription for data selection. Additionally, we propose to augment the data using an aggressive masking scheme. By self-training, we achieve up to 55 % reduction in character error rate for handwritten data and up to 38 % on printed data. The masking augmentation itself reduces the error rate by about 10 % and its effect is better pronounced in case of difficult handwritten data.
翻訳日:2021-04-28 13:29:04 公開日:2021-04-27
# マルチソースドメイン適応のためのグラフィカルモデリング

Graphical Modeling for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2104.13057v1 )

ライセンス: Link先を確認
Minghao Xu, Hang Wang, Bingbing Ni(参考訳) マルチソースドメイン適応(MSDA)は、複数のソースドメインから対象ドメインへの知識の転送に重点を置いている。 この問題では、ラベル付きソースデータとラベルなしターゲットデータを利用して、異なるドメイン間の共同モデリングと効果的なドメイン結合スキームを必要とするターゲットドメイン上の意味ラベルの条件分布にアプローチすることが不可欠である。 異なるドメイン間のグラフィカルな構造はこれらの課題に取り組むのに役立ち、様々なインスタンス/カテゴリ間の相互依存を効果的にモデル化することができる。 本研究では,2種類のグラフィカルモデルを提案する。 MSDAのための条件ランダム場(CRF-MSDA)とMRF-MSDAのためのマルコフランダム場(MRF-MSDA)。 一言で言えば、クエリサンプルとセマンティックプロトタイプからなる観測セットが与えられた。 CRF-MSDAモデルでは,様々な領域を対象とし,観測条件付きラベルの共分散を学習する。 この目的を達成するために、すべての観測に対してリレーショナルグラフを構築し、その上でローカルメッセージパッシングを行う。 MRF-MSDAは、エネルギーベースの定式化により、異なるマルコフネットワーク上での観測の連成分布をモデル化することを目的としており、複数の特定のネットワーク上での連成確率を和らげることで、ラベル予測を自然に行うことができる。 CRF-MSDAと比較して、MDF-MSDAモデルはより表現力が高く、計算コストも低い。 我々はこれらの2つのモデルを、異なるドメインシフトとデータ複雑性を持つMSDAの4つの標準ベンチマークデータセット上で評価する。

Multi-Source Domain Adaptation (MSDA) focuses on transferring the knowledge from multiple source domains to the target domain, which is a more practical and challenging problem compared to the conventional single-source domain adaptation. In this problem, it is essential to utilize the labeled source data and the unlabeled target data to approach the conditional distribution of semantic label on target domain, which requires the joint modeling across different domains and also an effective domain combination scheme. The graphical structure among different domains is useful to tackle these challenges, in which the interdependency among various instances/categories can be effectively modeled. In this work, we propose two types of graphical models,i.e. Conditional Random Field for MSDA (CRF-MSDA) and Markov Random Field for MSDA (MRF-MSDA), for cross-domain joint modeling and learnable domain combination. In a nutshell, given an observation set composed of a query sample and the semantic prototypes i.e. representative category embeddings) on various domains, the CRF-MSDA model seeks to learn the joint distribution of labels conditioned on the observations. We attain this goal by constructing a relational graph over all observations and conducting local message passing on it. By comparison, MRF-MSDA aims to model the joint distribution of observations over different Markov networks via an energy-based formulation, and it can naturally perform label prediction by summing the joint likelihoods over several specific networks. Compared to the CRF-MSDA counterpart, the MRF-MSDA model is more expressive and possesses lower computational cost. We evaluate these two models on four standard benchmark data sets of MSDA with distinct domain shift and data complexity, and both models achieve superior performance over existing methods on all benchmarks.
翻訳日:2021-04-28 13:28:50 公開日:2021-04-27
# 自己学習型形状デノジングモデルによる重み付きボリュームセグメンテーション

Weakly Supervised Volumetric Segmentation via Self-taught Shape Denoising Model ( http://arxiv.org/abs/2104.13082v1 )

ライセンス: Link先を確認
Qian He, Shuailin Li and Xuming He(参考訳) 弱い教師付きセグメンテーションは、ピクセルワイズアノテーションのコストが高いため、医用画像解析において重要な問題である。 従来の手法では、しばしば2D画像の弱いラベルにフォーカスするが、ボリューム医学画像の構造的手がかりはほとんど利用しない。 そこで本研究では,モデル予測と学習の両方において3次元形状をよりよく把握できる,新しい弱教師付きセグメンテーション戦略を提案する。 本研究の目的は,弱いラベルを利用して自己学習型形状表現を抽出し,その表現をセグメント化予測に組み込むことである。 この目的のために,反復学習戦略によって学習されるセグメンテーションモジュールと形状弁別モジュールからなる深層ネットワークを設計する。 さらに,ボリューム画像に対するハイブリッドラベル設計による弱いアノテーション方式を導入し,全体のアノテーションコストを増大させることなくモデル学習を改善する。 実験の結果, 形状特性の異なる3つの臓器セグメンテーションベンチマークにおいて, 既存のsoma戦略を上回った。 特に、10倍のラベル付きスライスでも高い性能を達成でき、他の方法よりもはるかに優れている。

Weakly supervised segmentation is an important problem in medical image analysis due to the high cost of pixelwise annotation. Prior methods, while often focusing on weak labels of 2D images, exploit few structural cues of volumetric medical images. To address this, we propose a novel weakly-supervised segmentation strategy capable of better capturing 3D shape prior in both model prediction and learning. Our main idea is to extract a self-taught shape representation by leveraging weak labels, and then integrate this representation into segmentation prediction for shape refinement. To this end, we design a deep network consisting of a segmentation module and a shape denoising module, which are trained by an iterative learning strategy. Moreover, we introduce a weak annotation scheme with a hybrid label design for volumetric images, which improves model learning without increasing the overall annotation cost. The empirical experiments show that our approach outperforms existing SOTA strategies on three organ segmentation benchmarks with distinctive shape properties. Notably, we can achieve strong performance with even 10\% labeled slices, which is significantly superior to other methods.
翻訳日:2021-04-28 13:28:19 公開日:2021-04-27
# 魚眼レンズカメラを用いた自律バレット駐車システム

Fisheye Lens Camera based Autonomous Valet Parking System ( http://arxiv.org/abs/2104.13119v1 )

ライセンス: Link先を確認
Young Gon Jo, Seok Hyeon Hong, Sung Soo Hwang, and Jeong Mok Ha(参考訳) 本稿では,最も普及しているセンサであるカメラのみを利用した,効率的な自動駐車システムを提案する。 周辺環境の変化に迅速に対応し、より多くの情報を瞬時に取得するために、ピンホールカメラに比べて視野の広い魚眼カメラを用いる。 これにより、駐車場のレイアウトを識別し、車両の位置を追跡するために、視覚的な同時ローカライズとマッピングが使用される。 さらに、入力画像フレームは、ピンホールカメラで撮影された画像にエッジを検出するアルゴリズムを適用するため、魚眼レンズの歪みを解決するために、周囲のビューモニタ画像に変換される。 提案システムでは,AVM画像処理時に発生する計算複雑性を最小限に抑え,リアルタイム操作のためのルックアップテーブルを採用している。 各プロセスの検出率と自律駐車の成功率を測定し,性能評価を行った。 実験の結果,視覚センサのみを用いて自律駐車が可能となった。

This paper proposes an efficient autonomous valet parking system utilizing only cameras which are the most widely used sensor. To capture more information instantaneously and respond rapidly to changes in the surrounding environment, fisheye cameras which have a wider angle of view compared to pinhole cameras are used. Accordingly, visual simultaneous localization and mapping is used to identify the layout of the parking lot and track the location of the vehicle. In addition, the input image frames are converted into around view monitor images to resolve the distortion of fisheye lens because the algorithm to detect edges are supposed to be applied to images taken with pinhole cameras. The proposed system adopts a look up table for real time operation by minimizing the computational complexity encountered when processing AVM images. The detection rate of each process and the success rate of autonomous parking were measured to evaluate performance. The experimental results confirm that autonomous parking can be achieved using only visual sensors.
翻訳日:2021-04-28 13:28:00 公開日:2021-04-27
# luces: 近距離点光源光量ステレオのためのデータセット

LUCES: A Dataset for Near-Field Point Light Source Photometric Stereo ( http://arxiv.org/abs/2104.13135v1 )

ライセンス: Link先を確認
Roberto Mecca, Fotios Logothetis, Ignas Budvytis, Roberto Cipolla(参考訳) シェーディング情報からの物体の3次元再構成はコンピュータビジョンにおける課題である。 測光ステレオ問題に直面するほとんどのアプローチが単純な遠方界の仮定を用いているため、現実世界のシナリオは本質的により複雑な物理的効果を持ち、正確に3d形状を再構築するために処理する必要がある。 対象物体の近傍に点光源が存在すると仮定した場合、この問題に対処する手法が増えている。 光源の近接は、その伝播と減衰を記述するために非線形パラメータ化を必要とするため、画像形成のモデル化を複雑にする。 この近接場シナリオを扱うアプローチの能力を理解するために、これまで文献は合成的にレンダリングされた測光画像や、極端にカスタマイズされた実世界データを使用してきた。 近距離場測光ステレオ法の評価におけるギャップを埋めるため,様々な材料の14個の物体の「近距離場光源測光ステレオ用データセット」をルーツに紹介する。 52個のLEDを計る装置は、カメラから10から30cm離れた位置にある物体を照らすように設計されている。 生画像とともに、3次元再構成を評価するために、データセットは、取得した3次元幾何学の異なる特徴を比較するための正規マップと深度マップの両方を含む。 さらに,提案するデータセットにおける最新の近距離場光計測ステレオアルゴリズムの性能評価を行い,実際の近距離効果と対象材料についてsota法を評価する。

Three-dimensional reconstruction of objects from shading information is a challenging task in computer vision. As most of the approaches facing the Photometric Stereo problem use simplified far-field assumptions, real-world scenarios have essentially more complex physical effects that need to be handled for accurately reconstructing the 3D shape. An increasing number of methods have been proposed to address the problem when point light sources are assumed to be nearby the target object. The proximity of the light sources complicates the modeling of the image formation as the light behaviour requires non-linear parameterisation to describe its propagation and attenuation. To understand the capability of the approaches dealing with this near-field scenario, the literature till now has used synthetically rendered photometric images or minimal and very customised real-world data. In order to fill the gap in evaluating near-field photometric stereo methods, we introduce LUCES the first real-world 'dataset for near-fieLd point light soUrCe photomEtric Stereo' of 14 objects of a varying of materials. A device counting 52 LEDs has been designed to lit each object positioned 10 to 30 centimeters away from the camera. Together with the raw images, in order to evaluate the 3D reconstructions, the dataset includes both normal and depth maps for comparing different features of the retrieved 3D geometry. Furthermore, we evaluate the performance of the latest near-field Photometric Stereo algorithms on the proposed dataset to assess the SOTA method with respect to actual close range effects and object materials.
翻訳日:2021-04-28 13:27:47 公開日:2021-04-27
# すべてのアノテーションカウント:医療画像分割のためのマルチラベル深層監視

Every Annotation Counts: Multi-label Deep Supervision for Medical Image Segmentation ( http://arxiv.org/abs/2104.13243v1 )

ライセンス: Link先を確認
Simon Rei{\ss}, Constantin Seibold, Alexander Freytag, Erik Rodner, Rainer Stiefelhagen(参考訳) ピクセルワイドセグメンテーションは、私たちのフィールドで最もデータとアノテーションの空いたタスクの1つです。 代表的かつ正確なアノテーションを提供することは、特に医学的応用においてミッションクリティカルであることが多い。 本稿では,この障壁を克服するための半弱教師付きセグメンテーションアルゴリズムを提案する。 本手法は,深層監視と生徒・教師モデルの新たな定式化に基づき,異なる指導信号の統合を容易に行うことができる。 従来の研究とは対照的に、下位層への深い監督の一体化は注意が必要であることを示し、成功のための最も重要な秘密の要素としてマルチラベルの深い監督を提示する。 我々の新しいセグメンテーションのトレーニング体制は、完全にラベル付けされたイメージを柔軟に利用し、バウンディングボックス、単にグローバルラベル、あるいはまったく使用しないイメージを使用することで、高価なラベルの要件を94.22%削減することができます。 本手法は網膜液のセグメンテーションに関する広範な実験により検証され,各アノテーションタイプがセグメンテーション性能を高める上で期待する効果を詳細に分析する。

Pixel-wise segmentation is one of the most data and annotation hungry tasks in our field. Providing representative and accurate annotations is often mission-critical especially for challenging medical applications. In this paper, we propose a semi-weakly supervised segmentation algorithm to overcome this barrier. Our approach is based on a new formulation of deep supervision and student-teacher model and allows for easy integration of different supervision signals. In contrast to previous work, we show that care has to be taken how deep supervision is integrated in lower layers and we present multi-label deep supervision as the most important secret ingredient for success. With our novel training regime for segmentation that flexibly makes use of images that are either fully labeled, marked with bounding boxes, just global labels, or not at all, we are able to cut the requirement for expensive labels by 94.22% - narrowing the gap to the best fully supervised baseline to only 5% mean IoU. Our approach is validated by extensive experiments on retinal fluid segmentation and we provide an in-depth analysis of the anticipated effect each annotation type can have in boosting segmentation performance.
翻訳日:2021-04-28 13:27:23 公開日:2021-04-27
# バッチ知識を組み込んだ自己蒸留による画像ネット分類の改善

Self-distillation with Batch Knowledge Ensembling Improves ImageNet Classification ( http://arxiv.org/abs/2104.13298v1 )

ライセンス: Link先を確認
Yixiao Ge, Ching Lam Choi, Xiao Zhang, Peipei Zhao, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 近年の知識蒸留の研究により、複数の教師や生徒から「ダーク・ナレッジ」をセンセンシングすることで、よりソフトなトレーニングのターゲットを作ることができるが、計算量やパラメーターは大幅に増加することが判明している。 本研究では,BAKE(Batch Knowledge Ensembling)を用いて,同一のミニバッチにおいて,他のサンプルの知識を伝播,アンカーイメージのソフトターゲットを生成する。 具体的には、各興味のサンプルについて、現在のネットワークと推定されるサンプル間の親和性に応じて知識の伝播を重み付けする。 伝播した知識は、蒸留のためのより良いソフトターゲットを形成するために組み立てられる。 このようにして、私たちのBAKEフレームワークは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。 既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。 大規模な実験では、軽量だが効果的なBAKEは、複数のデータセット上の様々なアーキテクチャの分類性能を一貫して向上させ、例えば、ImageNet上でResNet-50が+1.2%向上し、計算オーバーヘッドは+3.7%、追加パラメータは0である。 BAKEはバニラのベースラインを改善するだけでなく、すべてのベンチマークのシングルネットワークの状態を上回ります。

The recent studies of knowledge distillation have discovered that ensembling the "dark knowledge" from multiple teachers or students contributes to creating better soft targets for training, but at the cost of significantly more computations and/or parameters. In this work, we present BAtch Knowledge Ensembling (BAKE) to produce refined soft targets for anchor images by propagating and ensembling the knowledge of the other samples in the same mini-batch. Specifically, for each sample of interest, the propagation of knowledge is weighted in accordance with the inter-sample affinities, which are estimated on-the-fly with the current network. The propagated knowledge can then be ensembled to form a better soft target for distillation. In this way, our BAKE framework achieves online knowledge ensembling across multiple samples with only a single network. It requires minimal computational and memory overhead compared to existing knowledge ensembling methods. Extensive experiments demonstrate that the lightweight yet effective BAKE consistently boosts the classification performance of various architectures on multiple datasets, e.g., a significant +1.2% gain of ResNet-50 on ImageNet with only +3.7% computational overhead and zero additional parameters. BAKE does not only improve the vanilla baselines, but also surpasses the single-network state-of-the-arts on all the benchmarks.
翻訳日:2021-04-28 13:27:04 公開日:2021-04-27
# mvs2d:注意駆動型2次元畳み込みによる高効率マルチビューステレオ

MVS2D: Efficient Multi-view Stereo via Attention-Driven 2D Convolutions ( http://arxiv.org/abs/2104.13325v1 )

ライセンス: Link先を確認
Zhenpei Yang, Zhile Ren, Qi Shan, Qixing Huang(参考訳) ディープラーニングはマルチビューステレオシステムに大きな影響を与えている。 最先端のアプローチは通常、コストボリュームの構築と、入力画像の画素幅の深さを回復する複数の3D畳み込み操作を含む。 このようなプレーンスウィーピングステレオのエンドツーエンド学習は、公開ベンチマークの精度を向上させるが、一般に計算は非常に遅い。 本稿では,マルチビュー制約を単一ビューネットワークにシームレスに統合する,高効率なマルチビューステレオアルゴリズム MVS2D を提案する。 MVS2Dは2Dコンボリューションのみをベースとしているため、すべての注目すべきコンボリューションよりも少なくとも4倍高速である。 さらに,本アルゴリズムは精度の高い深さ推定を行い,scannet,sun3d,rgbdに挑戦する。 不正確なカメラのポーズでも、我々のアルゴリズムは他のアルゴリズムよりも優れています。 補足資料とコードはプロジェクトページで入手できる。 https://zhenpeiyang. github.io/mvs2d

Deep learning has made significant impacts on multi-view stereo systems. State-of-the-art approaches typically involve building a cost volume, followed by multiple 3D convolution operations to recover the input image's pixel-wise depth. While such end-to-end learning of plane-sweeping stereo advances public benchmarks' accuracy, they are typically very slow to compute. We present MVS2D, a highly efficient multi-view stereo algorithm that seamlessly integrates multi-view constraints into single-view networks via an attention mechanism. Since MVS2D only builds on 2D convolutions, it is at least 4x faster than all the notable counterparts. Moreover, our algorithm produces precise depth estimations, achieving state-of-the-art results on challenging benchmarks ScanNet, SUN3D, and RGBD. Even under inexact camera poses, our algorithm still out-performs all other algorithms. Supplementary materials and code will be available at the project page: https://zhenpeiyang. github.io/MVS2D
翻訳日:2021-04-28 13:26:41 公開日:2021-04-27
# Confined Gradient Descent:Federated Learningのためのプライバシ保護最適化

Confined Gradient Descent: Privacy-preserving Optimization for Federated Learning ( http://arxiv.org/abs/2104.13050v1 )

ライセンス: Link先を確認
Yanjun Zhang, Guangdong Bai, Xue Li, Surya Nepal, Ryan K L Ko(参考訳) フェデレーション学習は、複数の参加者がトレーニングデータを集約することなく、協調的にモデルをトレーニングすることを可能にする。 トレーニングデータは各参加者内に保持され、局所的な勾配を安全に合成できるが、最近の研究ではそのようなプライバシー保護が不十分であることが示されている。 最適化のために共有しなければならないグローバルモデルパラメータは、トレーニングデータに関する情報の漏洩に影響を受けやすい。 本研究では,グローバルモデルパラメータの共有を排除し,フェデレーション学習のプライバシーを高めるためのCGDを提案する。 CGDは、勾配降下最適化が離散点の集合から始まり、目的関数の大域的最小の近傍にある別の集合に収束するという事実を利用する。 参加者は自発的にローカルデータをトレーニングし、相互に利益を得るための局所的な勾配の合計を安全に共有できる。 我々はCGDの従来のFLに対するプライバシー強化を正式に示す。 従来のflに比べてcgdでは情報量が少ないことが証明される。 CGDは望ましいモデルの精度も保証する。 我々は理論上CGDの収束率を確立する。 集約されたトレーニングデータから学習したモデルに対して,各参加者が学習したプロプライエタリなモデルの損失が有界であることを証明する。 2つの実世界のデータセットに対する大規模な実験結果によると、CGDのパフォーマンスは集中学習と同等であり、検証損失(おもに0.05未満)と精度(おもに1%未満)に差がある。

Federated learning enables multiple participants to collaboratively train a model without aggregating the training data. Although the training data are kept within each participant and the local gradients can be securely synthesized, recent studies have shown that such privacy protection is insufficient. The global model parameters that have to be shared for optimization are susceptible to leak information about training data. In this work, we propose Confined Gradient Descent (CGD) that enhances privacy of federated learning by eliminating the sharing of global model parameters. CGD exploits the fact that a gradient descent optimization can start with a set of discrete points and converges to another set at the neighborhood of the global minimum of the objective function. It lets the participants independently train on their local data, and securely share the sum of local gradients to benefit each other. We formally demonstrate CGD's privacy enhancement over traditional FL. We prove that less information is exposed in CGD compared to that of traditional FL. CGD also guarantees desired model accuracy. We theoretically establish a convergence rate for CGD. We prove that the loss of the proprietary models learned for each participant against a model learned by aggregated training data is bounded. Extensive experimental results on two real-world datasets demonstrate the performance of CGD is comparable with the centralized learning, with marginal differences on validation loss (mostly within 0.05) and accuracy (mostly within 1%).
翻訳日:2021-04-28 13:25:47 公開日:2021-04-27
# 大規模ディープラーニングのための10個のサブサンプリングから1つ後退する

One Backward from Ten Forward, Subsampling for Large-Scale Deep Learning ( http://arxiv.org/abs/2104.13114v1 )

ライセンス: Link先を確認
Chaosheng Dong, Xiaojie Jin, Weihao Gao, Yijia Wang, Hongyi Zhang, Xiang Wu, Jianchao Yang, Xiaobing Liu(参考訳) 大規模機械学習システムのディープラーニングモデルは、プロダクション環境からの膨大なデータで継続的に訓練されることが多い。 ストリーミングトレーニングデータの膨大なボリュームは、リアルタイムトレーニングサブシステムにとって大きな課題であり、アドホックサンプリングが標準的なプラクティスである。 我々の重要な洞察は、これらのデプロイされたMLシステムは推論中にデータインスタンスを継続的にフォワードパスしますが、アドホックサンプリングはこのかなりの計算努力を生かしていません。 そこで我々は,この前方パスからインスタンス毎に一定量の情報を記録することを提案する。 余分な情報は、どのデータインスタンスが前方および後方通過に参加するべきかを計測的に改善する。 この問題を分析するための新しい最適化フレームワークを提案し, 実用的解としてミニバッチ勾配降下法に基づく効率的な近似アルゴリズムを提案する。 また,大規模分類および回帰タスクにおけるフレームワークとアルゴリズムの有効性を,業界で広く使用されている競争ベースラインと比較した。

Deep learning models in large-scale machine learning systems are often continuously trained with enormous data from production environments. The sheer volume of streaming training data poses a significant challenge to real-time training subsystems and ad-hoc sampling is the standard practice. Our key insight is that these deployed ML systems continuously perform forward passes on data instances during inference, but ad-hoc sampling does not take advantage of this substantial computational effort. Therefore, we propose to record a constant amount of information per instance from these forward passes. The extra information measurably improves the selection of which data instances should participate in forward and backward passes. A novel optimization framework is proposed to analyze this problem and we provide an efficient approximation algorithm under the framework of Mini-batch gradient descent as a practical solution. We also demonstrate the effectiveness of our framework and algorithm on several large-scale classification and regression tasks, when compared with competitive baselines widely used in industry.
翻訳日:2021-04-28 13:25:24 公開日:2021-04-27
# ハミルトンディープニューラルネットワークのための統一的枠組み

A unified framework for Hamiltonian deep neural networks ( http://arxiv.org/abs/2104.13166v1 )

ライセンス: Link先を確認
Clara L. Galimberti, Liang Xu, Giancarlo Ferrari Trecate(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは、重み付け最適化中に勾配の消滅/拡大が発生するため困難である。 この問題を回避するために、ハミルトン系の時間離散化から派生したDNNのクラスを提案する。 対応するハミルトンモデルの時間不変バージョンは、以前の研究や特定のDNNアーキテクチャで示されているように、勾配のゼロあるいは分岐への収束を緩和できる性質である限界安定性を享受する。 本稿では,この特徴を連続時間における逆勾配ダイナミクスの導出と解析により正式に研究する。 提案されたハミルトンのフレームワークは、限界的に安定なODEにインスパイアされた既存のネットワークを包含する以外に、新しいより表現力のあるアーキテクチャを導出することができる。 新たなDNNの性能は、MNISTデータセットを用いた数値認識を含むベンチマーク分類問題で実証される。

Training deep neural networks (DNNs) can be difficult due to the occurrence of vanishing/exploding gradients during weight optimization. To avoid this problem, we propose a class of DNNs stemming from the time discretization of Hamiltonian systems. The time-invariant version of the corresponding Hamiltonian models enjoys marginal stability, a property that, as shown in previous works and for specific DNNs architectures, can mitigate convergence to zero or divergence of gradients. In the present paper, we formally study this feature by deriving and analysing the backward gradient dynamics in continuous time. The proposed Hamiltonian framework, besides encompassing existing networks inspired by marginally stable ODEs, allows one to derive new and more expressive architectures. The good performance of the novel DNNs is demonstrated on benchmark classification problems, including digit recognition using the MNIST dataset.
翻訳日:2021-04-28 13:25:08 公開日:2021-04-27
# 低曲げおよび低歪み多様体埋め込みの学習

Learning low bending and low distortion manifold embeddings ( http://arxiv.org/abs/2104.13189v1 )

ライセンス: Link先を確認
Juliane Braunsmann, Marko Rajkovi\'c, Martin Rumpf, Benedikt Wirth(参考訳) オートエンコーダは、高次元データを低次元の表現に変換する機械学習において広く使われているツールである。 エンコーダは入力データ多様体から潜在空間への埋め込みを提供し、さらなる処理に使用できる。 例えば、多様体上の学習補間は、潜在空間における新しい多様体表現を通して単純化することができる。 このようなさらなる処理の効率は、埋め込みの規則性と構造に大きく依存する。 この記事では、潜在空間への埋め込みは、等尺的かつ可能な限り平坦な埋め込みを促進する損失関数によって正規化されます。 所要の訓練データは、入力多様体上の近傍点のペアと、局所距離および局所フレシェ平均とからなる。 この正規性損失関数は、自分自身でエンコーダをトレーニングすることさえできる。 損失汎関数はモンテカルロ積分によって計算され、埋め込み写像上で直接定義される幾何学的損失汎関数と一致することが示されている。 数値テストは、異なるデータ多様体を符号化する画像データを用いて行われる。 その結果, 潜在空間への滑らかな多様体埋め込みが得られた。 これらの埋め込みは十分正則であり、多様体上の遠くない点の間の補間は、潜在空間における線型補間によってよく近似される。

Autoencoders are a widespread tool in machine learning to transform high-dimensional data into a lowerdimensional representation which still exhibits the essential characteristics of the input. The encoder provides an embedding from the input data manifold into a latent space which may then be used for further processing. For instance, learning interpolation on the manifold may be simplified via the new manifold representation in latent space. The efficiency of such further processing heavily depends on the regularity and structure of the embedding. In this article, the embedding into latent space is regularized via a loss function that promotes an as isometric and as flat embedding as possible. The required training data comprises pairs of nearby points on the input manifold together with their local distance and their local Frechet average. This regularity loss functional even allows to train the encoder on its own. The loss functional is computed via a Monte Carlo integration which is shown to be consistent with a geometric loss functional defined directly on the embedding map. Numerical tests are performed using image data that encodes different data manifolds. The results show that smooth manifold embeddings in latent space are obtained. These embeddings are regular enough such that interpolation between not too distant points on the manifold is well approximated by linear interpolation in latent space.
翻訳日:2021-04-28 13:24:52 公開日:2021-04-27
# Building-GAN: グラフによるアーキテクチャボリューム設計生成

Building-GAN: Graph-Conditioned Architectural Volumetric Design Generation ( http://arxiv.org/abs/2104.13316v1 )

ライセンス: Link先を確認
Kai-Hung Chang, Chin-Yi Cheng, Jieliang Luo, Shingo Murata, Mehdi Nourbakhsh, Yoshito Tsuji(参考訳) ボリュームデザインは、建築設計における最初の重要なステップであり、建築家は建物の粗い3D形状を描写するだけでなく、各階に2Dレイアウトを形成するプログラムを規定する。 単層建物の2次元レイアウト生成は広く研究されているが,多層建築の手法は開発されていない。 本稿では,入力プログラムグラフに基づくボリュームデザイン生成について述べる。 密度の高い3次元ボクセルを出力する代わりに、ジオメトリを構築するためにコンパクトかつ表現性の高い新しい3次元表現であるボクセルグラフを提案する。 我々のジェネレータは,入力プログラムグラフと出力ボクセルグラフを接続するポインタ機構を用いたクロスモーダルグラフニューラルネットワークであり,パイプライン全体を逆向きのフレームワークを用いてトレーニングする。 生成した設計は、ユーザ調査によって質的に評価され、品質、多様性、接続精度の3つの指標を用いて定量的に評価される。 このモデルが現実的な3dボリュームデザインを生成し,従来の手法やベースラインを上回っていることを示す。

Volumetric design is the first and critical step for professional building design, where architects not only depict the rough 3D geometry of the building but also specify the programs to form a 2D layout on each floor. Though 2D layout generation for a single story has been widely studied, there is no developed method for multi-story buildings. This paper focuses on volumetric design generation conditioned on an input program graph. Instead of outputting dense 3D voxels, we propose a new 3D representation named voxel graph that is both compact and expressive for building geometries. Our generator is a cross-modal graph neural network that uses a pointer mechanism to connect the input program graph and the output voxel graph, and the whole pipeline is trained using the adversarial framework. The generated designs are evaluated qualitatively by a user study and quantitatively using three metrics: quality, diversity, and connectivity accuracy. We show that our model generates realistic 3D volumetric designs and outperforms previous methods and baselines.
翻訳日:2021-04-28 13:24:35 公開日:2021-04-27
# 深部予測モデルによるネットワーク埋め込み

Network Embedding via Deep Prediction Model ( http://arxiv.org/abs/2104.13323v1 )

ライセンス: Link先を確認
Xin Sun, Zenghui Song, Yongbo Yu, Junyu Dong, Claudia Plant, and Christian Boehm(参考訳) ネットワーク構造化データは日常生活においてユビキタスになり、急速に成長している。 データの非線形性や疎性が高いため、機能エンジニアリングには大きな課題があります。 実世界のネットワークの局所的および大域的構造は、ノード間の動的移動挙動によって反映される。 本稿では,深層予測モデルを用いて,構造化ネットワーク上の伝達挙動を捉えるネットワーク埋め込みフレームワークを提案する。 まず,ネットワーク上での伝達挙動を捉えるために,次数重みバイアス付きランダムウォークモデルの設計を行った。 次に、ノード間の転送可能性を保存するためにディープネットワーク埋め込み手法を導入する。 シーケンス予測能力を利用するために、Long Short-Term Memory NetworkやRecurrent Neural Networkを含む従来の深層予測モデルにネットワーク構造埋め込み層を付加する。 局所的なネットワーク近傍を維持するために,埋め込み特徴表現に対するラプラシアン教師付き空間最適化を行う。 ソーシャルネットワーク, 引用ネットワーク, バイオメディカルネットワーク, 協調ネットワーク, 言語ネットワークなど, さまざまなデータセットについて実験を行った。 その結果,学習表現はクラスタリング,可視化,分類,再構築,リンク予測などの様々なタスクで有効に利用でき,最先端の表現と比較して有望な性能が得られることがわかった。

Network-structured data becomes ubiquitous in daily life and is growing at a rapid pace. It presents great challenges to feature engineering due to the high non-linearity and sparsity of the data. The local and global structure of the real-world networks can be reflected by dynamical transfer behaviors among nodes. This paper proposes a network embedding framework to capture the transfer behaviors on structured networks via deep prediction models. We first design a degree-weight biased random walk model to capture the transfer behaviors on the network. Then a deep network embedding method is introduced to preserve the transfer possibilities among the nodes. A network structure embedding layer is added into conventional deep prediction models, including Long Short-Term Memory Network and Recurrent Neural Network, to utilize the sequence prediction ability. To keep the local network neighborhood, we further perform a Laplacian supervised space optimization on the embedding feature representations. Experimental studies are conducted on various datasets including social networks, citation networks, biomedical network, collaboration network and language network. The results show that the learned representations can be effectively used as features in a variety of tasks, such as clustering, visualization, classification, reconstruction and link prediction, and achieve promising performance compared with state-of-the-arts.
翻訳日:2021-04-28 13:24:18 公開日:2021-04-27
# オンデバイスフェデレーション学習に向けて: 直接非循環グラフベースのブロックチェーンアプローチ

Towards On-Device Federated Learning: A Direct Acyclic Graph-based Blockchain Approach ( http://arxiv.org/abs/2104.13092v1 )

ライセンス: Link先を確認
Mingrui Cao, Long Zhang, Bin Cao(参考訳) フェデレーション学習(fl)の分散特性から,グローバルモデルの脆弱性とデバイスの協調が大きな障害となっている。 分散化、スケーラビリティ、セキュリティの有望なソリューションとして、flでブロックチェーンを活用することが近年注目を集めている。 しかし、Proof of Work(PoW)のようなブロックチェーン用に設計された従来のコンセンサスメカニズムは、特にワイヤレスでリソース制限のあるデバイスでは、FLの効率を大幅に低下させる、極端なリソース消費を引き起こす。 本稿では, 直接非巡回グラフ(DAG-FL)に基づくブロックチェーンを系統的に活用し, FLの非同期性や異常検出に対処し, ブロックチェーンによる余分なリソース消費を回避するためのフレームワークを提案する。 したがって、DAG-FLは3層アーキテクチャから詳細に導入され、DAG-FL制御とDAG-FL更新という2つのアルゴリズムが異なるノード上で動作し、DAG-FLコンセンサス機構の動作を詳細に記述する。 その後、Poissonプロセスモデルが定式化され、異なるフェデレーション学習タスクにおいて、DAG-FLを安定的に維持するためのデプロイメントパラメータの設定方法が議論される。 大規模なシミュレーションと実験により,DAG-FLは,既存のデバイス上でのフェデレーション学習システムと比較すると,トレーニング効率とモデル精度で優れた性能が得られることが示された。

Due to the distributed characteristics of Federated Learning (FL), the vulnerability of global model and coordination of devices are the main obstacle. As a promising solution of decentralization, scalability and security, leveraging blockchain in FL has attracted much attention in recent years. However, the traditional consensus mechanisms designed for blockchain like Proof of Work (PoW) would cause extreme resource consumption, which reduces the efficiency of FL greatly, especially when the participating devices are wireless and resource-limited. In order to address device asynchrony and anomaly detection in FL while avoiding the extra resource consumption caused by blockchain, this paper introduces a framework for empowering FL using Direct Acyclic Graph (DAG)-based blockchain systematically (DAG-FL). Accordingly, DAG-FL is first introduced from a three-layer architecture in details, and then two algorithms DAG-FL Controlling and DAG-FL Updating are designed running on different nodes to elaborate the operation of DAG-FL consensus mechanism. After that, a Poisson process model is formulated to discuss that how to set deployment parameters to maintain DAG-FL stably in different federated learning tasks. The extensive simulations and experiments show that DAG-FL can achieve better performance in terms of training efficiency and model accuracy compared with the typical existing on-device federated learning systems as the benchmarks.
翻訳日:2021-04-28 13:23:44 公開日:2021-04-27
# 再帰的品質対策による記述論理的内容の良質な証明(拡張技術報告)

Finding Good Proofs for Description Logic Entailments Using Recursive Quality Measures (Extended Technical Report) ( http://arxiv.org/abs/2104.13138v1 )

ライセンス: Link先を確認
Christian Alrabbaa and Franz Baader and Stefan Borgwardt and Patrick Koopmann and Alisa Kovtunova(参考訳) 論理ベースのAIアプローチは、その振る舞いを原則としてユーザに説明できるという利点がある。 例えば、記述論理の推論器がシステム全体の何らかの作用を誘発する帰結を導出するならば、その帰結の証明を適切な計算で示すことで、そのような包含を説明することができる。 そのような証明がいかに理解可能であるかは、使用済みの計算量だけでなく、その全体の大きさ、深さ、使用済みの文の複雑さ、証明ステップなど、特定の証明の性質にも依存する。 このため、あるしきい値 w.r.t 未満の証明を生成する複雑さを判定したい。 与えられた証明品質の尺度。 固定証明計算や固定測度についてこの問題を研究するのではなく、計算量や測度の広いクラスを対象とする一般的な結果を求める。 先行研究では,まず,証明サイズを用いて証明の質を計測する設定に注意を限定した。 その後、より一般的な設定にアプローチを拡張したが、証明深さのような重要な尺度はカバーされなかった。 本稿では, 再帰的(recursive) と呼ばれる, より低い複雑性を生じ, 証明深度も含む尺度のクラスに対して, 結果を提供する。 さらに、前回の作業で開いたいくつかのギャップをクローズし、複雑さの状況の全体像を提供します。

Logic-based approaches to AI have the advantage that their behavior can in principle be explained to a user. If, for instance, a Description Logic reasoner derives a consequence that triggers some action of the overall system, then one can explain such an entailment by presenting a proof of the consequence in an appropriate calculus. How comprehensible such a proof is depends not only on the employed calculus, but also on the properties of the particular proof, such as its overall size, its depth, the complexity of the employed sentences and proof steps, etc. For this reason, we want to determine the complexity of generating proofs that are below a certain threshold w.r.t. a given measure of proof quality. Rather than investigating this problem for a fixed proof calculus and a fixed measure, we aim for general results that hold for wide classes of calculi and measures. In previous work, we first restricted the attention to a setting where proof size is used to measure the quality of a proof. We then extended the approach to a more general setting, but important measures such as proof depth were not covered. In the present paper, we provide results for a class of measures called recursive, which yields lower complexities and also encompasses proof depth. In addition, we close some gaps left open in our previous work, thus providing a comprehensive picture of the complexity landscape.
翻訳日:2021-04-28 13:23:16 公開日:2021-04-27
# 人工知能を用いた地震不安定性制御

Controlling earthquake-like instabilities using artificial intelligence ( http://arxiv.org/abs/2104.13180v1 )

ライセンス: Link先を確認
Efthymios Papachristos and Ioannis Stefanou(参考訳) 地震は致命的かつ費用がかかる。 本研究は, 強化学習を通じて得られた注入ポリシーの適用により, 破滅的な事態を避けることを目的とする。 人工知能の急速な成長に伴い、予測制御問題は特定のタスクを制御する方法を学ぶ関数近似モデルによって、さらに取り組まれている。 本稿では,最先端の深層補強学習手法を用いて,地震様不安定性を制御する可能性を示す。 コントローラは、物理システムの縮小されたモデル、すなわち、与えられた地震マグニチュードに対する物理問題のメインダイナミクスを具現化したスプリングスライダーモデルを用いて訓練される。 非モデル力学に対するロバスト性はパラメトリック研究を通じて探究される。 本研究は, 産業プロジェクト(地熱エネルギー, 炭化水素生産, 二酸化炭素回収)における地震活動の最小化に向けた第一歩であり, 自然地震対策と防止のための技術革新のための第2段階である。

Earthquakes are lethal and costly. This study aims at avoiding these catastrophic events by the application of injection policies retrieved through reinforcement learning. With the rapid growth of artificial intelligence, prediction-control problems are all the more tackled by function approximation models that learn how to control a specific task, even for systems with unmodeled/unknown dynamics and important uncertainties. Here, we show for the first time the possibility of controlling earthquake-like instabilities using state-of-the-art deep reinforcement learning techniques. The controller is trained using a reduced model of the physical system, i.e, the spring-slider model, which embodies the main dynamics of the physical problem for a given earthquake magnitude. Its robustness to unmodeled dynamics is explored through a parametric study. Our study is a first step towards minimizing seismicity in industrial projects (geothermal energy, hydrocarbons production, CO2 sequestration) while, in a second step for inspiring techniques for natural earthquakes control and prevention.
翻訳日:2021-04-28 13:22:42 公開日:2021-04-27
# Proceedings - AI/ML for Cybersecurity: Challenges, Solutions, and New Ideas at SIAM Data Mining 2021

Proceedings - AI/ML for Cybersecurity: Challenges, Solutions, and Novel Ideas at SIAM Data Mining 2021 ( http://arxiv.org/abs/2104.13254v1 )

ライセンス: Link先を確認
John Emanuello, Kimberly Ferguson-Walter, Erik Hemberg, Una-May O Reilly, Ahmad Ridley, Dennis Ross, Diane Staheli, William Streilein(参考訳) 悪意あるサイバー活動はユビキタスであり、その有害な影響は社会に劇的かつしばしば不可逆的な影響を及ぼす。 サイバーセキュリティの専門家の不足、絶え間なく進化する敵、攻撃の証拠を含む大量のデータ、防衛措置を取らなければならないスピードを考えると、サイバーセキュリティにおける自律性を実現するイノベーションは、反応性のある防衛姿勢から、より積極的なものへと拡大し続けなければならない。 この分野の課題は、コンピュータビジョンのような他の領域にAIを適用することに関連する問題とは大きく異なる。 環境は極めて高い不確実性に苦しめられ、利用可能なすべてのデータを取り込むことの難しさや、悪意のあるアクターがデータを操作している可能性から生じる。 この領域におけるもう一つのユニークな挑戦は、敵のダイナミズムが妥協の指標を警告なしで頻繁に変化させる。 これらの課題にもかかわらず、機械学習はこの分野に適用され、検出の分野で成功を収めている。 この問題のこの側面は解決には程遠いが、商業部門の成長は、サービスとしてのML強化機能を提供しようとしている。 これらのエンティティの多くは、これらの自動化ソリューションのデプロイを容易にするプラットフォームも提供する。 この分野の学術研究は成長を続けており、現在のソリューションに影響を与え続けており、この分野における自律的なエージェントの可能性を高める基礎知識を強化している。

Malicious cyber activity is ubiquitous and its harmful effects have dramatic and often irreversible impacts on society. Given the shortage of cybersecurity professionals, the ever-evolving adversary, the massive amounts of data which could contain evidence of an attack, and the speed at which defensive actions must be taken, innovations which enable autonomy in cybersecurity must continue to expand, in order to move away from a reactive defense posture and towards a more proactive one. The challenges in this space are quite different from those associated with applying AI in other domains such as computer vision. The environment suffers from an incredibly high degree of uncertainty, stemming from the intractability of ingesting all the available data, as well as the possibility that malicious actors are manipulating the data. Another unique challenge in this space is the dynamism of the adversary causes the indicators of compromise to change frequently and without warning. In spite of these challenges, machine learning has been applied to this domain and has achieved some success in the realm of detection. While this aspect of the problem is far from solved, a growing part of the commercial sector is providing ML-enhanced capabilities as a service. Many of these entities also provide platforms which facilitate the deployment of these automated solutions. Academic research in this space is growing and continues to influence current solutions, as well as strengthen foundational knowledge which will make autonomous agents in this space a possibility.
翻訳日:2021-04-28 13:22:25 公開日:2021-04-27
# 階層化とシャーディングによるセキュアで効率的な連合学習

Secure and Efficient Federated Learning Through Layering and Sharding Blockchain ( http://arxiv.org/abs/2104.13130v1 )

ライセンス: Link先を確認
Shuo Yuan, Bin Cao, Yao Sun, Mugen Peng(参考訳) 連合学習(federated learning, ffl)は、クラウド中心の機械学習手法によって引き起こされるシステム的プライバシリスクと通信コストを軽減するための、有望なマスタ/スレーブ学習パラダイムとして浮上した。 しかし、モデル収束速度と精度を保証しながら、マスターアグリゲータの単一障害点と悪意のある参加者からの攻撃に抵抗することは極めて困難である。 近年、ブロックチェーンはFLシステムに導入され、パラダイムを分散化してシステムのセキュリティと学習信頼性をさらに向上させている。 残念ながら、ブロックチェーンシステムの従来のコンセンサスメカニズムとアーキテクチャは、巨大なリソース消費、トランザクションスループットの制限、通信の複雑さのために、大規模なFLタスクをほとんど処理できません。 そこで本稿では,複数のサブチェーンネットワーク(サブチェーン層)と,dag(direct acyclic graph)ベースのメインチェーン(mainchain layer)で構成される,chainsflと呼ばれる2層ブロックチェーン駆動のflフレームワークを提案する。 chainsflでは、サブチェーン層は、少ない範囲の情報交換のために各シャードのスケールを制限し、メインチェーン層は、各シャードが並列かつ非同期に学習モデルを共有および検証し、クロスシャード検証の効率を向上させることができる。 さらに、FLプロシージャをブロックチェーン技術と深く統合するようにカスタマイズし、異常モデルによる歪みを軽減するために改良されたDAGコンセンサス機構を提案する。 概念実証の実装と評価を提供するため、Hyperledger Fabric上の複数のサブチェーンベースがサブチェーン層としてデプロイされ、自己開発型のDAGベースのメインチェーンがメインチェーン層としてデプロイされる。 実験結果から,ChainsFLは既存のFLシステムと比較してトレーニング効率が良好であり,強靭性も優れていることがわかった。

Federated learning (FL) has emerged as a promising master/slave learning paradigm to alleviate systemic privacy risks and communication costs incurred by cloud-centric machine learning methods. However, it is very challenging to resist the single point of failure of the master aggregator and attacks from malicious participants while guaranteeing model convergence speed and accuracy. Recently, blockchain has been brought into FL systems transforming the paradigm to a decentralized manner thus further improve the system security and learning reliability. Unfortunately, the traditional consensus mechanism and architecture of blockchain systems can hardly handle the large-scale FL task due to the huge resource consumption, limited transaction throughput, and high communication complexity. To address these issues, this paper proposes a two-layer blockchaindriven FL framework, called as ChainsFL, which is composed of multiple subchain networks (subchain layer) and a direct acyclic graph (DAG)-based mainchain (mainchain layer). In ChainsFL, the subchain layer limits the scale of each shard for a small range of information exchange, and the mainchain layer allows each shard to share and validate the learning model in parallel and asynchronously to improve the efficiency of cross-shard validation. Furthermore, the FL procedure is customized to deeply integrate with blockchain technology, and the modified DAG consensus mechanism is proposed to mitigate the distortion caused by abnormal models. In order to provide a proof-ofconcept implementation and evaluation, multiple subchains base on Hyperledger Fabric are deployed as the subchain layer, and the self-developed DAG-based mainchain is deployed as the mainchain layer. The experimental results show that ChainsFL provides acceptable and sometimes better training efficiency and stronger robustness compared with the typical existing FL systems.
翻訳日:2021-04-28 13:21:45 公開日:2021-04-27
# 3次元PET/CT画像のエビデンシャルセグメンテーション

Evidential segmentation of 3D PET/CT images ( http://arxiv.org/abs/2104.13293v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Pierre Decazes, Thierry Denoeux(参考訳) PETとCTは医用画像解析に広く用いられている2つのモダリティである。 これら2つの画像モダリティから正確なリンパ腫の検出と分節化は、がんのステージングと放射線治療計画にとって重要な課題である。 しかし,PET/CT画像の複雑化や3Dデータの処理に要する計算コストのため,この作業は依然として困難である。 本稿では,3次元PET/CT画像のセグメンテーションリンパ腫に対して,信念関数に基づくセグメンテーション法を提案する。 アーキテクチャは、特徴抽出モジュールと、証拠セグメンテーション(es)モジュールから構成されている。 ESモジュールはセグメンテーション結果(各ボクセルにリンパ腫の有無を示すバイナリマップ)だけでなく、分類の不確実性を定量化する不確実性マップも出力する。 モデル全体の最適化はDiceと不確実性損失関数を最小化し、セグメンテーション精度を向上する。 びまん性大細胞性b細胞リンパ腫173例のデータベース上で評価した。 定量的および定性的な結果から,本手法は最先端の手法よりも優れていることが示された。

PET and CT are two modalities widely used in medical image analysis. Accurately detecting and segmenting lymphomas from these two imaging modalities are critical tasks for cancer staging and radiotherapy planning. However, this task is still challenging due to the complexity of PET/CT images, and the computation cost to process 3D data. In this paper, a segmentation method based on belief functions is proposed to segment lymphomas in 3D PET/CT images. The architecture is composed of a feature extraction module and an evidential segmentation (ES) module. The ES module outputs not only segmentation results (binary maps indicating the presence or absence of lymphoma in each voxel) but also uncertainty maps quantifying the classification uncertainty. The whole model is optimized by minimizing Dice and uncertainty loss functions to increase segmentation accuracy. The method was evaluated on a database of 173 patients with diffuse large b-cell lymphoma. Quantitative and qualitative results show that our method outperforms the state-of-the-art methods.
翻訳日:2021-04-28 13:20:47 公開日:2021-04-27
# NTIRE 2021 Depth Guided Image Relighting Challenge

NTIRE 2021 Depth Guided Image Relighting Challenge ( http://arxiv.org/abs/2104.13365v1 )

ライセンス: Link先を確認
Majed El Helou and Ruofan Zhou and Sabine Susstrunk and Radu Timofte(参考訳) 画像のリライトは様々な用途で注目を浴びている。 研究の観点からは、領域適応のための画像正規化とデータ拡張のための画像リライティングを利用することができる。 また、写真モンタージュや審美強化に複数の直接的用途がある。 本稿では NTIRE 2021 depth guided image relighting Challenge について概説する。 深度情報を含む2つのチャレンジトラックそれぞれについて、viditデータセットに依存しています。 第1トラックは、入力画像(色温度と光源位置)の照明設定を目標照明設定に変換することを目標とするワンツーワン照明である。 第2のトラックであるany-to-any relighting challengeでは、入力画像の照明設定を、スタイル転送と同様に、他のガイド画像の照明設定に合わせるように変換することを目的としている。 両トラックとも、参加者は撮影したシーンについて深い情報を得た。 登録参加者は250人近くで,最終コンペティションステージには18のチームが参加しています。 本論文では,競争,方法,最終結果について述べる。

Image relighting is attracting increasing interest due to its various applications. From a research perspective, image relighting can be exploited to conduct both image normalization for domain adaptation, and also for data augmentation. It also has multiple direct uses for photo montage and aesthetic enhancement. In this paper, we review the NTIRE 2021 depth guided image relighting challenge. We rely on the VIDIT dataset for each of our two challenge tracks, including depth information. The first track is on one-to-one relighting where the goal is to transform the illumination setup of an input image (color temperature and light source position) to the target illumination setup. In the second track, the any-to-any relighting challenge, the objective is to transform the illumination settings of the input image to match those of another guide image, similar to style transfer. In both tracks, participants were given depth information about the captured scenes. We had nearly 250 registered participants, leading to 18 confirmed team submissions in the final competition stage. The competitions, methods, and final results are presented in this paper.
翻訳日:2021-04-28 13:20:30 公開日:2021-04-27
# コア・コラプス超新星シミュレーションにおけるエディントンテンソルの深層学習

Deep Learning of the Eddington Tensor in the Core-collapse Supernova Simulation ( http://arxiv.org/abs/2104.13039v1 )

ライセンス: Link先を確認
Akira Harada, Shota Nishikawa, and Shoichi Yamada(参考訳) 我々はニュートリノエネルギー密度,フラックス,流体速度の関数としてディープニューラルネットワーク(DNN)を訓練し,第1原理核崩壊超新星シミュレーションで得られたニュートリノのエディントンテンソルを再現した。 ニュートリノ輸送の最も一般的な近似の1つであるモーメント法は閉包関係を必要とするが、文献で一般的に用いられる解析的閉包関係は、運動量空間におけるニュートリノ角分布のすべての側面を捉えるものではない。 本研究では,ニュートリノエネルギー密度,フラックス,流体速度を入力とし,エディントンテンソルを出力とするdnnを用いた閉包関係を開発した。 従来のdnnであるcomponent-wise neural network(cwnn)とtensor-basis neural network(tbnn)である。 その結果, テンソルの対角成分は, 低エネルギーから中エネルギーのM1閉鎖関係よりもDNNの方がよく再現できることがわかった。 対角成分について、DNNは大きな半径でのM1閉包よりもボルツマン解法によく一致する。 2つのDNNの比較では、TBNNはCWNNよりも若干性能が良い。 dnnに基づく新しい閉鎖関係により、エディントンテンソルをはるかに少ないコストで再現できるようになり、モーメント法の新しい可能性を開いた。

We trained deep neural networks (DNNs) as a function of the neutrino energy density, flux, and the fluid velocity to reproduce the Eddington tensor for neutrinos obtained in our first-principles core-collapse supernova (CCSN) simulations. Although the moment method, which is one of the most popular approximations for neutrino transport, requires a closure relation, none of the analytical closure relations commonly employed in the literature captures all aspects of the neutrino angular distribution in momentum space. In this paper, we developed a closure relation by using the DNN that takes the neutrino energy density, flux, and the fluid velocity as the input and the Eddington tensor as the output. We consider two kinds of DNNs: a conventional DNN named a component-wise neural network (CWNN) and a tensor-basis neural network (TBNN). We found that the diagonal component of the Eddington tensor is reproduced better by the DNNs than the M1-closure relation especially for low to intermediate energies. For the off-diagonal component, the DNNs agree better with the Boltzmann solver than the M1 closure at large radii. In the comparison between the two DNNs, the TBNN has slightly better performance than the CWNN. With the new closure relations at hand based on the DNNs that well reproduce the Eddington tensor with much smaller costs, we opened up a new possibility for the moment method.
翻訳日:2021-04-28 13:19:52 公開日:2021-04-27
# 畳み込みニューラルネットワークにおける特性推定攻撃:ターゲットモデルの複雑度の影響と意味

Property Inference Attacks on Convolutional Neural Networks: Influence and Implications of Target Model's Complexity ( http://arxiv.org/abs/2104.13061v1 )

ライセンス: Link先を確認
Mathias P. M. Parisot, Balazs Pejo and Dayana Spagnuelo(参考訳) 機械学習モデルの目標は、データから重要な特性やパターンを学ぶことで、特定のタスクの正確な予測を行うことである。 そうすることで、モデルは、その主要なタスクとは無関係なプロパティを学習する可能性がある。 プロパティ推論は、これを活用し、モデルの第一の目標とは無関係に見えるトレーニングデータセットに関する所定のモデル(ターゲットモデルを参照)プロパティから推論することを目的としている。 トレーニングデータがセンシティブであれば、そのような攻撃はプライバシーの漏洩につながる可能性がある。 本稿では,対象モデルの複雑さが,畳み込みニューラルネットワーク分類器に着目し,この種の攻撃の正確性に与える影響について検討する。 顔画像で訓練されたモデルに対して攻撃を行い、相手の口が開いているかを予測する。 私たちの攻撃目標は、トレーニングデータセットが性別的にバランスしているかどうかを推測することです。 調査結果から,プライバシ侵害のリスクは,ターゲットモデルの複雑さとは独立して存在していることが明らかになった。 本稿では,個人情報に対する財産推論の意義について,データ保護規則とガイドラインに照らして論じる。

Machine learning models' goal is to make correct predictions for specific tasks by learning important properties and patterns from data. By doing so, there is a chance that the model learns properties that are unrelated to its primary task. Property Inference Attacks exploit this and aim to infer from a given model (\ie the target model) properties about the training dataset seemingly unrelated to the model's primary goal. If the training data is sensitive, such an attack could lead to privacy leakage. This paper investigates the influence of the target model's complexity on the accuracy of this type of attack, focusing on convolutional neural network classifiers. We perform attacks on models that are trained on facial images to predict whether someone's mouth is open. Our attacks' goal is to infer whether the training dataset is balanced gender-wise. Our findings reveal that the risk of a privacy breach is present independently of the target model's complexity: for all studied architectures, the attack's accuracy is clearly over the baseline. We discuss the implication of the property inference on personal data in the light of Data Protection Regulations and Guidelines.
翻訳日:2021-04-28 13:19:26 公開日:2021-04-27
# マルチフェアパレートブースティング

Multi-Fair Pareto Boosting ( http://arxiv.org/abs/2104.13312v1 )

ライセンス: Link先を確認
Arjun Roy, Vasileios Iosifidis, Eirini Ntoutsi(参考訳) 複数の保護された属性に対するフェアネス対応機械学習(以下、マルチフェアネスと呼ぶ)が注目されている。 他の保護された属性 既存のメソッドは、このドメイン内のデータセットがしばしば不均衡であるという事実を無視しており、マイノリティクラスに対する不公平な決定に繋がる。 したがって,マルチフェアネスを達成し,全体としての正確な予測性能と,異なるクラス間でのバランスの取れたパフォーマンスを実現するためのソリューションが必要であり,そのために,複数属性の保護されたグループとクラスメンバシップの両方を考慮して不公平さを計測する新たなフェアネス概念であるMulti-Max Mistreatment(MMM)を導入する。 MMM-fair分類器を学習するために,多目的問題の定式化を提案する。 配信更新と後学習におけるマルチフェアネス処理を取り入れたブースティング手法を用いて、複数のパレート最適解を見つけ出し、擬似重みに基づく意思決定を用いて、正確でバランスの取れた複数属性の公正解の中から最適な解を選択する。

Fairness-aware machine learning for multiple protected at-tributes (referred to as multi-fairness hereafter) is receiving increasing attention as traditional single-protected attribute approaches cannot en-sure fairness w.r.t. other protected attributes. Existing methods, how-ever, still ignore the fact that datasets in this domain are often imbalanced, leading to unfair decisions towards the minority class. Thus, solutions are needed that achieve multi-fairness,accur ate predictive performance in overall, and balanced performance across the different classes.To this end, we introduce a new fairness notion,Multi-Max Mistreatment(MMM), which measures unfairness while considering both (multi-attribute) protected group and class membership of instances. To learn an MMM-fair classifier, we propose a multi-objective problem formulation. We solve the problem using a boosting approach that in-training,incorpor ates multi-fairness treatment in the distribution update and post-training, finds multiple Pareto-optimal solutions; then uses pseudo-weight based decision making to select optimal solution(s) among accurate, balanced, and multi-attribute fair solutions
翻訳日:2021-04-28 13:18:50 公開日:2021-04-27
# UniTE -- 両方の世界のベスト - 機能フィッティングとアグリゲーションに基づく旅行時間と旅行速度推定アプローチの統一

UniTE -- The Best of Both Worlds: Unifying Function-Fitting and Aggregation-Based Approaches to Travel Time and Travel Speed Estimation ( http://arxiv.org/abs/2104.13321v1 )

ライセンス: Link先を確認
Tobias Skovgaard Jepsen and Christian S. Jensen and Thomas Dyhre Nielsen(参考訳) 旅行時間や速度推定は多くのインテリジェント輸送アプリケーションの一部である。 既存の推定手法は関数のフィッティングまたはアグリゲーションに依存し、一般化可能性と精度の異なるトレードオフを表す。 関数適合アプローチは、例えば経路の特徴ベクトルを走行時間や速度推定にマッピングする関数を学習する。 しかし、写像関数は不完全であり、実際は精度が低い。 アグリゲーションベースのアプローチは、ルートのトラバーサルデータなどの履歴データを集約することで、見積もりを形成する。 これにより十分なデータから非常に高い精度が得られる。 しかし、不十分なデータが利用できる場合、単純なヒューリスティックに頼り、一般化性に乏しい。 本稿では,機能適合型アプローチとアグリゲーションに基づくアプローチを組み合わせて,機能適合型アプローチの一般化性とアグリゲーションに基づくアプローチの正確性を実現する統一フレームワークに,旅行時間と速度推定(UniTE)の統一的アプローチを提案する。 実証実験により、UniTEのインスタンスは、関数フィッティングやアグリゲーションのみを使用する場合と比較して、旅行速度分布の精度と旅行時間推定の精度を40-64\%$と3-23\%$で改善できることがわかった。

Travel time or speed estimation are part of many intelligent transportation applications. Existing estimation approaches rely on either function fitting or aggregation and represent different trade-offs between generalizability and accuracy. Function-fitting approaches learn functions that map feature vectors of, e.g., routes, to travel time or speed estimates, which enables generalization to unseen routes. However, mapping functions are imperfect and offer poor accuracy in practice. Aggregation-based approaches instead form estimates by aggregating historical data, e.g., traversal data for routes. This enables very high accuracy given sufficient data. However, they rely on simplistic heuristics when insufficient data is available, yielding poor generalizability. We present a Unifying approach to Travel time and speed Estimation (UniTE) that combines function-fitting and aggregation-based approaches into a unified framework that aims to achieve the generalizability of function-fitting approaches and the accuracy of aggregation-based approaches. An empirical study finds that an instance of UniTE can improve the accuracies of travel speed distribution and travel time estimation by $40-64\%$ and $3-23\%$, respectively, compared to using function fitting or aggregation alone
翻訳日:2021-04-28 13:18:28 公開日:2021-04-27
# 影響のあるリードシートの生成:新しい条件付きseq2seqフレームワーク

Generating Lead Sheets with Affect: A Novel Conditional seq2seq Framework ( http://arxiv.org/abs/2104.13056v1 )

ライセンス: Link先を確認
Dimos Makris, Kat R. Agres, Dorien Herremans(参考訳) オートマチック・ミュージック・コンポジションの分野はここ数年で大きな進歩を遂げており、その多くはディープ・ニューラル・ネットワークの進歩によるものである。 スクラッチから楽譜を生成するための異なる戦略を示す多くの研究がある。 しかし、高レベルの音楽的特徴(例えば、感情的な特性)を、生成出力を制御するための条件として含めることは、依然として課題である。 本稿では,リードシート内のコード進行の価(知覚感情の正負性)を,音楽専門家が提案する事前定義された気分タグを用いて計算する手法を提案する。 提案手法では,楽譜生成のための条件付きリードシート生成手法を提案する。 我々のアプローチはニューラルネットワーク翻訳(nmt)の問題と似ており、使用するシーケンス・ツー・シーケンスアーキテクチャ(すなわち、長期記憶ネットワークとトランスフォーマーネットワーク)のエンコーダ部分に高レベルな条件を含む。 この2つのアーキテクチャを徹底的に解析する実験を行った。 その結果,提案手法は鉛シートを制御可能な方法で生成することができ,その結果,学習データセットと類似した音楽属性の分布が得られた。 また,提案手法が生成したコード進行量の制御に有効であることを主観的聴取テストを通じて検証した。

The field of automatic music composition has seen great progress in the last few years, much of which can be attributed to advances in deep neural networks. There are numerous studies that present different strategies for generating sheet music from scratch. The inclusion of high-level musical characteristics (e.g., perceived emotional qualities), however, as conditions for controlling the generation output remains a challenge. In this paper, we present a novel approach for calculating the valence (the positivity or negativity of the perceived emotion) of a chord progression within a lead sheet, using pre-defined mood tags proposed by music experts. Based on this approach, we propose a novel strategy for conditional lead sheet generation that allows us to steer the music generation in terms of valence, phrasing, and time signature. Our approach is similar to a Neural Machine Translation (NMT) problem, as we include high-level conditions in the encoder part of the sequence-to-sequence architectures used (i.e., long-short term memory networks, and a Transformer network). We conducted experiments to thoroughly analyze these two architectures. The results show that the proposed strategy is able to generate lead sheets in a controllable manner, resulting in distributions of musical attributes similar to those of the training dataset. We also verified through a subjective listening test that our approach is effective in controlling the valence of a generated chord progression.
翻訳日:2021-04-28 13:17:30 公開日:2021-04-27
# 位相非感性距離計算による効率的なチャネルチャート作成

Efficient channel charting via phase-insensitive distance computation ( http://arxiv.org/abs/2104.13184v1 )

ライセンス: Link先を確認
Luc Le Magoarou (IRT b-com, Hypermedia)(参考訳) チャネルチャート化は、チャネルを符号化して、取得した表現が対応するユーザの相対的な空間的位置を反映するように、教師なしの学習課題である。 ユーザスケジューリングからアクティブなハンドオーバまで、多くの潜在的なアプリケーションがある。 本稿では,チャネルチャート処理に関する無関係な現象である小規模フェーディングの効果を低減するために特別に設計された距離尺度に基づいて,チャネルチャート化手法を提案する。 次に,局所距離(アイソマップ)の保存を目的とした非線形次元減少手法を適用し,実際にチャネル表現を得る。 この手法はリアルなMIMOチャネル上で実証的に検証され、従来提案されていた手法よりも低コストでより良い結果が得られる。

Channel charting is an unsupervised learning task whose objective is to encode channels so that the obtained representation reflects the relative spatial locations of the corresponding users. It has many potential applications, ranging from user scheduling to proactive handover. In this paper, a channel charting method is proposed, based on a distance measure specifically designed to reduce the effect of small scale fading, which is an irrelevant phenomenon with respect to the channel charting task. A nonlinear dimensionality reduction technique aimed at preserving local distances (Isomap) is then applied to actually get the channel representation. The approach is empirically validated on realistic synthetic MIMO channels, achieving better results than previously proposed approaches, at a lower cost.
翻訳日:2021-04-28 13:17:07 公開日:2021-04-27
# 抽象洗練に基づく最適化によるノイズデータセット上の帰納的プログラム合成

Inductive Program Synthesis over Noisy Datasets using Abstraction Refinement Based Optimization ( http://arxiv.org/abs/2104.13315v1 )

ライセンス: Link先を確認
Shivam Handa and Martin Rinard(参考訳) ノイズの多いデータセット、すなわち不正/誤入力出力例を含む可能性のあるデータに対して、プログラム合成を解くための新しい合成アルゴリズムを提案する。 本アルゴリズムでは, ノイズデータセット上の損失と合成プログラムの複雑さとのトレードオフを最適化するプログラムを, 抽象化による最適化プロセスを用いて合成する。 このアルゴリズムは、サブスペース内の全てのプログラムの出力を表す抽象値を計算することで、プログラムの検索空間をサブスペースに分割するために抽象化を使用する。 抽象的な値は,各部分空間に対して,その部分空間内の全てのプログラムに対する損失の音の近似下界を計算できる。 反復的にこれらの抽象化を洗練し、空間をより小さな部分空間、最適なプログラムを含まないプルーン部分空間に分割し、最終的に最適なプログラムを合成する。 我々はこのアルゴリズムをRoseというツールで実装した。 sygus 2018ベンチマークスイートを用いて,現在のノイズの多いプログラム合成システムと比較した。 SyGus 2018ベンチマークスイートから引き出された2つのノイズの多いベンチマークプログラム合成問題において、Roseは最大1587と81.7のスピードアップを提供し、中央値は20.5と81.7である。 Roseはまた、以前のシステムよりも20(54点中)と4(11点中)のベンチマーク問題を終了する。 roseと以前のシステムは、提供された騒がしいデータセットよりも最適なプログラムを合成する。 ベンチマークセットのほとんどの問題(286ドルのうち272ドル)に対して、合成プログラムは元の(目に見えない)ノイズフリーデータセットのすべての入力に対して正しい出力を生成する。 これらの結果は、Roseが効果的なノイズの多いプログラム合成にもたらすメリットを強調している。

We present a new synthesis algorithm to solve program synthesis over noisy datasets, i.e., data that may contain incorrect/corrupted input-output examples. Our algorithm uses an abstraction refinement based optimization process to synthesize programs which optimize the tradeoff between the loss over the noisy dataset and the complexity of the synthesized program. The algorithm uses abstractions to divide the search space of programs into subspaces by computing an abstract value that represents outputs for all programs in a subspace. The abstract value allows our algorithm to compute, for each subspace, a sound approximate lower bound of the loss over all programs in the subspace. It iteratively refines these abstractions to further subdivide the space into smaller subspaces, prune subspaces that do not contain an optimal program, and eventually synthesize an optimal program. We implemented this algorithm in a tool called Rose. We compare Rose to a current state-of-the-art noisy program synthesis system using the SyGuS 2018 benchmark suite. Our evaluation demonstrates that Rose significantly outperforms this previous system: on two noisy benchmark program synthesis problems sets drawn from the SyGus 2018 benchmark suite, Rose delivers speedups of up to 1587 and 81.7, with median speedups of 20.5 and 81.7. Rose also terminates on 20 (out of 54) and 4 (out of 11) more benchmark problems than the previous system. Both Rose and the previous system synthesize programs that are optimal over the provided noisy data sets. For the majority of the problems in the benchmark sets ($272$ out of $286$), the synthesized programs also produce correct outputs for all inputs in the original (unseen) noise-free data set. These results highlight the benefits that Rose can deliver for effective noisy program synthesis.
翻訳日:2021-04-28 13:16:36 公開日:2021-04-27
# マルチモーダル分析:インフォームドコンテンツ推定と音源分離

MULTIMODAL ANALYSIS: Informed content estimation and audio source separation ( http://arxiv.org/abs/2104.13276v1 )

ライセンス: Link先を確認
Gabriel Meseguer-Brocal(参考訳) この論文は音楽信号の文脈におけるマルチモーダル学習の研究を提案する。 全体として、音声信号とテキスト情報の相互作用に注目している。 利用可能な音楽に関連する多くのテキストソース(例えば、) レビュー、メタデータ、ソーシャルネットワークからのフィードバック)は歌詞に集中します。 歌声は、言語的な次元が楽器の抽象化を補完するメロディと歌詞を結合して、オーディオ信号とテキスト情報をユニークな方法で直接接続する。 本研究では,音源分離と情報コンテンツ推定のための音声と歌詞の相互作用に着目した。

This dissertation proposes the study of multimodal learning in the context of musical signals. Throughout, we focus on the interaction between audio signals and text information. Among the many text sources related to music that can be used (e.g. reviews, metadata, or social network feedback), we concentrate on lyrics. The singing voice directly connects the audio signal and the text information in a unique way, combining melody and lyrics where a linguistic dimension complements the abstraction of musical instruments. Our study focuses on the audio and lyrics interaction for targeting source separation and informed content estimation.
翻訳日:2021-04-28 13:16:08 公開日:2021-04-27
# (参考訳) 経験的測度の収束のための次元自由測度の一クラス

A Class of Dimensionality-free Metrics for the Convergence of Empirical Measures ( http://arxiv.org/abs/2104.12036v2 )

ライセンス: CC BY 4.0
Jiequn Han, Ruimeng Hu, Jihao Long(参考訳) 本稿では,高次元における経験的測度の収束について述べる。 我々は,新しい尺度のクラスを提案し,そのような尺度の下では,収束が次元性の呪い(CoD)を伴わないことを示す。 このような特徴は高次元解析において重要であり、古典的メトリクスとは対照的である(例)。 は、ワッサーシュタイン距離(Wasserstein distance)。 提案手法は,テスト関数空間を選択するための特定の基準を提案して,CoDを含まない性質を保証することで,平均誤差の最大値から導かれる。 したがって、このメトリクスのクラスを一般化された最大平均差(gmmd)と呼ぶ。 選択されたテスト関数空間の例としては、再生核ヒルベルト空間、バロン空間、フロー誘起関数空間がある。 提案したメトリクスの3つの応用例を示す。 確率変数の場合の経験的測度の収束; 2。 n$粒子系のmckean-vlasov確率微分方程式解への収束; 3。 平均場極限による同質な$n$-playerゲームに対する$\varepsilon$-Nash平衡の構成。 副産物として、gmmdで測定された目標分布に近い分布と目標分布の特定の表現が与えられたとき、ワッサースタイン距離と相対エントロピーの観点で目標分布に近い分布を生成できることを証明する。 全体として,提案するメトリクスクラスは,codを使わずに高次元での経験的測度の収束を分析する強力なツールであることを示す。

This paper concerns the convergence of empirical measures in high dimensions. We propose a new class of metrics and show that under such metrics, the convergence is free of the curse of dimensionality (CoD). Such a feature is critical for high-dimensional analysis and stands in contrast to classical metrics ({\it e.g.}, the Wasserstein distance). The proposed metrics originate from the maximum mean discrepancy, which we generalize by proposing specific criteria for selecting test function spaces to guarantee the property of being free of CoD. Therefore, we call this class of metrics the generalized maximum mean discrepancy (GMMD). Examples of the selected test function spaces include the reproducing kernel Hilbert space, Barron space, and flow-induced function spaces. Three applications of the proposed metrics are presented: 1. The convergence of empirical measure in the case of random variables; 2. The convergence of $n$-particle system to the solution to McKean-Vlasov stochastic differential equation; 3. The construction of an $\varepsilon$-Nash equilibrium for a homogeneous $n$-player game by its mean-field limit. As a byproduct, we prove that, given a distribution close to the target distribution measured by GMMD and a certain representation of the target distribution, we can generate a distribution close to the target one in terms of the Wasserstein distance and relative entropy. Overall, we show that the proposed class of metrics is a powerful tool to analyze the convergence of empirical measures in high dimensions without CoD.
翻訳日:2021-04-28 12:10:29 公開日:2021-04-27
# (参考訳) 文脈における意見の不快表現の同定 [全文訳有]

Identifying Offensive Expressions of Opinion in Context ( http://arxiv.org/abs/2104.12227v2 )

ライセンス: CC BY 4.0
Francielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de G\'oes(参考訳) 古典的な情報抽出技術は、事実に関する質問と回答を構築することで構成される。 実際、文脈における意見や感情を識別する主観的情報抽出システムは依然として課題である。 感情に基づくNLPタスクでは、文脈における全ての攻撃的または憎悪的な意見よりも、情報抽出のリソースが少ない。 この重要なギャップを埋めるために、本稿では、文脈依存と文脈非依存の2つのクラスで注釈付けされた、明示的で暗黙の攻撃的かつ誓約的な意見表現からなる、新たな言語的・文脈的攻撃的語彙を提供する。 また,ヘイトスピーチを識別するためのマーカーも提供する。 アノテーションを表現レベルで評価し,高い人間間アノテータ合意を達成した。 攻撃的辞書はポルトガル語と英語で提供されている。

Classic information extraction techniques consist in building questions and answers about the facts. Indeed, it is still a challenge to subjective information extraction systems to identify opinions and feelings in context. In sentiment-based NLP tasks, there are few resources to information extraction, above all offensive or hateful opinions in context. To fill this important gap, this short paper provides a new cross-lingual and contextual offensive lexicon, which consists of explicit and implicit offensive and swearing expressions of opinion, which were annotated in two different classes: context dependent and context-independent offensive. In addition, we provide markers to identify hate speech. Annotation approach was evaluated at the expression-level and achieves high human inter-annotator agreement. The provided offensive lexicon is available in Portuguese and English languages.
翻訳日:2021-04-28 11:35:49 公開日:2021-04-27
# (参考訳) オンラインニューラルシンセティックグラディエントを用いた計算形態形成の高速化 [全文訳有]

Speeding up Computational Morphogenesis with Online Neural Synthetic Gradients ( http://arxiv.org/abs/2104.12282v2 )

ライセンス: CC BY 4.0
Yuyu Zhang, Heng Chi, Binghong Chen, Tsz Ling Elaine Tang, Lucia Mirabella, Le Song, Glaucio H. Paulino(参考訳) 偏微分方程式系(PDE)を制約とする最適化問題として、幅広い近代科学・工学応用が定式化されている。 これらのPDE制約付き最適化問題は、通常標準的な離散化最適化アプローチで解決される。 高解像度のソリューションを必要とする多くの業界アプリケーションにおいて、離散化された制約は簡単に数百万から数十億の変数を持つことができ、標準の反復最適化器が正確な勾配を解くのは非常に遅い。 そこで本研究では,オンラインニューラルネットワーク勾配(ONSG)を用いたPDE制約最適化の高速化を目的とした,新しい2スケール最適化手法を提案する。 我々はPDE制約最適化問題の代表的なクラスである計算形態形成にONSGフレームワークをうまく適用した。 大規模な実験により,提案手法は計算形態素(トポロジー最適化とも呼ばれる)を著しく高速化し,一方,標準最適化器と比較して最終解の質を維持可能であることが示された。 設計変数が約1,400,000の大規模3次元最適設計問題に対して,本手法は最大7.5倍の高速化を実現し,目標値に匹敵する最適化設計を実現する。

A wide range of modern science and engineering applications are formulated as optimization problems with a system of partial differential equations (PDEs) as constraints. These PDE-constrained optimization problems are typically solved in a standard discretize-then-opti mize approach. In many industry applications that require high-resolution solutions, the discretized constraints can easily have millions or even billions of variables, making it very slow for the standard iterative optimizer to solve the exact gradients. In this work, we propose a general framework to speed up PDE-constrained optimization using online neural synthetic gradients (ONSG) with a novel two-scale optimization scheme. We successfully apply our ONSG framework to computational morphogenesis, a representative and challenging class of PDE-constrained optimization problems. Extensive experiments have demonstrated that our method can significantly speed up computational morphogenesis (also known as topology optimization), and meanwhile maintain the quality of final solution compared to the standard optimizer. On a large-scale 3D optimal design problem with around 1,400,000 design variables, our method achieves up to 7.5x speedup while producing optimized designs with comparable objectives.
翻訳日:2021-04-28 11:30:06 公開日:2021-04-27
# (参考訳) Syft 0.5: ユニバーサルデプロイ可能な構造化透明性プラットフォーム [全文訳有]

Syft 0.5: A Platform for Universally Deployable Structured Transparency ( http://arxiv.org/abs/2104.12385v2 )

ライセンス: CC BY 4.0
Adam James Hall, Madhava Jay, Tudor Cebere, Bogdan Cebere, Koen Lennart van der Veen, George Muraru, Tongye Xu, Patrick Cason, William Abramson, Ayoub Benaissa, Chinmay Shah, Alan Aboudib, Th\'eo Ryffel, Kritika Prakash, Tom Titcombe, Varun Kumar Khare, Maddie Shang, Ionesio Junior, Animesh Gupta, Jason Paumier, Nahua Kang, Vova Manannikov, Andrew Trask(参考訳) syft 0.5は、構造化された透明性システムの普遍的なセットを促進する、プライバシ向上技術の中核的グループを組み合わせた汎用フレームワークである。 このフレームワークは、同型に暗号化されたアクティベーション信号を推論のために分割ニューラルネットワークを介して渡す、新しいプライバシ保護推論情報フローの設計と実装を通じて実証される。 さらに,モデルを計算チェーンに分割することで,モデルの秘密さを犠牲にして,推論の計算時間とアクティベーション信号のペイロードサイズを大幅に削減できることを示した。 我々は,コアとなる構造的透明性原則の提供に関して,提案するフローを評価する。

We present Syft 0.5, a general-purpose framework that combines a core group of privacy-enhancing technologies that facilitate a universal set of structured transparency systems. This framework is demonstrated through the design and implementation of a novel privacy-preserving inference information flow where we pass homomorphically encrypted activation signals through a split neural network for inference. We show that splitting the model further up the computation chain significantly reduces the computation time of inference and the payload size of activation signals at the cost of model secrecy. We evaluate our proposed flow with respect to its provision of the core structural transparency principles.
翻訳日:2021-04-28 11:13:54 公開日:2021-04-27
# (参考訳) 単語感覚の曖昧さ解消のためのノンパラメトリック・マイノショット学習 [全文訳有]

Non-Parametric Few-Shot Learning for Word Sense Disambiguation ( http://arxiv.org/abs/2104.12677v2 )

ライセンス: CC BY 4.0
Howard Chen, Mengzhou Xia, and Danqi Chen(参考訳) word sense disambiguation (wsd) は自然言語処理における長年の問題である。 教師あり全語wsdにおける1つの重要な課題は、ロングテール分布にある単語の大多数の感覚を分類することである。 例えば、アノテーション付き単語の84%は、semcorトレーニングデータに10未満の例を持っている。 この問題は、単語分布と感覚分布の両方で不均衡が発生するため、より顕著である。 本研究では,このデータ不均衡を解消するために,非パラメトリックな少数ショット学習手法であるmetricwsdを提案する。 エピソード訓練により、ある単語の感覚間の距離を計算することで、MetricWSDは、高頻度の単語から頻繁な単語への知識(学習距離空間)を伝達する。 MetricWSDは、単語周波数に合わせたトレーニングエピソードを構築し、従来の作業でパラメトリックモデルで訓練されたすべての単語を混合するのではなく、歪んだ分布の問題に明示的に対処する。 語彙資源に頼らずに、MetricWSDはパラメトリックな代替品に対して強力な性能を獲得し、統一されたWSD評価ベンチマーク(Raganato et al., 2017b)で75.1 F1スコアを達成した。 我々の分析は、頻繁な単語や感覚が著しく改善されることを示す。

Word sense disambiguation (WSD) is a long-standing problem in natural language processing. One significant challenge in supervised all-words WSD is to classify among senses for a majority of words that lie in the long-tail distribution. For instance, 84% of the annotated words have less than 10 examples in the SemCor training data. This issue is more pronounced as the imbalance occurs in both word and sense distributions. In this work, we propose MetricWSD, a non-parametric few-shot learning approach to mitigate this data imbalance issue. By learning to compute distances among the senses of a given word through episodic training, MetricWSD transfers knowledge (a learned metric space) from high-frequency words to infrequent ones. MetricWSD constructs the training episodes tailored to word frequencies and explicitly addresses the problem of the skewed distribution, as opposed to mixing all the words trained with parametric models in previous work. Without resorting to any lexical resources, MetricWSD obtains strong performance against parametric alternatives, achieving a 75.1 F1 score on the unified WSD evaluation benchmark (Raganato et al., 2017b). Our analysis further validates that infrequent words and senses enjoy significant improvement.
翻訳日:2021-04-28 10:59:43 公開日:2021-04-27
# Riemannian Gauss-Newtonによる低ランクテンソル推定:統計的最適性と2次収束

Low-rank Tensor Estimation via Riemannian Gauss-Newton: Statistical Optimality and Second-Order Convergence ( http://arxiv.org/abs/2104.12031v2 )

ライセンス: Link先を確認
Yuetian Luo, Anru R. Zhang(参考訳) 本稿では, タッカー級のテンソルを, ノイズの少ない線形測定値から推定する。 一般的な問題は、テンソル回帰、テンソル完備化、テンソルPCA/SVDなど、応用から生じる多くの具体例をカバーする。 低タッカー階テンソル推定のための高速実装を備えたリーマンガウスニュートン法(RGN)を提案する。 文献におけるRGNの一般(超)線形収束保証とは違い、軽度条件下での低ランクテンソル推定に対するRGNの最初の二次収束保証を証明する。 rgnの統計的最適性を示す決定論的推定誤差が上限値に一致する。 RGNの利点は、テンソル回帰とテンソルSVDという2つの機械学習アプリケーションを通して説明される。 最後に,理論的な知見を裏付けるシミュレーション結果を提供する。

In this paper, we consider the estimation of a low Tucker rank tensor from a number of noisy linear measurements. The general problem covers many specific examples arising from applications, including tensor regression, tensor completion, and tensor PCA/SVD. We propose a Riemannian Gauss-Newton (RGN) method with fast implementations for low Tucker rank tensor estimation. Different from the generic (super)linear convergence guarantee of RGN in the literature, we prove the first quadratic convergence guarantee of RGN for low-rank tensor estimation under some mild conditions. A deterministic estimation error lower bound, which matches the upper bound, is provided that demonstrates the statistical optimality of RGN. The merit of RGN is illustrated through two machine learning applications: tensor regression and tensor SVD. Finally, we provide the simulation results to corroborate our theoretical findings.
翻訳日:2021-04-28 10:49:33 公開日:2021-04-27
# 深部構造モデルを用いた実用的広角画像補正

Practical Wide-Angle Portraits Correction with Deep Structured Models ( http://arxiv.org/abs/2104.12464v2 )

ライセンス: Link先を確認
Jing Tan, Shan Zhao, Pengfei Xiong, Jiangyu Liu, Haoqiang Fan, Shuaicheng Liu(参考訳) 広角の肖像画はしばしば拡張された景色を楽しめる。 しかし、特に、背景が歪んで顔が伸びているグループ肖像画を撮影する際には、視線歪みが顕著である。 本稿では,このような人工物を自由撮影写真から取り除くための,最初のディープラーニング手法を提案する。 具体的には、入力として広角ポートレートが与えられた場合、LineNet、ShapeNet、トランジションモジュール(TM)で構成されるカスケードネットワークを構築し、背景の視点歪みを補正し、顔領域の立体投影に適応し、これら2つのプロジェクション間のスムーズな遷移を実現する。 ネットワークをトレーニングするために、アイデンティティ、シーン、カメラモジュールに大きな多様性を持つ最初の視点ポートレートデータセットを構築しました。 定量的評価には,ラインの整合性と面の整合性という2つの新しい指標を導入する。 従来の最先端手法と比較して,カメラの歪みパラメータは不要である。 我々は,従来の最先端手法よりも質的,定量的に優れていることを示す。

Wide-angle portraits often enjoy expanded views. However, they contain perspective distortions, especially noticeable when capturing group portrait photos, where the background is skewed and faces are stretched. This paper introduces the first deep learning based approach to remove such artifacts from freely-shot photos. Specifically, given a wide-angle portrait as input, we build a cascaded network consisting of a LineNet, a ShapeNet, and a transition module (TM), which corrects perspective distortions on the background, adapts to the stereographic projection on facial regions, and achieves smooth transitions between these two projections, accordingly. To train our network, we build the first perspective portrait dataset with a large diversity in identities, scenes and camera modules. For the quantitative evaluation, we introduce two novel metrics, line consistency and face congruence. Compared to the previous state-of-the-art approach, our method does not require camera distortion parameters. We demonstrate that our approach significantly outperforms the previous state-of-the-art approach both qualitatively and quantitatively.
翻訳日:2021-04-28 10:49:20 公開日:2021-04-27
# Visformer:視覚に優しいトランスフォーマー

Visformer: The Vision-friendly Transformer ( http://arxiv.org/abs/2104.12533v2 )

ライセンス: Link先を確認
Zhengsu Chen, Lingxi Xie, Jianwei Niu, Xuefeng Liu, Longhui Wei, Qi Tian(参考訳) 過去1年間、視覚問題にトランスフォーマーモジュールを適用する急速な開発が見られた。 一部の研究者は、トランスフォーマーモデルがデータに適合する能力を持っていることを実証しているが、特にトレーニングデータに制限がある場合、これらのモデルが過剰に適合していることを示す証拠は増え続けている。 本稿では,トランスフォーマーモデルから畳み込みモデルへ段階的に移行するステップバイステップ操作による実証的研究を提案する。 遷移過程において得られた結果は、視覚認識を改善するのに有用なメッセージを提供する。 これらの観測に基づいて,視覚にやさしいトランスフォーマーを省略したVisformerという新しいアーキテクチャを提案する。 同じ計算複雑性で、Visformerは、ImageNet分類精度の観点からTransformerベースのモデルと畳み込みベースのモデルの両方より優れており、モデルの複雑さが小さくなり、トレーニングセットが小さくなると、その利点はより重要になる。 コードはhttps://github.com/d anczs/visformerで入手できる。

The past year has witnessed the rapid development of applying the Transformer module to vision problems. While some researchers have demonstrated that Transformer-based models enjoy a favorable ability of fitting data, there are still growing number of evidences showing that these models suffer over-fitting especially when the training data is limited. This paper offers an empirical study by performing step-by-step operations to gradually transit a Transformer-based model to a convolution-based model. The results we obtain during the transition process deliver useful messages for improving visual recognition. Based on these observations, we propose a new architecture named Visformer, which is abbreviated from the `Vision-friendly Transformer'. With the same computational complexity, Visformer outperforms both the Transformer-based and convolution-based models in terms of ImageNet classification accuracy, and the advantage becomes more significant when the model complexity is lower or the training set is smaller. The code is available at https://github.com/d anczs/Visformer.
翻訳日:2021-04-28 10:49:04 公開日:2021-04-27
# 複数モーダルデータを用いた共同表現学習と新たなカテゴリー発見

Joint Representation Learning and Novel Category Discovery on Single- and Multi-modal Data ( http://arxiv.org/abs/2104.12673v2 )

ライセンス: Link先を確認
Xuhui Jia and Kai Han and Yukun Zhu and Bradley Green(参考訳) 本稿では,異なるカテゴリのラベルを持つ単一およびマルチモーダルデータにおける新しいカテゴリ発見の問題について検討する。 信頼性の高い表現を共同学習し、ラベルなしのデータにクラスタを割り当てる汎用的なエンドツーエンドフレームワークを提案する。 ラベル付きデータへの学習埋め込みが過剰に収まるのを避けるため、ノイズコントラスト推定による自己教師付き表現学習から着想を得て、ラベル付きデータとラベル付きデータを同時に扱うように拡張する。 特に,ラベル付きデータにおけるカテゴリ識別とマルチモーダルデータにおけるクロスモーダル識別を用いて,従来のコントラスト学習手法におけるインスタンス識別の強化を提案する。 さらに,共有表現空間におけるウィナー・テイク・オール(wta)ハッシュアルゴリズムを用いて,ラベルなしデータに対してペアワイズ擬似ラベルを生成し,クラスタ割り当てを予測する。 我々は,大規模マルチモーダルビデオベンチマークのKinetics-400,VGG-Sou nd,画像ベンチマークのCIFAR10,CIFAR100,Ima geNetを徹底的に評価し,最新の結果を得た。

This paper studies the problem of novel category discovery on single- and multi-modal data with labels from different but relevant categories. We present a generic, end-to-end framework to jointly learn a reliable representation and assign clusters to unlabelled data. To avoid over-fitting the learnt embedding to labelled data, we take inspiration from self-supervised representation learning by noise-contrastive estimation and extend it to jointly handle labelled and unlabelled data. In particular, we propose using category discrimination on labelled data and cross-modal discrimination on multi-modal data to augment instance discrimination used in conventional contrastive learning approaches. We further employ Winner-Take-All (WTA) hashing algorithm on the shared representation space to generate pairwise pseudo labels for unlabelled data to better predict cluster assignments. We thoroughly evaluate our framework on large-scale multi-modal video benchmarks Kinetics-400 and VGG-Sound, and image benchmarks CIFAR10, CIFAR100 and ImageNet, obtaining state-of-the-art results.
翻訳日:2021-04-28 10:48:45 公開日:2021-04-27
# 非IIDデータの高速収束のための半分散フェデレーションエッジ学習

Semi-Decentralized Federated Edge Learning for Fast Convergence on Non-IID Data ( http://arxiv.org/abs/2104.12678v2 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Yuyi Mao and Jun Zhang(参考訳) フェデレーションエッジラーニング(FEEL)は、データプライバシを保ちながら、クラウドベースの機械学習ソリューションにおける大きな通信遅延を低減する効果的な代替手段として登場した。 残念ながら、FEELの学習性能は、単一エッジクラスタでの限られたトレーニングデータのために損なわれる可能性がある。 本稿では,FEELの新たな枠組み,すなわち半分散型フェデレーションエッジ学習(SD-FEEL)について検討する。 異なるエッジクラスタ間のモデルアグリゲーションを可能にすることで、sd-feelはトレーニングレイテンシの低減と、複数のエッジクラスタからよりリッチなトレーニングデータへのアクセスによる学習パフォーマンスの向上という、フィールのメリットを享受する。 ローカルモデル更新,クラスタ内およびクラスタ間モデル集約など,ラウンド毎に3つの主要な手順を持つsd-feelのトレーニングアルゴリズムが提示され,非独立かつ同一分散(非iid)データに収束することが証明された。 また,エッジサーバのネットワークトポロジとクラスタ間モデルアグリゲーションの通信オーバーヘッドとの相互作用をトレーニング性能で特徴付ける。 その結果, SD-FFELが高速収束に有効であることを実証した。 また、トレーニングアルゴリズムの重要なハイパーパラメータの選択に関するガイドラインも提供される。

Federated edge learning (FEEL) has emerged as an effective alternative to reduce the large communication latency in Cloud-based machine learning solutions, while preserving data privacy. Unfortunately, the learning performance of FEEL may be compromised due to limited training data in a single edge cluster. In this paper, we investigate a novel framework of FEEL, namely semi-decentralized federated edge learning (SD-FEEL). By allowing model aggregation between different edge clusters, SD-FEEL enjoys the benefit of FEEL in reducing training latency and improves the learning performance by accessing richer training data from multiple edge clusters. A training algorithm for SD-FEEL with three main procedures in each round is presented, including local model updates, intra-cluster and inter-cluster model aggregations, and it is proved to converge on non-independent and identically distributed (non-IID) data. We also characterize the interplay between the network topology of the edge servers and the communication overhead of inter-cluster model aggregation on training performance. Experiment results corroborate our analysis and demonstrate the effectiveness of SD-FFEL in achieving fast convergence. Besides, guidelines on choosing critical hyper-parameters of the training algorithm are also provided.
翻訳日:2021-04-28 10:48:25 公開日:2021-04-27